382
Python
[Python3與SEO]計算頁麵相似度(jieba分詞+餘弦相似度公式)
計算兩頁麵之間相似度步驟如下:
1、獲取頁麵相關信息:頁麵title、頁麵主題文本;
2、先進行jieba分詞,去掉停詞;
3、然後分別計算每個詞在頁麵a、頁麵b中的詞頻數;
4、最後利用餘弦相似度公式計算兩頁麵的title相似度、頁麵主題相似度;
相關知識點:
1、jieba分詞。介紹、安裝、使用方法,地址:https://github.com/fxsjy/jieba;
2、餘弦相似度。介紹,地址:https://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
3、文本餘弦相似度計算。方法,地址:https://my.oschina.net/BreathL/blog/42477
運行結果如下圖所示:
計算頁麵相似度Python腳本如下:
本代碼餘弦相似度計算部分代碼參考:
1、自己實現文本相似度算法(餘弦定理),地址:https://my.oschina.net/BreathL/blog/42477/
2、比較兩個文本的相似性,地址:https://my.oschina.net/dancing/blog/144233
預留問題:
1、兩頁麵內容一多一少,如何計算?
2、頁麵頭、底文字是否會影響頁麵相似度?本文計算方式是去掉頁麵頭、尾,隻取頁麵主幹區域文本信息;
最後更新:2017-10-08 16:00:01