閱讀382 返回首頁    go Python


[Python3與SEO]計算頁麵相似度(jieba分詞+餘弦相似度公式)

計算兩頁麵之間相似度步驟如下:

1、獲取頁麵相關信息:頁麵title、頁麵主題文本;

2、先進行jieba分詞,去掉停詞;

3、然後分別計算每個詞在頁麵a、頁麵b中的詞頻數;

4、最後利用餘弦相似度公式計算兩頁麵的title相似度、頁麵主題相似度;

相關知識點:

1、jieba分詞。介紹、安裝、使用方法,地址:https://github.com/fxsjy/jieba;

2、餘弦相似度。介紹,地址:https://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

3、文本餘弦相似度計算。方法,地址:https://my.oschina.net/BreathL/blog/42477

運行結果如下圖所示:

計算頁麵相似度Python腳本如下:

本代碼餘弦相似度計算部分代碼參考:

1、自己實現文本相似度算法(餘弦定理),地址:https://my.oschina.net/BreathL/blog/42477/

2、比較兩個文本的相似性,地址:https://my.oschina.net/dancing/blog/144233

預留問題:

1、兩頁麵內容一多一少,如何計算?

2、頁麵頭、底文字是否會影響頁麵相似度?本文計算方式是去掉頁麵頭、尾,隻取頁麵主幹區域文本信息;

最後更新:2017-10-08 16:00:01

  上一篇:go Python 將Excel表中多列數據去重後快速合並成一列
  下一篇:go Python麵試必須要看的15個問題