阅读382 返回首页    go Python


[Python3与SEO]计算页面相似度(jieba分词+余弦相似度公式)

计算两页面之间相似度步骤如下:

1、获取页面相关信息:页面title、页面主题文本;

2、先进行jieba分词,去掉停词;

3、然后分别计算每个词在页面a、页面b中的词频数;

4、最后利用余弦相似度公式计算两页面的title相似度、页面主题相似度;

相关知识点:

1、jieba分词。介绍、安装、使用方法,地址:https://github.com/fxsjy/jieba;

2、余弦相似度。介绍,地址:https://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

3、文本余弦相似度计算。方法,地址:https://my.oschina.net/BreathL/blog/42477

运行结果如下图所示:

计算页面相似度Python脚本如下:

本代码余弦相似度计算部分代码参考:

1、自己实现文本相似度算法(余弦定理),地址:https://my.oschina.net/BreathL/blog/42477/

2、比较两个文本的相似性,地址:https://my.oschina.net/dancing/blog/144233

预留问题:

1、两页面内容一多一少,如何计算?

2、页面头、底文字是否会影响页面相似度?本文计算方式是去掉页面头、尾,只取页面主干区域文本信息;

最后更新:2017-10-08 16:00:01

  上一篇:go Python 将Excel表中多列数据去重后快速合并成一列
  下一篇:go Python面试必须要看的15个问题