《Hadoop与大数据挖掘》一2.6.2　Hadoop TF-IDF编程思路

本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.6.2节，张良均　樊　哲　位文超　刘名军许国杰　周　龙　焦正升　着更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6.2　Hadoop TF-IDF编程思路

这里不再给出TF-IDF的单机算法实现，而直接给出其Hadoop算法实现思路，如图2-52所示。
具体算法描述如下。
Job1：针对每个文件集中的每个输入文件，分别统计其各个单词出现的次数，输出为<单词w|文件名f，该单词w在文件f中出现的次数f-w-count>。
Job2：针对Job1的输出，统计文件f中所有单词的个数（及一共有多少个唯一的单词），输出为<单词w|文件名f，该单词w在文件f中出现的次数f-w-count |文件f中的单词数f-length>。

最后更新：2017-06-26 11:01:53

《Hadoop与大数据挖掘》一2.6.2　Hadoop TF-IDF编程思路

2.6.2　Hadoop TF-IDF编程思路

上一篇：《Hadoop与大数据挖掘》一2.6.3　Hadoop TF-IDF编程实现

下一篇：《Hadoop与大数据挖掘》一2.6　TF-IDF算法原理及Hadoop MapReduce实现

相关内容

热门内容

最新内容

《Hadoop与大数据挖掘》一2.6.2 Hadoop TF-IDF编程思路

2.6.2 Hadoop TF-IDF编程思路

上一篇： 《Hadoop与大数据挖掘》一2.6.3 Hadoop TF-IDF编程实现

下一篇： 《Hadoop与大数据挖掘》一2.6 TF-IDF算法原理及Hadoop MapReduce实现

相关内容

热门内容

最新内容

《Hadoop与大数据挖掘》一2.6.2　Hadoop TF-IDF编程思路

2.6.2　Hadoop TF-IDF编程思路

上一篇：《Hadoop与大数据挖掘》一2.6.3　Hadoop TF-IDF编程实现

下一篇：《Hadoop与大数据挖掘》一2.6　TF-IDF算法原理及Hadoop MapReduce实现