《Hadoop与大数据挖掘》一2.6.2 Hadoop TF-IDF编程思路
本节书摘来华章计算机《Hadoop与大数据挖掘》一书中的第2章 ,第2.6.2节,张良均 樊 哲 位文超 刘名军 许国杰 周 龙 焦正升 着 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.6.2 Hadoop TF-IDF编程思路
这里不再给出TF-IDF的单机算法实现,而直接给出其Hadoop算法实现思路,如图2-52所示。
具体算法描述如下。
Job1:针对每个文件集中的每个输入文件,分别统计其各个单词出现的次数,输出为<单词w|文件名f,该单词w在文件f中出现的次数f-w-count>。
Job2:针对Job1的输出,统计文件f中所有单词的个数(及一共有多少个唯一的单词),输出为<单词w|文件名f,该单词w在文件f中出现的次数f-w-count |文件f中的单词数f-length>。
Job3:先统计文件集的文件个数length;然后,根据Job2的输出,统计每个单词在所有文件集中出现的文件个数,输出<单词w, [文件名f1=f1-w-count|f1-length, 文件名f2=f2-w-count|f2-length,…]>(根据这里的数据即可得到单词w一共在k个文件中出现)。根据这样的记录即可求得<单词w|文件名f1, f1-w-count|f1-length *log(length/k)>, 单词w|文件名f2, f2-w-count|f2-length *log(length/k)>,即:<单词w|文件名f1,tf-idf-f1-w>,也就是每个单词在文件中的权重TF-IDF。
其MapReduce数据流如图2-53所示。
最后更新:2017-06-26 11:01:53