新闻分类案例__案例_机器学习-阿里云
(本文数据为虚构,仅供实验。本实验拟在介绍文本类组件,具体有意实现效果的提升请联系我们,我们提供完整解决方案和商业合作。)
一、背景
新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。
本文通过PLDA算法挖掘文章的主题,通过主题权重的聚类,实现新闻自动分类。包括了分词、词型转换、停用词过滤、主题挖掘、聚类等流程。
二、数据集介绍
具体字段如下:
字段名 | 含义 | 类型 | 描述 |
---|---|---|---|
category | 新闻类型 | string | 体育、女性、社会、军事、科技等 |
title | 标题 | string | 新闻标题 |
content | 内容 | string | 新闻内容 |
数据截图:
三、数据探索流程
首先,实验流程图:
实验可以大致分为五个模块,分别是增加序号列、停用词过滤、分词及词频统计、文本主题挖掘、结果分析和评估。
1.增加序号列
本文的数据源输入是以单个新闻为单元,需要增加ID列来作为每篇新闻的唯一标识,方便下面的算法进行计算。
2.分词及词频统计
这两步都是文本挖掘领域最常规的做法,首先利用分词控件对于content字段,也就是新闻内容进行分词。去除过滤词之后(过滤词一般是标点符号及助语),对于词频进行统计。如下图:
3.停用词过滤
停用词过滤功能用于过滤输入的停用词词库,一般过滤标点符号以及对于文章影响较少的助语等。
4.文本主题挖掘
使用PLDA文本挖掘组件需要先将文本转换成三元形式,append_id是每篇新闻的唯一标识,key_value字段中冒号前面的数字表示的是单词抽象成的数字标识,冒号后面是对应的单词出现的频率。三元组组件生成结果如下:
在上一步完成了文本转数字的过程,下一步数据进入PLDA算法。PLDA算法又叫主题模型,算法可以定位代表每篇文章的主题的词语。本次试验设置了50个主题,PLDA有六个输出桩,第五个输出桩输出结果显示的是每篇文章对应的每个主题的概率。如图:
5.结果分析和评估
上一步把文章从主题的维度表示成了一个向量。接下来就可以通过向量的距离实现聚类,从而实现文章分类。我们这里可以简单看一下分类的结果。查看K均值聚类组件的结果,cluster_index表示的是每一类的名称。找到第0类,一共有docid为115,292,248,166四篇文章。
通过过滤与映射组件查询115,292,248,166四篇文章。结果如下:
效果并不十分理想,将一篇财经、一篇科技的新闻跟两个体育类新闻分到了一起。主要原因是细节的调优没有做,也没有做特征工程,同时数据量太小也是一个主要的因素。本文只是一个简单的案例,商业合作可以私下联系我们,我们在文本方面我们有较完善的解决方案。
四、其它
参与讨论:云栖社区公众号
免费体验:阿里云数加机器学习平台
联系我们: aohai.lb@alibaba-inc.com
往期文章:
【玩转数据系列二】机器学习应用没那么难,这次教你玩心脏病预测
【玩转数据系列四】听说啤酒和尿布很配?本期教你用协同过滤做推荐
最后更新:2016-08-17 16:01:44
上一篇:
心脏病预测案例__案例_机器学习-阿里云
下一篇:
协同过滤做商品推荐__案例_机器学习-阿里云
三大论文入围ACMMM,阿里云的城市大脑会是AI的未来吗?
查询流量数据__资源监控接口_API 手册_CDN-阿里云
API使用__录音文件识别_语音识别(ASR)_智能语音交互-阿里云
数据推送__性能篇_最佳实践_开放搜索-阿里云
UDF开发插件介绍__Eclipse开发插件_工具_大数据计算服务-阿里云
阿里云胡晓明:服务100万家客户不算什么,服务1000万家才是能力
作业日期设置__作业_用户指南_E-MapReduce-阿里云
申请资源__快速入门_消息队列 MQ-阿里云
设备状态__产品管理_控制台使用手册_阿里云物联网套件
为磁盘设置自动快照策略__快照_用户指南_云服务器 ECS-阿里云
相关内容
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云