阅读65 返回首页    go gooseeker集搜客


翻页采集列表

一、操作步骤

采集具有一页以上的列表网页就要设置翻页,这样DS打数机才能自动翻页采数据。选取一个具有翻页的样本网址来做规则,就可以用这个规则来批量采集同类网址(一页或多页都适用)。下面用大众点评网作为案例,操作步骤下:


二、案例规则+操作步骤

  • 采集规则:大众点评采集(可点击下载)
  • 样本网址:https://www.dianping.com/search/category/7/10/g103r6013
  • 采集内容:每一个店铺的名称、评论数、人均消费、地理位置、菜系、口味、环境和服务,并自动翻页采集。

本案例是在上一篇文章《采集列表数据》的基础上,直接增加翻页设置,所以,前三步操作就不重复讲了,下面就直接讲第四步操作。

第四步:设置翻页

4.1,新建记号线索:选择“爬虫路线”,点击“新建”,选择“记号线索”,勾上“连贯抓取”,“目标主题名”会自动填上当前主题名,指循环调用这个规则。


4.2,设置记号线索是要做两次映射的,第一次是映射翻页区块的范围,第二次是映射翻页记号。

4.2.1,第一次映射翻页区块的范围:点击翻页标志定位到对应的网页节点,这里指“下一页”、“加载更多”等翻页按钮,右击节点选择“线索映射”->“定位”->“线索*”,爬虫路线就会的“定位编号”就会映射上该节点的编号。


4.2.2,第二次映射翻页记号:双击翻页区块节点展开下层,找到翻页记号所在的节点,这里指翻页按钮的文本节点或属性值,右击节点选择“线索映射”->“记号映射”。


4.3,定位选项的默认项是偏好id,由于不同页码的翻页区id值可能会变化,而class值通常不变,所以,最好改为偏好class。


第五步:存规则,抓数据

5.1,点击存规则、抓数据,在DS打数机里看翻页是否成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个xml文件,详情见文章《查看数据结果》。


上篇文章:《采集列表数据》                                                                             下篇文章:《层级网页采集》



若有疑问可以或集搜客爬虫软件

最后更新:2017-01-09 14:08:09

  上一篇:go 百度拓词工具应用(2):消除信息不对称,调对话语频
  下一篇:go 获取微博原始数据,研究模型自己任意定