翻页采集列表

一、操作步骤

采集具有一页以上的列表网页就要设置翻页，这样DS打数机才能自动翻页采数据。选取一个具有翻页的样本网址来做规则，就可以用这个规则来批量采集同类网址（一页或多页都适用）。下面用大众点评网作为案例，操作步骤下：

二、案例规则+操作步骤

本案例是在上一篇文章《采集列表数据》的基础上，直接增加翻页设置，所以，前三步操作就不重复讲了，下面就直接讲第四步操作。

第四步：设置翻页

4.1，新建记号线索：选择“爬虫路线”，点击“新建”，选择“记号线索”，勾上“连贯抓取”，“目标主题名”会自动填上当前主题名，指循环调用这个规则。

4.2，设置记号线索是要做两次映射的，第一次是映射翻页区块的范围，第二次是映射翻页记号。

4.2.1，第一次映射翻页区块的范围：点击翻页标志定位到对应的网页节点，这里指“下一页”、“加载更多”等翻页按钮，右击节点选择“线索映射”->“定位”->“线索*”，爬虫路线就会的“定位编号”就会映射上该节点的编号。

4.2.2，第二次映射翻页记号：双击翻页区块节点展开下层，找到翻页记号所在的节点，这里指翻页按钮的文本节点或属性值，右击节点选择“线索映射”->“记号映射”。

4.3，定位选项的默认项是偏好id，由于不同页码的翻页区id值可能会变化，而class值通常不变，所以，最好改为偏好class。

第五步：存规则，抓数据

5.1，点击存规则、抓数据，在DS打数机里看翻页是否成功，翻页采集成功的话，在本地DataScraperWorks文件夹中会生成多个xml文件，详情见文章《查看数据结果》。

上篇文章：《采集列表数据》下篇文章：《层级网页采集》

若有疑问可以或

最后更新：2017-01-09 14:08:09