1107
gooseeker集搜客
采网址做层级采集——以大众点评为例
一、操作步骤
前面写过两篇教程,《采集列表数据》是采集大众点评的列表页,《采集网页数据》是采集大众点评的店铺详情页,很多人想把这两个串在一起,这样就能批量采集店铺详情页的数据了。下面我们通过层级采集来实现,它是通过网址关联起两级页面,从而实现批量采集二级页面。下面还是以大众点评为例,讲解如何设置层级采集。操作步骤如下:
二、案例规则+操作步骤
- 第一级采集规则:大众点评列表(可点击下载)
- 第一级样本网址:https://www.dianping.com/search/category/7/10/g103r6013
- 第一级采集内容:每一个店铺的名称、评论数、人均消费、地理位置、菜系、口味、环境和服务、网址
- 第二级采集规则:大众点评店铺信息(可点击下载)
- 第二级样本网址:https://www.dianping.com/shop/32656893
- 第二级采集内容:店铺名称、地址、电话
第一步:定义第一级规则的具体操作可以参考文章《采集列表数据》,如需设置翻页,请参考文章《翻页采集列表》,下面从第二步操作讲起。
第二步:设置下级线索
2.1,网址通常是存在attributes下的@href节点中。在浏览器上直接点击商品的标题定位到网页节点H4,展开它的下层节点,没有找到@href,再找它的上层节点A,找到@href,注意要检验一下是否为对应的下级网址,再右击@href选择“内容映射”->“新建抓取内容”,输入标签名(任意命名),比如,“网址”。
2.2,在整理箱里选中“网址”,打勾“下级线索”。这个只能对映射了网址的标签名进行设置。
2.3,切换到爬虫路线窗口,选择下级线索的路线(定位编号总是info),在目标主题名里填上第二级规则的主题名。
2.4,测试没有问题,就可以保存规则。
注意:如下图,抓到的是相对网址,即缺少了域名部分,这是因为很多网站都采用了相对网址的方式,但是爬虫给下级主题生成线索就会自动补全域名,所以,不会影响下级网页的采集。
第三步:定义第二级规则
点击“规则”菜单->“新建”,工作台会被清空,然后就可以开始建立第二级规则,输入二级页面的网址,标注想要采集的信息就可以了。本案例第二级规则的制作操作详见文章《采集网页数据》,这里就不重复讲了。
第四步:抓数据
4.1,层级规则是分开独立运行的,先运行第一级规则,它就会把抓到的下级网址自动导入到下级规则里
4.2,再运行第二级规则,先统计一下线索数,然后就可以输入统计到的网址数,进行批量采集。如果两级要同时运行,点各自的“集搜”,就能各自运行在集搜窗口。
4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,详情见文章《查看数据结果》,另外,两级规则的数据如果要合并可以参考文章《多层级采集结果合并》。
上篇文章:《翻页采集列表》 下篇文章:《定位标志:精确采集范围》
若有疑问可以或

最后更新:2017-01-09 14:08:11