采网址做层级采集——以大众点评为例

一、操作步骤

前面写过两篇教程，《采集列表数据》是采集大众点评的列表页，《采集网页数据》是采集大众点评的店铺详情页，很多人想把这两个串在一起，这样就能批量采集店铺详情页的数据了。下面我们通过层级采集来实现，它是通过网址关联起两级页面，从而实现批量采集二级页面。下面还是以大众点评为例，讲解如何设置层级采集。操作步骤如下：

二、案例规则+操作步骤

第一级采集规则：大众点评列表（可点击下载）
第一级样本网址：https://www.dianping.com/search/category/7/10/g103r6013
第一级采集内容：每一个店铺的名称、评论数、人均消费、地理位置、菜系、口味、环境和服务、网址
第二级采集规则：大众点评店铺信息（可点击下载）
第二级样本网址：https://www.dianping.com/shop/32656893
第二级采集内容：店铺名称、地址、电话

第一步：定义第一级规则的具体操作可以参考文章《采集列表数据》，如需设置翻页，请参考文章《翻页采集列表》，下面从第二步操作讲起。

第二步：设置下级线索

2.1，网址通常是存在attributes下的@href节点中。在浏览器上直接点击商品的标题定位到网页节点H4，展开它的下层节点，没有找到@href，再找它的上层节点A，找到@href，注意要检验一下是否为对应的下级网址，再右击@href选择“内容映射”->“新建抓取内容”，输入标签名（任意命名），比如，“网址”。