采集列表数据

一、操作步骤

采集列表时，可以看到多条结构相同的信息，我们把一条信息称为一个样例，例如，表格中的每一行就是一个样例，又如，百度搜索结果中的每个结果也是一个样例。具有两个样例以上的网页，做样例复制映射就能把整个列表都采集下来。下面用大众点评网作为案例，操作步骤下：

二、案例规则+操作步骤

采集规则：大众点评采集（可点击下载）
样本网址：https://www.dianping.com/search/category/7/10/g103r6013
采集内容：每一个店铺的名称、评论数、人均消费、地理位置、菜系、口味、环境和服务

第一步：打开网页

1.1，打开GS爬虫浏览器，输入网址并Enter，加载出网页后再点击“定义规则”按钮，可以看到一个浮窗显示出来，称为工作台，在上面定义规则；

1.2，在工作台中输入主题名，可以点击“查重”看看名字是否被占用。

第二步：标注信息

2.1，在浏览器窗口双击要采集的内容，在弹出小窗中输入标签名，打勾确认或Enter，即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。

2.2，重复上一步骤，对其他信息进行标注。

2.3，最好设置“关键内容”选项，这样爬虫才能判断出采集规则是否合适。在整理箱中选一个网页上必然能采到的标签，勾上“关键内容”。本例中对“店铺名称”勾选（如下图）。

第三步：样例复制

3.1，在工作台上选中容器“列表”（所谓容器，就是包含子内容），如下图启用样例复制功能；

3.2，在浏览器上找到第一个样例所在的网页区域。过程是：点击网页上第一个样例（蓝色框）的某个文字，可以看到在DOM树（窗口的下部窗口，网页标签用一个层次化的树状结构表示）上定位到了某个html标签。往上逐层找到能框住整个样例的标签，只要注意观察，就能发现往上找标签的时候，浏览器区域变成黄色背景，而且逐步扩大，等黄色背景能框住所有抓取内容的时候，这就是第一个样例的潜在区域，它是用一个HTML节点代表的。注意这只是一个“潜在”的可用节点，还要观察一下它的兄弟节点，如上图，第一个LI下面的兄弟全部是一样的LI，那么这个潜在区域就是我们要的。每个样例都是相同类型的“兄弟”节点所代表的。如果找不到相同的兄弟，还应该继续往DOM树的上层找；

3.3，右击代表第一个样例的HTML节点，选择“样例复制”->“第一个”，在样例复制管理框中就会看到样例1被映射了一个节点编号。

3.4，同理，选中相邻的下一个HTML节点（红色框），右击选择“样例复制”->“第二个”。