阅读747 返回首页    go gooseeker集搜客


采集列表数据

一、操作步骤

采集列表时,可以看到多条结构相同的信息,我们把一条信息称为一个样例,例如,表格中的每一行就是一个样例,又如,百度搜索结果中的每个结果也是一个样例。具有两个样例以上的网页,做样例复制映射就能把整个列表都采集下来。下面用大众点评网作为案例,操作步骤下:


二、案例规则+操作步骤

  • 采集规则:大众点评采集(可点击下载)
  • 样本网址:https://www.dianping.com/search/category/7/10/g103r6013
  • 采集内容:每一个店铺的名称、评论数、人均消费、地理位置、菜系、口味、环境和服务

第一步:打开网页

1.1,打开GS爬虫浏览器,输入网址并Enter,加载出网页后再点击“定义规则”按钮,可以看到一个浮窗显示出来,称为工作台,在上面定义规则;

1.2,在工作台中输入主题名,可以点击“查重”看看名字是否被占用。


第二步:标注信息

2.1,在浏览器窗口双击要采集的内容,在弹出小窗中输入标签名,打勾确认或Enter,即完成了一个标注操作。首次标注还要输入整理箱名称。这也是标签与网页信息建立映射关系的过程。

2.2,重复上一步骤,对其他信息进行标注。

2.3,最好设置“关键内容”选项,这样爬虫才能判断出采集规则是否合适。在整理箱中选一个网页上必然能采到的标签,勾上“关键内容”。本例中对“店铺名称”勾选(如下图)。


第三步:样例复制

3.1,在工作台上选中容器“列表”(所谓容器,就是包含子内容),如下图启用样例复制功能;


3.2,在浏览器上找到第一个样例所在的网页区域。过程是:点击网页上第一个样例(蓝色框)的某个文字,可以看到在DOM树(窗口的下部窗口,网页标签用一个层次化的树状结构表示)上定位到了某个html标签。往上逐层找到能框住整个样例的标签,只要注意观察,就能发现往上找标签的时候,浏览器区域变成黄色背景,而且逐步扩大,等黄色背景能框住所有抓取内容的时候,这就是第一个样例的潜在区域,它是用一个HTML节点代表的。注意这只是一个“潜在”的可用节点,还要观察一下它的兄弟节点,如上图,第一个LI下面的兄弟全部是一样的LI,那么这个潜在区域就是我们要的。每个样例都是相同类型的“兄弟”节点所代表的。如果找不到相同的兄弟,还应该继续往DOM树的上层找;

3.3,右击代表第一个样例的HTML节点,选择“样例复制”->“第一个”,在样例复制管理框中就会看到样例1被映射了一个节点编号。

3.4,同理,选中相邻的下一个HTML节点(红色框),右击选择“样例复制”->“第二个”。


第四步:存规则,抓数据

4.1,规则测试成功后,点击“存规则”;

4.2,点击“爬数据”,弹出DS打数机,开始抓取数据。

4.3,采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中,可更改存储路径,详情见文章《查看数据结果》。


上篇文章:《采集网页数据》                                                                       下篇文章:《翻页采集》


若有疑问可以或集搜客爬虫软件

最后更新:2017-01-09 14:08:11

  上一篇:go Python: xml转json
  下一篇:go Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容