443 gooseeker集搜客

采集网页数据

一、操作步骤

下面用大众点评网作为案例，给大家演示如何使用直观标注的功能采集网页数据，操作步骤如下：

二、案例规则+操作步骤

第一步：打开网页

1.1，打开GS爬虫浏览器，输入网址并Enter，加载出网页后再点击“定义规则”按钮，看到一个浮窗显示出来，称为工作台，在上面定义规则；

注意：这里的截图和文字说明都是GS爬虫浏览器版 ，如果您安装的是火狐插件版，那么就没有“定义规则”按钮，而是应该运行MS谋数台

1.2，在工作台中输入主题名，再点击“查重”，提示“该名可以使用”或“该名已被占用，可编辑：是”，就可以使用这个主题名，否则请重命名。

Tips：为了能准确定位网页信息，点击定义规则会把整个网页定格住，不能跳转网页链接，再次点击定义规则，才会恢复回普通的网页模式。

第二步：标注需要采集的信息

2.1，标注是针对网页的文本信息来操作的，双击目标信息就会选中它，在弹出小窗中输入标签名，打勾确认或Enter。首次标注还要输入整理箱名称，即存数据的表名。这也是标签与网页信息建立映射关系的过程。

2.2，重复上一步操作来标注地址、电话信息。

2.3，最好设置“关键内容”选项，这样爬虫才能判断出采集规则是否合适。在整理箱里选一个网页上必然能采到的标签，勾上“关键内容”。

第三步：存规则，抓数据

3.1，点击“测试”，检查信息完整性。不完整的话，重新标注就可以覆盖之前的内容。

3.2，点击“存规则”。规则不仅可以随时加载修改，还可以批量采集同类型网页。

3.3，点击“爬数据”，弹出DS打数机开始采集数据，测试采集规则是否有效。

第四步：查看数据

4.1，采集成功的数据会以xml文件的形式保存在DataScraperWorks文件夹中，详情见文章《查看数据结果》

上篇文章：《集搜客网络爬虫的核心名词》下篇文章：《采集列表数据》
若有疑问可以或集搜客爬虫软件

最后更新：2017-01-09 14:08:09