892
gooseeker集搜客
DS打数机采集数据
一、两种操作方式
下面介绍手工启动DS打数机采集数据的两种方法,如下图(自动启动是爬虫群模式,在后面的教程讲解)。
二、操作步骤
方式一:存规则,爬数据
从MS谋数台上启动爬虫,做完规则并且存规则以后,点击工具条上的“爬数据”,这相当于测试一下规则是否合适,所以运行的是测试窗口,菜单项较少,主要用来验证抓取规则的正确性,详细参看第三节:窗口类型。
1.1,用MS谋数台做好规则并保存。
1.2,再点击MS谋数台工具栏右端的“爬数据”按钮,就会弹出DS打数机窗口,刚刚做好规则的时候,只有一个网址可供采集,就是样本页面的网址。
方式二:DS打数机单搜/集搜
单独把DS打数机运行起来(如果是GS爬虫浏览器版,工具条上有DS打数机按钮),就能看到规则列表,每个规则都有“单搜”和“集搜”按钮。单搜和集搜的区别参看《集搜客专有名词:单搜和集搜》,顾名思义,单搜只有一个爬虫窗口,集搜可以运行多个爬虫窗口。
2.1,打开DS打数机。
2.2,搜索主题名,可以用*模糊匹配(前、后、中都可以含有*号)。
2.3,右击主题名,选择弹出菜单“统计线索”,可以看到有多少个线索等待抓取,线索就是网址,是网络爬虫的爬取路线。
2.4,点击单搜,输入线索数量(<=待抓取线索),右侧的浏览器就开始采集数据。如果点击集搜,会另外弹出一个新的DS打数机窗口。注意观察“控制面板”上的窗口类型值。
2.5,遇到提示“没有线索了,可添加新线索或者激活已有的线索”,说明所有网址都采完一遍了。
2.6,如果需要再次采集,右击主题名可以选择菜单“添加线索”或者“激活线索”。
三、DS打数机窗口类型介绍
DS打数机负责采集网页数据,根据不同的使用方式分为四种窗口类型,请注意鉴别使用
- 管理窗口:在GS爬虫浏览器的工具条上点击“DS打数机”按钮,或者在火狐浏览器中选择菜单“工具”-〉“DS打数机”,这样启动起来的是管理窗口,有最全的菜单和按钮,所有的配置操作应该在这个窗口下进行;
- 试抓窗口:点击MS谋数台上的“爬数据”按钮,或者在GS爬虫浏览器“定义规则”状态下点击工具条上的“爬数据”按钮;
- 集搜窗口:点击DS打数机上的“集搜”按钮启动;
- 爬虫群窗口:选择DS打数机的菜单“爬虫群”,先“配置”爬虫群以后,再“运行”;
各个窗口的分布结构是一样的,只是对不同部分做了隐藏。简介如下:
- 顶部是菜单栏,用于设置和控制采集;
- 左侧是操作窗口,显示主题名和启动采数据,双击右边沿小三角图标可以隐藏or展开;
- 右侧是内嵌的浏览器,当采集数据的时候,在这里可以看到一页页网页自动显示出来;
- 底部是日志窗口,会记录采集失败的情况,双击上边沿小三角图标可以隐藏or展开;
上篇文章:《采集网页数据》 下篇文章:《xml转换为excel》
若有疑问可以或

最后更新:2017-01-09 14:08:09