阅读892 返回首页    go gooseeker集搜客


DS打数机采集数据


一、两种操作方式

下面介绍手工启动DS打数机采集数据的两种方法,如下图(自动启动是爬虫群模式,在后面的教程讲解)。


二、操作步骤

方式一:存规则,爬数据

从MS谋数台上启动爬虫,做完规则并且存规则以后,点击工具条上的“爬数据”,这相当于测试一下规则是否合适,所以运行的是测试窗口,菜单项较少,主要用来验证抓取规则的正确性,详细参看第三节:窗口类型。

1.1,用MS谋数台做好规则并保存。

1.2,再点击MS谋数台工具栏右端的“爬数据”按钮,就会弹出DS打数机窗口,刚刚做好规则的时候,只有一个网址可供采集,就是样本页面的网址。


方式二:DS打数机单搜/集搜

单独把DS打数机运行起来(如果是GS爬虫浏览器版,工具条上有DS打数机按钮),就能看到规则列表,每个规则都有“单搜”和“集搜”按钮。单搜和集搜的区别参看《集搜客专有名词:单搜和集搜》,顾名思义,单搜只有一个爬虫窗口,集搜可以运行多个爬虫窗口。

2.1,打开DS打数机。

2.2,搜索主题名,可以用*模糊匹配(前、后、中都可以含有*号)。

2.3,右击主题名,选择弹出菜单“统计线索”,可以看到有多少个线索等待抓取,线索就是网址,是网络爬虫的爬取路线。

2.4,点击单搜,输入线索数量(<=待抓取线索),右侧的浏览器就开始采集数据。如果点击集搜,会另外弹出一个新的DS打数机窗口。注意观察“控制面板”上的窗口类型值。


2.5,遇到提示“没有线索了,可添加新线索或者激活已有的线索”,说明所有网址都采完一遍了。


2.6,如果需要再次采集,右击主题名可以选择菜单“添加线索”或者“激活线索”。


三、DS打数机窗口类型介绍

DS打数机负责采集网页数据,根据不同的使用方式分为四种窗口类型,请注意鉴别使用

  1. 管理窗口:在GS爬虫浏览器的工具条上点击“DS打数机”按钮,或者在火狐浏览器中选择菜单“工具”-〉“DS打数机”,这样启动起来的是管理窗口,有最全的菜单和按钮,所有的配置操作应该在这个窗口下进行;
  2. 试抓窗口:点击MS谋数台上的“爬数据”按钮,或者在GS爬虫浏览器“定义规则”状态下点击工具条上的“爬数据”按钮;
  3. 集搜窗口:点击DS打数机上的“集搜”按钮启动;
  4. 爬虫群窗口:选择DS打数机的菜单“爬虫群”,先“配置”爬虫群以后,再“运行”;

各个窗口的分布结构是一样的,只是对不同部分做了隐藏。简介如下:

  • 顶部是菜单栏,用于设置和控制采集;
  • 左侧是操作窗口,显示主题名和启动采数据,双击右边沿小三角图标可以隐藏or展开;
  • 右侧是内嵌的浏览器,当采集数据的时候,在这里可以看到一页页网页自动显示出来;
  • 底部是日志窗口,会记录采集失败的情况,双击上边沿小三角图标可以隐藏or展开;



上篇文章:《采集网页数据》                                                                             下篇文章:《xml转换为excel》



若有疑问可以或集搜客爬虫软件

最后更新:2017-01-09 14:08:09

  上一篇:go Python爬虫实战(2):爬取京东商品列表
  下一篇:go 模拟真人行为的反爬虫的一些研究