阅读1000 返回首页    go gooseeker集搜客


如何找到合适的连续动作组合

设置连续动作就是为了模拟人在浏览网页时的各种操作,从而加载出想要的网页信息,最后再进行采集,所以,总体上可以分为两大操做步骤,第一步是模拟人浏览网页的操作,通过在规则里设置连续动作来实现;第二步是采集数据,像采集静态页面那样,直接对想要的信息做采集规则。

关键是第一步,要弄清楚操作范围、设置哪些动作类型、动作的顺序以及要做多少个规则。大家可以先在浏览器上进行信息浏览,把操作范围以及动作类型和顺序整理出来,再做规则设置连续动作。下面会用四个典型场景为例子,演示如何找到合适的连续动作组合。


一、中国知网——输入关键词检索

  • 场景:用中国知网的文献为例,希望采集关键词包含“金融”的文献。
  • 页面链接:https://epub.cnki.net/kns/brief/result.aspx?dbprefix=scdb&action=scdbsearch&db_opt=SCDB
  • 在浏览器需要三步来完成,即:选择关键词 -> 在输入框输入“金融” -> 检索。


定义采集规则的相应步骤如上图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集检索出来的文献信息。


其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


二、开心保——采集不同年龄不同保险期限的价格

  • 场景:购买保险时,年龄和期限不同,保险价格也不同,要采集不同价格,就需要用到连续动作的点击。
  • 页面链接:https://www.kaixinbao.com/lvyou-baoxian/265825.shtml
  • 在浏览器需要两步来完成,即:点击投保年龄 -> 点击保险期限。


定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集点击后的价格信息。


主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


三、新浪微博——采集搜索的各博主资料

  • 场景:微博搜索发布过包含“爬虫”的原创微博的博主,并采集他们的个人资料。
  • 页面链接:https://s.weibo.com/weibo/%25E7%2588%25AC%25E8%2599%25AB&scope=ori&suball=1&Refer=g
  • 在浏览器只需要一个动作,即:在头像上悬浮。


定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集浮窗里的博主信息。


其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


四、中原银行——查询广州市内中国银行信息

  • 场景:在中原银行联行号查询页面,查询并采集广东省广州市内中国银行的相关信息。
  • 页面链接:https://www.zybank.com.cn/zyb/zh_CN/jshj/lhhquery.html
  • 在浏览器需要四步来完成,即:选择银行 -> 选择省份 -> 选择市 -> 查询。


定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集筛选条件后的银行信息。


其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。


上篇文章:《把信息与连续动作步骤对应起来》                       下篇文章:《 》


若有疑问可以或集搜客爬虫软件

最后更新:2017-01-09 14:08:13

  下一篇:go 集搜客文本分词标注工具使用指南3-识别情感词