1000
gooseeker集搜客
如何找到合适的连续动作组合
设置连续动作就是为了模拟人在浏览网页时的各种操作,从而加载出想要的网页信息,最后再进行采集,所以,总体上可以分为两大操做步骤,第一步是模拟人浏览网页的操作,通过在规则里设置连续动作来实现;第二步是采集数据,像采集静态页面那样,直接对想要的信息做采集规则。
关键是第一步,要弄清楚操作范围、设置哪些动作类型、动作的顺序以及要做多少个规则。大家可以先在浏览器上进行信息浏览,把操作范围以及动作类型和顺序整理出来,再做规则设置连续动作。下面会用四个典型场景为例子,演示如何找到合适的连续动作组合。
一、中国知网——输入关键词检索
- 场景:用中国知网的文献为例,希望采集关键词包含“金融”的文献。
- 页面链接:https://epub.cnki.net/kns/brief/result.aspx?dbprefix=scdb&action=scdbsearch&db_opt=SCDB
- 在浏览器需要三步来完成,即:选择关键词 -> 在输入框输入“金融” -> 检索。
定义采集规则的相应步骤如上图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集检索出来的文献信息。
其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。
二、开心保——采集不同年龄不同保险期限的价格
- 场景:购买保险时,年龄和期限不同,保险价格也不同,要采集不同价格,就需要用到连续动作的点击。
- 页面链接:https://www.kaixinbao.com/lvyou-baoxian/265825.shtml
- 在浏览器需要两步来完成,即:点击投保年龄 -> 点击保险期限。
定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集点击后的价格信息。
主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。
三、新浪微博——采集搜索的各博主资料
- 场景:微博搜索发布过包含“爬虫”的原创微博的博主,并采集他们的个人资料。
- 页面链接:https://s.weibo.com/weibo/%25E7%2588%25AC%25E8%2599%25AB&scope=ori&suball=1&Refer=g
- 在浏览器只需要一个动作,即:在头像上悬浮。
定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集浮窗里的博主信息。
其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。
四、中原银行——查询广州市内中国银行信息
- 场景:在中原银行联行号查询页面,查询并采集广东省广州市内中国银行的相关信息。
- 页面链接:https://www.zybank.com.cn/zyb/zh_CN/jshj/lhhquery.html
- 在浏览器需要四步来完成,即:选择银行 -> 选择省份 -> 选择市 -> 查询。
定义采集规则的相应步骤如下图所示,主题A用来设置连续动作,模拟人在浏览器上的操作;主题B负责采集筛选条件后的银行信息。
其中,主题A要在连续动作里设置的动作步骤、顺序、定位表达式如上图所示。
上篇文章:《把信息与连续动作步骤对应起来》 下篇文章:《 》
若有疑问可以或

最后更新:2017-01-09 14:08:13