317 gooseeker集搜客

飞掠模式：追踪弹窗网页采数据——以百度百家网为例

一、操作步骤

集搜客的“飞掠模式”是专门针对那些没有独立网址的弹窗网页，就是指点击之后会弹出一个新页签但网址却不变。而“飞掠模式”可以模拟人的操作，打开一个弹窗采集完之后再打开下一个弹窗继续采集，从而把弹窗网页信息都采集下来。

下面用百度百家为案例，虽然它的弹窗网页是有独立网址的，这种情况最简单的采集方法就是做层级采集，但是为了给大家演示飞掠采集，我们就把它当做是网址不变吧。操作步骤如下：

二、案例规则+操作步骤

第一级规则：百度百家列表（点击可下载）
第一级样本网址：https://baijia.baidu.com/
第一级采集内容：标题
第二级规则：百度百家文章采集（点击可下载）
第二级样本网址: https://jincuodao.baijia.baidu.com/article/652161
第二级采集内容：标题、作者、发布时间、阅读数、正文

第一步：打开网页

1.1，打开GS爬虫浏览器，输入网址等待网页加载完成，再点击“定义规则”，然后输入主题，最后查重一下，主题名不能重复。

第二步：定义第一级规则

2.1，双击想采的信息，打勾确认。第一级规则可以随意标注一条信息，目的是让爬虫判断是否执行采集。

2.2，本案例是点击每一篇文章标题，然后追踪弹出的网页来采数据，需要写出定位到每个点击对象的xpath表达式。我们可以用“显示xpath”功能来自动定位，找到能够定位到每一个动作对象的xpath。但是对于不太结构化的网页，“显示xpath”就定位不到全部动作对象了，需要自己编写合适的xpath，可以看看xpath教程来掌握。