739
gooseeker集搜客
连续打码:破解各种验证码连续采数据——以工商信息网为例 ... ...
不少网站会用到验证码反爬技术,遇到这种网页就会采集失败。但是集搜客爬虫的“打码功能”可以解决出现验证码的情况,在采集网页的过程中破解各种输入型、算术型、滑块型验证码(滑块型需要定制),让爬虫能够持续有效地采到更多数据。
一、案例规则+操作步骤
下面以江苏工商网为案例,讲解如何实现自动打码连续采数据,操作步骤如下:
- 第一级规则:江苏_工商管理1-输入关键词(点击可下载)
- 第一级样本网址:https://www.jsgsj.gov.cn:58888/province/
- 第一级采集内容:任意信息
- 第二级规则:江苏_工商管理2-搜索结果(点击可下载)
- 第二级样本网址:无独立网址,与第一级网址是相同的
- 第二级采集内容:公司名称
第一步:开通打码平台账号
1.1,打码功能是旗舰版爬虫的功能,请先购买。它的工作过程是集搜客爬虫把验证码转发给打码平台,再把返回的验证码值输入到网页上,从而完成打码的过程。
1.2,目前是对接了两个在线打码平台,分别是云速打码和联众打码,请用户自行选择打码平台开户和充值。 集搜客爬虫把验证码转发给打码平台,再把返回的验证码值输入到网页上,从而完成打码的过程。
第二步:定义第一级规则
2.1,破解网页的验证码首先要找到出现验证码的网页,然后定义连续动作。以江苏省工商网为例,输入企业名称,点击搜索后,就会弹出验证码浮窗,这个就是验证码出现的条件,也是后面设置连续动作的类型和顺序。
2.2,用GS爬虫浏览器打开网页,点击定义规则,可以随意标注一个信息,让爬虫可以判断是否执行采集。
2.3,按照上面2.1的观察,依次建立连续动作。第一个是输入动作,在目标主题名里填入下级规则的名字,输入关键词,再把定位到输入框的xpath填入到定位表达式里。
2.4,第二个动作是点击搜索,操作与上面相同。
2.5,第三个动作就是打码,需要定位到验证码弹窗,所以,先保存规则,然后点击“定义规则”恢复到普通网页模式,输入公司名、点击搜索,使验证码出现,再次点击“定义规则”继续设置打码动作。
2.6,建立“打码”动作,定位图片的xpath、定位输入框的xpath、定位提交框的xpath
2.7,点开“高级设置”,根据实际情况选择验证码类型和字符长度。
2.8,保存规则
第三步:定义第二级规则
3.1,点击“定义规则”恢复到普通网页模式,输入验证码,搜索出结果后,再次点击“定义规则”切换到做规则模式,点击左上角“规则”菜单->“新建”第二级规则。
3.2,输入第二级主题名,标注出想采的信息,点击测试,再保存规则。
第四步:爬数据
4.1,在DS打数机的高级菜单->打码平台,配置一下打码平台的账号密码
4.2,搜索出第一级规则并运行,就会看到网页上自动输入关键词、点击搜索、输入验证码,然后就会连贯采集第二级规则。
注意:第一级规则的连续动作执行成功后会自动采集下级规则,所以不用单独运行下级规则,特别是下级规则如果没有独立网址,运行时采不到目标数据就会失败。
注意:以上是对案例网站做的采集规则,请根据目标网站的实际情况来定义规则。
Tips:没有独立网址的网页,要如何加载和修改规则?
对于没有独立网址的网页,需要先点击到那个页面,然后搜规则,右击选择“仅加载规则”,点击“规则”菜单->“后续分析”完成加载操作,就可以修改规则了。
例如,本案例的第二级规则是没有独立网址,需要先加载出第一级规则,恢复到普通网页模式,输入关键词、点击搜索、输入验证码(建议写在规则的备注里,方便查阅),得到搜索结果的网页后,再对第二级规则右击选“仅加载规则”。
若有疑问可以或

最后更新:2017-01-09 14:08:12