閱讀739 返回首頁    go gooseeker集搜客


連續打碼:破解各種驗證碼連續采數據——以工商信息網為例 ... ...

不少網站會用到驗證碼反爬技術,遇到這種網頁就會采集失敗。但是集搜客爬蟲的“打碼功能”可以解決出現驗證碼的情況,在采集網頁的過程中破解各種輸入型、算術型、滑塊型驗證碼(滑塊型需要定製),讓爬蟲能夠持續有效地采到更多數據。


一、案例規則+操作步驟

下麵以江蘇工商網為案例,講解如何實現自動打碼連續采數據,操作步驟如下:


二、案例規則+操作步驟
  • 第一級規則:江蘇_工商管理1-輸入關鍵詞(點擊可下載)
  • 第一級樣本網址:https://www.jsgsj.gov.cn:58888/province/
  • 第一級采集內容:任意信息
  • 第二級規則:江蘇_工商管理2-搜索結果(點擊可下載)
  • 第二級樣本網址:無獨立網址,與第一級網址是相同的
  • 第二級采集內容:公司名稱

第一步:開通打碼平台賬號

1.1,打碼功能是旗艦版爬蟲的功能,請先購買。它的工作過程是集搜客爬蟲把驗證碼轉發給打碼平台,再把返回的驗證碼值輸入到網頁上,從而完成打碼的過程。

1.2,目前是對接了兩個在線打碼平台,分別是雲速打碼和聯眾打碼,請用戶自行選擇打碼平台開戶和充值。 集搜客爬蟲把驗證碼轉發給打碼平台,再把返回的驗證碼值輸入到網頁上,從而完成打碼的過程。

第二步:定義第一級規則

2.1,破解網頁的驗證碼首先要找到出現驗證碼的網頁,然後定義連續動作。以江蘇省工商網為例,輸入企業名稱,點擊搜索後,就會彈出驗證碼浮窗,這個就是驗證碼出現的條件,也是後麵設置連續動作的類型和順序。


2.2,用GS爬蟲瀏覽器打開網頁,點擊定義規則,可以隨意標注一個信息,讓爬蟲可以判斷是否執行采集。


2.3,按照上麵2.1的觀察,依次建立連續動作。第一個是輸入動作,在目標主題名裏填入下級規則的名字,輸入關鍵詞,再把定位到輸入框的xpath填入到定位表達式裏。


2.4,第二個動作是點擊搜索,操作與上麵相同。


2.5,第三個動作就是打碼,需要定位到驗證碼彈窗,所以,先保存規則,然後點擊“定義規則”恢複到普通網頁模式,輸入公司名、點擊搜索,使驗證碼出現,再次點擊“定義規則”繼續設置打碼動作。

2.6,建立“打碼”動作,定位圖片的xpath、定位輸入框的xpath、定位提交框的xpath


2.7,點開“高級設置”,根據實際情況選擇驗證碼類型和字符長度。

2.8,保存規則


第三步:定義第二級規則

3.1,點擊“定義規則”恢複到普通網頁模式,輸入驗證碼,搜索出結果後,再次點擊“定義規則”切換到做規則模式,點擊左上角“規則”菜單->“新建”第二級規則。

3.2,輸入第二級主題名,標注出想采的信息,點擊測試,再保存規則。


第四步:爬數據

4.1,在DS打數機的高級菜單->打碼平台,配置一下打碼平台的賬號密碼


4.2,搜索出第一級規則並運行,就會看到網頁上自動輸入關鍵詞、點擊搜索、輸入驗證碼,然後就會連貫采集第二級規則。

注意:第一級規則的連續動作執行成功後會自動采集下級規則,所以不用單獨運行下級規則,特別是下級規則如果沒有獨立網址,運行時采不到目標數據就會失敗。

注意:以上是對案例網站做的采集規則,請根據目標網站的實際情況來定義規則。


Tips:沒有獨立網址的網頁,要如何加載和修改規則?

對於沒有獨立網址的網頁,需要先點擊到那個頁麵,然後搜規則,右擊選擇“僅加載規則”,點擊“規則”菜單->“後續分析”完成加載操作,就可以修改規則了。

例如,本案例的第二級規則是沒有獨立網址,需要先加載出第一級規則,恢複到普通網頁模式,輸入關鍵詞、點擊搜索、輸入驗證碼(建議寫在規則的備注裏,方便查閱),得到搜索結果的網頁後,再對第二級規則右擊選“僅加載規則”。



若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:12

  上一篇:go 【第31期】圖片采集
  下一篇:go 新浪微博數據采集攻略