閱讀142 返回首頁    go gooseeker集搜客


連續動作:自動搜索關鍵詞采集信息—以京東為例

一、操作步驟

如果網頁上有搜索框,並且搜索結果頁麵沒有獨立網址,想要采集搜索結果,直接做規則是采集不到的,要先做連續動作(輸入+點擊)來實現自動輸入關鍵詞並搜索,然後再采集數據。下麵用京東搜索為例,演示自動搜索采集,操作步驟如下:


二、案例規則+操作步驟

  • 第一級采集規則:連續動作_京東搜索
  • 第二級采集規則:京東空調列表
  • 樣本網址:https://list.jd.com/list.html?cat=737,794,870
  • 采集內容:京東商品的名稱、價格、鏈接

注意:本案例京東搜索是有獨立網址的,對於具有獨立網址的頁麵,最簡單的方法就是構造出每個關鍵詞的搜索網址,然後導入到規則裏,就可以批量采集,而不是設置連續動作。


第一步:定義第一級規則

1.1打開GS爬蟲瀏覽器,輸入網址並Enter,加載出網頁後再點擊“定義規則”按鈕,看到一個浮窗顯示出來,稱為工作台,在上麵定義規則;

注意:這裏的截圖和文字說明都是GS爬蟲瀏覽器版 ,如果您安裝的是火狐插件版,那麼就沒有“定義規則”按鈕,而是應該運行MS謀數台

1.2在工作台中輸入一級規則的主題名,再點擊“查重”,提示“該名可以使用”或“該名已被占用,可編輯:是”,就可以使用這個主題名,否則請重命名。


1.3本級規則主要是設置連續動作,所以,整理箱可以隨意抓取一個信息,用來給爬蟲判斷是否執行采集。雙擊網頁上的信息,輸入標簽名,並打勾確認,再勾上關鍵內容,首次標注還要輸入整理箱的名字,然後就完成標注映射了。

Tips:為了能準確定位網頁信息,點擊定義規則會把整個網頁定格住,不能跳轉網頁鏈接,再次點擊定義規則,才會恢複回普通的網頁模式。


第二步:定義連續動作

點擊工作台的“連續動作”頁簽,點擊新建按鈕建立一個新動作,每個動作的設置方法都是一樣,基本操作如下:

2.1 ,輸入目標主題名

這裏的目標主題名是填第二級主題名,點擊“誰在用”查看目標主題名是否可用,如果已經被占用,換一個主題名就行

2.2, 創建第一個動作:輸入

新建一個動作,並選擇動作類型為輸入。


2.2.1,填寫定位表達式

首先鼠標單擊輸入框,定位輸入框的節點,然後點擊“自動生成xpath”按鈕,可以選擇“偏好id”或者“偏好class”,就可以得到輸入框的xpath表達式,再點擊“搜索”按鈕,檢查一下這個xpath是否能唯一定位到輸入框,沒有問題就把XPath複製到定位表達式方框裏。

注意:定位表達式裏的xpath是要鎖定動作對象的整個有效操作範圍,具體就是指鼠標能夠點擊或輸入成功的網頁模塊,不要定位到最底層的text()節點。

2.2.2,輸入關鍵詞

輸入關鍵詞填寫你想搜索的關鍵詞,可以輸入一個關鍵詞,也可以輸入多個關鍵詞,輸入多個關鍵詞要用雙分號;;將每個關鍵詞隔開,免費版隻支持5個以內的關鍵詞,旗艦版可以使用連發彈倉功能,支持1萬以內的關鍵詞

2.2.3,輸入動作名稱

告訴自己這一步動作是用來幹嘛的,方便以後修改。


2.3,創建第二個動作:點擊

參考2.2的操作,創建第二個動作,選擇類型為點擊,定位到搜索按鈕,然後自動生成xpath,檢驗是否鎖定到唯一節點,沒問題的話填到定位表達式裏就行了。

2.4,存規則

點擊“存規則”按鈕保存已完成的第一級規則


第三步:定義第二級規則

3.1,新建規則

創建第二級規則,點擊“定義規則”恢複到普通網頁模式,輸入關鍵詞搜索出結果後,再次點擊“定義規則”切換到做規則模式,點擊左上角“規則”菜單->“新建”,輸入主題名,這裏的主題名就是第一級規則的連續動作裏填寫的目標主題名。


3.2,標注想要采集的信息

3.2.1,標注網頁上想要采集的信息,這裏是對商品名稱和價格做標注,因為標注隻對文本信息有效,鏈接是屬性節點@href,所以,不能對鏈接標注采集,而是要做內容映射,具體看下麵的操作。

3.2.2,鼠標選中整理箱名字,然後按鼠標右鍵,選擇“添加”->“包容”創建一個抓取內容“鏈接”,點擊商品名稱進行定位,在A標簽在attributes下麵就可以找到對應的@href節點,右擊節點,選擇內容映射給“鏈接”。

3.2.3,設置“關鍵內容”選項,這樣爬蟲才能判斷出采集規則是否合適。在整理箱裏選一個網頁上必然能采到的標簽,勾上“關鍵內容”。這裏選擇的是“名稱”做為“關鍵內容”。


3.2.4,前麵隻對一個商品做標注,也就能得到一個商品信息,如果想把一整頁上每一個商品都采集下來,可以做樣例複製,不懂的請參考基礎教程《采集列表數據》


3.3,設置翻頁路線

在爬蟲路線設置翻頁,這裏用的是記號線索,不懂的請參考基礎教程《設置翻頁采集》

3.4,存規則

點擊“測試”,檢查信息完整性。不完整的話,重新標注就可以覆蓋之前的內容。檢查沒問題後點擊“存規則”。


第四步:抓數據

4.1,連續動作是連續執行兩級主題的,所以隻要運行第一級主題,第二級主題不用運行。打開DS打數機,搜索出第一級主題名,點擊“單搜”或“集搜”,此時可以看到瀏覽器窗口裏會自動輸入關鍵詞並且搜索,然後調用第二級主題自動采集搜索結果。

4.2,第一級主題沒采集有意義的信息,所以,我們隻看第二級主題的文件夾,就能看到采集的搜索結果數據,並且搜索的關鍵詞是默認記錄在xml文件的actionvalue字段中,這樣就能一一對應起來。


上篇文章:《連續動作概念:掌握JS動態網頁信息采集》          下篇文章:《連續動作:自動選擇下拉菜單采集數據》


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:12

  上一篇:go 數據規則怎麼看
  下一篇:go 中級教程