142 gooseeker集搜客

連續動作：自動搜索關鍵詞采集信息—以京東為例

一、操作步驟

如果網頁上有搜索框，並且搜索結果頁麵沒有獨立網址，想要采集搜索結果，直接做規則是采集不到的，要先做連續動作（輸入+點擊）來實現自動輸入關鍵詞並搜索，然後再采集數據。下麵用京東搜索為例，演示自動搜索采集，操作步驟如下：

二、案例規則+操作步驟

第一級采集規則：連續動作_京東搜索
第二級采集規則：京東空調列表
樣本網址：https://list.jd.com/list.html?cat=737,794,870
采集內容：京東商品的名稱、價格、鏈接

注意：本案例京東搜索是有獨立網址的，對於具有獨立網址的頁麵，最簡單的方法就是構造出每個關鍵詞的搜索網址，然後導入到規則裏，就可以批量采集，而不是設置連續動作。

第一步：定義第一級規則

1.1打開GS爬蟲瀏覽器，輸入網址並Enter，加載出網頁後再點擊“定義規則”按鈕，看到一個浮窗顯示出來，稱為工作台，在上麵定義規則；

注意：這裏的截圖和文字說明都是GS爬蟲瀏覽器版 ，如果您安裝的是火狐插件版，那麼就沒有“定義規則”按鈕，而是應該運行MS謀數台

1.2在工作台中輸入一級規則的主題名，再點擊“查重”，提示“該名可以使用”或“該名已被占用，可編輯：是”，就可以使用這個主題名，否則請重命名。

1.3本級規則主要是設置連續動作，所以，整理箱可以隨意抓取一個信息，用來給爬蟲判斷是否執行采集。雙擊網頁上的信息，輸入標簽名，並打勾確認，再勾上關鍵內容，首次標注還要輸入整理箱的名字，然後就完成標注映射了。

Tips：為了能準確定位網頁信息，點擊定義規則會把整個網頁定格住，不能跳轉網頁鏈接，再次點擊定義規則，才會恢複回普通的網頁模式。

第二步：定義連續動作

點擊工作台的“連續動作”頁簽，點擊新建按鈕建立一個新動作，每個動作的設置方法都是一樣，基本操作如下：

2.1 ，輸入目標主題名

這裏的目標主題名是填第二級主題名，點擊“誰在用”查看目標主題名是否可用，如果已經被占用，換一個主題名就行

2.2，創建第一個動作：輸入

新建一個動作，並選擇動作類型為輸入。

2.２.1，填寫定位表達式

首先鼠標單擊輸入框，定位輸入框的節點，然後點擊“自動生成xpath”按鈕，可以選擇“偏好id”或者“偏好class”，就可以得到輸入框的xpath表達式，再點擊“搜索”按鈕，檢查一下這個xpath是否能唯一定位到輸入框，沒有問題就把XPath複製到定位表達式方框裏。

注意：定位表達式裏的xpath是要鎖定動作對象的整個有效操作範圍，具體就是指鼠標能夠點擊或輸入成功的網頁模塊，不要定位到最底層的text()節點。

2.2.2，輸入關鍵詞

輸入關鍵詞填寫你想搜索的關鍵詞，可以輸入一個關鍵詞，也可以輸入多個關鍵詞，輸入多個關鍵詞要用雙分號;;將每個關鍵詞隔開，免費版隻支持5個以內的關鍵詞，旗艦版可以使用連發彈倉功能，支持1萬以內的關鍵詞

2.2.3，輸入動作名稱

告訴自己這一步動作是用來幹嘛的，方便以後修改。

2.3，創建第二個動作：點擊

參考2.2的操作，創建第二個動作，選擇類型為點擊，定位到搜索按鈕，然後自動生成xpath，檢驗是否鎖定到唯一節點，沒問題的話填到定位表達式裏就行了。

2.4，存規則

點擊“存規則”按鈕保存已完成的第一級規則

第三步：定義第二級規則

3.1，新建規則

創建第二級規則，點擊“定義規則”恢複到普通網頁模式，輸入關鍵詞搜索出結果後，再次點擊“定義規則”切換到做規則模式，點擊左上角“規則”菜單->“新建”，輸入主題名，這裏的主題名就是第一級規則的連續動作裏填寫的目標主題名。

3.2，標注想要采集的信息

3.2.1，標注網頁上想要采集的信息，這裏是對商品名稱和價格做標注，因為標注隻對文本信息有效，鏈接是屬性節點@href，所以，不能對鏈接標注采集，而是要做內容映射，具體看下麵的操作。

3.2.2，鼠標選中整理箱名字，然後按鼠標右鍵，選擇“添加”->“包容”創建一個抓取內容“鏈接”，點擊商品名稱進行定位，在A標簽在attributes下麵就可以找到對應的@href節點，右擊節點，選擇內容映射給“鏈接”。

3.2.3，設置“關鍵內容”選項，這樣爬蟲才能判斷出采集規則是否合適。在整理箱裏選一個網頁上必然能采到的標簽，勾上“關鍵內容”。這裏選擇的是“名稱”做為“關鍵內容”。

3.2.4，前麵隻對一個商品做標注，也就能得到一個商品信息，如果想把一整頁上每一個商品都采集下來，可以做樣例複製，不懂的請參考基礎教程《采集列表數據》

3.3，設置翻頁路線

在爬蟲路線設置翻頁，這裏用的是記號線索，不懂的請參考基礎教程《設置翻頁采集》

3.4，存規則

點擊“測試”，檢查信息完整性。不完整的話，重新標注就可以覆蓋之前的內容。檢查沒問題後點擊“存規則”。

第四步：抓數據

4.1，連續動作是連續執行兩級主題的，所以隻要運行第一級主題，第二級主題不用運行。打開DS打數機，搜索出第一級主題名，點擊“單搜”或“集搜”，此時可以看到瀏覽器窗口裏會自動輸入關鍵詞並且搜索，然後調用第二級主題自動采集搜索結果。

4.2，第一級主題沒采集有意義的信息，所以，我們隻看第二級主題的文件夾，就能看到采集的搜索結果數據，並且搜索的關鍵詞是默認記錄在xml文件的actionvalue字段中，這樣就能一一對應起來。

上篇文章：《連續動作概念：掌握JS動態網頁信息采集》下篇文章：《連續動作：自動選擇下拉菜單采集數據》

若有疑問可以或

最後更新：2017-01-09 14:08:12

連續動作：自動搜索關鍵詞采集信息—以京東為例

上一篇：數據規則怎麼看

下一篇：中級教程

相關內容

熱門內容

最新內容

連續動作：自動搜索關鍵詞采集信息—以京東為例

上一篇： 數據規則怎麼看

下一篇： 中級教程

相關內容

熱門內容

最新內容

上一篇：數據規則怎麼看

下一篇：中級教程