1000
gooseeker集搜客
如何找到合適的連續動作組合
設置連續動作就是為了模擬人在瀏覽網頁時的各種操作,從而加載出想要的網頁信息,最後再進行采集,所以,總體上可以分為兩大操做步驟,第一步是模擬人瀏覽網頁的操作,通過在規則裏設置連續動作來實現;第二步是采集數據,像采集靜態頁麵那樣,直接對想要的信息做采集規則。
關鍵是第一步,要弄清楚操作範圍、設置哪些動作類型、動作的順序以及要做多少個規則。大家可以先在瀏覽器上進行信息瀏覽,把操作範圍以及動作類型和順序整理出來,再做規則設置連續動作。下麵會用四個典型場景為例子,演示如何找到合適的連續動作組合。
一、中國知網——輸入關鍵詞檢索
- 場景:用中國知網的文獻為例,希望采集關鍵詞包含“金融”的文獻。
- 頁麵鏈接:https://epub.cnki.net/kns/brief/result.aspx?dbprefix=scdb&action=scdbsearch&db_opt=SCDB
- 在瀏覽器需要三步來完成,即:選擇關鍵詞 -> 在輸入框輸入“金融” -> 檢索。
定義采集規則的相應步驟如上圖所示,主題A用來設置連續動作,模擬人在瀏覽器上的操作;主題B負責采集檢索出來的文獻信息。
其中,主題A要在連續動作裏設置的動作步驟、順序、定位表達式如上圖所示。
二、開心保——采集不同年齡不同保險期限的價格
- 場景:購買保險時,年齡和期限不同,保險價格也不同,要采集不同價格,就需要用到連續動作的點擊。
- 頁麵鏈接:https://www.kaixinbao.com/lvyou-baoxian/265825.shtml
- 在瀏覽器需要兩步來完成,即:點擊投保年齡 -> 點擊保險期限。
定義采集規則的相應步驟如下圖所示,主題A用來設置連續動作,模擬人在瀏覽器上的操作;主題B負責采集點擊後的價格信息。
主題A要在連續動作裏設置的動作步驟、順序、定位表達式如上圖所示。
三、新浪微博——采集搜索的各博主資料
- 場景:微博搜索發布過包含“爬蟲”的原創微博的博主,並采集他們的個人資料。
- 頁麵鏈接:https://s.weibo.com/weibo/%25E7%2588%25AC%25E8%2599%25AB&scope=ori&suball=1&Refer=g
- 在瀏覽器隻需要一個動作,即:在頭像上懸浮。
定義采集規則的相應步驟如下圖所示,主題A用來設置連續動作,模擬人在瀏覽器上的操作;主題B負責采集浮窗裏的博主信息。
其中,主題A要在連續動作裏設置的動作步驟、順序、定位表達式如上圖所示。
四、中原銀行——查詢廣州市內中國銀行信息
- 場景:在中原銀行聯行號查詢頁麵,查詢並采集廣東省廣州市內中國銀行的相關信息。
- 頁麵鏈接:https://www.zybank.com.cn/zyb/zh_CN/jshj/lhhquery.html
- 在瀏覽器需要四步來完成,即:選擇銀行 -> 選擇省份 -> 選擇市 -> 查詢。
定義采集規則的相應步驟如下圖所示,主題A用來設置連續動作,模擬人在瀏覽器上的操作;主題B負責采集篩選條件後的銀行信息。
其中,主題A要在連續動作裏設置的動作步驟、順序、定位表達式如上圖所示。
上篇文章:《把信息與連續動作步驟對應起來》 下篇文章:《 》
若有疑問可以或

最後更新:2017-01-09 14:08:13