閱讀1107 返回首頁    go gooseeker集搜客


采網址做層級采集——以大眾點評為例

一、操作步驟

前麵寫過兩篇教程,《采集列表數據》是采集大眾點評的列表頁,《采集網頁數據》是采集大眾點評的店鋪詳情頁,很多人想把這兩個串在一起,這樣就能批量采集店鋪詳情頁的數據了。下麵我們通過層級采集來實現,它是通過網址關聯起兩級頁麵,從而實現批量采集二級頁麵。下麵還是以大眾點評為例,講解如何設置層級采集。操作步驟如下:


二、案例規則+操作步驟

  • 第一級采集規則:大眾點評列表(可點擊下載)
  • 第一級樣本網址:https://www.dianping.com/search/category/7/10/g103r6013
  • 第一級采集內容:每一個店鋪的名稱、評論數、人均消費、地理位置、菜係、口味、環境和服務、網址
  • 第二級采集規則:大眾點評店鋪信息(可點擊下載)
  • 第二級樣本網址:https://www.dianping.com/shop/32656893
  • 第二級采集內容:店鋪名稱、地址、電話

第一步:定義第一級規則的具體操作可以參考文章《采集列表數據》,如需設置翻頁,請參考文章《翻頁采集列表》,下麵從第二步操作講起。

第二步:設置下級線索

2.1,網址通常是存在attributes下的@href節點中。在瀏覽器上直接點擊商品的標題定位到網頁節點H4,展開它的下層節點,沒有找到@href,再找它的上層節點A,找到@href,注意要檢驗一下是否為對應的下級網址,再右擊@href選擇“內容映射”->“新建抓取內容”,輸入標簽名(任意命名),比如,“網址”。


2.2,在整理箱裏選中“網址”,打勾“下級線索”。這個隻能對映射了網址的標簽名進行設置。


2.3,切換到爬蟲路線窗口,選擇下級線索的路線(定位編號總是info),在目標主題名裏填上第二級規則的主題名。


2.4,測試沒有問題,就可以保存規則。

注意:如下圖,抓到的是相對網址,即缺少了域名部分,這是因為很多網站都采用了相對網址的方式,但是爬蟲給下級主題生成線索就會自動補全域名,所以,不會影響下級網頁的采集。


第三步:定義第二級規則

點擊“規則”菜單->“新建”,工作台會被清空,然後就可以開始建立第二級規則,輸入二級頁麵的網址,標注想要采集的信息就可以了。本案例第二級規則的製作操作詳見文章《采集網頁數據》,這裏就不重複講了。


第四步:抓數據

4.1,層級規則是分開獨立運行的,先運行第一級規則,它就會把抓到的下級網址自動導入到下級規則裏

4.2,再運行第二級規則,先統計一下線索數,然後就可以輸入統計到的網址數,進行批量采集。如果兩級要同時運行,點各自的“集搜”,就能各自運行在集搜窗口。

4.3,采集成功的數據會以xml文件的形式保存在DataScraperWorks文件夾中,詳情見文章《查看數據結果》,另外,兩級規則的數據如果要合並可以參考文章《多層級采集結果合並》。



上篇文章:《翻頁采集列表》                                                                下篇文章:《定位標誌:精確采集範圍》


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:11

  上一篇:go Python網頁信息采集:使用PhantomJS采集淘寶天貓商品內容
  下一篇:go Python即時網絡爬蟲:API說明—下載內容提取器