采網址做層級采集——以大眾點評為例

一、操作步驟

前麵寫過兩篇教程，《采集列表數據》是采集大眾點評的列表頁，《采集網頁數據》是采集大眾點評的店鋪詳情頁，很多人想把這兩個串在一起，這樣就能批量采集店鋪詳情頁的數據了。下麵我們通過層級采集來實現，它是通過網址關聯起兩級頁麵，從而實現批量采集二級頁麵。下麵還是以大眾點評為例，講解如何設置層級采集。操作步驟如下：

二、案例規則+操作步驟

第一級采集規則：大眾點評列表（可點擊下載）
第一級樣本網址：https://www.dianping.com/search/category/7/10/g103r6013
第一級采集內容：每一個店鋪的名稱、評論數、人均消費、地理位置、菜係、口味、環境和服務、網址
第二級采集規則：大眾點評店鋪信息（可點擊下載）
第二級樣本網址：https://www.dianping.com/shop/32656893
第二級采集內容：店鋪名稱、地址、電話

第一步：定義第一級規則的具體操作可以參考文章《采集列表數據》，如需設置翻頁，請參考文章《翻頁采集列表》，下麵從第二步操作講起。

第二步：設置下級線索

2.1，網址通常是存在attributes下的@href節點中。在瀏覽器上直接點擊商品的標題定位到網頁節點H4，展開它的下層節點，沒有找到@href，再找它的上層節點A，找到@href，注意要檢驗一下是否為對應的下級網址，再右擊@href選擇“內容映射”->“新建抓取內容”，輸入標簽名（任意命名），比如，“網址”。