892
gooseeker集搜客
定位標誌精確采集範圍——以安居客租房采集為例
一、操作步驟
如果隻是簡單地把信息標注出來,可以采集到樣本網頁的數據,但是批量采集同類網頁就可能會遇到失敗。這種情況下需要加上定位標誌映射以提高數據規則的精度和適應性,降低網頁變化帶來的影響。下麵用安居客網作為案例,操作步驟如下:
二、案例規則+操作步驟
- 采集規則:安居客租房采集(可點擊下載)
- 樣本網址:https://sz.zu.anjuke.com/?pi=baidu-cpchz-sz-tyong1&kwid=8248540023&utm_term=%E6%B7%B1%E5%9C%B3+%E7%A7%9F%E6%88%BF%E7%BD%91
- 采集內容:標題、價格、地點、格局
前麵三步的具體步驟可以參考文章《采集列表數據》,下麵從第四步講解。
第四步:定位標誌
4.1,點擊標題,在底部窗口裏找到包容標題的區塊節點,並且要有屬性值(id或class值),在本例中,找到的div節點有屬性值@class=zu-info,可以作為定位標誌值。
4.2,右擊節點,選擇“定位標誌映射”->“標題”,映射後,在整理箱的定位標誌和類型這兩列,可以看到zu-info和+class,表示把@class=t的節點映射給了標題,這時,標題既有內容映射又有定位標誌映射。
4.3,重複4.1和4.2步驟,對其他內容也做定位標誌映射。
第五步:存規則,抓數據
5.1,規則測試成功後,點擊“存規則”;
5.2,點擊“爬數據”,彈出DS打數機,開始抓數據。
Tips1:有以下兩種情況需要調整一下定位類型。
1、如果這個節點同時有id值和class值,可以雙擊抓取內容,選擇“偏好id”或者“偏好class”,通常選擇同類網頁都相同的定位值。這是對單個抓取內容生效的。
2、如果抓到空信息或錯位信息,需要調整整理箱的定位,選擇合適的類型,通常選擇“絕對定位”可以解決。這是對整理箱生效的。
Tips2:下麵是定位標誌的使用範圍。
1、定位標誌雖然不是必須的,但會大大提高規則的精確度和適用性。
2、同一個定位標誌值可以映射給多個抓取內容。
3、樣例複製下的抓取內容要限定到樣例1節點的範圍裏,再選合適的定位值。
4、做了樣例複製不能再做定位標誌映射。
上篇文章:《采網址做層級采集》 下篇文章:《定位標誌——采集列表數據》
若有疑問可以或

最後更新:2017-01-09 14:08:11