閱讀892 返回首頁    go gooseeker集搜客


定位標誌精確采集範圍——以安居客租房采集為例

一、操作步驟

如果隻是簡單地把信息標注出來,可以采集到樣本網頁的數據,但是批量采集同類網頁就可能會遇到失敗。這種情況下需要加上定位標誌映射以提高數據規則的精度和適應性,降低網頁變化帶來的影響。下麵用安居客網作為案例,操作步驟如下:


二、案例規則+操作步驟

  • 采集規則:安居客租房采集(可點擊下載)
  • 樣本網址:https://sz.zu.anjuke.com/?pi=baidu-cpchz-sz-tyong1&kwid=8248540023&utm_term=%E6%B7%B1%E5%9C%B3+%E7%A7%9F%E6%88%BF%E7%BD%91
  • 采集內容:標題、價格、地點、格局

前麵三步的具體步驟可以參考文章《采集列表數據》,下麵從第四步講解。

第四步:定位標誌

4.1,點擊標題,在底部窗口裏找到包容標題的區塊節點,並且要有屬性值(id或class值),在本例中,找到的div節點有屬性值@class=zu-info,可以作為定位標誌值。

4.2,右擊節點,選擇“定位標誌映射”->“標題”,映射後,在整理箱的定位標誌和類型這兩列,可以看到zu-info和+class,表示把@class=t的節點映射給了標題,這時,標題既有內容映射又有定位標誌映射。


4.3,重複4.1和4.2步驟,對其他內容也做定位標誌映射。


第五步:存規則,抓數據

5.1,規則測試成功後,點擊“存規則”;

5.2,點擊“爬數據”,彈出DS打數機,開始抓數據。


Tips1:有以下兩種情況需要調整一下定位類型。

1、如果這個節點同時有id值和class值,可以雙擊抓取內容,選擇“偏好id”或者“偏好class”,通常選擇同類網頁都相同的定位值。這是對單個抓取內容生效的。


2、如果抓到空信息或錯位信息,需要調整整理箱的定位,選擇合適的類型,通常選擇“絕對定位”可以解決。這是對整理箱生效的。


Tips2:下麵是定位標誌的使用範圍。

1、定位標誌雖然不是必須的,但會大大提高規則的精確度和適用性。

2、同一個定位標誌值可以映射給多個抓取內容。

3、樣例複製下的抓取內容要限定到樣例1節點的範圍裏,再選合適的定位值。

4、做了樣例複製不能再做定位標誌映射。


上篇文章:《采網址做層級采集》                                                       下篇文章:《定位標誌——采集列表數據》


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:11

  上一篇:go 快速製作規則及獲取規則提取器API
  下一篇:go Python網頁信息采集:使用PhantomJS采集淘寶天貓商品內容