閱讀253 返回首頁    go 火車采集器


網站抓取精靈火車采集器的多頁抓取教程

網站抓取精靈火車采集器的多頁抓取教程

作者:dong 發布於:2016-5-24 10:02 Tuesday 分類:官方公告

    熟悉網站采集的朋友應該都知道,當我們要采集的信息不在當前默認頁,而在當前默認頁
某一個鏈接的所在頁時,我們就需要用到多頁地址管理,在火車采集器V9中多頁管理的操作如下:

    我們以內容頁網址 https://kimi201406.1688.com/page/creditdetail.htm 為例,來獲取它的公司介紹和聯係方式頁麵的聯係方式信息。

    公司介紹在網址 https://kimi201406.1688.com/page/creditdetail.htm 裏獲取,而聯係方式信息在網址https://kimi201406.1688.com/page/contactinfo.htm 裏獲取。所以我們需要借助多頁功能來實現。前者叫默認頁地址,後者叫做多頁地址。

    流程:點擊①創建多頁,進行②多頁設置,然後在數據來源③選擇多頁調用,最後根據多頁源代碼設置提取方式。

1@.png

   下麵重點講解,多頁地址的兩種獲取方式:頁麵地址替換和源碼中截取。

1.頁麵地址替換:也就是默認頁和多頁地址有相同的地方,通過簡單的替換就可以變成多頁地址。

    比較默認頁“https://kimi201406.1688.com/page/creditdetail.htm”和多頁地址:“http: //kimi201406.1688.com/page/contactinfo.htm”之間的共同點,可以發現默認頁“creditdetail.htm”替換為“contactinfo.htm”就是我們的多頁地址了。

設置如下圖:

2@.png

注:正則表達式中 (.*) 為任意通配符。$1,$2$數字來按照順序對應上麵(.*)表示的部分。若要對多頁源碼部分區域做限定,可在指定多頁源碼區域設置。
若留空則默認返回多頁整個源代碼。設置好以後,點擊測試查看結果即可。

2.源碼中截取:也就是多頁的地址在默認頁的頁麵源代碼裏麵。

如圖,可以看到默認頁源碼中存在多頁地址。

3@.png


所以設置如下:

4@.png

 測試後如正確則保存即可。最後設置數據來源和提取方式,如圖:

5@.png

注:如需要多級多頁,則在多頁地址獲取方式選擇需要的多頁即可

6@.png

  這兩種獲取方式大家掌握了嗎,今後在抓取網站時使用火車采集器V9的上述操作就可以很容易地獲取到關聯的多頁地址了,作為一款功能全麵的網站抓取精靈,火車采集器一定會充分考慮到用戶的使用需求,以及如何最大化實現便利。​


標簽: 火車采集器V9 網站抓取精靈

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 號外:火車瀏覽器打碼插件開源開放了 | 網頁抓取工具助力傳統企業彎道超車»

發表評論:

最後更新:2017-05-09 01:06:04

  上一篇:go 網頁抓取工具:小數據要累積成大數據
  下一篇:go 火車采集器V9.2起將支持Python插件