253
火車采集器
網站抓取精靈火車采集器的多頁抓取教程
網站抓取精靈火車采集器的多頁抓取教程
作者:dong 發布於:2016-5-24 10:02 Tuesday 分類:官方公告
熟悉網站采集的朋友應該都知道,當我們要采集的信息不在當前默認頁,而在當前默認頁
某一個鏈接的所在頁時,我們就需要用到多頁地址管理,在火車采集器V9中多頁管理的操作如下:
我們以內容頁網址 https://kimi201406.1688.com/page/creditdetail.htm 為例,來獲取它的公司介紹和聯係方式頁麵的聯係方式信息。
公司介紹在網址 https://kimi201406.1688.com/page/creditdetail.htm 裏獲取,而聯係方式信息在網址https://kimi201406.1688.com/page/contactinfo.htm 裏獲取。所以我們需要借助多頁功能來實現。前者叫默認頁地址,後者叫做多頁地址。
流程:點擊①創建多頁,進行②多頁設置,然後在數據來源③選擇多頁調用,最後根據多頁源代碼設置提取方式。
下麵重點講解②,多頁地址的兩種獲取方式:頁麵地址替換和源碼中截取。
1.頁麵地址替換:也就是默認頁和多頁地址有相同的地方,通過簡單的替換就可以變成多頁地址。
比較默認頁“https://kimi201406.1688.com/page/creditdetail.htm”和多頁地址:“http: //kimi201406.1688.com/page/contactinfo.htm”之間的共同點,可以發現默認頁“creditdetail.htm”替換為“contactinfo.htm”就是我們的多頁地址了。
設置如下圖:
注:正則表達式中 (.*)
為任意通配符。$1
,$2
…$
數字
來按照順序對應上麵(.*)
表示的部分。若要對多頁源碼部分區域做限定,可在指定多頁源碼區域設置。
若留空則默認返回多頁整個源代碼。設置好以後,點擊測試查看結果即可。
2.源碼中截取:也就是多頁的地址在默認頁的頁麵源代碼裏麵。
如圖,可以看到默認頁源碼中存在多頁地址。
所以設置如下:
測試後如正確則保存即可。最後設置數據來源和提取方式,如圖:
注:如需要多級多頁,則在多頁地址獲取方式選擇需要的多頁即可
這兩種獲取方式大家掌握了嗎,今後在抓取網站時使用火車采集器V9的上述操作就可以很容易地獲取到關聯的多頁地址了,作為一款功能全麵的網站抓取精靈,火車采集器一定會充分考慮到用戶的使用需求,以及如何最大化實現便利。
最後更新:2017-05-09 01:06:04