閱讀737 返回首頁    go 火車采集器


文章采集器抓取列表分頁示例

文章采集器抓取列表分頁示例

作者:dong 發布於:2016-6-23 14:38 Thursday 分類:官方公告

在使用文章采集器采集文章的過程中,我們經常需要對分頁進行抓取,比如列表分頁或內容分頁,這裏我們就以列表分頁為例,為大家講解一下火車采集器是如何操作分頁的。

對於設置列表分頁,通過下圖的起始網址——批量網址來設置是最常見也是最常用的。

火車采集器1.png

    現在我們用另外一種獲取分頁的辦法,即通過列表上下頁無限分頁采集獲取功能來自動獲取分頁。使用這個功能,起始頁就隻需要把首頁地址添加進去就可以了,如下圖:

火車采集器2.png

    然後進入[高級模式]——分頁設置,設置區域開始字符串、區域結束字符串、地址樣式、分頁地址等字段。

火車采集器3.png

我們以https://news.qq.com/newsgn/zhxw/shizhengxinwen.htm 為例,先查看下第一頁分頁源代碼的情況,如下圖:

火車采集器4.png 繼續查看下第二頁分頁源代碼的情況如下:

火車采集器5.png 分析得出:當前頁都是在<div>後的<strong></strong>這個代碼後麵緊接著一個<a href="">就是下一頁地址。 也就是說我們是要通過當前頁獲取下一頁,這樣一級一級的向下獲取,直至把所有分頁獲取到。 所以,區域開始字符串為:<div>(*)</strong> 區域結束字符串為:</a>(*)</div>

火車采集器6.png

地址樣式根據截取區域的格式來寫:<a href="[參數]">,效果如下:

火車采集器7.png

    另外上圖 “4” 是表示獲取4頁的意思,默認為“0”表示不限,將采集所有分頁。這樣就可以用火車采集器獲取到我們需要的上下頁列表分頁了,用火車采集器抓取內容頁上下頁模式也是可以參考這種操作的,更多使用教程可以訪問官網進行學習。


標簽: 火車采集器 文章采集器

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 抓取網頁數據工具的內容獲取方式 | 社會信任感缺失,受害的是誰?»

發表評論:

最後更新:2017-05-09 01:06:04

  上一篇:go 網頁抓取工具火車采集器發布模塊製作示例
  下一篇:go 文章采集器采集規則和發布模塊的對接