737
火車采集器
文章采集器抓取列表分頁示例
文章采集器抓取列表分頁示例
作者:dong 發布於:2016-6-23 14:38 Thursday 分類:官方公告
在使用文章采集器采集文章的過程中,我們經常需要對分頁進行抓取,比如列表分頁或內容分頁,這裏我們就以列表分頁為例,為大家講解一下火車采集器是如何操作分頁的。
對於設置列表分頁,通過下圖的起始網址——批量網址來
設置是最常見也是最常用的。
現在我們用另外一種獲取分頁的辦法,即通過列表上下頁無限分頁
采集獲取功能來自動獲取分頁。使用這個功能,起始頁就隻需要把首頁地址添加進去就可以了,如下圖:
然後進入[高級模式]——分頁設置,設置區域開始字符串、區域結束字符串、地址樣式、分頁地址等字段。
我們以https://news.qq.com/newsgn/zhxw/shizhengxinwen.htm 為例,先查看下第一頁分頁源代碼的情況,如下圖:
繼續查看下第二頁分頁源代碼的情況如下:
分析得出:當前頁都是在<div>後的<strong></strong>這個代碼後麵緊接著一個<a href="">就是下一頁地址。 也就是說我們是要通過當前頁獲取下一頁,這樣一級一級的向下獲取,直至把所有分頁獲取到。 所以,區域開始字符串為:<div>(*)</strong> 區域結束字符串為:</a>(*)</div>
地址樣式根據截取區域的格式來寫:<a href="[參數]">,效果如下:
另外上圖 “4” 是表示獲取4頁的意思,默認為“0”表示不限,將采集所有分頁。這樣就可以用火車采集器獲取到我們需要的上下頁列表分頁了,用火車采集器抓取內容頁上下頁模式也是可以參考這種操作的,更多使用教程可以訪問官網進行學習。
最後更新:2017-05-09 01:06:04