35
火車采集器
火車采集器V9起始網址頁即為內容頁和標簽循環采集功能使用
火車采集器V9起始網址頁即為內容頁和標簽循環采集功能使用
作者:dong 發布於:2017-4-19 14:39 Wednesday
今天給大家分享財富網股票業績預告信息采集規則。今天的規則相對比較簡單,但簡單中又有技巧,
比如看到這個圖的規則,會不會暈呢,怎麼就標點符號和通配符呢?今天的規則主要使用了起始網址頁即為內容頁和標簽循環采集功能,下方案例講解為大家詳細說明。
【案例講解】
今天主要講解 起始網址頁即為內容頁和標簽循環采集功能,其他略過!
我們要采集的網址:https://data.eastmoney.com/bbsj/201703/yjyg.html
如上圖,我們需要采集表格中的信息。
底部有分頁,總共29頁,發現點擊分頁,網址並無變化,那就這就需要我們使用抓包軟件Fiddler(學習抓包)來抓取真實地址,如下圖:
通過抓包我們找到了有我們需要的數據的頁麵地址,我們將網址複製出來,參照下圖:
通過網址規則分析到分頁的參數變量,一般可以通過抓取多個分頁的網址進行對比就知道哪個是分頁變量了,找到變量規則後,我就可可以通過網址分頁規則進行設置,共29頁,如下圖:
通過抓包軟件,我們看到我們所要采的數據就在抓取的分頁中,就並不需要再采集內容頁,我們要的內容就在起始網址頁中,那麼我們就需要使用火車采集器的起始網址就是內容頁網址,我們點擊“點擊設置”,如下圖:
點擊出現下圖,是灰色的,不能進行任何設置,因為我們不需要設置采集內容頁網址了,所以這裏不操作。
直接進入內容采集規則設置界麵,如下圖,因為我們需要采的內容是表格內容並且都在一個頁麵上,所以我們需要使用循環采集,所以設置標簽的時候,每個標簽都要將循環匹配√選上。(每個標簽的內容采集規則這裏不多說,大家可以下載規則自行測試學習,其實還是有一定的小技巧的)
網頁上的表格數據,一行一條信息,所以我們采集下來也是需要一行一條信息,那在左側下方的循環設置中我們要進行設置,改為“添加新記錄”,這樣我們采集的信息就會一行一條,否則所有信息將堆積在一起,隻有一條信息。參照下圖:
設置好後我們進行測試,出現下圖即為設置成功
另外講下,在采集該頁麵信息進行循環時,發現第一條信息和其他信息的規則不一樣,經過分析,隻能循環采集每頁的除第一條的其他信息。那這應該怎麼辦?這個沒有更好的方法,頁麵數據規則太過簡單,無法找到一個能夠匹配所有信息的規則,解決方法隻有一個笨方法,但是也是唯一可以解決此問題的。那就是先循環采集所有信息,然後再設一個規則隻針對第一條信息,再采一次最後合並。這裏分享的規則不能采集到第一條信息,大家可以按照我的思路去嚐試采集第一條信息。
相關日誌:
最後更新:2017-05-09 01:06:04