500
火車采集器
網站抓取精靈火車采集器如何獲取內容網址
網站抓取精靈火車采集器如何獲取內容網址
作者:dong 發布於:2016-5-16 16:13 Monday 分類:官方公告
我們在使用網站抓取精靈做采集時,往往需要先從網頁的初始網址開始獲取內容頁網址,那麼火車采集器進入列表頁後,如何進一步獲取內容網址呢,下麵就請新手們一起來看看內容頁網址采集規則如何製作。在火車采集器V9中,內容網址獲取有常規模式和高級模式兩種。1.常規模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。它有兩種方式:a.自動獲取地址鏈接 b.手動設置規則獲取。2.高級模式:該模式對0級,多級,POST類型網址的抓取有效。即起始網址就是內容頁網址;或者需要對多級列表網址采集才能得到最終內容頁鏈接;或者是post網址類型抓取等情況下使用高級模式。這裏詳細說明下常規模式中a和b兩種方式采集的具體操作,高級模式待後續講解。[常規模式]a.自動獲取地址鏈接自動獲取地址鏈接:自動獲取該級列表頁中所有的標簽<a href="URL">內的URL鏈接。如新浪內地新聞:https://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml
獲取結果如圖:
根據統計我們可以看到,發現共計81個一級網址,但實際我們需要抓取的1級網址是每頁40個,說明其中有我們不需要的鏈接,所以我們可以通過
區域設置
和鏈接過濾
,來篩選獲取我們所需要的鏈接。用瀏覽器點擊查看網頁源代碼,分析源碼得出,所需鏈接應符合以下條件:
開始字符串為<ul>
結尾字符串為<!--
分頁 begin -->
我們將其填入設置區域,再進行測試一次,並查看結果。通過測試可以看出結果是正確的,如下圖。
[常規模式]b.手動設置規則獲取對於有些由腳本生成的網址,采集器不能自動識別,此時就要手動設置規則獲取了。手動設置規則獲取的原理是編寫腳本規則,去和源代碼裏的內容匹配,獲取到自己設置的參數即可。其中提取規則裏的
[
參數]、(*)
、[
標簽:XXX]
都是通配符,可以統配任意字符,而區別在於[
參數]
有返回值,一般用於拚接地址,(*)
沒有返回值,[
標簽:XXX]
有返回值,返回值給標簽。如新浪內地新聞:https://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml有如下源碼:
<li><a href="https://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml" target="_blank">山西公布政府部門責任清單 建立拒腐機製</a><span>(10月10日 20:20)</span></li>
<li><a href="https://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml" target="_blank">河南登封市長被舉報建寺涉貪 與釋延魯關係密切</a><span>(10月10日 20:14)</span></li>
<li><a href="https://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml" target="_blank">張家界國土局副局長涉嚴重違紀被查</a><span>(10月10日 19:45)</span></li>
此時,我們可以取其中的一條代碼作為循環匹配,把我們要獲取的鏈接替換成[參數],需要采集到的值替換成標簽。 如下填寫提取規則:
<li><a href="[參數]" target="_blank">網站抓取精靈火車采集器如何獲取內容網址</a><span>() </span></li>
如上圖,這樣符合該格式的源碼就會進行自動匹配,參數中獲取到的就是內容頁地址鏈接,標簽中就分布是標題和時間了。
到這裏,網站抓取精靈火車采集器V9獲取內容網址的常規模式設置就完成了,大家隻要看過就會覺得比較簡單,火車采集器V9軟件需要大家多學習,這樣上手就會非常容易了。
最後更新:2017-05-09 01:06:03