閱讀500 返回首頁    go 火車采集器


網站抓取精靈火車采集器如何獲取內容網址

網站抓取精靈火車采集器如何獲取內容網址

作者:dong 發布於:2016-5-16 16:13 Monday 分類:官方公告

  我們在使用網站抓取精靈​做采集時,往往需要先從網頁的初始網址開始獲取內容頁網址,那麼火車采集器進入列表頁後,如何進一步獲取內容網址呢,下麵就請新手們一起來看看內容頁網址采集規則如何製作。
    在火車采集器V9中,內容網址獲取有常規模式和高級模式兩種。
    1.常規模式:該模式默認抓取一級地址,即從起始頁源代碼中獲取到內容頁A鏈接。它有兩種方式:a.自動獲取地址鏈接 b.手動設置規則獲取。
    2.高級模式:該模式對0級,多級,POST類型網址的抓取有效。即起始網址就是內容頁網址;或者需要對多級列表網址采集才能得到最終內容頁鏈接;或者是post網址類型抓取等情況下使用高級模式。
    這裏詳細說明下常規模式中a和b兩種方式采集的具體操作,高級模式待後續講解。
[常規模式]a.自動獲取地址鏈接
     自動獲取地址鏈接:自動獲取該級列表頁中所有的標簽<a href="URL">內的URL鏈接。如新浪內地新聞:https://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

獲取結果如圖:

規則1.png

    根據統計我們可以看到,發現共計81個一級網址,但實際我們需要抓取的1級網址是每頁40個,說明其中有我們不需要的鏈接,所以我們可以通過區域設置鏈接過濾,來篩選獲取我們所需要的鏈接。用瀏覽器點擊查看網頁源代碼,分析源碼得出,所需鏈接應符合以下條件:
開始字符串為
<ul> 
結尾字符串為 <!-- 分頁 begin -->

    我們將其填入設置區域,再進行測試一次,並查看結果。通過測試可以看出結果是正確的,如下圖。

規則2.png

規則3.png


[常規模式]b.手動設置規則獲取

    對於有些由腳本生成的網址,采集器不能自動識別,此時就要手動設置規則獲取了。手動設置規則獲取的原理是編寫腳本規則,去和源代碼裏的內容匹配,獲取到自己設置的參數即可。其中提取規則裏的[參數]、(*) [標簽:XXX] 都是通配符,可以統配任意字符,而區別在於[參數]有返回值,一般用於拚接地址,(*)沒有返回值,[標簽:XXX]有返回值,返回值給標簽。如新浪內地新聞:https://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

有如下源碼:

    <li><a href="https://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml" target="_blank">山西公布政府部門責任清單 建立拒腐機製</a><span>(10月10日 20:20)</span></li>

    <li><a href="https://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml" target="_blank">河南登封市長被舉報建寺涉貪 與釋延魯關係密切</a><span>(10月10日 20:14)</span></li>

    <li><a href="https://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml" target="_blank">張家界國土局副局長涉嚴重違紀被查</a><span>(10月10日 19:45)</span></li>

    此時,我們可以取其中的一條代碼作為循環匹配,把我們要獲取的鏈接替換成[參數],需要采集到的值替換成標簽。 如下填寫提取規則:

    <li><a href="[參數]" target="_blank">網站抓取精靈火車采集器如何獲取內容網址</a><span>() </span></li>

規則4.png

 如上圖,這樣符合該格式的源碼就會進行自動匹配,參數中獲取到的就是內容頁地址鏈接,標簽中就分布是標題和時間了。

    到這裏,網站抓取精靈火車采集器V9獲取內容網址的常規模式設置就完成了,大家隻要看過就會覺得比較簡單,火車采集器V9軟件需要大家多學習,這樣上手就會非常容易了。

標簽: 火車采集器V9 網站抓取精靈

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 網絡爬蟲火車瀏覽器的文件操作 | 火車采集器V7V8版本無法登錄的解決辦法»

發表評論:

最後更新:2017-05-09 01:06:03

  上一篇:go 網絡爬蟲火車瀏覽器的文件操作
  下一篇:go 抓取網頁數據工具新增功能json提取示例