網站抓取精靈火車采集器如何獲取內容網址

作者：dong 發布於：2016-5-16 16:13 Monday 分類：官方公告

  我們在使用網站抓取精靈做采集時，往往需要先從網頁的初始網址開始獲取內容頁網址，那麼火車采集器進入列表頁後，如何進一步獲取內容網址呢，下麵就請新手們一起來看看內容頁網址采集規則如何製作。

    在火車采集器V9中，內容網址獲取有常規模式和高級模式兩種。

    1.常規模式：該模式默認抓取一級地址，即從起始頁源代碼中獲取到內容頁A鏈接。它有兩種方式：a.自動獲取地址鏈接 b.手動設置規則獲取。

    2.高級模式：該模式對0級，多級，POST類型網址的抓取有效。即起始網址就是內容頁網址；或者需要對多級列表網址采集才能得到最終內容頁鏈接；或者是post網址類型抓取等情況下使用高級模式。

    這裏詳細說明下常規模式中a和b兩種方式采集的具體操作，高級模式待後續講解。

[常規模式]a.自動獲取地址鏈接

     自動獲取地址鏈接:自動獲取該級列表頁中所有的標簽<a href="URL">內的URL鏈接。如新浪內地新聞：https://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

獲取結果如圖：

規則1.png

根據統計我們可以看到，發現共計81個一級網址，但實際我們需要抓取的1級網址是每頁40個，說明其中有我們不需要的鏈接，所以我們可以通過區域設置和鏈接過濾，來篩選獲取我們所需要的鏈接。用瀏覽器點擊查看網頁源代碼，分析源碼得出，所需鏈接應符合以下條件：
開始字符串為<ul>
結尾字符串為 

我們將其填入設置區域，再進行測試一次，並查看結果。通過測試可以看出結果是正確的，如下圖。

規則2.png

規則3.png

[常規模式]b.手動設置規則獲取

對於有些由腳本生成的網址，采集器不能自動識別，此時就要手動設置規則獲取了。手動設置規則獲取的原理是編寫腳本規則，去和源代碼裏的內容匹配，獲取到自己設置的參數即可。其中提取規則裏的[參數]、(*) 、[標簽:XXX] 都是通配符，可以統配任意字符，而區別在於[參數]有返回值，一般用於拚接地址，(*)沒有返回值，[標簽:XXX]有返回值，返回值給標簽。如新浪內地新聞：https://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml