398
火車采集器
抓取網頁數據工具的內容獲取方式
抓取網頁數據工具的內容獲取方式
作者:dong 發布於:2016-6-28 17:02 Tuesday 分類:官方公告
抓取網頁數據的工具火車采集器在獲取內容時,需要對數據內容的標簽進行編輯定義,在火車采集器V9中對數據內容標簽進行編輯定義,從而獲取數據的方法有三類:A).從源碼中獲取數據B).生成固定格式的數據C).已有標簽組合,下麵分別講解下具體的含義。
A).從源碼中獲取數據:可精確地設置標簽的來源是從默認頁的源碼、返回頭信息和網頁地址中,或者是分頁、循環分塊、多頁中。其源碼提取的方式包括: 前後截取、正則提取、正文提取、Xpath提取,JSON 提取五種,後麵詳細示範。
B).生成固定格式的數據:可生成固定的字符串、係統時間、隨機字符串、隨機數字、係統時間戳,隨機抽取信息。
C).已有標簽組合:可通過組合已有的標簽,來生成新的標簽內容。
其中最常用的是從源碼中獲取數據,其對應的五種獲取方式的操作如下:
A.a).前後截取
通過設置開始字符串和結束字符串,來獲取中間的字符,可以在開始和結束字符串中設置通配符(*)。比如一段源代碼為“<title>標題</title>”,那麼其中的標題就是我們需要的內容,我們在火車采集器V9中寫作:
A.b).正則提取
支持兩種正則,一個純正則,一個參數正則。
先介紹純正則,舉個例子,如:前字符串 (?<content>[\s\S]*?)後字符串,這個正則其實效果跟前後截取一樣,如需要獲取全部代碼,則為^(?<content>[\s\S]*?)$ ,此功能運用需有一定的正則基礎。
關於參數正則,是通過參數組合,來生成內容。比如說要匹配標題為“新用戶注冊”和作者“神秘嘉賓”,代碼如下:
<div>
<h2>新用戶注冊</h2>
<div >【作者:神秘嘉賓】【字號:<a href="#">大</a>
設置如圖:
需要獲取的字段用參數表示,不需要的字段或空格用星號代替;在組合結果裏可以對多個參數進行組合。
A.c).正文提取
注意這種方式隻適合格式較為規則的多文字數據提取,例如新聞文章。它不需要設置複雜的規則,
可智能分析提取文章正文,文章標題,以及發布時間。
A.d).Xpath提取
通過Xpath表達式來獲取數據,比如//div[@id=’content’],就是獲取id為content的div,可指定要獲取html節點的屬性,比如 Innerhtml、Outerhtml、Innertext、Href屬性。(注意:這種有一定的局限性,對於部分html標簽不規範的頁麵無法解析。)
A.e).JSON提取
通過對JSON形式的數據格式化操作,寫表達式來獲取其節點數據。這裏大家需要注意JSON 是有兩種結構,簡單的說json就是javascript中的對象和數組,所以這兩種結構就是對象和數組兩種,通過這兩種結構可以表示各種複雜的結構。具體操作另有教程抓取網頁數據工具json提取示例講解,感興趣的朋友可以研究一下。
標簽: 火車采集器V9
最後更新:2017-05-09 01:06:04