抓取網頁數據工具的內容獲取方式

作者：dong 發布於：2016-6-28 17:02 Tuesday 分類：官方公告

抓取網頁數據的工具火車采集器在獲取內容時，需要對數據內容的標簽進行編輯定義，在火車采集器V9中對數據內容標簽進行編輯定義，從而獲取數據的方法有三類：A).從源碼中獲取數據B).生成固定格式的數據C).已有標簽組合，下麵分別講解下具體的含義。

A).從源碼中獲取數據：可精確地設置標簽的來源是從默認頁的源碼、返回頭信息和網頁地址中，或者是分頁、循環分塊、多頁中。其源碼提取的方式包括：前後截取、正則提取、正文提取、Xpath提取，JSON 提取五種，後麵詳細示範。

B).生成固定格式的數據：可生成固定的字符串、係統時間、隨機字符串、隨機數字、係統時間戳，隨機抽取信息。

C).已有標簽組合：可通過組合已有的標簽，來生成新的標簽內容。

其中最常用的是從源碼中獲取數據，其對應的五種獲取方式的操作如下：

A.a).前後截取

通過設置開始字符串和結束字符串，來獲取中間的字符，可以在開始和結束字符串中設置通配符（*）。比如一段源代碼為“<title>標題</title>”，那麼其中的標題就是我們需要的內容，我們在火車采集器V9中寫作：

火車采集器1.png

A.b).正則提取

支持兩種正則，一個純正則，一個參數正則。

先介紹純正則，舉個例子，如：前字符串 (?<content>[\s\S]*?)後字符串，這個正則其實效果跟前後截取一樣，如需要獲取全部代碼，則為^(?<content>[\s\S]*?)$ ，此功能運用需有一定的正則基礎。

關於參數正則，是通過參數組合，來生成內容。比如說要匹配標題為“新用戶注冊”和作者“神秘嘉賓”，代碼如下：

<div>

<h2>新用戶注冊</h2>

設置如圖：

火車采集器2.png

需要獲取的字段用參數表示，不需要的字段或空格用星號代替；在組合結果裏可以對多個參數進行組合。

A.c).正文提取

注意這種方式隻適合格式較為規則的多文字數據提取，例如新聞文章。它不需要設置複雜的規則，
可智能分析提取文章正文，文章標題，以及發布時間。

火車采集器3.png

A.d).Xpath提取

通過Xpath表達式來獲取數據，比如//div[@id=’content’]，就是獲取id為content的div，可指定要獲取html節點的屬性，比如 Innerhtml、Outerhtml、Innertext、Href屬性。（注意：這種有一定的局限性，對於部分html標簽不規範的頁麵無法解析。）

A.e).JSON提取

通過對JSON形式的數據格式化操作，寫表達式來獲取其節點數據。這裏大家需要注意JSON 是有兩種結構，簡單的說json就是javascript中的對象和數組，所以這兩種結構就是對象和數組兩種，通過這兩種結構可以表示各種複雜的結構。具體操作另有教程抓取網頁數據工具json提取示例講解，感興趣的朋友可以研究一下。

標簽: 火車采集器V9

相關日誌：

福利來啦：6.8折優惠碼太給力！

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具，2016年讓大數據更接地氣！

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 網頁抓取工具：大數據崗位必備 | 文章采集器抓取列表分頁示例»

取消回複

發表評論：

最後更新：2017-05-09 01:06:04