閱讀398 返回首頁    go 火車采集器


抓取網頁數據工具的內容獲取方式

抓取網頁數據工具的內容獲取方式

作者:dong 發布於:2016-6-28 17:02 Tuesday 分類:官方公告

   抓取網頁數據的工具火車采集器在獲取內容時,需要對數據內容的標簽進行編輯定義,在火車采集器V9中對數據內容標簽進行編輯定義,從而獲取數據的方法有三類:A).從源碼中獲取數據B).生成固定格式的數據C).已有標簽組合,下麵分別講解下具體的含義。

A).從源碼中獲取數據:可精確地設置標簽的來源是從默認頁的源碼、返回頭信息和網頁地址中,或者是分頁、循環分塊、多頁中。其源碼提取的方式包括: 前後截取、正則提取、正文提取、Xpath提取,JSON 提取五種,後麵詳細示範。

B).生成固定格式的數據:可生成固定的字符串、係統時間、隨機字符串、隨機數字、係統時間戳,隨機抽取信息。

C).已有標簽組合:可通過組合已有的標簽,來生成新的標簽內容。

其中最常用的是從源碼中獲取數據,其對應的五種獲取方式的操作如下:

A.a).前後截取

通過設置開始字符串和結束字符串,來獲取中間的字符,可以在開始和結束字符串中設置通配符(*)。比如一段源代碼為“<title>標題</title>”,那麼其中的標題就是我們需要的內容,我們在火車采集器V9中寫作:

 

火車采集器1.png

A.b).正則提取

支持兩種正則,一個純正則,一個參數正則。

先介紹純正則,舉個例子,如:前字符串 (?<content>[\s\S]*?)後字符串,這個正則其實效果跟前後截取一樣,如需要獲取全部代碼,則為^(?<content>[\s\S]*?)$ ,此功能運用需有一定的正則基礎。

關於參數正則,是通過參數組合,來生成內容。比如說要匹配標題為“新用戶注冊”和作者“神秘嘉賓”,代碼如下:

<div>

      <h2>新用戶注冊</h2>

<div >【作者:神秘嘉賓】【字號:<a href="#">大</a>

設置如圖:

火車采集器2.png

需要獲取的字段用參數表示,不需要的字段或空格用星號代替;在組合結果裏可以對多個參數進行組合。

A.c).正文提取

注意這種方式隻適合格式較為規則的多文字數據提取,例如新聞文章。它不需要設置複雜的規則,
可智能分析提取文章正文,文章標題,以及發布時間。

火車采集器3.png

A.d).Xpath提取

通過Xpath表達式來獲取數據,比如//div[@id=’content’],就是獲取id為content的div,可指定要獲取html節點的屬性,比如 Innerhtml、Outerhtml、Innertext、Href屬性。(注意:這種有一定的局限性,對於部分html標簽不規範的頁麵無法解析。)

A.e).JSON提取

通過對JSON形式的數據格式化操作,寫表達式來獲取其節點數據。這裏大家需要注意JSON 是有兩種結構,簡單的說json就是javascript中的對象和數組,所以這兩種結構就是對象和數組兩種,通過這兩種結構可以表示各種複雜的結構。具體操作另有教程抓取網頁數據工具json提取示例講解,感興趣的朋友可以研究一下。


標簽: 火車采集器V9

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 網頁抓取工具:大數據崗位必備 | 文章采集器抓取列表分頁示例»

發表評論:

最後更新:2017-05-09 01:06:04

  上一篇:go 國務院放大招,企業還敢製假、欠薪、詐騙?
  下一篇:go 可視化采集軟件火車瀏覽器的邏輯相關操作