806 技術社區[雲棲]

網頁抓取工具之數據預處理

提取的數據還不能直接拿來用？文件還沒有被下載？格式等都還不符合要求？別著急，網頁抓取工具火車采集器自有應對方案——數據處理。
圖片1.png
網頁抓取工具的數據處理功能包括三個部分，分別是內容處理、文件下載、內容過濾。下麵依次給大家介紹：
1、內容處理：對從內容頁麵提取的數據進行替換、標簽過濾、分詞等進一步處理，我們可以同時添加多個操作，但這裏需要注意的是，有多個操作時是按照從上到下的順序來執行，也就是說，上個步驟的結果會作為下個步驟的參數。
下麵來逐個介紹一下：
①提取內容為空：如果通過前麵的規則無法準確提取或提取到的內容為空，則選擇此項，此項應用後會使用正則匹配從原始頁麵中再次提取一次。
②內容替換/排除：將采集到的內容進行字符串替換，如需排除，則替換為空字符串即可，功能很靈活。如下圖，可直接對內容進行替換，也可對字符串進行參數替換等（區別於工具欄中的同義詞替換）。
③html標簽過濾：過濾指定html標簽，比如 ④字符截取：通過開始和結束字符串對內容進行截取。適用於對已提取內容的截取調整。
⑤純正則替換：如果一些內容（比如單一出現的文字）無法通過通用的內容替換來操作，那麼則需要通過強大的正則表達式進行複雜的替換。
如“火爆的美式餐廳都在這裏”，我們將其替換為“美式餐廳”，正則表達式如下：
圖片2.png
⑥數據轉換：包括將結果簡轉繁、將結果繁轉簡、自動轉化為拚音和時間修正轉化，共計四項處理。
⑦智能提取：包括提取第一張圖片、智能提取時間、智能提取郵箱、智能提取手機號碼、智能提取電話號碼。
⑧高級功能：包括自動摘要、自動分詞、自動分類、Http請求、字符編碼轉換、同義詞替換、空內容缺省值、內容加前後綴、隨機插入、運行C#代碼、批量內容替換，統計標簽字符串長度等一係列功能。
⑨補全單網址：將當前內容作為一個網址進行補全。
2、文件下載：可以自動探測並下載文件，可設置下載路徑和文件名樣式。
注意：文件下載中所指下載圖片是源代碼裏有標準樣式標簽的圖片地址。
比如是一個直接的圖片地址 https://www.locoy.com/logo.gif ,或者不規則的圖片源碼，采集器將會視為文件下載。
①將相對地址補全為絕對地址：勾選後會把標簽采集到的相對地址補全為絕對地址。
②下載圖片：勾選後源代碼裏的含標準樣式的代碼圖片將被下載。
③探測文件真實地址但不下載：有時候采集到的是附件下載地址，而非真實的下載地址，點擊後會有跳轉。這種情況下勾選此項會將真實地址采集出來，但是隻是得到下載地址並不下載。
④探測文件並下載：勾選後可以把采集到的任何格式的文件附件下載下來。
3、內容過濾：對於一些不符合條件的記錄，可以通過設置內容過濾來刪除或標記為未采。內容過濾有以下幾個處理方法：
①內容不得包含和內容必須包含：可以設置多個詞，支持選擇所有條件都必須滿足或滿足其中一個條件即可。
②采集結果不得為空：該功能可以讓某個字段不出現空內容。
③采集結果不得重複：該功能可以讓某個字段不出現重複內容。設置此項前請確保沒有采集過數據，或者需先清空采集數據。
④當內容長度小於(大於，等於，不等於)N時過濾：一個符號或一個字母或一個數字或一個漢字都計作一個。
注意：對於滿足上述四條中的任何一條或者多條的情況下，可以在采集器的其他設置功能裏設置直接刪除此條記錄，或把此條記錄標記為未采集下次運行任務時會再次采集。
網頁抓取工具火車采集器中配備一係列數據處理的好處是，當我們需要進行的隻是一個很小的操作時，不需要再去寫插件，去生成和編譯，而是通過一步點擊就可以將數據處理成我們需要的樣子了。

最後更新：2017-05-27 17:01:33

網頁抓取工具之數據預處理

上一篇：《Servlet、JSP和Spring MVC初學指南》——第1章　Servlets 1.1Servlet API概覽

下一篇：《精通Spring MVC 4》——導讀

相關內容

熱門內容

最新內容

網頁抓取工具之數據預處理

上一篇： 《Servlet、JSP和Spring MVC初學指南》——第1章 Servlets 1.1Servlet API概覽

下一篇： 《精通Spring MVC 4》——導讀

相關內容

熱門內容

最新內容

上一篇：《Servlet、JSP和Spring MVC初學指南》——第1章　Servlets 1.1Servlet API概覽

下一篇：《精通Spring MVC 4》——導讀