806
技術社區[雲棲]
網頁抓取工具之數據預處理
提取的數據還不能直接拿來用?文件還沒有被下載?格式等都還不符合要求?別著急,網頁抓取工具火車采集器自有應對方案——數據處理。
圖片1.png
網頁抓取工具的數據處理功能包括三個部分,分別是內容處理、文件下載、內容過濾。下麵依次給大家介紹:
1、內容處理:對從內容頁麵提取的數據進行替換、標簽過濾、分詞等進一步處理,我們可以同時添加多個操作,但這裏需要注意的是,有多個操作時是按照從上到下的順序來執行,也就是說,上個步驟的結果會作為下個步驟的參數。
下麵來逐個介紹一下:
①提取內容為空:如果通過前麵的規則無法準確提取或提取到的內容為空,則選擇此項,此項應用後會使用正則匹配從原始頁麵中再次提取一次。
②內容替換/排除:將采集到的內容進行字符串替換,如需排除,則替換為空字符串即可,功能很靈活。如下圖,可直接對內容進行替換,也可對字符串進行參數替換等(區別於工具欄中的同義詞替換)。
③html標簽過濾:過濾指定html標簽,比如
④字符截取:通過開始和結束字符串對內容進行截取。適用於對已提取內容的截取調整。
⑤純正則替換:如果一些內容(比如單一出現的文字)無法通過通用的內容替換來操作,那麼則需要通過強大的正則表達式進行複雜的替換。
如“火爆的美式餐廳都在這裏”,我們將其替換為“美式餐廳”,正則表達式如下:
圖片2.png
⑥數據轉換:包括將結果簡轉繁、將結果繁轉簡、自動轉化為拚音和時間修正轉化,共計四項處理。
⑦智能提取:包括提取第一張圖片、智能提取時間、智能提取郵箱、智能提取手機號碼、智能提取電話號碼。
⑧高級功能:包括自動摘要、自動分詞、自動分類、Http請求、字符編碼轉換、同義詞替換、空內容缺省值、內容加前後綴、隨機插入、運行C#代碼、批量內容替換,統計標簽字符串長度等一係列功能。
⑨補全單網址:將當前內容作為一個網址進行補全。
2、文件下載:可以自動探測並下載文件,可設置下載路徑和文件名樣式。
注意:文件下載中所指下載圖片是源代碼裏有標準樣式標簽的圖片地址。
比如是一個直接的圖片地址https://www.locoy.com/logo.gif ,或者不規則的圖片源碼,采集器將會視為文件下載。
①將相對地址補全為絕對地址:勾選後會把標簽采集到的相對地址補全為絕對地址。
②下載圖片:勾選後源代碼裏的含標準樣式的代碼圖片將被下載。
③探測文件真實地址但不下載:有時候采集到的是附件下載地址,而非真實的下載地址,點擊後會有跳轉。這種情況下勾選此項會將真實地址采集出來,但是隻是得到下載地址並不下載。
④探測文件並下載:勾選後可以把采集到的任何格式的文件附件下載下來。
3、內容過濾:對於一些不符合條件的記錄,可以通過設置內容過濾來刪除或標記為未采。內容過濾有以下幾個處理方法:
①內容不得包含和內容必須包含:可以設置多個詞,支持選擇所有條件都必須滿足或滿足其中一個條件即可。
②采集結果不得為空:該功能可以讓某個字段不出現空內容。
③采集結果不得重複:該功能可以讓某個字段不出現重複內容。設置此項前請確保沒有采集過數據,或者需先清空采集數據。
④當內容長度小於(大於,等於,不等於)N時過濾:一個符號或一個字母或一個數字或一個漢字都計作一個。
注意:對於滿足上述四條中的任何一條或者多條的情況下,可以在采集器的其他設置功能裏設置直接刪除此條記錄,或把此條記錄標記為未采集下次運行任務時會再次采集。
網頁抓取工具火車采集器中配備一係列數據處理的好處是,當我們需要進行的隻是一個很小的操作時,不需要再去寫插件,去生成和編譯,而是通過一步點擊就可以將數據處理成我們需要的樣子了。
最後更新:2017-05-27 17:01:33