131
火車采集器
網頁數據抓取之自動分類功能
網頁數據抓取之自動分類功能
作者:dong 發布於:2016-9-10 16:57 Saturday 分類:官方公告
我們在使用火車采集器進行數據抓取的時候,會需要將采集內容包含某個字段的所有內容都替換為某個固定的內容。使用場景如:我們從某網站上采集城市名稱,然後城市名稱示例為:浙江省杭州市,但我們需要將這個內容替換為杭州,這時就可以使用自動分類功能。
下麵以百度為例介紹下用法,首先在火車采集器V9建立規則,內容采集規則的標簽編輯如下:
如上圖,我們想要將包含百度的標題 內容更替換為“常用搜索網站”,則寫成如下格式:
運行結果為:
上述就是數據抓取時將某字段所有內容自動分類的使用方法,在操作中還需要注意的是:
1、一行一個分類,可以寫多個分類。若是一個關鍵詞符合多個分類,則優先替換上麵的分類,火車采集器中是按照從上至下的原則替換。
2、若是所有分類不符合的情況下,你想要將關鍵詞賦予為一個默認值,按下圖操作:
學會數據抓取的自動分類操作,對包含同類字段的內容進行分類就方便多了,大家也操作試試吧。
標簽: 火車采集器V9
最後更新:2017-05-09 01:06:04