閱讀302 返回首頁    go gooseeker集搜客


可視化數據采集器import.io與集搜客評測對比(上)

最近國外一款大數據采集軟件import.io比較火,在獲得了90萬美元的天使輪融資後,最近更是拿到了1300萬美元的A輪融資,吸引了眾多投資者的目光,筆者也懷著好奇使用體驗import.io的神奇功能,本人是中國的大數據采集軟件集搜客GooSeeker的老用戶,所以喜歡把兩者放在一起對比,下麵我把印象最深的幾點功能對比說明,對應import.io的四大特色功能:Magic、Extractor、Crawler、Connector,分成上下兩篇。

對於數據采集比較感興趣的朋友,我希望能起到拋磚引玉的作用,大家一起分析數據采集的技術亮點。

1. Magic(Import.io) VS 天眼和千麵(集搜客)

Magic: 正如單詞magic的原意“魔法”一樣,import.io給Magic賦予了魔法般的功能,用戶隻要輸入網址,Magic工具就能把網頁中的數據整齊規範地神奇地抓下來。

如圖1所示,輸入58同城租房信息網址後,Magic會自動對網頁數據進行采集,操作簡單。但可以看到有些列,會存在漏采的情況,且每頁需要點“Next page”才能進行采集,無法自動翻頁。當然,還有很多網頁幾乎什麼都采集不下來,比如,新浪微博。

無論如何,我感覺很神奇:

  • 他怎麼知道我想要什麼信息?
  • 是不是有人在後台預先做好的?
  • 有些網址輸入以後等待時間較短,有些網址輸入以後等待時間很長,難道真的有人在後台做采集規則?

圖1:Magic自動抓取示例

上圖是import.io的Magic功能的界麵截圖,純web界麵,不用安裝額外的軟件,使用十分方便。總結一下:

  • 優點:適應任何網址,操作非常簡單,自動采集,采集結果可視化。
  • 缺點:無法選擇具體數據,無法自動翻頁采集(是我沒用熟?)。

GooSeeker的天眼和千麵係列:集搜客的天眼和千麵分別針對電商和微博發布的數據采集便捷GUI界麵,隻要將網址輸入,就能將目標數據規範整潔地采集下來。

如圖2所示:展示的是博主采集工具(微博的多方麵數據分別都有采集管理界麵),輸入博主主頁鏈接,就能調度爬蟲,對博主主頁下的信息進行采集,如微博內容、轉發、點評等數據。

圖2:GooSeeker微博博主采集界麵示例

界麵也很簡潔,與Import.io相比,有個最大的不同就是用戶自己運行爬蟲群,采集量大那就多運行一些,而且能直接得到原始數據,是存在本地硬盤上的做了結構化轉化的XML格式的結果文件。

  • 優點:操作非常簡單,能自動翻頁采集,微博上能看到的重要字段都采下來。
  • 缺點:采集數據字段已限定,僅能采集GooSeeker官方限定的網站。

從上分析可以看出,Magic和GooSeeker的天眼、千麵在操作上都非常簡單,基本都屬於純傻瓜式操作,很適合隻想專注於業務問題,不想為技術問題所分心的用戶,也是純小白學習數據采集和使用數據結果的好起點。但Magic在采集結果可視化上要比天眼及千眼的適用性更廣,缺點就是大數據量的采集場景不可控,而天眼和千麵專注於幾個主流網站,優勢主要體現在可以完成大數據量的采集,比如,一個專業的市場研究或者消費者研究團隊,需要百萬、千萬級的數據,隻要你運行足夠多的網絡爬蟲,不會因為采集量的問題而拖你數據研究的後腿。

2. Extractor(import.io) VS 整理箱(集搜客)

Extractor:Extractor翻譯過來就是提取器,如果從實體的角度去理解,那就是將網址中想要的信息一個個提取出來的一個小程序(可能是一組腳本);如果從采集目標的角度去理解,那就是采集特定網頁結構的一個規則。同Magic不同,import.io的Extractor(以及後麵的另外兩個功能)是個獨立可運行的軟件,有非常直觀的可視化界麵,能直觀地將提取的信息展示出來。

如圖3所示:import.io的Extractor很像一個改造過的瀏覽器,在工具條中輸入網址,待網頁顯示出來後,在瀏覽器中選擇需要抓取的數據,就能將單頁同結構的數據整列規範有序地采集下來。

圖3:Extractor提取數據示例

  • 優點:靈活采集,操作簡單,可視化程度高。
  • 缺點:對采集數據的結構化程度要求很高,對於結構化程度較差的數據,不能很好的進行采集。

GooSeeker整理箱:集搜客宣稱的是“建個箱子,把你要的內容丟進去”,這個箱子就是所謂的整理箱,原理是將需要提取的信息一個個拖到箱子裏麵一一映射到整理箱,集搜客程序就能自動生成提取器(一段腳本程序),提取器自動存入雲服務器,可分配給世界各地的網絡爬蟲進行提取。

如圖4所示,import.io頂部的一條工具條在GooSeeker這裏展開成了一個工作台,在工作台上創建箱子,然後通過映射操作把網頁上的內容丟到箱子中。想要什麼就把什麼丟進箱子。原理看起來很簡單,但是麵對一個箱子大界麵和諸多的HTML節點,對新手來說有點壓力,當然,界麵複雜換來的是能處理更多複雜的情形,因為有更多控件可用。

圖4:整理箱提取數據示例

  • 優點:提取準確度可細調,提取字段靈活,同時也適應較複雜的網頁。
  • 缺點:可視化效果一般,需要掌握簡單html基礎知識。

綜上,Extractor和整理箱都具有提取信息字段的功能,Extractor操作起來相對更簡單直觀,適合一些簡單結構化的網址,但對一些稍微複雜的網址,Extractor就會出現無法提取的問題,這時候集搜客整理箱的優勢就凸顯出來了,在尤其複雜的情況下還可以用上自定義xpath來定位數據。


若有疑問可以或集搜客網絡爬蟲

最後更新:2017-01-09 14:08:08

  上一篇:go 生意參謀如何使用:營銷推廣,助力銷售
  下一篇:go 網站分析銷售歸因模型的四種類型