302 gooseeker集搜客

可視化數據采集器import.io與集搜客評測對比（上）

最近國外一款大數據采集軟件import.io比較火，在獲得了90萬美元的天使輪融資後，最近更是拿到了1300萬美元的A輪融資，吸引了眾多投資者的目光，筆者也懷著好奇使用體驗import.io的神奇功能，本人是中國的大數據采集軟件集搜客GooSeeker的老用戶，所以喜歡把兩者放在一起對比，下麵我把印象最深的幾點功能對比說明，對應import.io的四大特色功能：Magic、Extractor、Crawler、Connector，分成上下兩篇。

對於數據采集比較感興趣的朋友，我希望能起到拋磚引玉的作用，大家一起分析數據采集的技術亮點。

1. Magic（Import.io） VS 天眼和千麵（集搜客）

Magic: 正如單詞magic的原意“魔法”一樣，import.io給Magic賦予了魔法般的功能，用戶隻要輸入網址，Magic工具就能把網頁中的數據整齊規範地神奇地抓下來。

如圖1所示，輸入58同城租房信息網址後，Magic會自動對網頁數據進行采集，操作簡單。但可以看到有些列，會存在漏采的情況，且每頁需要點“Next page”才能進行采集，無法自動翻頁。當然，還有很多網頁幾乎什麼都采集不下來，比如，新浪微博。

無論如何，我感覺很神奇：

他怎麼知道我想要什麼信息？
是不是有人在後台預先做好的？
有些網址輸入以後等待時間較短，有些網址輸入以後等待時間很長，難道真的有人在後台做采集規則？

圖1：Magic自動抓取示例

上圖是import.io的Magic功能的界麵截圖，純web界麵，不用安裝額外的軟件，使用十分方便。總結一下：

優點：適應任何網址，操作非常簡單，自動采集，采集結果可視化。
缺點：無法選擇具體數據，無法自動翻頁采集（是我沒用熟？）。

GooSeeker的天眼和千麵係列：集搜客的天眼和千麵分別針對電商和微博發布的數據采集便捷GUI界麵，隻要將網址輸入，就能將目標數據規範整潔地采集下來。

如圖2所示：展示的是博主采集工具（微博的多方麵數據分別都有采集管理界麵），輸入博主主頁鏈接，就能調度爬蟲，對博主主頁下的信息進行采集，如微博內容、轉發、點評等數據。

圖2：GooSeeker微博博主采集界麵示例

界麵也很簡潔，與Import.io相比，有個最大的不同就是用戶自己運行爬蟲群，采集量大那就多運行一些，而且能直接得到原始數據，是存在本地硬盤上的做了結構化轉化的XML格式的結果文件。

優點：操作非常簡單，能自動翻頁采集，微博上能看到的重要字段都采下來。
缺點：采集數據字段已限定，僅能采集GooSeeker官方限定的網站。

從上分析可以看出，Magic和GooSeeker的天眼、千麵在操作上都非常簡單，基本都屬於純傻瓜式操作，很適合隻想專注於業務問題，不想為技術問題所分心的用戶，也是純小白學習數據采集和使用數據結果的好起點。但Magic在采集結果可視化上要比天眼及千眼的適用性更廣，缺點就是大數據量的采集場景不可控，而天眼和千麵專注於幾個主流網站，優勢主要體現在可以完成大數據量的采集，比如，一個專業的市場研究或者消費者研究團隊，需要百萬、千萬級的數據，隻要你運行足夠多的網絡爬蟲，不會因為采集量的問題而拖你數據研究的後腿。

2. Extractor（import.io） VS 整理箱（集搜客）

Extractor：Extractor翻譯過來就是提取器，如果從實體的角度去理解，那就是將網址中想要的信息一個個提取出來的一個小程序（可能是一組腳本）；如果從采集目標的角度去理解，那就是采集特定網頁結構的一個規則。同Magic不同，import.io的Extractor（以及後麵的另外兩個功能）是個獨立可運行的軟件，有非常直觀的可視化界麵，能直觀地將提取的信息展示出來。

如圖3所示：import.io的Extractor很像一個改造過的瀏覽器，在工具條中輸入網址，待網頁顯示出來後，在瀏覽器中選擇需要抓取的數據，就能將單頁同結構的數據整列規範有序地采集下來。

圖3：Extractor提取數據示例

優點：靈活采集，操作簡單，可視化程度高。
缺點：對采集數據的結構化程度要求很高，對於結構化程度較差的數據，不能很好的進行采集。

GooSeeker整理箱：集搜客宣稱的是“建個箱子，把你要的內容丟進去”，這個箱子就是所謂的整理箱，原理是將需要提取的信息一個個拖到箱子裏麵一一映射到整理箱，集搜客程序就能自動生成提取器（一段腳本程序），提取器自動存入雲服務器，可分配給世界各地的網絡爬蟲進行提取。

如圖4所示，import.io頂部的一條工具條在GooSeeker這裏展開成了一個工作台，在工作台上創建箱子，然後通過映射操作把網頁上的內容丟到箱子中。想要什麼就把什麼丟進箱子。原理看起來很簡單，但是麵對一個箱子大界麵和諸多的HTML節點，對新手來說有點壓力，當然，界麵複雜換來的是能處理更多複雜的情形，因為有更多控件可用。

圖4：整理箱提取數據示例

優點：提取準確度可細調，提取字段靈活，同時也適應較複雜的網頁。
缺點：可視化效果一般，需要掌握簡單html基礎知識。

綜上，Extractor和整理箱都具有提取信息字段的功能，Extractor操作起來相對更簡單直觀，適合一些簡單結構化的網址，但對一些稍微複雜的網址，Extractor就會出現無法提取的問題，這時候集搜客整理箱的優勢就凸顯出來了，在尤其複雜的情況下還可以用上自定義xpath來定位數據。

若有疑問可以或

最後更新：2017-01-09 14:08:08

可視化數據采集器import.io與集搜客評測對比（上）

1. Magic（Import.io） VS 天眼和千麵（集搜客）

2. Extractor（import.io） VS 整理箱（集搜客）

上一篇：生意參謀如何使用：營銷推廣，助力銷售

下一篇：網站分析銷售歸因模型的四種類型

相關內容

熱門內容

最新內容

可視化數據采集器import.io與集搜客評測對比（上）

1. Magic（Import.io） VS 天眼和千麵（集搜客）

2. Extractor（import.io） VS 整理箱（集搜客）

上一篇： 生意參謀如何使用：營銷推廣，助力銷售

下一篇： 網站分析銷售歸因模型的四種類型

相關內容

熱門內容

最新內容

上一篇：生意參謀如何使用：營銷推廣，助力銷售

下一篇：網站分析銷售歸因模型的四種類型