閱讀1018 返回首頁    go gooseeker集搜客


給網頁打標簽——KimonoLabs和GooSeeker對比評測

最近,Kimono labs被大數據公司Palantir收購,受到各方麵的關注。作為一家以網頁數據打標簽和采集為主營業務的初創公司,如何獲得Palantir這家獨角獸公司的青睞?它到底有什麼魔力?作為一個GooSeeker可視化網絡爬蟲的設計者,今天就帶大家來了解一下KimonoLabs的打標簽功能。

一、Kimono Labs是什麼?

Kimono Labs旨在整合網頁內容,把非結構化的html網頁內容變成結構化數據,並通過api開放出來。

互聯網是個實實在在的大數據庫,要發掘它,第一步就是要結構化轉換,這樣才能被數據挖掘程序所用,所以,Kimono Labs解決的是大數據源頭問題。

使用Kimono Labs做上述工作的過程,被稱為“kimonify”網站內容,大致過程是:

  1. 選擇一個web頁麵;
  2. 選擇感興趣的數據,給它指定一個標簽;
  3. 從而,所選擇的內容就被保存,轉換成JSON對象、CSV或者RSS等。

二、軟件安裝

KimonoLabs以瀏覽器擴展的形式發布,安裝在Chrome上。如圖1所示,在應用商店進行添加即可啟動安裝。

GooSeeker網絡爬蟲軟件同樣也是瀏覽器擴展,安裝在火狐(Firefox)之上,從GooSeeker官網上下載安裝。

圖1 Kimono Labs安裝

三、給網頁打標簽

如圖2所示,如果要采集所有圖片下麵的鏈接信息,隻需要先點擊遊覽器上的Kimono標誌,再點擊圖片下方的鏈接信息,Kimono就會一次性將相同結構的信息全部采集下來。

圖2 Kimono Labs操作示例

在圖2左上角可以看到一個45的標誌,表示相同結構的數據有45條。如果想采集其他字段,就可以使用後麵的+鍵,就像表格一樣,每列對應一組數據。是不是很簡單,完全沒有技術難度,相信每個小白都能輕鬆學會。這步操作跟import.io的Extractor和GooSeeker的MS謀數台 有異曲同工之妙,通過在頁麵上點擊就能實現對網頁數據的提取。

四、Kimono Labs進階

顯然,我們不僅僅需要采集當前頁麵,常常需要翻頁采集,或者跳轉到更深層次去采集數據,下麵看看Kimono Labs翻頁和層級抓取的操作方法。

舉例來說,按照圖2所示的方法,采集了圖片下方的鏈接,形成了圖3所示的采集結果。下一步是想抓這些鏈接中的詳細信息,那麼在這個結果展示界麵上單擊圖3所示的某個鏈接,瀏覽器就進入到下級頁麵(圖4),這樣,樣本頁麵就加載好了,接下來,跟圖2的操作一樣,給需要的內容打標簽,就能完成對第二級信息的采集。其他鏈接的第二頁信息也會自動進行采集。

圖3 Kimono Labs層級采集示例1

圖4 Kimono Labs層級采集示例2

上麵講述了深入到下層采集數據的方法,接下來看怎樣翻頁。

Kimono Labs翻頁功能相對要複雜一些,需要用戶自己構造網址來實現翻頁,對於許多網址,翻頁後網址的變化僅僅是末端數字的變化,Kimono Labs提供了一個網址輸入的入口,用戶在Excel上將構建的網址直接批量導入即可(如圖5所示),就可以對這些網址的數據進行批量采集了。

現在問題來了:大量網站使用AJAX動態技術,“下一頁”是沒有獨立網址的,Kimono Labs怎樣解決?也許因為使用時間不長,筆者暫時沒有找到答案。

圖5 Kimono Labs添加網址

五、GooSeeker給網頁內容打標簽

從GUI設計角度看兩者有很大不同:

  •  Kimono Labs跟原始網頁融合得很好,是真正意義上的“網頁擴展”,Kimono Labs的功能像工具條一樣浮在原始網頁上
  •  GooSeeker更像是一個包含瀏覽器的獨立軟件,瀏覽器是其中一個窗口,絕大多數功能都集中在工作台(圖6的懸浮窗口)上,另外還有一個DOM剖析窗口

圖6 GooSeeker MS謀數台GUI

GooSeeker允許直接在瀏覽器的頁麵上做標注,點擊一下則將選中網頁內容,底色變成黃色;再點擊一下,就能生成一個標簽,輸入一個名字並點擊旁邊的勾就打好了標簽。可在工作台中看到已經放到整理箱(存數據的箱子)了。

瀏覽器上隻能給可見的內容打標簽,而DOM剖析窗口可以給不可見的內容打標簽,例如html attribute,comment,script等html標簽和屬性,用鼠標右鍵菜單執行標注過程。而且在DOM剖析窗口上,可以準確選擇某一個text節點,而不是把整個html元素內容采集下來。

由此可見,GooSeeker分成了高精度標注和便捷標注兩種方式。除GUI之外的功能,GooSeeker與import.io更有可比性,可參看關於import.io的評測文章。

六、Kimono Labs總括

綜上,Kimono Labs和import.io,GooSeeker等一樣,旨在將網頁數據采集變得便捷易用,讓沒有技術背景的用戶都能去獲取數據,所以可視化打標簽是重要的功能特征, Kimono Labs短時間內積累12.5W+用戶,這個是重要原因。

Kimono Labs被大數據公司Palantir收購了,Kimono Labs軟件平台服務已經停止。僅僅測試了Kimono Labs的一些基本功能,是否有更複雜的功能也無法深究了。

從Kimono labs的被收購這件事來看,大數據時代人們對數據的需求是十分廣泛的,可視化數據采集服務也一定會得到越來越多的青睞。

若有疑問可以或集搜客網絡爬蟲

最後更新:2017-01-09 14:08:09

  上一篇:go Python爬蟲實戰(3):安居客房產經紀人信息采集
  下一篇:go Python爬蟲實戰(1):爬取Drupal論壇帖子列表