閱讀401 返回首頁    go gooseeker集搜客


美國大數據產業地圖和數據科學家必備工具(2)-數據處理

本文是《美國大數據產業地圖和數據科學家必備工具(1)-數據源》的續篇,主要內容摘自數據分析網:https://www.afenxi.com/post/6222

第二部分:數據處理
       最近,福特汽車的數據專家邁克爾·卡瓦雷塔在紐約時報上提到了數據專家在日常工作中麵臨的挑戰。卡瓦雷特說:“我們真的需要更好的工具來減少處理數據的時間,來到達‘誘人的部分’。”
  • 數據處理包括清洗數據、連接數據並把數據轉化成可用的格式;
  • “誘人的部分”則是數據預測分析和建模。
              前者有時被稱作是“看門的工作”,可見前後兩者哪個處理起來更有樂趣了。
       在我們最近的調查中,我們發現數據專家需要實打實地花費80%的時間來處理數據。數據專家的工資如此之高,可進行數據處理的公司還那麼少,實在令人驚訝。
       在上一部分中,我提到結構化數據庫起源於財務或經營要求,而非結構化數據庫則是被數據專家推動發展的。數據領域的發展過程也是如此。結構化數據庫是一個很成熟的行業了,有足夠的工具形成金字塔供財務和經營人員使用。然而對於需求更加靈活的非結構化數據庫,則需要一套新的工具供數據專家使用。 
       先從我熟悉的領域說起吧。 
2.1,數據強化 

       數據強化是對原始數據的提升。最初的數據來源可能很混亂,格式不同,出處不同(如此之類),很難甚至完全無法對其進行預測分析。數據強化對數據進行清洗,大大減少了數據專家在這一部分花費的時間。 
       我把數據強化分為“人工的”和“自動的”兩類,但實際上兩者都需要人和機器的參與。
       人工數據強化是把所有的原始數據都用人工轉化,不過這需要大量的電腦自動化來保證其可靠。同理,自動數據強化通過許多規則和腳本來轉化數據,但是需要人工來設立和檢查這些規則。 
       人工數據強化的基礎在於,有些任務確實人做起來比機器更簡單。比如圖片識別吧,人類可以輕易看出一個衛星圖片是否含有雲狀物,可機器識別起來卻十分困難。 
       語言則是另外一個人工數據強化派上用場的地方。自然語言處理的算法可以做很牛的事情了,不過仍然沒有辦法像人那樣區別挖苦諷刺或粗話。所以你會看到PR公司和營銷人員都會人工來分析這些情感。 
       人工數據強化還可以用來訓練搜索算法,而且人能比機器更好地閱讀和收集完全不能比較的信息。再次強調,這需要任務被設立好,軟件能做很好的質量控製。但是如果能有數以千計的人,協力一起來做人比機器能完成得更好的簡單任務,你就能以極快的速度來完成數據強化。 
       CrowdFlower和WorkFusion,以及部分Amazon Mechanical Turk都在做這部分的工作。
       自動數據強化和人工數據強化的目標相同,但是是由機器(而不是人工)通過腳本來把原始數據轉換成可用數據。正如上文提到的,你還是需要一個厲害的數據專家來輸入那些信息,並在轉化完成後檢查。如果數據格式統一,自動數據強化還是很強大的。隻要有好的腳本,含有少量錯誤和不完全連貫的數據幾乎能立即轉換成可用數據。 
       自動數據強化甚至能夠有效地清洗數據,隻要這個過程不需要人參與。從規定姓名和日期格式等簡單任務,到從網絡上有效抓取元數據等複雜任務,都是自動數據強化的典型例子。Trifacta、Tamr、Paxata和Pantaho 等都提供了很好的自動化解決方案。公司們都希望能夠把一些寶貴的時間還給他們的數據科學家,因此自動數據強化也是正在快速發展。 
2.2,ETL/混合 

       ETL表示提取 (Extract),轉換(Transform) 和加載 (Load),顯現了這一部分的數據生態係統的核心。本質上,ETL/混合解決方案是幫助數據專家匹配不相似的數據,以做分析之用。 
       舉個例子,比如說你有一個財務數據庫,包含了你的消費者、支付金額和購物種類明細,並被儲存在一個地方。而你同時還有另一個數據庫包含了消費者地址。ETL/混合領域的工具幫助顧客把它們合並成一個單一且可用的數據庫,由此數據專家便可以探索一些新的方麵,比如某個特定商品在哪個地區消費最多,或者哪個地方會是你的目標市場,等等。 
       以上隻是一些簡單的例子;實際情況可能複雜得多。不過基本上每個數據專家的日常工作中都包含了數據混合。通常數據來源不同,格式也會不同。如果需要一覽全麵信息,混合整理這些數據源是必不可少的。 
       Alteryx、Astera、CloverETL 和etleap 都開發了可以混合這類數據的軟件。而ETL雖然早在結構化數據庫出現之時便有了,但由於越多數據源也意味著更多的格式不一,ETL的重要性現在越發顯現出來。無論何種數據分析,大數據的前景都依賴於全局與細節分析的全麵結合。 
2.3,數據整合 

       數據整合與ETL/混合有不少重合之處,它們都是要對數據進行整合。不過數據整合更多是按照應用的需要把數據統一成某個特定格式(而不是進行一般的混合)。 
       回想一下我在上一部分提到的第三方數據雲應用,是如何全麵覆蓋銷售和營銷數據,以及社會研究和郵件管理的。怎麼才能把這些應用都合並到一個可用的數據集,讓數據專家可以據此做預測分析呢?ClearStory、Databricks 和SnapLogic 等軟件便可助你實現。 
       Informatica 已經從事數據整合多年,並獲得了超過十億美元的收入。我雖把它放在了數據整合的部分,但它其實對數據處理的各個領域都有所涉及。微軟也提供了兩項數據整合服務:Azure數據工廠和SQL服務器整合服務。 
       類似於ETL/混合工具,數據整合項目主要是混合數據生態係統圖左邊的數據,使其可以通過圖中右邊的軟件建模。也就是說,數據整合工具(如Apatar 或 Zoomdata),可匹配來自雲應用(如Hootsuite 或Gainsight)的數據,讓你通過Domo 或Chartio 獲得商業智能(BI)。 
2.3,應用程序界麵(API)接口 

       最後,我們談談API接口。這些公司不那麼著重於數據轉化,而是更強調獨立的API之間的整合。這類公司一旦興起,實在是前途無量。 
       這些工具一旦用對了地方,是很好很強大的。從一個沒什麼技術含量的例子說起吧,IFTTT 應該能幫大家理解API接口是怎麼一回事。IFTTT 表示“如果這樣,則那樣”(“if this, then that”),人們通過它,可以把發到Instagram的圖片馬上保存到Dropbox或發上Twitter。IFTTT就是一個非數據的專家在協調在線工作時使用的API接口。我把這個例子包含進來,是因為許多數據專家也會在私底下或工作中稍微使用到它。 
       Zapier 和IFTTT類似,不過著重於商業應用,所以也更受數據專家歡迎。 
       MuleSoft 則是一個能把所有商業應用都連接起來的接口。比如說一個用戶登錄你的網頁,誰需要知道這個信息?你的銷售團隊需要這個信號吧?你的運營團隊需要知道那個用戶什麼時候再次登錄吧?營銷部門需要知道他們的郵件營銷活動的成果吧?一個簡單的API接口就可以同時觸發這些通知了。
       最後,Segment.io 能把你的產品連接到許多這個生態係統圖左邊的SaaS商業應用及其他應用。 
       API接口的存在,正是因為數據專家要使用數據生態係統中的那麼多工具來混合和整合數據,可是這些工具又不是全部為數據專家設計的。 
2.4,開源工具 
       用於數據處理的開源工具,遠比用於數據存儲和數據分析的少。Google開源了他們非常有意思的open-refine項目。多數時候,公司會在Python上建立他們自己的專屬工具;而Kettle 作為一個開源的ETL工具,用戶也越來越多。

最後更新:2017-01-09 14:08:07

  上一篇:go 數據魔方和生意參謀的功能對比
  下一篇:go 大數據的問題05:點球成金——數據流PK球探,誰更重要?