205
gooseeker集搜客
美國大數據產業地圖和數據科學家必備工具(1)-數據源
本文摘自數據分析網:https://www.afenxi.com/post/6222數據專家不能隻生活在R語言或Excel表格裏。他們需要工具來獲得質量拔尖且可用於預測分析的數據。其實我覺得這正是統計學家和數據專家的區別所在。在我看來,統計學家使用數據進行回歸分析。而數據專家需要切實獲取數據、進行回歸分析、溝通結果、展示模式,並超越所在機構當時的局限,立足於製高點帶領大家尋求切實可行的突破發展。鑒於他們需要統籌整個數據通道,我希望這個數據生態係統可以羅列出數據專家門常用的重要工具和使用方法,以及工具之間的交互聯係
第一部分:數據源
數據是整個數據生態係統的源頭。總的來說,數據源可分為數據庫、應用和第三方數據三類。
1,數據庫
對結構化數據庫有一個重要假設,那就是查詢數據時必須能得到一致且完善的結果。想一想誰絕對需要這樣一種結構化數據庫?對了,就是你的銀行。它們存儲賬戶信息、個人姓名、借款等等,必須隨時分毫不差地知道你賬戶中的金額。
而另外一種則是非結構化數據庫。情理之中,非結構化數據庫是由數據專家們開拓的,因為數據專家眼中的數據與賬戶並不相同。數據專家不太在意查詢結果絕對一致,他們更關注數據的靈活性。因此,非結構化數據在許多方麵降低了對數據存儲和查詢的要求。
很多非結構化數據庫是穀歌獲得成功的直接產物。穀歌嚐試把互聯網存儲在數據庫中,其野心和工程之龐大可想而知。MapReduce是一種用於這種數據庫的技術,雖然它一定程度上沒有結構化查詢語言 (SQL)那麼強大,但是用戶可以依據需要來調整和擴充它們的數據。MapReduce的數據使用甚至已經超出了穀歌的初始預期。比如現在穀歌可以在所有網站間查詢,並根據網站之間的互相鏈接來調整搜索結果。這種可量化的靈活查詢使穀歌獲得了巨大的競爭優勢,因此雅虎和其他公司以巨額投資來開發這種技術的開源版本,名叫Hadoop。
此外,非結構化數據庫通常所需的儲存空間通常更小。在過去數據存儲十分昂貴,因此幾年前,一些主要的互聯網公司不得不每隔幾個月就清空一次數據庫。現在這種情況已難以想象了。 從強大的推薦引擎,到世界級的翻譯係統,到令人難以置信的存貨管理,都建立於這些數據之上。非結構化數據庫一般來說沒有結構化數據庫那麼精確,但對於許多應用(尤其是數據科學界),這個折衷是值得的。舉例來說,
- 比如你的非結構化數據庫在100個機器上運行,但是其中有一個當機了。這時你僅用99台機器(而非100台)來決定向用戶推薦觀看一部特定的電影,也完全可行。這種類型的數據庫看重靈活性,量化以及速度,哪怕不能隨時保證完全精確。
- 還有一個更有名的例子。一個軟件公司創建了一個基於Hadoop的非結構化數據庫軟件Cloudera。來看看它有多大的成長空間吧:7年前,我接到風投的電話,他們預期Cloudera在全球有10到15家公司的市場,去年Cloudera已獲得了將近10億美元的融資。 隨著數據專家取代財務和會計,成為最主要的數據消費者,數據庫將會越來越走進每一個人的生活 。
2,商業應用
SalesForce 應該是首先掀起這股趨勢的並最先獲得成功的。他們把軟件開發的目標人群是終端用戶(銷售團隊),而非單個的首席技術官。這對他們的用戶十分有用,在此過程中,大家也能看到公司客戶能夠信任地把重要公司數據放在雲端。 銷售數據不再存在於用戶自己安裝的內部數據庫,而是被放在雲端,由致力於保證數據可用且穩定的雲端公司提供服務。
其他公司也紛紛效仿這種做法。如今基本上每個商業部門都有一個對應的數據應用。
- Marketo存儲營銷數據,
- MailChimp存儲電子郵件,
- Optimizely存儲A/B測試數據,
- Zendesk存儲顧客滿意度,諸如此類。
3,第三方數據
- 商業信息數據,
- 社交媒體數據,
- 網頁爬蟲和
- 公開數據。
3.1,商業信息數據
商業信息數據開始最早。我上麵提到了Dun & Broadstreet,商業數據購買對許多商業機構來說都至關重要。商業數據能回答所有B2B公司至關重要的問題:我們的銷售團隊該找誰談?如今,這些數據更被擴展應用至網上地圖和高頻交易等領域。 新創的數據賣方如Factual,不僅售賣商業數據,更傾向於從這些高盈利的新型領域起步。
3.2,社交媒體數據
社交媒體數據雖然是新興產物,但發展很快。 通過智能PR公司對社交媒體中的文本作情感分析,營銷人員能夠切實地了解到品牌熱度與影響力,並有效評估品牌價值。 你可以從Radian6 和DatSift裏看到全部細節。
3.3,網絡爬蟲
接下來我們來看看網絡爬蟲,我個人認為這是一個很有發展潛力的領域。如果能夠把所有網站都作為數據源,由數據科學團隊發展和分析,真不知道還有多少新型商業和技術會由此而生。如今從事網絡爬蟲的重要公司包括 import.io和kimono,我認為這個領域將在接下來幾年呈現爆炸式的增長。
3.4,公眾數據
最後,當然還要提及公眾數據。如果沒有數據專家團隊的支持, 不知道奧巴馬總統是否還能夠贏得2004年的大選,這可能也是後來奧巴馬大力推動 Data.gov 的原因。許多地方政府也緊隨其後。
亞馬遜網絡服務 存放了許多驚人的公眾數據,囊括從衛星圖像到安然公司的郵件等各個方麵。這些龐大的數據係列可以幫助擴大新型商業,訓練更智能的算法,並解決許多實際問題。
這個領域發展快速,甚至出現了 Enigma.io 這種專門幫助企業使用公眾數據的公司。
3.5,開源工具
開源數據儲存的種類激增,尤其是在非結構化數據的存儲方麵,Cassandra, redistribute, Riak,Spark, CouchDB 和MongoDB 等都大受歡迎。它們多數專注於公司應用,另外也著重於數據工程的生態係統。通過這個交互式地圖 你將可以一睹最受歡迎的開源數據存儲及開采工具的概貌。
下一篇《美國大數據產業地圖和數據科學家必備工具(2)-數據處理》
最後更新:2017-01-09 14:08:06