閱讀441 返回首頁    go gooseeker集搜客


美國數據科學家帶你看看大數據的未來

大數據的全麵爆發,以及大數據分析技術的不斷進化,如今大數據已經成為炙手可熱的名詞。在國內,雖然對大數據的分析和研發投入了較大的力度,但對數據的深入挖掘和商業價值應用還遠遠落後於美國,中國大部分公司對於大數據分析的概念還停留在“輿情分析”的階段,但是美國已經跨越“輿情分析”和“情感分析”,進入了“預測分析”階段。

美國數據分析科學家、前北卡大學夏洛特分校助理教授、夏洛特視覺中心主任以及非結構化數據智能分析平台Taste Analytics的CEO,Derek Wang(王曉宇)博士就大數據的發展以及“預測分析”技術和傳統的大數據分析的差異發表了自己的看法(原文參見《美國數據科學家帶你看看大數據的未來》)。下麵摘錄幾點感想——

大數據一詞的追溯

“從SGI的首席科學家John R. Masey在1998年提出大數據概念,到大數據分析技術廣泛應用於社會的各個領域,已經走過了17年的時間。”

不知是否經得起考證,可能是真的,那個年代或更早,SGI被多少搞數學計算的人所敬仰啊,曾經看他們展示圖形工作站,都看傻了。該文對目前國內外的大數據研究重點做了對比,而決定下一代大數據產業的新技術:“預測分析”,值得數據科學家們去關注。

大數據時代就是人的時代

“大數據時代就是人的時代,數據形態越來越豐富和多樣。除去社交網站等傳統數據點以外, 新形態的數據點也已經出現,比如Airbnb和Uber這種O2O服務。”

在這裏“大數據”和“人”聯係在一起,讓我想起來與國內第一個大數據國家重點實驗室的老師交流的時候,他說:嚴格地說,GooSeeker從網絡上采集數據進行挖掘,那不是大數據,是小數據,真正的大數據是人的行為產生的數據。而如何將有限的數據發揮無限的價值,在現今獲取人的行為數據的局限上是應當思考的。

垂直創新的工具

“人們在進行大數據分析時使用的工具將更加細化,利用垂直創新的工具進行非常縱深的研究將成為主流。”

關於這點,該文所用筆墨較多,也是我感觸較深的,去年與某銀行總行的數據研究科學家討論的時候,讓我感到驚訝他自己寫程序做用戶行為分析,我說為什麼不用SPSS,SAS,R等等,他給我展現他能熟練地使用所有這些工具,但這些是不夠的,一個數據科學家需要能解答特定問題的最適合的模型,而那些常用商用軟件中的模型隻是普通的常用的固化下來的模型,看起來能解決很多問題,但是不能最適合地解決某個實際問題。

幾個重要概念

該文提到

  • “輿情分析”和“情感分析”
  • 推薦係統
  • Clickstream分析

然後與代表大數據分析的“預測分析”一一對比。

“Clickstream分析技術的實現,是通過不同的cookie,來追蹤人們的點擊,它無法解決的是冷啟動過程中數據的缺乏。比如你第一次登陸優酷,沒有任何觀看記錄,係統應該怎麼進行推薦呢?而且,人們的誤點擊操作很有可能就被係統追蹤下來,進行了錯誤的分析。”

冷啟動常常被我借來用,但同時我也告訴做視頻網站、應用市場、電商平台的朋友,用GooSeeker采集數據首先得解決冷啟動問題,不然推薦算法再好也白搭,你可以爬別人網站上的推薦關係,但是要先有個基礎數據集啟動起來。

預測分析和用戶洞察

看的出來汪博士所說都來自實踐,所以充滿亮點,關於預測分析這塊,我認為汪博士說的是一個更廣義的概念,例如,《結合分析原理及手機用戶期望分析應用》和《從“艾森豪威爾法則”到手機屬性改進》,以及《中端手機消費者態度研究》都可納入到這個範疇,要遠遠超出嚴謹的數據挖掘書籍定義的預測分析範疇。

追究是否嚴格和是否寬泛的意義不大,還是要看是否有商用價值,這也是該文多處提到的國內與海外的差距所在。


若有疑問可以或集搜客網絡爬蟲

最後更新:2017-01-09 14:08:05

  上一篇:go 北上廣深誰上班最拚命
  下一篇:go 網絡新聞輿情分析係列之熱點話題