閱讀437 返回首頁    go 阿裏雲 go 技術社區[雲棲]


感同身受!12個數據科學家秒懂的瞬間

所謂數據科學家就是比軟件工程師更擅長統計學,比統計學家更擅長軟件工程的人。

--Josh Wills, Cloudera雲紀元

毫無疑問,數據科學是如今職場上最受追捧的技能之一。CNBC的一篇文章在綜合考慮就業機會、薪水中位數、體力工作強度、工作壓力等因素後,將“數據科學家”評選為2017年最受歡迎的10大職業之一。數據科學在職場中確實越來越熱,數據科學家年薪的中位數超過了11萬美元而且職場中對於數據科學家的需求有16%的預期增長。

話雖如此,想要成為一名數據科學家卻並不簡單。這份工作在要求全麵紮實的技術能力的同時,還要求豐富的想象力。數據科學家必須有能力收集恰當的數據、將之整理為合適分析的形式、設計創造性地方法來實現數據可視化、並挖掘數據信息來回答具體問題。

正因如此,頂級數據科學家在技術型公司通常會得到搖滾巨星般的待遇。然而,數據“極客”的生活跟“輕鬆”兩個字卻毫不沾邊。新工具和新技術每天都如同雨後春筍般不斷湧現,數據科學家必須不斷更新知識和技能,才能保住自己在公司的地位。

那麼,就讓我們來看看數據科學家有哪些日常。

1、當被別人問:“什麼是大數據?”

大數據

  “啥,你逗我?”⊙o⊙

我們生活在高度數字化的世界,大數據無處不在。通過社交媒體、網銀、GPS、電子商務,我們無時不刻都在生成海量的數據。事實上,據報道,我們每天生成的數據量高達2.5兆字節。

大數據已經改變了我們與人溝通的方式和生活方式。借助大數據分析,零售網站得以針對用戶喜好發送精準的產品推薦,政府機關得以掌握並預測犯罪行為,交管部門得以管控交通流量,執業醫師得以更精確地診斷疾病。

大數據的應用簡直不勝枚舉,而且切實而有效地提高了我們的生活質量,因此每個人都應該很熟悉“大數據”這個詞了。

2、你第一次跑通R代碼是什麼時候?

有一天,新手數據科學家會懂上邊這張圖。R編程是數據科學領域最必不可少的技能之一。KDnuggets上就有文章認為, R是2016年分析和數據科學領域最受歡迎的軟件,而Python僅排名第二。

考慮到R在市麵上的受歡迎程度,當R代碼如你所願發揮作用時,你會情不自禁地認為自己就是數據之王。

3、當你不得不處理非結構化流數據

感同身受!12個數據科學家秒懂的瞬間-數據分析網

非結構化數據分析通常被稱為“暗黑分析”(dark analytics)。這個令人生畏的名號絕非虛張聲勢,而是貨真價實、毫不誇張。

即使是最嫻熟的數據科學家,處理起非結構化流數據來也免不了一個腦袋兩個大。不論是社交媒體、視頻、客戶日誌還是地理空間服務數據,分析工作都需要在多元數據上實時、增量進行。此外,時效性也是此類數據分析工作的重中之重。

因此,當你一腳踏入暗黑分析的領域,那種(麵對龐然大物茫然不知所措的)感覺就跟試圖揭開宇宙奧秘的空間科學家毫無二致。

4、當你模型的預測準確度高於90

感同身受!12個數據科學家秒懂的瞬間-數據分析網

這可不是小事。為了做好分析工作,數據科學家必須在數據研究、解讀、準備和處理上投入大量的時間,這個過程需要極大的耐心和努力。然而,如果你構建的模型的準確預測度可以達到90%以上,回報也是無比豐厚的。

當客戶、經理、同事的讚揚和欣賞如潮水般向你湧來時,你在喜不自勝之餘腦海裏隻會記得一件事 — 周末嗨翻天!

5、當你想要找出模型中的漏洞

從成百上千行代碼中找到錯誤,就跟讓宿醉的你去大海裏撈針一樣痛苦。

但是直麵現實吧,這就是工作呀,誰讓你是數據科學家呢。

6、當你的經理問及漏洞修複進展

感同身受!12個數據科學家秒懂的瞬間-數據分析網

通常情況下,數據科學機構中的經理們都不了解技術性任務的實質,不論是排查模型缺陷或者改善模型性能;他們普遍更加關注項目管理(例如最後時限等。)

麵對“這個項目什麼時候能結束?”這樣的問題,數據科學家能做的就是能拖一會兒就拖一會兒或者幹脆消失。

7、當你的小白朋友指出了你模型的漏洞

你死死盯著代碼,幾個小時過去了卻一無所獲。就在你幾乎要放棄的時候,一個朋友偶然掃了一眼,馬上就指出了其中的錯誤。

最初的尷尬和怒火過去之後,你很快就會鬆一口氣,畢竟麻煩事兒又少了一件。

沒什麼大不了的,我們可以這樣安慰自己:“旁觀者清嘛”。

8、當你的SQL查詢跑的特別慢

慢吞吞的服務器,糟糕的網絡情況,或者別的什麼原因,都會導致SQL查詢執行的特別慢,就跟看著油漆一點點風幹一樣;當然你也不用一直盯著電腦屏幕,倒杯咖啡,讓SQL自己飛一會吧。

這很無聊,而且極耗耐心;不過大家都是這樣過來的。

9、 當你好不容易建好模,用戶又要改數據

感同身受!12個數據科學家秒懂的瞬間-數據分析網

在費盡九牛二虎之力分析數據、建了無數模型,分析出了無數趨勢後,你最不想聽到的就是你用的是“錯誤”數據。

也就是說,你要分析一套完全不同的數據集,所有的模型都要進行重大調整,從頭再來一遍。痛苦啊!

10、當你再有20分鍾就要見客戶,但PPT還沒做好

感同身受!12個數據科學家秒懂的瞬間-數據分析網

你剛做完見客戶的PPT,擦擦皮鞋整整領帶就可以去見客戶了吧?就大多數情況而言,答案是否定的。

數據工程師需要跟同事和經理複核PPT;這意味著在最後一分鍾內PPT會有無數改動。做這些改動是非常有壓力的,因為這關係到你的個人聲譽、業務成敗、公司形象、甚至你的職業前途。

不過,當你最終得到客戶首肯時,你會意識到有些改變是非常關鍵的,而且能讓你的案例更有說服力。

正如大名鼎鼎的史蒂芬·喬布斯說的:

“偉大的商業成就絕非一人可為,而是團隊之功。”

11、客戶最終認同你的模型的輸出結果

感同身受!12個數據科學家秒懂的瞬間-數據分析網

  這是所有數據科學家都天天幻想的時刻。

麵對要求極高、條件極為嚴苛的客戶,你夜以繼日的努力工作,力求模型達到最大限度的精確有效。你不得不一次又一次給自己打氣,拿出最大的耐心來麵對這幫鬧心的客戶。然而,當客戶真心實意地向你豎起大拇指時,最終的勝利是屬於你的。

Kirk Borne博士對此有著精辟見解:

“客戶可能會出錯,但客戶永遠是客戶。”

12、當市場迎來一家新的大數據公司

分析行業發展十分迅勐,新工具和新技術也層出不窮。數據科學家見證著各種大數據、分析和深度學習工具的不斷湧現。

數據極客骨子裏都是持續學習者,他們對於業內新發展永遠持開放態度,並且會隨之拓展自己的知識和技能。


本文轉自d1net(轉載)

最後更新:2017-08-21 16:32:49

  上一篇:go  NB-IoT和eMTC:窄帶物聯網雙子“合”而不同
  下一篇:go  數據分析隻有和業務掛鉤才能產生真正驅動力