感同身受!12個數據科學家秒懂的瞬間
所謂數據科學家就是比軟件工程師更擅長統計學,比統計學家更擅長軟件工程的人。
--Josh Wills, Cloudera雲紀元
毫無疑問,數據科學是如今職場上最受追捧的技能之一。CNBC的一篇文章在綜合考慮就業機會、薪水中位數、體力工作強度、工作壓力等因素後,將“數據科學家”評選為2017年最受歡迎的10大職業之一。數據科學在職場中確實越來越熱,數據科學家年薪的中位數超過了11萬美元而且職場中對於數據科學家的需求有16%的預期增長。
話雖如此,想要成為一名數據科學家卻並不簡單。這份工作在要求全麵紮實的技術能力的同時,還要求豐富的想象力。數據科學家必須有能力收集恰當的數據、將之整理為合適分析的形式、設計創造性地方法來實現數據可視化、並挖掘數據信息來回答具體問題。
正因如此,頂級數據科學家在技術型公司通常會得到搖滾巨星般的待遇。然而,數據“極客”的生活跟“輕鬆”兩個字卻毫不沾邊。新工具和新技術每天都如同雨後春筍般不斷湧現,數據科學家必須不斷更新知識和技能,才能保住自己在公司的地位。
那麼,就讓我們來看看數據科學家有哪些日常。
1、當被別人問:“什麼是大數據?”
“啥,你逗我?”⊙o⊙
我們生活在高度數字化的世界,大數據無處不在。通過社交媒體、網銀、GPS、電子商務,我們無時不刻都在生成海量的數據。事實上,據報道,我們每天生成的數據量高達2.5兆字節。
大數據已經改變了我們與人溝通的方式和生活方式。借助大數據分析,零售網站得以針對用戶喜好發送精準的產品推薦,政府機關得以掌握並預測犯罪行為,交管部門得以管控交通流量,執業醫師得以更精確地診斷疾病。
大數據的應用簡直不勝枚舉,而且切實而有效地提高了我們的生活質量,因此每個人都應該很熟悉“大數據”這個詞了。
2、你第一次跑通R代碼是什麼時候?
有一天,新手數據科學家會懂上邊這張圖。R編程是數據科學領域最必不可少的技能之一。KDnuggets上就有文章認為, R是2016年分析和數據科學領域最受歡迎的軟件,而Python僅排名第二。
考慮到R在市麵上的受歡迎程度,當R代碼如你所願發揮作用時,你會情不自禁地認為自己就是數據之王。
3、當你不得不處理非結構化流數據
非結構化數據分析通常被稱為“暗黑分析”(dark analytics)。這個令人生畏的名號絕非虛張聲勢,而是貨真價實、毫不誇張。
即使是最嫻熟的數據科學家,處理起非結構化流數據來也免不了一個腦袋兩個大。不論是社交媒體、視頻、客戶日誌還是地理空間服務數據,分析工作都需要在多元數據上實時、增量進行。此外,時效性也是此類數據分析工作的重中之重。
因此,當你一腳踏入暗黑分析的領域,那種(麵對龐然大物茫然不知所措的)感覺就跟試圖揭開宇宙奧秘的空間科學家毫無二致。
4、當你模型的預測準確度高於90
這可不是小事。為了做好分析工作,數據科學家必須在數據研究、解讀、準備和處理上投入大量的時間,這個過程需要極大的耐心和努力。然而,如果你構建的模型的準確預測度可以達到90%以上,回報也是無比豐厚的。
當客戶、經理、同事的讚揚和欣賞如潮水般向你湧來時,你在喜不自勝之餘腦海裏隻會記得一件事 — 周末嗨翻天!
5、當你想要找出模型中的漏洞
從成百上千行代碼中找到錯誤,就跟讓宿醉的你去大海裏撈針一樣痛苦。
但是直麵現實吧,這就是工作呀,誰讓你是數據科學家呢。
6、當你的經理問及漏洞修複進展
通常情況下,數據科學機構中的經理們都不了解技術性任務的實質,不論是排查模型缺陷或者改善模型性能;他們普遍更加關注項目管理(例如最後時限等。)
麵對“這個項目什麼時候能結束?”這樣的問題,數據科學家能做的就是能拖一會兒就拖一會兒或者幹脆消失。
7、當你的小白朋友指出了你模型的漏洞
你死死盯著代碼,幾個小時過去了卻一無所獲。就在你幾乎要放棄的時候,一個朋友偶然掃了一眼,馬上就指出了其中的錯誤。
最初的尷尬和怒火過去之後,你很快就會鬆一口氣,畢竟麻煩事兒又少了一件。
沒什麼大不了的,我們可以這樣安慰自己:“旁觀者清嘛”。
8、當你的SQL查詢跑的特別慢
慢吞吞的服務器,糟糕的網絡情況,或者別的什麼原因,都會導致SQL查詢執行的特別慢,就跟看著油漆一點點風幹一樣;當然你也不用一直盯著電腦屏幕,倒杯咖啡,讓SQL自己飛一會吧。
這很無聊,而且極耗耐心;不過大家都是這樣過來的。
9、 當你好不容易建好模,用戶又要改數據
在費盡九牛二虎之力分析數據、建了無數模型,分析出了無數趨勢後,你最不想聽到的就是你用的是“錯誤”數據。
也就是說,你要分析一套完全不同的數據集,所有的模型都要進行重大調整,從頭再來一遍。痛苦啊!
10、當你再有20分鍾就要見客戶,但PPT還沒做好
你剛做完見客戶的PPT,擦擦皮鞋整整領帶就可以去見客戶了吧?就大多數情況而言,答案是否定的。
數據工程師需要跟同事和經理複核PPT;這意味著在最後一分鍾內PPT會有無數改動。做這些改動是非常有壓力的,因為這關係到你的個人聲譽、業務成敗、公司形象、甚至你的職業前途。
不過,當你最終得到客戶首肯時,你會意識到有些改變是非常關鍵的,而且能讓你的案例更有說服力。
正如大名鼎鼎的史蒂芬·喬布斯說的:
“偉大的商業成就絕非一人可為,而是團隊之功。”
11、客戶最終認同你的模型的輸出結果
這是所有數據科學家都天天幻想的時刻。
麵對要求極高、條件極為嚴苛的客戶,你夜以繼日的努力工作,力求模型達到最大限度的精確有效。你不得不一次又一次給自己打氣,拿出最大的耐心來麵對這幫鬧心的客戶。然而,當客戶真心實意地向你豎起大拇指時,最終的勝利是屬於你的。
Kirk Borne博士對此有著精辟見解:
“客戶可能會出錯,但客戶永遠是客戶。”
12、當市場迎來一家新的大數據公司
分析行業發展十分迅勐,新工具和新技術也層出不窮。數據科學家見證著各種大數據、分析和深度學習工具的不斷湧現。
數據極客骨子裏都是持續學習者,他們對於業內新發展永遠持開放態度,並且會隨之拓展自己的知識和技能。
本文轉自d1net(轉載)
最後更新:2017-08-21 16:32:49