537
魔獸
獨家專訪 | 揭秘LinkedIn總部數據科學戰隊:技術強者常有,頂級團隊勝在軟實力
從某種程度上講,目前矽穀乃至全球最火爆的職業【Data Scientist】始於LinkedIn。
2008年,LinkedIn的數據科學團隊負責人DJ Patil 和Facebook的Jeff Hammerbacher分別建立了全世界前兩個真正意義上的數據科學團隊,並且開始用“數據科學家(data scientist)這個詞來描述他們的工作性質。在這之後,Data Science這個行業和Data Scientist這個職業逐漸流行開。
而要探索數據科學團隊的建設,沒有哪個團隊比LinkedIn及其用戶增長部門數據科學團隊的負責人周洋更有發言權。
2013年加入LinkedIn增長與國際業務部門,周洋帶領自己的數據科學團隊見證了LinkedIn用戶量“穩定且健康”的增長並從數據上提供業務支持,幫助LinkedIn實現全球注冊用戶從二點五億到五億的增長,而他將這些歸功於LinkedIn對數據團隊的重視和數據驅動的文化氛圍。
周洋認為,一位合格的數據科學家的終極目的是解決“不確定性”。他不僅應該是致力為公司解決實際問題的科技人員,同時在戰略決策層麵,也應該要有為公司發現新的利益增長點的商人格局。
LinkedIn(領英)增長與國際業務數據科學負責人 - 周洋
數據科學團隊
“嵌入式”工作日常
數據科學家跟跑全程
▼
“數據科學家要幫助產品經理實現增長用戶的目的,為產品團隊提供技術支持,另一方麵與工程師確定最後如何實現技術落地。”周洋如此描述一個數據科學團隊工作的最核心內容,這也是被他稱作“嵌入式”的數據科學團隊工作圖景。
走進周洋的數據科學團隊,你首先可以從“座次表”看出他們“嵌入式”的工作模式:這個20多人的數據科學家團隊是嵌入在LinkedIn 150多人的增長產品團隊中的,數據科學家與工程師、產品經理從“地理位置”上首先有一種親近感。
“我們的數據科學家大多數都和他們支持的業務團隊在一起,比如支持病毒式增長(virus growth)的科學家就和這個團隊的業務負責人坐在一起,我又跟增長團隊負責人坐在一起,這種嵌入式模式非常有效。”周洋稱。
這種嵌入式的合作模式在科技公司非常常見,數據科學家在產品團隊中,與產品經理和工程團隊一起,是整個團隊的三根支柱(pillar)。隻有這三根支柱緊密協作,才能讓整個產品團隊將各自的專業優勢發揮到最大,使得產品團隊能夠高效運行。
一方麵需要對公司業務和痛點有足夠深刻的認知,才能與產品經理合作,尋找業務增長點和機會;另一方麵,數據科學家與工程師及時有效的溝通,也能保證更準確地度量新產品對於用戶行為的影響,保證最大化向用戶傳遞的價值。
周洋稱,LinkedIn是一個有著強大數據驅動文化的公司,我們希望數據科學家能夠一個人跟完整個產品周期。數據科學家越早的進入整個過程,越能夠更有效率的工作,而在開展新人培訓時,也會強調這一點。
“季度之初,數據科學家會跟業務部門溝通新一季度的工作計劃,哪些需要數據支持。”在具體工作的實施上,周洋稱數據科學家會從一開始就主動介入,“我們會幫他們確定要做什麼,哪些需要跟進。對於一些戰略性或者可拓展性的工作,(不緊急但是重要的)我們也會明確去做。”
對產品的技術支持是數據科學團隊最基礎的職責,也占了周洋團隊日常工作的70%。剩下的20%和10%的時間分別用於戰略性項目或者風險項目。
金字塔結構:數據團隊提供的價值和對應職能
如果說一個數據科學團隊通過金字塔底部70%的工作確保了一個公司日常工作的高效率,那麼占日常工作20%的戰略決策工作則決定了一個公司的發展前景。
對於一個數據驅動的公司,數據科學家的眼界對公司創新的想象力有著很重要的影響,數據科學家在戰略決策層麵將有機會向公司高管提供建議,並能夠確保戰略的實施,從長遠來講對科技公司的發展意義深遠。
數據民主化
讓每一次決策
有“數”可尋
▼
一個公司能否有領先市場的發展,決策者的眼界非常重要,高管對數據是否敏感,能否下決心把數據推動做好,決定了這個公司的前景和競爭力。
LinkedIn的CEO Jeff Weiner以強大的運營背景著稱業內,受其影響,整個LinkedIn的數據驅動文化也頗為強大,高層對數據和技術非常敏感。
LinkedIn(領英)CEO Jeff Weiner
關於這點,周洋提到了一個細節,Jeff Weiner每天早上都會看一份每小時更新的數據報告,根據報告他能迅速了解到關於業務表現的很多信息,他還會將發現的問題立即發回至業務團隊尋求解答。由於數據團隊創建的“優質運營(operational excellence)”框架,很多時候這些問題都會從現有的數據報告中找到答案,或者已經提前發出通知。
周洋認為,其實不僅CEO和高管,數據科學團隊應該為公司不同層麵的每一次決策提供戰略支持,周洋稱,“小到頁麵瀏覽量下降的原因,大到一個公司發展的戰略方向,解決不同層麵決策者麵臨的不確定性問題是數據科學家的終極目標。”
數據科學團隊的任務不該止步於技術開發,他們更大的價值是將一個虛無縹緲的概念剖開,成為數據可以解答的問題——建立框架和分析角度,分解大而全的問題,用數據分析給出小而美的答案,進一步將其變成產品建議,進而為領導層提供決策依據。
而為了讓業務部門養成數據決策的習慣,周洋的團隊開設了一些內部培訓,比如組織數據類專題講座Data Boot Camp,對公司不同角色的人,包括產品經理人、產品設計師和工程師進行數據平台使用的培訓:教他們去使用相關係統,去了解與數據科學家合作的整個流程。這個過程最主要的目的是讓數據更加民主化,並培養他們跟數據科學團隊合作的習慣。
“更重要的是讓管理者真正看到數據給商業帶來的價值。隻有當公司的大部分成員開始享受數據團隊帶來的便利時,整個團隊的效率才會共同提升,數據科學家的價值才會被廣泛認可。”周洋稱。
可擴展的數據分析解決方案:
將數據科學家從
重複性勞動中解放出來
▼
可擴展的數據分析解決方案是LinkedIn另一個讓周洋引以為豪的工作成就,也是數據科學團隊金字塔最頂端的工作。可擴展的數據分析解決方案看似隻是在運營實施過程中進行流程優化和自動化,實際上意義重大。
A/B測試是數據產品上線後的例行步驟,也是讓很多數據科學家頭疼的麻煩事。之前,LinkedIn測試的過程需要數據科學家對每個A/B測試手動寫代碼並在數據平台上計算,非常費時間。後來,數據團隊建立了一個平台,將A/B測試的過程簡單化、自動化。自那以後,每次做測試,工程師可以直接在平台上創建調試,產品經理也可以在測試開始幾小時後直接去平台上查看測試結果,其中包括數千個度量(metric)指標以及所有相關的統計計算,整個過程幾乎不需要數據科學家的介入。在這個平台上,同時有上千個A/B測試在同時運行。
在這個小的工作流程優化上,LinkedIn非常有預見性地將數據科學家從重複繁瑣的勞動中解放了出來,使他們可以更專注地做需要創造力和判斷力的工作,整個團隊的工作效率和影響力(impact)因此大大提高;從另一個角度上,也說明LinkedIn的數據戰略滲透地非常徹底。
我的公司需要
一個數據科學團隊嗎?
▼
在數據驅動、大數據大行其道的今天,似乎每個公司都在招募一個數據科學團隊,或者至少是一個數據科學家。
“我的公司需要一個數據科學團隊嗎?”這是目前困擾很多公司,尤其是初創公司的難題。
周洋對此有自己的想法:“應該有,但是在不同的階段,不同的公司應有不同側重。處於不同階段的公司對數據的需求不同,數據的解決方案也不同,公司應該先了解自己的業務特點,再決定製定適宜的數據戰略,對自身實際情況有一個準確的定位才能起到事半功倍的效果。”
著名的二八法則在這裏頗為適用。周洋建議,對於大部分剛起步的小公司來說,首先應該用20%的時間去實現最基本的數據支持,這樣可以達到80% 的業務提高,而剩下20%的提高卻需要投入80%的資源才能實現。那麼,在人力和資源都極其缺乏的情況下,一家初創公司最重要的任務不是去實現先進和複雜的算法,而是利用現有的開源軟件、工具包和最基本的算法實現從無到有的數據支持。
解決各個層麵的“不確定性”
是數據科學家的終極目的
▼
那麼一個好的數據科學家到底應該有什麼樣的屬性呢?
周洋認為決定一個科學家優秀程度的重要因素並不是技術水平。在他看來,技術是可以培養提高的,但一個數據科學家對業務問題的批判性思維、擁有將業務問題拆分成可回答的數據問題的轉換能力,以及最終將解決方案清晰簡潔地傳達給決策者的溝通能力,才是優秀數據科學家的價值體現。
這裏我們直接摘錄周洋的原話,以期給各位完整呈現LinkedIn對數據科學家的期待。
周洋:很多時候,一個數據科學家的技術能力是可以訓練出來的,一個通過麵試的計算機、統計、運籌學、數學、電子工程相關領域的人才,他的計算能力、編程能力都不會太差。而真正困難的是對業務的了解。
我們數據科學團隊的宗旨是:To make data-driven decision at scale。這裏有幾個關鍵詞:數據驅動(data-driven),決策(decision),可擴展化(scale)。我們通常會鼓勵我們的數據科學家積極主動地介入業務,比如我們在接到到業務部門的問題時,應該多問一下,你為什麼想要知道這個數據,你為什麼要問這個問題,上下文(context)是什麼,最終要解決什麼樣的業務問題。多問幾次,有時候會發現,提問的人想知道的問題,並不是他問的這個問題可以解決的。那我們再一起來探索、分析你想了解什麼,怎麼樣通過數據分析去解決。但團隊的目的不是分析,而是通過分析達到洞察(insight),從而提出建議。
不要用工程師的衡量標準(寫了多少代碼)來衡量數據科學家。我們衡量工作的標準是對業務產生的影響:尋找新的業務機會、改進現有業務流程、或者確定業務方向。
對於數據科學家來說,最終要解決的問題是“不確定性”。這個不確定性會有很多不同層麵,每個不同層麵也都有不同的決策者:微觀的層麵,工程師會希望知道瀏覽量下降了5%是否應該引起重視?產品經理會想要知道,一個產品想法能否有效落地?再大一點,對於CEO來說,他會想要知道,公司的發展策略上,如何再增長10億用戶?這都是一些不確定的東西。數據科學家的工作是去消滅各個不同層麵的“不確定性”。
實施分析是很多人都能做的,但是回到業務起始,解決充滿不確定性的抽象問題,才是最難得的品質:從拿到這個問題,到回答這個問題,包括拿到這個問題的批判性思維,通過一個框架把問題剖析分析成很多不同的角度和任務,告訴決策者應該怎麼做。
你向決策者呈現的不一定是一個很高大上的可視化圖表,而更應該是可以用一句話描述的內容,甚至可以不包括數字。比如告訴我們的CEO,應該更好的發展移動端戰略。而關於為什麼要這麼做,我們再進一步去展示數據維度的原因。我們的最終目的始終是幫助決策者決策。
那麼總結來說,我認為一個好的數據科學家應該有以下兩種技能:
1、批判性思維,能夠把一個業務問題有效拆分,通過一個係統框架轉化為數據分析子問題;
2、溝通能力,拿到分析結果後能夠總結洞察並提出業務建議,然後精準且有效率的與決策者溝通,輔助其決策。
這兩個技能是我們對團隊中資深數據科學家的要求。
周洋說,“我非常欣賞LinkedIn的一點是,除了它的數據驅動文化,LinkedIn鼓勵一個人不要做螺絲釘,給每個人包括數據科學家更大的發揮空間,鼓勵他們跳出自己的“數據專家”角色局限,做一個真正有影響力的問題解決者。LinkedIn也十分鼓勵每個數據科學人才找到自己的長處,實現個人價值的最大化。”從這些我們可以看出LinkedIn的內部文化非常提倡每個人不斷超越自我,各施所長。
不要局限於自己現有的固定角色。這一點不僅對數據科學家或數據科學團隊很重要,相信也是這個時代的每個人都應銘記於心的生存準則。
* 讀完這篇文章,如果你對於領英團隊和周洋老師有一些其他的問題,歡迎留言給我們,我們將整理留言中點讚數最高的前5個問題,回饋給周洋老師,並予以解答。
如果你在讀完這篇文章後,被領英數據團隊的文化打動,也有了加入領英數據團隊的衝動,領英中國團隊正在招聘高級數據科學家 – 產品數據分析等相關職位,請在大數據文摘後台回複 領英 獲取相關招聘信息。
原文發布時間為:2017-04-11
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-17 13:34:36