117
技術社區[雲棲]
Airbnb數據科學團隊進化論:如何由內而外實現數據驅動

雖然團隊組織結構的演化允許數據科學家團隊繁榮興旺,但是公司的成功源於“精準定位”於兩件事:發自肺腑地關愛員工,積極主動的數據驅動決策。不論是開發可持續利用的開源工具還是奮力改進數據科學部門的多樣性,Airbnb數據科學團隊負責人Alok很清楚,Airbnb追求的事都要貫徹這兩個原則。
◆ ◆ ◆
超級增長:短短幾年,從5到70+數據科學家
在2013年,Airbnb隻有一個5人數據科學團隊,集中地為公司的數據需求提供服務。此後,他們成長為最大的、也是最有創意的創業團隊之一,擁有超過70名數據科學家,服務於不同的商業部門。除了招聘時堅持高要求和貫徹師徒製外,組織結構也是團隊順利增長的關鍵。
Alok把將集中的數據科學家部門分成小的嵌入式團隊,與商務夥伴們坐在一起工作形容為“唿吸新鮮空氣”。與之前的結構相比,他說新的模式對公司而言,“非常給力”。
這個變化是跟隨著“到底什麼是數據科學家”的觀念而演化的。很多人同意Alok的說法,認為數據科學家這個詞“已經超載”了。他相信,除了數據科學獨角獸,其他人應該可以被分為以下四種角色,才會更好地分配工作:
-
數據工程師-他們接手亂七八糟的數據,打理到可以分析的地步。
-
產品建造師-他們建造數據產品供用戶使用。比如,建造一個推薦引擎。
-
數據分析師-他們提供主要的分析框架,從中發現商業機會。
-
數據實驗師-他們知道如何設計和實施實驗。
數據科學團隊如何解決快速擴增中帶來的生長痛?Alok告訴我,創新和數據科學團隊的演化正是源於公司的兩個極端要求。
第一個是Airbnb將自己定位為竭力保證員工的快樂,成功和被重視。比如,投資於新員工入職的數據培訓,建立師徒製,參加會議等,都是Airbnb培養員工的重要途徑。
另一方麵,Alok強調,Airbnb又是一家非常重視指標和目標驅動的公司。關於第二條公司文化準則,Alok強調了Airbnb在做商業決策時,是極端的量化和目標驅動的:
“我們所做的一切事情都是深思熟慮的,非常量化的,也是精準集中在我們的目標上的。”
這裏傳遞的信息是,Airbnb已經,至少部分地對它的數據科學團隊的質量做出了承諾,擺在首位,作為一種實施它的研究驅動的行為模式的方法。
在我們接下來的談話中,Alok與我分享了Airbnb的數據科學團隊如何取得成功,建立凝聚力,為自己和用戶獲得更好的結果。珍惜員工福祉與量化驅動決策這兩個方麵齊頭並進,通過這樣周到細致的定位,很明顯,二者的珠聯璧合使Airbnb的獲得了進步。
◆ ◆ ◆
建立規模化的知識分享生態係統
在Airbnb,生產力和創新嚴重依賴於知識共享。Alok帶領我參觀了他們的努力集中的三個領域:流程管理,數據在組織內外的普及和可循環利用的研究。
Alok描述了Airbnb如何重金投資數據授權團隊,來開發整個組織的流水線、標準流程。其中包括查詢工具,如Airpal和Airflow,通過程序性的任務編寫、計劃和監控來實現數據的流水線管理。
AIRBNB的開源數據工作流程管理工具AIRFLOW
本著回饋開源社區的精神,Airbnb去年將Airflow進行了開源,迄今為止,有46家公司用它來管理自己的工作流程。
意識到數據的可及性是實現指標驅動的商業決策的必由之路,Airbnb也開發並開源了數據可視化工具Caravel。平台允許用戶在拖拽的環境下探索數據。
AIRBNB的開源數據可視化平台CARAVEL
最後,Alok取笑了另一個即將要開源的工具。與Kaggle的新開放數據平台相比,他稱Airbnb的知識分享工具為“遊戲更換”。Github式的存儲,目前尚屬內部使用,允許用戶從頭到尾把分析寫在上麵。
在知識分享的諸多好處中,除了支持可再生研究,避免重複代碼,知識分享工具解決了發表偏倚的問題。發表的研究是專門挑選的,可能是因為有吸引人的或者驗證性的陽性結果。在引進知識分享之前,Alok記得2年前他加入Airbnb時,知識還是“部落性”的。
“我必須知道正確的人,然後走過去對他說,‘你好,請問你是否編寫了這個程序?到底發生了什麼?’”
現在,相比較運行A/B測試和把無效結果拋至所謂的“文件櫃”(或郵件附件)中,Airbnb的數據科學家花費少量有價值的額外時間像寫更正式的代碼一樣記錄他們的實驗。Alok說在數據科學家的工作中,搜索知識文章的最終能力對於提高可進入性具有更大的影響。
Alok舉了一個關於知識文章能產生差異的具體例子。他的團隊曾經想要運行一個可以影響用戶預訂住宿的實驗。
“事實證明,我們3年前運行這個實驗,它花我們9個月時間運行。我們隻需要讀取帖子便能知道答案,而不是重新運行它。”
特別是小型團隊,Alok給出的建議是“不要試著自己創建每件事物,現在有許多開放源碼工具。用他們作為開始吧。”他甚至用Kaggle Kerneis舉了一個例子,闡述道“我認為它是一個很好的共享分析工具。”
◆ ◆ ◆
多種觀點與數據科學的未來
Airbnb房主已經遍及191個國家的34000個城市。創建一個歡迎不同文化背景的人的平台,需要這個公司對員工做內部投資,建立一個強大、多元化團隊。 在數據科學和工程學領域,許多公司沒有對它們的用戶做出必要反應,這對他們是非常不利的。在最近一篇發表在airbnb工程博客上的文章表示,airbnb數據科學家Riley Newman和Elena Grewal說,公司正在努力解決多元化的缺失,Alok認為這是數據團隊今年最主要的問題。
Alok主張,對於任何問題,識別是Airbnb解決問題的第一步,從這個觀點考慮,他們的數據引導理念已經使他們有所提高。多元化團隊的優勢是無可爭議的——
“毋庸置疑,增加多元化能提高我們分析的標準,提升我們作為一個數據科學團隊的影響,並增強我們向彼此學習的師友關係。”
“在過去的一兩年中,我們已經看到了在進步中產生的影響[…]。通過一個更加多元化的數據科學團隊,我們已經加深了合作關係,並作出了對這個組織的更大貢獻。”
總的來說,Airbnb的數據團隊無疑地、積極地影響著他們的用戶。Alok舉例說:
“我們有更多的假設來自這支團隊,如什麼能引導更多人的參與度[…]什麼能帶來更大的實驗多樣性。”
對於建立一個多元化團隊,最具挑戰的障礙之一是首先要理解多元化意味著什麼。Alok對比多元化招聘的“良性循環”公司與 “惡性循環”公司,發現他們首先在識別階段便存在差異:
“如果你自己不夠多樣的話,那更不可能雇用多樣的人,因為你會雇用那些像你自己的人。你會因為地區局限而亡,因為應聘者都以看似相似且正確的方式表現和進行麵試。”
他對團隊的建議是,麵對問題的時候要深思熟慮,這與“不平衡分類”的理論相違背。他舉了一些例子,如隱藏應聘者的姓名和性別,並且在現有專業領域以外花費更多時間發掘應聘者。事實上,Alok把他們近期的招聘競爭作為Airbnb如何將其努力展現在公眾麵前的一個例子。
“你不得不說,‘我將花時間試著去找到那些跟我現有團隊截然不同的人。’這並是順其自然就會發生的事情。你必須經過深思熟慮,並且需要投入時間。”
目前,不同領域的數據科學專家和機器學習專家正在進入這個產業。從物理學家到生物學家,教育是一個維度,但它現在不是吸引多樣人才的挑戰。因此,Alok表示,希望數據科學或機械學習的學位不會成為應屆生進入這個領域的阻礙。
盡管被一個像Airbnb這樣的數據團隊雇用仍然任重道遠,但是沒有理由喪失信心,因為Alok對於有抱負的數據科學家最好的建議是獲得“盡可能深入和肮髒”的數據。因此,在允許必要的機器學習和數據分析動手實踐上,開源數據具有改變能力。他還提倡,掌握iPython和R的應用,有助於專注深入了解數據和理解整理混亂數據的意義。
那麼,這對你、你的團隊或是你的公司,意味著什麼呢?跟隨Airbnb的步伐,首先開始關注公司內在。通過做有目的、以數據為引導的決策,公司以多種方式衡量它的團隊、知識和進步,這已經超出了組織本身。
原文發布時間為:2016-10-10
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-06-02 19:33:42