機器學習產品團隊中的角色、技能和組織結構(機器學習入門第四篇)
本文是機器學習入門教程的第四篇,前三篇分別是:
1.機器學習能為你的業務做什麼?有些事情你肯定猜不到
2.關於機器學習算法 你需要了解的東西
3.如何開發機器學習模型?
我們已經討論了開發機器學習模型的整個過程,現在我們來談談誰來實現這個過程,以及團隊是如何運作的。
一個歡樂的大家庭
一個“傳統”的產品團隊由設計師、工程師和產品經理組成,而數據分析師有時也會包含在其中,但大多數情況下是多個團隊共享這個稀缺的資源。在數據科學成為公司DNA一部分的時候,數據科學家必須要成為產品團隊的一個重要組成部分,而不是被視為一個單獨的個體。開發具有業務影響力的模型需要設計師、項目經理、工程師與數據科學家一起通力協作。
模型開發中的角色和責任
我們以前討論過機器學習的開發過程。在這裏,我們將重點介紹團隊的組成,以及在開發過程中不同人員角色的職責。
構思階段:在這個階段,需要有對問題相關領域有深入研究的專家,他們知道哪些因素可能會影響選擇或者結果。例如,如果你正在建立房屋估值模型,那麼你需要一個真正的房地產專家,他們知道如何對房屋進行估價以及影響價格的因素。即使數據科學家碰巧在這個領域有一些經驗,但是從其他組織或者團隊的商業專家那引入新的想法來檢查你自己的想法也不失為一個好的主意。
數據準備:這通常由數據科學家主導,在工程師的幫助下收集數據、整合API等等。產品或業務人員必須重度參與進來,依靠現有的人際關係協助進行外部數據的采集。
原型化與測試:這個主要是數據科學家的工作。產品或者商務人士必須非常緊密地伴隨在一旁,查看結果並幫助確定結果是否具有商業意義或是否需要進一步的迭代。
產品化:這需要數據科學與工程進行結合。支撐數據收集的任務在很大程度上依賴於數據需求和來源。如果使用外部數據,你可能需要通過構建刮板來收集數據,需要具備前端知識、調用各種API或從各種供應商和合作夥伴那裏獲取數據。另外,還需要對生產化數據和擴展數據進行清理和處理,這在很大程度上屬於後端任務。工程師還要與數據科學家通力合作,確保模型的規模化,驗證生產結果的質量是否符合要求。
整體係統架構:要確保整體係統滿足業務需求,需要有具備架構和擴展複雜分布式係統經驗的工程師。係統的複雜程度取決於要完成的任務。
數據科學團隊的組成
數據科學是一個相對較新的領域,它以一種新的方式將各種現有領域融合在一起。在大學裏,直到現在還沒有“數據科學”學位,所以人們傾向於將其看成是一個由各種相關學科和背景組成的領域。
數據科學的關鍵是統計學、計算機科學、經濟學或計量經濟學。
不同背景和技能的組合對於一個團隊來說可能是非常重要的。團隊中的每個人都會帶來不同的東西。特別是在你處於一個新興領域,並需要大量新思維的時候,結合不同的背景往往會給問題的解決帶來多種不同的創新方案。
數據科學家對工程團隊的依賴程度各不相同。模型工程師通常能夠端到端地工作,在沒有其他人幫助的情況下進行模型地原型設計和係統部署,而其他人則需要工程團隊的更多幫助。根據工程團隊的可用性和組成,你可能需要一個或多個獨立的數據科學家。另一個需要考慮的,是問題所屬的領域。例如,擁有計量經濟學的背景對於選股應用程序比自主駕駛車輛更為重要。
一個有道理的數據科學組織結構
工程、產品和數據科學之間有著緊密的聯係。從傳統上來講,人們傾向於將數據科學包含在工程中,然而,隨著數據科學在組織中作用的不斷變化,新的結構正在出現。我看過三個不錯的結構,每一個都有自己的優缺點。
選項1. 將數據科學劃歸給工程部門
將數據科學劃歸給工程部門能夠使學科之間保持完全一致,並且無需將數據科學和工程技能割裂開來。許多與數據科學家一起工作的工程師對這門學科都很好奇,期望能深入學習來充實自己的技能。我看到一些工程師們對機器學習就像對“填字遊戲”一樣的熱衷,而其他一些人則選修了機器學習課程,希望有朝一日能成為一名數據科學家。團隊之間的界限越小,就越能培養出具備端到端工作能力(包括構建模型並生成代碼)的數據科學家和工程師。
這種組織結構還有助於簡化整個係統,包括數據科學使用的用於原型設計的機器學習框架,以及工程團隊支撐的產品化係統和架構。這還有助於確保機器學習的框架和架構能得到它們應有的重視。
選項2. 將數據科學劃歸給產品部門
由於產品需求是數據科學發展的外部驅動因素,因此將數據科學劃歸給產品部門可以保證原有目標和可交付成果之間的一致性。從本質上講,產品負責人對所有數據科學項目和活動都有報告級別的可見性,這有助於讓項目成員優先考慮數據科學,並確保數據科學推動業務的發展。這也有助於促進產品和數據科學之間的緊密合作,這是至關重要的。這個的先決條件是產品部門的人,他既要了解數據科學和產品是如何協同工作的,還要致力於產品開發和數據科學基礎設施的開發。
選項3. 與產品和工程分離的數據科學
這有利於提高數據科學團隊的知名度,使其對於整個組織的接觸更加便捷。這種模式能讓數據科學團隊負責人更直接地了解高層戰略決策,並通盤考慮所有業務利益相關者的意見和需求。
並不存在一個“正確的答案”,這一切都取決於組織、目標、團隊和團隊領導的力量。根據經驗,聯合組織結構通常能促進團隊之間的一致性,因為在頂層隻有一個決策者。考慮一下在組織中哪些領域更容易發生溝通和協作問題,並讓這些團隊向同一個主管匯報。
文章原標題《Roles, Skills and Org Structure for Machine Learning Product Teams》,作者:Yael Gavish,譯者:夏天,審校:主題曲哥哥。
文章為簡譯,更為詳細的你容,請查看原文
最後更新:2017-08-21 16:02:46