325 阿裏雲技術社區[雲棲]

大數據人工智能領域從菜鳥到高手晉級指南

我們身處一個“技術爆炸”和“共享、開源”的時代，先進技術的更新迭代速率超過了曆史上任何一個時期，而且這些技術也不再閉塞，人人都可以接觸並學習。終身學習已經是我們每個人不得不麵對的問題，這一點在大數據/人工智能領域體現的尤為明顯：層出不窮的新技術，一方麵為我們帶來了便利，但同時也使我們麵臨難以高效學習和選擇的窘境。因此，在這樣的時代背景下學習大數據知識，需要有相適應的邏輯和方法。

本文試圖幫助各位讀者用好各類“共享、開源”的學習工具以及學習渠道，躲過各類新手容易誤入的“深坑”，以最小時間成本和經濟成本，優質地完成目標技術的學習和掌握。

本文首先分析了時代背景，繼而對目前大數據領域的人才梯隊進行了劃分，最後給出了大數據/人工智能人才從菜鳥到高手的進階指南。

一、背景鋪墊

“技術爆炸”以及“共享開源”是這個時代最有特色的標簽，筆者認為二者是互為因果且緊密聯係的，首先在“技術爆炸”的時代，對於走在技術發展最前沿的研究團隊來說，“技術變現”的最好手段就是“共享開源”。反觀互聯網、移動互聯發展成熟之前，信息是十分閉塞的，某項技術創新一旦出現就需要第一時間注冊專利，技術需要靠政府來保護，而技術變現的唯一途徑就是出賣專利或者組織生產形成產品。

c248e735dd67d1c598126c617bbc042ef576e75a

現如今互聯網及移動互聯已經發展的十分成熟，新的信息會以極低的成本在極短的時間內傳遍世界的每個角落，所以處在技術前沿的研究團隊僅需要在第一時間將自己的工作成果上傳到“arxiv”或者“github”之類中立的共享、開源網站，便會立即得到全球輿論的共同保護，這樣的力度要遠遠強於某個國家的專利保護。

隨後，隻要新技術確有應用價值或者學術價值，那麼各類資本巨頭、科技大鱷以及相關的各類組織便會排著隊上門送出豐厚的offer，對於前沿團隊來說，技術變現的時間點要遠遠早於技術產品化的時間點。

其次，因為“技術爆炸”總有新的技術等待著前沿團隊去研究發現，所以前沿團隊保持領先的最好方法不是捂著現有成果不放，而是盡快“共享開源”實現變現，然後投入到新的研究工作中。

最後，“共享開源”也在很大程度上促進了“技術爆炸”，無論任何技術、科技的長足發展都需要一個龐大人才體係來支撐，反觀曆史上的各個時期，分享知識、培養人才的渠道主要是“學校”，這一渠道不但形式單一而且往往具備相當的門檻，會將相當一部分“有誌青年”擋在門外。

76784cfe356980d42ec91b62172133a2066c07cd

而在如今這個時代，知識傳播最快速的渠道是互聯網，由於“共享開源”，世界上最優質的教育資源以及最先進的學術、技術理念忽然間沒有了任何門檻，麵向全部個體無差別開放，結果就是隻要某一技術、科技領域有了很大的突破並具備廣闊的應用前景（如大數據、人工智能），那麼相應的人才梯隊會在短時間內自動補齊跟上。

站在大數據學術前沿的研究團隊隻需要一往無前地開拓疆域，其後的人才梯隊隨即會自動開展“新技術論證”及“技術產品化”等“保障”工作，保障這一技術領域及相關行業的健康發展，來進一步促進資源向金字塔尖的前沿團隊匯聚，支撐其開拓工作。

我們將上文提到的人才梯隊劃分為：菜鳥築基、初入江湖、登堂入室以及華山論劍四個等級：

菜鳥築基：本階段的人才以大數據基礎理論的學習為主，尚不能勝任真實的項目或者工作；
初入江湖：本階段的人才已經具備了初步的大數據實踐的能力，建議通過實踐（做項目、打比賽等）來更好地帶動學習；
登堂入室：本階段的人才需具備大數據科研論文的調研、閱讀和理解能力，能夠成功地將論文中的算法進行複現；
華山論劍：本階段的人才能夠獨立地開展大數據新技術的研究工作，具有發表原創性論文的能力。

下文將針對處於不同階段的大數據人才，給出不同的修煉、升級建議。

二、菜鳥築基

1. 最好的資源往往是公開的

讀過背景鋪墊後相信已經不需筆者再解釋為什麼最好的資源往往是公開的，在此直接給出一些獲取高質量資源的渠道。首先推薦國外的三個網站，分別是“Coursera”、“Arxiv”以及“Github”。

811dd4645d21ebf6f5307d28273bffe763554b1c

Coursera是全球頂尖的在線學習網站，由業內極具學術造詣及分享精神的大咖創辦。Coursera上的課程相對比較基礎，應該是“小白”起飛最好的平台，在這裏推薦吳恩達（Andrew Ng）開設的“機器學習”以及“深度學習”。對於國內學生來說最大的問題可能就是英語了，在這裏需要明確一點，如果各位想要成為真正的高手，那麼英語是永遠繞不過去的坎，業內最新、最好的資料無一例外都是英文，即便是來自國內的頂尖高手在發論文時都不會選擇用中文。

其實對於絕大多數人，英語並不應該被當作一門“學科”來學習，而應該被當作“工具”來用。具體的做法也沒有捷徑，就是看到不懂的單詞立即查，單詞不用刻意去記憶，下次遇到不會就再查一次，一切以快速弄懂句子含義為目標。

edb8d6ed2761a15cbd9457d8e2053d1a3e02007a

Arxiv以及Github是各位讀者未來會特別常用的兩個網站/工具，Arxiv上有最新最全的共享論文，論文中會對各類算法進行詳盡的闡釋，Github上有最新最好的開源代碼，這些代碼往往是對某種算法的實現，具體的使用方法網上有許多教程，在此不做展開。

讀者可以簡單的理解為Arxiv是修煉內功的地方，而Github是修煉外功的地方。隻練內功不練外功是無法解決實際問題的，但隻練外功不練內功又往往毫無威力，一定要內外兼修。最後再向大家介紹一個神奇的網站名叫“gitxiv”，會幫助各位找到論文與代碼的對應關係。

2. 不要看書、不要看書、不要看書

一門學科怎麼入門呢？菜鳥在麵對這個問題時，最容易踩入的“深坑”就是找一本權威的書來從頭學起，一旦踏入此坑，輕則荒廢自己數周時間，重則對某一門學科徹底失望終生。首先好書本來就不多，往往可遇不可求。其次即便遇到好書，為了保證學術性，書中用語往往“嚴謹”但難懂，且會從學科的早期曆史為讀者打下“堅實基礎”，講到最近的技術手段時又戛然而止。最後，就算讀者傾盡數月之功力，堅持讀完了，筆者可以用血淋林的親身實踐告訴你，書中前半部分的內容一般人肯定會忘的。

當然也有特殊情況，如果各位已經確定了自己的研究方向，並且有高人/導師指點，給出了相應領域內必讀好書的名錄，這一類書還是值得一看的。不過在看的時候也要注意，不要糾結於某些細節問題，看不懂的地方可以先記下來，這類細節往往會在各位後麵實踐過程中的具體場景下恍然大悟。

正確的做法一句話就可以概括，好書是用來查的而不是用來啃的，什麼時候來查呢？下文會逐步解答。

3. 找對好基友，連滾帶爬往前走

現在已經不是一個單打獨鬥，憑著跌落斷崖後找到一本秘籍閉關幾年就能橫掃天下的時代了，無論是像Hinton（推翻了BP算法的BP算法之父）這樣的泰鬥，還是像何凱明（發best paper像一般人發paper一樣容易的神奇學霸）這樣的新秀，都處在各自非常靠譜的團隊中與小夥伴們共同探索。好基友不需要多，有一兩個真正靠譜的就已經足夠，至於隊友的重要性後文會慢慢闡釋。

菜鳥築基這部分最後要給出的建議就是，千萬不要在這個階段停留太久，不要等“準備好了”再去著手實踐，因為這裏的“準備好了”往往包含菜鳥的不自信，不去進一步提升自己是永遠準備不“好”的。一般情況下，想做“計算機視覺”或者“自然語言處理”等偏AI方向的同學在完成吳恩達的《深度學習》課程後，想做“數據挖掘”的同學在完成吳恩達的《機器學習》課程後，就可以選擇相應的實踐項目準備進入下一階段了。

c1a2a7e1b24e40e6c63a4d322c96d1c324932d0e

那麼我們該選擇什麼實踐手段呢？最佳的情況是有大神帶隊做真實項目，但是這樣的機會往往可遇而不可求，在此不展開討論。普羅大眾型的辦法是參加一個大數據比賽項目，現在國內的“阿裏天池”以及國外的“Kaggle”都是開放式的大數據比賽平台，平台上會有各種組織發布的各類真實項目供大家實踐、比賽。讀到這裏各位心裏可能還存有很大的疑問：“就算學會了基本課程，在沒有人帶的情況下能上手實踐嗎？”，下文將陸續回答如何“連滾帶爬”的進行實踐。

三、初入江湖

1. 找到一個最高的baseline

這裏的“baseline”可以理解為前人已經做出成果，當自己恰好需要去做相同工作時的參照。對於上文提到的情況，如果有大神帶隊進行實踐的話，那麼帶隊大神此前的實踐經驗就成為了全體小隊成員的“baseline”。那對於沒有“大神”資源的廣大讀者是否有更通用的解決辦法呢？答案是肯定的。如果讀者目前對於一類問題無從下手，例如剛剛學完“深度學習”的課程，但是不知道如何去做“自然語言處理”類的項目，最好的辦法是利用好國內的“萬方”以及“知網”這樣的論文查詢平台，去查詢相關領域國內普通高校的學位論文，這樣的論文絕大部分都是中文並且會在論文中介紹大量的基礎背景知識，正好滿足了我們的需求。

66ac4470afa6c12fda41021f429574047a90c6b1

如果是對某一技術方的特定知識點不明所以，例如在做“自然語言處理”方向的項目，但卻不太了解“LSTM”，則可以利用好國內的諸如“知乎”、“簡書”以及“CSDN”這類的知識分享網站，隻要不是太新的理論，都可以找到相應的博文或者解答。使用上述兩類渠道的共同技巧是，多搜幾篇文章對比著看。同一個概念或者技術，一篇文章很難全麵描述清楚，並且由於文章作者不同，解釋問題的出發點也不盡相同，所以如果各位遇到看不懂某篇文章的情況時，不用急躁，接著看下一篇文章就好。另外，前文提到的“好書”在這裏就可以用來查了，讀者會發現原來想記都記不住的知識點，隻要“查”完並且“用”過，那麼一般想忘都忘不掉。

這裏對baseline所謂“高”的定義是，越接近學術前沿，實踐效果越好，就認為越“高”。一般情況下，可參照的成果越“高”，中文文獻就越少。

文章寫到這裏不知是否回答了上一章節提出的疑問，上一章節提到的“連滾帶爬”指的就是我們在選定某一實踐方向後，根據實踐的最終成果再回過頭來對我們的相關知識進行“查漏補缺”的過程。這樣的學習過程，目標性更強，參與者完全有針對性的去學習，學到的東西可以立即實踐，從而避免“學過就忘”的尷尬。

2. 合理追求quick win

筆者曾經仔細地研究過為什麼女生逛街會“不知疲倦”，得到的答案是，女生每逛一家店鋪，看看店鋪中的鞋子/衣服/包包就能得到一定的興奮點，在得到一個興奮點後就想著直奔下一個興奮點。類比到我們做項目/打比賽的過程中，我們需要為自己的團隊設置這樣的“興奮點”，讓團隊成員都能夠享受到“quick win”的快感，來支持大家繼續推進。

而取得“quick win”的關鍵是要將手中的工作/任務合理劃分成若幹“稍微努力一下就能達到”的子任務，這中間的細節過於複雜，在此就不展開討論。一個teamleader需要做的最重要的事，就是幫助團隊合理劃分任務而不斷取得“quick win”，一個人隻要具備這樣的能力，無論技術高低都能夠團結一批誌同道合的小夥伴。

3. 你最大的動力往往來自DDL（Deadline）

有那麼一句成功學的佳句是“每天叫醒我的不是鬧鍾而是夢想”，這句話聽起來很勵誌，但對於90%的人來說就是胡扯，我們回首望去發現每天叫醒我們的往往是“上班遲到後被扣的工資”或者是“晚到實驗室後老板的殺氣”，這就是現實，聽起來很殘酷但是我們完全可以利用好它。具體到我們的升級以及項目推進中，能讓我們不斷向前的最大動力往往是“在DDL前無法完成任務後小夥伴們的鄙視”以及“完成quick win後帶來的成就感”。

做好這一點除了上一小節提到的要合理劃分任務之外，最重要的就是有一個靠譜的teamleader不斷的進行推進（push），每到既定節點後雷打不動的推進。最後要囉嗦一句，根據馬斯洛需求層次理論，夢想應該屬於模型頂層的“自我實現需求”，如果一個人可以被“夢想”叫醒，那麼這個人的其他需求應該已經被很好的滿足了，所以我在這裏真誠的祝福大家終有一天可以在早晨被自己的“夢想”叫醒。

四、登堂入室及華山論劍

如果有一天各位發現自己在工作實踐中，需要不斷地關注最前沿的論文，並且需要不斷地嚐試複現論文中的算法來用於實踐，那麼要恭喜各位已經跨入了大數據/人工智能領域高手的行列了。登堂入室與華山論劍兩個階段的區分不是特別明顯，因為論文讀得多了，總會有些自己的新想法，這些想法經過實驗驗證後就可以去發論文。反過來，即便你發表過前沿論文也還是需要繼續跟進其他論文。

1. 朋友圈決定了你人生的高度

在這一小節的開始，筆者首先要端出一碗毒雞湯，即便是在這個“開源、共享”的時代，學術/技術資源的分布還是極度不平均的，並且這樣的不平均會越來越明顯。究其原因有兩個，第一個原因可以援引在清華17級研究生開學典禮上某校領導的一句話來闡釋----“最有效果的研究手段就是與相當水平的同行當麵交流”，翻譯一下就是高手越多的地方就越容易產生高手，這會導致高端人才分布的越發不平均。

另外，做學術前沿研究的經濟成本是很高的，國內某頂尖AI公司全球研發工作一個月的電費開銷就能達到千萬級別。即使是普通的AI項目，服務器、GPU的成本也會導致普通的研究人員根本無法找到充足的經費來支持自己的研究。

喝完毒雞湯也要來一些正能量，雖然資源分布不平均了，但人才通道仍然是開放的，隻不過門檻越來越高而已，我身邊就有畢業四五年後，也能夠一邊工作一邊複習考上清華研究生，最終接觸到前沿科學研究的例子。

2. 選擇永遠比努力更重要

這個標題聽起來又像是一碗“毒雞湯”，但這就是血淋林的生活帶給筆者的經驗。筆者見過某個算法團隊自己悶頭搞了幾個月研究毫無進展，經過大神點播後一個月內完工的情況。

下麵舉一個更戲劇性的例子，自然語言處理曾經在20世紀70年代左右有過界限分明的兩個學派之間的激烈交鋒，一撥是希望通過語法規則來做語音識別的“規則派”，另一撥是基於統計方法的“統計派”，這兩撥從事相同領域研究的學者竟然分別召開自己的學術會議，即便出席同一大會竟然也要分場開小會。

到了20世紀90年代“統計派”的識別率已經達到了90%以上，而“規則派”僅有不到70%，勝負已分（吳軍老師的《數學之美》一書中對這段曆史進行了詳盡有趣的闡述）。但試問如果有一名博士生在20世紀70年代將自己學術方向定為“規則派”，到了20世紀90年代的時候他該做何感想？

d6a94b8978c55de7c2644178131d729981a09a17

到了“登堂入室”這個階段之後，做好選擇顯得尤為重要，這樣的選擇不僅僅限於學術方向，也涵蓋例如“做學術”還是“做產業”等等更廣義的範圍。一個可以參考的經驗是，如果人生的重大決策失誤，基本要用五年來挽回，大家要考慮清楚自己有幾個這樣的五年。

3. 唯一的限製往往是自己的妥協

看看本小節的標題，讀者可能會覺得本文這下要以“毒雞湯”收尾了。但其實在這裏“妥協”並不是一個貶義詞，筆者認為它起碼是個中性詞。從某種意義上講，每個人最終都會達到某種“妥協”，而不妥協就意味著背後存在與現狀不匹配的野心或者欲望，什麼時候野心和欲望跟現實匹配了，也就一定會“妥協”。這就是華山論劍的秘密，每個能站在頂峰的人都必定抱著某種超乎常人的野心或者欲望，當然這裏的野心或者欲望是廣義的，也同樣指對於學術的追求。

最後，“毒雞湯”不負眾望的要出現了，根據筆者的觀察，每個人的“妥協點”並不是自己設定的，一般情況下自己也無法影響，所以每個人最終要走到的高度往往是確定的。

但從筆者的角度看來，並不覺得站在華山之巔就一定是好的，真正的“好”是能夠坦然接受自己的“妥協點”，並且能夠在自己的“妥協點”安安心心、高高興興的工作和生活下去，這才是最具智慧的選擇。

原文發布時間為：2017-11-20

本文作者：王明哲、王存光

本文來自雲棲社區合作夥伴“大數據文摘”，了解相關信息可以關注“大數據文摘”微信公眾號

最後更新：2017-11-23 01:03:50

大數據人工智能領域從菜鳥到高手晉級指南

上一篇：分析非結構化數據的10個步驟

下一篇： Redis故障案例(一)-特定key批量丟失

相關內容

熱門內容

最新內容

大數據人工智能領域從菜鳥到高手晉級指南

上一篇： 分析非結構化數據的10個步驟

下一篇： Redis故障案例(一)-特定key批量丟失

相關內容

熱門內容

最新內容

上一篇：分析非結構化數據的10個步驟