閱讀793 返回首頁    go 阿裏雲 go 技術社區[雲棲]


大咖 | 從Ian Goodfellow到Yann LeCun,對話Quora AI大佬TOP 10


與AI大咖對話,是不是聽起來就很激動呢?

在人工智能、數據科學領域,學術與行業的發展瞬息萬變,成果頻出,通過二手資料了解這一領域似乎已遠遠不夠。如果有機會,當然還是要緊跟大咖們的步伐呀~

那麼,人工智能、數據科學領域的大咖到底在哪裏?文摘菌悄悄告訴你,他們可都在國外知名問答論壇Quora上等著你呢!從GAN之父Ian Goodfellow,到CNN之父Yann LeCun,你都能在Quora上找到他們的身影。

今天,文摘菌就將為你盤點Quora上人工智能、數據科學領域的10位大咖,並為每位大咖精選了一篇他們參與的問答,一起來追尋大咖的腳步吧!

Roman Trusov

檔案:戰鬥民族的獨立數據科學家
Quora主頁:https://www.quora.com/profile/Roman-Trusov
受歡迎指數:1.5/5
活躍指數:4/5
專業指數:2/5
從基礎開始學習機器學習真的有必要嗎?既然那麼多算法、工具都是黑箱,我們何不隻學如何用library?
來來來,我給你講個故事吧。

【第一天】
經理:今天要交給你一個重任——開發一個實時監測路上行人的係統!

程序猿:沒問題的!肯定有個R包可以做這個任務,不行的話也會有一個“Scikit-自動駕駛”庫。我保證下周之前做完給你!

【幾小時的百度後】
程序員:看起來好像沒有直接能用的包。難不倒我,我可以用一個“Scikit-視覺魔法”庫,在Kaggle上下載一個csv後綴的數據集,最後從Kaggle的指導課程裏麵學一些標準化的方法,完工!完美!

【第二天】
程序員:額,好像沒有可以用的數據集,也沒有立馬能用的庫...哎,好吧好吧。讓我用用看Keras吧,再看看Github上有沒有類似的項目。

無功而返,還在StackOverflow上被別人diss了幾下。

【自己搗騰一番】
程序員:好嘞,我現在已經跑了一輪自己的數據了,但這個模型出的結果奇奇怪怪的,而且這個現象不在使用指南裏... 我是不是需要深入了解一下Keras?

【查了幾個Quora問題】
經理:咱係統整得咋樣了?

程序員:(驚醒)報告老板,馬上搞定,讓我再修複幾個小bug~

【內心一陣慌亂】
程序員:這個模型怎麼中看不中用啊。看來我要用TensorFlow來搭一個我自己的模型了!

【複製、粘貼了幾輪教學代碼】
經理:不是說今天就能完工的嗎?

程序員:碰到了幾個小問題,我得確保萬無一失嘛。

【內心又是一陣慌亂】
程序員:這個庫自帶的損失函數(loss function)簡直一塌煳塗!我要自己來定義一個損失函數,然後加上一點正則化處理(regularization)。事情咋這麼多...

【學了一門機器學習課程】
程序員:接受域好像有點太窄了啊... 要是我學過深度學習就好了...

程序員:BN算法(batch normalization)好牛逼啊!為啥我之前在scikit-learn的入門指導裏沒看到這東西?!

【讀了一本Ian Goodfellow的書】
程序員:媽呀,我真是犯了一堆錯誤。不過呢,這就是學習的樂趣啊~

程序員:太好了,現在程序可以跑了,模擬結果看起來也很棒哦!

部署工程師:哇!耶?!你這個係統需要24G的內存,而且1秒隻能處理2幀。完全沒法在汽車上用啊。

程序員:MMP!要是我知道我設計的網絡的運算複雜度就好了。話說啊,那個FP16是咋回事呀?

【一天後】
經理:我們經費用完了。我準備去吃土了,一起嗎?

Abhishek Patnia

檔案:亞馬遜數據科學家
Quora主頁:https://www.quora.com/profile/Abhishek-Patnia
受歡迎指數:1/5
活躍指數:4/5
專業指數:2/5
未來5年裏最熱門的深度學習問題是什麼?
現在,深度學習在監督學習和強化學習中進展快速。包括了像計算機視覺,機器翻譯,AlphaGo,和自動駕駛等。

然而,這隻是智能這塊蛋糕很小的一部分。我想接下來幾年,我們會看到很多在無監督學習方麵的工作,構建能夠理解環境細節並進行推理的係統。所以,無監督學習會非常熱門並是深度學習接下去首要解決的問題。

Alexey Kurakin

檔案:穀歌大腦研究員
Quora主頁:https://www.quora.com/profile/Alexey-Kurakin-1
受歡迎指數:3星(2.8k)
活躍指數:2星(總回答10,最近3個月10)
專業指數:3.5星
今年人工智能是否被吹噓得太過了?
是也不是,取決於你談論哪個領域。

如果你說的是學術研究領域,答案是否定的。過去的幾年中,AI科研社區有很多偉大的突破。

另一方麵,如果你在討論商業投機,那麼回答是肯定的。熱過頭了。太多風投公司和大公司的副總將資金注入貼上人工智能標簽的技術項目上。這和之前電子,互聯網泡沫沒有任何區別。在你的代碼裏有if-then-elseif判斷語句並不會把它變成人工智能。

我和大公司裏知曉技術的副總級任務聊過,他們在聽了Yann Lecun的演講之後認定監督學習問題已經完全被解決了。那麼,如果監督學習被解決了,然後我們又有成噸的錢,我們就可以花錢獲得大量有標記的數據,然後解決任何問題,是嗎?不是的!當Yann LeCun說一個問題被解決了,他是站在了一個研究者的角度。如果你在馬路上的物體識別準確率隻有80%,很顯然你並沒有解決自動駕駛的問題!

總而言之,如果你不知道怎麼從一個技術裏賺錢,但你一直有聽到這個技術,那麼你很可能在一個技術泡沫之中!

Yann LeCun

檔案:“深度學習三巨頭”之一,紐約大學教授,Facebook AI研究中心主任
Quora主頁:https://www.quora.com/profile/Yann-LeCun
受歡迎指數:2/5
活躍指數:1/5
專業指數:5/5
當機器人有物理上的損壞時,強化學習如何能被用於機器人學?
你需要使用“基於模型的強化學習”,這能夠讓係統對機器人一係列動作可能產生的結果進行模擬。

在這裏,我們主要的問題是如何訓練一個準確地模擬真實世界。
我們稱訓練這些模型為無監督預測學習。這也是阻礙人工智能進步之所在。

Håkon Hapnes Strand

檔案:挪威數據科學家,象棋運動員
Quora主頁:https://www.quora.com/profile/Håkon-Hapnes-Strand
受歡迎指數:2/5
活躍指數:5/5
專業指數:2.5/5
對於數據分析和機器學習,哪些Python的技能最重要?
按重要性從高到低排序:
充分了解Python內置的數據類型:尤其是列表、元組、字典、集合;
掌握Numpy庫裏的N維向量用法;
掌握pandas庫裏的數據幀(dataframes);
能夠對Numpy的多維數列進行逐項向量或矩陣運算;
知道你需要使用Anaconda發布和conda包管理器(說實話這也不算一個技能,你知道了就很簡單);
熟悉scikit-learn庫;
能夠寫高效的表操作而不是傳統的for循環;
能夠寫簡潔明了的函數(對任何開發者都一樣),最好是純粹的函數,不要改變對象;
知道如何辨別一段python腳本的優劣,怎麼優化瓶頸。

大多數這些點和性能關係密切。傳統的軟件開發者似乎認為,性能在多數已經不再重要了。但是,在機器學習中,性能依然重要!你可是要將你的算法在大數據集裏跑成千上萬次循環的!

Ben Hamner

檔案:Kaggle聯合創始人、CTO
Quora主頁:https://www.quora.com/profile/Ben-Hamner
受歡迎指數:3/5
活躍指數:2/5
專業指數:3/5
如果我沒有碩士學位,我可能找到一個機器學習的工作嗎?
當然了!我就是:)

我相信公司門真正在乎的是你之前的工作檔案。

如果你自覺,可以獨立學習,我鼓勵你花時間在真實的問題上,寫代碼,構建高質量的檔案,和領域裏的專業認識會麵(網上或者當麵),而不是花錢和時間在一個碩士學位上。

許多城市政府公布了他們的數據。在這之上構建有趣的分析和有用的應用會是一個學習,構建你的檔案,改變你的城市,在當地機器學習社區展露頭角的方式!這隻是個例子,我鼓勵你追尋任何能激起你的興趣鼓勵你的案例。

順便一提,還是有許多公司更關注學校和學位。對於這些公司,你可能需要找到一些正確的敲門磚(如果你在你的人際網絡找不到可替代的路子)。這些公司都對學曆有著不同的標準——你很難說一個碩士/博士學位能不能夠讓你達到標準。我希望這種情況在未來會有所改變。

Xavier Amatriain

檔案:醫療領域AI應用達人
Quora主頁:https://www.quora.com/profile/Xavier-Amatriain
受歡迎指數:3/5
活躍指數:3/5
專業指數:3/5
機器學習發展的趨勢是什麼(除了深度學習)?
深度學習已經是一個很廣的分類了,甚至包含了一些本身而言不“深”的方法。例如,對抗式方法即便在深度學習領域已經很流行,卻不一定和深度學習有直接聯係。當然,我會試著通過參考近來的會議,比如今年的ICML(International Conference on Machine Learning)來回答這個問題 ,然後指出那些熱門的,不一定和深度學習相關的研究領域。
強化學習
賭博機問題(這類方法可以被當作一類強化學習)
張量的方法
嵌入的方法
貝葉斯優化(貝葉斯優化和賭博機問題以及高斯過程都有聯係)
自機器學習(正如貝葉斯優化,可以用於參數優化)
矩陣補全
因果推斷
新的梯度優化方法和其他優化技術

我還是要強調一下,這些方法或多或少和深度學習有聯係(比如,貝葉斯優化可以用來優化深度神經網絡的參數)。然而它們也都是可以用於其他地方的獨立模塊。

William Chen

檔案:Quora數據科學家
Quora主頁:https://www.quora.com/profile/William-Chen-6
受歡迎指數:5星(56.5k)
活躍指數:3星(總回答976,最近3個月2)
專業指數:3星
如果我想學數據科學,我應該看哪些統計類的書籍?
有很多很棒的統計學書籍,但是如果你在找那些對數據科學而言很棒的統計書,我推薦那些也介紹了一些編程的書。這裏有兩本免費的也很棒的書:
《Think Stats》, 作者 Allen Downey (https://greenteapress.com/thinkstats2/thinkstats2.pdf)。
這本書帶你從最基本的統計學開始學習,包括假設檢驗,以及相應的python代碼。
《An Introduction to Statistical Learning 》(https://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf)。
這本書帶你學習統計學習裏不同的模型,包括回歸,分類等。以及基於R語言的應用。《Think Stats》是一本很棒的基礎書籍,《Introducion to Statistical Learning》則是很好的介紹統計模型機器學習的書。如果你對相同作者更多的書感興趣, Allen Downey還寫了《Think Bayes》,你也可以看看《Elements of Statistical Learning》

Yoshua Bengio

檔案:“深度學習三巨頭”之一,蒙特利爾大學計算機學院教授
Quora主頁:https://www.quora.com/profile/Yoshua-Bengio
受歡迎指數:3/5
活躍指數:3/5
專業指數:5/5
生成式對抗性網絡(Generative Adversarial Networks,GAN)相比變分自編碼網絡(Variational Autoencoders,VAE)有什麼優缺點?
VAE的優點:有清晰公認的方法來評價模型的質量(對數似然函數,由重要性采樣或者似然度函數下界獲得)。現在除了可視化數據,現在我們依然沒有辦法來比較兩個GAN或者比較一個GAN和其他生成式模型

VAE的缺點:由於注入的噪聲以及非完美重建,用標準的解碼器(因子化輸出分布),生成的樣本比GAN生成的模煳得多。

GAN通常比VAE更難訓練,更不用說還沒有一個明確的目標函數,但是它們會產出更棒的圖片。

Ian Goodfellow

檔案:GAN之父,穀歌大腦研究員
Quora主頁:https://www.quora.com/profile/Ian-Goodfellow
受歡迎指數:2/5
活躍指數:4/5
專業指數:4.5/5
對抗性機器學習中有哪些令人激動的新領域?
如何對抗幹擾樣本是非常熱門的話題。如果你想在這方麵做一些工作,去看看這個在Kaggle上的競賽吧:NIPS 2017: Targeted Adversarial Attack(https://www.kaggle.com/c/nips-2017-targeted-adversarial-attack/rules)

Aleksander Madry等發現了在幹擾樣本下有著隨機初始點迭代對抗式訓練方法,在MNIST和CIFAR數據集下都有很不錯的表現。

一個很流行的學習是如何使幹擾樣本在不同的模型中更易於轉換(https://arxiv.org/pdf/1611.02770.pdf),以及如何用他們愚弄一個現實世界裏的模型(https://arxiv.org/abs/1607.02533),從一個相機不同距離和角度來看一個幹擾樣本(https://blog.openai.com/robust-adversarial-inputs/)。

許多人對如何在文本中使用GAN很感興趣。速記式加密(steganography)裏的對抗性方法也引起了一些關注,半監督學習裏的對抗式方法(https://arxiv.org/abs/1605.07725)。

原文發布時間為:2017-09-06
編譯:張禮俊 錢天培
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘”微信公眾號

最後更新:2017-09-07 12:32:41

  上一篇:go  linux shell 基礎
  下一篇:go  兩個INSERT發生死鎖原因剖析