閱讀672 返回首頁    go 阿裏雲 go 技術社區[雲棲]


最前沿:圖文結合詳解深度學習Memory & Attention

首發地址:https://yq.aliyun.com/articles/65356

本文由北郵@- 老師推薦,組織翻譯。

以下為譯文:

 13f3a6549dc4230c911e71bf3419780d760f523d

深度學習中的記憶和注意力前沿

 Stephen Merity

0529af532dd46b350bf54c5b81c29e11d7940015 

當你有好的數據集時候,深度學習在圖像和文字分類方麵可以給出高的精度,這是由於大數據可以很好的訓練自己的分類器,而且幾乎沒有用到經驗知識。

0cb015edb81a07a51c0d2d8f1d4f53bfb3b92640 

對於低年級學生而言,也可以很容易獲得好的分類器,圖中顯示的是給TrashCam創建的一個定製視覺分類器[Trash,Recycle,Compost],精度能夠達到90%

dff437e8f73684de911c6bf43bb303d20b22b8be 

圖中是顱內出血的檢測,該分類器是由MM大學的 Caiming Xiong,Kai Sheng Tai等人創建,能夠很好的識別顱內出血的情況

a0dac6fd2de045e1c12520602278840aa1df8f3c 

深度學習和ImageNet挑戰,在2012年的挑戰中,AlexNet網絡實現了16.4%的錯誤率,而最好的第二名網絡模型(non CNN)錯誤率為26.2%,領先第二名接近10%。

54b5496ebe32ac98462286311904aaaf85dea012

特別注意到,人的識別錯誤率為5.1%

0fd096079eeffe3849d66639d94793630b32cf19  

取得這麼好的原因很大一部分歸功於硬件的發展,從圖可以看出,AlexNet

a556056a85f7112e86e12fcc0757fc945388bb30 

但也不要將深度學習應用到任何地方,在深度學習中,結構工程師是未來新的工程師;這是機器學習,不是魔法。

5298105482c26ddd85df42cbd4f6c38374e91a0b

除了分類之外,可以進行圖片內容識別,常用的數據庫有VAQ

4839b7d147ee3bfd49c975e0f6b6d8e4f663b554 

比如識別口味,上傳一張照片,然後分析該飲料是哪種口味。如圖所示,分析出來的口味有五種,

9401bfa8c245544533647e645bc2155889963c19 

自動回答相關問題:圖片中有人嗎,回答是沒有;圖片是什麼時候拍攝,回答是白天;圖片中飲料類型,回答是smoothie等

b31b450eebf11789a8e73dbc4ff0aa9532e0232a 

自動識別:從圖中看出,Visual Gennome模型可以識別圖中的物體與活動並針對不同問題的回答,比如河流在哪裏,回答是在橋下;這座拱橋有幾個拱,回答是兩個等。

336da9daea7c8f18e166adc1b28d6a8e171b31d8 

Facebook的 bAbl 數據集是將幾種問題回答任務放在一起,該數據集中提取出來的片段如圖所示,可以根據句子回答相應的問題。

d396362c548c115379fa3d9715260f56f19646e0 

人類問答過程

想象下我給你一篇文章或一幅圖片,並要求你記住它,之後將其拿走並問你一些問題,及時你再聰明,你也將會獲得一個糟糕的分數。這是因為你不能在工作的記憶中存儲任何東西;沒有一個問題是針對你的關注點的,你關注在一些不重要的細節上是一種浪費

最佳情況:給你一個輸入數據,然後問你一個問題,你回答的時候允許盡可能多的掃視數據。

b770c67204c51a47a106ee257bf58cabe7952d7b 

考慮信息瓶頸

你的模型是在哪裏被強製使用壓縮表示?更重要的是,使用後效果是不是很好?

7b3dc581d7626dad531af6b16aff22f3f707f842 

神經網絡,壓縮,這些術語我們之前有沒有聽到過?

98a27a9c9660f7754e9728e5b3b590a6b9ef40af 

發誓沒有引出爭議或者是要求風險投資;數字資源的邊緣信息送入流水線服務中,中央數據存儲與神經網絡中的機器學習相互交換數據,後端提供相應的服務。

d4be13029d4a8eba7d613991bf77f2904ba04c29e2a7ea2a8c8fcde5875cb7d261bdf16ea8a39661 

圖中是一個真實的世界,沒有人正在做CNN壓縮。

93f27f6def430f109c39544ccba6e595a036e2de 

除了Magic Pony在做CNN壓縮外。MagicPony

acfdffac1b21085d464c07d712e72fae6809a2d2 

兩幅圖片來自視頻流,左右圖像是相同的比特率,而右圖比左圖稍微清晰些。

92288b31390924dfdcb5a6878de3e0886b238660 

現在是bird+Magic Pony,原因是Twitter收購了Magic Pony。這是鑒於Twitter在視頻直播方麵的巨大資金投入,以及處理這些視頻所需的海量儲存與計算設備投入

91e8f2fe564ae19b5db393e77d0085d972721876 

從壓縮的角度考慮神經網絡

e9c1800810b31bb8eb2ff15437df4f6b49e37cb3 

比如文本向量,將“dog”轉化為100維向量;

6d4e779629f74dea082568a5e77ce077f112601914a80586608e85675f6b4716d30776f714a913a8

8781c17d49eff172a0becf92b6da11860de8cf75


轉化為100

b6159eff762d5e0161b97532a7acfcbe36d92fa6 

Word2vec 把詞當做特征,那麼Word2vec就可以把特征映射到 K 維向量空間,可以為文本數據尋求更加深層次的特征表示文本向量通過word2vec模型,可以識別句子中含“dog”的位置。

c927d9212c4f0c39d993ddeed57b5f8007847490

  a723e0fa4c14a9473f1173d630bc17b91e870fe1

CBOW與skipgram是word2vec中的核心概率之一,兩個模型都是以Huffman樹作為基礎的。前者是給出句子,來猜測句子中空的內容;而skip-gram

888462e0c74235131015cc2510ba91d238c87c57

9e1cda45ba27523daa1bb37d0f0075df6dd7a19b 

文本N

38b32c35a480570722d53ec2d54bc9c46945a47a 

在這裏壓縮是有意義的(通用化)

英國和澳大利亞的顏色是用color表示,而美國則是使用colour表示;

069edbbd77607c0dd155a5b065b848a1ed7ee86f 

動詞、單複數等問題

6ac16b0d33606ea18dc55edc01f02ba3bf96ef25 

通過它周圍的單詞意思,你可以知道這個單詞,

fca7abd36f20e2c55f1b4c58979b789243351dd56d6424a8a129227e776353148754ece9154f9c25 

上麵兩幅圖均來自GloVe的示例圖片,GloVe與word2vec不同,但是基本概念相似,是一種無監督學習算法獲取向量表示的單詞

ead938826ae3c0e1b9ab7b54c4ecc9824ba0449a44548897a89a4b9ff042aba7267e9351dbf48de7

fdf795c1599848284d7320993334ed59514104273961f9c902a1e3a5d6a4c9693ec7193d599d9ef2 

循環神經網絡(RNN

RNNs

 25fd45c5e69680987f1069275c33710f8af559d4

RNN、

RNN

3af544a4a42e4b8df5b2368e282b50172c7ee2b8

如果你聽過GRU網絡或者LSTM,這兩種網絡較RNN而言設計得更加精密,但隻需要考慮RNN更新公式

25fd45c5e69680987f1069275c33710f8af559d4 

d6331f9945817d6abb4eba7bdb0afedcaf544db6

神經元機器翻譯通過聯合學習以便進行調整和翻譯。從圖中可以看到,隨著句子長度的增加,剛開始時候BLEU

b46d6026672059b00a13f51f0e69730eff9901b9 

神經元機器翻譯

Quora是一個問答SNS網站,由Facebook前雇員查理·切沃(Charlie Cheever)和亞當·安捷羅(Adam D' Angelo)於2009年6月創辦。該網站需要用戶使用真實名字注冊,而不是一個網名(賬戶名);並且遊客不願意登陸或使用小型文本文件的話必須繞路才能使用該網址。

def227382d2cc3c4a095e583f791cf5e44c36cd2 

2c727ae37397b284ed68e7c720dccc87312a9a71 

注意力與記憶

在每一時間步都會保存隱藏狀態(比如,讀了“I”、“think”、“...”);在之後查詢相關事情的時候,可以通過之前我們所關注的內容得到。當想到合適部分時,注意力允許我們概括感興趣的區域。

98a1e7010e8a4e187ccb163ab721f19fc6d16e97 

European Economic Area與zone economique europeenne意思等價 

5ec2df1a822730732a74b7e9fbd850f4c76c8e22 

針對動態記憶網絡的問答模型

1. 針對QA模塊化和彈性的深度學習框架;

2. 能夠處理寬範圍的任務以及輸入格式的能力;

3. 甚至能夠針對一般的自然語言處理任務使用(比如非問答、感情、翻譯等);

0fab8c6ff82ebfffaaa58dc073c1bec6dd430d42

相關的注意力/記憶工作

1. 序列到序列模型是由穀歌研究員Sutskever等人在2014年提出,該模型是將目標序列排列成源序列順序形式那樣;

2. 神經圖靈機模型是由Graves等人在2014年提出,該模型主要包含兩個基本組成部分:神經網絡控製器和記憶庫;

3  學習無限的轉換模型是由Grefenstette在2015年提出,該模型的性能優於深度RNN模型;

4. 結構記憶感知圖靈機模型是由WeiZhang在2015年提出,該模型提出了幾種不同結構的NTM內存,其中的兩種結構能夠導致更好的收斂;

5. 記憶網絡模型是由Weston等人在2015年提出,該模型能夠實現長期記憶,並且實現如何從長期記憶中讀取和寫入,此外還加入了推理功能;

6. 端到端的記憶網絡模型是由Sukhbaater等人在2015年提出,該模型讓記憶網絡端到端地進行訓練,不考慮任何中間過程。

5447c9787ab4b032e92103a2d1b00904f2783688 

針對動態記憶網絡的問答模型

1. 模塊化以及靈活的深度學習框架;

2. 有能力處理寬範圍的任務和輸入格式;

3. NLP

e17dabcfbb0f5ddc78392c757d16cb75e3f4993d

輸入模塊:該模塊根據輸入產生有序列表的事實,並且可以增加這些事實的數量或者維數,輸入融合層(雙向GRU)注入潛在信息並允許事實之間相互作用。

68d9149ea228ae493206e4797d92521562fa1026 

情景記憶模塊是由潛在多個通道的三部分組成,分別為注意力門的計算、注意力機製以及記憶更新;

a52736f13cebcf105131ce734f2f74d507b603c6 

軟注意力機製

給定注意力門限,現在想要從輸入事實中提取出上下文向量,如果門限值是通過softmax,上下文向量是輸入事實的權重總和;

問題:潛在的求和損失以及順序信息

65edc7412699e72cf1ca339de38c90a9c847a26a 

計算注意力門限

每個事實接受一個大小為[0,1]之間的注意力門限值,該值是通過分析[事實、疑問以及情景記憶]得到,通過在注意力值上使用softmax強製性執行稀疏。

10edb3dffe313d68c7f5546efba2d1dc68b4d5bf6b01d6b2eb60a7ba14ecd1abe1d1cdaa6c322a0d 

注意力GRU

GRU

fd35d1ea43a6fcab1fb3f80c026fd4dd70c762fe 

結果

關注三個實驗,分別為文本、視覺以及注意力可視化;

3d41adfc6b32c263eb618a0eff5662c2ac38fa57 

動態記憶網絡概覽

該框架由Semantic memory模塊、Input模塊、Episode memory模塊、以及Answer模塊和question模塊組成,首先從Input模塊接受未加工的輸入,之後生成問題的表示,再將問題以及顯性基礎知識一起傳送給Episode memory模塊,該模塊會推理得到一個回答。

36f5a9d234d2a2fd65762865201f43a023fe9c95 

在上下文問答中的準確率(bAbI 10k數據集),可以從表格中看到,DMN+模型的平均錯誤率為2.8%,遠小於E2E模型的4.2%;任務失敗(錯誤率大於5%)次數為1,而E2E模型的次數為3。

c5de4d8b50d39df6e2e62bea93ab65b00ce92a8f 

視覺問題回答的精確度

如圖所示,可以根據圖片中的內容回答相關問題,比如圖中公交車的主要顏色,回答是藍色等。

61eb675ae4db97fe655aeaf296ace965dc4a8cd5 

c66d056f1861cb1d9a5deb03cc8032ba19646095 

當知道被問的問題時,我們能夠提取的隻是相關信息,這意味著我們不計算或存儲不必要的信息,更加有效並能幫助我們避免信息瓶頸。

a8ec3791143e2e105d8a23f9b8f24445cfc39dfb

指針網絡

如果你是在外國並且你正在點餐,你可以在菜單上看見你想要的,但是你不會發音,這種情況下指針網絡能夠幫助你解決詞匯問題。(大多數的模型僅限於預先建好的詞匯表)

e59dbdf94056c11bdde2ec59e433925de81d45a6 

挑戰:我們沒有詞匯去指向指針,需要重現準確的指針。

740413165440c1d71447bd95c5b533d3f959e8b2 

a藍色部分是RNN處理輸入序列,{(x1,y1), (x2,y2),(x3,y3),(x4,y4)},右麵紫色是輸出序列,表示解的序列順序{1,4,2,1}(b)

7a6cedf1bf58a0542f730151440f040e9979de4e 

從圖中可以看到,Ptr-net比LSTM的預測巡回線長。

c5ec306609ea20883b117f16532430d80b8a024b 

首先Embedding;之後對其編碼得到文本表示;word vectoranswer

4e04d6e4b64bc778a2a42b9b76bb2246aab13a7b 

指針網絡避免存儲冗餘的數據,這是很重要的,因為在許多任務中,名字是一個占位符,文檔占位相當的長。

 

edbc627ccc846d45c3308ec6e75caf4218c79806469030e045343cc177fd5e8134db1605acf8dca6 

決定是否使用RNN或者指針網絡,這是取決於指針“存儲”包含的內容。

cd9718d586b75cbba1afd49620ff16426eac109a 

Pointer Sentinel-LSTM模型在語言建模上最先進的結果

afab05563943e5ce1994e9ae41246781dc9dbb2dd2332e35bfee44baffb1ebeca9deb2cf8abe819a89bf607805d22f0f13fe92e20f1f0d6b80e1a0f9

Hierarchical Attentive Memory模型是基於二叉樹與記憶細胞。該模型的複雜度為O(log n),學會排序n個數字所需要的時間為O(nlogn)

7736bb8b0956da2f4251e7a0ae4bf168c27b41a9 

深度學習發展非常迅速,如果你停止不前或者左顧右盼的話,你可能會錯過它;

b083ccef815700392a517fb91d837e20d370f31d 

對於深度學習感興趣的話,我強烈推薦Kears模型,該模型是一個極度簡化、高度模塊化的神經網絡第三方庫。基於python+Theano

d9150a0e9a6bd3246c7be5a057393452f2585153 

總結

1. 意力以及記憶能夠避免信息瓶頸;

2. 在

3. 

 

The Frontiers of Memory and Attention in Deep Learning

文章為簡譯,更為詳細的內容,請查看原文

                                                                                                                                                               

最後更新:2017-07-12 22:07:47

  上一篇:go  自動預測保險理賠:用具體案例講解機器學習之特征預處理
  下一篇:go  間諜衛星的基礎?YOLT——利用卷積神經網絡對衛星影像進行多尺度目標檢測(Part I)