深到骨子裏的自律,是每周堅持刷幾篇最新論文 | PaperDaily #10
[ 自然語言處理 ]
Don't Decay the Learning Rate, Increase the Batch Size
@RamonYeung 推薦
埋下伏筆:來自 Google Brain 的論文。
文章主要講明白四點:
1, 主動降低學習率(Decaying the Learning Rate)是模擬退火,因為降低學習率導致 SGD 訓練時,隨機波動的幅度也減少了;
2,我們提出一個替代方案:不降低學習率,在訓練時提高 batch_size。在訓練相同 #epochs 下,這種策略在測試集上達到了幾乎相同的模型性能,但是顯著減少了參數更新的次數。我們的方案不需要通常的訓練做法(Fine-tuning)。當需要將學習率降低為原來的 1/α 時,我們將 batch_size 改為原來的 α 倍。
3, 參數更新次數可以進一步縮短:
- 提高學習率 ϵ,同時按 B∝ϵ 的方式提高 batch_size;
- 提高動量係數(Momentum Coefficient)m, 同時按 B∝1/(1−m) 的方式提高 batch_size。
4, 結合這些策略,我們在 ImageNet 上對 Inception-ResNet-V2 進行 2500 次參數更新,達到 77% 的驗證集精度。為了實現這一點, 訓練時 batch_size=65536。相比之下,Goyal 等人(2017)需要 14000 個參數更新, 使用 ResNet-50 達到 76% 的驗證精度,batch_size=8192。
前提是:你有錢買更多的 GPUs 裝入更大的 batch_size。
論文鏈接
https://www.paperweekly.site/papers/1071
Memory-augmented Neural Machine Translation
@yuer3677 推薦
該篇文章將傳統 SMT 的詞對應關係以 Memory 的形式組合到 NMT 上,結合了兩者的優勢。一方麵增加了 rare word 的出現概率,提升了翻譯 performance;另一方麵提供了一種解決 unknown words 的思路。該方法尤其在小數據集上效果明顯。
論文鏈接
https://www.paperweekly.site/papers/1037
Sequence-to-Dependency Neural Machine Translation
@jerryshi 推薦
1, 文章有什麼貢獻? 提出了一種新的 Sequence-to-Dependency Neural Machine Translation (SD-NMT) 的方法,來將目標語言句法知識利用進了 NMT 係統,相比起沒有使用句法知識的基準 NMT 係統,性能得到了相對的提高。
2, 研究的問題有何價值?目前的 NMT 係統主要是直接用線性 RNN 來進行 Seq2Seq,但是這樣的係統對於捕捉不明顯的長距離詞的依存還是有很大難度的。因此在解碼的時候,將句法知識考慮進解碼器中後,可以提高翻譯結果語法的正確性,並且也可以利用局部依存信息來生成之後的詞語。
3, 研究問題有什麼挑戰?一,如何利用 RNN 來構建句法結構;二,如何在一個神經網絡中,有效地同時進行詞語生成,還有句法結構的構建;三,如何有效地利用目標語言的句法背景,來幫助詞語的生成。
4. 本文的解決思路?
利用了兩個 RNN 網絡,Action RNN 和 Word RNN,分別進行詞語生成和句法結構的構建。Action RNN 利用了 transition-based dependency parsing(基於轉換的依存句法分析)中的 arc-standard shift-reduce algorithm 算法,來生成構建所需依存結構的動作。而同時因為兩個 RNN 生成的的序列長度不一致,所以 Word RNN 利用了些技巧,使得它能夠參考 Action RNN 的結果輸出詞語,或者保持不變以和 Action RNN 的時序保持一致。
通過定義生成依存結構時的棧頂部兩個詞語,最左和最右修飾語的一元和二元語言特征,生成相對當前詞匯的局部依存背景。之後將這個背景與 Word RNN 的輸出結合起來,幫組生成新的詞匯。
論文鏈接
https://www.paperweekly.site/papers/994
[ 計算機視覺 ]
Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification
@LUOHAO 推薦
- 文章提出了一種新的度量學習方法 Margin sample mining loss - MSML。Triplet loss 是一種非常常用的度量學習方法,Quadruplet loss 和 Triplet hard batch loss(TriHard loss)是它的兩個改進版本,而 MSML 是吸收了 Quadruplet loss 和 TriHard loss 兩個優點的綜合體,實驗證明 MSML 能夠在 person ReID 的公開數據集上取得很好的結果;
- 這個方法不止可以應用於 person ReID,而是一種通用的度量學習方法,進一步可以延伸到圖像檢索等相關的各個領域。
論文鏈接
https://www.paperweekly.site/papers/1069
Fader Networks: Manipulating Images by Sliding Attributes
@Gapeng 推薦
跟其他 GAN 方法不同,Fader nets 通過在隱層編碼引入對抗來實現屬性相關編碼和屬性無關編碼的分離。D 嚐試從 Encoder 的編碼中預測出屬性,而 Encoder 則盡量學習不帶屬性的編碼,以使 D 的預測失效。Decoder 接收 Encoder 的編碼以及額外的屬性作為輸入,以重構/修改圖像。文章的效果非常好,目前複現存在難度,過段時間作者會開源代碼。
論文鏈接
https://www.paperweekly.site/papers/1009
Scale-adaptive Convolutions for Scene Parsing
@lisabug 推薦
ICCV'17 Poster。 簡而言之,文章提出了一個 scale-adaptive 的 dilation conv層。
1. 與 fixed coefficient 的 dilation conv 相比,本文提出的 scale-adaptive conv 層通過前一層的 feature 對於每一個位置預測一個 variant coefficient。對於大物體,我們應該需要更大的感受野,因此得到一個大的係數;對於小物體,我們應該關注細節而忽略背景,則縮小感受野更加強調細節的 feature。可以參考文章圖 3 理解;
2. dilation 係數非整數時,使用常見的 STN 中的 bilinear interpolation 做到可以 e2e 的學習;
3. 合理的初始化係數回歸層的參數,並在訓練時進行對其 clip,使得 dilation 係數位於一個合理的範圍內;
4. 文章提到在高層使用效果較好;
5. 即插即用,較小的額外參數和計算開銷。相比 baseline 不加多尺度訓練的情況下可以在 cityscape 上漲 2 個多點。
論文鏈接
https://www.paperweekly.site/papers/1056
[ 機器學習 ]
Paraphrase Generation with Deep Reinforcement Learning
@paperweekly 推薦
用增強學習來解決端到端 paraphrase 生成問題,取得了不錯的效果。
論文鏈接
https://www.paperweekly.site/papers/1048
A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs
@AkiyamaYukari 推薦
一種新的概率生成模型(probabilistic generative model )被提出了,而且在一定任務上表現超過了現有的神經網絡。
論文鏈接
https://www.paperweekly.site/papers/1005
Reparameterizing the Birkhoff Polytope for Variational Permutation Inference
@tmasada 推薦
This paper proposes new probability distributions on permutations. The variational inference is performed by using reparameterization trick.
論文鏈接
https://www.paperweekly.site/papers/1007
原文發布時間為:2017-11-6
本文作者:讓你更懂AI的
本文來自雲棲社區合作夥伴“PaperWeekly”,了解相關信息可以關注“PaperWeekly”微信公眾號
最後更新:2017-11-06 14:05:10