【Science】破解密碼“AlphaGo”誕生,訓練Gan破解27%LinkedIn測試集密碼
本文講的是破解密碼“AlphaGo”誕生,訓練Gan破解27%LinkedIn測試集密碼,一項新的研究旨在使用生成對抗網絡(GAN) 來加快密碼破解的速度。斯蒂文斯理工學院的研究人員用類似“AlphaGo”的方法,利用超過 4300 萬的LinkedIn 個人資料來訓練模型,輔助 hashCat 這一目前最強大的密碼猜測程序,破解了 LinkedIn 密碼測試組中 27% 的密碼。研究者確信,盡管在這次演示中,是PassGAN 在輔助hashCat ,但經過迭代的PassGan會超過HashCat。HashCat 使用了固定的規則,無法自己生成超過6.5 億個密碼。而自行產生規則的PassGan可以創建無限的密碼。PassGAN 將在神經網絡中增加更多層,並利用更多泄露的密碼進行訓練。“AlphaGo生成了一些專家從未見過的新策略,” 論文的合著者、斯蒂文斯理工學院的計算機科學家Giuseppe Ateniese 說,“我認為,如果你給PassGAN足夠的數據,它就能提出人類無法理解的密碼生成規則。”
此前 GAN 多用於圖像任務,應用於文本還很少見
上周,信用報告機構 Equifax 宣布,有黑客惡意泄漏了其係統中1.43 億人的個人信息。這很讓人擔心,如果黑客想要通過簡單地猜測你的密碼來訪問你的在線數據,那麼可能一個小時內就能搞定。現在更多的壞消息來了:研究人員創建了一個 GAN,結合現有工具,利用超過 4300 萬的LinkedIn 個人資料來訓練模型,猜對了其中四分之一的密碼。
John Ripper 和 hashCat 是目前最強大的密碼猜測程序,它們使用了幾種技術。一種是暴力解碼,隨機嚐試各種字符的組合,直到得到正確的那個。而其他方法則需要此前存在泄露的密碼信息,然後通過概率方法,基於以前的密碼來推測出現在密碼中的每個字符。在一些網站上,這些程序能猜對90%以上的密碼。但它們需要多年的人工編碼來構建攻擊計劃。
新的研究旨在通過應用深度學習技術來加快這一進程。斯蒂文斯理工學院的研究人員構建了一個生成對抗網絡(GAN),由生成器和鑒別器這兩個人工神經網絡組成。此前對於 GAN 的應用多集中於圖像識別。生成器產生模仿實例(實際照片)的人工輸出(如圖像),而“鑒別器”努力剔除模仿者,檢測出真實的照片。它們彼此完善,直到生成器和鑒別器都變得更好。
“GAN 已經被用於製作逼真的圖像,但在文本上的應用還不多。”論文的合著者、斯蒂文斯理工學院的計算機科學家Giuseppe Ateniese 表示。從這一角度上說,將 GAN 應用於密碼生成也是一項突破。
PassGan和hashCat結合,能夠破解LinkedIn 密碼組中27%的密碼
斯蒂文斯研究團隊創建了一個名為PassGAN 的GAN,並將其與hashCat 的兩個版本和John Ripper 的一個版本進行了比較。科學家們為每個工具投喂了一個稱作 RockYou 的遊戲網站上泄露的上千萬條密碼,並要求它們自己生成數億個新密碼。然後,他們計算了這些新密碼中有多少與LinkedIn 中一組泄露的密碼相匹配,以衡量它們的破解成功率。
PassGAN 自行生成了LinkedIn 密碼組中12%的密碼,而其三個競爭對手的成績則是6%至23%。但是最好的性能來自於PassGAN 和hashCat 的組合。它們結合在一起,能夠破解LinkedIn 密碼組中27%的密碼。本月在arXiv 上發布的一份研究報告甚至指出, PassGan 生成的“失敗”密碼看上去都很真實,比如saddracula,santazone,coolarse18。
Gan 生成的唯一密碼的數量,以及匹配 RockYou 測試集中密碼的數量
“使用GAN來幫助猜測密碼是一項新研究,”紐約大學研究這項技術的計算機科學家Martin Arjovsky表示,他這篇論文“證實了簡單的機器學習解決方案能夠帶來關鍵的優勢,但也存在著一些明顯的問題。”
使用PassGan、HashCat 和 JTR生成密碼的唯一性和創新性比較
紐約市 Cornell Tech 研究計算機安全的計算機科學家Thomas Ristenpart (他並未參與此項研究)說:“我不確定,是否有必要用GAN這樣的‘重武器’來實現這樣的效果。也許更簡單的機器學習技術也可以幫助HashCat(Arjovsky同意)。他還表示,這項工作可以幫助用戶和企業衡量密碼的安全性。“這種新技術也可能用於生成假密碼,以幫助檢測違規行為。”
技術解讀:PassGan 的輸出質量相當於或超越密碼生成規則
使用 PassGan、HashCat 和 JTR 在 RockYou 測試集上生成的密碼數量比較
在PassGAN 中,研究人員探索了不同的神經網絡配置、參數和訓練流程,以確定學習和過度擬合之間的適當平衡。具體來說,研究者的貢獻如下:(1)顯示GAN 可以生成高質量的密碼猜測。在實驗中,對於RockYou 數據集來說,研究者能夠匹配真實用戶密碼組成的測試集5,919,936個密碼中的2,774,269個(46.86%),而匹配LinkedIn數據集43,454,871個密碼中的4,996,980個(11.53%)。Pass-GAN生成的與測試集不符的絕大多數密碼仍然“看起來像”人為密碼;(2)研究展示出其技術與此前最先進的密碼生成規則可以一較高下。盡管這些規則是針對評估中使用的數據集進行了專門調整的,但PassGAN的輸出質量與密碼生成規則相當(在HashCat 中),或者比密碼生成規則更好(在John Ripper中);(3)研究結果還表明,PassGAN可用於補充密碼生成規則。在實驗中,研究者成功地使用了PassGAN 來生成匹配任何密碼規則都無法生成的密碼。當研究者將PassGAN 的輸出與HashCat 的輸出相結合時,與單純使用HashCat 相比,能夠匹配從18%到24%的額外唯一密碼(4)與密碼生成規則相反,PassGAN可以生成幾乎無限數量的密碼猜測。實驗表明,新的(唯一)密碼猜中的數量隨GAN 生成的密碼總數穩步增加。這很重要,因為目前使用規則生成的唯一密碼的數量會受到這些規則的密碼數據集大小的限製。
使用 PassGan、HashCat 和 JTR 在 LinkedIn 測試集上生成的密碼數量比較
PassGan模型使用了下列超參數:
BatchSize ,表示在優化器的每個步驟中在GAN 中傳播的訓練集中的密碼數。
•迭代次數,表示GAN 調用其 forward step 及其反向傳播步驟的次數。在每次迭代中,GAN運行一次生成器迭代和一次或多次鑒別器迭代。
每次生成器迭代時鑒別器的迭代次數,表示生成器在每個GAN 迭代中執行的迭代次數。
•模型維數,表示每個卷積層的維數(權重)。
•Gradientpenalty coefficient(λ),其規定了針對其輸入,對鑒別器梯度範數(the norm of thegradient of the discriminator)施加的 penalty。增加這個參數可以使得GAN訓練的更穩定。
•輸出序列長度,表示生成器生成的字符串的最大長度。
•輸入噪聲向量(seed)的大小,用於確定為了生成樣本而將多少個隨機 bits 作為輸入饋送到G。
•樣本的最大數量,表示要加載的訓練項目的最大數量(在PassGAN 中,指密碼數量)。
•Adam優化器的超參數:
o學習率,即調整模型權重的頻率
o係數β1,規定了梯度的運行平均值的衰減率。
o係數β2,表示梯度的平方的運行平均值的衰減率。
類似於密碼破解任務中的“AlphaGo”,能夠提出人類無法理解的規則
事實上,CMU 構建的高效神經網絡此前已經引發了關注(關於這項研究我們稍後會介紹),而 Ateniese 準備在提交論文進行同行評議之前,先把它和 PassGAN 進行比較。
Ateniese 說,盡管在這次演示中,是PassGAN 在輔助hashCat ,但他“確信” 經過迭代的PassGan會超過HashCat。部分原因在於,HashCat使用了固定的規則,無法自己生成超過6.5 億個密碼。
而自行產生規則的PassGan可以創建無限的密碼。Ateniese 說:“此時它正在生成數百萬個密碼。”Ateniese 還表示,PassGAN 將在神經網絡中增加更多層,並利用更多泄露的密碼進行訓練。
他將PassGAN 與 DeepMind 的AlphaGo 進行了比較。“AlphaGo生成了一些專家從未見過的新策略,”Ateniese 說,“所以我個人認為,如果你給PassGAN足夠的數據,它就能提出人類無法理解的規則。”
CMU研究簡介:用人工神經網絡來模擬文本密碼對猜測攻擊的抵抗能力
現今最主要的驗證方式,即人為設定文本格式的密碼,麵對密碼猜測攻擊變得處境岌岌可危。然而,現有的通過建模對抗性密碼猜測來評估密碼強度的方法要麼不準確,要麼數量級太大且速度太慢,無法進行實時的客戶端密碼檢查。我們在此提出用人工神經網絡來模擬文本密碼對猜測攻擊的抵抗能力,並探索不同的架構和訓練方法對神經網絡猜測效果的影響。我們證明,神經網絡能夠比時興的密碼破解方法,如概率上下文無關文法和馬爾科夫模型等,更有效地猜測密碼。該神經網絡還可以被高度壓縮到隻有幾百KB而不影響猜測效果。基於這些結果,我們在 JavaScript 中設置了首個包含原則的密碼猜測客戶端模型,該模型分析了密碼對次秒級延時的任意時段猜測攻擊的抵抗能力。總之,我們得到的結果使得密碼檢查比以前更準確和實用。
原文發布時間為:2017-09-20
編輯:熊笑
本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號
原文鏈接
最後更新:2017-09-21 17:02:50
上一篇:
【AI係統首次實現真正自主編程】利用遺傳算法,完爆初級程序員
下一篇:
年會也能互聯網+ 易信企業版玩投票抽獎
ODPS JOB 長尾問題調優
struts.xml中提示content of element type "package" must match
中國製造2025新機遇 機器視覺行業爆發
短信ui--會話編輯界麵之彩信附件
finally 不會執行的情況
spring使用中報Cannot proxy target class because CGLIB2 is not available錯
查詢出某字段值不為空的記錄的SQL語句怎麼寫
因為有你,我不孤單
API Demos 2.3 學習筆記 (2)--創建第一個Android項目(Hello World!)
雅安,挺住!