閱讀573 返回首頁    go 阿裏雲 go 技術社區[雲棲]


【NIPS挑戰賽優勝解】用機器學習判斷基因變異所屬類別

在剛剛結束的 NIPS Challenge on Predicting the Genetic Variants to Enable Precision Medicine (organized by MSKCC)中,康奈爾大學威爾醫學院助理教授王飛所帶領的實驗室在1300多個參賽隊伍中脫穎而出,獲得前三的成績。王飛教授特為新智元撰寫此文,介紹研究成果。

2017年11月8日,國家會議中心,王飛教授將在AI WORLD 2017世界人工智能大會AI Industry論壇進行以《人工智能與智慧醫療》為題的主題演講。

一年一度的神經信息處理大會(NIPS)將於今年12月在加州長灘召開。由於近些年來機器學習以及人工智能的興起,NIPS更是成為了一年一度相關方向學者不容錯過的盛會。今年的NIPS更是門票早早便已售罄,連讚助商的席位也都已經soldout。

NIPS Competition是今年新增的環節,旨在吸引眾多的機器學習愛好者來用他們所知道的方法來解決實際問題。由於我本人從事醫療健康方麵的研究,就鼓勵我實驗室的人員參加其中的基因變異分類(Classifying Clinically Actionable Genetic Mutations)挑戰。經過調研,大家也都感興趣,所以一拍即合,一做就是四個月。

該挑戰是由著名的Memorial Sloan Kattering Cancer Center (MSKCC)組織。眾所周知在強調精準醫療的今天,理解不同的基因變異是一個核心問題。這個挑戰就是根據基因的名字以及其出現的變異來預測該基因變異所屬的類別,在競賽中一共有9類,但並沒有對這9類有明確的描述。也就是說,我們隻有類別代號,沒有類別信息。除此之外,對於每一個基因和對應的變異,還有一篇相應的學術文章,正是該學術文章提到了這個特定的基因變異對。

因此這個挑戰實際上是一個9個類別的多分類問題,可以用到的信息有基因名字,變異描述以及提到的文章。在實際當中,對基因變異的分類由分子病理(MolecularPathologist)學家完成,這通常需要長時間的專業訓練。即便如此,他們也經常會有不同的意見,從而有分類不一致的現象,因此這是一個非常困難的問題。挑戰的組織者將競賽設成兩個階段,第一階段有大約三個月,而第二階段隻有一周。第一階段與第二階段的測試數據完全不一致。競賽的組織者為了獲得第二階段的數據,重新組織了專家進行標注,而且這些專家與第一階段的略有不同。並且第二階段有新的變異出現,這些變異從未在第一階段的數據中出現過。這是一個費時費力的過程,兩個月之內隻能得到150個新的標注。

顯然該挑戰涉及自然語言處理和機器學習,但又有些獨特的挑戰。比如競賽數據中包含的文章通常都很長,是整片的學術文章,而其中隻有很小一部分提到基因和變異。這就使得訓練數據中有大量的噪聲。不僅如此,基因和變異還有有別名,我們試圖在文章中匹配基因和變異時經常匹配不上。還有就是一篇文章中經常會多次提到不同的基因和不同的變異,這給預測帶來了更多的難度。

為了解決這一問題,我們提出了如下圖所示的框架。輸入包括基因以及變異本身的名字以及相應的文章。我們從中提取三個級別的特征,第一是它們的名字本身,第二是提到它們的整篇文章,第三是從整篇文章中提取的包含提到基因和變異的句子。這些特征中既包括了相對直接的特征,例如文本長度以及某些關鍵詞的詞頻,又包括間接特征,例如通過LatentDirichlet Allocation (LDA)以及非負矩陣分解(NMF)降維得到的特征,以及通過詞嵌入(word2vec)和文本嵌入(Doc2Vec)得到的特征。我們花費了非常大的功夫在特征工程上,測試了各種深度學習和非深度學習的方法,最終確定了20類特征(如表格中所示)。隨後這些特征通過不同的組合輸入到分類器當中,我們也測試了很多種分類器,最終根據效果選定了GradientBoosting Decision Tree (GDBT)。不同分類器的預測結果又被集成(Ensemble)起來,從而得到最終的預測。在特征工程的過程中,為了解決別名的問題,我們還利用了額外的數據,包括PubMed上相關文章的題目和摘要,以及一些額外的基因和變異的名稱庫。我們後麵會寫一篇學術文章詳細介紹各個環節。

189741f2daddb86d1f4d68733071589e5f7ce95b

該競賽吸引了全球超過1300個隊伍參賽,最終我們的方法被選為最頂尖的解決方案之一,並獲邀在NIPS的Competition Workshop上進行報告。我們會通過這個競賽建立與MSKCC的合作,從而繼續完善我們的方法並希望能最終應用在臨床醫學當中,為醫學研究作出貢獻。

8acc65f5cad56cff094e8effb04ded2be4aa653f


AI World 2017 世界人工智能大會(11月8日,北京國家會議中心)上,我們邀請到了本文作者、康奈爾大學威爾醫學院助理教授王飛,為我們現場解讀人工智能技術在醫療應用中的常見誤區及挑戰,並展望發展趨勢。

3eaccd3d11760ccb8e2861392163a67692d51031

王飛,博士,康奈爾大學威爾醫學院助理教授,IBM沃森研究中心顧問,法國液空集團研究顧問。曾任職於康涅狄格大學以及IBM沃森研究中心。他於2008年在清華大學自動化係獲得博士學位,其博士學位論文“圖上的半監督學習算法研究”獲得了2011年全國優秀博士論文獎。主要研究方向包括數據挖掘,機器學習技術在醫療信息學中的應用。王飛博士已經在相關方向的頂級國際會議和雜誌上發表了近190篇學術論文,引用超過5000次,H指數39。


原文發布時間為:2017-11-3

本文作者:鄧侃

本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號

原文鏈接:【NIPS挑戰賽優勝解】用機器學習判斷基因變異所屬類別

最後更新:2017-11-06 09:33:56

  上一篇:go  CMU計算機學院院長、穀歌工程VP:未來五年看好AI理解情緒和情感
  下一篇:go  Data Migration Pre-Check Failures and Solutions