業內人的“針砭時弊”:AI醫療界的3大亂象以及如何評價醫學人工智能的成果?
雷鋒網(公眾號:雷鋒網)注:本文作者代號HHH,目前為一家人工智能醫療創業公司的CEO,有10多年矽穀的高科技公司的工作經曆(Google, Cisco等),斯坦福商學院Sloan Fellow。
With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.
今年6月底的《新英格蘭》刊出了一篇觀點文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《機器學習和醫學預測--遠超過高期望的峰值》,文章的批判方法算是很給深度學習這個新工具留麵子了。
這裏插播一句,我最近接觸了一些自稱主要關注醫療方向的投資人和創業者,發現有些人居然不知道這個地球上影響因子排名前幾的臨床醫學期刊。《科學》雜誌主刊2016年影響因子37.205分,《自然》主刊是40.137,而《新英格蘭》是72.406分。當然,有可能這些人也不知道什麼叫影響因子。
這篇文章借用了Gartner的技術成熟度曲線Hype Cycle,講述現在對於醫療界來說深度學習處於過高期望的峰值(Peak of Inflated Expectations)時期,希望我們正確的理解這項技術的能力和局限性,繼而進入幻想破滅的底穀期 (Trough of Disillusionment),而不是徹底性的崩潰,然後才有然後:穩步爬升的光明期 (Slope of Enlightenment)和實質生產的高峰期 (Plateau of Productivity)。
文章用嚴謹和隱晦的語言,指出了現在醫學人工智能界做的一些不靠譜、不合醫學邏輯和沒有臨床價值的事情。回觀國內市場,這些不靠譜、不合醫學邏輯和沒有臨床價值的事情反而愈演愈烈,耗費了大量的資本和醫療資源,可謂幾大亂象。
一、樂此不疲的人機大賽
醫學是講證據的學科,如何證明一項臨床成果的先進性,實用性和穩定性,是個學問。
也許是阿爾法狗給大家帶了個頭兒,覺得用人工智能PK人類隻要是平了或者贏了就是證據,於是大江南北人機大賽屢見不鮮:《人工智能PK最強醫腦係列大賽》、《首屆人機讀片競技大賽召開》、《AI-醫師讀片競賽》、《XXX達到/超過人類醫生的水平》等等,伴隨著這些大賽的,往往是一係列的發布會。一共就十幾個甚至幾個醫生參與,一共就幾百張甚至幾十張醫學影像,最後的百分數結果保留至少四位有效數字,能夠證明毛線?且不說是否有為了發布會安排結果的嫌疑,單就醫生的水平、狀態,數據隨機性和廣泛性都是論證過程中不堪一擊的節點,不能細想不可追問。
二、樂於做不可證偽的預測
醫學是講證據的學科,可是總有一些問題是沒有辦法證明對錯的。
最典型的就是做個體診斷的預測。預測,根據特征人群的患病概率來指導篩查是有價值的,但是對於個體診斷進行的預測是無法證偽也是不科學的。比如,預測特定的個體將有80%的概率患肺癌,和預測30%有本質區別嗎?得肺癌可以說明前者更準嗎,不得肺癌可以說明後者更準嗎,沒得肺癌可以證明明年不得嗎?深度學習這個工具有一個所謂必殺技:有問必答。別問它怎麼得出來的,它聲稱是有“像人腦一樣的一套神經元思考”出來的。作為一個擬合函數,深度學習一定是有輸入就有輸出的,但是對於輸出的結果,如果沒有金標準檢驗,就方便做文章收智商稅。《新英格蘭》的文章中還提及另一種不可證偽,叫做本身就是一句廢話,也就是淺顯的道理。比如用人工智能來判斷一個高齡且有各種病史的患者有極高的手術風險。臨床需求是看哪種診斷或治療方案更有用,而不是看誰說得廢話更多。
三、脫離臨床指南,幻想被樹上掉下來的蘋果砸到
醫學是講證據的學科,可靠的證據形成了臨床指南,可靠的證據在推動臨床指南的發展。
也許現在計算機的進步讓更多的數據可以被利用起來來進行綜合判斷,但是在這些判斷標準進入臨床指南之前,都是科研探索的性質。《新英格蘭》的觀點文章中明確的提到了這種行為,這種沒有已經探明的醫學邏輯支撐,通過堆砌更多維度的數據妄想有所發現的行為,最終會陷於蝴蝶效應帶來的困境之中。我國80年代曾有過大批群眾激昂熱情去攻克”哥德巴赫猜想“,當時的數學家看待這些群眾的努力,也許就像現在醫學研究領域的科學家在看大數據工程師們。聽說全國有幾百家做基因檢測服務的公司,他們中的很多給投資人講得故事就是拚命收集數據,數據堆得多了,深度學習自然就會發現規律。“讀書百遍,其義自見”嗎?科研工作,還是留給那些受過科學訓練的人們吧。
如何具體評價醫學人工智能的成果
上述《新英格蘭》觀點論文的結束語是,是否人工智能和人類醫生誰更聰明的爭論在持續升溫,但是沒有意義。如何讓人工智能和人類醫生來一起實現任何單一方都無法提供的臨床效果,才是關鍵。
一、尊重臨床指南
做臨床,不是發明創造,是很具體的實際操作,臨床指南就是聖經。做人工智能產品就是要在臨床指南的範圍才有意義,說得庸俗點,才會有商業意義。因為這些產品將優化臨床醫療的具體的步驟和環節,無論是降低漏診,還是幫助醫生更快速更準確的作出診斷,都是有價值且有價格的事情。如果非要去證明”哥德巴赫猜想“,很大的目標價值和超小概率的乘積,恐怕也是趨近於零。
在臨床指南之內,其實有很多可以實現且值得去做的人工智能項目。以醫學圖像AI為例,因為醫生的肉眼和經驗畢竟是有局限性的,所以突破這些局限性,就是臨床價值的落點。計算機視覺三大領域: 分類(Classification)、檢測(Detection)和分割(Segamentation),不同的臨床問題下分別都會有用武之地,同時具體的臨床需求也會需要用不同的計算機視覺方法。例如,糖尿病視網膜病變的自動識別:按照國際分級,如果確診為重度非增生性病變,需要醫生能夠從大約4000*4000分辨率的眼底照片每個象限中至少能數出20個出血點,還有靜脈串珠等其他病灶。這些病灶小到隻有幾十個像素,那麼幫助醫生快速的鎖定和計數這些微小的目標,檢測(Detection)就是最合適的手段,而做分類(Classification)隻能夠起到核對診斷結果的作用,不能夠有效輔助醫生做出診斷;而此處做分割(Segamentation)有顯得沒有太大的必要性。
懂行的讀者可能會想起去年Google在美國醫學會期刊JAMA(影響因子44.405)上發表的學術成果,對糖尿病視網膜病變的分級就是用的對整張圖片的分類Classification,而並非對病灶的檢測Detection,沒錯,結果很好。但是試想一下,當臨床指南發生些許變化,比如改為要數出30個出血點時,Google這項成果的所有工作,包括前期十幾萬張眼底圖片的標注,都要完全重來一遍。
二、使用醫學的評價體係
使用醫學而不是計算機工程的評價體係來衡量人工智能係統是否靠譜。在此需要介紹幾個概念:
Sensitivity (敏感度):描述了係統正確的判斷陽性的能力,計算方法為,係統正確判斷為陽性數量除以所有陽性數量。敏感度越高,說明係統的漏診率越低。
Specificity(特異度):描述裏係統正確的判斷陰性的能力,計算方法為,係統正確判斷為陰性的數量除以所有陰性數量。特異度越高,說明係統的誤報率越低。
我們希望係統能夠在漏診最少的情況下誤報也最少,也就是要求高敏感度和高特異度,但是在任何係統,“明察秋毫”和”枉殺千人“總需要找一個平衡點。臨床要追求整體的運行效率,犧牲敏感度追求特異度會造成漏診率提高,致使篩查或檢查不達目的;犧牲特異度追求敏感度可能導致醫療資源浪費投入到假陽性的案例中(這是一道GMAT邏輯考題)。
我們再看看計算機工程界常用的評價指標:
Accuracy (準確率):判斷正確的樣本數與總樣本數之間的比例。計算方法為,係統正確判斷為陽性與正確判斷為陰性的數量之和除以總樣本數量。
Precision (精確率):係統判斷為陽性的情況中正確的比例。計算方法為,係統正確的判斷為陽性的數量除以係統判斷為陽性的總數量。
Recall (召回率):等同於敏感度。
聰明的你會發現,準確率Accuracy和精確率Precision嚴重依賴於樣本總數裏陽性和陰性的配比,舉個極端的案例,設計一個係統,對於所有的輸入都報陽性,即敏感度為100%,特異度為0,這就是個沒有實際用處的係統,那麼此時取100個測試樣本中,99個為陽性,1個為陰性,此時計算出的準確率為99%,精確率也是99%。
現實中,做出一個敏感度高特異度不高,或者反之的係統是很容易的,可以輕鬆的調整測試樣本的陽性陰性比例來優化其準確率和精確率值。
不難理解,為什麼公關軟文中最常出現“準確率超過95%”,“精確率超過98%”,雲雲。下次再讀到“準確率超過95%”的時候,我們可以這麼想,準確率95%可能意味著係統蒙答案的時候主要蒙A選項,然後測試樣本中的A占絕對多數;那麼再讀到“精確率超過98%”的時候,我們可以這麼想,係統的敏感度可能隻有30%,在他能夠報出為陽性的時候,絕大部分是對的。
所以,回避了醫學常用的評價標準,通過百分數嘩眾取寵搞新聞效應是比較容易實現的。甚至在一些學術論文和國際醫學圖像識別的競賽中,也經常出現隻看精確率和召回率,而不出現特異度指標的情況,有些公司還恰恰以這些影響因子0.5分不到的學術論文為榮譽,或者因在這些國際大賽中又將精確度提升了0.12個百分點而驕傲。如果你問我“茴香豆的茴字有幾種寫法”,我會回答“一萬種”。能解決臨床需求的AI才是好AI。評價醫學人工智能係統是否有用,要同時看其正確的判斷陽性的能力和正確的判斷陰性的能力,即敏感度和特異度。
三、關注過擬合風險
在《新英格蘭》的文章中,“Bias偏見”的詞頻很高,是指因為數據產生的偏見,也就是我們常說的過擬合。文中提及傳統開發中使用到的數據被精確構建以最小化偏見,但是現在的機器學習的開發方法已經不可避免的放大了偏見。所以評價一個人工智能係統,要衡量他有多偏。看測試樣本夠不夠規模、產生於什麼時間、什麼地區、以至於民族和種族。專業人士可以通過觀察訓練樣本和測試樣本本身,來判斷人工智能項目的過擬合風險。如果是過擬合嚴重的係統,再高的敏感度和特異度指標,其臨床價值也要打個問號。雖然偏見不可避免,但是我們還是可以簡單的衡量一個係統的過擬合風險的大小:測得多總比測得少要好,測試樣本與訓練樣本數量比值越大越好,人口統計學背景越複雜越好等等,道理淺顯,不一一贅述。
嚴謹並樂觀著
《新英格蘭》這篇觀點文章,用詞嚴謹到近乎刻薄,說法隱晦到讓人感歎知識分子罵人不帶髒字兒,但是最後還是樂觀:深度學習也不斷的在一些曾經被認為不可能完成的圖像識別任務中屢建戰功。所以,還是要樂觀,推動深度學習的幻想破滅而進入穩步爬升的光明期 (Slope of Enlightenment)。
本文作者:張利
本文轉自雷鋒網禁止二次轉載,原文鏈接
最後更新:2017-08-22 15:04:25