閱讀42 返回首頁    go 機器人


醫生水平大PK:人工智能四勝三平一負絕對領先

新智元報道

來源:spectrum.ieee.

作者:熊笑

IEEE Spectrum 日前公布了一個“記分牌”,顯示了在醫療領域的各個子類中,AI 和人類醫生誰更占優勢。用 IEEE Spectrum 的話說,“AI 正在醫療領域對醫生發起挑戰,我們一直在記分”。

這個記分牌顯示——

AI 占據明顯優勢的是心髒病、中風和自閉症

AI 占據一定優勢的是阿茲海默、外科手術

AI 和人類醫生打個平手的是腦腫瘤、眼科、皮膚癌

人類醫生占據明顯優勢的是一般性診斷

心髒病:與標準預測方法相比,AI係統多預測正確了355 個患者的病情

英國諾丁漢大學的研究人員創建了一個係統,該係統通過掃描患者的常規醫療數據,可以預測10年內哪些患者有心髒病發作或中風的危險。與標準預測方法相比,AI係統多預測正確了355 個患者的情況。

研究者Stephen Weng和他的同事在英國378,256 名患者的醫療記錄上測試了幾種不同的機器學習工具。這些記錄記載了2005 年到2015 年患者的健康狀況,並包括了一些人口學、醫療條件、處方藥、就診記錄、實驗室結果等信息。

研究人員將病曆記錄中的 75% 投喂到他們的機器學習模型中,該模型旨在找出10 年內經曆了心髒病發作或中風的患者的特征。然後,研究小組在另外25%的記錄中測試了模型,看看它們預測心髒病發作和中風的準確程度如何。他們還用該記錄的子集測試了標準預測方法的準確度。

使用1.0分表示100%準確度,標準方法得分為0.728。機器學習模型的準確率則從0.745到0.764,神經網絡機器學習模型的得分最高。

也就是說,神經網絡模型在7,404 例實際發生心髒病或中風的病例中正確預測出了4,998名患者,比標準方法高出355 名。有了這樣的預測,醫生就可以采取預防措施,如開處方藥降低膽固醇。

自閉症:僅使用三個變量,算法檢測出了10 名自閉症兒童中的8名

北卡羅來納大學的一個研究團隊檢測到了6個月大的兒童與自閉症相關的大腦發育變化。深度學習算法能夠使用這些數據來預測在24個月內,有罹患自閉症高度風險的兒童是否能被診斷出該病。

該算法正確預測高危兒童的最終診斷準確率為81 %,靈敏度為88%。與行為調查問卷相比,這無疑是更有幫助的結果——這些調查問卷診斷早期自閉症(大約12個月大),隻有50%的準確性。

UNC 心理學家和大腦發育研究員資深作者Heather Hazlett說:“這優於以前那些辦法,並且能在兒童更小時就做出診斷。”

這一算法運行良好,僅使用三個變量——腦表麵積,腦容量和性別(男孩比女孩更容易發生自閉症)——該方法檢測出了10 名自閉症兒童中的8名。

據研究團隊成員、UNC神經圖像分析和研究實驗室聯合主任MartinStyner 說,訓練該算法的團隊最初使用了一半的數據訓練,另一半用於測試。但是,根據評議人員的要求,他們隨後進行了更為標準的 10-fold 分析,其中數據被細分為10 個相等的部分。然後機器學習的過程進行10 輪,每輪用9 部分訓練,保留一部分用於測試。最後,最後收集10輪的“僅測試”結果,用於其預測。

幸運的是,Styner 說,兩種類型的分析 - 初始的50/50和最後的10-fold- 顯示了幾乎相同的結果。該團隊對預測精度感到滿意。

當然,Hazlett 也表示,項目的推進和普及還需要一些時間,“這樣昂貴的診斷測試不是所有的家庭都能負擔得起。”

阿爾茨海默:新方法可能沒有比舊的好太多,也許隻是因為它使用了更好的數據

哈佛大學、馬薩諸塞州總醫院和華中科技大學的研究者合作設計了一項將fMRI腦掃描與臨床資料結合起來進行預測的方案。

馬薩諸塞州總醫院臨床數據科學中心的高級研究員QuanzhengLi說:“我們試圖在早期發現阿爾茨海默。很多人嚐試使用傳統的機器學習方法來做到這一點,但結果並不那麼好,因為這是一個非常困難的問題。”

初步測試後,研究人員表示,他們的深度學習程序與特殊的fMRI數據集配對時,比使用更基本的數據集的其他分類方法更準確。然而,當這些傳統分類器也使用特殊數據集時,它們在精度上也有類似的增益。

愛丁堡大學生物醫學工程師Javier Escudero表示,這個新方法可能沒有比舊的好太多,可能隻是因為它使用了更好的數據。

如果是這樣,那麼想要借助深度學習方法診斷阿爾茨海默病的其他專家可能想要仔細觀察他們納入分析的數據。根據這項最新的研究,顯示大腦區域之間關係的fMRI掃描提供了比僅隨時間變化記錄測量結果更細微的視圖。

研究團隊想看看他們是否可以使用功能連接中的這些變化來預測阿爾茨海默病。他們從阿爾茨海默病神經影像學計劃提供的93 名MCI患者和101 名正常患者的數據開始。根據從參與者大腦中90個區域獲取的130 次fMRI測量的時間序列,研究人員可以知道一段時間內信號閃爍的位置。

接下來,在關鍵步驟中,研究者處理了該數據集,以便對相關腦區域中信號強度進行二次測量。換句話說,他們構建了一個功能連通圖,顯示哪些區域和信號彼此最密切相關。

最後,該團隊構建了一個深度學習程序,可以解釋這些模式,並結合年齡、性別和遺傳風險因素等臨床資料,預測一個人是否會發展成為阿爾茨海默病。

最後,該團隊說,其使用特殊處理的功能連接數據集的程序,在其數據集中預測患者是否會得阿爾茨海默病的準確率,接近90%。

手術:在60%的試驗中,STAR完全自主地完成了手術的規劃和執行

智能手術機器人在計劃並執行手術,雖然監督者會偶爾進行幫助

點擊播放 GIF/1419K

機器人已經可以使用自己的視覺、工具和智能來縫合豬的小腸。更重要的是,SmartTissue Autonomous Robot(STAR)在操作上表現得比人類外科醫生更好。

STAR 的發明者並沒有聲稱機器人可以很快在手術中取代人類。相反,他們使用了“有監督的自動化”的概念。

研究者之一、兒童外科醫生 Peter Kim 表示醫生的工作並沒有受到威脅。他說:“如果有一台能夠與我們一起工作以改善手術結果和安全性的機器,將是一件大好事。”

研究人員對他們的機器人進行了編程,進行了稱為腸縫合的手術——將被切割的腸段縫合在一起。該團隊的高級工程師RyanDecker說,縫合線必須緊密而有規律地隔開,以防止泄漏。經驗豐富的人類外科醫生同樣執行了相同的任務。當比較所得到的縫合線時,STAR 的針腳更加一致,更能防止泄漏。

在大約40%的實驗中,研究人員進行了幹預,提供了某種類型的指導。在其他60%的試驗中,STAR完全自主地完成了這項工作。

人類外科醫生可以對手術進行,讓機器做更多的例行或繁瑣操作。

STAR通過整合幾種不同的技術來解決軟組織帶來的挑戰。其視覺係統依賴於放置在腸組織中的近紅外熒光(NIRF)標簽;一個專門的NIRF 攝像機跟蹤這些標記,而3D攝像機記錄整個外科手術的圖像。結合所有這些數據,STAR能夠將其重點放在目標上。機器人自己製定了縫合任務的計劃,並且隨著組織在運行過程中的移動,它自動調整了該計劃。

腦腫瘤:IBM Watson隻花了10分鍾就分析了患者的基因組並提出了治療計劃,專家則花了160個小時

在治療腦腫瘤時,時間至關重要。在一項新的研究中,IBM Watson隻花了10分鍾就分析完成了腦腫瘤患者的基因組並提出了治療計劃。但是,盡管人類專家花了160個小時來製定計劃,但研究結果並不表明機器對人類取得了全勝。

該病人是一名76歲的男子,他對醫生抱怨頭痛,步行困難。大腦掃描顯示出腫瘤,外科醫生迅速進行治療。該男子接受了三周的放射治療,並開始了長期的化療。盡管得到了最好的照顧,他一年內就去世了。雖然Watson 和醫生分析了患者的基因組,提出治療計劃,但是當他的組織樣本被測序時,患者已經每況愈下。

領導 Watson 基因組團隊的LaxmiParida 解釋說,大多數癌症患者沒有掃描其全部基因組(由30億單位的DNA組成)。相反,他們通常做的是一個“小組”測試,隻檢測一些已知在癌症中發揮作用的基因亞組。

研究人員想知道如果掃描患者的整個基因組,雖然比運行“小組”測試更昂貴和耗時,但是否能為醫生設計治療計劃提供出真正有用的信息。

這個問題的答案是肯定的。 NYGC 臨床醫生和 Watson 都確定了在panel 測試中未檢查出的基因突變,提出了可能有作用的藥物和臨床試驗。

其次,研究人員想比較由IBM Watson和NYGC的醫學專家進行的基因組分析。

Watson 和專家組都收到了患者的基因組信息,他們確定出顯示突變的基因,通過醫學文獻了解這些到突變是否在其他癌症病例中被發現,尋找藥物成功治療的報告,並檢查對患者可行的臨床試驗。人類花費了“160個小時”來給出建議,而Watson 在10分鍾內完成了上述過程。

不過,盡管 Watson 的解決方案最快,但可能不是最好的。 NYGC臨床醫生識別了兩個基因的突變,綜合考慮,最後醫生推薦患者參加了一項針對組合藥物治療的臨床試驗。如果患者的健康狀況仍然允許,他將會參加這次試驗,這本是他最有希望的生存機會。而Watson 沒有以這種方式合成信息,因此沒有給出臨床試驗的建議。

眼科疾病:中山大學和西安電子科技大學合作研發CC-Cruise,目前和醫生表現相當

中國的一個研究團隊已經論證,在有高質量數據可用的情況下,人工智能有可能幫助眼科疾病的醫療診斷。他們的AI 隻訓練了410張先天性白內障(一種導致不可逆失明的罕見疾病)的圖像,再加上無病眼睛的476張圖像,就能判斷出白內障的嚴重程度,並提供治療建議。

受到DeepMind 2015年研究報告的啟發——該研究描述了基於最小激活信息的機器學習算法在一係列街機遊戲中如何擊敗專業玩家——中山大學眼科醫生HaotianLin 和同事們創建了一個AI智能體來挖掘他們的兒童期白內障臨床數據庫。

與西安電子科技大學的Xiyang Liu團隊合作,他們創建了CC-Cruiser,一個能夠診斷先天性白內障的AI程序,來預測疾病的嚴重程度,並給出治療決策。該程序使用深度學習算法創建,用上述圖像進行訓練。

然後,研究人員對CC-Cruiser進行了五次測試。首先,在計算機模擬中,AI程序能夠以98.87%的準確度區分患者和健康個體。估計疾病嚴重程度的三個指標中的每一個,——透鏡不透明區域、密度和位置——準確率達到93%以上。該方案還提供了準確率達到97.56%的治療建議。

接下來,該小組利用中國三家合作醫院的57張兒童眼睛圖像進行臨床試驗。所選擇的醫院都沒有專門診斷或治療這種病症的科室。因為該研究團隊希望該平台最終將幫助缺乏專家的醫院。測試中,CC-Cruiser表現良好:達到98.25%的識別精度;所有三個嚴重程度指標的判斷準確率都超過92%,治療建議準確率超過92.86%。

為了模擬現實世界的使用,他們將該程序和眼科醫生的工作做了對比。三名眼科醫師 - 一名專家、一名骨幹和一名資曆較淺的一聲——和 CC-Cruiser 進行了50例臨床病例的PK。計算機和醫生表現相當。

在試驗中,AI做出了幾例不正確的標記,Lin 希望更大的數據集可以提高其性能。該團隊計劃建立一個協作雲平台,但Lin強調,該技術“不夠”以100%的準確度確定最佳治療過程。因此,醫生應該充分利用機器的建議來識別並防止潛在的錯誤分類,並作為自己判斷的補充。

皮膚癌:自動皮膚癌分類最大數據集的構建

斯坦福大學的研究人員已經開發出一種算法,可以識別照片中的皮膚癌。它不是第一個識別皮膚病變的自動化係統,但可能是最強大的。

研究團隊在GoogleNet Inception v3 架構上構建了一套深度學習算法,即一種卷積神經網絡算法。斯坦福大學的研究人員對2000多種疾病近 13 萬張皮膚病變圖像進行了微調,這可能是自動皮膚癌分類中最大的數據集。

在研究中,該算法的結果與21名皮膚科醫生的診斷進行了對比。醫生檢查了數百幅皮膚病變圖像,並確定是否對其進行進一步檢測,或者確保患者是良性的。該算法檢測了相同的圖像並給出了其診斷。醫生和算法之前都沒有看過圖像。

最終結果,計算機與專家一致。例如,該程序能夠區分角質形成細胞癌 - 最常見的人類皮膚癌- 和稱為脂溢性角化病的良性皮膚生長。

在現實應用之前,斯坦福大學的係統將需要受到更嚴峻的考驗。研究人員沒有要求算法區分脂溢性角化病和黑素瘤,這可能是一個難點。

一般性診斷:大約72%的時間內,醫生給出了正確的診斷。AI 則在 34%的時間裏給出正確診斷

在 AI 和醫生的 PK 中,醫生們仍然有能夠取勝的領域。此前發表的JAMA Internal Medicine上有一篇報告,指出一組自動診斷的 app 的診斷正確率遠低於醫生。

Mehrotra和他的團隊2015年發表在BMJ(此前稱為British Medical Journal)上的研究中,將45 名病人的症狀投喂到23個症狀檢測係統中,其中包括隨後被診斷患有哮喘和瘧疾的患者。小組發現,三分之一以上的檢測器給出了正確的診斷。

在新實驗中,研究人員將檢測器的準曲率和 234 名醫師進行了比較。對於每種情況,至少有20名醫生能夠給出排名前三診斷的準確率。

大約72%的時間內,醫生給出了正確的診斷。應用程序則在34%的時間裏給出了正確的診斷。

“醫生絕非完美,”Mehrotra說。“他們仍然可能在10%到15%的時間內診斷錯誤。然而,自我診斷app 想要超越醫生,還需時日。”

原文地址:https://spectrum.ieee.org/static/ai-vs-doctors

來源:新智元

最後更新:2017-10-08 07:34:18

  上一篇:go 火了火了!人工智能產業在餘杭好戲連台!
  下一篇:go 《廣電“十三五”發展規劃》正式發布,推進虛擬現實、人工智能在新聞出版廣播影視領域的應用!