閱讀908 返回首頁    go 阿裏雲 go 技術社區[雲棲]


中科院陳潤生院士: 精準醫療數據處理中的挑戰


0?wx_fmt=png


◆ ◆ 

前言


2016年12月8日,2016中國大數據技術大會(Big Data Technology Conference 2016,BDTC 2016)於12月8日在北京拉開帷幕。


中國科學院院士—陳潤生,作為主講嘉賓做了《大數據與精準醫療》的演講,闡述了大數據的收集處理對於生命科學、臨床醫學、臨床藥理等的重要意義,他指出,大數據的效用可以體現在譬如對基因突變做出正確解析、標記有臨床意義的注釋等。因此可以說,大數據分析是精準醫療發展的助推器,同時也是跨界合作的重要領域。陳院士還在演講中提到了在精準醫療領域創新的機遇在哪裏?它的挑戰在哪裏?


以下即為陳潤生院士的演講速記:

(在不更改原意的前提下,部分有刪改)

0?wx_fmt=png


陳潤生:尊敬的各位專家,各位朋友,非常榮幸,能夠應邀參加這個大會,我今天主要談一談關於大數據和精準醫學的情況,希望大家批評指正。


◆ ◆ 

什麼是精準醫學


我首先談一下什麼是精準醫學,核心就是一句話,組學大數據在醫學,特別是在臨床醫學當中的應用。大家知道隨著上世紀九十年代遺傳密碼的破譯,以遺傳密碼或者基因組為代表的大量的分子水平的數據,我們也稱作組學數據不斷地產生,現在非常快,增加的速度比任何已知的數據都產生的快。由於研究技術的發展,測一個人類的遺傳密碼,現在已經變的非常非常簡單和容易了,比如說我們任何人都可以投資很少的錢,大約在目前據我所知,六七千塊人民幣,用三四天的時間,你就可以得到你的遺傳密碼,發現遺傳密碼和某些疾病是高度相關的。


近年來開展分子水平的信息用到醫學特別是臨床醫學當中來,來提到臨床診斷的效率和治療的效率,這樣一種趨勢,實際上就締造了精準醫學的應用。那麼因此精準醫學的核心,從大數據這端就是把組學大數據應用到醫學當中來,大家知道所有這些組學大數據,都是很大的數據,所以直接作為醫學專家,或者分子生物學家是沒有辦法看懂的,必須經過大數據科學家用特定的理論方法和技術進行挖掘才能獲得有關用於臨床方麵的知識,所以精準醫學是組學大數據在臨床當中的應用。


大家知道非常漂亮的就是大家最基本的遺傳密碼,這個遺傳密碼的測量現在不成問題了,但數據挖掘找出和疾病相關,將是一個現在非常迫切的問題。因此從人類密碼研究以後就產生了轉化醫學、個體化醫學等等的詞匯,但是在2011年的時候,國際上出現了“精準醫學”這個詞,實際上是對這個趨勢總體的概括和總結。


◆ ◆ 

精準醫學帶來了什麼樣的本質變化?


精準醫學本身之所以受到很多國家領導人的重視,由於精準醫學有可能產生一些本質性的變化,最主要的本質性的變化,我們也可以概括為一句話。“精準醫學”可以使得醫療健康的概念發生本質的變化,這個概念是什麼概念?從當年醫療健康體係以診斷治療為主,使它轉變到以健康保證為主。大家知道現在的醫學都是以病人為對象,以診斷治療為目的,也就是說由病人、醫院和醫生組成的這樣一個概念化的醫療體係。而隨著精準醫學的發展,我們可以通過對大數據的分析,在他沒有病的時候,了解他的健康狀況,預測他未來健康的發展,這種情況下我們醫療健康所麵對的對象就不再是病人,而是全民,全體人。


這個時候,醫療體係的概念也不是以治療為目的,是以健康預測,健康評估和健康幹預為目的,這樣的話整個醫療體係就會發生概念性的變化,從現在看病為主,到以後的預測保證為主。這樣一個概念性的根本變化,必然會導致相應產業的發展,因此有人估計到2018年的時候圍繞新概念所產生的產業也許能達到2千億美金以上,所以這是一個能夠一定程度上影響GDP的值。因此這樣一個精準醫學的概念,已經成為引領國際發展潮流的戰略製高點,所以才引起各國領導人的重視,所以精準醫學實際上是會帶來一些,不論醫療概念還是產業上都會有一些本質上的變化,所以才會引起各國領導人的重視。


美國也推動精準醫學的發展,我不再詳細講了。美國最重要的表現是要測量一百萬個自然人的遺傳密碼,一百萬是很大的數。歐盟也在開展精準醫學的研究,那麼他要測十萬個腫瘤和罕見病人的遺傳密碼。日本也有相應的精準醫學的計劃。那麼精準醫學到底在新的產業當中,哪幾個方麵能帶動所謂新的增長點呢?我想至少在如下四個方麵:


  • 精準醫學可以推動海量的生物樣本庫和海量的數據庫的發展,精準醫學會導致十萬到百萬人的生物樣品的測量,這就涉及到海量規模的實質性的生物樣品的搜集、保存、樣品的製備與提取,以及樣品提供使用的各個方麵。沒有百萬量級的數據庫,當然就不能適應它的發展,而這些數據測量完以後,這些百萬量級的數據應該有相應的數據庫來保管,所以第一個要推動海量規模的生物樣本庫和數據庫的發展,有人估計這個在未來一兩年可以達到一百億美元的數據樣本。

  • 可以帶動基因組序的數據規模,這個產業有人估計2018年可以到117億美金,我個人和有關測序方麵的專家討論,由於測序如此便宜我覺得這個數據肯定比它多。

  • 就會得到很多新藥物設計的靶點發展,這個產業直接涉及到醫療診斷和藥物設計,這是第三個產業。

  • 圍繞精準醫學概念所產生的實質性的,比方說健康設施、健康從業人員的健康領域的大的產業圈,這個產業圈估計2018年可以到達2千億美金,這些方麵都是精準醫學可以帶來的,可以預見的實打實的新的產業。我國精準醫學的目標和上麵國際的是一致和接軌的。

  0?wx_fmt=jpeg


◆ ◆ 

要實現精準醫學要具備哪些條件?


我認為至少具備兩個條件,這兩個條件是精準醫學沒有開展之前所不具備的。


一是要搜集獲取大量的組學數據,而這些組學數據必須經過大數據技術的深刻挖掘,所以第一個基礎是當前國際兩大前沿,就是組學和大數據兩大科學的交叉與融合。有了這個結果,我們就可以獲得大量跟疾病相關的分子水平上的變異,然後我們要利用這些數據開展第二個基礎研究,就是搭建分子水平的信息和宏觀疾病之間關聯,就是建立分子水平的信息和宏觀疾病之間關聯的橋梁,也就是發展所謂生物信息學、生物網絡、係統生物學等等一係列的東西。有了這兩個橋梁,有了分子水平的信息,我們就可以很好的實現精準醫學了。


精準醫學需要說明的一點,精準醫學實際上和現在的傳統醫學、影像學、生化學、醫生的經驗是相輔相成的,互相推動與互相促進的,不像我接觸的有些過度的宣傳精準醫學的作用,說我們測序以後什麼都能解決了,實際上不是,精準醫學是建立在前人知識的基礎上,必然與現在的技術緊密結合才能提高醫療的水平。


◆ ◆ 

精準醫學才剛剛上路


雖然它有很好的概念上的變化,雖然給我們展示了醫療體係未來的美好前景,但由於精準醫學的路上不論是組學測量也好,大數據分析也好,都存在著一些非常巨大的障礙,所以我認為精準醫學目前才剛剛起步,我們還有太多的事情要做。


到底創新的機遇在哪裏?它的挑戰在哪裏?我想這個是很多的,我今天隻就下麵組學和大數據處理的一些困難,簡單地提一兩項困難,大家就可以看到實際上精準醫學的路還是相當漫長的。


  • 第一個我要講的就是在組學測量當中存在的巨大挑戰和困難。


大家知道現在的精準醫學是以遺傳密碼為依據的,我們首先問一個問題,在當前我們對自身人類的遺傳密碼了解多少,如果我們都了解了實現精準就有了分子依據,如果我們了解很少,那我們就太多的事情要做。而事實上,恰恰如後者,這是一段人類遺傳密碼,在座的各位都有,我也有,誰把它去掉了我想他活不了,這樣的遺傳密碼每個人都3乘10的9次方,如果把這個字符裝訂成書的話,大約四十層樓高的高度,我相信誰也讀不了,在當前集全人類的智慧我們隻能讀懂其中的3%,這就是當前的挑戰。我再次說明,我們的遺傳密碼大家花七千塊錢可以測出來,但你能讀懂的部分大約隻有3%,這3%就是大家從中學時候知道的編碼蛋白質的部分,或者遵從中心法則的部分,我們稱作遺傳密碼當中的編碼序列,而另外的97%是不編碼蛋白質的,也是迄今為止我們讀不懂的部分。換句話說我們的遺傳密碼裏現在還大致有97%現在是讀不懂的,既然它幹什麼都不懂,當它有了變化當然也不知道。在這個含義下,我們用作組學研究的話,當然存在著巨大的困難和障礙。


我引用一篇文章,2010年12月17號的科學雜誌,這期雜誌評選了兩個十大科學突破,一是2010年當年世界自然科學領域的十大科學突破,另外一個人類進入新的世紀,進入21世紀以後,把2001年到2010年這十年加在一起,也就是說最臨近我們的十年如果加到一塊,自然科學領域裏哪十項是最值得我們關注的?第一項就是我剛才講的主題,基因組當中的暗物質,我自己更清新暗信息,不是物質沒測出來,隻是讀不懂。也就是說即使在當前人的遺傳密碼當中,仍然有90%以上的遺傳密碼我們讀不懂,因此就不可能做到精準,這就是組學當中最基本與最重要的挑戰,那麼就是我們還有97%左右的遺傳密碼不知道。


0?wx_fmt=jpeg


下麵我來展開一點給大家做點討論。首先從遺傳密碼看,也就是基因組研究,我們知道在人的遺傳密碼當中迄今為止97%的遺產密碼還讀不懂,因此當然無法做到精準。而如果我們做個比較研究,從低等生物到高等生物來看,生物越低等,大腸杆菌的遺傳密碼,我們用原盤表示,85%都是紅的,就是能知道規律的編碼蛋白質的部分,它占了絕大部分。生物高等一點,酵母是單細胞的真核生物,編碼蛋白質的部分少了,非編碼的多了。線蟲,它已經是最簡單的多細胞生物了,它用做編碼蛋白質的隻占28%,非編碼占71%。果蠅,這個時候編碼的部分已知歸類的部分隻有17%,非編碼占到了80%多,而對人來講97%~98%都是非編碼蛋白質。所以也許大家有一個約定俗成的概念生物從簡單到複雜從低等到高等一定是蛋白越來越多,實際上不對,它伴隨著功能增加是以我們現在不掌握規律的非編碼蛋白質的的增加,也就是說非編碼蛋白質和高級生物相關,當然也一定和疾病相關。


  • 轉錄組研究。


這個結果是百分之百肯定的,全世界的實驗室毫無例外的找到非編碼序列信息發放製造功能元件的信息,毫無例外,所以這樣的工作,充分證明了這97%是實現重要的生物學功能的,為此我給大家舉幾個簡單例子雖然這97%全貌不理解,但個別的例子,比如97%的一個產物可以導致所謂的前列腺癌。另外一個來自97%的可以導致白血病,另外一個來自97%的可以導致非小細胞肺癌。這三個例子說明什麼?說明來自我們不知道規律的那97%依然能導致腫瘤,大家如果在座的臨床醫生專家的話,可以知道我們現在對腫瘤在醫院當中診斷治療,所有的對象隻利用了3%的信息,從來沒有那97%。現在有充分的例子說明,那97%也可以導致非常嚴重的疾病,如果不把它納入疾病的診斷治療當中來,精準又如何實現呢?


0?wx_fmt=jpeg


當然我們知道在97%裏也有非常好的東西,請大家記住H19,這是一個非常重要的非編碼的元件,它的存在可以讓我們已經癌變的細胞通過某種途徑進行消亡。那麼有多少這樣的元件還沒有被發現呢?在座的如果有對生物感興趣的研究工作者可以參考,大家知道日本在小鼠裏邊做過實驗,發現大約16萬個來自那97%的像蛋白一樣重要的功能元件迄今為止還沒有發現,所以我們還有太多的機會去發現新的重要的功能元件,了解它跟健康、發育、疾病的關係。在這個領域裏邊,這兩位科學家在2006年獲得了第一個諾貝爾獎金,有人開玩笑我們估算一下現在對人的遺傳密碼知道了3%,你可以算算這3%締造了多少名諾貝爾獎的獲得者,我稍微統計一下不少於50名。


我們現在又發現了龐大的97%,說明在這巨大的97%的領域裏,還有一千多個諾貝爾獎金的位置,現在隻有一個位置被占據了可以忽略不計,所以在大家麵前有非常廣闊的創造巨大科學成果的機會。


因此整個非編碼的研究,組學當中的一個巨大的障礙,雖然對精準醫學來講我們隻掌握了3%,才剛剛起步,還有漫長的路要走。但是從另一方麵考慮非編碼的研究一定會給我們提供巨大的機遇,也就是說這97%信息的挖掘一定會為疾病的診斷和治療提供全新的方向,一定會對全新的藥物設計和研發提供全新的平台。那麼也會對動植物新品種,新性狀的培育提供新的機遇,所以這當然我講的在組學當中的這麼一個例子就可以看到,精準醫學其實才剛剛上路。


下麵,因為是大數據的大會,所以我樂意簡單的談一談數據處理當中的一些挑戰,時間關係,我隻是拉樣片了,因為在座的都是專家。


  • 數據量大。大家知道一個人的遺傳密碼是3乘10的9次方,但我們知道這個數據的產生是如此容易,現在一台商用測序儀,一次測量可以得到1T的數據,這樣的數據作為商品就很容易買到。所以大家可以看到測序現在變得如此容易,我的實驗室我組裏就有一台,一次性測序可以得到1T人的遺傳密碼的數據,全世界有數不清的人,你想這樣數據的增長速度有多快。


  • 分析少。這是沃森拿著自己的遺傳密碼在他的小盒子裏,這個時候大約是人類開展遺傳密碼測序的十年以後,我們知道到那個時候測序已經變得不那麼昂貴了,但還需要一百萬美金兩個月的時間,又過了十年隻需要六七千人民幣,三天時間可以得到他的遺傳密碼,可惜的是他拿著他的小盒子自己也不知道能分析多少。

    0?wx_fmt=png


    但現在國際上開展微生物組基因計劃,這個時候我們知道人不僅僅是自己生活,如果考慮他的健康的話也要考慮跟人一起生活的微生物,那麼微生物的遺傳密碼現在估計是人的一百倍,如果研究一個廣義的人,研究人聯同微生物的人,一個人的測序要增加兩個數量級。但這樣一個數據從數據源來講不是很好的,它的噪聲比較好,因此性噪比比較低,另外有比較多的缺失值。因此從數據源來講是增速極快,數據質量不高,含有缺失值的數據,這樣在數據挖掘當中存在著第一個困難,就是數據源的困難。


  • 樣品量少。從樣品來看,我們總需要樣品,比如我們研究肝癌,我們需要肝癌的病人,大家知道針對某一個特殊疾病搜集樣品是特別困難的,往往對特定分型的腫瘤,如果搜集兩三百個樣品已經很不錯了,大家知道我們整個的數學體係需要建模的體係往往自變量是成百上千甚至上萬的,這種情況下如果我們隻能取幾百個樣品的話,當然我們的邊界條件不足以固定內部的自變量數在這種情況下,當然我們的解就不是收斂(音),這將是存在的第二個問題。


    就是由於樣品搜集的困難,很多條件下我們搜集的樣品不足以固定體係內部自變量的變化,這樣情況下有兩個途徑,一是加大樣品,比如為什麼美國要測一百萬人的遺產密碼,我們中國的精準醫學計劃也要測一百萬人,就是說我的體係測樣本量遠遠大於體係覆蓋的自變量,當然可以得到有利的收斂(音)的結果,但這往往是政府的行為,我們自己的研究組是不可能做這件事的,要有巨大花費。這種情況下當然就要考慮數學建模,把我們的係統變成子係統,使得外界的邊界條件和內部自變量能匹配,這就是所謂在大數據處理上,對於組學數據所需要的非常突出的數學分析當中的問題。


  • 有效事件頻率低。不僅僅樣品得來不易,而樣品的分子基礎也是各種各樣的,所以會帶來更多的樣品需求層次的問題。因此這就會導致一個非常重要的所謂精準醫學當中的科學哲學問題,什麼是共同疾病的共同變化,什麼是共同疾病的特異性變化,時間關係我不能在這裏更多討論了。

 

上述講的都是個別基因的變化,但每個基因並不是獨立工作的,往往是形成網絡,所以我們麵對進一步的所謂功能分析的問題,精準醫學的問題是複雜網絡的問題。大家知道,在座的都是數學家,我們知道這個生物網絡是動態的,是有向的,是每個元件做到另外一個元件是定向的;元件不是單一的,既有蛋白也有核算,另外所有作用的方式,很大程度上都是非線性的,對這樣一個動態、有向,不同元件組成的這樣一個東西,當然是複雜的。


除了這個之外,大家知道我們不僅僅用組學數據還用其它影像學的數據,比如做個核磁、CT這樣的數據如何處理,最後是超出學界的問題,如何在全中國的範圍內實現數據的有效共享。我們知道現在每個醫院裏都有數據,如果我們不能在全局上麵進行數據共享的話,我們就是在大數據時代做小數據的工作,將來就失掉了大數據的背景和它的意義。


所以看到在數據分享當中依然存在非常艱難的問題,我後麵說的比較粗糙,隻不過就精準醫學的幾個概念和大家進行交流,我想精準醫學是一個重要的值得大家關注的方向,但由於各種原因,需要我們克服困難,精準醫學才剛剛起步。但這些困難恰恰也是我們的機遇,抓住這些機遇,有機會做突出的原創性的重要的工作。

原文發布時間為:2016-12-14


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-27 10:33:24

  上一篇:go  征服數據科學麵試的10個小技巧(附資源)
  下一篇:go  dsfa