基因大數據分析的雲計算實踐
基因測序有著廣泛的行業應用,在預防出生缺陷、檢測遺傳性疾病與腫瘤用藥指導等領域,能提供極大幫助。近年來基因組學研究進展飛速,華大基因也憑借強大的研發實力,成為全球最大的基因組學研究中心,其研究成果在全球都有廣泛的影響力。
在基因組學行業迅速發展的當下,基因測序成本已實現快速下降,從過去的天價一躍進入大眾也能輕鬆負擔的“千元”時代。同時,多項殺手級臨床應用均引入基因測序,拉動覆蓋用戶數量成倍攀升。隨著高通量測序儀的發展,需要存儲計算的基因數據量,呈指數級增長。基因測序已進入爆發式的階段,用戶和應用量級的爆發,帶來了數據計算的爆發。
隨著生命科學領域數據爆炸式的增長,如何及時獲取、快速分析、安全儲存這些龐大的數據是研究者們急需解決的問題,包括華大基因都麵臨的挑戰。2017年11月22日的廣州雲棲大會服務專場上,華大基因 BGI Online 產品總監黃澤輝,分享了華大基因在這個問題上麵臨的挑戰與解決方案。
24小時,完成千人基因數據分析?
人一生的基因數據的管理和存儲數據量相當龐大,而華大基因提供的基因快速檢索和查詢,涉及到基因數據在數據分析中的降維過程。過程中數據密集型和CPU密集型的計算分析任務,計算能力要求高,結果文件種類繁多,數據非結構化,不利於數據挖掘和可視化。目前使用了多地測序中心,用戶分布廣泛,數據共享和傳輸困難。
傳統方案是基於大型計算設備和存儲設備購買來解決,出於成本和服務器跟進速度的考量,華大基因 BGI Online 則搬到了雲上,並且在分析層麵上給用戶定製化和個性化體驗。不僅降低了數據分析門檻,用戶也可直接在線上簡單操作即可完成啟動分析。
全麵擁抱雲計算,解決數據存儲、傳輸、分析、安全問題
BGI Online作為大規模生物信息的分析平台,堪稱基因行業的“應用市場”。依托部署在阿裏雲計算平台的服務,BGI Online更輕鬆地擁有了處理大規模基因組數據分析的能力。
基於BGI Online的基因數據分析需求,華大基因在阿裏雲平台上,設計了計算資源彈性伸縮、多級存儲、海量存儲計算與數據安全的雲平台架構。
通過專線接入,來傳輸測序中心幾十TB/day的數據;通過平台多數據中心部署,計算能力放至數據所在地,為美國、歐洲與中國等提供測序;混合使用阿裏雲的多種計算服務,數據通過OSS來互通。通過ECS在線上高靈活度地輸出基因測序、利用批量計算測序可大規模降低成本、MaxCompute實現MapReduce小時級測序。
合作過程中,阿裏雲為華大基因提供了企業級支持服務和專家服務,保障華大基因的雲上業務搭建與運轉。包括指導產品選型與使用技術、提供APM報告及相應性能的分析優化;排查整改係統安全隱患、對生產高峰的任務支持進行專門保障。從曾經三四天才能輸出一人基因分析,到如今實現了22小時內達成千人基因組分析的人類夢想。
生命的價值值得我們為之努力
基因組學數據是“天然”的大數據,計算分析的價值會超過測序本身,與雲計算和大數據技術的結合是行業的需要。華大基因股份有限公司CEO尹燁說過,“基因測序為生物技術帶來的改變,為生命創造的價值,值得我們為之努力。”
多年來,華大基因積累了來自製藥、科研、臨床和個人等多樣且豐富的客戶,對市場需求有了更深的理解。未來,華大基因將利用積累的技術與經驗,繼續研發不同層次結構組成,專注於生物信息分析流程開發和基因數據的挖掘的平台。未來應用應該可跨平台共享,由雲計算服務持續提供底層數據存儲、壓縮的優化。 如此,勢必能為中國在未來數十年在生命科學、生物產業提供持續增長的強勁動力。
最後更新:2017-11-26 22:05:12