閱讀203 返回首頁    go 阿裏雲 go 技術社區[雲棲]


節省60%費用!巧用阿裏雲歸檔存儲降低基因測序成本

“如果有款存儲產品能在保證業務正常運行的時候節省60%的成本,我會毫不猶豫選擇它”。

我的工作是做生物基因測序的,我們公司很早就在雲上搭建了數據分析平台(雲的優勢不多說了,省心省錢),數據通過采集設備生成後,會立即上傳到雲端進行預訂的測序分析。當然了,考慮到算法更新,這些數據都是保存在雲端的,有了新的分析方法就可以進行更多維度的分析,無需重新采集。

存儲周期長是基因數據的特點,在采集後的最初幾個月內會被頻繁訪問,對於數據實時的響應性要求極高。但經過開始的幾個月後,原始數據訪問頻率就開始大幅下降,所以我們盡量會尋找不同訪問特性的存儲,去降低總存儲成本。

之前我們用的一直是阿裏雲的OSS標準存儲,雖然速度快、延遲低、吞吐能力強,但對我們業務的不同時期來說有些“性能過剩”。所以當我們看到阿裏雲新上線的歸檔存儲OSSArchive的價格的時候,說句實話,挺驚訝的:畢竟這款產品比OSS便宜得多。然後又想到阿裏雲看的挺遠,不免有些服氣。

歸檔存儲有多便宜呢?相比標準存儲低了近60%,適用於長期(幾年甚至更長時間)存儲的歸檔數據取回。按照存儲容量300TB來計算,如果使用歸檔類型存儲一年是221184元,即使與300TB年存儲包相比,也可節省11萬元以上。

image


對基因行業,這是個非常大的驚喜,因為每個基因文件的大小在幾GB到幾十GB不等,隨著基因測序的需求增加,存儲規模增長非常快,其在總成本中占有的比例也在不斷增大。

另一個吸引我的地方是歸檔存儲采用的是OSS標準API,跟我們現有的數據管理與分析平台完全配套,無需進行平台改造。

歸檔存儲的上手非常簡單,我們經過了幾天的方案驗證後,很快完成了全新的業務架構搭建。

下麵是一個歸檔類型Bucket創建、文件上傳、查詢、解凍與下載的簡單流程:

1、創建歸檔類型的Bucket

首先通過控製台創建一個歸檔類型Bucket,當前阿裏雲OSS開放的是華北2(北京)區域,開通歸檔類型Bucket流程和其他存儲類型Bucket是相同的。

image

2、上傳數據

OSS提供的ossutil工具可以自動根據文件大小適配上傳模式,包括PUT 上傳、分片上傳。基因文件普遍都是GB級以上,需要通過分片機製,將大文件能夠拆分成多個片段獨立上傳。

image

3、查詢文件列表

OSS API和相關工具可以實時查詢文件列表。

image

4、文件解凍

歸檔存儲與標準類型在讀取Object前,需要有一個Restore操作,按照OSSArchive文檔中介紹,上傳到歸檔類型的Object處於冷凍狀態,需要先解凍後進入到可讀取狀態,Restore操作後需要等待1~4個小時的等待時間。

image


在Restore解凍過程中的Object會顯示ongoing-request="true"。

解凍完成後,查詢Object狀態會顯示解凍完成可以直接下載,expiry-date為過期時間,過期時間一到,Object會重新進入冷凍狀態。

image


解凍操作是需要收取費用的,每解凍 1GB數據需要0.06元,所以不需要立即使用的Object還是讓它安安靜靜的保存吧。解凍完成24小時後Object會重新回到冷凍狀態,參考官網文檔處於解凍狀態下,可以通過多次調用Restore,使Object最長保持七天可讀狀態。

5、文件下載、讀取分析


image


已經解凍的Object可以和標準類型的Object一樣的下載方式 。

對於基因數據的管理,我們對每個基因文件的元信息使用了數據庫保存,每個基因文件都會記錄上傳時期和近半年內使用信息,對於上傳時間超過一定時期並且長期沒有訪問的基因文件,會從標準類型的Bucket中遷移到歸檔類型Bucket。

歸檔存儲類型總體使用下來的體驗不錯,也給OSS產品提個建議吧,希望後期能支持加入Restore解凍完成的事件通知,現在應用程序實現中都是每隔一小時去獲取下Restore的狀態。

最後更新:2017-06-08 15:31:36

  上一篇:go  10倍處理能力 阿裏雲推廣電級非編NAS產品
  下一篇:go  阿裏雲一口氣發布N個產品,重點是成為CNCF金牌會員,2017是Kubernetes元年!