<轉載>在數據科學環境中使用 Docker 容器
容器是傳統虛擬機的輕量級版本。它們不會占用您服務器上的大量空間,易於創建和消除,而且啟動速度很快。它們還可以輕鬆地創建可重複使用的數據科學環境。
對於數據科學家來說,可以直接運行一個已經配備了執行特定分析所需的各種庫和工具的容器,而無需花費幾個小時在不同的環境中調試數據包或配置自定義的環境。這就是為什麼 DataScience.com 使用 Docker 容器來處理該平台上的各種應用程序,例如用戶可以啟動獨立的 Jupyter 和 RStudio 會話,其中已經配備了他們選擇的庫和工具。
什麼是容器?
在 Docker 網站上,將容器定義為“一種標準化的軟件單元”。那到底是什麼意思呢?
容器就像它的名稱一樣:它包含一些內容。
在這裏,軟件容器包含運行軟件應用程序所需的代碼、框架和庫。因為它隻包含這些東西,所以就變得非常小;這意味著可以在一個操作係統上放置多個容器。這也意味著當您運行該軟件的時候,會胸有成竹,因為您需要的一切都已經在那個容器裏了。
不過,真正重要的是容器所帶來的標準化和效率。您的團隊不再需要為每個分析建立一個新的環境,而是將某些類型的分析所需的工具和數據包 (例如 scikit-learn、TensorFlow、Jupyter 等) 放入容器中,創建該容器的鏡像,並讓每位用戶從該鏡像中啟動一個獨立的、標準化的環境。
等一下,什麼是鏡像?
鏡像實質上是在特定時間點運行的容器的快照,它可以作為其他容器的模板。所有正在運行的容器都來自一個鏡像,您可以對任何正在運行的容器進行快照以創建新鏡像。您也可以從該鏡像中根據需要啟動多個容器。這下明白了吧?
像 Docker Hub 這樣的存儲庫包含數十萬個鏡像,可以免費下載。這當中肯定有一個鏡像,其中包含你執行特定分析所需的工具。
如果您在 DataScience.com 平台上工作,那麼要找到含有所需工具的鏡像非常簡單,隻需在啟動環境時從下拉菜單中選擇合適的鏡像即可。我們已經為深度學習、自然語言處理和其他數據科學技術創建了許多預先配置好的鏡像,可用於我們平台上的 RStudio 和 Jupyter 會話。
為什麼要將數據科學環境配置在容器中?
其中一個考慮因素就是速度。我們希望使用我們平台的數據科學家可以在幾分鍾內就啟動一個 Jupyter 或 RStudio 會話,而不是幾個小時。我們還希望他們擁有快速的用戶體驗,同時仍然在一個受監管的中心式架構(而不是在他們的本地機器上)中工作。每家公司的環境搭建和運行的過程各不相同,但在某些情況下,數據科學家必須向 IT 部門提交正式申請,並等待數天或數周,這取決於他們手頭積壓的工作。這給兩個團隊都帶來了工作壓力。
容器化對於數據科學和 IT 技術運維團隊而言都有利。例如,在 DataScience.com 平台上,我們允許 IT 在管理儀表板中配置具有不同語言、庫和設置的環境,並使這些鏡像出現在數據科學家啟動會話時的下拉菜單中。這些環境可以用於任何運行、會話、計劃作業或 API。(或者您不必配置任何內容。我們提供了大量的標準環境模板供您選擇。)
最終,容器從企業層麵上解決了開展數據科學工作遇到的許多常見問題。IT 人員不再為每個分析創建定製的環境,不再需要標準化數據科學家的工作方式,不再需要耗費精力確保舊代碼不會因為環境變化而停止運行,這讓他們的壓力大減。
文章轉載自:Docker官方公眾號,原文鏈接
Docker 企業版在中國由我們的戰略合作夥伴阿裏巴巴提供
聯係阿裏雲銷售人員獲取 Docker 企業版,或訪問阿裏雲市場在線購買
最後更新:2017-09-04 15:32:36
上一篇:
Docker 將容器引入大型機
下一篇:
【硬創邦】跟hoowa學做智能路由(三):選擇合適的設備
android 讀取本地或網絡圖片,轉換為Bitmap -
2013年度ARM芯片圖形性能跑分橫向對比
在 Linux 中設置 sudo 的十條 sudoers 實用配置
編程麵試的10大算法概念匯總(http://blog.jobbole.com/52144/)
柏林紀行(中):Node.js Collaboration Summit
【短視頻SDK】如何導入Android的AAR?動態庫so文件到底怎麼樣放呢?
《洛克菲勒留給兒子的38封信》 第二封:運氣靠策劃
C# 關於類型轉換 麵試題
【xin站大全】優秀.xin域名終端企業網站推薦
引入秘密武器強化學習,發掘GAN在NLP領域的潛力