閱讀578 返回首頁    go 阿裏雲 go 技術社區[雲棲]


阿裏雲何萬青:搭建首個全球雲上超算中心,做超算能力的普惠者

阿裏雲上線了新的異構計算實例和高性能計算平台,引發行業關注。這件事,把以往各國專家爭相登頂的高性能計算能力“珠峰”,變成普惠覆蓋的“青藏高原”。這個高性能計算平台背後的團隊帶頭人、超算專家何萬青,帶著十幾年超算生涯的積澱,用半年時間閃電開發雲端超算中心,他是怎麼做到的?

作者、采訪|郭寶婷

編輯|小魚

微信公眾號ID|Xtecher

高性能計算能力,又稱“超算”,是國家科技競爭力的重要指標。

早在2013年,中國“天河2號”超級計算機榮登全球超級計算機500強榜首,這是繼2009年後,中國製造再獲此殊榮,意味著中國在全球科技版圖中再次鞏固了自己的地位。

何萬青博士,就是這項成就的推動者。從上海交大博士畢業後的近20年間,何萬青始終專注於高性能計算能力的推進。他曾擔任英特爾高性能計算團隊負責人和高級架構師,也是“天河2號”超級計算機英特爾支持團隊核心成員之一。

2017年2月,何萬青加入阿裏雲,他迎來了個人生涯與高性能計算受眾轉變的雙重節點——過往對超算能力的探究,是各國“攀登珠穆朗瑪峰”的比拚,現在,他的團隊要做的,是把高性能計算能力變成普惠覆蓋“青藏高原”,從而降低技術門檻,人人可以輕鬆使用。

降低超算使用門檻

曾經,超算在中國可望而不可及。2005年,何萬青開始在英特爾組建高性能計算團隊,那時中國自己的超算還處於起步階段,計算能力製高點始終被美國和日本壟斷,大部分超算機器也是從國外買的,受到嚴格監管。業內傳說氣象局曾有一套IBM的機器,會由國外工作人員在玻璃房子外監視,因為廠家怕自己的機器在中國被用來做核模擬。可見計算能力在國家科技實力中的重要性和敏感程度。

2005年左右,國內各大高校研究機構還有超算中心積極自建超算,領銜的有曙光、聯想這樣的公司。中國逐漸在國際榜單上嶄露頭角,排名不斷提升。到2009年,“天河1A號”首次奪冠。但一年後它的名次就掉下來了,因為國際競爭異常激烈。

隨後,在中國科學家的努力下,超級計算機“天河2號”連贏了6屆冠軍,中國逐漸取得了科技領先的地位。

超算中心的競賽,就是計算界的奧運會。奧運會上,各國都在爭世界第一。參與了多年計算“奧運會”的何萬青發現,連贏很多屆“奧運會”後,大家不會再看金牌數,而是會關注到“全民健身”程度。

此時,人工智能浪潮催生的計算迭代需求,早已超過摩爾定律。摩爾定律是單個CPU的發展速率,但超算的上升斜線甚至更加陡峭。科幻小說《三體》在2008年描寫的世界上最快的計算機進行“五百萬億次浮點運算”,其實在這本書出版的當年就被超越了。超算發展的速度遠比人想象的要快,但這個速度主要把握在國家科技科研機構手裏,企業和大眾享受不到。

市場迫切需要的不再是“金牌”,而是計算能力整體的獲得和提升。計算能力是人工智能產業大規模的爆發的原動力,有了高性能計算能力,深度學習成本將縮減一半,大幅降低人工智能計算門檻。

而現實卻是,高性能計算能力由超算中心和大型科研中心把握,企業、公眾與計算能力應用之間有巨大斷層。

排隊難。超算中心沒辦法提供隨時隨地的服務,企業要通過一定的手續才能使用到超算中心的計算能力。其次,規模不能伸縮,企業無法保證取得自己所需規模的計算能力。以及,高性能計算軟件收費貴,基本是按核數和使用時間來算,一旦時間把控不好,就會出現一次性付了一大筆錢卻用不完,或是超了時限不夠用的情況。

直到2016年,計算能力發展已經成熟,人工智能引爆超算需求,是時候把過往追求金牌的力量用在提高“全民健身”上了。將高性能計算普及給大眾,何萬青確定,“這就是我未來要做的事”。

“上雲”,從珠峰到高原的普惠覆蓋

“阿裏的願景,是給更多中小企業普惠互聯網能力,讓他更好地做生意、把東西賣出去。現在超算也到了這個階段,計算能力可以產生更好的設計、生產和創新。阿裏雲飛天研發負責人李津曾打了個比方,我們不做珠穆朗瑪峰、不做奧運會了,我們去做一個青藏高原。這句話我特別特別認同。珠穆朗瑪峰海拔8848米,但在青藏高原生活的人來看,也就是四千多米,因為青藏高原本身就平均海拔超過四千米了。你知道,在中國超過四千米的高峰有32座。”

何萬青現在要做這件降門檻的事,他看到,市場的需求很大,而阿裏巴巴集團除了有過硬的技術支撐以外,一貫有技術普惠的情懷。

把以往是“珠峰”的高性能計算能力變成“高原”,怎麼做?答案隻有一個,上雲。

“把高性能計算能力做到雲端,虛擬化、去硬件化,這樣才能讓人隨時隨地隨需取用,解決以往排隊難、規模不可控、花費高的痛點。”

但對高性能計算“上雲”這件事,做這行的技術專家一開始不太接受。 “超算這個領域的人,都有對性能的極致追求”,而超算一旦虛擬化,性能一般會有損失。以往做高性能計算,技術人員都輕車熟路,因為隻要在物理機群上搭建即可,以現在的技術水平來說毫無難度,但上雲完全是另外一回事。

“我們以前做了十多年,作為廠商,不管是戴爾、惠普、IBM、英特爾,做高性能計算大家已經熟門熟路。雲平台是為分布式計算發明的,但超算是並行計算,是集中使用機器,雲端是分散使用機器,所以這個過程中有適配的問題,要重新設計。”

“上雲”不僅僅是計算能力虛擬化的純技術問題,還要充分考慮到怎樣從阿裏的飛天平台上“長出來”,打造成一個基於已有雲端平台的產品,而不是反向地做一個產品來迎合平台。

阿裏雲八年的虛擬化技術和產品積累,以及不斷的創新,保證了用戶不用擔心上雲的性能損失。阿裏雲陸續完成了計算、網絡、存儲三輛馬車的升級,性能提升幅度非常大,加上成熟的“飛天”技術,何萬青相信,阿裏雲完全可以承擔起高性能計算“上雲”這件事,並提供一個不斷進化,“充滿升級活力”的計算平台。

互聯網公司快節奏的作風,也讓何萬青在大唿“在互聯網公司就是太忙了”的同時,倍感高效和充實。

2017年2月正式加入阿裏雲後,何萬青和他的團隊加班加點拚了半年時間,2017年9月,阿裏雲的彈性高性能計算平台E-HPC邀測版上線。

9月12日,阿裏雲在北京正式亮相了異構計算家族,推出一係列滿足人工智能、高性能計算需求的計算實例。作為其中一員,E-HPC麵向對傳統對高性能計算有強烈需求的高校科研機構和企業用戶,也是中國首個公共雲上的HPC as a Service產品。

E-HPC建立在阿裏雲強大的的GPU和CPU基礎架構之上, 提供了和阿裏雲產品無縫結合的高性能計算全部軟件棧。

“如果把傳統超算中心比作‘珠穆朗瑪峰’,那麼阿裏雲的E-HPC則是將高性能計算做更普惠的覆蓋,成為高性能計算的‘青藏高原’。”平台的上線,何萬青感到非常欣慰。“我們可以幹大事,就是這種感覺”。

對標集群環境的普惠高性能計算

在人工智能領域,新一代的異構加速計算平台可將深度學習成本縮減一半,大幅降低人工智能計算門檻;而基於阿裏雲異構平台的全新高性能計算實例E-HPC,可一鍵部署獲得媲美大型超算集群環境的“雲上超算中心”。

高性能計算上雲,亞馬遜和微軟也嚐試做相似的事,比如亞馬遜的AWS在國內也有一些人在用。另外,傳統的超算中心也在試圖出售多餘的計算能力。

與競品相比,阿裏雲高性能計算平台的優勢在哪裏?

阿裏雲勝在門檻低、體感好、PaaS平台完備、自動化水平高。“阿裏雲的平台可以全自動生成機群,連接多個節點,便捷度和彈性上都更具優勢。”

阿裏雲異構計算平台的盈利空間和市場又在哪裏?

何萬青說,“創業公司是一定會用雲資源而不是自建數據中心的”,這是因為,相比把資金和精力花在硬件和機房上,創業公司更核心的精力會花費在商業和產品創新上。高性能計算上雲後,按時、按需收費的方式,將輕便地解決企業以往計算難的問題。

同時,在阿裏雲ECS和異構計算基礎架構上的PaaS和SaaS是阿裏雲超算平台的亮點,也是雲端超算平台的盈利點。

比如汽車公司需要渲染模型,想用程序跑一下看看設計得好不好,但汽車工程師並不是計算機高手,這時就會用到雲上超算服務,按需取用,用戶的花費比過去更低,更不需要外包或購置機器和搭建管理機房。

“用戶要的是一個生產流程,其實就是工藝,現在國內外有很多第三方服務商做,他們把軟件跟用戶的生產的過程結合起來這種外包的方式。用戶現在用我們的平台跑,我們按照時間收費,不用再像以往一樣外包給別人。”

如何不斷提升用戶的體驗度?

“提供的彈性、完善的開發環境,可以讓用戶以較低成本、最大的靈活度在雲端快速搭建完整的超算集群和硬件加速服務,真正做到將高性能計算能力普惠到大眾。”

高性能計算普及是未來的方向

阿裏之所以專注高性能計算這一塊,是因為“看到了未來的方向”。

“將來要讓人們像使用水和電一樣來使用雲的計算資源。我在咖啡廳,就可以跑一個科學假想的數值模擬,隻用八、九個計算節點,就能把分子動力學模擬了。高性能計算上雲這件事情很不容易,但我們確信它是未來的方向。阿裏看的是未來十年,做的是對未來有巨大價值的事情,而人們一定會為價值買單。”

機器不是阿裏的市場,硬件也不是阿裏的市場。阿裏想做的,是改變生產方式。

“阿裏雲的虛擬化技術和彈性能力已經非常先進,以此為基礎,我們可以提供一種顛覆性的生產方式、生產資料。”這就好比微軟的office365網站,微軟把辦公套件上雲以後,大家不用再買office套裝,而是按需付費,使用的素材和模板也在雲端共享,同時還杜絕了盜版問題,提高了軟件廠商開發的積極性。比起傳統賣辦公軟件的方式,這就是一種顛覆。

“未來的並行計算、高性能計算有很大的市場,目前市麵上的服務是不夠的,用戶才有這些痛點。”

何萬青回顧自己的超算的職業生涯,是一個從“專業”到“普惠”的轉變,加入阿裏雲是個轉折點。

第一個階段是專業,國內超算領域的專家、大牛每年會得到國家的撥款買機器,推進超算技術。第二個階段就是普惠,將原本屬於科學家、教授、研究中心的資源,普惠給需要創新的企業和大眾。“今天高性能計算和你我的生活息息相關——石油勘探,天氣預報,基因製藥,汽車設計,航空航天,金融期貨,數字電影和人工智能等都離不開高性能計算,科學研究,教育科研在大量使用高性能計算,高性能計算上雲,將直麵這十幾年來摩爾定律多核帶來的並行計算挑戰,讓中國大量中小企業和科研教育界,能夠獲得觸手可及的超算讓創新能力升級。”

十幾年的努力中,何萬青有兩個充滿成就感的時刻:第一次,是“天河2號”奪冠時,有種“一個人和一個大項目綁在一起”的成就感。第二次,是他在阿裏雲帶領新團隊把高性能計算能力上雲了,做了一個用戶體感好的平台出來,收獲的不再是像獲得世界第一時的光榮自豪感,而是一種沉澱下來的自信心。

“我有這個視野,相信這件事一定能做出來。過程中肯定有很多坑,但隻要有明確的方向,就像馬雲老師說的那樣,相信就一定能看見。堅信自己做的事情的價值,而且很清楚它的價值所在,自然就不會被別的東西動搖。”

何萬青相信,阿裏雲的普惠精神將帶領自己對超算的極致追求走得更遠,更能帶領大中小企業及需要超算的普通人,走得更遠。

━━━━━

封麵設計:楊帥先 排版:Forest 校對:Forest

━━━━━

如果您有國內外科技行業新鮮資訊或獨到見解,歡迎與Xtecher聯係

Xtecher官網平台現開通認證作者,

(添加好友請注明公司、職位、事由)

最後更新:2017-10-08 06:43:00

  上一篇:go 阿裏雲要引領數據庫市場?這話沒毛病
  下一篇:go 人類數據總量將破100ZB 阿裏雲準備好了嗎?