美國商務部以國家安全關切為由,將中科曙光和江南計算技術研究所等5家中國實體列入出口管制“實體清單”,禁止它們從美國供應商采購零部件。這是繼將華為公司列入“實體清單”后,美國對中國企業采取的又一起單邊制裁行動。此次被列入“實體清單”的中國企業,主要業務與開發超級計算機有關。超級計算機為何備受國際關注?我國的超算進展如何?發展高性能計算需要思考哪些戰略性問題?以下中國工程院院士李國杰的這篇文章或許能給我們一些答案。
高性能計算機是我國科學技術快速發展的標志性成果,已成為繼高鐵之后的又一張“中國名片”。一個發展中國家在尖端計算技術上能迅速走到世界前列,這是一件了不起的事情。對我國高性能計算機的現狀,有人極力贊美——“中國超級計算機技術實力碾壓美國”的醒目標題曾在網上刷屏;也有人表示疑慮,認為國產的超級計算機是“用航母運載沙丁魚”。對發展高性能計算的目標和策略選擇,學術界也有不同的看法。正確的戰略決策來源于對國情和技術發展趨勢實事求是的分析,而不是玩弄技術新名詞的“紙上談兵”。******指出:“堅持實事求是,最基礎的工作在于搞清楚‘實事’,就是了解實際、掌握實情。這就要求我們必須不斷對實際情況作深入系統而不是粗枝大葉的調查研究,使思想、行動、決策符合客觀實際。”在攀登計算機領域“珠穆朗瑪峰”的關鍵時刻,我們需要遵循******的指示,對我國高性能計算機的這件“實事”做深入系統的調查研究,做出符合客觀實際的決策。
在討論與高性能計算有關的戰略問題之前,先要明確高性能計算機究竟是指什么。高性能計算機并沒有嚴格的定義,人們在不同的場合講的“高性能計算機”的含義可能也不一樣。①國際組織定義。國際上有一個為世界上最高性能的500臺計算機排名的組織,最近一次排名是2019年6月,第500名的峰值性能是2.1Pflops(2100萬億次浮點計算每秒)。在這個組織的網站上,高性能計算機(HighPerformanceComputer,HPC)和超級計算機(Supercomputer)是混用的,不加區分地當成一種計算機類型。也就是說,目前他們把超級計算機(高性能計算機)圈定在Pflops級(千萬億次浮點計算每秒)計算機水平。本專題討論的重點也是Pflops級以上的超級計算機。②市場的定義。企業在銷售計算機時,高性能計算機是指區別于個人電腦(PC機)與低檔服務器的計算機,往往認為價格在10萬元人民幣以上的就是高性能計算機,而把超級計算機看作是最高檔的幾百臺高性能計算機。
1.發展高性能計算的目的究竟是什么?
高性能計算可以應用于核模擬、密碼破譯、氣候模擬、宇宙探索、基因研究、災害預報、工業設計、新藥研制、材料研究、動漫渲染等眾多領域,對國防、國民經濟建設和民生福祉都有不可替代的重大作用,發展高性能計算就是要讓這巨大的作用發揮出來。同時,高性能計算也是中美大國博弈的重要領域,每一次較量的勝利都會給國人極大的激勵,有力增強了民族自豪感和凝聚力。因此,發展高性能計算意義重大。
我國發展高性能計算需要正確處理世界排名與實際效用這兩者的關系。其實,我國與美國在高性能計算領域的博弈,主要是因為該領域研究對國防、經濟和民生的實際效益,而不是某一次排名是否第一。只要認清楚這一點,兩者就統一了。如果不重視實際應用績效,而只把排名第一作為“政治正確”的標志,可能會產生誤導。
2.如何全面部署計算機科研與產業的發展?
如果把高性能計算機理解成超級計算機,其在整個計算機產業中占比并不大。超級計算機主要是用來解決其他計算機解決不了的挑戰性問題,采用幾萬個甚至百萬個以上的處理器并行協同解決一個大問題。在實際應用中,更多的場合是需要同時響應大量的任務請求,即不是要算得快而是要算得多。這一類應用需要高通量計算機,主要由云計算中心和大數據中心部署。目前銀行等金融行業還在大量采購美國IBM的主機系統(Mamframe),他們買的主要不是計算速度,而是可靠性和軟件的兼容性,業界稱為高可靠或高可用系統。我國的計算機產業要從中低端向高端發展,因此我們的任務不僅僅是發展超級計算機,而且包含發展高端計算機。
美國政府2015年發布的“國家戰略性計算計劃”(NSCI)就是一個較全面的頂層規劃,而2016年啟動的E級計算機研制計劃(ECP)只是美國能源部對NSCI計劃的響應。我國國家重點研發計劃中有“E級計算機關鍵技術驗證系統”重點專項,但沒有包括其他高端計算級的頂層規劃。在我國高通量計算機至今沒有重大項目支持,幾大網絡服務商需要的云計算和數據中心設備基本上是自行設計,并委托其他公司組裝。如果長期缺乏全國科技力量的支持,我國網絡服務企業將難以形成全球競爭優勢。
3.我國應重點發展什么類型的高性能計算機?
高性能計算機有兩種基本類型:①能力(capability)型,強調解決單一復雜問題的最高計算速度,盡量縮短求解一個最大最難問題的時間;②容量(capacity)型,強調同時處理多個大任務,每一個任務只用到計算機的一部分能力。全球TOP500超級計算機大多數屬于容量型。科學研究對計算能力的需求是無止境的,E級(1018)計算機做出來后,還會提出Z級(1021)計算的需求。研制能力型超級計算機必須突破現有計算機的技術瓶頸,以引領計算機技術的發展,因此。美國的ECP計劃的目標是研制能力型計算機。
世界上最高水平的超級計算機,主要用于科學研究,而科學計算在高性能計算機應用中占的比例巳不到10%。近幾年大數據分析和機器學習等人工智能應用巳成為高性能計算機的主要負載,2017年智能應用在中國高性能計算機應用中的占比巳提升到56%,估計這個比例今后還將繼續擴大。美國、日本等國紛紛將正在研制的超級計算機稱為智能計算機。
長期以來,評測超級計算機的性能都采用Lmpack測試程序,這是一個求解線性方程組的程序。這個程序的優點是可擴展性特別好,現在還沒找到比它擴展性更好的測試程序。而且,Lmpack是CPU密集應用的程序,可以測出幾乎滿負荷、滿功耗下的計算機浮點計算性能。從這個意義上講,Linpack是測試超級計算機可靠性和穩定性的理想程序。但是,求解線性方程組終究只是一種應用,全面衡量超級計算機的性能需要更合適的基準(benchmark)測試程序,可惜現在還沒有。由于功耗的限制,發展通用超級計算機已遇到極大的困難,近年來領域專用超級計算機成為熱門研究方向,Linpack顯然不適合作為領域專用計算機的測試標準。
我國應重點發展什么類型的高性能計算機,這不是一個學術問題,而是一個科技需求問題,只有通過對我國國防、經濟、科研和民生的潛在需求的認真調研才能回答。但有一點可以肯定,容量性超級計算機、智能計算機、領域專用超級計算機與能力型超級計算機一樣重要,在做科技決策時應統籌兼顧。把研制E級高性能計算機的全部人力物力都投在爭取Lmpack指標世界第一可能是不明智的決策。
4.中國到底有沒有對高性能計算的迫切需求,現在的應用水平怎么樣?
從理論上講,我國對超級計算機肯定有強烈需求;但從實際上講,這一需求還與一個國家的科研水平、經濟水平有關。2018年,中國氣象局安裝了派-曙光超級計算機,峰值計算性能是8Pflops,計算能力已躍居氣象領域世界第3位。眾所周知,氣象領域是使用超算的大戶,目前能正常發揮作用的超級計算機離E級計算還有兩個數量級的差距。氣象部門要把E級超級計算機用起來,必須在基礎研究、算法、軟件和人才培養上做出巨大的努力。有人說,先有E級機,才會有E級計算的需求。這是對的,我們需要在E級計算機上培養E級用戶。但一臺超級計算機的平均有效壽命只有5年,5年內哪些應用領域的用戶可以培養出來也需要通過調研做出判斷。
我國現有的超算中心究竟應用效益高不高是一個頗有爭議的問題。有些超算中心宣稱效益非常好,支持了上千項國家重大科技項目,產生了近百億元經濟效益;而媒體上也有文章說超算中心核心應用拓展不夠,沒有產生預期功效。造成這種局面的原因是缺乏第三方的公正評估。國家應組織有公信力的評測機構或學會對全國的超算中心做一次評估,了解清楚超算中心究竟完成了多少事關國家重大戰略需求的計算任務?借助超算做出了哪些重大科學發現?對經濟發展作出了哪些不可替代的貢獻?P級(1015)以上的計算任務究竟占多大比例?……只有按照******講的搞清楚“實事”,掌握了實情,才能對我國超算的實際應用水平做出正確判斷。
5.發展高性能計算要強調應用牽引還是技術驅動?
人們常說,發展科技既要需求牽引,又要技術驅動。但在實際過程中,往往有所偏重。比較而言,美國發展超級計算機主要是應用牽引,而我國側重于技術驅動。從一個例子可以看出美國應用牽引的傾向。美國最近開展的ECP計劃的負責人PaulMessina是美國阿貢實驗室的計算機應用科學家,ECP計劃則是由阿貢實驗室(超級計算機的應用方)主導的科研項目。在Summit計算機交付之前,美國能源部巳經成立了25個應用軟件研發小組,設計能夠利用E級計算機的軟件。ECP計劃是否成功的指標不是Linpack性能,而是這25個應用性能的“幾何平均值”,這意味著其中任何一個應用的性能都不能很差。美國是先有挑戰性應用問題,為解決應用問題造新的計算機;我國的做法則是先造出世界領先的機器,再來找應用。發展超級計算機一定要國家戰略導向,以及戰略中的挑戰問題導向。在研制新的超級計算機之前,應用部門一定要先把急需解決的挑戰問題明明白白提出來,用可考核的應用性能指標來評價正在研制的計算機。在應用牽引上我們應虛心地向美國同行學習。
強調應用牽引不是說技術驅動不重要。由于摩爾定律臨近極限,學術界普遍認為現在是系統結構研究的黃金時代,但系統結構研究的困難超出人們的預期。
在ECP計劃剛啟動時,PaulMessina強調E級計算機研制要走所謂高架軌道(ffigherTrajectory),兩年以后描述E級計算的用語已經從“新型(novel)”轉向比較乏味的“先進(advanced)”,Summit計算機的重大技術突破也不多。對于E級計算機和以后更高性能的超級計算機研制者,能耗、訪存、通信、可靠性、應用性能這幾道“高墻”必須越過。沒有關鍵技術的重大突破,超級計算機不可能再上一個大臺階。中國計算機學者應當在這一征程中作出載入史冊的貢獻。國家在安排高性能計算重大科研任務時,不能只盯住工程任務,應更加重視顛覆性器件(如新型存儲器件、超導、量子、光子器件等,以及幾種器件的跨界協同設計)和變革性系統結構的基礎研究。降低功耗的技術突破要擺在最優先的位置。
6.如何建立發展高性能計算的生態環境?
所謂科研和產業生態環境是指圍繞著一個目標形成的,從基礎研究、技術突破、產品研發到應用推廣的協作共同體,不是簡單的鏈條,而是相互關聯的社會網絡。
對我國高性能計算生態環境而言,最薄弱的環節是軟件。目前,我國大型科學計算的應用軟件基本上都依靠進口。我國的超算經費用于應用軟件開發的還不到10%,美國相應的投入資金約為中國的6倍。振興軟件的關鍵是人才,目前能培養高性能計算軟件人才的大學很少,因此建議應擴大該領域的招生名額。美國參與ECP計劃軟件開發的大學并不都是一流大學,一般的大學也承擔了開發任務。
我國高性能計算生態環境的另一個薄弱環節是企業應用。美國公司的超算系統規模是中國公司的10倍多。例如,汽車行業的通用、克萊斯勒等公司,每家都有10多個超算系統,英國的BP石油公司也有世界上最大的工業用超級計算機。我國使用高性能計算機較多的是BAT(百度、阿里巴巴、騰訊)等網絡服務公司,而在制造業的應用則規模較小。只有企業較普遍地用上了高性能計算機,才能真正走上高質量發展道路。構建高性能計算生態環境時,還要重視發揮骨干企業的作用。高性能計算機研發的一次性工程(即非經常性工程,NRE)費用很高,只有通過企業的工業化設計,采用標準化組件和Scaledown技術,才能使小規模的高性能計算機具有很高的性能價格比,通過批量銷售收回NRE成本,才能使國家科研投入獲得較高的回報。
-
超級計算機
+關注
關注
2文章
461瀏覽量
41942 -
中科曙光
+關注
關注
5文章
300瀏覽量
17783
原文標題:李國杰院士:發展高性能計算需要思考的幾個戰略性問題
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論