模擬腦神經網絡,探索人腦上億個神經元之間是如何連接與工作的,帶來每秒高達100TB數據高吞吐量;腦疾病研究中,通過數萬份患者數據驗證抑郁癥與睡眠治理不佳的腦區有重合之處;在自動駕駛車輛每天產生了數十TB數據中訓練視覺識別算法;天文專家從數十PB海量數據中分析發現新天體……
如今在科研領域,數據正在發揮著越來越重要的作用。尤其是隨著數據采集、存儲等技術的不斷提升,海量數據的出現徹底改變了傳統科研模式。繼實驗科學、理論科學、計算科學之后,基于“數據密集型科學”的科研新范式在大數據時代下,受到越來越多科研人員的青睞。
在“數據密集型科學”的科研新范式驅動下,高校、科研機構加速構建人工智能與大數據平臺、為不同學科提供創新基礎設施成為當務之急。但由于科研聚焦前沿研究,且不同學科之間存在著很大的差異性,造成對于數據的計算、采集、存儲、管理和利用的需求不盡相同,也讓高校的人工智能與大數據平臺加速向更高水準演進。
數據要素成為科研的驅動力
科研范式因為大數據而迅速改變。
正所謂是“巧婦難為無米之炊”,即便理論再“高明”、算法再先進,缺乏數據的支持,再好的研究設計都得“半途而廢”。如果科研數據越多,研究人員就可以利用大量數據的相關性、可取代因果關系和理論與模型,基于海量數據間的相關性驗證更多研究想法和理論,獲得更多新知識和新發現。
例如,在當前非常熱門的類腦科學研究,有一個重要的方向就是多模態多尺度數據分析理論與應用。首先建立腦成像中心,全套磁共振成像設備對小動物或者人體進行腦成像,不斷采集和分析腦科學數據,構建起多模態多尺度腦數據庫;然后,在利用模式識別、深度學習等類腦智能方法尋找基因、腦影像和認知功能的診斷指標,以揭示腦疾病致病機制、提升腦疾病臨床診斷以及藥物療效評估的準確性和效率。
“目前高校數據量增長的確非常大,很多科研領域對于各種科研數據的收集也非常重視。”復旦大學大數據學院副院長薛向陽教授如是說。
如何理解數據密集型科學與之前計算科學之間的區別,兩種科研范式似乎都需要通過大量的計算、數據來完成科學研究。但計算科學通常是先提出可行理論,再搜集數據,之后通過計算仿真進行驗證;而數據密集型科學則是先通過采集大量的數據,再通過計算與分析獲得新知識和新發現。
“數據密集型科學”的科研新范式核心挑戰還在于數據。科研數據的數據密集型,具有不可重復性、高度不確定性、高維、計算高度復雜等特征。如今越來越多科研人員,面臨的不是缺少數據的難題,而是海量數據環境下如何存儲、管理和利用數據,這對于科研數據底座的存儲在容量、性能、擴展和管理等方面提出極高的要求。
薛向陽教授介紹:“我們正在建設一個人工智能與大數據的開放共享平臺,就是希望為科研工作者解決數據存儲、管理和利用等方面的挑戰,讓數據更好地為科研所用。”
科研新范式不應被存儲所束縛
與其他行業相比,高校與科研機構在建立人工智能與大數據平臺時,對于存儲的要求更高,往往需要存儲這個科研數據基礎設施有效解決數據存不下、管不好、用不順等挑戰。
具體來看,如今的高校與科研機構普遍都在加速向“數據密集型科學”的科研新范式轉變,多學科、交叉研究的現象很常見,都重視科研數據的采集與存儲,直接導致了底層存儲的巨大壓力。
以腦科學與類腦研究為例,其所產生的數據主要以影像大文件為主,并包含了大量臨時小文件數據。由于需要存儲的數據量極大,并且始終保持著很高的增長速度,很多科研機構之前采用傳統縱向擴展的存儲很快出現明顯瓶頸;也有一些天文研究機構,一開始寄希望于通過公有云的方式來保存數據,但是隨著數據不斷積累,通過公有云的方式不僅帶來了額外的帶寬成本,還存在效率等方面挑戰。
“當前很多高校的研究都是基于大數據,首先最關鍵的是將數據存下來。”薛向陽教授直言道。
除了將數據很好地存下來,高校與科研機構大多都渴望將數據流動與共享起來,但現實情況卻是數據管理粗放、不夠精細化,數據共享低效、管理困難。比如在高校中,經常會遇到一份科研數據同時被多個課題組所使用,每個課題組都需要拷貝一份數據,在不斷科研過程中,又各自產生了大量不同的數據,最后衍生出多種版本,讓數據管理的復雜度大幅升上,降低了數據功效與流動的效率。
另外,因為學科的不同,對于存儲的性能、功能要求也是千差萬別,沒有強大的存儲做支撐,往往讓科研人員用不順。例如,從事機器視覺研究的人員,對于存儲空間極度渴求;模擬腦神經網絡相關的研究,當前只能模擬不到5%,要想100%模擬需要100 TB/s的通量,則對于數據存儲性能和帶寬要求極高,且挑戰巨大。薛向陽教授表示:“高校應用偏科學研究,很多應用都較為超前,對于存儲功能層面一直會產生新需求和新挑戰。”
“一直以來,浪潮都跟國內外多所高校進行緊密合作。高校科研領域的確走在數據存儲場景應用的最前沿。”浪潮存儲產品線副總經理周川如是說,“浪潮存儲有一些新功能、新思路都是在與高校、科研機構的深入合作中產生。”
例如,針對高校多個學科與多個課題組共享、使用、管理數據會產生多份數據的難題,浪潮存儲為用戶定制的軟拷貝功能,在元數據和索引上做變更,用戶視角是多份不同的文件,但底層則是共同的存儲空間,只有數據修改和寫入才會增加新的存儲空間,實現多份數據極速拷貝和使用,還大幅降低存儲容量開銷和管理成本,讓數據共享、使用變得更加高效。
浪潮存儲資深架構師葉毓睿介紹:“軟拷貝功能是浪潮存儲在科研場景實踐的一個小注腳,它帶來了兩大直接好處:一是數據共享加速,第二則是提升存儲效率。”
新存儲讓科研新范式步入快車道
今年初,國家正式提出加快數據中心、5G等新型基礎設施的建設進度。國家發改委之后則首次指出,創新基礎設施為新基建三大范圍之一,包括科技基礎設施、科教基礎設施等,重點支撐科學研究、技術開發等工作。隨著中國高校科研費用投入逐年增加,多個科研領域取得諸多突破與成果,創新基礎設施的重要性也日漸突出。
為此,浪潮存儲今年提出新存儲之道,在“云存智用、運籌新數據”理念的基礎上,推進“存儲即平臺”戰略,打造存儲的極致性能、容量、管理等七大核心能力,為創新基礎設施構建堅實的數據底座,讓科研新范式進入到發展的快車道。
例如,在一些注重數據存儲性能的科研場景,浪潮存儲專門為高頻訪問的元數據和日志數據“開小灶”,采用SSD盤承載元數據和日志數據顯著提升熱點數據訪問速度,并針對不同數據類型的場景進行優化,讓每種場景都能夠快速訪問、使用數據。
又如,針對高校與科研機構運維人員較少、專業度有限的情況,浪潮存儲基于智能存儲管理平臺InView,將人工智能技術融入存儲系統,對存儲系統進行集中管理、智能監測和故障預測報警,大幅降低科研機構日常的運維工作,并讓運維走向自動化和智能化,從而更好地保障各種科研項目的順利進行。
不僅如此,針對高校科研領域對于數據存儲需求趨勢,浪潮存儲積極調研與深入溝通,在新存儲之道中聚焦新架構、新介質和新能力的打造,在EB級容量、億級IOPS、TB級帶寬、7個9可靠性、存儲自治等關鍵新能力上提前布局,為科研的數據底座“厲兵秣馬”,提前做好準備。
總體來看,浪潮存儲近年來為構建強大的科研新基建不斷“加碼”,除了復旦大學類腦智能科學與技術研究院、清華大學RUSH、華中科大蘇州腦科學研究院、中國天眼等一系列明星科研項目中積累了豐富的實踐經驗外,還在科研領域打通用戶需求洞察、場景功能適配與前沿技術創新,形成良性循環,讓科研新范式加速步入發展的快車道。
責任編輯:xj
-
浪潮
+關注
關注
1文章
467瀏覽量
23917 -
儲存
+關注
關注
3文章
201瀏覽量
22401 -
大數據
+關注
關注
64文章
8904瀏覽量
137629
發布評論請先 登錄
相關推薦
評論