色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

首個科學計算基座大模型BBT-Neutron開源,助力突破大科學裝置數據分析瓶頸

科訊視點 ? 來源:科訊視點 ? 作者:科訊視點 ? 2024-12-26 15:29 ? 次閱讀

大語言模型能否解決傳統大語言模型在大規模數值數據分析中的局限性問題,助力科學界大科學裝置設計、高能物理領域科學計算?

高能物理是探索宇宙基本組成與規律的前沿科學領域,研究粒子在極高能量下的相互作用,是揭示宇宙起源、暗物質與暗能量等未解之謎的重要手段。高能物理實驗(如粒子對撞實驗、暗物質與暗能量實驗等)產生的數據量極為龐大且復雜,傳統的數據分析方法在處理海量數據和復雜物理結構時,面臨計算瓶頸。

2024年12月3日,arxiv上更新了一篇將多模態基座大模型運用于粒子物理科研場景的最新論文《Scaling Particle Collision Data Analysis》,從粒子對撞實驗出發,探索了大語言模型在大科學裝置數據分析與科學計算領域的全新應用場景。作者團隊來自超越對稱(上海)技術有限公司,與中國高能物理研究所(高能所)大對撞機CEPC團隊、北京大學等機構的研究人員合作,將其最新研發的科學基座大模型BBT-Neutron應用于粒子對撞實驗。模型應用了全新的二進制分詞方法(Binary Tokenization),可實現對多模態數據(包括大規模數值實驗數據、文本和圖像數據)的混合預訓練。

wKgZO2dtBeSAByRSAAG2Z51mBiM463.png

論文鏈接:https://arxiv.org/abs/2412.00129

代碼地址:https://github.com/supersymmetry-technologies/bbt-neutron

論文中對比了BBT-Neutron的通用架構模型與最先進的專業JoI模型(如ParticleNet和Particle Transformer)在粒子物理領域的Jet Origin Identification(JoI)分類任務上的實驗結果。粒子分類的識別準確率(圖1-3)表明,研究表明該通用架構的性能與專業模型持平,這也驗證了基于sequence-to-sequence建模的decoder-only架構在學習物理規律方面的能力。

wKgZPGdtBeaASCZ_AAIxfO9j1cQ492.png

這些模型在數據集大小擴展時都顯示出性能提升,Jet Flavor Tagging Efficiency, Charge Flip Rate形成了S曲線。然而,BBT-Neutron和專業模型之間觀察到不同的擴展行為,S曲線上的關鍵數據閾值表明BBT-Neutron中出現了涌現現象(在專業架構中未出現),不僅打破了傳統觀念認為該架構不適用于連續性物理特征建模的局限,更驗證了通用模型在大規模科學計算任務中的可擴展性。

wKgZO2dtBeiADt_NAAFmELPvkJY657.png

二進制分詞:統一多模態數據處理,突破數值數據分析瓶頸

近年來大語言模型在文本處理、常識問答等任務上取得了顯著進展,但在處理大規模數值數據方面依然面臨挑戰。傳統的BPE分詞方法在分詞數字時可能會引入歧義和不一致,特別是在高能物理、天文觀測等領域,分析復雜的實驗數據成為瓶頸。

為了讓大模型更加適配科學計算場景,該研究通過引入一種創新的二進制分詞方法(Binary Tokenization),即利用計算機存儲中使用的二進制表示數據,實現了數值數據與文本、圖像等多模態數據的統一表示。以使其能夠在無需額外預處理的情況下,通過二進制分詞,實現對所有數據類型的統一處理,簡化預處理流程,確保輸入數據的一致性。研發團隊在論文中詳細展示了如何克服傳統BPE方法的局限性及其數據處理過程。

BPE方法的局限性

歧義和不一致性

BPE是一種基于頻率的token 化方法,它會根據上下文將數字分割成不同的子單元,這可能導致同一數字在不同上下文中有不同的分割方式。

例如,數字12345在一個上下文中可能被分割成‘12’、‘34’和‘5’,在另一個上下文中可能被分割成‘1’、‘23’和‘45’。這種分割方式丟失了原始數值的固有意義,因為數字的完整性和數值關系被破壞了。

token ID的不連續性

BPE會導致數值的token ID不連續。例如,數字‘7’和‘8’的token ID可能被分配為4779和5014。

這種不連續性使得管理和處理數值數據變得更加復雜,特別是在需要順序或模式化的token ID時,這種不連續性會影響模型處理和分析數值數據的能力。

單數字token化的問題

盡管單數字token 化方法簡單直接,但它也會導致多位數數字的token ID不連續。例如,數字15可能會被分解為獨立的token ‘1’和‘5’,每個token 都被映射到獨立的token ID。這種分割可能會破壞數值信息的連續性,使得模型更難捕捉多位數數字內在的結構和關系。

數值處理方式

對于文本數據,使用UTF-8編碼將字符轉換為字節序列。

對于數值數據,提供了雙重策略:一種是當保留數字的確切格式和任何可能重要的前導零時,數字被視為字符串,然后使用UTF-8編碼;另一種是在進行算術運算或處理重要數值時,數字被轉換成其數值形式(例如,整數),然后轉換成字節數組。 這種方法保證了模型能夠統一且高效地處理各種數據類型。

對于科學公式或符號: 復雜的表達式被解析并序列化成字節序列,捕捉公式的結構和內容。 例如,公式E = mc^2被編碼為字節數組[69, 61, 109, 99, 94, 50],代表了公式的結構和變量。

對于圖像數據,使用patch方法將圖像分解為小塊,提高對高密度像素數據的處理效率。

BBT-Neutron模型架構:高效捕獲數值關系與多功能任務適配

BBT-Neutron模型架構主要由三個關鍵部分組成:Patch Embedding、Patch Self-Attention和LM Head,能夠將輸入序列通過字節分詞轉換為高維向量,使其具備了包括執行分類、回歸任務在內的多種能力。這些任務在許多科學應用中非常常見,目標不一定是生成新序列,也可以是對輸入分類或預測連續值。

Patch Embedding

包含兩個線性層,第一層將輸入patch投影到高維空間,第二層細化這一表示,產生最終的嵌入向量。

兩層之間引入ReLU激活函數,使模型能夠非線性地表達輸入字節patch,捕捉patch內部byte之間更復雜的結構。與通常只使用單一層線性嵌入的字節級模型相比,能夠提供更大的靈活性,更好地表示輸入patch的細節和非線性關系。

Patch Self-Attention

在patch自注意力機制中,注意力操作在patch層面執行,每個patch嵌入包含其所有點的信息,通過矩陣乘法促進不同patch之間的信息交換,同時促進單個patch內部字節之間的交互,使模型能夠有效捕捉局部和全局依賴。

LM Head

輸出維度定義為Patch Size × 257,其中257代表從0到255的字節值總數,加上由256表示的填充ID,Patch Size是文本序列被劃分的patch數量。這種設計允許模型獨立地為每個patch生成預測,保持基于patch方法的效率和有效性。

wKgZPGdtBeuAVumRAAKPgEq6kRs437.png

應用于粒子物理對撞數據分析:通用架構性能達到專業領域的SOTA

開發團隊在論文中分享了BBT-Neutron通用架構的首次落地實驗結果,輔助粒子物理學中的關鍵任務——噴注來源識別(Jet Origin Identification, JoI),并已取得了突破性成果。

噴注來源識別是高能物理實驗中的核心挑戰之一,旨在區分來自不同夸克或膠子的噴注。在高能碰撞中產生的夸克或膠子會立即產生一束粒子——主要是強子——朝同一方向運動。這束粒子通常被稱為噴注,是碰撞實驗中物理測量的關鍵對象。識別噴注的起源對于許多物理分析至關重要,尤其是在研究希格斯玻色子、W和Z玻色子時,這些玻色子幾乎70%會直接衰變為兩個噴注。此外,噴注是我們理解量子色動力學(QCD,描述原子核、質子、中子、夸克的相互作用機制)的基礎。來自不同類型色荷粒子的噴注在它們的可觀測量上只有微小的差異,這使得準確識別噴注的起源極具挑戰性。

wKgZO2dtBeyAROf0AAEqKvNYl3w299.png

實驗結果顯示,該研究與最先進的專業模型(如Particle Transformer和ParticleNet,將專業物理定律融入GNN架構設計)的最佳性能持平,達到行業的SOTA(圖1-3)。這個結果驗證了以sequence to sequence建模方式為基礎的decoder only通用架構,在學習物質世界和物理規律上具備與專業模型同等的學習能力。而傳統的觀念認為,seq2seq 建模不適用于時間、空間、能量等具有連續性特征的物理實在建模,只適合于人類語言這樣的離散符號的建模。而且從左到右具有位置特性的學習方式,不適用于具有時空對稱性的物理結構,要讓模型學習專業物理定律,需要在專業模型架構中融入該領域相關結構。該論文研究的成果證明了這種觀念的局限性,為表征時間、空間、能量等基礎的物理量提供了一種有效方案,同時也為物理化學等專業科學領域構建一個統一模型提供了基礎。

wKgZPGdtBeyABtwEAAGdA8SntDY059.png

Scaling分析:發現涌現行為

文中通過與ParticleNet和Particle Transformer在JoI任務上的擴展行為的方式進行對比,在數據規模增加下的Scaling行為進行了深入分析。這些訓練數據集從100到1000萬事件不等,實驗結果通過混淆矩陣(confusion matrix)、噴注風味標記效率(jet flavor tagging efficiency)和電荷翻轉率(charge flip rate)這三個關鍵指標來衡量模型的表現。

混淆矩陣(Confusion Matrix)即使用了一個11維的混淆矩陣M11來分類每個噴注,根據最高預測分數歸類到相應的類別, 塊對角化成2×2的塊,每個塊對應特定的夸克種類。混淆矩陣提供了模型分類性能的全面概覽,突出顯示了在各種噴注類別中正確和錯誤預測的情況。

噴注味標記效率(Jet Flavor Tagging Efficiency)定義為每個塊內值的總和的一半,不區分由夸克和反夸克產生的噴注。

電荷翻轉率(Charge Flip Rate)定義為塊中非對角線元素與塊總和的比率,代表誤識別夸克和反夸克產生的噴注的概率。

wKgZO2dtBe2ASX58AAEyumZ2Hus874.png

圖4顯示,這些模型在十一種類的粒子噴注來源鑒別的分類問題上表現出相似的性能,并且在數據集大小擴展時都顯示出性能提升,Jet Flavor Tagging Efficiency, Charge Flip Rate形成了S曲線。

開發團隊指出,該模型和專業模型之間出現了不同的擴展行為。BBT-Neutron的S曲線上的關鍵數據閾值,特別是Charge Flip Rate的數據發生到了性能突變,表現出顯著的涌現現象(Model Emergence),然而該現象在ParticleNet或Particle Transformer中并沒有被觀察到。

可能的原因是這些專業模型納入了特定領域的結構特征,它們采用專門設計的架構來表示粒子相互作用和分類,這可能導致隨著數據規模的增加,性能提升更快達到飽和。與此相反,研究中的通用架構模型,使用統一的數據表示來處理所有物理結構。專業模型架構通過消除位置編碼或相關操作來實現粒子的置換不變性(permutative invariance),BBT-Neutron不依賴置換不變性,而是采用從左到右的序列輸入,這與語言模型的seq2seq范式一致。雖然這種方法需要更大的數據集來推斷,但一旦超過臨界數據集閾值,它就能實現顯著的性能飛躍,這表明了該模型即使沒有像專業模型那樣明確在架構設計中納入置換不變性,也能夠通過足量數據的學習學到空間對稱性。

通俗而言,當數據規模逐步增加時,該模型在性能上出現了顯著躍遷。這一發現驗證了通用模型在大規模科學計算任務中的可擴展性,即該模型有望成為跨領域的科學計算基座模型。

該論文研究標志著大模型在多模態數據處理與科學計算任務中的巨大潛力。隨著人工智能技術與大科學裝置的深度融合,在未來或許能夠加速中國大對撞機CEPC等前沿科研項目的實施落地。該項目參與者、CEPC團隊成員阮曼奇曾評論道,“人工智能技術將助力大科學設施的設計研發,能大幅提高其科學發現能力,更好地幫助我們探索世界的奧秘、拓寬人類的知識邊界。反過來,通過總結對比在具體科學問題上觀測到的AI性能差異,也能加深我們對AI技術本身的理解,更好推動AI技術的發展。”

wKgZPGdtBe6AO8a9AAIma7cYc00797.png

目前BBT-Neutron科學計算基座模型已經落地到粒子物理、核聚變、強磁場、石油化工、儲能、鈣鈦礦太陽能、飛行傳感器、基因編輯等真實科研工程難題。

關于超對稱技術

超越對稱(上海)技術有限公司位于上海市徐匯區漕河涇開發區內,專注于研發跨學科、跨結構、跨尺度的科學基座大模型 BigBangTransformer[乾元],賦能科學計算、工業智能、空間智能、醫療健康等領域,致力于通過大模型技術攻克物理世界的復雜難題,推動人類邁進“Type II 文明“。

BBT模型發展歷程

BBT模型歷經三代迭代,持續探索大模型的科學應用路徑:

2022年:發布BBT-1,10億參數的金融預訓練語言模型;

2023年:推出BBT-2,120億參數的通用大語言模型;

2024年:發布BBT-Neutron,1.4億參數的科學基座大語言模型,實現文本、數值和圖像數據的多模態統一預訓練

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3342

    瀏覽量

    42490
  • 數據處理
    +關注

    關注

    0

    文章

    598

    瀏覽量

    28564
  • 數據分析
    +關注

    關注

    2

    文章

    1449

    瀏覽量

    34056
  • 大模型
    +關注

    關注

    2

    文章

    2442

    瀏覽量

    2692
收藏 人收藏

    評論

    相關推薦

    Mathematica 在數據分析中的應用

    數據分析是現代科學研究和商業決策中不可或缺的一部分。隨著數據量的爆炸性增長,對數據分析工具的需求也在不斷增加。Mathematica,作為一種強大的
    的頭像 發表于 12-26 15:41 ?39次閱讀

    數據可視化與數據分析的關系

    在當今這個信息爆炸的時代,數據無處不在。無論是企業運營、科學研究還是個人決策,我們都需要從海量的數據中提取有價值的信息。數據分析數據可視化
    的頭像 發表于 12-06 17:09 ?340次閱讀

    數據科學工作流原理

    數據科學工作流包括數據收集、數據預處理、數據探索與可視化、特征選擇與工程、模型選擇與訓練、
    的頭像 發表于 11-20 10:36 ?190次閱讀

    LLM在數據分析中的作用

    隨著大數據時代的到來,數據分析已經成為企業和組織決策的關鍵工具。數據科學家和分析師需要從海量數據
    的頭像 發表于 11-19 15:35 ?280次閱讀

    為什么選擇eda進行數據分析

    數據科學領域,數據分析是一個復雜且多步驟的過程,它涉及到數據的收集、清洗、探索、建模和解釋。在這些步驟中,探索性數據分析(EDA)扮演著至
    的頭像 發表于 11-13 10:41 ?234次閱讀

    北太振寰發布新版科學計算軟件,助力科研與工程融合

    近日,在重慶舉辦的第三屆數學促進經濟社會發展論壇(2024)上,一款備受矚目的科學計算與系統仿真軟件——北太天元v4.0正式發布。該軟件由北京大學重慶大數據研究院孵化的北太振寰(重慶)科技有限公司
    的頭像 發表于 11-11 13:44 ?208次閱讀

    SUMIF函數在數據分析中的應用

    在商業和科學研究中,數據分析是一項基本且關鍵的技能。Excel作為最常用的數據分析工具之一,提供了多種函數來幫助用戶處理和分析數據。SUMI
    的頭像 發表于 11-11 09:14 ?320次閱讀

    計算在大數據分析中的應用

    計算在大數據分析中的應用廣泛且深入,它為用戶提供了存儲、計算分析和預測的強大能力。以下是對云計算在大
    的頭像 發表于 10-24 09:18 ?452次閱讀

    使用AI大模型進行數據分析的技巧

    使用AI大模型進行數據分析的技巧涉及多個方面,以下是一些關鍵的步驟和注意事項: 一、明確任務目標和需求 在使用AI大模型之前,首先要明確數據分析的任務目標,這將直接影響
    的頭像 發表于 10-23 15:14 ?728次閱讀

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    、優化等方面的應用有了更清晰的認識。特別是書中提到的基于大數據和機器學習的能源管理系統,通過實時監測和分析能源數據,實現了能源的高效利用和智能化管理。 其次,第6章通過多個案例展示了人工智能在能源
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    閱讀這一章后,我深感人工智能與生命科學的結合正引領著一場前所未有的科學革命,以下是我個人的讀后感: 1. 技術革新與生命科學進步 這一章詳細闡述了人工智能如何通過其強大的數據處理和
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    和數量直接影響到模型的準確性和可靠性。因此,數據獲取、處理、分析和質量控制在AI for Science中至關重要。此外,數據驅動的研究范式也促使
    發表于 10-14 09:16

    阿里云攜手中國科學院地化所發布首個月球專業大模型

    近日,在備受矚目的數博會上,中國科學院地球化學研究所攜手阿里云宣布了一項重大合作成果——全球首個“月球科學多模態專業大模型”正式問世。這一突破
    的頭像 發表于 08-29 18:08 ?798次閱讀

    數據分析除了spss還有什么

    Sciences)是一款非常流行的統計分析軟件,但除了SPSS之外,還有許多其他數據分析工具和方法。 引言 數據分析是一個跨學科的領域,涉及到統計學、計算
    的頭像 發表于 07-05 15:01 ?619次閱讀

    NVIDIA Blackwell平臺推動科學計算突破發展

    最新加速器和網絡平臺提升高級模擬、AI、量子計算數據分析等方面的性能。
    的頭像 發表于 05-15 09:45 ?378次閱讀
    主站蜘蛛池模板: 漂亮的av女演员| 99re5久久热在线| 蜜桃人妻无码AV天堂三区| 全黄h全肉细节全文| 含羞草影院AE在线观看| 99久久亚洲综合精品| 亚洲精品视频在线播放| 日本AAA片爽快视频| 久青草国产在视频在线观看| 国产传媒在线播放| av影音先锋天堂网| 伊人久久大香线蕉观看| 小寡妇好紧进去了好大看视频| 国产伦精品一区二区三区免费观看 | seyeye在清在线| 亚洲日本欧美天堂在线| 手机看片国产免费| 年轻的女职工在线观看| 久久黄色免费网站| 国产亚洲精品久久精品6| 国产Av影片麻豆精品传媒| oldgrand欧洲老妇人| 1000部做羞羞事禁片免费视频网站| 亚洲成人欧美| 小柔的性放荡羞辱日记| 甜性涩爱全集在线观看| 三级黄色高清视频| 人妻熟妇乱又伦精品视频中文字幕| 玛雅成人网| 鲁大师影院在线视频在线观看| 经典三级四虎在线观看| 国产一区内射最近更新| 国产日韩欧美三级| 国产午夜a理论毛片在线影院| 国产成人在线播放| 国产成人精品视频频| 国产69精品久久久久APP下载| 吃春药后的女教师| 福利啪啪吧| 国产精品大全国产精品| 国产精品99久久久久久AV下载|