據了解,1997年,兩位科學家Sepp Hochreiter和Jürgen Schmidhuber共同創建了長短期記憶(LSTM)神經網絡結構,用于改善循環神經網絡(RNN)的長期記憶功能。
近期,Hochreiter在arXiv平臺發表論文,推出了一款新型的XLSTM(擴展LSTM)架構,有效克服了傳統LSTM互聯網結構“僅能按時間順序處理信息”的局限性,有望挑戰當前熱門的Transformer架構。
該論文指出,Hochreiter在新的XLSTM架構中運用了指數型門控循環網絡,并引入了“sLSTM”和“mLSTM”兩種記憶規則,使神經網絡能夠更高效地利用RAM,實現類似于Transformer的并行化處理。
研究團隊通過對基于XLSTM和Transformer架構的兩款模型進行150億個Token的訓練和測試,結果顯示,XLSTM表現更為出色,特別是在“語言能力”方面表現尤為突出。因此,研究人員預測,未來XLSTM有可能與Transformer展開競爭。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100835 -
RAM
+關注
關注
8文章
1368瀏覽量
114746 -
架構
+關注
關注
1文章
514瀏覽量
25487
發布評論請先 登錄
相關推薦
【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習
的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規律和特征。
常用的模型結構
Transformer架構:大
發表于 08-02 11:03
Transformer語言模型簡介與實現過程
在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer
Transformer模型在語音識別和語音生成中的應用優勢
隨著人工智能技術的飛速發展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
使用PyTorch搭建Transformer模型
Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本
大語言模型:原理與工程時間+小白初識大語言模型
解鎖
我理解的是基于深度學習,需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。
對于常說的RNN是處理短序列的數據時表現出色,耳真正厲害的是
發表于 05-12 23:57
【大語言模型:原理與工程實踐】大語言模型的應用
類任務上表現出色,甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務,類似于人類的系統2,如數字推理等。然而,隨著參數量的增加,大語言模型在這類任務上并未出現質的飛
發表于 05-07 17:21
【大語言模型:原理與工程實踐】大語言模型的評測
度、多角度的解釋或回答。通過這些評測任務,我們能夠全面而深入地了解模型在中文語言理解方面的實際能力。
常識百科類評測任務:此類評測任務主要評估
發表于 05-07 17:12
【大語言模型:原理與工程實踐】核心技術綜述
我也不打算把網上相關的信息在總結一下,這樣的話,工作量很大。
我主要看了-大語言模型基礎技術這節
大語言模型(Large Language
發表于 05-05 10:56
【大語言模型:原理與工程實踐】揭開大語言模型的面紗
了隨著模型規模擴大,其性能和能力提升速度的變化規律。這一定律在深度學習中表現為模型規模與性能改進之間的關系,通常表明擴大
發表于 05-04 23:55
【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》
處理中預訓練架構Transformer,以及這些技術在現實世界中的如何應用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大
發表于 04-30 15:35
大模型在戰略評估系統中的應用有哪些
智慧華盛恒輝大模型,顧名思義,是指參數規模超過千萬的機器學習模型。這些模型主要應用于自然語言處理、計算機視覺、語音識別等領域,在大場景下的
評論