基于xLSTM和Transformer的模型評估：xLSTM在“語言能力”的表現

據了解，1997年，兩位科學家Sepp Hochreiter和Jürgen Schmidhuber共同創建了長短期記憶（LSTM）神經網絡結構，用于改善循環神經網絡（RNN）的長期記憶功能。

近期，Hochreiter在arXiv平臺發表論文，推出了一款新型的XLSTM（擴展LSTM）架構，有效克服了傳統LSTM互聯網結構“僅能按時間順序處理信息”的局限性，有望挑戰當前熱門的Transformer架構。

該論文指出，Hochreiter在新的XLSTM架構中運用了指數型門控循環網絡，并引入了“sLSTM”和“mLSTM”兩種記憶規則，使神經網絡能夠更高效地利用RAM，實現類似于Transformer的并行化處理。

研究團隊通過對基于XLSTM和Transformer架構的兩款模型進行150億個Token的訓練和測試，結果顯示，XLSTM表現更為出色，特別是在“語言能力”方面表現尤為突出。因此，研究人員預測，未來XLSTM有可能與Transformer展開競爭。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4772

瀏覽量
100835
RAM

RAM

+關注

關注
8

文章
1368

瀏覽量
114746
架構

架構

+關注

關注
1

文章
514

瀏覽量
25487

【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

內為企業帶來效益。在選擇模型時，需要評估其性能表現。這包括模型的準確性、響應速度、對話流暢性、情感理解能

發表于 12-17 16:53

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞，模型逐漸掌握語言的規律和特征。常用的模型結構 Transformer架構：大

發表于 08-02 11:03

Transformer能代替圖神經網絡嗎

Transformer作為一種在處理序列數據方面表現出色的深度學習模型，自其提出以來，已經在自然語言

發表于 07-12 14:07 ?470次閱讀

Transformer語言模型簡介與實現過程

在自然語言處理（NLP）領域，Transformer模型以其卓越的性能和廣泛的應用前景，成為了近年來最引人注目的技術之一。Transformer

發表于 07-10 11:48 ?1766次閱讀

Transformer模型在語音識別和語音生成中的應用優勢

隨著人工智能技術的飛速發展，語音識別和語音生成作為人機交互的重要組成部分，正逐漸滲透到我們生活的各個方面。而Transformer模型，自其誕生以來，憑借其獨特的自注意力機制和并行計算能力，在

發表于 07-03 18:24 ?1152次閱讀

使用PyTorch搭建Transformer模型

Transformer模型自其問世以來，在自然語言處理（NLP）領域取得了巨大的成功，并成為了許多先進模型（如BERT、GPT等）的基礎。本

發表于 07-02 11:41 ?1653次閱讀

大語言模型：原理與工程時間+小白初識大語言模型

解鎖我理解的是基于深度學習，需要訓練各種數據知識最后生成自己的的語言理解和能力的交互模型。對于常說的RNN是處理短序列的數據時表現出色，耳真正厲害的是

發表于 05-12 23:57

【大語言模型：原理與工程實踐】大語言模型的應用

類任務上表現出色，甚至在零樣本條件下也能取得良好效果。另一類則需要逐步推理才能完成的任務，類似于人類的系統2，如數字推理等。然而，隨著參數量的增加，大語言模型在這類任務上并未出現質的飛

發表于 05-07 17:21

【大語言模型：原理與工程實踐】大語言模型的評測

度、多角度的解釋或回答。通過這些評測任務，我們能夠全面而深入地了解模型在中文語言理解方面的實際能力。常識百科類評測任務：此類評測任務主要評估

發表于 05-07 17:12

【大語言模型：原理與工程實踐】大語言模型的基礎技術

處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的預訓練語言

發表于 05-05 12:17

【大語言模型：原理與工程實踐】核心技術綜述

我也不打算把網上相關的信息在總結一下，這樣的話，工作量很大。我主要看了-大語言模型基礎技術這節大語言模型（Large Language

發表于 05-05 10:56

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

了隨著模型規模擴大，其性能和能力提升速度的變化規律。這一定律在深度學習中表現為模型規模與性能改進之間的關系，通常表明擴大

發表于 05-04 23:55

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

處理中預訓練架構Transformer，以及這些技術在現實世界中的如何應用。通過具體案例的分析，作者展示了大語言模型在解決實際問題中的強大

發表于 04-30 15:35

大模型在戰略評估系統中的應用有哪些

智慧華盛恒輝大模型，顧名思義，是指參數規模超過千萬的機器學習模型。這些模型主要應用于自然語言處理、計算機視覺、語音識別等領域，在大場景下的

發表于 04-24 13:48 ?289次閱讀

基于Transformer模型的壓縮方法

基于Transformer架構的大型模型在人工智能領域中發揮著日益重要的作用，特別是在自然語言處理（NLP）和計算機視覺（CV）領域。

發表于 02-22 16:27 ?660次閱讀

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 對比各家主流MCU指標，國產MCU真的品質不佳？
Hot 模擬信號和數字信號的區別和特點

New 方正電機成為小鵬汽車驅動電機供應商，總需求量預計達35萬臺
New 雷諾-吉利動力總成合資企業HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

CAN通信節點多時，如何減少寄生電容和保障節點數量？

ZLG致遠電子
33分鐘前

86 閱讀

降壓前置穩壓器設計提高汽車電源性能

德州儀器
54分鐘前

114 閱讀

借助IO-Link收發器簡化微控制器設計

analog_devices
1小時前

110 閱讀

FIFO IP核的使用教程

FPGA設計論壇
2小時前

109 閱讀

Modbus TCP編程與實驗

瑞薩MCU小百科
2小時前

112 閱讀

Atmel愛特梅爾AVR微控制器簡介

華強一條街
781

10積分

88下載

賽靈思靈活混合信號解決方案

埃迪爾斯
609 KB

免費

0下載

WeCase微博客戶端

李剛
4.18 MB

2積分

1下載

Agora-MoonLight iOS/Mac上的性能測試組件

劉靜
1.19 MB

2積分

1下載

Commodore Amiga RGB VGA適配器V2案例分享

李鑫
0.01 MB

2積分

1下載

LM358發熱，焊接好后無法準確輸出比例縮放的電壓，但是又仿真沒問題，請問該怎么解決？

jf_43011091
12小時前

67 閱讀

STM32F103上位機升級，RS485升級、CAN升級

any_533
12小時前

162 閱讀

各位大神，為什么這個multsim14中電壓表測出的電壓值不對？需要設置哪里嗎？

吃的啥飯
1天前

76 閱讀

LM25118升降壓芯片所使用電感發熱嚴重

jf_75025675
1天前

88 閱讀

正負壓驅動波形詢問

jf_01550671
1天前

79 閱讀

推薦專欄
更多

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

基于xLSTM和Transformer的模型評估：xLSTM在“語言能力”的表現

評論

【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

Transformer能代替圖神經網絡嗎

Transformer語言模型簡介與實現過程

Transformer模型在語音識別和語音生成中的應用優勢

使用PyTorch搭建Transformer模型

大語言模型：原理與工程時間+小白初識大語言模型

【大語言模型：原理與工程實踐】大語言模型的應用

【大語言模型：原理與工程實踐】大語言模型的評測

【大語言模型：原理與工程實踐】大語言模型的基礎技術

【大語言模型：原理與工程實踐】核心技術綜述

【大語言模型：原理與工程實踐】揭開大語言模型的面紗

【大語言模型：原理與工程實踐】探索《大語言模型原理與工程實踐》

大模型在戰略評估系統中的應用有哪些

基于Transformer模型的壓縮方法