幾個月前,OpenAI推出了一種自然語言處理模型,能夠從維基百科以及亞馬遜的產品評價中生產連貫的文本段落。
最近,其開放的OpenAI Five 人工智能系統在全網公開賽中放出了驕人戰績——擊敗了99.4%的玩家。在和3萬多名人類玩家的對壘中,只輸了42場。
OpenAI的大招還不止如此。今日凌晨,OpenAI發博文表示,在這些和其他研究的基礎上,他們開發了一種深度神經網絡稀疏 Transformer(Sparse Transformer),可以實現生成式模型,在文本、圖像、聲音等序列預測上都創造了新紀錄。并且可預測的序列長度比之前可能的長度長了30倍。
“人工智能研究的一個現有挑戰是如何對復雜數據中遠距離,且較精細的相互依賴性進行建模,”OpenAI技術人員Rewon Child和軟件工程師Scott Gray在博客文章中寫道。“過去,在這些數據上使用的模型往往只是針對一個域專門設計的,或者是很難擴展到超過幾千個元素的序列。相比之下,我們的模型可以使用上百層對有上萬元素的序列進行建模,并且在多個域中實現最先進的性能。
這次稀疏 Transformer 研究的基礎源于17年Google Brain設計的一種新型的網絡結構,即《Attention Is All You Need》中提出的Transformer。不使用 RNN、CNN 模型,只使用 attention 機制構成的解碼編碼結構就達到了很好的效果。為谷歌團隊于前年 6 月所提出的 NLP 經典之作,同時被 2017 NIPS 接收(2017 錄取率約 20 %),引用次數已達1566次,并還在持續增加中。
與所有深度神經網絡一樣, Transformer包含排列在互連層中的神經元(本質用數學函數模擬生物神經元),這些層從輸入數據傳入“信號”,并緩慢調整每個連接的權重。這是模型如何提取特征并學習以及如何進行預測的關鍵點。在 Transformer 中,每個輸出元素與每個輸入元素都相連,它們之間的權重是動態計算出來的,而過程稱為注意力。
上圖:用稀疏 Tansformer 重計算(recomputaing)注意力矩陣前后的內存使用情況。
注意力機制通常需要為每個層和每個所謂的注意頭創建一個注意力矩陣,從計算的角度來看這不是特別有效。例如,包含24,000個樣本的2秒音頻片段或64低分辨率圖像的語料庫可能分別占用590GB和154GB內存,而這遠遠高于用于訓練AI模型的GPU的負載。
OpenAI的方法通過重新計算矩陣來最小化內存使用量,上面描述的590GB的內存需求在重新計算后僅需9.2GB;154GB可壓縮到2.4GB。于是,實際上最大的內存開銷就變得與層數無關了,因此就允許所述模型進行“非常深”的深度來進行訓練。
由于單個注意力矩陣對于龐大的數據量輸入并不是特別實用,因此本文提出的深度神經網絡實現了稀疏注意力模式,其中每個輸出僅從輸入子集計算權重,對于跨越較大子集的神經元層,通過矩陣因子分解來轉換矩陣,他們認為這是保持神經網絡層學習數據模式能力所必需的一步。
上圖:使用稀疏Transformer生成圖像
通常,實現稀疏注意力需要將查詢和關鍵矩陣進行“切片”,因此為了簡化實驗,OpenAI 實現了一組塊稀疏核,這些核在 GPU 上高效地執行這些操作。另外,OpenAI開源了這些內核,并在Github上提供示例稀疏注意函數。
https://github.com/openai/sparse_attention
根據OpenAI的博客介紹到,即使經過改進,自回歸序列生成對于非常高分辨率的圖像或視頻來說仍然是不切實際的。不過,提出的優化注意力操作可能是一次有益的探索,可以和其他(如多尺度方法)方法相結合來對高維數據進行建模。
-
建模
+關注
關注
1文章
309瀏覽量
60784 -
人工智能
+關注
關注
1792文章
47377瀏覽量
238878 -
自然語言處理
+關注
關注
1文章
619瀏覽量
13579
原文標題:OpenAI提出稀疏Transformer模型:文本、圖像、聲音一網打盡,將可預測序列長度提高30倍
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論