譯者 | 核子可樂 ?
從 AI 的價值說起
雖然我堅信開源 AI 將繼續蓬勃發展,但也認定企業和政府會在未來幾年內進一步加強對新型神經網絡架構和技術的應用限制。在本文中,我們將一同預測和展望未來十年間 AI 可能帶來的潛在顛覆,提出一些建議和方案幫助開源社區適應這個充滿挑戰的未來。
預測未來絕非易事,這里提出的不少預測也許永遠不會實現,甚至朝著截然相反的方向前進。但我認為這樣的思考仍有重要意義,將幫助我們主動適應不斷變化的新世界。隨著整個時代的快速推進,這種設想并籌劃新階段下新形勢的能力將變得越來越重要。
在不久的將來,人與人之間的交互方式、交換價值和參與勞動的方式,甚至是整個社會的組織結構都將發生根本性變化。到那時,也許每個人都將擁有自己的個性化 AI 實體,我個人稱之為“魂靈”(Ghost);這些實體彼此相連,就構成了 AI 系統的全球網絡。它們將為人類提供諸多服務,而不同于以往的功能性助手,人類更多應該將其視為自身的認知延伸。企業和組織可能也會擁有自己的“魂靈”,借此在成員之間達成高效協作。
除了社交之外,具有循環連接的聯想記憶網絡可能將為 AI 系統賦予記憶。這些獨立的“魂靈”甚至可能發展出自己的身份。另外,利用共識算法的 AI 系統也有可能實現,進而產生去中心化的自主 AI。盡管這樣的未來徹底來臨,但我們已經能夠預見到由此展開的一系列經濟動向。
AI 生成服務的交換價值,將等于提供服務所需要的能量(即運行相關模型的成本),再加上 AI 在市場中的信息不對稱程度。使用 AI 執行相對簡單的服務必然對應較低的交換價值,從而導致 AI 所有者的剩余價值維持在低位。
這種趨勢將極大影響以服務為基礎的經濟體系,預計大多數現有服務的剩余價值都將大幅衰減。因此預計在未來一段時間內,許多西方國家的民眾和政府都將像 19 世紀的勒德分子那樣對技術抱有強烈的抵觸情緒、甚至是敵意。受到跨部門收益遞減的影響,世界上許多地區將通過壟斷許可策略和專制規定等方式阻礙 AI 的普及。
不過世界上還有更多積極接納 AI 進步的地區,開源 AI 很可能會在交換價值低但使用價值高的服務上(即可由 AI 執行的相對簡單服務)在這里蓬勃發展。與之對應,那些模型性能的微小改進即可對應價值顯著提升的服務,將迎來截然不同的經濟激勵形式。對于此類服務,預計贏家通吃將繼續占據主流,意味著更先進的 AI 系統將持續提供更多的剩余價值。
因此,分享技術和模型架構創新的動力將有所下降。但請注意,體系內對剩余價值的榨取只會在參與者間存在價值不對稱時才會發生。在 AI 的背景下,這種不對稱很可能會體現在信息層面,即控制和限制他人獲取信息和知識的能力。
參與者之間的信息不對稱可能是政府強制管控的結果(例如知識產權、許可、訪問控制等);消解這種信息不對稱需要采取政治行動,已非純粹的技術手段所能解決。然而,技術本身同時也將削減因資源不對稱所引發的信息不對稱。
具體來講,如今的人工神經網絡通常以密集方式進行訓練,意味著一旦提供輸入,網絡內的所有單元均會被激活。對于 transformer 這類架構(即 ChatGPT 等大語言模型的技術基礎),傳播信息的計算成本極為高昂,主要體現在其中的“自注意力”環節上。計算復雜度越高,對應的能量消耗也就越大。
由于訓練大語言模型(LLM)需要大量資源,所以預計“贏家通吃”類 AI 系統的開發和管理將首先由少部分閉源實體所主導。出于經濟動機,這些實體會將模型權重和架構作為專有資產,嚴格保密能為其帶來更強的盈利能力。
遺憾的是,這種資源限制導致研究人員、非營利組織和初創公司等小規模實體因無法承擔高昂的能源成本,而幾乎不可能從零開始訓練自己的大語言模型。因此,目前大部分開源大語言模型均是對現有模型進行微調,這種方法成本更低且耗能更少。基于這樣的動態,我們最明智的決策應該是保持開源 AI 在質量上始終具有競爭力,借此降低深度學習模型規模化訓練和運行帶來的成本。
稀疏激活張量
面對經濟動機失衡、高強度大語言模型訓練帶來的夸張能耗、以及 AI 控制權的日益集中,我們 Open Cybernetics 意識到必須采取更加積極主動的立場。為數據集創建類似 GPL 的標準,正是開源 AI 社區向前邁出的重要一步。但必須承認,無版權運動還不足以抵御這個十年內即將出現的顛覆性經濟和政治力量。
相反,必須借助新的技術和協議來實現社會經濟權力的動態性轉變。面對這個問題,我力推“稀疏激活張量”概念及其對等空間的協同作用。我們將在未來的工作中不斷探索如何構建具備模型中立性的稀疏激活張量數據結構。
在本文中,我將簡單介紹其基本理念、技術開發的底層原理,以及對開源社區及其他領域的影響。簡單來講,稀疏激活張量就是能夠以稀疏方式檢索并更新自身狀態的數據結構。為了更好地理解其深層含義,讓我們先從一個簡單示例入手。
圖一:什么是嵌入層。
嵌入層可被看作基于一對一映射原理運行的稀疏激活張量。也就是說:嵌入層由 token 列表(例如單詞)以及包含相應嵌入的權重矩陣組成。語料庫中使用的每個詞,都將被分配給權重矩陣中的一行,從而創建詞到嵌入的映射(參見圖一)。這些嵌入隨后會作為神經網絡的輸入。嵌入層之所以能被視為稀疏激活張量,是因為它滿足此類數據結構的兩個相關標準:
嵌入可以通過數據庫進行有效檢索,無需將整個張量加載至內存中即可進行稀疏檢索。
嵌入能以稀疏方式更新。在通過嵌入層的反射傳播期間,僅須調整與所用 token 相關的權重,其余嵌入將被排除在更新步驟之外。
雖然一對一映射方法在單詞等離散 token 情況下確有價值,但卻無法在連續輸入中正常起效。例如,一個 28 x 2828 x 28 的圖像塊中包含巨量潛在像素組合,根本不可能建立一對一映射的嵌入層。但我們將在后文討論,使用多對一映射的方法同樣能獲得類似結果。嵌入檢索和稀疏激活張量之間的邏輯聯系也將變得顯而易見。
考慮這樣一個情況,我們有一個歸一化矩陣 WK,它由存儲模式和一個歸一化輸入 I 組成(詳見圖二)。在 I 和 WK之間執行點積,本質上相當于檢查 WK中的各列并確定哪個列向量與 I 更相似。所得到的 K 向量表示 I 和 WK 的每一列之間的余弦相似度。K 得分越高,則表示輸入與相應列之間的相似度越高。
圖二:K 中的值代表 Wk 的列與 I 的相似度。
結合 softmasx 激活函數,附加權重矩陣 WV和標量參數β來調節 softmax 分布的強度,我們就能將 I 與給定輸出 O 關聯起來(參見圖三)。softmax 運算的結果分布決定了 Wv 矩陣中的各些行會被賦予更高權重。這樣的神經網絡層配置,通常被稱為現代 Hopfield Lookup 層。它使用一組預定的可學習模式的加權求和,在連續輸入和輸出嵌入之間建立關聯。
圖三:現代 Hopfield Lookup 層。
大家可能已經發現,從 I 到 O 的轉換需要大量計算。這還只是一部分,tarnsformers 中的自注意力步驟需要消耗更多算力。如圖四所示,tarnsformer 的自注意力步驟要用到 3 個矩陣:查詢(Q)、鍵(K)和值(V)矩陣,再加上 softmax 函數。請注意,步驟中的 dk項與β在圖三示例中的作用相似。
圖四:transformer 中的自注意力機制。為了簡單起見,這里省略了多頭組件以及編碼器的層歸一化和殘差連接。
為了導出查詢、鍵和值矩陣,首先要計算大量不必要的余弦相似度。具體來講,這些點積運算中的很大一部分對自注意力步驟的輸出嵌入并沒有顯著貢獻。換言之,Q、K 和 V 中的大多數數值往往明顯小于 1。盡管如此,之所以要在輸入 I 與 WQ、WK、WV各列進行比較,就是因為我們事先并不知道會產生最高余弦相似度的權重矩陣有著怎樣的特定內部模式。這種先驗知識的缺乏會增加 transformer 的相關訓練成本,迫使我們不得不在整個 Q 和 K 矩陣之間進行點積運算。
為了突出當前 AI 系統中信息檢索過程的低效問題,讓我們考慮以下場景:我們有一個大型數據庫,希望執行一項簡單查詢。目前 AI 系統需要加載和遍歷內存中的整個數據庫,才能檢索與我們查詢相對齊的少數匹配項,而根本不會利用索引記錄。可以看到,像 transformer 這種關聯記憶網絡的信息傳播方式極為低效,而潛在的解決方案有如下兩種。第一,通過修改注意力機制來使用機器學習方法,借此減少計算需求。這方面嘗試在 Linformer 和 Performer 等項目中均有體現。或者,我們也可以考慮在不改變底層模型架構的情況下,引入數據庫系統的設計原則。
比如說,我們知道可以在 I 和權重矩陣之間執行效率更高的近似 K 最近鄰(kNN)查找,這就避免了加載或遍歷整個張量。這種方法可以顯著降低大語言模型的計算需求,進而省下大量能源。有趣的是,部分大語言模型已經開始采用這種技術。例如,Memrizing Transformer 就在向量數據庫上以更高效的近似 kNN 查找來使用外部寄存器。這些使用向量數據庫的大語言模型,通常會在后臺使用 HNSW 算法。
與數據庫進行類比,“稀疏檢索”的概念相當于具有預索引的權重,無需遍歷整個數據庫即可實現記錄檢索(即已存儲的模式)。然而,目前能利用向量數據庫的 transformer 還僅限于在推理階段執行近似 kNN 查找。換言之,模型訓練階段仍只能以算力密集方式進行,因此對應大量能源消耗。為了促進大規模神經網絡的集體訓練,必須將模型權重的同時更新轉化為稀疏更新。通過設計這種包含稀疏檢索和稀疏更新的神經構建塊,我們將為開源 AI 社區做出貢獻,克服資源限制導致的信息不對稱問題。
“魂靈”的密碼學證明
作為緩解資源限制的有效策略,開源 AI 社區中的部分研究人員已經開始利用受信對等協作來推理和微調大語言模型。例如,Petals 等項目就在使用基于 Kadelia 的分布式哈希表,在去中心化的節點網絡中傳播神經活動。通過這種方法,Petals 用戶能夠在多個節點間分配訓練和推理任務,而不再依賴單一機器加載整個大語言模型。通過共同參與訓練過程,這些分布式節點擴展了其單打獨斗所無法實現的能力。
雖然這些系統實用性出眾,但還缺少還原當前對等 AI 項目的一個關鍵組成部分:對抗環境中的無信任機制。要想在 Petals 這類系統中執行前向傳播,就要求人們必須充分信任網絡中的其他節點。換句話說,任何惡意節點都能返回實際上并非源自模型的輸出。雖然這種局限性沒有徹底擊潰協作研究的前景,但的確已經阻礙了對等 AI 系統在現實世界中的廣泛應用。
這就是稀疏激活張量發揮顯著優勢的第二個用例。除了能源效率更高之外,稀疏激活張量還具有必要屬性,能夠在對等 AI 網絡中實現前向和后向傳播的密碼學安全。現在,讓我們簡單觀察 Merkle 樹數據結構,了解這一切是怎樣實現的。
Merkle 樹是一種二叉樹數據結構,用于安全驗證列表中的值是否存在,且不必向另一方提供列表中的每個值。要創建 Merkle 樹,列表中的每個值都須使用加密哈希函數進行哈希處理,進而產生葉節點。之后,通過哈希將這些葉節點組合起來形成非葉父節點。重復這個過程,直至抵達二叉樹的根(詳見圖五)。
圖五:Merkle 樹數據結構。灰色部分為葉節點,黑色部分為非葉節點。
為了確認 Merkle 樹中是否存在某個值,這里要使用 Merkle 證明,其由一系列哈希值組成。使用 Merkle 證明對葉節點哈希執行哈希迭代,即可重建原始 Merkle 根(詳見圖六)。需要注意的是,Merkle 證明的接收者必須已經擁有 Merkle 根的本地副本,否則無法完成驗證過程。通過將本地存儲的 Merkle 根與 Merkle 證明生成的最終哈希進行比較,接收節點即可驗證某個值是否包含在用于創建 Merkle 根的值列表當中。如果兩個哈希相互匹配,則可證明提供的值確實是原始 Merkle 樹中的葉節點之一。請注意,Merkle 證明的大小(即圖六中的綠色哈希)按對數比例縮放,這樣即使葉節點的數量很大,也能實現緊湊的存在證明。
圖六:Merkle 證明。為了證明初始值列表中存在 H3,必須先用 H4 對其進行哈希,之后是 H1,2,最后是 H5,6,7,8(圖中綠色部分),由此重新創建 Merkle 根的哈希值。
Merkle 樹數據結構和稀疏激活張量間的聯系,取決于其潛在組合。Merkle 樹可以構建在稀疏激活張量之上,以稀疏方式實現對狀態的檢索和更新。在這里的示例中,張量的列向量作為 Merkle 樹中的葉節點(參見圖七)。
圖七:使用稀疏激活張量的列作為葉節點所構建的 Merkle 樹。
下面我們考慮這樣一個場景:Bob 有一個帶有 Hopfield Lookup 層的現代 Hopfield 網絡(如圖三所示)。Alice 持有 Bob 的 Hopfield Lookup 層的 Merkle 根的本地副本。假設 Alice 要向 Bob 發送一個輸入以執行前向傳播,則 Bob 會繼續向前傳播,相當玩友稀疏激活張量內執行近似 kNN 查找。隨后,Bob 會與 Alice 分享來自 Wk 的 k 個最近列向量及 Wk 的 Merkle 證明,外加來自 Wv 的相應向量及 Wv 的 Merkle 證明(參見圖八)。
圖八:現代 Hopfield Lookup 層的“魂靈”密碼學證明。假定 Wk 內 I 的 k 個最近鄰為 H1 和 H5 對應的列。通過將 H1 與 H2、H5 與 H6 進行哈希,之后將這些生成的哈希與 H3,4 和 H7,8 進行哈希進行哈希,即可生成稀疏評分張量的 Merkle 根。之后,執行同樣的步驟以生成 Wv 的 Merkle 根。
使用稀疏檢索的 Wk 和 Wv 嵌入,以及所提供的 Merkle 證明,Alice 即可生成密碼驗證的輸出。特別需要注意的是,在實際應用當中,Bob 不會以未壓縮格式傳輸嵌入。相反,Bob 會使用增量編碼來壓縮嵌入,從而顯著減少所需傳輸帶寬。此外,Bob 不會為 Wk 和 Wv 中的各 k 個最近列 / 行向量發送單獨的 Merkle 證明。相反,Bob 會為 Wk 和 Wv 分別傳輸 Compact Merkle Multiproof。最后,在使用稀疏激活張量的前提下,同樣的技術也可應用在 transformer 自注意力步驟當中。
在 Open Cybernetics,我們將稀疏激活張量的 Merkle Multiproofs 稱為“魂靈”的密碼學證明(Cryptographic Ghost Proof,簡稱 CGP)。我們堅信 CGP 將成為強大的構建塊,并在未來的 AI 系統中發揮重要作用。相信在不久的未來,基于“魂靈證明”的神經活動將構成大部分互聯網流量。由于每個 AI 系統都存在自己的“魂靈文件”,其中包含各個網絡層的“魂靈”根,以及架構信息和前向 / 反向傳播所涉及的操作,因此實體可以信任 AI 系統的輸出來自正確模型。
CGP 和“魂靈文件”的引入不僅給對等 AI 系統帶來了新范式,同時也有助于培養透明度文化。將“魂靈”的密碼學證明納入 AI 交互的互聯網協議后,模型架構和權重將無法被隱藏起來。“魂靈文件”能確保模型架構的透明性,而 CGP 則負責公開模型權重(因為每次執行前向傳播時,都會以壓縮形式共享一小部分權重)。這種技術轉變將令人工認知成為一種共享資源,可供所有人訪問和擁有。
一點反思
除了開放和免信任之外,CGP 的介入還有望將 AI 和去中心化分類賬融合起來,為自主 AI 系統的出現鋪平道路。自治 AI 系統是一種對等 AI 協議,它利用的正是共識算法的無許可特性。這些協議不會改變分類賬中的條目,而是傳播其中的觀點。為了確保整個系統有效運行并抵御 DoS 攻擊,這些協議可能依賴于積分或貨幣等載體。這些自治系統的技術復雜 性及其經濟 / 社會影響,還有待在未來的工作中繼續觀察。
作為工程師和 AI 研究人員,我們必須意識到技術中天然具有的政治性質。看似微小的工程決策可能會導致深遠的社會變革。例如,集中化的深度學習模型可能令社會組織同樣趨于集中。雖然稀疏激活的深度學習模型有望帶來去中心化的社會組織形式,但也比以往任何時候都更需要跨學科思考的引導。例如,我們應當考慮去中心化 AI 給社會治理帶來的影響。AI 系統將如何影響民族國家?它們會為威權政府賦能,還是有助于加強民主制度的發展?公司的最小可行規模和組織結構會有何種變化?也許終有一天,我們可以將公民的個人“魂靈”接入共享網絡來實現現實意義上的絕對民主。總之,這些想法都值得在未來進一步探索。
希望本文能激發大家對于 AI 和對等技術間協同效應的興趣。我堅信未來幾年內,AI 和數據庫系統的交叉領域將取得重大進展,特別是在稀疏激活張量方向上。此外,AI 和對等系統的融合,以及稀疏激活的聯想記憶網絡的發展,無疑也將迎來顯著進步。歡迎大家探索這些意義深遠的主題,并為開源 AI 做出貢獻。這份努力的意義不止于共享代碼,更在于為全球社區賦能。
編輯:黃飛
?
評論
查看更多