人工智能的發(fā)展總讓人有種似曾相識的感覺。計算機每隔幾年便能一夜之間學會新能力。“看哪!”AI 真正的信徒宣告,“人工智能的時代即將到來!”“胡說八道!”懷疑論者說,“你忘了自動駕駛的汽車了嗎?”
真相通常介于這兩者之間。
我們身處另一輪循環(huán)之中,這次的主角是生成式 AI。媒體頭條被 AI 藝術霸占了版面,但很多其他的領域也取得了前所未有的進展。無論是視頻、生物、編程、寫作、翻譯等等一切,都見證了人工智能令人難以置信的發(fā)展速度。
為什么會是現(xiàn)在?
或許你對 AI 領域近期的新鮮事并不陌生,無論是獲獎的藝術作品、對已死之人的采訪,還是蛋白質折疊的突破性進展。這些新出的 AI 系統(tǒng)不再是研究實驗室里新奇演示,而是在被迅速轉化為人人可用的實際工具和真正的商業(yè)產(chǎn)品。
這一切同時出現(xiàn)的不是沒有原因的,種種突破性發(fā)展背后都是由新一代更靈活、強大的 AI 模型所支持。這類模型最初被應用于回答問題或者撰寫文章,因此得名“大型語言模型(LLM)”,OpenAI 的 GPT3、谷歌的 BERT 等等模型都屬于 LLM。這些極其靈活且適應性強的模型同樣在計算機視覺和生物學領域非常有用,因此部分研究者也更習慣用“基礎模型”稱呼它們,更好地表達了這些模型在當代人工智能領域中的作用。
這些基礎模型又是從何而來?又是怎么突破語言的束縛、推動了我們如今所見的人工智能領域進展?
基礎模型的基礎
機器學習中有一個牢靠的鐵三角:模型、數(shù)據(jù)、計算。模型是接受輸入并產(chǎn)生輸出的算法。數(shù)據(jù)是供給算法訓練用的例子。機器的學習過程中必須有大量豐富的數(shù)據(jù)才能讓算法輸出一些有用的內容;模型必須足夠靈活才能捕捉數(shù)據(jù)的復雜性;計算能力必須足夠強大才能運行這些算法。
當代第一次人工智能的變革來自 2021 年利用卷積神經(jīng)網(wǎng)絡(CNN)解決計算機視覺問題的深度學習。CNN 的結構類似于大腦的視覺皮層,這一技術自 20 世紀 90 年代起便已存在,但由于對計算能力的極高要求一直沒能實際投入使用。
2006 年英偉達發(fā)布的編程語言 CUDA 允許將 GPU 作為通用超級計算機使用;2009 年斯坦福大學 AI研究者們推出了使用帶標簽圖像訓練計算機視覺的算法 Imagenet;2021 年推出了使用 Imagenet 數(shù)據(jù)集、在 GPU 上結合 CNN 訓練的 AlexNet,創(chuàng)造了史上最優(yōu)視覺分類器。深度學習與人工智能自此進入了井噴式的發(fā)展時代。
CNN、ImageNet 數(shù)據(jù)集、GPU,這個神奇的組合開拓了計算機視覺領域的巨大進步。2012 年圍繞深度學習所掀起的熱潮很快催生了包括自動駕駛在內的一大行業(yè)類別。但我們很快也發(fā)現(xiàn)了,這一代的深度學習是有局限性的。CNN 對于計算機視覺來說非常優(yōu)秀,但其他領域的模型卻沒有突破性進展,讓計算機理解并使用正常人類語言而非代碼的自然語言處理(NLP)領域便是其中之一。
語言的理解與處理和圖像有著根本性的不同。語言的處理中一系列詞語的順序非常重要,“這名讀者正在學習 AI”和“AI 正在學習這名讀者”這兩句話的意思完全相反,但貓不管在圖像中的什么位置都是貓。
直至最近,研究者們都是靠著循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短期記憶(LSTM)等模型進行及時的數(shù)據(jù)分析處理。這類模型雖然擅長識別短句中詞匯等簡短序列,卻苦于應對長句子或文章段落,記憶能力不夠成熟的模型尚不能捕捉到語句在連成段落乃至文章后,所帶來的復雜且豐富的思想和概念。對 Siri 或 Alexa 之類的語音助手而言或許很好,但其他方面就不太行了。
找到合適的訓練數(shù)據(jù)也是件難事。擁有十萬張標記圖像的 ImageNet 數(shù)據(jù)集背后是大量的人力勞動,主要由研究生和亞馬遜土耳其機器人(Mechanical Turk)平臺上的工作人員完成。ImageNet 受另一項更為早期英文詞匯標記數(shù)據(jù)集 WordNet 所啟發(fā),并以其為基礎構建。互聯(lián)網(wǎng)上雖然不缺文本,但搭建一個能讓計算機學會處理人類語言而不是單個字詞的數(shù)據(jù)集非常費時。更何況在同樣數(shù)據(jù)上為 A 應用程序打好的標簽不一定能適用于 B 任務。
WordNet 中的數(shù)據(jù)示例,背后都是大量的人力勞動
我們要做的事有兩件:第一,能在未標記的數(shù)據(jù)上訓練,即數(shù)據(jù)不再需要人工標記其具體的信息;第二,能真正地處理海量文本和數(shù)據(jù),像卷積網(wǎng)絡模型一樣充分利用 GPU 與并行計算領域的突破性進展。做到這兩點后,我們就能超越限制 RNN 與 LSTM 模型的句子級別語言處理。
換句話說,計算機視覺的大突破是數(shù)據(jù)和算力追趕上了已有的模型,自然語言領域的人工智能則是背靠已有的算力和數(shù)據(jù),等待新的模型。
翻譯是你所需要的一切
谷歌的“轉換器(Transformer)”模型為我們帶來了突破性的進展,谷歌的研究者們所關注的自然語言問題非常具體:如何翻譯。翻譯并不簡單,詞序的重要性不言而喻,而語言不同詞序也會不同。舉例來說,日語中動詞會跟在接收動作的對象后面,英語中的“前輩關注你”到了日語就成了“前輩你關注”,國際足球協(xié)會縮寫是“FIFA”而不是“IAFF”則要歸功于法語詞序。
要想學會處理這類問題,AI 模型需要靈活處理詞序問題。先前的 LSTM 和 RNN 模型是將詞序隱含在了模型之中,處理一連串字詞意味著要將其按序輸入模型,模型先看到的字詞自然排在第一位。但對轉換器而言,每個字詞都被分配了一個數(shù)字,轉換器模型以數(shù)字形式處理詞序,這個數(shù)字被稱做“位置編碼”。舉例來說,“我愛 AI,我想 AI 愛我”這句話在模型看來類似這樣:(我 1)(愛 2)(AI 3)(,4)(我 5)(想 6)(AI 7)(愛 8)(我 9)。
位置編碼的使用是第一次突破,第二次則是來自一個叫“多頭注意力(Multi-head Attention)”的東西。在接受了一連串的字詞輸入后,模型的設計讓它不僅能嚴格按照輸入的詞序輸出,還能向前或向后查看輸入序列(注意力)、輸入序列的不同部分(多頭),找出與輸出最為相關的部分。
轉換器模型能夠在按序接收輸入后吐出一個個字詞,將語言的翻譯高效地轉變?yōu)樽衷~的矢量表達,或者說是矩陣的表示,允許模型查看整體輸入序列從而確定哪些是與輸出有關聯(lián)的。
轉換器處理翻譯問題的示例。
轉換器可謂是翻譯領域的突破,而這一發(fā)明也解決諸多語言問題的正確模型。
轉換器可同時批量處理大量字詞,非常適合用在 GPU 上。此外,作為一款接收有序符號輸入、吐出另一個有序輸出的模型,轉化器可以將一串單詞(準確來說是單詞的片段,“標記(token)”)轉化為另一種語言的單詞。
翻譯不需要對數(shù)據(jù)進行標記。我們只用喂給計算機一種語言的輸入文本,就能得到另一種語言的輸出,我們甚至還可以訓練模型完形填空的能力,猜測特定文本序列的輸入之后會出現(xiàn)什么,從而讓模型無需明確標簽就可學習各種模式。
當然輸入不一定得是英語,輸出也不局限于日語。我們甚至可以讓模型把英語翻譯成英語!比如,將長篇文章總結成簡單幾個段落、判斷客戶對產(chǎn)品的反饋是正面還是負面、將一段故事梗概擴寫成一篇引人入勝的文章……許多常用的 AI 語言任務從本質上來說都是將一串英語翻譯成另一段英語,
因此,語言模型領域的重大突破實際上是開發(fā)一個超贊的模型,然后想盡辦法將一般語言任務轉換為翻譯問題。
我們目前有了一個能做兩件大事的 AI 模型,第一件大事是能進行完形填空,意味著我們不用再標記所有的訓練數(shù)據(jù);第二件大事則是可以將大段文字乃至一整本書放到模型中運行。
我們也不用再告訴模型這段文字講的是哈利·波特,那段文字講的是赫敏,也不用再告訴模型哈利·波特是男孩,赫敏是女孩,然后再定義什么是男什么是女。我們只用把原文中“哈利”、“赫敏”、“他”、“她”這類字詞挖掉后,再訓練模型填補空白,在糾錯的過程中 AI 不僅能學會哪段文字提到了哪個角色,還能學會如何匹配一般的名詞和對象。再加上我們是在 GPU 中運行的數(shù)據(jù),我們還能將模型規(guī)模擴大,從而處理更長的文本段落。
終于有了一款能讓我們充分利用互聯(lián)網(wǎng)上大量非結構性數(shù)據(jù)以及 GPU 的模型,OpenAI 通過 GPT-2 以及隨后的 GPT-3 推動了這項進展,GPT 是“生成性預訓練轉化器(generative pre-trained transformer)”的縮寫。“生成性”意指明確,模型被設計為能吐出與輸入不同的新詞語,“預訓練”則是指在大量文本上以完形填空的模式進行訓練。
OpenAI 于 2019 年發(fā)布了 GPT-2,這是一種可以在一篇文章中生成極其類似人類語句的模型,其所生成文本的上下文也是計算機生成文本領域從未有過的一致性。GPT-2 就好像是瘋狂科學家搞出的機器,只需謹慎地喂給它一系列文本(又稱“提示”),我們就能拿到相關的文字輸出。看起來很不錯,但文字上下文的一致性很快便隨著文本量的增加而消失殆盡,再加上這些所謂的“提示”又很像是 Alta Vista 年代的搜索查詢,靈活性非常有限。
更大的突破來自于 2020 年 GPT-2 到 GPT-3 的飛躍。GPT-2 中約 15 億的參數(shù)數(shù)量能輕易存儲在消費類顯卡的內存中,GPT-3 的規(guī)模則要大上百倍有余,最大的表現(xiàn)形式擁有 1750 億個參數(shù),GPT-3 的能力也更強,它甚至可以完整寫出一篇幾乎與人類寫作無異的文章。
強者處處是驚喜,OpenAI 的研究者們發(fā)現(xiàn)擴大模型的規(guī)模后,模型不僅在文本生成方面更為優(yōu)秀,還能根據(jù)新的訓練數(shù)據(jù)學會全新的行為。也就是說,研究人員發(fā)現(xiàn) GPT-3 可以無需明確的模型設計,直接用英語白話指令訓練。
訓練特定、單一的模型來總結文章段落或用某種風格重寫文章已經(jīng)成了過去式,GPT-3 中一句請求就能做到這些。輸入“總結下面這段文字”,GPT-3 就會照做;“按照海明威的風格重寫這段文字”,GPT-3 就能將一段冗長的文字去其糟粕只留精華。
GPT-3 不是用途單一的語言工具,而是能方便更多不具備編程或其他計算機知識的人輕松使用的多用途語言工具。同等重要的是,GPT-3 的命令學習能力是自發(fā)的,而不是在代碼中明確設計的,這款在訓練中成型的語言模型為更多應用場景打開了大門。
這些發(fā)現(xiàn)都很神奇,很快轉換器模型也被漸漸應用至除語言外的其他領域學科。
超越語言的范疇:Dall-E、 Stable Diffusion 以及更多
就在 2014 年,技術相關領域的大賢者 XKCD 發(fā)布了這則漫畫:
用戶拍照時,應用該檢查他們是不是在國家公園里……好說,就是簡單的地理信息檢查,給我?guī)仔r就能搞定。
……并確認照片里是不是有只鳥。
那我得花五年時間先研究下。
不到一年后,計算機就已經(jīng)從不知“鳥”為何物發(fā)展成了……這個樣子:
為什么會發(fā)展得這么快?
我們已經(jīng)了解了這一切的起源,無論是 ImageNet、AlexNet、GPU,還是深度學習的變革,這種模型、數(shù)據(jù)和算力的結合為我們帶來了一套極為強大的可用來處理圖像的工具。
在深度學習出現(xiàn)之前,計算機視覺的發(fā)展一直很艱難。人類識別一張面孔的方式通常由下面幾步組成:大腦尋找類似眼睛和嘴的形狀,判斷這些形狀是否能組成面部。
計算機視覺的研究曾一度試圖讓計算機復現(xiàn)人腦識別面部的過程,努力尋找正確的組件和模式(即“特征”),再嘗試尋找能讓這些組成規(guī)律的方式。我個人最喜歡的一個例子是 Viola-Jones 的人臉識別器,工作原理是借助大腦門和鼻子的 T 字型,再加上下面兩個陰影區(qū)域所組成的人臉模式。
深度學習的出現(xiàn)改變了這一切。研究者們不再需要手動創(chuàng)建使用圖片特征,AI 模型不僅能自學特征,還知道這些特征是怎么結合組成的人臉、汽車、動物之類。同語言類似,模型不過是學會了視覺的“語言”,組成基礎模塊的“詞匯”是線條、形狀和模式,這一切通過規(guī)則組成了更為高層的網(wǎng)絡,即“語法”。坐擁海量數(shù)據(jù)的深度學習模型能比任何人類研究者都做得更好。
這是非常強大的,計算機擁有了一種可擴展的圖像學習方式。可這還是不夠,這些模型還只是單向的,只能學著把像素塊映射到對應的物體分類桶中,“這些像素表示一只貓、那些像素表示一只狗”,逆向的分類還不可行。就好像是牢記了家畜短語和詞匯的游客一樣,沒有真正理解如何將兩種語言互相翻譯。
讀者們或許已經(jīng)看到我們要發(fā)展的方向。
轉換器是作為翻譯機而發(fā)明的,它可以從英語翻譯到法語、從英語翻譯到英語、從豬拉丁翻譯到英語……但這些語言也不過是有序的符號序列而已,而翻譯則是簡單地將一套有序序列映射到另一組而已。轉換器是可以找出一種語言的規(guī)則并映射到另一種語言的通用工具,如果其他應用中有類似語言的表達形式,那么我們自然可以訓練轉換器模型在其間進行翻譯。
這也是圖像應用中的原理,還記得前面我們提過深度學習是如何找到圖像中“語言”的表達形式嗎?一款深度學習模型可以學習圖像中所謂的“隱空間”表示,并將圖像中重要的特征抽取壓縮至更低維度的表達,即“隱空間”或“隱層表達”。
隱層表達將特定分辨率下所有可能的圖像都壓縮至一個非常低的維度中,類似與模型在學習海量的基礎形狀、線條、圖案,以及將其拼接成型的規(guī)則。對 JPEG 等壓縮算法的工作原理熟悉的人可以把這套邏輯理解為學習代表圖像的編碼簿。
之所以將其命名為“隱空間”,是因為它像是坐標網(wǎng)格一樣將圖像的各個方面都表示了出來。舉例來說,表達一個”像是人臉的車“就意味著要移動到隱空間中“像是一輛車”和“像是一張臉”這兩條軸的高處。實際上,繪制一張圖(或簡單地操作圖像)就等于要移動到空間中對應的位置上。從數(shù)學的角度來說,空間中坐標的表達只需要一串數(shù)字即可。就這樣,我們又將繪制或操作圖像轉換為了創(chuàng)建序列的問題,后者我們可不陌生。如果我們將隱空間中的每一條“軸線”都看作是符號或字詞,那么“繪制圖片”問題就轉變?yōu)榱恕熬帉懢渥印钡膯栴}。
目前為止,我們知道了圖像的語言還有對應的工具(即轉換器)來做翻譯,只差數(shù)據(jù)來充當羅塞塔石。互聯(lián)網(wǎng)上無疑充斥著大量帶標簽的圖像,(HTML 中的)alt 文本內容都可以作為圖像內容的簡介。OpenAI 只需挖出英特網(wǎng)表層下的數(shù)據(jù),就能搭建一個在圖像與文字間相互翻譯的巨大數(shù)據(jù)集。自此,模型、數(shù)據(jù)、算力三合一,我們得以將圖像翻譯為文字,Dall-E 自此誕生。
圖像模型工作原理的基本圖示。
Dall-E 實際上是多個不同 AI 模型的組合體。一個負責將英語翻譯為隱層表達語言的轉換器,通過英文詞語在隱空間中繪制“圖像”;一個負責將隱空間中低維度“語言”翻譯為實際的圖像;以及一個名為 CLIP 的模型負責反向流程,取圖像并根據(jù)其與英文短語接近程度排序。
CLIP 模型如 Stable Diffusion 是利用了一種叫做“隱層擴散”的流程,不直接生成圖像,而是利用文本圖示逐步修改初始圖像。原理很簡單,在一張圖片添加噪音會使其變成帶有噪音的模糊圖像,但如果初始圖像便是帶有噪音的模糊圖像,那么我么可以從中“減去”噪音并得到清晰圖像,巧妙地“去噪”能讓我們得到更接近理想中的圖像。
因此,與其使用轉換器生成圖像,我們可以利用轉換器模型,取圖像的隱層編碼和文本字符串對圖像進行修改,讓其更符合文本。在幾十次的迭代之后,帶噪音的模糊圖像就能變成清晰的 AI 生成圖片。
初始圖像不一定非要帶有噪音,轉換器可以將一張圖片調整到它認為更符合文本輸入的版本。這也是 AI 模型將粗糙簡單的草圖轉換為逼真圖像的原理。
總而言之,生成式圖像模型的發(fā)展突破是兩類 AI 相結合的結果,是深度學習通過圖像的隱層表達學習“語言”的能力,再加上轉換器通過基礎模型在文字與圖像(借助前面提到的隱層表達)間相互轉換的“翻譯”能力。
這一技術的強大遠超圖像的范疇,但凡是擁有與語言相類似結構的東西,只要有能用于訓練的數(shù)據(jù)集,轉換器就能學會其規(guī)則并在“語言”間進行轉換。GitHub 的 Copilot 產(chǎn)品已經(jīng)學會了如何將英語轉換為各類編程語言;谷歌的 Alphafold 能將 DNA 語言與蛋白質序列之間的翻譯。其他公司和研究者們也在鉆研如何訓練 AI 生產(chǎn)自動化程序以完成簡單電腦任務,如自動生成電子表格等等,這些歸根究底都只是有序序列而已。
生成、評估、迭代
這些 AI 模型都極為強大且靈活,那么更為寬泛地討論它們的性質非常有用,即數(shù)據(jù)依賴性、不可預測性、突發(fā)行為和普遍性。
如果說各位讀者能從上述內容中收獲什么,那便是人工智能的訓練是依賴于數(shù)據(jù)的。豐富的文本和圖像是 Stable Diffusion 和谷歌 Imagen 這類圖像模型能緊跟 Dall-E 成功步伐的原因。Stability.ai 與多個開源 AI 項目相關聯(lián),其中就有 Eleuthera 所創(chuàng)建的龐大文本數(shù)據(jù)集“The Pile”以及 LAION 所建包含 50 億張帶有文本標簽的圖片數(shù)據(jù)集 LAION-5B。這些數(shù)據(jù)集讓其他研究人員能迅速追趕上 OpenAI 在文本和圖像方面的努力。
因此,AI 工具所在的領域不同、可用的數(shù)據(jù)不用,其所能造成的影響也有所不同。以機器人領域,目前尚無能與 ImageNet 或 LAION 相提并論的機器人運動規(guī)劃模型訓練數(shù)據(jù),甚至在三維運動、形狀、觸摸等方面,就連不錯且通用格式的數(shù)據(jù)共享都沒有,非常類似在 LAION-5B 甚至是 JPEG 出現(xiàn)前的計算機視覺領域狀況。
再比如藥物領域,生物技術公司在訓練 AI 設計新款藥物,但這些新藥往往與全新生物領域的探索并駕齊驅,比如與自然進化樣本不同的蛋白質。模型訓練所需的數(shù)據(jù)還不存在,AI 的設計只能與實驗室中大量的物理實驗一同進行。
另一個需要考量的點是,這些 AI 模型的本質都是充滿隨機性的,都是通過梯度下降技術進行訓練的。訓練算法會將訓練數(shù)據(jù)與 AI 模型的輸出相對比,從而計算正確答案所在的“方向”,不存在正確或錯誤答案的明確概念,只有離正確回答的差距。
這些模型的基本工作流程如下:生成、評估、迭代。任何接觸過 AI 藝術的人都知道,我們其實是創(chuàng)建了一堆樣本才能得到自己想要的東西。這些 AI 模型就像是老虎機而不是計算器。每次向它提問就等于拉下拉桿,它的回答可能會超級贊……也可能不怎么樣。難就難在失敗是機器不可預測的。
這些模型的能力是由答案檢測的難以程度決定的。以擅長數(shù)學的 GPT-3 為例,它不僅能做簡單算術,還能解釋初中及以上的文字問題。我問了 chatGPT 一個簡答的數(shù)學問題,它的回答很好:
如果你有 32 盒蠟筆,每盒有 48 根蠟筆,那么你有 32 x 48 = 1536 根蠟筆。
把數(shù)字改大后 GPT-3 也能跟上:
如果我有 32768 盒蠟筆,每盒有 2048 根蠟筆,那么我總共有多少根蠟筆?
如果你有 32768 盒蠟筆,每盒有 2048 根蠟筆,那么你有 32768 x 2048 = 67108864 根蠟筆。
但它只是模擬了乘法,實際并沒有學會怎么做乘法運算。如果我有 N 個盒子,每個盒子里有 X 根蠟筆,那么 N * X = Y,總共有 Y 根蠟筆。把描述改成 X 個盒子,每盒 N 根蠟筆,相信任何一個孩子都能告訴你總共還是有 Y 根蠟筆。
讓我們看看 chatGPT 怎么回答:
如果我有 2048 盒蠟筆并且每盒有 32768 根蠟筆,那么我總共有多少根蠟筆?
一個盒子不可能包含 32768 根蠟筆,這比每盒能容納的最大蠟筆數(shù)要多。一般來說,盒子中的蠟筆數(shù)為 8 至 100 之間,大多數(shù)盒子中包含 24 至 48 根蠟筆。
如果你有 2048 盒蠟筆且每盒都有包含最大能容納的蠟筆數(shù),假設為 100,那么你有 2048*100 = 204800 根蠟筆。然而,如果每盒實際包含有 32768 根蠟筆,那么這種場景不可能發(fā)生,你擁有的蠟筆數(shù)也不能被計算。
這個回答比之前的都要好,上一個版本的 GPT-3 只會非常自信地給出一個完全錯誤的答案。
至少 GPT-3 知道這個問題它回答不出來了!我用這個問題舉例是因為我們能簡單看出答案的正確與否,但那些更復雜的領域呢?雖然我們能直接判斷屏幕上 AI 生成的圖片是好是壞,但 AI 所設計的候選藥物則必須要在現(xiàn)實世界中進行合成和測試。但這并不意味著“AI 很糟且不靠譜”,只是我們在利用這些 AI 進行設計時必須牢記其不可預測性。
這種不可預測性也可能是好事。別忘了,這些模型所展示的許多能力都是突發(fā)性質的,不一定是通過程序編寫的。GPT-2 本質上是一個單詞關聯(lián)器,但 OpenAI 將 GPT-3 的規(guī)模擴大了百倍有余,研究者們發(fā)現(xiàn)無需明確設計,GPT-3 就能被訓練直接回答“恐龍是何時滅絕的?”這類問題。它的命令服從能力也是如此。在推動模型能力發(fā)展方面 GPT-3 有很大進步空間。
這些 AI 模型幾乎都是通用的,它們能通過語言與不同領域綁定,也可以直接在不同領域間映射,能更加靈活且易于使用。這是以往 AI 模型所不具備的。將一個訓練完成的模型擴展到其他不同用例變得非常簡單,而這種易用性讓模型能更接近日常使用。
越來越多的初創(chuàng)公司開始提供 AI 賦能的寫作工具,其中也不乏商業(yè)大獲成功的案例。大量計算機生物領域的研究開始被 Alphafold 之類的模型工具所取代;編程輔助從美化、自動完成工具已經(jīng)可以幫助開發(fā)者根據(jù)簡單規(guī)范自動生成代碼。無論是自動駕駛汽車還是 AI 打游戲,這些從前的 AI 領域大突破大多都停留在實驗室里,但到了現(xiàn)在,任何人都能下載 Stable Diffusion 或利用 GPT-3 編寫應用程序。
泛用性很重要。如今我們或許不認為印刷機、電子表格或文檔處理器是什么值得激動的大事,但通過信息生成能力的擴大化,我們也許能改變世界,無論這些改變是好是壞。新的 AI 模型將隨著用途的廣泛而具備相應的影響力。
預測并不簡單,或許這些 AI 工具將不斷變得更加強大、更易于使用、價格更加低廉。我們目前正站在一場革命的前線,或許這場革命會如摩爾定律一樣發(fā)人深省,而我則對即將到來的一切既興奮又恐懼。
審核編輯 :李倩
-
人工智能
+關注
關注
1791文章
47350瀏覽量
238739 -
模型
+關注
關注
1文章
3254瀏覽量
48876 -
cnn
+關注
關注
3文章
352瀏覽量
22237
原文標題:生成式人工智能革命已經(jīng)開始
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論