電子發燒友網報道(文/李彎彎)近日,百度飛槳總架構師于佃海公開談到,AI預訓練大模型是深度學習崛起以來,最重要的一次技術變革。
大模型不只是模型參數規模大,同時也對應著學習機制和AI開發應用范式的改變。自監督學習模式突破了數據標注的困境,可以從海量數據中學習到豐富的通用知識。
基于大模型,只需要通過模型的微調或提示等方式,就可以在廣泛的下游任務中取得優異的效果,極大的降低了AI開發和應用的成本。
大語言模型的涌現能力
在自然語言處理領域,過去這些年模型的規模越來越多。之前模型參數大概在千萬級別、億級別,現在已經跳到了千億級別。基本上游研究這些大模型的使一些計算資源比較豐富的企業和機構,有了這些預訓練模型之后,下游可以把它放在一些自然語言處理的任務中。
在全球人工智能開發者先鋒大會上,復旦大學計算機學院教授邱錫鵬在《ChatGPT能力分析與應用》主題演講中表示,大型語言模型是ChatGPT的基座。
邱錫鵬教授談到,當模型從小規模發展到大規模的時候,當發展到一定階段,它會涌現出一些之前在小模型上觀測不到的能力,也就是大家說的能力涌現。比如給幾個樣例,讓模型學習這個任務,一個百億級別參數規模的模型和一個千億級別參數的模型,這兩個模型的能力差異會相當大,邱錫鵬教授認為,從百億到千億參數規模,模型發生了能力的突變。
考察大模型的幾個能力:數學建模能力、多任務理解的能力、上下文的學習理解能力,在百億規模之后,就會發生突變。它的能力不再是線性增長。
模型使用的方式也發生了變換,因為有了大模型之后,調參非常難,它的使用范式也會發生變化。比如,早期使用預訓練,調它的參數;現在語言模型很大的時候,要做什么任務,就是提示,告訴它要做什么,變成了另外一種使用范式。
舉個例子,我們把要完成的任務,用一句話描述出來,輸入給語言模型,語言模型就按產生下一句話的方式,生成你要的答案。這就是大型語言模型的使用方式。邱錫鵬教授認為,在Transformer這種架構下,大型語言模型標志性的分水嶺是百億規模參數。
以ChatGPT為例,在大模型下,ChatGPT涌現出的三種能力:情景學習、思維鏈和指令學習。這三個能力對ChatGPT最終的成功起到了重要作用。
情景學習:大模型調參不是很方便,如果要它在一個上下文語境中完成學習,這就叫情景學習。也就是給它一個任務,再給它幾個例子,讓它學習。情景學習賦予了大模型非常強的交互能力,情景學習也可以大幅降低下游的開發成本。
思維鏈:思維鏈的關鍵是打破了Scaling Law,一般而言,模型規模的放大通常會帶來能力的提升。而思維鏈的出現,使得在一定規模之后,可以通過思維鏈繼續放大模型的能力,而不需要進一步擴大參數規模。
指令學習:大模型達到一定規模之后,只需要給它少數的指令,它就學會了,對于沒見過的指令,它也會。這些就是大模型的涌現能力,它的泛化能力會變得非常強。
文圖生成主要技術路線
在ChatGPT出現之前,大模型最火的應用就是AI作畫,也就是文圖生成。事實上,文圖生成技術從2015年到現在,一直在不斷演進。據百度深圳自然語言處理部技術總監何徑舟在上述大會上介紹,這之間,文圖生成技術大概經歷了三個技術流派。
第一個是以對抗生成網絡GAN-based為主的早期技術;第二個是序列生成 VQ-token-based這種方式 ;第三個是從去年開始大熱的Diffusion-based擴散網絡這種方案?,F在常見的、在很多產品中使用的,都是這三個技術流派的延續或結合。
基于GAN的文本-圖像生成模型,是四五年前最火的文圖生成技術。它的優點是,整個模型的生成過程很快,在當時來看,生成的圖像質量相當不錯;然而它致命的缺點是,網絡特別難訓練,稍不小心就會訓練壞,或者難以得到理想的效果。因此在之后的工作中,大家就不太實用了。
基于圖像量化的序列建模。它是把圖像基于離散化的方式,壓縮成離散視覺token的序列,這樣可以跟文本用類似的方式基于Transformer自回歸生成,建模文本序列和圖像序列間的關系。通過這樣的方式,做文圖轉換,也可以做圖像文本的生成。何徑舟表示,文心大模型ERNIE-ViLG第一個版本就是基于VQ-token-based這種方式做的,在當時ERNIE-ViLG能夠完成雙向的生成和建模。
基于擴散模型的文本-圖像生成模型,是現在文圖生成技術的主流。它是把一個圖像通過加高斯噪聲的方式,一直到純隨機序列高斯噪音的分布。再通過UNet,不斷反復調用它,把這個圖像還原回來。這時候可以把文本的encoder加進去,指導圖像還原過程。這樣就實現了從文本到圖像的生成過程。這是現在絕大多數最新產品和技術都采用的方案,效果非常好。
小結
過去這些年,國內外在大模型技術的研究方面不斷取得突破,最近ChatGPT的出現及其體現出的驚人能力,更是讓人們體會到了大模型對于人工智能發展的重要意義。從種種跡象來看,疊加情景學習、指令微調、人類反饋、強化學習等機制,可以使大模型實現超出想象的能力涌現,讓人們期待的通用人工智能的實現加速。
大模型不只是模型參數規模大,同時也對應著學習機制和AI開發應用范式的改變。自監督學習模式突破了數據標注的困境,可以從海量數據中學習到豐富的通用知識。
基于大模型,只需要通過模型的微調或提示等方式,就可以在廣泛的下游任務中取得優異的效果,極大的降低了AI開發和應用的成本。
大語言模型的涌現能力
在自然語言處理領域,過去這些年模型的規模越來越多。之前模型參數大概在千萬級別、億級別,現在已經跳到了千億級別。基本上游研究這些大模型的使一些計算資源比較豐富的企業和機構,有了這些預訓練模型之后,下游可以把它放在一些自然語言處理的任務中。
在全球人工智能開發者先鋒大會上,復旦大學計算機學院教授邱錫鵬在《ChatGPT能力分析與應用》主題演講中表示,大型語言模型是ChatGPT的基座。
邱錫鵬教授談到,當模型從小規模發展到大規模的時候,當發展到一定階段,它會涌現出一些之前在小模型上觀測不到的能力,也就是大家說的能力涌現。比如給幾個樣例,讓模型學習這個任務,一個百億級別參數規模的模型和一個千億級別參數的模型,這兩個模型的能力差異會相當大,邱錫鵬教授認為,從百億到千億參數規模,模型發生了能力的突變。
考察大模型的幾個能力:數學建模能力、多任務理解的能力、上下文的學習理解能力,在百億規模之后,就會發生突變。它的能力不再是線性增長。
模型使用的方式也發生了變換,因為有了大模型之后,調參非常難,它的使用范式也會發生變化。比如,早期使用預訓練,調它的參數;現在語言模型很大的時候,要做什么任務,就是提示,告訴它要做什么,變成了另外一種使用范式。
舉個例子,我們把要完成的任務,用一句話描述出來,輸入給語言模型,語言模型就按產生下一句話的方式,生成你要的答案。這就是大型語言模型的使用方式。邱錫鵬教授認為,在Transformer這種架構下,大型語言模型標志性的分水嶺是百億規模參數。
以ChatGPT為例,在大模型下,ChatGPT涌現出的三種能力:情景學習、思維鏈和指令學習。這三個能力對ChatGPT最終的成功起到了重要作用。
情景學習:大模型調參不是很方便,如果要它在一個上下文語境中完成學習,這就叫情景學習。也就是給它一個任務,再給它幾個例子,讓它學習。情景學習賦予了大模型非常強的交互能力,情景學習也可以大幅降低下游的開發成本。
思維鏈:思維鏈的關鍵是打破了Scaling Law,一般而言,模型規模的放大通常會帶來能力的提升。而思維鏈的出現,使得在一定規模之后,可以通過思維鏈繼續放大模型的能力,而不需要進一步擴大參數規模。
指令學習:大模型達到一定規模之后,只需要給它少數的指令,它就學會了,對于沒見過的指令,它也會。這些就是大模型的涌現能力,它的泛化能力會變得非常強。
文圖生成主要技術路線
在ChatGPT出現之前,大模型最火的應用就是AI作畫,也就是文圖生成。事實上,文圖生成技術從2015年到現在,一直在不斷演進。據百度深圳自然語言處理部技術總監何徑舟在上述大會上介紹,這之間,文圖生成技術大概經歷了三個技術流派。
第一個是以對抗生成網絡GAN-based為主的早期技術;第二個是序列生成 VQ-token-based這種方式 ;第三個是從去年開始大熱的Diffusion-based擴散網絡這種方案?,F在常見的、在很多產品中使用的,都是這三個技術流派的延續或結合。
基于GAN的文本-圖像生成模型,是四五年前最火的文圖生成技術。它的優點是,整個模型的生成過程很快,在當時來看,生成的圖像質量相當不錯;然而它致命的缺點是,網絡特別難訓練,稍不小心就會訓練壞,或者難以得到理想的效果。因此在之后的工作中,大家就不太實用了。
基于圖像量化的序列建模。它是把圖像基于離散化的方式,壓縮成離散視覺token的序列,這樣可以跟文本用類似的方式基于Transformer自回歸生成,建模文本序列和圖像序列間的關系。通過這樣的方式,做文圖轉換,也可以做圖像文本的生成。何徑舟表示,文心大模型ERNIE-ViLG第一個版本就是基于VQ-token-based這種方式做的,在當時ERNIE-ViLG能夠完成雙向的生成和建模。
基于擴散模型的文本-圖像生成模型,是現在文圖生成技術的主流。它是把一個圖像通過加高斯噪聲的方式,一直到純隨機序列高斯噪音的分布。再通過UNet,不斷反復調用它,把這個圖像還原回來。這時候可以把文本的encoder加進去,指導圖像還原過程。這樣就實現了從文本到圖像的生成過程。這是現在絕大多數最新產品和技術都采用的方案,效果非常好。
小結
過去這些年,國內外在大模型技術的研究方面不斷取得突破,最近ChatGPT的出現及其體現出的驚人能力,更是讓人們體會到了大模型對于人工智能發展的重要意義。從種種跡象來看,疊加情景學習、指令微調、人類反饋、強化學習等機制,可以使大模型實現超出想象的能力涌現,讓人們期待的通用人工智能的實現加速。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
87文章
30728瀏覽量
268886 -
大模型
+關注
關注
2文章
2423瀏覽量
2641
發布評論請先 登錄
相關推薦
嵌入式和人工智能究竟是什么關系?
與人工智能的結合,無疑是科技發展中的一場革命。在人工智能硬件加速中,嵌入式系統以其獨特的優勢和重要性,發揮著不可或缺的作用。通過深度學習和神經網絡等算法,嵌入式系統能夠高效地處理大量數據,從而
發表于 11-14 16:39
《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感
幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。
在閱讀《AI for Science:人工智能驅動科學創新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細
發表于 10-14 09:27
AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感
。
4. 對未來生命科學發展的展望
在閱讀這一章后,我對未來生命科學的發展充滿了期待。我相信,在人工智能技術的推動下,生命科學將取得更加顯著的進展。例如,在藥物研發領域,AI技術將幫助
發表于 10-14 09:21
《AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得
非常高興本周末收到一本新書,也非常感謝平臺提供閱讀機會。
這是一本挺好的書,包裝精美,內容詳實,干活滿滿。
關于《AI for Science:人工智能驅動科學創新》第二章“AI
發表于 10-14 09:16
《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得
,無疑為讀者鋪設了一條探索人工智能(AI)如何深刻影響并推動科學創新的道路。在閱讀這一章后,我深刻感受到了人工智能技術在科學領域的廣泛應用潛力以及其帶來的革命性變化,以下是我個人的學習
發表于 10-14 09:12
名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新
!
《AI for Science:人工智能驅動科學創新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家一起去了解:
人工智能究竟幫科學家做了什么?
發表于 09-09 13:54
報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI
8月28日至30日,2024深圳(國際)通用人工智能大會暨深圳(國際)通用人工智能產業博覽會將在深圳國際會展中心(寶安)舉辦。大會以“魅力AI·無限未來”為主題,致力于打造全球通用人工智能
發表于 08-22 15:00
阿丘科技成功入選“北京市通用人工智能產業創新伙伴計劃”,AI+工業視覺實力再獲肯定
成式AI技術、垂直行業視覺大模型等創新探索,成功入選“應用伙伴”。聚焦AI+工業場景,入選應用伙伴“北京市通用人工智能產業創新伙伴計劃”由北京市經濟和信息化局、北京
千方科技成功入選“北京市通用人工智能產業創新伙伴計劃”
日前,“2024全球數字經濟大會人工智能專題論壇”在京舉辦,會上正式發布了新一批“北京市通用人工智能產業創新伙伴計劃”成員名單(以下簡稱“伙伴計劃”)。千方科技憑借在交通、物聯、城市治理等關鍵場景中
人工智能模型有哪些
人工智能(Artificial Intelligence, AI)作為21世紀最具影響力的技術之一,正以前所未有的速度改變著我們的生活、工作乃至整個社會結構。AI
九章云極DataCanvas公司入選北京市通用人工智能產業創新伙伴計劃
作為北京市標桿人工智能企業,九章云極DataCanvas公司將持續發揮產業優勢,繼續堅持將自主創新的AI技術注入產業,以大模型應用為終極服務目標,通過包括大
大模型應用之路:從提示詞到通用人工智能(AGI)
鋪平道路。 基于AI大模型的推理功能,結合了RAG(檢索增強生成)、智能體(Agent)、知識庫、向量數據庫、知識圖譜等先進技術,我們向實現真正的AGI(
嵌入式人工智能的就業方向有哪些?
。 國內外科技巨頭紛紛爭先入局,在微軟、谷歌、蘋果、臉書等積極布局人工智能的同時,國內的BAT、華為、小米等科技公司也相繼切入到嵌入式人工智能的賽道。那么嵌入式AI可就業的方向有哪些呢? 嵌入式
發表于 02-26 10:17
評論