色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

AI下個大突破之前奏:研究人員正在教大型語言模型

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2022-07-10 15:25 ? 次閱讀

GPT-3 自動生成的語言竟然能和人類差不多,堪稱奇跡。但在很大程度上,GPT-3 也不過是個噱頭。判斷方法也很簡單。若提問 GPT-3:羊是什么顏色?它會說 “白色 ”,還會說 “黑色 ”, 頻次一樣高。因為英語里有 “black sheep”(黑羊,引申意為害群之馬)。

這就是語言模型的問題。只用文本訓練語言模型,會導致模型缺乏常識。不過,為了改變這種狀況,北卡羅來納大學教堂山分校(下文簡稱 UNC)的學者莫希特?班薩爾和其博士生譚昊研發(fā)了一種新技術(shù),研究人員稱其為為 “視覺監(jiān)督(vokenization)”,如此,GPT-3 等語言模型便能具備 “看 ” 的功能。

將語言模型與計算機視覺結(jié)合起來并不新鮮,該人工智能研究領域其實正在快速發(fā)展。出發(fā)點是這兩種類型都有不同的優(yōu)勢。GPT-3 等語言模型通過無監(jiān)督學習來訓練,不需要人工進行數(shù)據(jù)標注,因此很容易開發(fā)出大型模型。而物體識別系統(tǒng)等圖像模型更多是在現(xiàn)實世界中學習。換句話說,圖像模型并不依賴文本所提供的抽象世界來理解世界。比如,圖像模型可以從羊的圖片中 “看到”,羊其實是白色的。

能夠同時解析語言和視覺輸入的人工智能模型用處很大。例如,機器人需要計算機視覺來導航,也需要語言來與人類交流,因此該模型能用于開發(fā)機器人。

但要結(jié)合這兩種類型,是說起來容易做起來難。并非把現(xiàn)有的語言模型與物體識別系統(tǒng)拼接在一起便大功告成,而是需要從頭開始訓練新模型。所用數(shù)據(jù)集要包括文本和圖像,也就是所謂的視覺語言數(shù)據(jù)集。

要獲得這樣一個數(shù)據(jù)集,最常見的方法是做帶有描述性標題的圖片集。例如,下面這張圖片的標題設為 “一只橘貓臥在空行李箱里”。這樣的圖片集便和傳統(tǒng)圖片數(shù)據(jù)集不同。后者只用名詞來標注圖片,比如給下面這張圖片只簡單地命名為 “貓”。因此,視覺語言數(shù)據(jù)集不僅可以教人工智能模型如何識別對象,還可以教人工智能模型如何根據(jù)動詞和介詞識別不同對象之間的相互關(guān)系。

但如此也意味著,創(chuàng)建數(shù)據(jù)集會耗費很長時間。因此,現(xiàn)有的視覺語言數(shù)據(jù)集太單薄了。而常用的純文本數(shù)據(jù)集則不同。如英語維基百科,包括了幾乎所有英語維基百科條目,有近 30 億個單詞。而視覺語言數(shù)據(jù)集 Microsoft Common Objects in Context(下文簡稱 MS COCO)只包含 700 萬個,根本不足以訓練一個有用的 AI 模型。

有了視覺監(jiān)督,問題迎刃而解。視覺監(jiān)督使用無監(jiān)督學習方法,將 MS COCO 的數(shù)據(jù)規(guī)模擴展到與英語維基百科相當。視覺語言模型用規(guī)模化后的數(shù)據(jù)集訓練后,研究人員使用了一些最難的 AI 語言理解能力測試對其進行檢驗。結(jié)果模型的表現(xiàn)甚至優(yōu)于當今最先進的模型。

自然語言處理初創(chuàng)公司 Hugging Face 的聯(lián)合創(chuàng)始人兼首席科學官托馬斯?沃爾夫說:“要在這些測試中擊敗最先進的模型,得下大力氣。這些測試可不是兒戲。能有這樣的結(jié)果,真的讓人非常激動。”

我們先理清一些術(shù)語。到底什么是 “voken”?

在人工智能領域,用來訓練語言模型的詞稱為 token。UNC 研究人員便以 “voken”,來指代所用視覺語言模型中與任一 token 相關(guān)聯(lián)的圖像。用來匹配 token 和 voken 的算法稱為 vokenizer, 整個匹配過程稱為 “視覺監(jiān)督”。

說了這么多,主要是為了幫助大家理解視覺監(jiān)督的基本理念。UNC 研究人員沒有拿著圖像數(shù)據(jù)集來手動編寫標題,這耗時過長;他們選擇了使用語言數(shù)據(jù)集以及無監(jiān)督學習法,匹配每個單詞與相關(guān)圖像。如此便很容易規(guī)模化。

此處的無監(jiān)督學習技術(shù)正是此項研究的貢獻。那么,究竟如何為每個單詞找到關(guān)聯(lián)圖像呢?

視覺監(jiān)督

先回到 GPT-3。GPT-3 所屬語言模型家族有 “變形金剛” 之稱。2017 年,該類模型首次面世,便是將無監(jiān)督學習應用于自然語言處理取得的重大突破。變形金剛可以觀察單詞在上下文中的使用,再根據(jù)上下文創(chuàng)建每個單詞的數(shù)學表達式,即 “單詞嵌入”,以此來學習人類語言模式。例如,代表 “貓 ” 的嵌入可能會顯示,“喵 ” 和 “橙” 兩字周圍,“貓” 出現(xiàn)頻率高,但在 “吠 ” 或 “藍色 ” 周圍出現(xiàn)的頻率便較低。

因此,變形金剛猜單詞含義的準確度較高,GPT-3 也因此能寫出仿佛由人所作的句子。變形金剛一定程度上依靠這些嵌入,學習如何將單詞組成句子、句子組成段落。

還有一種類似技術(shù)也可以用于處理圖像。這種技術(shù)不是通過掃描文本來尋找單詞使用規(guī)律,而是通過掃描圖像來尋找視覺規(guī)律。比如,該技術(shù)將貓出現(xiàn)在床上與出現(xiàn)在樹上的頻率制成表格,并利用這些上下文信息創(chuàng)建 “貓” 的嵌入。

UNC 研究人員認為,處理 MS COCO 要同時使用這兩種嵌入技術(shù)。研究人員將圖像處理為視覺嵌入,將標題處理為文字嵌入。而這些嵌入妙就妙在能在三維空間中繪制出來,完全可以看到嵌入之間的關(guān)系。如果某一視覺嵌入與某一單詞嵌入密切相關(guān),繪制出來后位置很接近。換句話說,理論上,代表貓的視覺嵌入應該與代表貓的文字嵌入重合。

之后的工作也就水到渠成。一旦嵌入都繪制完畢、并相互比較和關(guān)聯(lián),就很容易開始匹配圖像(voken)與文字(token)。而且,由于圖像和單詞基于原嵌入進行匹配,那么實際也在基于上下文進行匹配。這樣,即便一個詞可能有多個不同含義也不必擔心,該技術(shù)能為單詞的每個含義找到對應 voken。

比如:

這是她的聯(lián)系方式 。 一些貓喜歡被人撫摸。

這兩個例子中的 token 都是 “contact” 一詞。但在第一個句子中,上下文表明 “contact” 是聯(lián)系的意思,所以 voken 是聯(lián)系圖標。在第二個句子中,上下文表明這個詞有觸摸的意思,所以 voken 顯示的是一只被撫摸的貓。

這些利用 MS COCO 創(chuàng)建的視覺和單詞嵌入,便用來訓練算法 vokenizer。

一旦經(jīng)過訓練,vokenizer 就能夠在英語維基百科中找 token 的對應 voken。雖然該算法只為大約 40% 的 token 找到了 voken,并不完美,但英語維基百科可是有接近 30 億字。

有了新的數(shù)據(jù)集后,研究人員重新訓練了 BERT 語言模型。BERT 是谷歌開發(fā)的開源變形金剛,比 GPT-3 還要早。然后,研究人員使用六個語言理解測試,測試改進的 BERT。語言理解測試中有 SQuAD 斯坦?;卮饠?shù)據(jù)集,該測試要求模型回答基于文章的閱讀理解題;還有 SWAG 測試,該測試利用英語語言的精妙處,檢測模型是否只是單純模仿和記憶。改進的 BERT 在所有測試里表現(xiàn)都比原來更突出。沃爾夫說,這并不奇怪。

11 月 16 日到 18 日將舉辦自然語言處理實證方法會議。研究人員將在會議上展示視覺監(jiān)督新技術(shù)。雖然研究還處于早期階段,但沃爾夫認為,從在視覺語言模型中利用無監(jiān)督學習方面看,這項工作是一項重要觀念突破。當年,正是類似突破極大推動了自然語言處理的發(fā)展。

沃爾夫說:“在自然語言處理領域,兩年多前便有了這一巨大突破,然后突然間自然語言處理領域有了很大發(fā)展,開始走在其他 AI 領域前面。但是把文字和其他事物聯(lián)系起來還是有很大障礙。就像機器人只能說話,但不會看、不會聽?!?/p>

“這篇論文則做到了將文字與另一種模式連接起來,而且效果更好,樹立了典范??梢韵胂?,如果要把這種非常強大的語言模型用到機器人上,也許能用到部分新技術(shù)。比如,用同樣的技術(shù)將機器人的感官和文本聯(lián)系起來?!?/p>

原文標題:AI下個大突破之前奏:研究人員正在教大型語言模型 “看” 世界,進而理解世界

文章出處:【微信公眾號:DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關(guān)注

    關(guān)注

    162

    文章

    4388

    瀏覽量

    120434
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31099

    瀏覽量

    269435
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47409

    瀏覽量

    238925

原文標題:AI下個大突破之前奏:研究人員正在教大型語言模型 “看” 世界,進而理解世界

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI語言模型開發(fā)步驟

    開發(fā)一個高效、準確的大語言模型是一個復雜且多階段的過程,涉及數(shù)據(jù)收集與預處理、模型架構(gòu)設計、訓練與優(yōu)化、評估與調(diào)試等多個環(huán)節(jié)。接下來,AI部落小編為大家詳細闡述
    的頭像 發(fā)表于 12-19 11:29 ?134次閱讀

    NaVILA:加州大學與英偉達聯(lián)合發(fā)布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了一款創(chuàng)新的視覺語言模型——NaVILA。該模型在機器人導航領域展現(xiàn)出了獨特的應用潛力,為智能機器人的自主導航提供了一種全新的解決方案。 視
    的頭像 發(fā)表于 12-13 10:51 ?284次閱讀

    語言模型開發(fā)框架是什么

    語言模型開發(fā)框架是指用于訓練、推理和部署大型語言模型的軟件工具和庫。下面,AI部落小編為您介紹
    的頭像 發(fā)表于 12-06 10:28 ?138次閱讀

    AMD發(fā)布10億參數(shù)開源AI模型OLMo

    AMD公司近日宣布了一項重大進展,推出了首個完全開放的10億參數(shù)語言模型系列——AMD OLMo。這一舉措為開發(fā)者和研究人員提供了強大的AI研究
    的頭像 發(fā)表于 11-12 18:08 ?456次閱讀

    從零開始訓練一個大語言模型需要投資多少錢?

    一,前言 ? 在AI領域,訓練一個大型語言模型(LLM)是一個耗時且復雜的過程。幾乎每個做大型語言
    的頭像 發(fā)表于 11-08 14:15 ?251次閱讀
    從零開始訓練一<b class='flag-5'>個大</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>需要投資多少錢?

    AI模型的最新研究進展

    AI模型的最新研究進展體現(xiàn)在多個方面,以下是對其最新進展的介紹: 一、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式
    的頭像 發(fā)表于 10-23 15:19 ?480次閱讀

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第二章AI for Science的技術(shù)支撐學習心得

    偏見、倫理道德等問題。此外,如何更好地將AI與科學研究人員的傳統(tǒng)工作模式相融合,也是一個亟待解決的問題。未來,隨著技術(shù)的不斷進步和應用場景的拓展,AI for Science有望在更多領域發(fā)揮關(guān)鍵作用
    發(fā)表于 10-14 09:16

    基于CPU的大型語言模型推理實驗

    隨著計算和數(shù)據(jù)處理變得越來越分散和復雜,AI 的重點正在從初始訓練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強大的公開可用的大型語言
    的頭像 發(fā)表于 07-18 14:28 ?574次閱讀
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>推理實驗

    AI模型與傳統(tǒng)AI的區(qū)別

    AI模型(如LLM,即大型語言模型)與傳統(tǒng)AI在多個方面存在顯著的區(qū)別。以下將從技術(shù)層面、應用
    的頭像 發(fā)表于 07-15 11:37 ?2864次閱讀

    谷歌發(fā)布新型大語言模型Gemma 2

    在人工智能領域,大語言模型一直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發(fā)人員,正式發(fā)布了其最新研發(fā)的大
    的頭像 發(fā)表于 06-29 09:48 ?447次閱讀

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

    、自然語言處理感興趣的研究人員、工程師以及學生閱讀。無論是初學者還是有一定基礎的專業(yè)人士,都能從中獲得有價值的信息。
    發(fā)表于 05-07 10:30

    【大語言模型:原理與工程實踐】大語言模型的基礎技術(shù)

    語言模型基礎技術(shù)21隨著Transformer結(jié)構(gòu)在機器翻譯領域取得巨大成功,研究人員開始探索其在其他自然語言處理任務中的潛力。很快,Transformer 結(jié)構(gòu)被證明不僅適用于序列
    發(fā)表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    。 大語言模型的縮放定律對于深度學習研究和應用具有重要意義。它提供了更強大的泛化能力和適應性,使得模型能夠更好地處理現(xiàn)實世界中的復雜任務和不確定性問題。同時,縮放定律也促進了開放性
    發(fā)表于 05-04 23:55

    谷歌發(fā)布輕量級開源人工智能模型Gemma

    谷歌近日宣布推出開源人工智能(AI模型系列Gemma,旨在為開發(fā)人員研究人員提供一個負責任的AI構(gòu)建平臺。這一舉措標志著自2022年Op
    的頭像 發(fā)表于 02-23 11:38 ?896次閱讀

    中國批準14個大語言模型供公眾使用,趕超美國AI進程加速

    據(jù)鈦媒體報道,近期中國監(jiān)管部門已經(jīng)批準了14個大語言模型公開服務,自啟動審批流程至今剛好半年時間,已核準40多個AI大型模型,顯示出我國在該
    的頭像 發(fā)表于 01-30 09:40 ?930次閱讀
    主站蜘蛛池模板: 91九色porny蝌蚪| 久久综合色视频| 韩国黄色影院| 乱VODAFONEWIFI熟妇| 欧美黄色第一页| 羞羞答答的免费视频在线观看| 一道本在线伊人蕉无码| 992交通广播| 国产国拍精品AV在线观看| 好好的曰com久久| 欧美97色伦影院在线观看| 无人区尖叫之夜美女姐姐视频| 伊人久久综合成人亚洲| japanesematur乱儿| 国内精品久久久久久西瓜色吧| 蜜桃AV色欲A片精品一区| 无码国产精品高潮久久9| 中文亚洲大香伊蕉不卡一区| 俄罗斯兽交XXXXX在线| 九色PORNY真实丨首页| 日本毛片久久国产精品| 一个色综合久久| 第七色男人天堂| 久久香蕉国产线看观看精品| 乳欲性高清在线| 中文字幕在线播放| 国产蜜臀AV在线一区视频| 嫩草影院在线观看精品视频| 亚洲欧美国产综合在线一区| 成人免费观看www视频| 久久精品视频15人人爱在线直播 | 草莓视频在线免费观看| 九色PORNY真实丨首页| 日产久久视频| 100国产精品人妻无码| 国产午夜精品久久理论片| 欧美日韩中文国产一区| 伊人久久青青| 国产午夜小视频| 日韩成人在线视频| 97国内精品久久久久久久影视|