天天射天天舔,亚洲精品日韩专区在线观看,王者荣耀瑶白色液体

2021年12月 WebGPT 的橫空出世標(biāo)志了基于網(wǎng)頁搜索的問答新范式的誕生，在此之后，New Bing 首先將網(wǎng)頁搜索功能整合發(fā)布，隨后 OpenAI 也發(fā)布了支持聯(lián)網(wǎng)的插件 ChatGPT Plugins。大模型在聯(lián)網(wǎng)功能的加持下，回答問題的實時性和準(zhǔn)確性都得到了飛躍式增強。

近期，面壁智能聯(lián)合來自清華、人大、騰訊的研究人員共同發(fā)布了中文領(lǐng)域首個基于交互式網(wǎng)頁搜索的問答開源模型框架 WebCPM，相關(guān)工作錄用于自然語言處理頂級會議 ACL 2023。

WebCPM 是面壁智能自研大模型工具學(xué)習(xí)引擎 BMTools的首個成功實踐，其特點在于其信息檢索基于交互式網(wǎng)頁搜索，能夠像人類一樣與搜索引擎交互從而收集回答問題所需要的事實性知識并生成答案。WebCPM 背后的基礎(chǔ)模型 CPM 是由面壁智能與 OpenBMB 開源社區(qū)開發(fā)的百億參數(shù)中文語言模型，占據(jù)多個中文領(lǐng)域語言模型排行榜前列。

WebCPM 論文鏈接：https://arxiv.org/abs/2305.06849

WebCPM 數(shù)據(jù)與代碼鏈接：

https://github.com/thunlp/WebCPM

WebCPM研究背景

在當(dāng)今信息化時代，人們在日常生活和工作中，需要不斷地獲取各種知識和信息，而這些信息往往分散在互聯(lián)網(wǎng)上的海量數(shù)據(jù)中。如何快速、準(zhǔn)確地獲取這些信息，并且對這些信息進行合理的整合，從而回答復(fù)雜、開放式問題，是一個極具挑戰(zhàn)性的問題。長文本開放問答（Long-form Question Answering, LFQA）模型就是為了回答這種復(fù)雜的問題而設(shè)計的。

目前的 LFQA 解決方案通常采用檢索-綜合范式，包括信息檢索和信息綜合兩個核心環(huán)節(jié)。信息檢索環(huán)節(jié)從外部知識源（如搜索引擎）中搜索多樣化的相關(guān)支持事實，信息綜合環(huán)節(jié)則將搜集到的事實整合成一個連貫的答案。

然而，傳統(tǒng)的 LFQA 范式存在一個缺陷：它通常依賴于非交互式的檢索方法，即僅使用原始問題作為查詢語句來檢索信息。相反，人類能夠通過與搜索引擎實時交互來進行網(wǎng)頁搜索而篩選高質(zhì)量信息。

對于復(fù)雜問題，人類往往將其分解成多個子問題并依次提問。通過識別和瀏覽相關(guān)信息，人類逐漸完善對原問題的理解，并不斷查詢新問題來搜索更多樣的信息。這種迭代的搜索過程有助于擴大搜索范圍，提高搜索結(jié)果質(zhì)量。總體而言，交互式網(wǎng)頁搜索不僅為我們提供了獲取多樣化信息來源的途徑，同時也反映了人類解決問題的認(rèn)知過程，從而提高了可解釋性。

2021年12月 OpenAI 發(fā)布 WebGPT，這是支持 LFQA 的交互式網(wǎng)頁搜索的一項先驅(qū)性工作。作者首先構(gòu)建了一個由微軟必應(yīng)搜索（Bing）支持的網(wǎng)頁搜索界面，然后招募標(biāo)注員使用該界面收集信息來回答問題。之后，他們微調(diào) GPT-3 模型，讓其模仿人類的搜索行為，并將收集到的信息整理成答案。實驗結(jié)果顯示，WebGPT 在 LFQA 任務(wù)具備出色的能力，甚至超過了人類專家。而 WebGPT 也正是微軟近期推出的 New Bing 背后的新一代搜索技術(shù)。

盡管效果十分驚人，但 WebGPT 、New Bing 對學(xué)術(shù)圈和工業(yè)界來說仍然充滿神秘感。這是因為 WebGPT 的相關(guān)細(xì)節(jié)并未完全公開，其核心設(shè)計元素的工作原理也不透明。鑒于當(dāng)前交互式網(wǎng)頁搜索的重要價值，我們迫切需要一個標(biāo)準(zhǔn)數(shù)據(jù)集與相關(guān)的開源模型以支持后續(xù)研究。

WebCPM搜索交互界面和數(shù)據(jù)集

▲ WebCPM搜索交互界面

為推動相關(guān)領(lǐng)域發(fā)展，這篇 ACL 論文的研究團隊首先構(gòu)建了一個開源的交互式網(wǎng)頁搜索界面，用于記錄人類為開放式問題收集相關(guān)信息時的網(wǎng)頁搜索行為。該界面底層調(diào)用必應(yīng)搜索 API 支持網(wǎng)頁搜索功能，囊括 10種主流網(wǎng)頁搜索操作（如點擊頁面、返回等等）。

在這個界面中，用戶可以執(zhí)行預(yù)定義的操作來進行多輪搜索和瀏覽。在找到網(wǎng)頁上的相關(guān)信息時，他們可以將其作為支持事實記錄下來。當(dāng)收集到足夠的信息后，用戶可以完成網(wǎng)頁搜索，并根據(jù)收集到的事實來回答問題。同時，界面會自動記錄用戶的網(wǎng)頁瀏覽行為，用于構(gòu)建 WebCPM 數(shù)據(jù)集。

▲ WebCPM數(shù)據(jù)集與相關(guān)問答數(shù)據(jù)集的比較

基于這個界面，作者構(gòu)建了中文領(lǐng)域首個基于交互式網(wǎng)頁搜索的 LFQA 數(shù)據(jù)集。它包含 5,500對高質(zhì)量的問題-答案對以及十萬多條真實用戶網(wǎng)頁搜索行為。與現(xiàn)有的中文問答數(shù)據(jù)集相比，WebCPM 的問題、支持事實和答案都更長，體現(xiàn)了其問題的復(fù)雜性和答案內(nèi)容的豐富性。

WebCPM模型框架

作者提出了的 WebCPM 框架包括：（1）搜索模型與（2）答案綜合模型。

▲ WebCPM模型框架

搜索模型：

該模型模仿人類網(wǎng)頁搜索行為、與搜索引擎交互并進行信息檢索。作者將網(wǎng)頁搜索任務(wù)劃分為 3 個子任務(wù)：搜索行為預(yù)測（action prediction）、查詢語句生成（search query generation）和支持事實摘要（supporting fact extraction）。搜索行為預(yù)測模塊在每一步?jīng)Q定執(zhí)行哪個具體的搜索行為。該模塊可以調(diào)用其它兩個模塊來生成下一步查詢語句或摘錄重要信息。每個子任務(wù)都基于生成式中文大模型來訓(xùn)練。

通過組合 3 個訓(xùn)練得到的模塊，該模型能夠在搜索引擎界面上執(zhí)行一系列操作以收集與問題相關(guān)的信息。每個模塊在當(dāng)前界面狀態(tài) 的條件下執(zhí)行推理。包括原始問題、當(dāng)前搜索的查詢語句、歷史操作序列，上一個窗口和當(dāng)前窗口中顯示的內(nèi)容和、當(dāng)前已經(jīng)摘錄的支持事實。

答案綜合模型

該模型根據(jù)原問題與收集到的事實生成連貫的答案。然而與人類不同，經(jīng)過訓(xùn)練的搜索模型偶爾會收集到不相關(guān)的噪聲，這將影響生成答案的質(zhì)量。為了解決這一問題，作者在答案綜合模型的訓(xùn)練數(shù)據(jù)中引入噪聲，使其具備一定的去噪的能力，從而忽略不相關(guān)的事實，只關(guān)注重要的事實以生成答案。

WebCPM實驗評測

作者首先對每個子模塊分別評估，然后，將所有模塊組合起來形成整體的 pipeline，并測試其效果。最后，作者對每個模塊的性能進行深入分析。

單個子任務(wù)的性能評估結(jié)果，作者測試了包括 CPM 模型在內(nèi)的多個有代表性的中文大模型。

3.1 單個子任務(wù)評估

作者測試了多個有代表性的中文大模型，并得出以下結(jié)論（結(jié)果如上圖所示）：不同模型在四個子任務(wù)上的性能各有優(yōu)劣。例如在搜索行為預(yù)測、查詢語句生成和支持事實摘要中，mT0 的表現(xiàn)優(yōu)于 mT5，但在綜合信息方面表現(xiàn)較差。此外，CPM 系列模型的性能隨著模型參數(shù)量的增加也不斷提高。得益于 scaling law ，更大的模型通常擁有更強的理解和生成能力，能表現(xiàn)出更好的下游任務(wù)性能。

3.2 整體pipeline評測

對于每個測試問題，作者比較了模型（CPM 10B 模型）和人類用戶使用搜索引擎回答問題和做相同任務(wù)的表現(xiàn)，并進行人工評測。具體而言，給定一個問題和模型與人類分別給出的答案，標(biāo)注員將根據(jù)多個因素（包括答案整體實用性、連貫性和與問題的相關(guān)性）決定哪個答案更好。

從下圖（a）的結(jié)果可以得出以下結(jié)論：模型生成的答案在30%+的情況下與人寫的答案相當(dāng)或更優(yōu)。這個結(jié)果表明整個問答系統(tǒng)的性能在未來仍有巨大的提升空間（例如訓(xùn)練性能更加強大的基底模型）；當(dāng)將人工收集的事實應(yīng)用于信息綜合模型時，性能提高到了45%，這可以歸因于收集的事實質(zhì)量的提高。

▲ 整體pipeline評測效果，作者測試了WebCPM數(shù)據(jù)集和DuReader數(shù)據(jù)集

此外，作者也將整體 pipeline 應(yīng)用于 DuReader 中文 QA 數(shù)據(jù)集（包含 Zhidao 和 Search 兩個子數(shù)據(jù)集），并比較了模型生成的答案和人工標(biāo)注的答案，從上圖（b）可以觀察到模型生成的答案比 DuReader 標(biāo)注答案更好的情況接近50%，這反映了該模型強大的泛化能力，體現(xiàn)了WebCPM 數(shù)據(jù)標(biāo)注的高質(zhì)量。

WebCPM案例分析

為了探究查詢模塊所學(xué)習(xí)到的人類行為，作者抽樣不同測試問題生成的查詢語句來進行案例分析。下圖展示了部分結(jié)果，以研究查詢模塊的性能。可以看出，該模塊已經(jīng)學(xué)會了復(fù)制原始問題，將問題分解為多個子問題，用相關(guān)術(shù)語改寫問題等多種人類搜索策略。這些策略使查詢語句更加多樣化，有助于從更多的來源收集更豐富的信息。

WebCPM成功實踐BMTools

近年來，大模型在諸多領(lǐng)域展現(xiàn)出驚人的應(yīng)用價值，持續(xù)刷新各類下游任務(wù)的效果上限。盡管大模型在很多方面取得了顯著的成果，但在特定領(lǐng)域的任務(wù)上，仍然存在一定的局限性。這些任務(wù)往往需要專業(yè)化的工具或領(lǐng)域知識才能有效解決。因此，大模型需要具備調(diào)用各種專業(yè)化工具的能力，這樣才能為現(xiàn)實世界任務(wù)提供更為全面的支持。

最近，新的范式大模型工具學(xué)習(xí)（Tool Learning）應(yīng)運而生。這一范式的核心在于將專業(yè)工具與基礎(chǔ)模型的優(yōu)勢相融合，以在問題解決方面達(dá)到更高的準(zhǔn)確性、效率和自主性，工具學(xué)習(xí)極大地釋放了大模型的潛力。

在應(yīng)用方面，ChatGPT Plugins 的出現(xiàn)補充了 ChatGPT 最后的短板，使其可以支持連網(wǎng)、解決數(shù)學(xué)計算，被稱為 OpenAI 的 “App Store” 時刻。然而直到現(xiàn)在，它僅支持部分 OpenAI Plus 用戶，大多數(shù)開發(fā)者仍然無法使用。為此，面壁智能前段時間也推出了工具學(xué)習(xí)引擎 BMTools，一個基于語言模型的開源可擴展工具學(xué)習(xí)平臺，它將是面壁智能在大模型體系布局中的又一重要模塊。

研發(fā)團隊將各種各樣的工具（例如文生圖模型、搜索引擎、股票查詢等）調(diào)用流程都統(tǒng)一到一個框架上，使整個工具調(diào)用流程標(biāo)準(zhǔn)化、自動化。開發(fā)者可以通過 BMTools，使用給定的模型（ChatGPT、GPT-4）調(diào)用多種多樣的工具接口，實現(xiàn)特定功能。此外，BMTools 工具包也已集成最近爆火的 Auto-GPT 與 BabyAGI。

BMTools 工具包：https://github.com/OpenBMB/BMTools

工具學(xué)習(xí)綜述鏈接：

https://arxiv.org/abs/2304.08354

工具學(xué)習(xí)論文列表：

https://github.com/thunlp/ToolLearningPapers

WebCPM 是 BMTools 的一次成功實踐，相信在不斷發(fā)展和完善大模型工具學(xué)習(xí)技術(shù)的過程中，面壁智能將讓大模型落地賦能更多產(chǎn)業(yè)。期待大模型在更多領(lǐng)域展現(xiàn)出令人驚喜的應(yīng)用價值。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6610

瀏覽量
104160
模型

模型

+關(guān)注

關(guān)注
1

文章
3261

瀏覽量
48914
信息檢索

信息檢索

+關(guān)注

關(guān)注
0

文章
12

瀏覽量
7604

原文標(biāo)題：清華ACL2023 | WebCPM：首個聯(lián)網(wǎng)支持中文問答開源模型

文章出處：【微信號：zenRRan，微信公眾號：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

開源AI模型庫是干嘛的

開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經(jīng)過訓(xùn)練，能夠執(zhí)行特定的任務(wù)。以下，是對

發(fā)表于 12-14 10:33 ?201次閱讀

阿里云開源推理大模型QwQ

推理能力，尤其在數(shù)學(xué)和編程方面表現(xiàn)突出。其整體推理水平已經(jīng)可以與OpenAI的o1模型相媲美，這充分展示了QwQ的強大實力和潛力。 QwQ(Qwen with Questions)是通義千問Qwen大模型系列中的最新實驗性研究模型

發(fā)表于 11-29 11:30 ?584次閱讀

科技云報到：假開源真噱頭？開源大模型和你想的不一樣！

查看、修改、分發(fā)。開源自此深刻影響了互聯(lián)網(wǎng)行業(yè)的每一個角落。在大模型和GenAI崛起的當(dāng)下，開源再次成為業(yè)界關(guān)注焦點，對于開源和閉源的爭論

發(fā)表于 11-03 10:46 ?240次閱讀

全球首個開源AI標(biāo)準(zhǔn)正式發(fā)布

近日，在備受矚目的2024年ALL THINGS OPEN大會上，開源組織Open Source Initiative（OSI）宣布了一項重大突破——正式發(fā)布了開源人工智能定義（OSAID）1.0版本。這一里程碑式的成就標(biāo)志著全球首個

發(fā)表于 10-31 10:59 ?276次閱讀

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實現(xiàn)。主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。大語言模型涉及以下幾個過程：數(shù)據(jù)收集：大語言模型通過從互

發(fā)表于 08-02 11:03

全球首個芯片設(shè)計開源大模型SemiKong正式發(fā)布

在科技日新月異的今天，全球首個芯片設(shè)計開源大模型SemiKong的正式發(fā)布，無疑為半導(dǎo)體行業(yè)投下了一枚震撼彈，預(yù)示著一場深刻的行業(yè)變革即將拉開序幕。這款由Aitomatic與FPT Software

發(fā)表于 07-14 10:01 ?952次閱讀

智源研究院揭曉大模型測評結(jié)果，豆包與百川智能大模型表現(xiàn)優(yōu)異

在多模態(tài)理解圖文問答任務(wù)中，開源和閉源模型表現(xiàn)相當(dāng)，而國產(chǎn)模型則表現(xiàn)出色。此外，在中文語境下的文生圖能力方面，國產(chǎn)多模態(tài)

發(fā)表于 05-20 09:26 ?771次閱讀

通義千問開源千億級參數(shù)模型

通義千問近日開源了其首個千億級參數(shù)模型Qwen1.5-110B，這是其全系列中首個達(dá)到千億級別的開源模型

發(fā)表于 05-08 11:01 ?765次閱讀

通義千問推出1100億參數(shù)開源模型

通義千問近日震撼發(fā)布1100億參數(shù)的開源模型Qwen1.5-110B，這一舉措標(biāo)志著通義千問在AI領(lǐng)域邁出了重大步伐。該模型成為通義千問全系列首個千億級參數(shù)

發(fā)表于 05-06 10:49 ?592次閱讀

商湯科技與海通證券攜手發(fā)布金融行業(yè)首個多模態(tài)全棧式大模型

商湯科技與海通證券聯(lián)合研發(fā)并發(fā)布了金融行業(yè)內(nèi)首個面向多業(yè)務(wù)場景的多模態(tài)全棧式大模型。雙方計劃將這一先進技術(shù)應(yīng)用于智能問答、合規(guī)風(fēng)控、代碼輔助以及辦公助手等關(guān)鍵業(yè)務(wù)領(lǐng)域，以實現(xiàn)大模型技術(shù)

發(fā)表于 05-06 10:16 ?478次閱讀

李彥宏：開源模型將逐漸滯后，文心大模型提升訓(xùn)練與推理效率

李彥宏解釋道，百度自研的基礎(chǔ)模型——文心 4.0，能夠根據(jù)需求塑造出適應(yīng)各類場景的微型版模型，并支持精細(xì)調(diào)整以及后預(yù)訓(xùn)練。相較于直接使用開源模型

發(fā)表于 04-16 14:37 ?451次閱讀

艾倫人工智能研究所發(fā)布全球首個100%開源大模型

艾倫人工智能研究所近日宣布，與多所大學(xué)合作，成功開發(fā)出全球首個100%開源大模型OLMo，包括權(quán)重、代碼、數(shù)據(jù)集和訓(xùn)練全過程。這一創(chuàng)新性項目旨在推動人工智能領(lǐng)域的開放研究，為全球研究者提供更便利的資源與平臺。

發(fā)表于 02-05 09:34 ?986次閱讀

字節(jié)發(fā)布機器人領(lǐng)域首個開源視覺-語言操作大模型，激發(fā)開源VLMs更大潛能

對此，ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓(xùn)練。

發(fā)表于 01-23 16:02 ?555次閱讀

幻方量化發(fā)布了國內(nèi)首個開源MoE大模型—DeepSeekMoE

幻方量化旗下組織深度求索發(fā)布了國內(nèi)首個開源 MoE 大模型 —— DeepSeekMoE，全新架構(gòu)，免費商用。

發(fā)表于 01-23 11:28 ?1688次閱讀

機器人基于開源的多模態(tài)語言視覺大模型

ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓(xùn)練。

發(fā)表于 01-19 11:43 ?424次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

WebCPM：首個聯(lián)網(wǎng)支持中文問答開源模型

評論

開源AI模型庫是干嘛的

阿里云開源推理大模型QwQ

科技云報到：假開源真噱頭？開源大模型和你想的不一樣！

全球首個開源AI標(biāo)準(zhǔn)正式發(fā)布

【《大語言模型應(yīng)用指南》閱讀體驗】+ 基礎(chǔ)知識學(xué)習(xí)

全球首個芯片設(shè)計開源大模型SemiKong正式發(fā)布

智源研究院揭曉大模型測評結(jié)果，豆包與百川智能大模型表現(xiàn)優(yōu)異

通義千問開源千億級參數(shù)模型

通義千問推出1100億參數(shù)開源模型

商湯科技與海通證券攜手發(fā)布金融行業(yè)首個多模態(tài)全棧式大模型

李彥宏：開源模型將逐漸滯后，文心大模型提升訓(xùn)練與推理效率

艾倫人工智能研究所發(fā)布全球首個100%開源大模型

字節(jié)發(fā)布機器人領(lǐng)域首個開源視覺-語言操作大模型，激發(fā)開源VLMs更大潛能

幻方量化發(fā)布了國內(nèi)首個開源MoE大模型—DeepSeekMoE

機器人基于開源的多模態(tài)語言視覺大模型