對話式 AI 是一種綜合運用多種技術(shù)的復(fù)雜的人工智能形式,能夠使人機(jī)間實現(xiàn)類似于真人的交互。復(fù)雜系統(tǒng)能夠識別語音和文本、理解意圖、識別特定語言的習(xí)語和格言,并且能夠以適當(dāng)?shù)淖匀徽Z言做出回應(yīng)。
什么是對話式 AI?
對話式 AI 是應(yīng)用機(jī)器學(xué)習(xí)來開發(fā)基于語言的應(yīng)用程序,使人們能夠通過語音與設(shè)備、機(jī)器和計算機(jī)進(jìn)行自然交互。
無論是虛擬助手在早上喚醒您,還是您詢問通勤路線,或者您在網(wǎng)購時與聊天機(jī)器人進(jìn)行交流,這些情況中您均在使用對話式 AI。您用正常的聲音說話,而設(shè)備可以理解并找到適當(dāng)答案,然后用聽起來自然的聲音回復(fù)您。
對話式 AI 的應(yīng)用程序有多種形式。最簡單的是 FAQ 機(jī)器人,它們經(jīng)過訓(xùn)練,可以從具有預(yù)先格式化答案的定義數(shù)據(jù)庫中回復(fù)查詢(通常是以書面形式表達(dá))。一種更復(fù)雜的對話式 AI 形式是虛擬個人助理,例如 Amazon 的 Alexa、Apple 的 Siri 和 Microsoft 的 Cortana。這些工具設(shè)備經(jīng)過調(diào)節(jié),可以回應(yīng)簡單的請求。
虛擬客戶助理是一種更專業(yè)的個人助理版本,它能夠理解上下文,從一個互動到下一個互動進(jìn)行對話。另一種專門的對話式 AI 形式是虛擬員工助理,它可以了解員工與軟件應(yīng)用程序和工作流程之間的互動情況,并提出改進(jìn)建議。虛擬員工助理廣泛用于機(jī)器人流程自動化這一熱門的新軟件類別。
為何選擇對話式 AI?
對話式 AI 是人類與智能機(jī)器和應(yīng)用程序(從機(jī)器人和汽車到家庭助理和移動應(yīng)用)互動的基本構(gòu)建塊。讓計算機(jī)理解人類語言及所有細(xì)微差別,并做出適當(dāng)?shù)姆磻?yīng),這是 AI 研究人員長期以來的追求。但是,在采用加速計算的現(xiàn)代 AI 技術(shù)出現(xiàn)之前,構(gòu)建具有真正自然語言處理 (NLP) 功能的系統(tǒng)是無法實現(xiàn)的。
在過去幾年中,深度學(xué)習(xí)改進(jìn)了對話式 AI 的技術(shù)水平,并且在某些任務(wù)上提供了超人的準(zhǔn)確性。深度學(xué)習(xí)還降低了構(gòu)建語言服務(wù)時,對語言學(xué)和基于規(guī)則的技術(shù)的深度知識的需求,從而在零售、醫(yī)療健康和金融等行業(yè)中得到了廣泛采用。
現(xiàn)如今,人們對高級對話式 AI 工具的需求日益增加。預(yù)計到 2020 年,50% 的搜索結(jié)果將由語音執(zhí)行,且到 2023 年,將有 80 億個數(shù)字語音助手投入使用。
對話式 AI 的工作原理是什么?
回答問題的步驟如下:將用戶語音轉(zhuǎn)換為文本,理解文本含義,搜索符合上下文的適當(dāng)應(yīng)答,最后使用文本轉(zhuǎn)語音工具提供應(yīng)答。對話式 AI 流程通常由三個階段組成:
自動語音識別 (ASR)
自然語言處理 (NLP) 或自然語言理解 (NLU)
帶有語音合成的文本轉(zhuǎn)語音 (TTS)
每一步都需要運行多個 AI 模型,因此每個單獨網(wǎng)絡(luò)的可用執(zhí)行時間約為 10 毫秒或更短。
自動語音識別 (ASR) 會收錄人類語音,然后將其轉(zhuǎn)換為可讀文本。深度學(xué)習(xí)在識別音素時具有更高的準(zhǔn)確性,已經(jīng)取代了傳統(tǒng)的統(tǒng)計方法,如隱馬爾可夫模型和高斯混合模型。
自然語言理解 (NLU) 會錄入文本,理解上下文和意圖,然后生成智能回復(fù)。深度學(xué)習(xí)模型能對眾多上下文和語言準(zhǔn)確進(jìn)行泛化處理,因此應(yīng)用于 NLU。Transformer 深度學(xué)習(xí)模型,如 BERT(Transformer 雙向編碼器表征模型),是時間遞歸神經(jīng)網(wǎng)絡(luò)的一個替代方案,它應(yīng)用了一種注意力技術(shù)—通過將注意力集中在前后最相關(guān)的詞上來解析一個句子。BERT 通過在問答 (QA)、實體識別、意圖識別、情感分析等基準(zhǔn)上提供與人類基準(zhǔn)相媲美的準(zhǔn)確性,徹底改變了 NLU 的進(jìn)展。
對話式 AI 流程的最后一個階段是將 NLU 階段生成的文本響應(yīng)改為自然發(fā)音的語音。聲清晰度是通過使用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)的,生成類似人類的語調(diào)和清晰的單詞發(fā)音。此步驟是通過兩個網(wǎng)絡(luò)完成的:一個根據(jù)文本生成頻譜圖的合成網(wǎng)絡(luò),一個從頻譜圖生成波形的聲碼器網(wǎng)絡(luò)。
GPU:對話式 AI 的關(guān)鍵
對話式 AI 背后的技術(shù)十分復(fù)雜,涉及多步驟過程,需要大量的功耗計算,并要在 300 毫秒內(nèi)完成大量計算,才能提供優(yōu)質(zhì)的用戶體驗。
一個由數(shù)百個核心組成的 GPU,可以并行處理數(shù)千個線程。這使得 GPU 成為訓(xùn)練深度學(xué)習(xí)模型和執(zhí)行推理的首選平臺,因為它們的性能比純 CPU 平臺高 10 倍。
借助 NVIDIA GPU 和 NVIDIA? CUDA-X AI? 庫,可快速訓(xùn)練和優(yōu)化大量的先進(jìn)語言模型,從而在幾毫秒或幾千分之一秒內(nèi)運行推理。這是一項重大進(jìn)步,可以結(jié)束快速 AI 模型與大型復(fù)雜 AI 模型之間的權(quán)衡。
此外,像 BERT 這樣的基于 Transformer 深度學(xué)習(xí)模型不需要按順序處理連續(xù)數(shù)據(jù),與遞歸神經(jīng)網(wǎng)絡(luò)相比,可以在 GPU 上實現(xiàn)更多的并行化,并減少訓(xùn)練時間。
NVIDIA GPU 助力加速先進(jìn)的對話式 AI 技術(shù):
自動語音識別 (ASR):Kaldi 是一種 C++ 工具包,支持傳統(tǒng)方法以及用于 ASR 的熱門深度學(xué)習(xí)模型。GPU 加速的 Kaldi 解決方案的執(zhí)行速度比實時音頻快 3500 倍,比只用 CPU 的方案快 10 倍。
自然語言理解 (NLU):在與復(fù)雜語言模型協(xié)作時,NVIDIA GPU 的并行處理能力和 Tensor Core 架構(gòu)可實現(xiàn)更高的吞吐量和可擴(kuò)展性,從而為 BERT 的訓(xùn)練和推理提供突破性的性能。利用 NVIDIA T4,GPU 加速的 BERT-base 進(jìn)行推理的速度比單純的 CPU 解決方案快 17 倍。BERT 使用無監(jiān)督式學(xué)習(xí)方法的能力、使用預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)的能力,以及使用 GPU 進(jìn)行加速的能力,均使其在行業(yè)中得到廣泛應(yīng)用。為實現(xiàn)真正的對話式 AI,語言模型變得越來越大。未來的模型將比現(xiàn)在使用的大很多倍,因此 NVIDIA 構(gòu)建并開源了迄今為止最大的基于 Transformer 的 AI:GPT-2 8B,這是一種內(nèi)含 83 億參數(shù)的語言處理模型,比 BERT 大 24 倍。
文字轉(zhuǎn)語音 (TTS):熱門文本轉(zhuǎn)語音深度學(xué)習(xí)模型(GPU 加速的 Tacotron2 和 Waveglow)使用 NVIDIA T4 GPU 執(zhí)行推理的速度比僅使用 CPU 的 解決方案快 9 倍。
對話式 AI 用例
GPU 優(yōu)化的語言理解模型可集成到醫(yī)療健康、零售和金融服務(wù)等行業(yè)的 AI 應(yīng)用程序中,為智能揚聲器和客戶服務(wù)領(lǐng)域中的高級數(shù)字語音助手提供支持。通過使用這些高質(zhì)量的對話式 AI 工具,各個領(lǐng)域的企業(yè)在與客戶交流時,均可實現(xiàn)前所未有的個性化服務(wù)標(biāo)準(zhǔn)。
醫(yī)療健康
醫(yī)療健康面臨的困難之一是難以獲得。打醫(yī)生辦公室電話并一直等待的情況十分常見,與索賠代表聯(lián)系可能同樣困難。通過實施自然語言處理 (NLP) 來訓(xùn)練聊天機(jī)器人是醫(yī)療健康行業(yè)的一項新興技術(shù),可以解決醫(yī)療專業(yè)人員的短缺問題,并開創(chuàng)與患者的溝通渠道。
NLP 的另一個重要的醫(yī)療健康應(yīng)用程序是生物醫(yī)學(xué)文本挖掘(或 BioNLP)。鑒于生物文獻(xiàn)數(shù)量眾多,以及生物醫(yī)學(xué)出版速度不斷提高,自然語言處理是一個關(guān)鍵的工具,可以在已發(fā)表的研究中提取信息,推動生物醫(yī)學(xué)領(lǐng)域的知識進(jìn)步,協(xié)助藥物研發(fā)和疾病診斷。
金融服務(wù)
自然語言處理 (NLP) 是為金融服務(wù)公司構(gòu)建更好的聊天機(jī)器人和 AI 助理的關(guān)鍵組成部分。在眾多用于基于 NLP 的應(yīng)用程序的語言模型中,BERT 已成為機(jī)器學(xué)習(xí)領(lǐng)域 NLP 的領(lǐng)軍者及語言模型。借助 AI,NVIDIA 近期打破了 BERT 訓(xùn)練速度的記錄,有助于釋放未來幾年內(nèi)在線提供的數(shù)十億預(yù)期對話式 AI 服務(wù)的潛力,使其達(dá)到人類水平的理解能力。例如,銀行可以使用 NLP 來評估信用記錄很少或沒有信用記錄的客戶信譽。
零售
聊天機(jī)器人技術(shù)還常用于零售應(yīng)用程序,能夠準(zhǔn)確分析客戶查詢,并生成回復(fù)或建議。這可簡化客戶流程,并提高商店運營效率。NLP 還用于文本挖掘客戶反饋和情感分析。
對話式 AI 的優(yōu)勢
對此有許多答案。其中一點是人力成本很高。雖然成本差異很大,但根據(jù) F.Curtis Barry 公司的數(shù)據(jù),一個客服電話的全部成本介于 2.70 美元到 5.60 美元之間,其他公司估算的平均價格也要達(dá)到每分鐘一美元左右。將人工操作員替換為機(jī)器人,這具有顯著節(jié)約成本的優(yōu)勢。研究還表明,相較于銷售或客戶服務(wù)智能體,許多人更喜歡與電腦對話,這使得對話式 AI 成為客戶自助服務(wù)的實現(xiàn)者。
在許多場景中,比如一個人正在開車或忙于其他事情,又或者在電梯中無法使用鍵盤時,對話式 AI 比鍵盤交互更加合適。
核心技術(shù)還可用于解釋或完善模糊查詢,或解釋使用不同語言的人的查詢。
Gartner 認(rèn)為,85% 的客戶與企業(yè)的關(guān)系無需人工交互即可處理,McKinsey 公司估計,全球約 60% 的職業(yè)中的有三分之一的活動可以使用這項技術(shù)。
NVIDIA GPU 加速的對話式 AI 工具
借助對話式 AI 部署服務(wù)似乎令人生畏,但 NVIDIA 擁有可以簡化這一過程的工具,包括神經(jīng)模組(簡稱 NeMo)和一項名為 NVIDIA Riva 的新技術(shù)。為節(jié)省時間,預(yù)訓(xùn)練模型、訓(xùn)練腳本和性能結(jié)果可在 NVIDIA GPU Cloud (NGC) 軟件中心獲得。
NVIDIA Riva 是一種 GPU 加速應(yīng)用程序框架,允許公司使用視頻和語音數(shù)據(jù),為自己的行業(yè)、產(chǎn)品和客戶定制最先進(jìn)的對話式 AI 服務(wù)。
Riva 提供用于對話式 AI 的端到端深度學(xué)習(xí)流程。它包含先進(jìn)的深度學(xué)習(xí)模型,例如用于自然語言理解的 NVIDIA Megatron BERT。企業(yè)可以利用 NVIDIA NeMo 進(jìn)一步在數(shù)據(jù)上調(diào)優(yōu)這些模型,利用 NVIDIA TensorRT? 優(yōu)化推理,并利用 NGC(NVIDIA 的 GPU 優(yōu)化軟件目錄)上提供的 Helm 圖表在云端和邊緣進(jìn)行部署。
使用 Riva 構(gòu)建的應(yīng)用程序可以利用新款 NVIDIA A100 Tensor Core GPU 中的創(chuàng)新技術(shù)進(jìn)行 AI 計算,并利用 NVIDIA TensorRT 的新型優(yōu)化技術(shù)進(jìn)行推理。這使得使用功能強大的視覺和語音模型能夠運行整個多模態(tài)應(yīng)用程序,并且速度比實時交互的 300 毫秒閾值還要快。
NVIDIA GPU 加速的端到端數(shù)據(jù)科學(xué)
基于 CUDA 構(gòu)建的 RAPIDS? 開源軟件庫套件使您能夠完全在 GPU 上執(zhí)行端到端數(shù)據(jù)科學(xué)和分析流程,同時仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。
NVIDIA GPU 加速的深度學(xué)習(xí)框架
GPU 加速深度學(xué)習(xí)框架為設(shè)計和訓(xùn)練自定義深度神經(jīng)網(wǎng)絡(luò)帶來靈活性,并為 Python 和 C/C++ 等常用編程語言提供編程接口。MXNet、PyTorch、TensorFlow 等廣泛使用的深度學(xué)習(xí)框架依賴于 NVIDIA GPU 加速庫,能夠提供高性能的多 GPU 加速訓(xùn)練。
對話式 AI 在 NVIDIA 平臺的未來
推動基于 Transformer 語言網(wǎng)絡(luò)(如 BERT 和 GPT-2 8B)的大規(guī)模性能的要求,即其純粹的復(fù)雜性以及對龐大數(shù)據(jù)集的預(yù)訓(xùn)練。這種組合需要一個可靠的計算平臺來處理所有必要的計算,以推動快速執(zhí)行和準(zhǔn)確性。這些模型可以在大量無標(biāo)記數(shù)據(jù)集上工作,這使得它們成為現(xiàn)代 NLP 的創(chuàng)新中心,而且,對于即將在眾多用例中采用對話式 AI 應(yīng)用程序的新一波智能助手來說,這是一個強有力的選擇。
帶有 Tensor Core 體系架構(gòu)的 NVIDIA 平臺提供可編程性,以加速各種不同的現(xiàn)代 AI,包括基于 Transformer 的模型。此外,數(shù)據(jù)中心規(guī)模設(shè)計和 DGX SuperPOD? 的最優(yōu)化,與軟件庫和先進(jìn) AI 框架的直接支持相結(jié)合,為開發(fā)者提供了無縫的端到端平臺,以承擔(dān)艱巨的 NLP 任務(wù)。
NGC(NVIDIA 加速軟件中心)免費提供持續(xù)優(yōu)化,以便加速 BERT 和 Transformer 在多個框架上的 GPU 訓(xùn)練。
NVIDIA TensorRT 包括對 BERT 和基于 Transformer 的大型模型運行實時推理的優(yōu)化。如需了解更多信息,請查看我們的“對話式 AI 實時 BERT 推理”博客。NVIDIA 的 BERT GitHub 倉庫今天也有代碼,可以重現(xiàn)本博客中引用的單節(jié)點訓(xùn)練性能,在不久的將來,該倉庫將更新必要的腳本,以重現(xiàn)大規(guī)模訓(xùn)練性能的數(shù)字。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5160瀏覽量
104882 -
gpu
+關(guān)注
關(guān)注
28文章
4847瀏覽量
129962 -
AI
+關(guān)注
關(guān)注
87文章
32905瀏覽量
272521 -
軟件庫
+關(guān)注
關(guān)注
0文章
15瀏覽量
7828
發(fā)布評論請先 登錄
相關(guān)推薦
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)
英偉達(dá)GTC2025亮點:Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實時交互解決方案
《CST Studio Suite 2024 GPU加速計算指南》
NVIDIA助力Amdocs打造生成式AI智能體
NVIDIA助力Figure發(fā)布新一代對話式人形機(jī)器人
NVIDIA AI助力SAP生成式AI助手Joule加速發(fā)展
NVIDIA在加速計算和生成式AI領(lǐng)域的創(chuàng)新
NVIDIA突破美國禁令,將在中東部署其高性能AI/HPC GPU加速卡
HPE 攜手 NVIDIA 推出 NVIDIA AI Computing by HPE,加速生成式 AI 變革
NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 變革
NVIDIA Isaac 機(jī)器人平臺利用最新的生成式 AI 和先進(jìn)的仿真技術(shù),加速 AI 機(jī)器人技術(shù)的發(fā)展

NVIDIA數(shù)字人技術(shù)加速部署生成式AI驅(qū)動的游戲角色

評論