自然語(yǔ)言處理是一項(xiàng)利用計(jì)算機(jī)和軟件獲取人類語(yǔ)言(書(shū)面或口語(yǔ))含義的技術(shù)。
什么是自然語(yǔ)言處理?
自然語(yǔ)言處理(NLP)使用 AI 處理和分析文本或語(yǔ)音數(shù)據(jù),以便理解和解釋內(nèi)容、對(duì)內(nèi)容進(jìn)行分類和/或從內(nèi)容中獲得見(jiàn)解。
NLP 中包含自然語(yǔ)言生成(NLG),它會(huì)使用計(jì)算機(jī)創(chuàng)建人類語(yǔ)言文本。此外,自然語(yǔ)言理解(NLU)會(huì)錄入文本,理解上下文和意圖,然后生成智能回復(fù)。
垃圾郵件過(guò)濾程序、拼寫(xiě)檢查程序、語(yǔ)法檢查程序、自動(dòng)更正、語(yǔ)言翻譯、情感分析、語(yǔ)義搜索等都屬于 NLP 。基于 Transformer 架構(gòu)的新深度學(xué)習(xí)(DL)方法的出現(xiàn),為 NLP 技術(shù)的性能和功能帶來(lái)了革命性的變化。現(xiàn)在,先進(jìn)的 NLP 模型已成為現(xiàn)代搜索引擎、語(yǔ)音助手和聊天機(jī)器人的核心。這些應(yīng)用程序在自動(dòng)處理日常訂單、路由查詢和回答常見(jiàn)問(wèn)題時(shí)也變得日益純熟。
為什么選擇 NLP?
NLP 的應(yīng)用已相當(dāng)廣泛,并有望以幾何級(jí)數(shù)增長(zhǎng)。據(jù)一項(xiàng)研究調(diào)查估計(jì),在全球市場(chǎng)中,與自然語(yǔ)言處理相關(guān)的產(chǎn)品和服務(wù)將在 2025 年增長(zhǎng)到 430 億美元;而 2017 年時(shí),這一數(shù)字為 30 億美元。這一驚人的 14 倍增長(zhǎng)也證明了自然語(yǔ)言處理解決方案的廣泛應(yīng)用。
進(jìn)一步推動(dòng)這一增長(zhǎng)的是,一個(gè)組織內(nèi)僅有 15% 的數(shù)據(jù)存儲(chǔ)在企業(yè)數(shù)據(jù)庫(kù)中這一事實(shí)。這些數(shù)據(jù)包括文本、電子郵件、會(huì)議筆記、電話轉(zhuǎn)錄等。自然語(yǔ)言處理有望釋放隱藏在所有這些數(shù)據(jù)中的業(yè)務(wù)價(jià)值,使其像存儲(chǔ)數(shù)據(jù)一樣對(duì)業(yè)務(wù)決策者發(fā)揮作用。
NLP 的工作原理是什么?
機(jī)器學(xué)習(xí)(ML)是推動(dòng)當(dāng)今大多數(shù)自然語(yǔ)言處理解決方案的引擎,并將推動(dòng)它們進(jìn)一步發(fā)展。這些系統(tǒng)使用 NLP 算法來(lái)理解詞語(yǔ)的使用方式。它們從書(shū)籍、短語(yǔ)和慣用語(yǔ)中提取所有信息后,通過(guò) NLP 識(shí)別詞語(yǔ)和短語(yǔ)之間的模式和關(guān)系,來(lái)“學(xué)習(xí)”理解人類語(yǔ)言。
通常,在 NLP 應(yīng)用中,會(huì)使用詞嵌入等技術(shù)將輸入文本轉(zhuǎn)換為詞向量(一個(gè)詞的數(shù)學(xué)表征)。借助此技術(shù),在將句子中的每個(gè)詞輸入到深度學(xué)習(xí)模型(例如RNN、LSTM 或 Transformer)前將其翻譯成一組數(shù)字,以便理解上下文。神經(jīng)網(wǎng)絡(luò)在進(jìn)行自我訓(xùn)練時(shí),這些數(shù)字會(huì)隨著時(shí)間的推移而發(fā)生變化,為每個(gè)詞編碼語(yǔ)義和上下文信息等獨(dú)特屬性。這些 DL 模型為特定語(yǔ)言任務(wù)(例如下一詞語(yǔ)預(yù)測(cè)和文本摘要)提供適當(dāng)?shù)妮敵觯@些任務(wù)用于生成輸出序列。
但是,詞嵌入等文本編碼機(jī)制可能會(huì)為捕獲細(xì)微差別帶來(lái)挑戰(zhàn)。例如,bass fish 和 bass player 具有相同的表征。在對(duì)長(zhǎng)段落進(jìn)行編碼時(shí),它們還可能在結(jié)尾丟失掉文章開(kāi)頭獲取的上下文。BERT(Bidirectional Encoder Representations from Transformers)是深度雙向的,能夠比其他文本編碼機(jī)制更好地理解和保留上下文。訓(xùn)練語(yǔ)言模型時(shí),遭遇的一個(gè)關(guān)鍵挑戰(zhàn)是缺少標(biāo)記數(shù)據(jù)。BERT 在無(wú)監(jiān)督任務(wù)上接受訓(xùn)練,通常使用書(shū)籍語(yǔ)料庫(kù)、英語(yǔ)維基百科等的非結(jié)構(gòu)化數(shù)據(jù)集。
GPU:加速 NLP
讓計(jì)算機(jī)理解人類語(yǔ)言及所有細(xì)微差別,并做出適當(dāng)?shù)姆磻?yīng),這是 AI 研究人員長(zhǎng)期以來(lái)的追求。但是,在采用加速計(jì)算的現(xiàn)代 AI 技術(shù)出現(xiàn)之前,構(gòu)建具有真正自然語(yǔ)言處理(NLP)功能的系統(tǒng)是無(wú)法實(shí)現(xiàn)的。
一個(gè)由數(shù)百個(gè)核心組成的 GPU,可以并行處理數(shù)千個(gè)線程。GPU 已成為訓(xùn)練深度學(xué)習(xí)模型和執(zhí)行推理的首選平臺(tái),因?yàn)樗鼈兊男阅鼙燃?CPU 平臺(tái)高 10 倍。
自然語(yǔ)言處理中近年來(lái)不斷取得的進(jìn)步和突破是驅(qū)動(dòng) NLP 增長(zhǎng)的一個(gè)因素,其中重要的是部署 GPU 來(lái)處理日漸龐大且高度復(fù)雜的語(yǔ)言模型。
像 BERT 這樣基于 NLP Transformer 的深度學(xué)習(xí)模型不需要按順序處理連續(xù)數(shù)據(jù),與 RNN 相比,可以在 GPU 上實(shí)現(xiàn)更多的并行化,并減少訓(xùn)練時(shí)間。BERT 使用無(wú)監(jiān)督式學(xué)習(xí)方法的能力、使用預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)的能力,以及使用 GPU 進(jìn)行加速的能力,均使其在行業(yè)中得到廣泛應(yīng)用。
對(duì)支持 GPU 的模型經(jīng)過(guò)快速訓(xùn)練和優(yōu)化后,語(yǔ)音輔助應(yīng)用程序中的響應(yīng)時(shí)間從數(shù)十秒縮短到幾毫秒。這使得此類計(jì)算機(jī)輔助交互盡可能地接近“自然”。
NLP 用例
| 初創(chuàng)公司
自然語(yǔ)言處理應(yīng)用在過(guò)去十年呈爆炸式增長(zhǎng),因?yàn)橛?GPU 驅(qū)動(dòng)的遞歸神經(jīng)網(wǎng)絡(luò)的改進(jìn)提供了性能更好的人工智能。這使得初創(chuàng)公司得以提供語(yǔ)音服務(wù)、語(yǔ)言教師和聊天機(jī)器人等服務(wù)。
| 醫(yī)療健康
醫(yī)療健康面臨的困難之一是難以獲得。打醫(yī)生辦公室電話并一直等待的情況十分常見(jiàn),與索賠代表聯(lián)系可能同樣困難。通過(guò)實(shí)施 NLP 來(lái)訓(xùn)練聊天機(jī)器人是醫(yī)療健康行業(yè)的一項(xiàng)新興技術(shù),可以解決醫(yī)療專業(yè)人員的短缺問(wèn)題,并開(kāi)創(chuàng)與患者的溝通渠道。
NLP 的另一個(gè)重要的醫(yī)療健康應(yīng)用程序是生物醫(yī)學(xué)文本挖掘(通常稱為 BioNLP)。鑒于生物文獻(xiàn)數(shù)量眾多,以及生物醫(yī)學(xué)出版速度不斷提高,自然語(yǔ)言處理是一個(gè)關(guān)鍵的工具,可以在已發(fā)表的研究中提取信息,推動(dòng)生物醫(yī)學(xué)領(lǐng)域的知識(shí)進(jìn)步。這非常有助于藥物研發(fā)和疾病診斷。
| 金融服務(wù)
NLP 是為金融服務(wù)公司構(gòu)建更好的聊天機(jī)器人和 AI 助理的關(guān)鍵組成部分。在眾多用于基于 NLP 的應(yīng)用程序的語(yǔ)言模型中,BERT 已成為機(jī)器學(xué)習(xí)領(lǐng)域 NLP 的領(lǐng)軍者及語(yǔ)言模型。借助 AI ,NVIDIA 近期打破了 BERT 訓(xùn)練速度的記錄,有助于釋放未來(lái)幾年內(nèi)在線提供的數(shù)十億預(yù)期對(duì)話式 AI 服務(wù)的潛力,使其達(dá)到人類水平的理解能力。例如,銀行可以使用 NLP 來(lái)評(píng)估信用記錄很少或沒(méi)有信用記錄的客戶信譽(yù)。
| 零售
除了醫(yī)療健康外,聊天機(jī)器人技術(shù)還常用于零售應(yīng)用程序,能夠準(zhǔn)確分析客戶查詢,并生成回復(fù)或建議。這可簡(jiǎn)化客戶流程,并提高商店運(yùn)營(yíng)效率。NLP 還用于文本挖掘客戶反饋和情感分析。
加速 AI 和 NLP 的 NVIDIA GPU
借助 NVIDIA GPU 和CUDA-X AI庫(kù),可快速訓(xùn)練和優(yōu)化大量的先進(jìn)語(yǔ)言模型,從而在幾毫秒或幾千分之一秒內(nèi)運(yùn)行推理。這是一項(xiàng)重大進(jìn)步,可以結(jié)束快速 AI 模型與大型復(fù)雜 AI 模型之間的權(quán)衡。
NVIDIA 的 AI 平臺(tái)率先將BERT的訓(xùn)練時(shí)間控制在一小時(shí)之內(nèi),并在 2 毫秒多一點(diǎn)的時(shí)間內(nèi)完成 AI 推理。在與復(fù)雜語(yǔ)言模型協(xié)作時(shí),NVIDIA GPU 的并行處理能力和Tensor Core架構(gòu)可實(shí)現(xiàn)更高的吞吐量和可擴(kuò)展性,從而為 BERT 的訓(xùn)練和推理提供優(yōu)異的性能。借助這種突破性的性能水平,開(kāi)發(fā)者能夠?yàn)榇笮蛻?yīng)用程序應(yīng)用先進(jìn)的語(yǔ)言理解技術(shù),供全球數(shù)億消費(fèi)者使用。
早期采用 NVIDIA 性能提升技術(shù)的公司包括 Microsoft 以及全球一些最具創(chuàng)新性的初創(chuàng)公司。這些組織借助 NVIDIA 平臺(tái)為客戶開(kāi)發(fā)高度直觀、響應(yīng)即時(shí)且基于語(yǔ)言的服務(wù)。
原文標(biāo)題:NVIDIA 大講堂 | 什么是自然語(yǔ)言處理?
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
審核編輯:湯梓紅
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4999瀏覽量
103224 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13579 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22052
原文標(biāo)題:NVIDIA 大講堂 | 什么是自然語(yǔ)言處理?
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論