(文章來源:DeepSci)
要想理解自然語言處理,讓我們先來看什么是“自然語言”。通常認為,語言是人類區(qū)別其他動物的本質(zhì)特性。在所有生物中,只有人類才具有語言能力。人類的邏輯思維以語言為形式,絕大部分知識也是以語言文字的形式記載和流傳的。
人類自洪荒時代開始,以語音,記號(文字)為載體的信息記錄形式,用于個體或集體交流,知識傳承。具備復雜語言能力后,人類加快了社會化的發(fā)展和知識積累,以跨越時間和個體的集體智慧登上了生物金字塔的頂端。語言、想象力和“八卦”特征,是使智人超越其他物種以及其他人類的“伊甸園禁果”,為人類開啟了新的世界。
自然語言的組成部分有:語音、詞匯和語法。語音是語言的物質(zhì)外殼,是最原始形式的語言。而文字,則是記錄語言的書寫符號系統(tǒng)。用自然語言與計算機進行通信具有明顯的實際意義。人們可以用自己最習慣的語言來使用計算機,而不是花大量時間精力去學習各種計算機語言。
從另一個角度,人類希望通過發(fā)展NLP來進一步了解人類自身的語言能力和智能機制。實現(xiàn)人機間自然語言通信包括三個步驟:識別、理解、生成。首先是識別,對于計算機來說,這是輸入階段。計算機需要對人類語言(語音)進行識別,語音識別技術(shù)是人工智能技術(shù)的一大體系。目前語音識別的應用日漸成熟。
比如智能家居,坐在電視機前可以語音遙控想看什么節(jié)目。語音識別交互的精準性很重要,比如你想看英劇《神探夏洛克》,可能說成了《神探夏洛特》,那有可能就會被識別成《夏洛特煩惱》。語音識別相對后面兩步來說,是目前技術(shù)中最成熟的。語音信號對于一種固定的語言來說,單音節(jié)的模式類數(shù)量相對較少,因此語音識別相對簡單,而且已經(jīng)基本上實現(xiàn)并達到了產(chǎn)品級標準。
難度主要在于后端的基于上下文的語義識別,也就是自然語言理解。當然這個理解的難度對于文本也是一樣的,并不一定局限于語音。語音識別?語義識別?傻傻分不清楚。為了更直觀地感受語義識別和語音識別的區(qū)別,我們可以形象的用人體器官表達。語音技術(shù)相當于人的耳朵和嘴巴,負責獲取和表達。
語音識別顯然就是耳朵的角色。語義技術(shù)則相當于人的大腦,負責思考和信息處理。就像你的耳朵非常好使,并不代表你的腦袋聰明。在識別同樣的語音后,不同的機器可能會作出不同的反應,這就是機器對于語意理解的區(qū)別。類比到人類,比如一個人的能力并不是那么強,并不能代表他的聽力有問題,只能說他的處理能力沒有那么強,而這往往取決于他的大腦。
(責任編輯:fqj)
-
AI
+關(guān)注
關(guān)注
87文章
30728瀏覽量
268891 -
自然語言處理
+關(guān)注
關(guān)注
1文章
618瀏覽量
13552
發(fā)布評論請先 登錄
相關(guān)推薦
評論