自然語言處理(Natural Language Processing,簡稱NLP)可能是當前數據科學中最受關注的子領域。
NLP不僅有趣、有前途,而且還可以改變我們看待技術的方式。不僅是技術,它還可以改變我們理解人類語言的方式。
自然語言處理是人類語言與技術的結合,如今該項技術在研究和行業領域受到的關注越來越多。自從第一臺計算機誕生以來,人們就憧憬著創造出能夠理解人類語言的計算機程序。
機器學習與人工智能領域的進步推動了自然語言處理的發展,以及人們持續高漲的興趣。隨著自然語言處理為我們的日常生活帶來越來越多的便利,人們的興趣也會越來越高。亞馬遜的 Alexa、蘋果的 Siri 以及 Google 助手等一系列技術產品的問世,充分表明了這項技術掀起的熱浪。
事實上,自然語言處理也是我進入數據科學的緣由。我一直著迷于語言本身及其隨著人類的經驗和時間的發展。我想了解如何教計算機理解我們的語言,不僅如此,而且我還希望計算機能夠使用人類的語言來和我們交流,并理解我們。
在本文中,我將介紹 6 種自然語言處理的基本技術,如果你也想涉足該領域,則應該掌握這些技術。
詞形還原與詞干提取
數據準備是所有 NLP 項目都必不可少的工作,常見的方式有兩種:詞形還原與詞干提取,你可以選擇其中一個方式。它們代表了該領域的核心概念,是你成為 NLP 大師需要學習的第一項技術。
初學者往往會混淆這兩種技術。雖然二者有相似之處,但是有很大不同。
詞干提取(Stemming):詞干提取是去除詞綴得到詞根的過程,即得到單詞最一般的寫法,比如:argue、argued、argues、arguing 和 argus 的詞干為“argu”。執行詞干提取的算法有很多,這些算法需要考慮單詞常見的前綴與后綴。英語中常用的算法是 Porter 詞干提取器,該算法包含 5 個階段,需要按順序進行,最終獲取單詞的詞根。
詞形還原(Lemmatization):詞形還原是指將一個單詞還原為一般形式(能表達完整語義)。比如:“walk”、“walked”、“walks”以及“walking”的一般形式為“walk”。為了克服詞干提取的缺點,人們設計了詞形還原。這些算法需要了解語言與語法的知識,才能在提取單詞詞元的時候做出更好的決定。為了詞形還原算法執行的準確率,它們需要提取每個單詞的詞元。因此,通常它們需要語言的詞典,才能正確地分類每個單詞。
根據這些定義,你應該可以看出詞形還原比詞干提取更加復雜,而且實現這種算法也需要更多的時間。但是,詞形還原更加準確,而且最終分析結果的噪聲也更少。
關鍵字提取
關鍵字提取,有時又稱之為關鍵字檢測或關鍵字分析,這是一種文本分析的 NLP 技術。這種技術的主要目的是自動地從文本的正文中提取出現頻率最高的單詞與詞組。這種技術常常作為生成本文摘要的第一步,提取文本的主旨。
關鍵字提取算法借助了機器學習與人工智能的強大力量。這種算法使用神經網絡來提取和簡化文本,以方便計算機理解。這種算法適合任何類型的文本,從學術文本到社交媒體帖子中常用的口語化文本。
關鍵字提取在當今世界中有很多應用,包括社交媒體監控、客戶服務/反饋、產品分析以及搜索引擎優化。
命名實體識別(NER)
詞干提取、詞形還原、命名實體識別(Named Entity Recognition,簡稱NER)是最基本以及核心的 NLP 技術。
NER 是一項從文本的正文中提取實體的技術,這里的實體主要包括人名、地名、機構名、專有名詞等,以及時間、數量、貨幣、比例數值等文字。
NER 算法主要包含兩大步驟。第一步,檢測文本中的實體;第二步,將實體分類到一個類別集合。NER 的表現極大地依賴于開發模型時使用的訓練數據。訓練數據越接近真實的數據,最終的結果就越準確。
關系到 NER 模型準確性的另一個因素是構建模型時使用的語言知識。話雖如此,網上有很多預訓練的 NER 平臺,可供隨時使用。
NER 可以應用到多種領域,比如構建推薦系統,在醫療保健中為患者提供更好的服務,以及在學術界中幫助學生獲得相關的研究材料。
主題建模
你可以使用提取關鍵字的方式,將大段的文本壓縮成幾個主要的關鍵詞和概念。然后在此基礎上,提煉出文本的主題。
另外,還有一種更先進的識別文本主題的方式:主題建模。主題建模構建于非監督機器學習的基礎之上,這類機器學習的訓練不需要帶標簽的數據。
文本的主題建模算法有很多種,比如相似主題模型(Correlated Topic Model,CTM)、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)以及潛在語義分析(Latent Semantic Analysis,LSA),其中最常用的方法是 LDA。這種方法可以分析文本,并將文本分解成單詞和語句,然后從這些單詞和語句中提取不同的主題。你需要做的只是為算法提供文本,接下來的工作全部由算法完成。
文本摘要
還有一個非常實用,且前景非常看好的 NLP 應用,那就是文本摘要。這種算法可以將大段文本壓縮成一小塊只包含文本大意的文字。這種技術常用于提煉長篇新聞文章,以及提取研究論文的摘要。
文本摘要是一項先進的技術,它使用了上述我們提到的技術(比如主題建模以及關鍵字提取等)來完成目標工作。這種方法通常包含兩大步驟:提取和抽象。
在提取階段,算法會根據單詞在文本中出現的頻率,提取文本的主要部分。接著,算法會生成摘要,即通過一段全新的文本來傳達原文的主旨。文本摘要的算法有很多種,比如 LexRank 與 TextRank。
LexRank 算法通過一個排名模型來分類文本中的句子。這種排名依據的是句子之間的相似性,某個句子與其余文本的相似性越高,它的排名就越高。
情感分析
情感分析(Sentiment Analysis)是人氣最高、知名度最廣的 NLP 技術之一。這種技術的核心功能是通過分析文本包含的單詞,提取文本所表達的情感。
這項技術最簡單的結果是一項表示積極、消極和中性的評分,該結果用數字表示。如果結果是負數,則代表文本背后的情緒為消極;如果結果為正數,則表示文本表達了積極的觀點。
情感分析是機器學習技術的廣泛應用之一。它可以通過監督學習實現,也可以通過非監督學習實現。最常見的通過監督學習實現的情感分析是使用樸素貝葉斯算法。還有其他機器學習算法也可用于情感分析的實現,比如梯度提升(Gradient Boosting)以及隨機森林。
總結
人類對于計算理解自然語言,并使用自然語言與我們交流的渴望由來已久。隨著技術與機器學習算法的飛速發展,這種想法已不只是一種憧憬。我們已經可以在日常生活中看到和體驗這種技術。這種想法是自然語言處理的核心。
自然語言處理是當今的熱門話題之一,也是非常有潛力的領域之一。各大公司和研究機構都在競相創建能夠完全理解并使用人類語言的計算機程序。自從 1960 年代虛擬代理問世以來,這項技術已獲得了飛速的發展。
盡管自然語言處理可以執行的任務不同,但為了進軍該領域,并建立自己的項目,你必須熟練掌握該領域基本的六大核心技術。
這些技術是所有自然語言處理模型的基礎。如果你已經理解了這些技術,并知道何時使用何種技術,那么自然語言處理的大門就會向你敞開。
審核編輯 :李倩
-
機器學習
+關注
關注
66文章
8422瀏覽量
132714 -
自然語言處理
+關注
關注
1文章
618瀏覽量
13572 -
nlp
+關注
關注
1文章
489瀏覽量
22049
原文標題:數據科學家必會的六大 NLP 技術!
文章出處:【微信號:5G通信,微信公眾號:5G通信】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論