色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據科學家必會的六大NLP技術!

jf_uPRfTJDa ? 來源:CSDN ? 2023-02-27 13:51 ? 次閱讀

自然語言處理(Natural Language Processing,簡稱NLP)可能是當前數據科學中最受關注的子領域。

NLP不僅有趣、有前途,而且還可以改變我們看待技術的方式。不僅是技術,它還可以改變我們理解人類語言的方式。

自然語言處理是人類語言與技術的結合,如今該項技術在研究和行業領域受到的關注越來越多。自從第一臺計算機誕生以來,人們就憧憬著創造出能夠理解人類語言的計算機程序。

機器學習人工智能領域的進步推動了自然語言處理的發展,以及人們持續高漲的興趣。隨著自然語言處理為我們的日常生活帶來越來越多的便利,人們的興趣也會越來越高。亞馬遜的 Alexa、蘋果的 Siri 以及 Google 助手等一系列技術產品的問世,充分表明了這項技術掀起的熱浪。

事實上,自然語言處理也是我進入數據科學的緣由。我一直著迷于語言本身及其隨著人類的經驗和時間的發展。我想了解如何教計算機理解我們的語言,不僅如此,而且我還希望計算機能夠使用人類的語言來和我們交流,并理解我們。

在本文中,我將介紹 6 種自然語言處理的基本技術,如果你也想涉足該領域,則應該掌握這些技術。

詞形還原與詞干提取

數據準備是所有 NLP 項目都必不可少的工作,常見的方式有兩種:詞形還原與詞干提取,你可以選擇其中一個方式。它們代表了該領域的核心概念,是你成為 NLP 大師需要學習的第一項技術。

初學者往往會混淆這兩種技術。雖然二者有相似之處,但是有很大不同。

詞干提取(Stemming):詞干提取是去除詞綴得到詞根的過程,即得到單詞最一般的寫法,比如:argue、argued、argues、arguing 和 argus 的詞干為“argu”。執行詞干提取的算法有很多,這些算法需要考慮單詞常見的前綴與后綴。英語中常用的算法是 Porter 詞干提取器,該算法包含 5 個階段,需要按順序進行,最終獲取單詞的詞根。

詞形還原(Lemmatization):詞形還原是指將一個單詞還原為一般形式(能表達完整語義)。比如:“walk”、“walked”、“walks”以及“walking”的一般形式為“walk”。為了克服詞干提取的缺點,人們設計了詞形還原。這些算法需要了解語言與語法的知識,才能在提取單詞詞元的時候做出更好的決定。為了詞形還原算法執行的準確率,它們需要提取每個單詞的詞元。因此,通常它們需要語言的詞典,才能正確地分類每個單詞。

根據這些定義,你應該可以看出詞形還原比詞干提取更加復雜,而且實現這種算法也需要更多的時間。但是,詞形還原更加準確,而且最終分析結果的噪聲也更少。

關鍵字提取

關鍵字提取,有時又稱之為關鍵字檢測或關鍵字分析,這是一種文本分析的 NLP 技術。這種技術的主要目的是自動地從文本的正文中提取出現頻率最高的單詞與詞組。這種技術常常作為生成本文摘要的第一步,提取文本的主旨。

關鍵字提取算法借助了機器學習與人工智能的強大力量。這種算法使用神經網絡來提取和簡化文本,以方便計算機理解。這種算法適合任何類型的文本,從學術文本到社交媒體帖子中常用的口語化文本。

關鍵字提取在當今世界中有很多應用,包括社交媒體監控、客戶服務/反饋、產品分析以及搜索引擎優化。

命名實體識別(NER)

詞干提取、詞形還原、命名實體識別(Named Entity Recognition,簡稱NER)是最基本以及核心的 NLP 技術。

NER 是一項從文本的正文中提取實體的技術,這里的實體主要包括人名、地名、機構名、專有名詞等,以及時間、數量、貨幣、比例數值等文字。

NER 算法主要包含兩大步驟。第一步,檢測文本中的實體;第二步,將實體分類到一個類別集合。NER 的表現極大地依賴于開發模型時使用的訓練數據。訓練數據越接近真實的數據,最終的結果就越準確。

關系到 NER 模型準確性的另一個因素是構建模型時使用的語言知識。話雖如此,網上有很多預訓練的 NER 平臺,可供隨時使用。

NER 可以應用到多種領域,比如構建推薦系統,在醫療保健中為患者提供更好的服務,以及在學術界中幫助學生獲得相關的研究材料。

主題建模

你可以使用提取關鍵字的方式,將大段的文本壓縮成幾個主要的關鍵詞和概念。然后在此基礎上,提煉出文本的主題。

另外,還有一種更先進的識別文本主題的方式:主題建模。主題建模構建于非監督機器學習的基礎之上,這類機器學習的訓練不需要帶標簽的數據。

文本的主題建模算法有很多種,比如相似主題模型(Correlated Topic Model,CTM)、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)以及潛在語義分析(Latent Semantic Analysis,LSA),其中最常用的方法是 LDA。這種方法可以分析文本,并將文本分解成單詞和語句,然后從這些單詞和語句中提取不同的主題。你需要做的只是為算法提供文本,接下來的工作全部由算法完成。

文本摘要

還有一個非常實用,且前景非常看好的 NLP 應用,那就是文本摘要。這種算法可以將大段文本壓縮成一小塊只包含文本大意的文字。這種技術常用于提煉長篇新聞文章,以及提取研究論文的摘要。

文本摘要是一項先進的技術,它使用了上述我們提到的技術(比如主題建模以及關鍵字提取等)來完成目標工作。這種方法通常包含兩大步驟:提取和抽象。

在提取階段,算法會根據單詞在文本中出現的頻率,提取文本的主要部分。接著,算法會生成摘要,即通過一段全新的文本來傳達原文的主旨。文本摘要的算法有很多種,比如 LexRank 與 TextRank。

LexRank 算法通過一個排名模型來分類文本中的句子。這種排名依據的是句子之間的相似性,某個句子與其余文本的相似性越高,它的排名就越高。

情感分析

情感分析(Sentiment Analysis)是人氣最高、知名度最廣的 NLP 技術之一。這種技術的核心功能是通過分析文本包含的單詞,提取文本所表達的情感。

這項技術最簡單的結果是一項表示積極、消極和中性的評分,該結果用數字表示。如果結果是負數,則代表文本背后的情緒為消極;如果結果為正數,則表示文本表達了積極的觀點。

情感分析是機器學習技術的廣泛應用之一。它可以通過監督學習實現,也可以通過非監督學習實現。最常見的通過監督學習實現的情感分析是使用樸素貝葉斯算法。還有其他機器學習算法也可用于情感分析的實現,比如梯度提升(Gradient Boosting)以及隨機森林。

總結

人類對于計算理解自然語言,并使用自然語言與我們交流的渴望由來已久。隨著技術與機器學習算法的飛速發展,這種想法已不只是一種憧憬。我們已經可以在日常生活中看到和體驗這種技術。這種想法是自然語言處理的核心。

自然語言處理是當今的熱門話題之一,也是非常有潛力的領域之一。各大公司和研究機構都在競相創建能夠完全理解并使用人類語言的計算機程序。自從 1960 年代虛擬代理問世以來,這項技術已獲得了飛速的發展。

盡管自然語言處理可以執行的任務不同,但為了進軍該領域,并建立自己的項目,你必須熟練掌握該領域基本的六大核心技術。

這些技術是所有自然語言處理模型的基礎。如果你已經理解了這些技術,并知道何時使用何種技術,那么自然語言處理的大門就會向你敞開。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8422

    瀏覽量

    132714
  • 自然語言處理

    關注

    1

    文章

    618

    瀏覽量

    13572
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22049

原文標題:數據科學家必會的六大 NLP 技術!

文章出處:【微信號:5G通信,微信公眾號:5G通信】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TI科學家談浮點DSP未來發展

    TI科學家談浮點DSP未來發展 自十多年前浮點數字信號處理器(DSP)誕生以來,便為實時信號處理提供了算術上更為先進的備選方案。不過,定點器件至今仍是業界的主流--當然低成本是主要原因。定點DSP每
    發表于 11-03 15:18

    科學家推出多種波動描記傳感器

      美國得克薩斯大學的科學家們最新一項研究結果表明,人們很快將根據腸子的波動情況當場揭穿騙子的謊言。  該大學的科研小組還認為,將來有一天,以記錄心臟活動為主的多種波動描記器將極大地提高其工作質量
    發表于 10-24 11:40

    生物電磁波揭密 場導發現(俄羅斯華裔科學家寫的腦控技術叢書)

    生物電磁波揭密場導發現(俄羅斯華裔科學家寫的腦控技術叢書)
    發表于 03-05 09:31

    通往數據科學家的崎嶇道路

    如果你曾經查看過數據科學家的崗位要求,你就知道它的職責范圍有多廣。有的數據科學家致力于自然語言處理、計算機視覺、深度學習,有的則從事A/B測試、產品分析。確定哪些工作適合自己,哪些不適
    的頭像 發表于 07-26 09:17 ?2583次閱讀

    哪些才是對數據科學家最迫切的技能呢?

    AngelList提供的是列出數據科學家崗位的公司數而不是崗位數。我把AngelList從所有分析里面排除掉了,因為其搜索算法似乎按照OR型的邏輯搜索進行,沒有辦法改成AND。如果你尋找的是“數據
    的頭像 發表于 11-19 18:14 ?3069次閱讀

    什么是數據科學家?需要認證嗎?

    得以清晰化。”Fleming指出,IBM目前雇傭了大約1.5萬名被定義為數據科學家技術人員,預計數據科學家人數的增長速度超過其雇員總數的增
    的頭像 發表于 02-14 09:41 ?6618次閱讀

    數據科學家與機器學習工程師怎么區分

    十年來,我們一直在談論數據科學數據科學家。雖然在怎么才叫“數據科學家”的問題上始終存在著爭議,
    的頭像 發表于 05-18 11:24 ?3230次閱讀

    數據科學家常犯的10個編程錯誤

    數據科學家是“比軟件工程師更擅長統計學,比統計學家更擅長軟件工程的人”。
    的頭像 發表于 05-24 14:50 ?2680次閱讀

    數據科學家數據工程師的區別

    數據科學家和數據工程師的主要區別,可以用ETL和DAD的區別來解釋。
    的頭像 發表于 07-10 17:06 ?2659次閱讀

    企業如何解決數據科學家短缺詳細方法什么

     隨著企業以數據為中心的文化,以做出決策和規劃,數據科學家對全球企業的重要性日益增加。但是企業無法足夠快地聘請數據科學家,因為合格候選人仍然
    的頭像 發表于 04-18 10:31 ?3478次閱讀

    采訪資深數據科學家:成為數據科學家應具有的品質

    作為一門逐漸成熟的新興領域,與數據科學相關的很多領域開始變得備受青睞,比如數據工程,數據分析以及機器學習和深度學習。數據
    的頭像 發表于 06-30 11:28 ?2324次閱讀

    什么是數據科學家的最佳編程語言?

    每個數據科學學習者都最常問的問題:“ 什么是數據科學家的最佳編程語言?”。
    的頭像 發表于 07-05 11:32 ?2516次閱讀

    數據科學家和數據工程師能合二為一嗎?

    雖然數據科學家和數據工程師的角色似乎截然不同,但數據科學家和數據工程師有許多共同的特點和共技能。這些重疊的技能包括處理和操作大數據集、應用
    的頭像 發表于 07-25 10:17 ?2548次閱讀

    深入研究數據科學家使用的常見統計和分析技術

    數據科學技術如今已在許多組織中占有一席之地,數據科學家正迅速成為以數據為中心的組織最受歡迎的角色之一。
    的頭像 發表于 01-14 16:09 ?2001次閱讀

    中國聯通AI科學家廉士國入選全球前2%頂尖科學家榜單

    %頂尖科學家榜單是Elsevier和斯坦福大學John P.A. Ioannidis教授團隊合作的具有全球影響力的項目成果,為全球學術界提供了一個面向科學家長期科研表現的衡量指標,旨在更客觀、更真實地反映科學家全球影響力。榜單以
    的頭像 發表于 11-07 16:18 ?2700次閱讀
    主站蜘蛛池模板: xxx粗大长欧美| 日韩成人黄色| 免费小视频在线观看| 人善交XUANWEN200喷水| 午夜A级理论片左线播放| 艳妇臀荡乳欲伦岳TXT下载| caoporm国产精品视频免费| 国产乱码精品一区二区三区四川| 久久九九精品国产自在现线拍| 青草视频久久| 亚洲欧美成人在线| 差差差差差差差差免费观看| 狠狠色狠狠色狠狠五月ady| 破女在线观看视频| 野花高清影视免费观看| www.一级毛片| 极品少妇高潮XXXXX| 人妻夜夜爽99麻豆AV| 亚洲伊人精品| 豆奶视频在线高清观看| 久久国产成人午夜AV影院无码| 日本久久道一区二区三区| 夜色55夜色66亚洲精品网站| 穿着丝袜被男生强行啪啪| 久久秋霞理论电影| 五月丁香婷姐色| jijzzizz中国版| 久久国产精品福利影集| 我们日本在线观看免费动漫下载| 99精品日韩| 接吻吃胸摸下面啪啪教程| 三级黄视频| 99国产精品免费视频| 精品欧美一区二区三区四区| 色老头色老太aaabbb| 97色香蕉在线| 回复术士人生重启在线观看| 三级黄色一级视频| 97人妻无码AV碰碰视频| 久久99热成人精品国产| 息与子在线交尾中文字幕|