色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用于中文縮略詞預測的序列生成模型研究

深度學習自然語言處理 ? 來源:知識工場 ? 作者:曹愷燕 ? 2022-11-14 14:16 ? 次閱讀

研究背景

縮略詞是單詞或短語的縮寫形式。為了方便寫作和表達,在文本中提及某個實體時,人們傾向于使用縮寫名稱而不是它的完整形式(名稱)。理解縮略詞,尤其是實體的縮寫名稱,是知識圖譜構建和應用的關鍵步驟。縮略詞處理主要包括三個任務:縮略詞擴展,縮略詞識別和提取,以及縮略詞預測。毫無疑問,縮略詞處理在各種自然語言處理 (NLP) 任務中發揮著重要作用例如信息檢索、實體鏈接等任務。

在本文中,我們重點關注縮略詞處理的第三個任務,即縮略詞預測,其目標是預測實體完整形式的可能縮寫形式。縮略詞實際上是一個子序列,由一個詞或一些字符按完整形式的順序排列。不同于英文縮略詞(通常是首字母縮略詞),中文縮略詞形式更加復雜多樣。

如表 1 所示,縮略詞可以是位于實體完整形式中的第一個詞(“復旦”)也可以是最后一個詞(“迪士尼”),并且可能包含實體中一些不連續但有序的字符(“北大”)。而且,一個實體的縮略詞可以有多種形式(“央視”或“中央臺”)。因此,作為一項更具挑戰性的任務,中文縮略詞預測已成為近年來的研究熱點。

▲ 表1. 中文縮略詞的幾個實例

現有的中文縮略詞預測方法可以被認為是基于特征的方法。它們通常是將縮略詞預測作為序列標記問題,即對每個 token 作二分類,去判斷是否該字符是否應保留在縮略詞中。盡管取得了成就,但以前的方法仍然有以下缺點:一方面,他們只使用轉移矩陣來尋找最高概率的標簽,未能充分利用標簽依賴關系;另一方面,他們忽略了實體相關文本的豐富信息,只利用實體本身的語義。事實上,我們可以獲取足夠的與給定實體相關的文本例如百度百科文本、景點 POI 實體評論和 query 文本,能提供模型預測縮寫的信號

為了解決這些問題,我們將中文縮略詞預測看作從全稱實體序列到縮略詞序列的定長機器翻譯任務。貢獻包括,首先,我們提出了一種用于中文縮略詞預測的序列生成模型。其次,我們將實體相關上下文納入中文縮略詞預測任務,為模型提供了更多語義信息。最后,我們構建了旅游中文縮略詞數據集。此外,我們在飛豬搜索系統上部署的縮略詞實現了 2.03% 的轉化率提升。

研究框架

問題建模:針對給定的一個全稱實體 和其對應的相關文本,CETAR 能生成一個其對應的縮略詞序列。

模型框架:我們的模型框架由上下文增強編碼器和縮略-恢復解碼器組成。圖 2 是 CETAR 模型架構框架圖。

▲ 圖2:基于上下文增強和縮略-恢復策略的縮略詞transformer框架圖

2.1 上下文增強編碼器

首先,將實體的完整形式 x 及其相關文本 d 都輸入到這個模塊。使用與 BERT 相同的初始化操作得到初始 embedding,以及它們的位置 embedding 一起輸入 transformer encoder block,生成一些重要的特征表示。為了減少數據的噪音,最終只取實體對應的隱狀態輸入到解碼器當中,以便后續的解碼。

2.2 縮略-恢復解碼器

這是我們模型生成縮略詞序列的關鍵模塊。它是用 transformer decoder block 和縮寫及恢復策略對應的兩個分類器分別構成。整個解碼過程是實際上是一個迭代的過程。具體來說,在每一輪開始時,輸入上一輪過程輸出的由 n+2 個 token 組成的 token 序列。然后,每個 token 的初始 embedding 附加其位置 embedding,伴隨著解碼器的輸出 H, 然后輸入第一個 transformer decoder block。最后,我們將最后一個 block 輸出的隱藏狀態作為后續兩個分類器的輸入。

隨著所有標記的隱藏狀態,縮寫分類器或恢復分類器判斷序列中哪個 token 應該縮寫或恢復。在第k輪解碼過程中,縮寫分類器首先判斷序列中的每個 token 是否應該縮寫。類似地,恢復分類器判斷序列中每個特殊的縮略詞*是應該保留還是恢復到相同位置的源 token。如下式所示,其中:

縮略分類器:

恢復分類器:

最后,縮略詞序列中的所有 * 都被刪除,并且因此我們得到了源實體的最終縮略詞。

實驗結果

我們將 CETAR 與基線模型在三個中文縮寫數據集上進行了比較,其中兩個屬于通用領域,一個屬于特定的景點領域。后者是基于阿里飛豬景點 POI 實體及其別名構建的中文縮略詞數據集。對于通用領域的數據集中的實體,我們選取了其百度百科描述性文本的第一句話作為相關文本;而對于飛豬中文縮略詞數據集中的景點 POI 實體,我們則是以其最相關的評論文本及 query 文本作為相關文本。

至于評價指標,首先,我們使用 Hit 作為指標來比較模型的性能。測試樣本被視為命中樣本如果它的預測縮寫和它 ground-truth 縮寫一模一樣。而 Hit score 是命中樣本占所有測試樣本的比例。此外,考慮到一些實體有多個縮寫,我們進一步考慮了以下指標,這些指標是基于對從測試集中隨機選擇的 500 個樣本的人工評估計算得出的,包括正確樣本、NA、NW 和 WOM 在所有人類評估樣本中的比例。

具體來說,NA 表示預測的縮略詞是正確的,但和 ground-truth 的縮略詞不同。NW 代表錯誤且語言結構異常的預測縮略詞,而 WOM 代表錯誤但語言結構正常的預測縮略詞。具體實例可見表 2。

▲ 表2: 縮略詞的四種不同形式實例

▲ 表3: 數據集一各模型表現

▲ 表4: 數據集二和數據集三各模型表現

從表 3 和表 4,我們得到以下結論:

1. 在命中率和準確性方面,我們的 CETAR 在通用領域數據集( 和 )和特定領域數據集()上都優于所有基線。

2. 所有模型的 NW 分數幾乎都高于其 WOM 分數,說明不正確的分詞是導致錯誤預測的主要原因。因此,單詞邊界的信息對于準確的縮略詞預測非常重要。

3. 我們還發現,大多數模型在 上的準確度得分都優于 和 。這是因為旅游 POI 的縮寫通常由完整形式的連續標記組成,例如“杭州西湖風景區-西湖”,而一般領域的實體縮略詞通常由不連續的標記組成。前者更容易讓模型實現準確的預測。

▲ 表5: CETAR 針對數據集二中輸入實體不同長度的文本(摘要)預測結果

3.1 消融實驗

事實上,輸入過多的文本可能會產生過多的噪音,也會消耗更多的計算資源。為了尋求輸入文本的最佳長度,我們比較了 CETAR 在 D2 上輸入百度百科實體摘要的前 1~4 個句子時的性能。

表 5 表明,輸入摘要的第一句表現最好。通過對從數據集中隨機抽取的 300 個樣本的調查,我們發現大約 75.33% 的第一句話提到了源實體的類型。這也證明了實體類型是促使 CETAR 生成正確縮略詞序列的關鍵信息。

▲ 表6: CETAR 針對數據集三中輸入實體不同長度的文本(評論)預測結果

▲ 表7: CETAR 針對數據集三中輸入實體不同長度的文本(query)預測結果

同樣,作為數據集三(表 6 & 表 7),CETAR 在將語義最相關(第一個)的評論或查詢集作為相關文本時取得了最佳性能。通過深入調查,我們發現熱門評論(查詢)更有可能包含目標實體的縮略詞,幫助 CETAR 實現更準確的預測。

3.2 應用

為了驗證縮略詞在搜索系統中提高召回率和準確捕捉用戶搜索意圖的有效性,我們將 CETAR 預測的 56,190 個 POI 實體的縮略詞部署到飛豬的搜索系統中。然后,我們進行了持續 4 天的大規模 A/B 測試,發現處理桶與對照桶相比,獲得了 2.03% 的 CVR 提升。那為什么有意義呢?例如,基于精確關鍵字匹配的搜索系統不會為查詢“迪士尼樂園”返回酒店“上海迪士尼樂園酒店”,因為酒店的名稱與查詢不完全匹配。但是,如果預先將“迪士尼”識別為“迪士尼度假區”的縮略詞,則可以更輕松地將酒店與查詢相關聯。

總結

在本文中,我們提出了用于中文縮略詞預測的 CETAR,它利用了與源實體相關的信息上下文。CETAR 通過迭代解碼過程生成準確的縮略詞序列,其中縮略分類器和恢復分類器交替工作。我們的實驗證明了 CETAR 優于 SOTA 方法的中文縮略詞預測。此外,我們在景點領域成功構建了一個中文縮略詞數據集,并已部署在現實世界的飛豬搜索系統上。系統的在線A/B測試實現了CVR的顯著提升,驗證了縮略詞在促進業務方面的價值。

審核編輯:郭婷


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • nlp
    nlp
    +關注

    關注

    1

    文章

    490

    瀏覽量

    22464

原文標題:CIKM2022 | 基于文本增強和縮略-恢復策略的縮略詞Transformer

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦
    熱點推薦

    使用BP神經網絡進行時間序列預測

    使用BP(Backpropagation)神經網絡進行時間序列預測是一種常見且有效的方法。以下是一個基于BP神經網絡進行時間序列預測的詳細步驟和考慮因素: 一、數據準備 收集數據 :
    的頭像 發表于 02-12 16:44 ?599次閱讀

    基于移動自回歸的時序擴散預測模型

    回歸取得了比傳統基于噪聲的擴散模型更好的生成效果,并且獲得了人工智能頂級會議 NeurIPS 2024 的 best paper。 然而在時間序列預測領域,當前主流的擴散方法還是傳統的
    的頭像 發表于 01-03 14:05 ?599次閱讀
    基于移動自回歸的時序擴散<b class='flag-5'>預測</b><b class='flag-5'>模型</b>

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    引入GPT這樣的大模型后,情況發生了根本性的變化。只需提供適當的提示以及封裝好的機器人函數庫,大模型便能靈活地生成控制代碼,極大地簡化了開發過程,并提高了自動化水平。 此外,大
    發表于 12-29 23:04

    如何使用RNN進行時間序列預測

    時間序列預測在金融、氣象、銷售預測等領域有著廣泛的應用。傳統的時間序列分析方法,如ARIMA和指數平滑,雖然在某些情況下表現良好,但在處理非線性和復雜模式時可能不夠靈活。遞歸神經網絡(
    的頭像 發表于 11-15 09:45 ?777次閱讀

    如何使用Python構建LSTM神經網絡模型

    numpy tensorflow 2. 準備數據 LSTM模型通常用于序列數據,比如時間序列預測或文本
    的頭像 發表于 11-13 10:10 ?1335次閱讀

    【「時間序列與機器學習」閱讀體驗】時間序列的信息提取

    個重要環節,目標是從給定的時間序列數據中提取出有用的信息和特征,以支持后續的分析和預測任務。 特征工程(Feature Engineering)是將數據轉換為更好地表示潛在問題的特征,從而提高機器學習
    發表于 08-17 21:12

    【《時間序列與機器學習》閱讀體驗】+ 了解時間序列

    學習方法對該序列數據進行分析,可以得到結論或預測估計,因此時間序列分析的用途是非常多的,比如: 可以反映社會經濟現象的發展變化過程,描述現象的發展狀態和結果。 可以研究社會經濟現象的發
    發表于 08-11 17:55

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    序列數據中提取有用的特征,例如時間序列的統計特征、特征和降維特征等,以及如何判斷時間序列的單調性。 ●第3章“時間序列預測”:介紹常用的時間
    發表于 08-07 23:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    習語言的表達方式和生成能力。通過預測文本中缺失的部分或下一個模型逐漸掌握語言的規律和特征。 常用的模型結構 Transformer架構
    發表于 08-02 11:03

    matlab預測模型怎么用

    MATLAB預測模型是一種基于統計和數學方法的預測工具,廣泛應用于各種領域,如金融、氣象、生物醫學等。本文將介紹MATLAB預測
    的頭像 發表于 07-11 14:33 ?939次閱讀

    MATLAB預測模型哪個好

    ,適用于預測連續型數據。它假設輸入變量(自變量)與輸出變量(因變量)之間存在線性關系。線性回歸模型的表達式為: y = β0 + β1x1 + β2x2 + ... + βnxn + ε 其中,y是
    的頭像 發表于 07-11 14:31 ?633次閱讀

    matlab預測模型有哪些

    環境,使其成為預測模型開發和實現的理想平臺。本文將詳細介紹MATLAB中常用的預測模型及其應用。 線性回歸模型 線性回歸是一種簡單的
    的頭像 發表于 07-11 14:27 ?1216次閱讀

    深度學習中的時間序列分類方法

    時間序列分類(Time Series Classification, TSC)是機器學習和深度學習領域的重要任務之一,廣泛應用于人體活動識別、系統監測、金融預測、醫療診斷等多個領域。隨著深度學習技術
    的頭像 發表于 07-09 15:54 ?1876次閱讀

    arimagarch模型怎么預測

    ARIMA-GARCH模型是一種時間序列預測方法,它結合了自回歸積分滑動平均(ARIMA)模型和廣義自回歸條件異方差(GARCH)模型。AR
    的頭像 發表于 07-09 10:22 ?865次閱讀

    名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?

    捕捉復雜非線性模式的場景中顯得力不從心。 將時間序列的分析與預測用于大規模的數據生產一直存在諸多困難。 在這種背景下,結合機器學習,特別是深度學習技術的時間序列分析方法,成了
    發表于 06-25 15:00
    主站蜘蛛池模板: 7m凹凸国产刺激在线视频 | 动漫美女性侵 | 久久免费看少妇级毛片蜜臀 | 亚洲欧美自拍清纯中文字幕 | 国产日韩亚洲专区无码 | 久久99综合国产精品亚洲首页 | xxnx动漫| 国产精品成人A蜜柚在线观看 | 第一会所欧美无码原创 | 精品亚洲永久免费精品 | 国产高潮国产高潮久久久久久 | 午夜影院视费x看 | youjizz怎么看 | WWW亚洲精品久久久无码 | 国产午夜精品不卡观看 | younv 学生国产在线视频 | 亚洲国产精品免费线观看视频 | 黑丝袜论坛 | 精品国产国偷自产在线观看 | 狠狠操伊人 | 久久www免费人成高清 | MD传媒MD0021在线观看 | 午夜影院美女 | 国产午夜精品理论片久久影视 | 亚洲性无码av在线 | 91日本在线观看亚洲精品 | bbw videos 欧美老妇 | 13小箩利洗澡无码视频APP | 在线不卡日本v二区 | 国产伊人自拍 | 国产久久热99视频 | 竹菊精品久久久久久久99蜜桃 | 无码乱人伦一区二区亚洲一 | 日本调教网站 | 国产精品永久在线 | 久久re这里视频只精品首页 | 一手揉着乳头一手模仿抽插视频 | 男女久久久国产一区二区三区 | 国产婷婷色一区二区三区在线 | 在线自拍亚洲视频欧美 | 一本大道无码AV天堂欧美 |

    電子發燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品