色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于預訓練語言模型的行業搜索的應用和研究

深度學習自然語言處理 ? 來源:DataFunTalk ? 2023-02-01 11:23 ? 次閱讀

01

行業搜索的背景

1. 達摩院自然語言智能大圖

872707fc-a1d0-11ed-bfe3-dac502259ad0.png

上圖是達摩院自然語言處理智能的技術框圖,從下到上包含:

NLP 數據、NLP 基礎的詞法、句法語義,分析的技術,以及上層 NLP 技術

行業應用:達摩院除了做基礎研究之外,還賦能阿里集團,以及結合阿里云去賦能行業產業。賦能的很多行業場景都是搜索。

2. 行業搜索本質

87504b8a-a1d0-11ed-bfe3-dac502259ad0.png

面向產業和消費互聯網的搜索本質都是一樣的:用戶有信息獲取需求,同時有信息資源庫,通過搜索引擎把兩者橋接起來。

以電商場景來舉例說明。比如用戶在電商里面搜索 aj1 北卡藍新款球鞋。

為了更好地理解這樣一個用戶的 query,需要進行一系列任務:

查詢理解的分析:NLP 糾錯、分詞類目預測、實體識別詞權重、 query 改寫等技術

(離線)文檔分析:NLP分析,質量效率的分析

檢索排序:通過對 query 的分析以及文檔的分析,來結合搜索引擎本身一些檢索排序的機制,就能實現把兩者橋接的目標。

3. 行業搜索鏈路

87829bee-a1d0-11ed-bfe3-dac502259ad0.png

如果按搜索的范式來分,一般分為 sparse retrieval 及 dense retrieval。

sparse retrieval:傳統的基于字或基于詞去建立倒排索引,同時基于此去構建很多查詢理解的一系列的能力,包括一些文本相關性排序等;

dense retrieval:隨著預訓練語言模型的興起,基于預訓練底座來實現單塔、雙塔模型,再結合向量引擎建立搜索機制。

878ff028-a1d0-11ed-bfe3-dac502259ad0.png ? 一般將搜索做這樣一個鏈路性的劃分:召回、排序(粗排、精排、重排)。

87a95db0-a1d0-11ed-bfe3-dac502259ad0.png

召回階段:

傳統 sparse retrieval 的關鍵詞召回

dense retrieval 向量召回,個性化召回

粗排階段:使用文本相關性(靜態)分數來做過濾

精排階段:相對復雜,會有相關性的模型,可能結合業務的效率模型(LTR)

87b50d86-a1d0-11ed-bfe3-dac502259ad0.png ?

從左到右,模型復雜度、效果精度變高。從右到左,處理 Doc 數變多。以淘寶電商為例,比如召回(幾十億),初排(幾十萬),到精排(幾百、上千),到重排(幾十)量級。

搜索生產鏈路是檢索效果跟工程效率 trade-off 的系統。隨著算力的增長,復雜模型開始往前置換。比如說精排的模型,現在慢慢會下沉到粗排、甚至召回這個階段。

87e14f54-a1d0-11ed-bfe3-dac502259ad0.png

搜索效果評估:

召回:recall 或無結果率

排序:相關性、轉化效率(貼近業務)

相關性:NDCG、MRR

轉化效率:點擊率、轉化率

4. 消費互聯網和產業互聯網的搜索

88091372-a1d0-11ed-bfe3-dac502259ad0.png

搜索在不同行業場景里區別是很大的,在此把它分為消費互聯網搜索與產業互聯網搜索

用戶群體和 UV:消費互聯網搜索 UV 非常大,產業互聯網面向政企內部的員工;

搜索追求指標:消費互聯網,除了追求搜得到、搜得準之外,還追求轉化率高。在產業互聯網,它更多是信息匹配的需求,所以關注召回跟相關性;

工程系統要求:消費互聯網 QPS 的要求會很高,沉淀大量的用戶行為,需要有實時日志分析、實時模型訓練。產業互聯網的要求會低一些;

算法方向:消費互聯網會從 offline、nearline、online 的海量用戶行為分析建模獲得更大收益。產業互聯網的用戶行為稀疏,所以會更注重內容理解,比如 NLP 或者視覺的理解,研究方向包括 low resource、transfer learning。

02

相關技術研究

882ca7a6-a1d0-11ed-bfe3-dac502259ad0.png

搜索是跟系統框架緊密耦合的:包括離線數據,搜索服務框架(綠色部分),搜索技術算法體系(藍色部分),其底座是 Alicemind 預訓練語言模型體系,同樣會匯聚做文檔分析、query 理解、相關性等。

1. AliceMind 體系

889a724a-a1d0-11ed-bfe3-dac502259ad0.png

AliceMind 是達摩院構建的層次化預訓練語言模型體系。包含了通用預訓練模型,多語言、多模態、對話等,是 NLP 所有任務的底座。

2. 分詞

88ffea94-a1d0-11ed-bfe3-dac502259ad0.png

搜索的分詞(原子能力),決定了檢索索引粒度,同時也與后續相關性、BM25 粒度有關。針對 task specific 任務,如果去定制一些預訓練,能比通用的預訓練效果更好。

比如最近研究希望在原生 BERT 預訓練任務上增加無監督的統計信息的任務,比如統計字詞、Gram 粒度、或者邊界熵,然后以 mse-loss 增加到預訓練。在 CWS/POS、NER上(右圖),的諸多任務都達到 SOTA。

895a3e9a-a1d0-11ed-bfe3-dac502259ad0.png

另一個研究是跨領域。每次需要標數據、構建監督任務的成本很高,所以需構建跨領域無監督分詞的機制。右下角的表格為例,電商分詞相比開源的分詞質量有明顯改善,這套方法也發布到 ACL2020。

3. 命名實體識別

899ff7d2-a1d0-11ed-bfe3-dac502259ad0.png

搜索命名實體識別主要是對 query 、Doc 進行結構化的理解,識別出關鍵短語及類型。同時搜索知識圖譜的構建也依賴 NER 功能。 搜索 NER 也面臨一些挑戰。主要是比如 query 常常是比較短的,上下文不足。

比如說電商里面 query 實體的歧義性很高,知識性很強。所以這幾年在 NER 核心的優化思路,就是通過上下文或者引入知識的方式來增強 NER 的表征。

89c91428-a1d0-11ed-bfe3-dac502259ad0.png

在 2020年、2021年做了隱式增強的工作 combo embedding。把已有 word extractor 或者 GLUE 的表征動態融合,能搭載在很多業務任務上面達到 SOTA。

2021年,研發基于顯式的檢索增強,對一條文本會通過搜索引擎得到增強的上下文,融合到 transformer結構。這個工作發表在 ACL 2021 上了。

基于這個工作,我們參加了 SemEval 2022 多語言 NER評測拿了 10 項冠軍,以及 best system paper 。

89e88d30-a1d0-11ed-bfe3-dac502259ad0.png

檢索增強:輸入句子本身之外,檢索得到額外 context 并 concat 到輸入,結合 KL 的 loss 來幫助學習。在很多開源數據集拿到 SOTA。

4. 自適應多任務訓練

8a0da2a0-a1d0-11ed-bfe3-dac502259ad0.png

BERT 本身效果是很好的,但實際生產很少有 GPU 集群,每個任務都要去做 inference性能代價很大。我們思考能否只做一次 inference,在 encoder 之后每個任務自己再做適配,就能得到比較好的效果。

8a407374-a1d0-11ed-bfe3-dac502259ad0.png

一個直觀的方法就是通過 meta-task 的框架納入 NLP query 分析任務。但傳統的 meta-task 是均勻采樣的分布。我們提出了 MOMETAS,一個自適應基于元學習的方法,來自適應不同任務的采樣。

在多個任務去學習的過程中,我們會階段性用 validation data 做測試看不同任務學習的效果。reward 反過來指導前面訓練的采樣。(下方表格)在很多任務上結合這個機制,相比 UB(均勻分布)有不少提升。

8a4f7612-a1d0-11ed-bfe3-dac502259ad0.png

把上述機制應用在搜索很多行業的場景里去,帶來的收益是僅通過一次 BERT 的編碼并存儲,在很多的下游任務直接復用,能大幅提升性能。

5. 搜索召回預訓練語言模型

8a7470de-a1d0-11ed-bfe3-dac502259ad0.png

深度檢索,無外乎是雙塔或單塔,通用的訓練范式是有監督信號以及預訓練模型,進行 finetune 獲得 embedding,對 query 和 doc 進行表征。

近期的優化路線主要是數據增強或難樣本挖掘,另外是優化預訓練語言模型。原生 BERT 不是特別適合搜索的文本表示,所以有針對搜索文本表示的預訓練語言模型。其他優化是在于做 multi-view 文本表示,以及特別的 loss 設計。

8a9031f2-a1d0-11ed-bfe3-dac502259ad0.png

相比原生 BERT 的隨機采樣,我們結合搜索詞權重提升詞權重比較高的詞來提升采樣概率,學習到的表征更適合搜索召回。

除此之外,增加 sentence level 對比學習。結合這兩個機制,提出了 ROM 的預訓練語言模型。

8ac618da-a1d0-11ed-bfe3-dac502259ad0.png

在 MS MARCO 做實驗,對比先前做法能夠達到最好的效果。在實際的場景搜索任務中,也能帶來較大的提升。同時該模型也參與了 MS 刷榜。

6. HLATR 重排模型

8aedb674-a1d0-11ed-bfe3-dac502259ad0.png

除了 ROM 這個召回階段之外,在精排、重排階段,提出了一套 list aware 的 Transformer reranking,即將精排很多分類器的結果通過 Transformer 有機的融合在一起,有比較大的提升。

8b167ab4-a1d0-11ed-bfe3-dac502259ad0.png

結合 ROM 和 HLATR 兩個方案,3 月份至今(7 月份)仍舊是 SOTA 結果。

03

行業搜索應用

1. 地址分析產品

8b2567b8-a1d0-11ed-bfe3-dac502259ad0.png

達摩院研發的地址分析產品,背景是各行各業有很多通訊地址。中文的通訊地址有很多特點,比如口語化表達有很多缺省。

同時地址本身是人事實物,是客觀世界很多實體橋接的一個重要實體單位。所以基于此建立了一套地址知識圖譜,提供解析、補齊、搜索、地址分析。

8b4a4538-a1d0-11ed-bfe3-dac502259ad0.png

這是產品的技術框圖。從下到上包含了地址知識圖譜的構建,以及地址預訓練語言模型,包括基于搜索引擎的框架串接整個鏈路。上述提到的基準能力,以 API 的方式提供出來包裝成行業方案。

8b6db4dc-a1d0-11ed-bfe3-dac502259ad0.png

這套技術里面比較重要的一個點是地理語義的預訓練語言模型。一個地址在文本表示會是字符串,其實在空間里面它往往是表征成經緯度,在地圖中還有對應的圖片。所以這三種模態的信息是把它有機融合成一個多模態的地理語義的語言模型,以此來支持在定址里的任務。

8b8e98c8-a1d0-11ed-bfe3-dac502259ad0.png

上述提到需要做地址相關的很多基礎能力,比如分詞、糾錯、結構化等分析。

8bc7b216-a1d0-11ed-bfe3-dac502259ad0.png

最核心的鏈路是將地理預訓練語言模型、地址基礎任務、引發搜索引擎的方式將它們橋接起來。

比如說搜索浙一醫院,可能會對它去做結構化、同義詞糾錯、term weighting 做向量化、Geohash 的預測。基于分析結果做召回。這個鏈路是標準的搜索鏈路,進行文本召回、拼音召回、向量召回,還增加地理召回。召回之后是多階段的排序,包括多粒度的 feature 融合。

8bf3920a-a1d0-11ed-bfe3-dac502259ad0.png

地址搜索體系直觀的應用,就是填地址后 suggestion 場景,或者高德地圖里面去做搜索,需要把它映射到空間一個點位上。

8c024aac-a1d0-11ed-bfe3-dac502259ad0.png

接下來介紹兩個比較行業化的應用方案。第一個是新零售 Family ID,核心訴求是維護一套客戶的管理系統,然而各個系統用戶信息沒有打通,無法實現有效的整合。

8c2d1804-a1d0-11ed-bfe3-dac502259ad0.png

比如品牌廠商賣了一個空調,家人由于購買、安裝、維修而登記了各種地址、手機號,但對應的實際上是同一個地址。建立的地址搜索歸一技術,把不同表示的地址進行歸一,生成指紋,將不同用戶 ID 聚合到 Family 概念中。

8c5330d4-a1d0-11ed-bfe3-dac502259ad0.png

8c602d98-a1d0-11ed-bfe3-dac502259ad0.png

通過家庭聚合的概念,可以做到更好的滲透分析、廣告投放觸達等新零售下的營銷活動。

8c80c0e4-a1d0-11ed-bfe3-dac502259ad0.png

另外一種應用場景,是 119、129、應急等智能接警應用。因為涉及到老百姓的人身財產安全,所以分秒必爭。希望結合語音識別、文本語義理解技術把這個效率提升。

8cb666fe-a1d0-11ed-bfe3-dac502259ad0.png

(左邊例子)場景有很多特點,比如 ASR 轉寫的錯別字、不流暢、口語化等問題。目標是希望基于自動語音轉寫分析推斷報警地點。

8cd5dd9a-a1d0-11ed-bfe3-dac502259ad0.png

8cf5f2f6-a1d0-11ed-bfe3-dac502259ad0.png

8d1815fc-a1d0-11ed-bfe3-dac502259ad0.png

我們提出了一整套系統方案,包括對話理解的口語順滑糾錯、意圖識別,以及結合一套搜索從召回粗排精排的機制來最終實現地址推薦。鏈路已經比較成熟,在中國上百個城市的消防系統落地;消防從報警對話識別出具體的地點,結合推薦、匹配、地址圍欄判斷具體地點,對應出警。

2. 教育拍照搜題

8d267f2a-a1d0-11ed-bfe3-dac502259ad0.png

接下來介紹教育行業的拍照收集業務,在 To C、面向老師端也有不少需求。

8d460444-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜題有幾個特點,本身有增量更新的題庫,用戶群體較大。另外,不同學科、年齡段對應的領域知識性很強。同時是一個多模態的算法,從 OCR 到后續語義理解、搜索等一套鏈路。

8d68cd8a-a1d0-11ed-bfe3-dac502259ad0.png

近幾年針對拍照收集構建了一整套從算法到系統的鏈路。

8d97803a-a1d0-11ed-bfe3-dac502259ad0.png

比如,在手機拍照以及 OCR 識別后,會進行拼寫糾錯、學科預測、分詞、詞權重等一系列工作,幫助做到檢索。

8dc3c08c-a1d0-11ed-bfe3-dac502259ad0.png

由于 OCR 對英文識別沒有空格,訓練了一套 K12 英文的預訓練算法模型,進行英文的切分。

8dfc420e-a1d0-11ed-bfe3-dac502259ad0.png

同時,學科、題目類型都是未知的,需要做一個提前預測。使用多模態,結合圖片和文本進行意圖理解。

8e52a2f2-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜題跟普通的用戶搜索不太一樣,用戶搜索往往 query 是比較短,拍照搜題往往是一道完整的題目。題目里面很多詞是不重要的,需要做詞權重分析,丟棄不重要的詞或者排序予以降權。

8e75df88-a1d0-11ed-bfe3-dac502259ad0.png

在拍照搜題場景中優化效果最明顯的是向量召回。性能上的要求不太能用 OR 的召回機制,需要用 AND 邏輯,對應特點是召回比較少。

去提升 recall 的話,需要做 term weighting、糾錯等較冗余的模塊。(右圖)通過文本加向量的多路召回效果,超過純 or 邏輯,在 latency 降低 10 倍。

8e9de9c4-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜索的鏈路包括了圖像向量召回、公式召回、個性化召回。

8ebb4f32-a1d0-11ed-bfe3-dac502259ad0.png

提供兩個例子。第一個是純文本的 OCR 結果,(左列)舊結果是基于 ES,簡單的 OR 召回,加上 BM25 的結果,(右列)經過多路召回以及相關性召回的鏈路有較大提升。 第二個是拍照含有圖形,多路中是必須結合圖片召回。

3. 電力知識庫統一搜索

8ec85560-a1d0-11ed-bfe3-dac502259ad0.png

8eff121c-a1d0-11ed-bfe3-dac502259ad0.png


在企業搜索中有很多半結構化和非結構化數據,提供統一搜索,幫助企業整合數據資源。不僅在電力,其他行業也有類似需求。這里的搜索不再是狹義的搜索,還包含了對文檔的預處理文檔的AI和知識圖譜的構建,還包括后續橋接問答的能力。以上是在電力知識庫里,去做一套制度標準文本,從結構化到檢索,到應用端的示意圖。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • QPS
    QPS
    +關注

    關注

    0

    文章

    24

    瀏覽量

    8800
  • SCWS
    +關注

    關注

    0

    文章

    2

    瀏覽量

    5738
  • LMR
    LMR
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6206
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22033

原文標題:阿里達摩院:基于預訓練語言模型的行業搜索的應用和研究

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    什么是大模型、大模型是怎么訓練出來的及大模型作用

    ,基礎模型。 ? 大模型是一個簡稱,完整的叫法,應該是“人工智能訓練模型”。
    的頭像 發表于 11-25 09:29 ?1237次閱讀
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>訓練</b>出來的及大<b class='flag-5'>模型</b>作用

    直播預約 |數據智能系列講座第4期:訓練的基礎模型下的持續學習

    神經網絡,特別是訓練的基礎模型研究得到了廣泛的應用,但其仍然主要依賴于在大量樣本上的批量式訓練。本報告將探討實現
    的頭像 發表于 10-18 08:09 ?215次閱讀
    直播預約 |數據智能系列講座第4期:<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的基礎<b class='flag-5'>模型</b>下的持續學習

    訓練和遷移學習的區別和聯系

    訓練和遷移學習是深度學習和機器學習領域中的兩個重要概念,它們在提高模型性能、減少訓練時間和降低對數據量的需求方面發揮著關鍵作用。本文將從定義、原理、應用、區別和聯系等方面詳細探討
    的頭像 發表于 07-11 10:12 ?1020次閱讀

    語言模型訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型訓練是這一技術發展的關鍵步驟,它通過在海量無標簽數據上進行
    的頭像 發表于 07-11 10:11 ?423次閱讀

    LLM訓練的基本概念、基本原理和主要優勢

    在人工智能和自然語言處理(NLP)領域,大型語言模型(Large Language Model,簡稱LLM)的興起極大地推動了技術的進步和應用的發展。LLM通過在大規模文本數據上進行
    的頭像 發表于 07-10 11:03 ?1064次閱讀

    訓練模型的基本原理和應用

    訓練模型(Pre-trained Model)是深度學習和機器學習領域中的一個重要概念,尤其是在自然語言處理(NLP)和計算機視覺(CV)等領域中得到了廣泛應用。
    的頭像 發表于 07-03 18:20 ?2773次閱讀

    語言模型:原理與工程時間+小白初識大語言模型

    語言模型進行訓練,此處訓練為自然語言處理領域的
    發表于 05-12 23:57

    【大語言模型:原理與工程實踐】大語言模型的應用

    。 關于大語言模型是否具備與人類“系統2”相似的能力,存在廣泛的爭議。然而,隨著模型參數量的增加和大規模訓練的實施,大
    發表于 05-07 17:21

    【大語言模型:原理與工程實踐】大語言模型訓練

    語言模型的核心特點在于其龐大的參數量,這賦予了模型強大的學習容量,使其無需依賴微調即可適應各種下游任務,而更傾向于培養通用的處理能力。然而,隨著學習容量的增加,對
    發表于 05-07 17:10

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    處理各種自然語言任務時都表現出了驚人的能力。這促使一個新的研究方向誕生——基于Transformer 的訓練語言
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】核心技術綜述

    的復雜模式和長距離依賴關系。 訓練策略: 訓練是LLMs訓練過程的第一階段,模型在大量的
    發表于 05-05 10:56

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    Transformer架構,利用自注意力機制對文本進行編碼,通過訓練、有監督微調和強化學習等階段,不斷提升性能,展現出強大的語言理解和生成能力。 大語言
    發表于 05-04 23:55

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》

    處理中訓練架構Transformer,以及這些技術在現實世界中的如何應用。通過具體案例的分析,作者展示了大語言模型在解決實際問題中的強大能力,同時也指出了當前技術面臨的挑戰和局限性。
    發表于 04-30 15:35

    名單公布!【書籍評測活動NO.30】大規模語言模型:從理論到實踐

    榜銷售TOP1的桂冠,可想大家對本書的認可和支持! 這本書為什么如此受歡迎?它究竟講了什么?下面就給大家詳細~~ 本書主要內容 本書圍繞大語言模型構建的四個主要階段——訓練、有監督
    發表于 03-11 15:16

    語言模型推斷中的批處理效應

    隨著開源訓練大型語言模型(Large Language Model, LLM )變得更加強大和開放,越來越多的開發者將大語言
    的頭像 發表于 01-04 12:32 ?628次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>推斷中的批處理效應
    主站蜘蛛池模板: 亚洲AV无码乱码A片无码蜜桃| 亚洲国产在线精品第二剧情不卡 | 国产AV亚洲一区精午夜麻豆| 国产视频精品免费| 蜜柚影院在线观看免费高清中文| 日韩精品 中文字幕 有码 | 亚洲乱色视频在线观看| 99久久国产视频| 国内偷拍夫妻av| 欧美日韩高清一区| 亚洲欧美韩国综合色| qvod 在线电影| 精品国产在天天线在线麻豆| 强上轮流内射高NP男男| 亚洲日本国产综合高清| 被窝伦理午夜电影网| 久久黄视频| 天堂网久久| a一级毛片视频免费看| 国语对白嫖老妇胖老太| 青青草久久伊人| 曰韩一本道高清无码av| 粉嫩自拍 偷拍 亚洲| 毛片视频大全| 亚洲精品无码AV中文字幕蜜桃| xxx在线播放| 久久婷五月综合色啪网| 午夜福利免费体检区| CHINA中国东北GURMA| 久久久擼擼擼麻豆| 小黄鸭YELLOWDUCK7596| youjizz护士| 麻豆精品一卡2卡三卡4卡免费观看| 午夜天堂AV久久久噜噜噜| WWW色视频片内射| 久久偷拍国2017| 亚洲免费无码中文在线亚洲在| 大学生宿舍飞机china free| 蜜芽TV影院在线视频| 亚洲一区在线观看视频| 国产精品悠悠久久人妻精品|