色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于文本匹配的破城長矛

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2021-03-31 17:33 ? 次閱讀

搜索也好,檢索式對話也好,文本是一個很難繞開的話題,雖然語義是一個重要因素,用語義相似度直接梭,但是用戶的感知可不是如此,很多用戶的感知更多是文本層面的相似要高于語義相似,或者說,遇到語義相似和文本相似的時候會更優先接受文本相似,畢竟文本使用戶能直接看到的,當然語義相似度雖好,但是對于沒有什么標注數據的情況,也是束手無策吧。

所以,即使語義相似度如火如荼地發展著,文本層面的匹配依舊是項目實踐中不可避免的關注點。

cqr&ctr概念

cqr和ctr的概念還是比較清晰明確的。

給定query和title,現在計算cqr和ctr。

講完了,就是這么簡單,其實就是看兩者交集占query的占比和占title的占比,就是對應的cqr和ctr。

當然,由于這種計算會把所有詞的重要性考慮進去,例如“怎么做作業”分別和“怎樣做作業”、“怎么做手機”,兩個的相似度就一樣了,此時就要考慮到給每個詞加點權重,這樣能更好地描述,這就是一個優化的實用版本,加權

給定query,有對應的權重和title,以及對應權重,現在計算cqr和ctr:

想到可能會有人問到權重怎么來,這里我就要把我的歷史文章放出來了,之前是專門講過詞權重的問題的:NLP.TM[20] | 詞權重問題

這個應該就是我自己平時用的版本了,而且屢試不爽。

而如果是要分析兩個句子綜合、無偏的相似度,只要相乘就好了:

細品

可以看到,這個東西很簡單,就是一個基于統計計算的工具,但是我依然想仔細討論一下這個東西。

首先,有關相似度,其實我們很容易想到這個計算方法:

就是比較著名的jaccard相似度,當然還有一個更加出名的方法,那就是BM25(更為常見,此處就不贅述了)。但是我并沒有選擇,為什么呢,其實核心就是1個點:

query和title的長度信息

jaccard距離雖然能比較綜合、無偏向性地計算兩者的相似度,但問題是,當query和title長度計算差距很大的時候,計算準確性就會受到影響,而分成兩個指標,則能夠充分表現兩者的相似性,當然具體用哪種其實還是要看具體場景的,有的時候這種無偏向性對效果優化還是有用的,但是有的時候其實會影響最終效果。

來看個例子,query是“我昨天新買的手機,今天怎么就不能開機了”,title是“手機不能開機”,這里可以,ctr無疑就是1,當然cqr就比較低了,但是我們可以用ctr作為后續的排序特征或者過濾條件。

優缺點

感覺有些東西想說但是沒說出來,直接總結一下這個方案的優缺點吧,以便大家進行方案選擇吧,這個優點,是相對于常見的語義相似度模型而言的。

首先說優點:

能夠體現文本層面的相似度,在一些領域下體驗比較好。

性能比語義相似度模型好很,所以是一個簡單輕快的模型。

無監督,詞權重的話用語料就可以訓練了。

效果穩定可追蹤。

當然,還是有缺點的。

文本層面的匹配無法體現語義,同義詞、說法之類的無法體現。

對切詞敏感,類似“充不進去電”和“充電”就完全匹配不上。

應用

有這些有缺點,其實我們就可以考慮這個相似度該怎么用了:

用于過濾一些肯定不對的答案。

無標注數據下,這個指標可以作為排序的指標,對啟動項目挺重要的。

作為排序特征,保證結果在文本層面還是比較接近的。

當然,在一個比較完整的搜索或者是檢索式對話的系統里,其實這種文本相似度類的特征還是非常有收益的,結合語義相似度還是會有一些比較穩定的收益。

小結

東西其實不難,卻是非常實用的技能,但是在應用的過程中能夠想到的人其實很少,但有用的東西我們學起來也挺好。

原文標題:【文本匹配】cqr&ctr:文本匹配的破城長矛

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自然語言處理

    關注

    1

    文章

    618

    瀏覽量

    13552
  • nlp
    nlp
    +關注

    關注

    1

    文章

    488

    瀏覽量

    22033

原文標題:【文本匹配】cqr&ctr:文本匹配的破城長矛

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何使用自然語言處理分析文本數據

    使用自然語言處理(NLP)分析文本數據是一個復雜但系統的過程,涉及多個步驟和技術。以下是一個基本的流程,幫助你理解如何使用NLP來分析文本數據: 1. 數據收集 收集文本數據 :從各種來源(如社交
    的頭像 發表于 12-05 15:27 ?256次閱讀

    圖紙模板中的文本變量

    “ ?文本變量和系統自帶的內置變量,可以幫助工程師靈活、高效地配置標題欄中的信息,而不用擔心模板中的文字對象被意外修改。 ? ” 文本變量的語法 文本變量以?${VARIABLENAME}?的方式
    的頭像 發表于 11-13 18:21 ?170次閱讀
    圖紙模板中的<b class='flag-5'>文本</b>變量

    如何在文本字段中使用上標、下標及變量

    在KiCad的任何文本字段中,都可以通過以下的方式實現上標、下標、上劃線以及顯示變量及字段值的描述: 文本變量“文本變量”可以在 原理圖設置->工程->文本變量 中設置。下圖中設置了一
    的頭像 發表于 11-12 12:23 ?104次閱讀
    如何在<b class='flag-5'>文本</b>字段中使用上標、下標及變量

    直流無刷壁機解決方案

    壁機是集攪拌、加熱、壁于一體的家用電器,其壁機理是利用高速旋轉的刀片和機身內壁的摩擦力,破壞食材的細胞壁,將細胞中的維生素、礦物質、植化素、蛋白質等充分釋放出來,從而更好地促進人體消化和吸收。
    的頭像 發表于 11-08 11:35 ?481次閱讀
    直流無刷<b class='flag-5'>破</b>壁機解決方案

    tas5548輸入全音量的i2s數據會音,為什么?

    TAS5548我現在使用的是tas5548+tas5416方案,音源是電腦 cd機等,i2s輸入tas5548。 問題是: 電腦或cd全音量輸出, 功放小音量工作,聲音伴隨著低頻會有咔咔 的
    發表于 11-05 06:51

    控交換機說明書

    電子發燒友網站提供《控交換機說明書.rar》資料免費下載
    發表于 11-01 10:23 ?0次下載

    正常音量信號輸入tas5548后音的原因?怎么解決?

    我現在使用的是cs8416+tas5548+tas5416方案,發現一個問題,音源是電腦同軸輸出。 問題是:電腦最大音量輸出, 功放聲音伴隨著低頻會有咔咔 的音(同樣音量的同軸信號接到其他數字
    發表于 08-15 08:13

    玩具反斗使用OpenAI的Sora文本轉視頻工具制作&quot;品牌電影&quot;

    你對玩具反斗(Toys“R”Us)有美好的回憶嗎?據悉,該玩具零售巨頭正借助人工智能技術謀求品牌復興,近日發布了一則聲稱使用OpenAI的Sora文本轉視頻工具制作的"品牌電影",引發業界關注
    的頭像 發表于 07-03 16:40 ?747次閱讀

    卷積神經網絡在文本分類領域的應用

    在自然語言處理(NLP)領域,文本分類一直是一個重要的研究方向。隨著深度學習技術的飛速發展,卷積神經網絡(Convolutional Neural Network,簡稱CNN)在圖像識別領域取得了
    的頭像 發表于 07-01 16:25 ?703次閱讀

    鴻蒙ArkTS聲明式開發:跨平臺支持列表【文本通用】

    文本通用屬性目前只針對包含文本元素的組件,設置文本樣式。
    的頭像 發表于 06-13 15:09 ?471次閱讀
    鴻蒙ArkTS聲明式開發:跨平臺支持列表【<b class='flag-5'>文本</b>通用】

    華為射頻天線口匹配設計及調試指導

    分享一份華為關于射頻天線匹配的設計機調試指導,做過相關的設計,覺得指導性比較強,可以供參考,也是很好的學習資料。Chrent整體介紹1.1概述華為終端模塊產品設計中,雖然天線口與外接天線連接器
    的頭像 發表于 05-23 08:27 ?1222次閱讀
    華為射頻天線口<b class='flag-5'>匹配</b>設計及調試指導

    輸電線路防外措施:毫米波雷達防外在線監測裝置|精準測距

    輸電線路上安裝毫米波雷達防外在線監測裝置(DX-WPS100-JG3),可以幫助運維人員及時發現線路外隱患,并提供有效的外信息。該裝置通過激光雷達掃描有效范圍內的物體移動,進行高精度測距,判斷
    的頭像 發表于 03-29 10:14 ?1495次閱讀

    快速全面了解大模型長文本能力

    關于LLM的長文本能力,目前業界通常都是怎么做的?有哪些技術點或者方向?今天我們就來總結一波,供大家快速全面了解。
    發表于 02-22 14:04 ?841次閱讀
    快速全面了解大模型長<b class='flag-5'>文本</b>能力

    東風乘用車2024年1月銷量2萬,新能源車銷量首月

    繼東風奕派百200家中介機構成功建設之后,品牌首款電動轎跑車型eπ007已正式登陸門店,訂單當日萬。東風納米01車型更是收獲超過5000輛業績,以百上市開啟交付模式。
    的頭像 發表于 02-02 14:41 ?788次閱讀

    什么是匹配濾波器?如何理解匹配濾波器?

    [導讀]為增進大家對匹配濾波器的認識,本文將對匹配濾波器、匹配濾波器的詳細理解予以介紹。 匹配濾?波器作為濾波器的一種,在信號處理系統中發揮著重要作用。為增進大家對
    的頭像 發表于 01-12 08:39 ?1657次閱讀
    主站蜘蛛池模板: 欧美色图一区二区三区| 欧美午夜精品久久久久久浪潮| 老师真棒无遮瑕版漫画免费| 热久久伊大人香蕉网老师| 亚洲精品视频在线观看免费| 69国产精品成人无码视频| 国产AV视频二区在线观看| 在线不卡日本v二区到六区| 大陆极品少妇内射AAAAAA| 精品无人区一区二区三区| 日本精品卡一卡2卡3卡四卡三卡| 亚洲精品免费观看| 福利视频久久| 97蜜桃123| 久久精品国产亚洲AV妓女不卡| 脱jk裙的美女露小内内无遮挡| 99视频精品国产免费观看| 久久www免费人成_看片高清| 小护士大pp| 囯产愉拍亚洲精品一区| 年轻的女职工在线观看| 最新国产精品视频免费看| 国产麻豆剧看黄在线观看 | 无人区乱码区1卡2卡三卡在线| 99re久久这里只有精品| 久久兔费黄A级毛片高清| 亚洲国产精品第一影院在线观看 | 年轻的女教师2017韩国在线看| 曰本xxⅹ孕妇性xxx| 久久99精品国产麻豆婷婷| 午夜免费小视频| 国产野外无码理论片在线观看| 污到湿的爽文免费阅读| 国产AV国产精品国产三级在线L| 入室强伦女教师被学生| 成人啪啪色婷婷久色社区| 色欲午夜无码久久久久久| 邻居的阿2中文字版电影| 亚洲视频在线免费| 看了n遍舍不得删的黄文| 973午夜伦伦电影论片|