色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

通過多尺度說話人分解實現動態尺度加權

星星科技指導員 ? 來源:NVIDIA ? 作者:Taejin Park ? 2022-10-11 11:46 ? 次閱讀

說話人日記化是按說話人標簽對錄音進行分段的過程,旨在回答“誰在何時發言?”。與語音識別相比,它有著明顯的區別。

在你執行說話人日記化之前,你知道“說的是什么”,但你不知道“誰說的”。因此,說話人日記化是語音識別系統的一個基本特征,它可以用說話人標簽豐富轉錄內容。也就是說,如果沒有說話人日記化過程,會話錄音永遠不能被視為完全轉錄,因為沒有說話者標簽的轉錄無法通知您是誰在和誰說話。

poYBAGNE5weAXAPzAAT1u1irANs872.png

圖 1.說話人區分是將音頻記錄劃分為說話人同質區域的任務

說話人日記必須產生準確的時間戳,因為在會話設置中,說話人的話輪數可能非常短。我們經常使用短的反向通道詞,如“ yes ”、“ uh huh ”或“ oh ”。這些詞對機器轉錄和識別說話人來說很有挑戰性。

雖然根據說話人身份對音頻記錄進行分段,但說話人日記化需要對相對較短的分段進行細粒度決策,從十分之幾秒到幾秒不等。對如此短的音頻片段做出準確、細粒度的決策是一項挑戰,因為它不太可能捕捉到可靠的說話人特征。

在本文中,我們討論了如何通過引入一種稱為多尺度方法和多尺度二值化解碼器( MSDD )的新技術來處理多尺度輸入來解決這個問題。

多尺度分割機制

就揚聲器特征的質量而言,提取長音頻段是可取的。然而,音頻段的長度也限制了粒度,這導致揚聲器標簽決策的單位長度較粗。如圖 2 所示的曲線所示,說話人區分系統面臨著時間分辨率和說話人表示保真度之間的權衡問題。

在說話人區分流水線中的說話人特征提取過程中,為了獲得高質量的說話者表示向量,不可避免地要花費較長的語音段來犧牲時間分辨率。在簡單明了的語言中,如果你試圖準確掌握語音特征,那么你必須考慮更長的時間跨度。

同時,如果你考慮更長的時間跨度,你必須在相當長的時間跨度內做出決定。這會導致粗決策(時間分辨率低)。想想這樣一個事實,如果只錄下半秒鐘的講話,即使是人類聽眾也無法準確地說出誰在講話。

在大多數分音系統中,音頻段長度在 1.5 到 3.0 秒之間,因為這樣的數字在揚聲器特性的質量和時間分辨率之間取得了很好的折衷。這種分割方法稱為 single-scale approach 。

即使使用重疊技術,單尺度分割也將時間分辨率限制在 0.75 ~ 1.5 秒,這在時間精度方面留下了改進的空間。

粗略的時間分辨率不僅會降低二值化的性能,而且會降低說話人計數的準確性,因為短語音片段無法正確捕獲。 更重要的是,說話人時間戳中的這種粗時間分辨率使得解碼后的 ASR 文本與說話人區分結果之間的匹配更容易出錯。

為了解決這個問題,我們提出了一種多尺度方法,這是一種通過從多段長度中提取說話人特征,然后將多尺度的結果結合起來來處理這種權衡的方法。多尺度技術在最流行的說話人方言化基準數據集上實現了最先進的精度。它已經是開源會話 AI 工具包 NVIDIA NeMo 的一部分。

圖 2 顯示了多尺度揚聲器分辨率的關鍵技術解決方案。

pYYBAGNE5wiASmKrAAKTpiqNJ4w141.png

圖 2.說話人表示的時間分辨率和保真度的相應折衷曲線

多尺度方法通過使用多尺度分割和從每個尺度提取說話人嵌入來實現。在圖 2 的左側,在多尺度分割方法中執行了四種不同的尺度。

在段關聯性計算過程中,將合并從最長刻度到最短刻度的所有信息,但只對最短的段范圍作出決策。當組合每個音階的特征時,每個音階權重在很大程度上影響說話人的區分性能。

基于神經模型的多尺度分解流水線

由于刻度權重在很大程度上決定了說話人區分系統的準確性,因此應設置刻度權重以使說話人的區分性能達到最大。

我們提出了一種稱為 multiscale diarization decoder ( MSDD )的新型多尺度二值化系統,該系統在每個時間步長動態確定每個尺度的重要性。

說話人日記系統依賴于被稱為說話人嵌入的音頻特征向量捕獲的說話人特征。通過神經模型提取說話人嵌入向量,從給定的音頻信號中生成稠密浮點數向量。

MSDD 從多個尺度中提取多個說話人嵌入向量,然后估計所需的尺度權重。基于估計的音階權重,生成揚聲器標簽。如果輸入信號被認為在某些尺度上具有更準確的信息,則所提出的系統在大尺度上的權重更大。

圖 3 顯示了提議的多尺度說話人分離系統的數據流。從音頻輸入中提取多尺度分段,并使用揚聲器嵌入提取器( TitaNet )生成用于多尺度音頻輸入的相應揚聲器嵌入向量。

poYBAGNE5wmAMGO8AAKQMyg0J0A993.png

圖 3.擬建 多尺度說話人識別系統 的數據流

提取的多尺度嵌入通過聚類算法進行處理,以向 MSDD 模塊提供初始化聚類結果。 MSDD 模塊使用簇平均說話人嵌入向量與輸入說話人嵌入式序列進行比較。估計每個步驟的磅秤權重,以衡量每個磅秤的重要性。

最后,訓練序列模型輸出每個說話人的說話人標簽概率。

MSDD 機制

Scale-weights.png

圖 4.根據 MSDD 中的 1-D CNN 計算出的秤重量

在圖 4 中, 1-D 濾波器 從輸入嵌入和集群平均嵌入捕獲上下文。

pYYBAGNE5xCATUlOAAURzFKy_fo156.png

圖 5.MSDD 的上下文向量

在圖 5 中,每個說話人和每個尺度的余弦相似性值由尺度權重加權,形成加權余弦相似向量。

通過動態計算每個尺度的權重,訓練神經網絡模型 MSDD 以利用多尺度方法。 MSDD 獲取初始聚類結果,并將提取的說話人嵌入與聚類平均說話人表示向量進行比較。

最重要的是,每個時間步長的每個尺度的權重是通過尺度權重機制確定的,其中尺度權重是通過應用于多尺度說話人嵌入輸入和簇平均嵌入的一維卷積神經網絡( CNN )計算得出的(圖 3 )。

估計的尺度權重應用于為每個說話人和每個尺度計算的余弦相似值。圖 5 顯示了通過對集群平均說話人嵌入和輸入說話人嵌入式之間計算出的余弦相似性(圖 4 )應用估計的比例權重來計算上下文向量的過程。

最后,每個步驟的每個上下文向量都被送入一個多層 LSTM 模型,該模型生成每個說話人的說話人存在概率。圖 6 顯示了 LSTM 模型和上下文向量輸入如何估計說話人標簽序列。

poYBAGNE5xGARmLYAADsY_Jbi1E774.png

圖 6.使用 LSTM 的序列建模

圖 6 ,使用 LSTM 的序列建模接受上下文向量輸入并生成說話人標簽。 MSDD 的輸出是兩個說話人在每個時間步存在說話人的概率值。

擬議的說話人日記系統旨在支持以下功能:

揚聲器數量靈活

重疊感知區分

預訓練說話人嵌入模型

揚聲器數量靈活

MSDD 使用兩兩推理來記錄與任意數量說話人的對話。例如,如果有四個說話人,則提取六對,并對 MSDD 的推理結果進行平均,以獲得四個說話人中每個人的結果。

重疊感知區分

MSDD 獨立估計每個步驟中兩個揚聲器的兩個揚聲器標簽的概率(圖 6 )。這可以在兩個揚聲器同時講話的情況下進行重疊檢測

預訓練說話人嵌入模型

MSDD 基于預處理嵌入提取器( TitaNet )模型。通過使用預處理說話人模型,可以使用從相對大量的單說話人語音數據中學習的神經網絡權重。

此外, MSDD 設計為使用經過預處理的說話人進行優化,以在特定領域的說話者日記數據集上微調整個說話人日記系統。

實驗結果和定量效益

提出的 MSDD 系統有幾個定量優勢:卓越的時間分辨率和提高的準確性。

卓越的時間分辨率

雖然單尺度聚類分解器在 1.5 秒的分段長度上表現出最佳性能,其中單位決策長度為 0.75 秒(半重疊),但提議的多尺度方法的單位決策長度是 0.25 秒。通過使用需要更多步驟和資源的更短移位長度,可以進一步提高時間分辨率。

圖 2 顯示了多尺度方法的概念和 0.5 秒的單位決策長度。由于揚聲器功能的保真度降低,僅將 0.5 秒的片段長度應用于單刻度分劃器會顯著降低分劃性能。

提高準確性

通過比較假設時間戳和地面真值時間戳來計算重化錯誤率( DER )。圖 7 顯示了多尺度二值化方法相對于最先進的單尺度聚類方法的量化性能。

pYYBAGNE5xKASPcxAAC_wa06R_w937.png

圖 7.先前最先進結果的定量評估 ( Landini et al. 2022 ) ,單尺度聚類法 ( prior work ) 和多尺度方法 ( proposed ) 關于三個不同的數據集

與單尺度聚類日記器相比,所提出的 MSDD 方法可以在兩個說話人數據集上減少多達 60% 的 DER 。

結論

擬議系統具有以下優點:

這是第一個應用多尺度加權概念和基于序列模型( LSTM )的說話人標簽估計的神經網絡架構。

加權方案集成在單個推理會話中,不需要像其他說話人日記化系統那樣融合多個日記化結果。

提出的多尺度分解系統能夠實現重疊感知的分解,這是傳統基于聚類的分解系統無法實現的。

因為解碼器基于基于聚類的初始化,所以分音系統可以處理靈活數量的說話人。這表明您可以在兩個說話人數據集上訓練建議的模型,然后使用它對兩個或更多說話人進行分類。

雖然具有前面提到的所有優點,但與之前公布的結果相比,所提出的方法顯示了優越的區分性能。

關于擬議系統,未來有兩個研究領域:

我們計劃通過實現基于短期窗口聚類的二值化解碼器來實現該系統的流媒體版本。

可以研究從說話人嵌入提取器到二值化解碼器的端到端優化,以提高說話人二值化性能。

關于作者

Taejin Park 在韓國首爾國立大學獲得電氣工程學士學位和電氣工程與計算機科學碩士學位。 2010 年和 2012 年。 2012 年,他加入韓國大田市電氣和電信研究所( ETRI ),擔任研究員。他畢業于南加州大學( USC ),獲得電氣工程博士學位和計算機科學碩士學位。 Taejin Park 目前在 NVIDIA 擔任應用科學家。他的研究興趣包括機器學習和專注于說話人日記化的語音信號處理。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1143

    瀏覽量

    40718
  • NVIDIA
    +關注

    關注

    14

    文章

    4978

    瀏覽量

    102988
收藏 人收藏

    評論

    相關推薦

    尺度變換

    請問在labview中如何實現信號的尺度變換啊
    發表于 05-05 15:47

    關于labview中使用連續小波變換后接強度圖得到時間-尺度圖,如何將尺度轉換為頻率

    在labview中使用連續小波變換得到時間-尺度圖,如何將尺度轉換為頻率?我在網上查了一下,說是尺度對應的實際頻率Fa=(Fc×fs)/a,其中Fa為實際頻率,Fc為小波中心頻率,fs為采樣頻率,a為
    發表于 05-12 17:39

    基于尺度相乘的Canny改進算法

    在Canny 算法框架下,對圖像進行多尺度濾波分析。定義尺度乘積函數為2 個不同尺度濾波器的響應乘積,由相鄰尺度近似性確定乘積后的幅值和相角,再選擇閾值剔除偽邊緣,由非極
    發表于 03-30 08:58 ?8次下載

    基于Kalman濾波的多尺度融合估計新算法

    將信號的多尺度分析方法與多傳感器數據融合技術相結合,基于某一尺度上給定的狀態模型和在不同尺度上擁有不同采樣率的多傳感器分布式動態系統,提出了一種新的基于Kalman 濾波
    發表于 06-22 13:15 ?21次下載

    單傳感器單模型動態系統多尺度分解與估計新算法

    本文將基于模型的動態系統分析方法與具有統計特性的多尺度信號變換方法相結合,基于某一尺度上給定的單傳感器單模型動態系統,建立起一個新的多尺度
    發表于 06-23 08:51 ?12次下載

    模糊多尺度邊緣檢測算法的研究

    為了解決多尺度邊緣檢測中有效檢出和精確定位的矛盾,本文提出了一種新的模糊多尺度邊緣檢測算法。該算法以圖像的小波分解為基礎,把圖像的多尺度信息描述為模糊矩陣,然
    發表于 07-08 08:37 ?10次下載

    基于小波分解的圖像融合方法及性能評價

    給出了一種新的基于小波多尺度分解的分層圖像融合方法. 其基本思想是先對源圖像進行小波多尺度分解; 其次, 按照融合規則, 采用基于區域特性量測的選擇及
    發表于 07-17 10:44 ?12次下載

    基于加權尺度張量子空間的人臉圖像特征提取方法_王仕民

    基于加權尺度張量子空間的人臉圖像特征提取方法_王仕民
    發表于 01-08 10:57 ?1次下載

    基于多尺度小波分解和時間序列解決風電場預測精度等問題

    針對目前風電場風速預測精度較低的問題,提出一種基于多尺度小波分解和時間序列法的混合風速預測模型,通過小波分解將風速非平穩時間序列分解為不同
    發表于 10-21 09:40 ?3次下載
    基于多<b class='flag-5'>尺度</b>小波<b class='flag-5'>分解</b>和時間序列解決風電場預測精度等問題

    基于引導濾波的Retinex多尺度分解色調映射算法

    傳統的低動態范圍顯示設備不能很好地表現高動態范圍圖像信息,針對這一問題,提出一種基于引導濾波的Retinex多尺度分解色調映射算法。該算法使用引導濾波對光照信息進行估計,將高
    發表于 11-21 15:38 ?14次下載
    基于引導濾波的Retinex多<b class='flag-5'>尺度</b><b class='flag-5'>分解</b>色調映射算法

    基于多尺度HOG的草圖檢索

    基于興趣點的多尺度HOG特征。利用圖像的多尺度HOG特征集生成視覺詞典,最終形成與視覺詞典相關的特征描述向量,通過相似度匹配實現草圖檢索。將該算法與單一
    發表于 12-04 09:56 ?0次下載

    如何使用多尺度和多任務卷積神經網絡實現人群計數

    描述人群信息,消除人群遮擋影響;其次通過構建多尺度卷積神經網絡解決人群尺度不一問題,以多任務學習機制同時估計密度圖及人群密度等級,解決人群分布不均問題;最后設計一種加權損失函數,提高人
    發表于 01-18 16:47 ?9次下載

    如何使用跨尺度代價聚合實現改進立體匹配算法

    針對現有的立體匹配算法在精度和速度上不可兼得的現狀,提出一種改進的跨尺度代價聚合立體匹配算法。通過強度和梯度算法計算匹配代價,利用引導濾波聚合匹配代價,采用跨尺度模型聚合各尺度的匹配代
    發表于 02-02 14:36 ?10次下載
    如何使用跨<b class='flag-5'>尺度</b>代價聚合<b class='flag-5'>實現</b>改進立體匹配算法

    結合多尺度邊緣保持分解與PCNN的圖像融合方法

    在醫學圖像融合過程中,傳統多尺度分析方法多采用線性濾波器,由于無法保留圖像邊緣特征導致分解階段的強邊緣處岀現模糊,從而產生光暈。為提髙融合圖像的視覺感知效果,通過結合多尺度邊緣保持
    發表于 03-23 15:54 ?16次下載
    結合多<b class='flag-5'>尺度</b>邊緣保持<b class='flag-5'>分解</b>與PCNN的圖像融合方法

    基于局部加權擬合的無人機遙感影像多尺度檢測

    基于局部加權擬合的無人機遙感影像多尺度檢測
    發表于 06-23 11:56 ?28次下載
    主站蜘蛛池模板: 国产免费内射又粗又爽密桃视频| 久久99re8热在线播放| 久久综合网久久综合| 无敌在线视频观看免费| 999国产高清在线精品| 韩国电影real在线观看完整版| 欧美人与禽zoz0性伦交app| 亚洲视频在线观看不卡| 动漫H片在线观看播放免费| 麻豆精品传媒卡一卡二传媒短视频 | 国产成人a在一区线观看高清| 久久久精品久久| 亚洲AV久久久噜噜噜久久| 成在线人免费视频| 免费一区二区三区久久| 伊人22222| 国产香蕉视频| 手机在线观看你懂的| MD传媒MD0021在线观看| 美国色情三级欧美三级纸匠情挑| 亚洲国产AV精品一区二区蜜芽| 大肚婆孕妇网| 欧美人xxxxx| 3344永久在线观看视频免费| 精品视频久久久久| 亚洲成人免费在线观看| 国产精品久久久久久免费字体| 人妖欧美一区二区三区四区| 97国产视频| 快播电影频道| 在教室伦流澡到高潮H免费视频| 韩国无遮羞禁动漫在线观看| 窝窝影院午夜看片毛片| 国产99久久久国产精品免费看| 青青草原伊人网| 9久高清在线不卡免费无吗视频| 老师我好爽再深一点老师好涨| 樱桃BT在线观看| 久久re6热在线视频| 妖精视频在线观看高清| 九九久久久2|