機器學習技術(shù)提高讀唇準確性的發(fā)展前景光廣大
大?。?/span>0.6 MB 人氣: 2017-10-11 需要積分:1
標簽:機器學習(129859)
對于人類讀唇者來說,在剝離音頻線索的情況下,語境是破譯文字的關(guān)鍵。但是英國東英吉利大學(UEA)開發(fā)的一種技術(shù)模型可以比人類讀唇者以更高的準確性來解釋嘴里說出的詞語,這要歸功于使用了機器學習技術(shù)將聲音從視覺方面進行分類。而且算法并不需要知道對話的語境就能夠識別出你使用的詞語。然而此模型仍然處于研究階段,對于自動將視覺線索轉(zhuǎn)換成準確話語技術(shù)方面還有許多潛在應(yīng)用——無論是在幫助有聽覺障礙的人方面,還是在使用額外語音數(shù)據(jù)來增加無聲視頻片段方面——甚至是在比賽高潮找到足球運動員說的最多的詞……
這種技術(shù)也可以在移動或視頻通話語音質(zhì)量不佳的情況下,作為后備使用。或是自動化字幕。或者是在帶有攝像頭的手機上啟動”語音”助手,你不需要真正發(fā)聲,只需用唇語命令(這會有多么酷?)。肯定地說,機器驅(qū)動的讀唇應(yīng)用數(shù)量浩如煙海。因此,只要研究人員可以發(fā)掘它的優(yōu)勢,那么它未來的潛力將不可限量。
開發(fā)這套讀唇機器學習模型的UEA團隊正在使用純視覺輸入——那么就可以在沒有任何音頻輸入的情況下,通過嘴唇發(fā)聲時的形狀來訓練模型。
Helen Bear博士表示,“我們正在尋找視覺線索,判斷它們是如何變化的?我們知道它們因人的不同而不同。人們是如何使用它們的?又有什么區(qū)別?以及我們是否能夠在我們的模型中使用這種特殊訓練方法中的知識?我們可以這么做”。她在UEA計算機科學學院教授Richard Harvey的指導下,在她的博士論文中對視覺語音識別技術(shù)模型進行了論述。
她補充說,“讀唇機器背后的理念是,機器本身沒有情感,它不介意理解是否正確或錯誤——它只是努力學習。所以在論文中……我已經(jīng)展示了如何使用這些視覺困惑做出更好的音素分類器。所以這是種新的訓練方法”。
Bear博士注意到,目前許多讀唇方面的研究使用音頻和視覺線索來提高機器讀唇的準確性。因此UEA模型脫穎而出,它只關(guān)注視覺講話,想盡一切辦法提高機器驅(qū)動的嘴唇閱讀。
“我們假裝根本沒有音頻信號”,她說,“我們的想法是,這個系統(tǒng)可以只能讀唇,或者它可以用在視聽系統(tǒng)中,希望在某天視聽系統(tǒng)能使用到,當重新獲得音頻信號之前,只處理視覺信號,比如,如果你在Skype上與人視頻,突然音頻信號丟失了,而你仍然可以看到對方?!?br /> 對于一般讀唇技術(shù)的核心挑戰(zhàn)是——至少對于人類肉眼來說——比起人類發(fā)出的聲音來說,視覺線索要少。容易混淆的具有相似嘴型的發(fā)音有‘/p/’,‘/b/’,和‘/m/’,它們都會對人類讀唇者造成困難。然而UEA的視覺語音模型可以更好的區(qū)分這些視覺上相似的唇形。
Bear博士表示,“‘/p/’,‘/b/’,和‘/m/’之間的唇形是有些區(qū)別的,但是人類很難發(fā)現(xiàn),不過如果使用機器的話,我們可以發(fā)現(xiàn)的確有不同之處,我們的識別器在這方面效果更佳?!?br /> 在討論訓練技巧時,她說,“如果我試圖建立一個只識別/p/聲音的分類器,我會做的是,首先在所有看上去相同的聲音上訓練。然后我們通過針對/p/聲音做更多的迭代訓練來改善訓練”。
她補充道,“我們實際上是在學習、理解這些視覺單元的意義,以及它們?nèi)绾胃鶕?jù)不同的人而改變,我們已經(jīng)使用這種知識來改變傳統(tǒng)的讀唇系統(tǒng),并使之更好。這是很顯著的進步”。
Bear博士表示,“更好”仍然是相對而言——讀唇的準確率一直很低。模型識別一個詞語的準確率為10%到20%(即正確識別一個詞),盡管她強調(diào)比猜還是要高許多。她補充道,在一句話中,它顯然更容易從全部文字里區(qū)分感官。
她對TechCrunch說,“說實話,我們不能100%肯定(這為什么起作用),我們只知道使用特殊的分類器,如果我們用正確的方式、正確的數(shù)據(jù)來訓練它們,它們不會有任何偏差”。
“這里復(fù)雜的是理解為什么視覺語音復(fù)雜,這一問題比回答為什么我們可以使用機器學習得到更好結(jié)果要困難的多。我們知道機器學習一直在演變,我們會得到不同類型的分類器……但詢問它們在學習什么,視覺語音如何,它差異多大,以及我們?nèi)绾慰刂七@些變量,這些都是難以回答的問題?!?br /> 當被問及距這項研究在應(yīng)用程序中商業(yè)化還有多遠時,她打趣道:“如果我在谷歌工作可能會很快!”,把這項研究商業(yè)化可能需要幾年時間。
他說,“我們?nèi)匀贿€有東西需要學習和理解”,這項研究就像是連鎖的語言模型,機器需要具備這些來熟練準確地從推特中抓取數(shù)據(jù),這就會是讀唇的轉(zhuǎn)折點。
另外值得一提的是,UEA模型只處理英語。因此,在應(yīng)用程序中使用讀唇技術(shù)所面臨的挑戰(zhàn)還是不容低估的。
UEA可以與其他語言預(yù)測技術(shù)結(jié)合使用嗎?——比如基于下個詞語預(yù)測技術(shù)的機器學習——以此進一步增強讀唇能力?!斑@正是我愿意做的”,她說,“往我們的模型中加入一些健壯的東西是非常棒的,但這也需要更多的時間。它不會馬上推出”。
Bear博士將在本周五于上海舉行的國際聲學、語音和信號處理會議上展示她的研究成果,她的論文——Decoding visemes: Improving machine lip-reading ——也將公布。這項研究來自于一個為期三年的項目,由工程和物理科學研究理事會資助。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%