自互聯(lián)網(wǎng)誕生以來,人與機器的信息交互方式就在不斷演進和發(fā)展。從早期單一的鼠標、鍵盤操作方式,再到如今以智能手機為代表的觸控交互。我們急切地想知道:下一代的人機交互方式是什么?
智能語音,賦予了機器可以像人類一樣“講話”并與人類“對話”的能力,也讓不少人看到了語音技術的巨大潛力。追溯起來,有關語音技術真正意義上的研究可以追溯到 1876 年貝爾電話的發(fā)明。
從 2009 年開始,借助機器學習領域深度學習研究的發(fā)展及大數(shù)據(jù)語料的積累,以語音識別為突出代表的語音技術得到了突飛猛進的發(fā)展。如將深度學習引入語音識別聲學模型訓練,使用基于 RBM 預訓練的多層神經(jīng)網(wǎng)絡,以提高聲學模型的準確性,包括蘋果公司的 Siri、谷歌公司的 Google Assistant 的面世曾一時引起了不小轟動。2015 年,亞馬遜 Amazon Echo 的誕生正式開啟了智能語音技術的競爭局面。從智能音箱到主打語音交互的智能設備,國內外巨頭們不惜輪番價格戰(zhàn)。
截止到目前,國內外的戰(zhàn)場上有阿里、騰訊、百度,也有谷歌、微軟、亞馬遜、Facebook,它們的介入導致不少創(chuàng)新公司展開了激烈競爭,也對未來十年產(chǎn)生了極其重要的影響。
在眾多語音技術中,語音識別、語音合成、聲紋識別、語音喚醒、端信號處理等語音技術伴隨著算法統(tǒng)計模型的迭代有了新的重大創(chuàng)新,也成為當前最具有挑戰(zhàn)性和應用場景的技術。
以聲紋識別為例,即通過對一種或多種語音信號的特征分析來判斷說話人身份的技術。由于任何兩個人的聲紋圖譜都有所差異,所以聲紋同樣具有如指紋生物特征一樣的唯一性。聲音不涉及隱私問題,麥克風和傳感器等相關設備成本低廉,傳輸帶寬窄,而語音又是一個形簡意豐的信號,口音、語種、情感等各種信息通過一段聲音便傳輸了出來。
清華大學語音和語言技術中心主任、得意音通董事長鄭方博士接受 CSDN 采訪時表示:“目前在聲紋識別這個領域,不同技術或產(chǎn)品提供商參差不齊、差異很大;與此同時,聲紋識別不再是單一強調準確性,而是變得更為成熟、完備和可用。”
不過相對來講,聲紋識別仍是一個應用相對較窄的領域。就目前來看,語音識別、語音合成的應用更為廣泛。
例如在年初舉辦的Google I/O 大會上,機器語音助手的一聲“嗯哼”震驚了全場,然后微軟小冰為知乎寫歌又刷了一波屏。我們才意識到,AI 語音正悄然從原來的“機械式語音”變成了“像人類一樣說話”的自然語言。
語音產(chǎn)業(yè)雖然可以由概念觸發(fā),但最終仍由技術驅動,打磨好技術和產(chǎn)品仍是第一要務。
出門問問 CTO 雷欣曾表示,“從技術上來講,機器學習、人工智能跟其他功能性的東西不太一樣,它非常強調學習的過程,訓練跟實際使用場景越匹配越好,做得越通用,就代表在某一個垂直領域做不到最優(yōu)。”
那么,隨著語音市場需求的爆發(fā),如何更好地通過智能技術解決聲學、語音、語義等各方面的問題,對于任何一位語音技術相關領域的工程師而言,將是未來長期時間內必然面臨的挑戰(zhàn)。
現(xiàn)在,CSDN 就為大家提供了這樣一個機會,讓你能夠聆聽頭部 AI 公司的最新技術實踐,并有機會與這些公司的資深技術人員面對面交流。
2018 年 11 月 8-9 日,由中國 IT 社區(qū) CSDN 與硅谷 AI 社區(qū) AICamp 聯(lián)合出品的 2018 AI 開發(fā)者大會(AI NEXTCon)將于北京召開。
本次大會設有“語音技術專場”,我們很榮幸邀請到在研究和工業(yè)界都極富盛名的一線技術專家們:清華大學語音和語言技術中心主任、得意音通董事長 鄭方,聲智科技創(chuàng)始人、董事長兼 CEO 陳孝良,出門問問 CTO 雷欣、云知聲董事長、CTO梁家恩,以及標貝科技聯(lián)合創(chuàng)始人&CTO 李秀林。
下面重磅介紹語音技術專題的講師團和他們的議題概要:
陳孝良:聲智科技創(chuàng)始人、董事長兼 CEO
演講議題:遠場語音交互技術與實踐
陳孝良,2017年度中關村高端領軍人才,計算機學會語音對話與聽覺專業(yè)組常務委員,中國聲學學會聲頻工程分會委員,中國人工智能和大數(shù)據(jù)專家委員,美國 AES/JASA會員。先后于北京航空航天大學和中國科學院大學(聲學研究所)獲得管理學學士和工學博士學位。
曾任職于金山軟件股份有限公司和中國科學院聲學研究所,歷任初級工程師、助理研究員、副研究員,兼任首屆信息化辦公室主任和中國科學院上海高等研究院客座副教授,主要參與海軍某重大型號艦艇、863、973、國家自然科學基金、中科院戰(zhàn)略先導等國家重要項目,共發(fā)表文章36篇,申請專利 35項。
鄭方:清華大學語音和語言技術中心主任、得意音通董事長
演講議題:聲紋識別技術及其應用現(xiàn)狀
鄭方,博士、教授、博士生導師,清華大學語音和語言技術中心主任;北京得意音通技術有限責任公司董事長;亞太區(qū)信號與信息處理聯(lián)合會副主席、中國中文信息學會語音專委會主任、中國計算機學會語音對話與聽覺專業(yè)組副主任。
鄭方博士從事語音語言處理和生物特征識別的研發(fā)近 30 年,是全國安防標委會人體生物特征識別應用分委會副主任委員、中文語音交互技術標準工作組聲紋識別專題組組長、全國信標委生物特征識別分委會委員等,是許多國家和行業(yè)標準的起草者。
梁家恩:云知聲董事長、CTO
演講議題:AIoT 智能交互技術與應用
梁家恩博士畢業(yè)于中國科技大學,獲中國科學院識別與智能系統(tǒng)專業(yè)博士學位,畢業(yè)后留校負責語音識別核心技術研發(fā)及其產(chǎn)業(yè)化,在國家863語音識別核心技術評測中多次獲第一名,在廣電、安全、教育等領域實現(xiàn)產(chǎn)業(yè)化應用。
2012 年,由梁家恩博士主導創(chuàng)立人工智能公司云知聲,并率先在國內實現(xiàn)深度學習和5米遠講識別技術的產(chǎn)業(yè)化,在業(yè)內首次提出的“云端芯”一體化解決方案已經(jīng)在家居、車載、醫(yī)療、教育等領域規(guī)模化落地。在他和團隊的共同努力下,云知聲先后被福布斯評為“中國成長最快科技企業(yè)”、科技部評為“中國獨角獸企業(yè)”。2013 年底,梁家恩博士出任云知聲 CTO,負責技術領域。
李秀林:標貝科技聯(lián)合創(chuàng)始人&CTO
演講議題:標貝科技的語音超市實踐——助力智能產(chǎn)品人性化
李秀林,中國科學院博士,15 年語音相關技術研發(fā)和學術研究,申請專利三十余項,在國內外語音界有很高的知名度;曾帶領團隊獲得百度百萬美元大獎。2006 年— 2013 年,松下研發(fā)中心高級研發(fā)經(jīng)理;2013 年— 2016 年,百度語音合成技術負責人;2016 年—2018 年,滴滴研究院語音團隊負責人&首席算法工程師;2018年3月份加盟標貝科技,作為聯(lián)合創(chuàng)始人兼 CTO。
雷欣:出門問問(Mobvoi)CTO
演講議題:語音交互的軟硬結合
雷欣,人工智能專家,在人工智能尤其是語音識別領域至今已有十多年研究及從業(yè)經(jīng)驗。2006 年,雷欣獲得美國華盛頓大學電子工程博士后,加入了微軟總部任軟件設計工程師及 Speech Scientist,負責開發(fā)微軟語音識別引擎內的說話人自適應模塊;后加入斯坦福研究所(SRI)任研究工程師,領導開發(fā)了SRI 2008 年大規(guī)模中文語音識別系統(tǒng);隨后進入 Google 研究院任 Staff Research Scientist,領導開發(fā) Google 基于深度神經(jīng)網(wǎng)絡的離線語音識別系統(tǒng)。
目前,雷欣所帶領的出門問問 AI 團隊,正進行人工智能落地在生活場景(可穿戴、車載、家居)上的研究開發(fā)。
除了語音技術專題之外,我們還為大家準備了“自然語言處理”、“機器學習工具”、“數(shù)據(jù)分析”、“機器學習”、“計算機視覺”、“知識圖譜”等技術專題,以及“智慧金融”、“智能駕駛”、“智慧醫(yī)療”等行業(yè)峰會。大會完整日程以及嘉賓議題請查看下方海報。
-
人機交互
+關注
關注
12文章
1206瀏覽量
55382 -
智能手機
+關注
關注
66文章
18477瀏覽量
180111 -
機器學習
+關注
關注
66文章
8406瀏覽量
132565
原文標題:解放雙手,人機交互真的只需要一張嘴嗎?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論