這兩天被子彈短信這款剛剛完成 1.5 億元融資的即時通訊應用刷屏了。許多朋友發了子彈短信的聯系人二維碼,還有一些朋友在問子彈短信是什么,到底有什么好?
子彈短信是什么?為什么這么火?
我們從產品分析的角度跟大家探討其中一個功能:子彈短信在發送語音信息時,不僅會把語音轉化成文字,還能同時把語音保留下來。
許多朋友問了:微信不是也能做到嗎?在此我想先描述一下微信語音的這個功能,再跟大家聊聊子彈短信軟件對這個功能的重新詮釋。
微信從爆發之初開始,立足于極致的用戶體驗。它的語音留言(也叫對講機)功能是早期吸引用戶和拉動流量的一個重要的來源。
這個功能是這樣的:用戶進入聊天目錄之后,打開某個與聯系人的對話,然后按下屏幕下方的麥克風按鈕,說一段話,然后松手發出。對方接受到的是一個條狀按鈕,點擊之后會播放收到的語音,語音時常不超過60秒。
語音的數據都經過高度壓縮,可以在犧牲音質的情況下非常好地節省流量。接收方和發送方都可以長按這個語音條,在彈出的選項中選擇”語音轉文字“,就可以把語音轉化成文字,通常需要30秒-2分鐘。
不知道大家有沒有這種經歷:收到了來自一個朋友的語音,有時候甚至是連著好幾條長達幾十秒的消息。因為當時沒有辦法花3-5分鐘全部聽完、或者碰巧在會議室、教室、圖書館或者工作崗位等需要安靜、不方便播放語音的場合,所以暫時擱置了。一整天過完,本來想在晚上再整理一下今天的消息,因為新的消息和群聊涌入,這個對話就埋沒在幾十條消息之下,就再也沒想起來要聽這條消息,徹底忘記了。
不少人都有過被長語音轟炸、刷屏的經歷
這個現象的本質原因是因為文字可以跳讀,而語音無法跳聽。或者用我們程序員的術語說,就是“線性訪問(Linear Access)” 或者 “非線性訪問(Non-Linear Access)”這兩個概念,也叫“非隨機訪問(NonRandom Access)”和“隨機訪問(Random Access)”。例如,磁帶就是線性、非隨機的訪問,而常見的內存就是非線性、隨機訪問。
文字可以進行跳讀,就可以瀏覽、略讀等快速讀取法。我們在小學語文學過的中心句歸納法、英文習作的文段首句要概括全段,以及咨詢領域大名鼎鼎的“麥肯錫方法——金字塔閱讀/寫作”等方法,都是基于文字的“非線性讀取”型。
因為有非線性訪問能力,所以才能在快速訪問過程中不影響對信息的處理,可以用樹狀邏輯結構來組織信息,從而為更高速的訪問信息創造了可能。在日常生活中就體現在,我寫這篇文章用了一個小時,而你讀完本文可能只需要3-5分鐘。
因為語音無法跳聽,帶來了很大的不便。有人說,微信不是也有語音轉換功能嗎?這并不一樣,因為微信的語音轉換是接受方做的,所以語音轉換需要接受方介入,需要接受方在瀏覽的時候中斷手上的事情,把各個語音逐一點擊長按選取轉換,造成了對接受方的“線性訪問”的額外負擔,無法略讀,因此降低了速度。
因為這種不便,導致了微信逐漸上有這么一個基本的禮儀:在條件允許的情況下,為了接受方的便利,最好用語音輸入法先把語音手動轉換成文字再發給對方。甚至還有朋友認為向長輩、客戶和上級發送語音是有失禮儀的。這固然是仁者見仁、智者見智的價值判斷,但是凸顯了發送語音對接受方的不便,已經是公認的一個問題。
子彈短信和之前錘子科技的“閃念膠囊”都采用語音轉換成文字同時保留原語音的功能。相對于微信的接收方負責語音轉換,子彈短信則是發送方進行文字轉化,于是語音到文字的轉化發生在發送端——信息源端。
這樣做有幾個好處:第一,校對的工作在信息的源頭處理,可以確保如果轉換錯誤太多,信息源(發送方)可以重新錄制和編輯校正。第二,讓接受方可以閱讀文字,在無法理解的少數錯誤情況下,可以聽取語音來理解和糾錯。第三,減少和避免了在群里發語音的時候,多個不同接受方都提出轉換文字的請求造成的云服務器后臺的額外負擔。另外,子彈短信的語音條是可以有進度條可供拖動的,方便快速跳過一部分語音。這樣做的好處是發送方可以很便捷的發送消息,只在必要的情況下校對修改,比打字便利。接受方依然可以快速讀取,比聽語音便利。
從此,再也不用擔心給別人發語音消息帶來的不便了。
子彈短信向前一小步,人工智能倒退一大步?
它推出的大背景,是語音識別能力的提高是近幾年是人工智能的一大進步之一。子彈短信保留了語音,方便聽者對語音內容進行校對。
為什么要校對呢?這是因為語音識別目前的轉化準確率還不是很高,特別是在環境嘈雜或者用詞比較不常見(行業術語、需要上下文信息加以判斷的內容等)的時候,準確率就更差了。如果能夠語音識別非常準確,那么根本不需要保留語音,只保留文字就夠了。所以有人說,語音保留的這個功能受到人們歡迎,宣示著人工智能的不完善,是一個倒退。
語音識別技術的挑戰,涉及到人工智能領域的語音特征提取、自然語言處理和對對話內容的背景知識(context)和常識(common sense)等知識圖譜的大量獲取、積累和篩選。有的語音輸入法號稱有97%的準確率,實際體驗是80~90%。
更重要的是,這里還有一個信息學領域的長尾現象在起作用:那些最不容易識別的部分,往往攜帶最重要的信息要素。
打個比方,有一個說法說“學會2000個英文單詞,就能看懂英文報紙90%的內容”。其實學了小學英語一看英文報紙,發現這里的 2000 個單詞,都是 the、a、of 之類不帶信息量的詞匯。
真正攜帶信息量的是那些不常出現的單詞。這些高級詞匯或者術語名詞不常出現,所以一出現必定是攜帶特定信息而來的。根據信息學里面的定義,信息量就是用來衡量一個信息可以降低系統狀態的不確定性的程度。如果一個詞匯常出現,因為每一篇文章都有這些詞匯,帶有詞匯對降低文章信息不確定性幫助不大,則其攜帶的增量信息就少了。
這也正是人工智能的最大挑戰。2010 年以來,人工智能進行了長足進步,語音和圖片識別的準確率大幅提升。然而人工智能在識別效果等方面的作用還有很大的發展空間,即使在一些已經多數情況超過人類的智能領域,人類比計算機依然有著適應力、容錯率強的優勢。
用電腦,還是用人腦?這成了人工智能工業革命以來的一個大問題。我們所說的聊天應用里面的識別語音就是這個問題在我們身邊的一個例子。究竟是發送者自己把文字打出來,還是讓機器幫我們識別出來,就成了“用人腦,還是用電腦”的選擇。
這是不僅是一個哲學問題、也是一個工程學問題。這個問題并不是一個新問題,與之類似的還有比如無人駕駛汽車里面人類的駕駛應該有多少,能否完全無人干預?超市的自動售貨或者結算程度要到什么程度,能否完全實現無人超市?
在二十世紀50-60年代,美蘇空間爭霸的時候,蘇聯的宇宙飛船設計里面長期是不提供手動駕駛能力的。因為蘇聯進行過幾十次的用“飛行犬”代替飛行員試飛,飛船已經可以實現遠程遙控或者自主飛行的駕駛能力,所以飛行員也不需要駕駛。
盡管后來加加林飛行的時候飛船加上了手動駕駛功能,在加加林遇險需要手動駕駛的時候,還需要打開密封的信封輸入密碼才能切換到駕駛。作為蘇聯當時最優秀的飛行員之一,加加林最后通過自己的手動駕駛救了自己一命,也拯救了一艘飛船和蘇聯的航空進程的一部分。
最近的幾十年,人工智的性能和效果越來越好,甚至在許多應用場景下比人類更可靠。但是至少在一部分最糟糕的情況下,人類能做一些計算機可能很長時間都做不到的事情——例如聊天中對語音的識別。在這個時候,完全拋棄計算機的智力能力(例如只用人工手動輸入),那么人類就無法享受科技帶來的便捷。而完全拋棄人工干預修正的能力,則會在機器出錯的關鍵時候無法修正。
子彈短信這個語音轉文字同時保留語音的,其背后的哲學理念其實就是既用電腦,也用人腦。看似是在應用人工智能方向這件事上退后了一步,其實是一個進步。(轉自載思考)
-
人工智能
+關注
關注
1791文章
47208瀏覽量
238290
原文標題:子彈短信向前一小步,人工智能倒退一大步?
文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論