美光云計算高級業務發展經理 Eric Booth 90 歲的祖母患有嚴重的聽力障礙,即使佩戴助聽器也很難聽清別人在說什么。Eric 注意到,她需要湊近講話者,識別他們的唇語,努力理解他們的話語。而當多人進行交談時,她常常會感到迷茫。
Eric 萌生了一個想法:
為何不用祖母的智能手機幫她來“傾聽”呢?
他打開手機的記事簿功能,按下麥克風按鈕,向她展示了手機如何將他的話轉錄成屏幕上的文字。
他表示:“我的祖母非常興奮,笑得合不攏嘴,她現在可以參與到從前無法進行的對話中。”這也讓我們看到了該技術如何切實改善了言語、語言和聽力障礙者的生活質量。”
將語音轉化成文本的技術看似簡單,卻很容易被忽視。事實上,它的演變過程十分復雜,歷經幾十年的發展才達到現有水平。
快速發展的技術
距第一臺語音識別 (SR) 設備 Audrey 的問世已經過了很久。1962 年,貝爾實驗室推出了 Audrey,當時這臺約 2 米高的計算機只能識別個位數字,且無法輸出文字。它會根據說出的數字閃爍相應次數的燈光,例如聽到“9”時閃爍九次。
甚至幾年前,SR 技術還不方便用戶使用:它難以準確識別聲音,無法過濾即使最輕微的環境聲,轉錄速度也很慢。彼時,SR 技術想真正融入日常生活,還有很長的路要走。
如今,人工智能、虛擬助理技術、5G 蜂窩技術與內存、存儲和計算機處理技術的進步使 SR 成為可能,幫助我們實現許多從前做不到的事情:比如用陌生的語言進行交流,即時轉錄長錄音,只通過語音就能訂購我們想要的任何東西并享受送貨上門。
生成式 AI 正進一步提升該技術。語音識別將音頻轉化為文字,而生成式 AI 則對文字進行處理,讓用戶真正理解其含義。SR 技術不再僅聚焦于識別說了什么?而是專注于理解這些話是什么意思?是在提問嗎?如果是,答案是什么?
這種類型的機器學習能根據用戶提示或對話創建文本、視頻、圖像、計算機代碼和其他內容。以語音識別為基礎的生成式 AI 將學習提升到了全新水平,賦能 SR 技術以進一步幫助言語和聽力障礙人士。
盡管靈活的語音識別可能會接收到不符合常規語音模式的語言,但生成式 AI 和自然語言處理 (NLP) 能理解并將其轉化為相關建議。這一過程使全面且高度個性化的語言治療方案成為可能。
Eric 的女兒曾接受語言治療,他深知其所需的時間和精力。這一經歷促使他攻讀位于愛達荷州的博伊西州立大學的博士課程,以研究利用技術幫助語言障礙患兒的方法。
Eric 表示:“在語言治療中,過去我們認為治療師會給患者提供閱讀內容并利用工具對他們的發音和吐字進行評分。但借助生成式 AI,我們能用工具來管理整個過程。生成式 AI 擅長識別各種語言模式,因此能更好地判斷出患者是否經常發錯 O 音。”
大語言模型
不久前,語音識別還需依賴大型內存服務器,并將收集到的全部數據上傳云端。而如今,語音識別功能已內置在手機中,具有更快的計算速度和更大的內存,過去需要數據中心處理的流程現在能夠直接在手機上進行。
AI 模型訓練不僅能生成更復雜的模型,還可以將這些模型簡化,從而在手機或個人電腦等終端設備上運行。很快,生成式 AI 程序就會出現在您的手機或其他終端設備上。隨著大語言模型的快速發展,他們難以在云環境之外進行訓練。然而,一旦模型通過訓練并進行簡化后,就能轉移到終端設備上。
過去幾年,大語言模型取得了巨大進步。Eric 表示:“大語言模型擁有數萬億個參數,是實現生成式 AI 聊天機器人和高級搜索功能的關鍵。幾年前,萬億級的參數量難以想象,我們根本無法處理,而如今,這一數字已是基準線。當然,模型越大,就越智能,這正是拉動計算和內存需求的因素。”
NLP 和生成式 AI 需要大量大語言模型訓練,其所使用的參數越多,所需的內存容量就越大(見下圖)。
為了處理這些不斷擴大的模型,遷移學習越來越流行。該思路是在一個特定的環境中使用大量數據訓練模型,然后對該模型的參數進行微調以適應另一個具有較小數據集的環境。假設大的數據集是成人語音,小的數據集是兒童語音,遷移學習可以提供一個精準匹配兩個數據集的模型。而如果您想訓練的模型是以成人語音為主,同時包括少量的兒童語音,那么準確性就會降低。在一種環境中進行大數據集訓練,然后將數據微調并轉移到另一個具有較少數據的環境中,這一組合非常有效。Eric 在他的論文《評估和改進兒童定向自動語音識別》中闡釋了關于這方面的進展。
預訓練神經網絡遵循了同樣的思路,在一個任務或數據集上訓練模型,然后將這些參數轉移到另一個任務或數據集上進行不同的模型訓練。以 ChatGPT 為例,(ChatGPT 中的“P”代表預訓練),它通過大量互聯網對話數據進行了預訓練,因此能夠回答常規問題,并能根據提供給它的額外語境來更好地適應當前對話。這為該模型發展提供了有利條件,避免了從零開始,因為您只需少量數據就能創建強大的模型。
如今,許多 AI 研究人員都專注于生成式 AI。這不僅源于 ChatGPT 所帶動的熱潮,還因為生成式 AI 在醫療保健和其他行業具有潛在的深遠影響。
為所需之人提供幫助
根據美國言語語言聽力協會(American Speech-Language-Hearing Association)的數據,美國有超過 100 萬兒童在學校接受專業的言語和語言障礙幫助。Eric 表示,總體而言,8% 的兒童存在語言發育遲緩或障礙問題。
“您當前無法在市場上接觸到兒童言語治療技術。因為該技術尚未實現,但它尤為重要,尤其對低收入家庭的患兒而言。”Eric 表示,對兒童進行治療評估至少需要兩小時,但美國政府可能只會承擔 30 分鐘的費用。
“電腦可以承擔很多工作,為治療師騰出時間來做更長遠的規劃和更有針對性的治療。”
學習障礙資源基金會 (Learning Disabilities Resources Foundation)認為,患有學習障礙(如閱讀障礙)的兒童也可受益于語音轉錄文字技術。正如巧妙地利用語音轉錄文字技術幫助 Eric 的祖母參與到交談中,這項關鍵 AI 技術還有大量尚待開發和探索的應用空間。
賦能生成式AI和SR技術發展
如今,美光正在開發密度更高、速度更快的內存和存儲,助力手機取代云端直接進行語言處理,以節省數據傳輸時間。
為了提升終端設備的性能,美光低功耗 LPDDR5X內存具有雙倍數據傳輸速率,可實現功耗與性能的平衡和流暢的用戶體驗。LPDDR5X 移動內存采用了業界先進技術,峰值速度可達 8.533 GB/秒,較上一代產品提高 33%。LPDDR5X 的高速與高帶寬對于實現高性能終端生成式 AI 至關重要。
借助生成式 AI,SR 技術的處理速度和準確度逐漸接近人腦,但距離真正實現目標還存在較大困難,尤其是在處理兒童語言和發音問題,以及幫助聽力或語言障礙者。Eric 正在進行的研究能夠切實改善生成式 AI 技術,豐富全人類生活體驗。
生成式 AI 通過深度學習正在將語音轉化為更加自然的文字。過去,AI 模型擅長挖掘大量數據、識別模式、診斷并確定原因;如今,生成式 AI 能夠“讀取”文字,并通過數據推斷人類交流的語境。本質上,生成式 AI 是在“訓練”自己。為了做到這一點,AI 需要能同時訪問并獲取大量數據,并從海量內存中提取數據以做出適當的響應。美光正在積極推動這些技術進步。
美光高密度 DDR5 DRAM 模塊和 TB 級 SSD 存儲可提供超高速度與超高帶寬,滿足在數據中心訓練生成式 AI 模型的需求。最新發布的第二代 HBM3 (HBM3E)進一步提升了性能,容量擴大超過 50% ,帶寬超過 1.2 TB/秒,可將百萬億級參數的 AI 模型訓練時間縮短 30% 以上。隨著這些技術的速度和準確度不斷提高,未來,更多的語言障礙人士將能進行正常的溝通,發出自己的聲音。
Eric 預測:“在不久的將來,我們將看到生成式 AI 和 SR 技術在性能上取得飛躍式發展。我很高興能看到這項技術不斷豐富全人類生活體驗。”
-
內存
+關注
關注
8文章
3048瀏覽量
74209 -
AI
+關注
關注
87文章
31463瀏覽量
269859 -
美光
+關注
關注
5文章
716瀏覽量
51453
原文標題:美光高性能內存與存儲,推動 AI 豐富殘障人士生活體驗
文章出處:【微信號:gh_195c6bf0b140,微信公眾號:Micron美光科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論