亚洲一区在线播放,色小妞,最新一本大道香蕉综合

早在大語言模型如GPT-3.5等的興起和被日漸廣泛的采用之前，教育行業(yè)已經(jīng)在AI輔助教學(xué)領(lǐng)域有過各種各樣的嘗試。在教育行業(yè)，人工智能技術(shù)的采用幫助教育行業(yè)更好地實現(xiàn)教學(xué)目標，提高教學(xué)質(zhì)量、學(xué)習(xí)效率、學(xué)習(xí)體驗、學(xué)習(xí)成果。例如，人工智能技術(shù)可以幫助教師更好地管理課堂，更好地識別學(xué)生的學(xué)習(xí)需求，更好地提供個性化的學(xué)習(xí)內(nèi)容，更好地評估學(xué)生的學(xué)習(xí)成果，更好地提供學(xué)習(xí)支持。此外，人工智能技術(shù)還可以幫助教育行業(yè)更好地實現(xiàn)自動化，提高教育行業(yè)的效率和效果。總之，人工智能技術(shù)在教育行業(yè)的采用將會帶來巨大的變化，為教育行業(yè)帶來更多的發(fā)展機遇。

亞馬遜云科技也一直致力于提供更方便快捷，功能更強大的AI服務(wù)來支持教育行業(yè)客戶的技術(shù)創(chuàng)新和業(yè)務(wù)創(chuàng)新。特別是Amazon Transcribe、Amazon Polly、Amazon Textract、Amazon Translate、Amazon Personalize、Amazon Rekognition、Amazon SageMaker等產(chǎn)品分別從自然語言處理、圖形圖像處理、模型研發(fā)部署等方面為教育行業(yè)提供了強有力的技術(shù)支持。

本文結(jié)合Amazon Transcribe、Amazon Polly，以及OpenAI的大語言模型和D-ID.com公司的2D數(shù)字人生成技術(shù)，介紹實現(xiàn)一個演示用的可語音對話的智能2D數(shù)字人設(shè)計的服務(wù)和具體的實現(xiàn)過程。

方案架構(gòu)

為了能在一個統(tǒng)一的用戶界面呈現(xiàn)語音輸入、語音輸出，以及2D數(shù)字人視頻播放的整體效果，本方案選擇Gradio框架實現(xiàn)WebUI的功能。呈現(xiàn)的WebUI如下：

用戶可以通過直接輸入文字內(nèi)容或者使用麥克風(fēng)輸入語音，文字內(nèi)容會使用Langchain附加上一定的上下文后送給OpenAI的GPT接口調(diào)用，語音輸入會先調(diào)用Amazon Transcribe服務(wù)進行語音到文字的轉(zhuǎn)換。經(jīng)過GPT接口返回的文字內(nèi)容，會調(diào)用AWS Polly形成語音文件，同時語音文件會作為D-ID.com提供的API渲染出2D的動態(tài)視頻在前端自動展示和播放。

本方案中語音輸入，語音輸出，文字響應(yīng)生成，以及數(shù)字人視頻生成的功能都可以做自由的組合和替換。特別是對于OpenAI接口的調(diào)用可以置換為對自部署的大語言模型的調(diào)用，同時2D數(shù)字人視頻的生成也可以考慮其他類似服務(wù)，如Heygen等。

具體實現(xiàn)

語音輸入部分

Amazon Transcribe支持實時轉(zhuǎn)錄語音（流式傳輸），也可以轉(zhuǎn)錄Amazon S3存儲桶中的語音文件（批處理）。Transcribe支持多達幾十種的不同國家的語言。

Transcribe的實時轉(zhuǎn)錄能力非常的強大，處理流數(shù)據(jù)的同時，不斷的利用之前的上下文進行結(jié)果的實時矯正，可以通過下面這個截圖看到Transcribe實時轉(zhuǎn)錄輸出的效果：

應(yīng)答內(nèi)容生成部分

在本方案里，應(yīng)答內(nèi)容的生成借助Langchain這個開源框架，調(diào)用基于OpenAI的coversation接口，同時使用memory庫對對話的上下文做了5輪保存。在實際的客戶場景里，可以考慮更豐富的方式來規(guī)范回復(fù)的內(nèi)容的有效性和客觀性。

比如可以使用Langchain的對話模版來對大模型的角色進行預(yù)設(shè)，或者使用Amazon Kendra，Amazon Opensearch這樣的知識庫構(gòu)建和檢索引擎，來進一步限制大模型應(yīng)答的內(nèi)容范圍。

語音輸出部分

Amazon Polly可以將文本轉(zhuǎn)化為逼真的語音。它支持多種語言并且包含各種逼真的聲音模擬，也包含中文普通話語音的模擬。

可以構(gòu)建支持語音并能用于各種位置的應(yīng)用程序，并選擇適合客戶的聲音。Amazon Polly也支持語音合成標記語言（SSML），它是一種基于XML的W3C標準標記語言，適用于語音合成應(yīng)用程序，且支持使用通用SSML標簽進行斷句、重音和語調(diào)。自定義Amazon SSML標簽提供了獨特的選項，例如，能夠以新聞播音員說話風(fēng)格發(fā)出某些聲音。這種靈活性能夠幫助您創(chuàng)建逼真的語音，從而吸引并維持聽眾的注意力。

在本方案中，可以使用Polly的實時語音生成接口，使用了中文普通話發(fā)音的VoiceID：Zhiyu，同時對特定的字符的發(fā)音做了定制化，這也是Polly一個非常有用的功能（Lexion）。

2D數(shù)字人視頻的生成部分

這里可以使用一個外部第三方的SaaS服務(wù)。該服務(wù)由D-ID.com公司提供，對應(yīng)的API可以直接接收文本輸入和一張人臉圖片來生成對應(yīng)的動態(tài)播報視頻，也可以接受語音文件加圖片作為輸入。

當你輸入文本的時候，該API接口可以選擇制定AWS的Polly服務(wù)中的不同的Voice ID來自動為你合成語音。

在本方案中，想體現(xiàn)中文的語音輸出的效果，但是D-ID的API接口中暫時無法直接為中文文本指定中文的Voice ID。所以選擇了先用Polly的API生成語音，再把語音和圖片傳送給D-ID的接口生成視頻。

總結(jié)

今年是AIGC爆發(fā)的一年，也是教育行業(yè)所在的客戶看到行業(yè)拐點的一年。在這個關(guān)鍵的歷史性節(jié)點上，亞馬遜云科技愿意和客戶一起面對這些新的機會和挑戰(zhàn)，以客戶的需求為導(dǎo)向，幫助客戶抓住AI浪潮帶來的紅利。

目前除了本文展示的2D數(shù)字人的方案，亞馬遜云科技也可以幫助客戶提供基于3D數(shù)字人或者其他3D數(shù)字形象的直播，互動等方案。同時亞馬遜云科技也會引入更多的技術(shù)合作伙伴如躍遷引擎來豐富整個數(shù)字人，數(shù)字形象直播、點播、互動等場景的解決方案，助力更多的教育行業(yè)客戶加速AI技術(shù)的采用和落地。

原發(fā)標題：近實時智能應(yīng)答 2D 數(shù)字人搭建

審核編輯黃宇

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
33914

瀏覽量
274814
人工智能

人工智能

+關(guān)注

關(guān)注
1804

文章
48568

瀏覽量
245802
亞馬遜

亞馬遜

+關(guān)注

關(guān)注
8

文章
2690

瀏覽量
84393
數(shù)字人

數(shù)字人

+關(guān)注

關(guān)注
0

文章
151

瀏覽量
2228

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

亞馬遜云科技智能2D數(shù)字人方案為教育行業(yè)賦能

評論

電子發(fā)燒友