背景
本篇將為大家闡述亞馬遜云科技大語言模型下沉到具體行業進行場景以及實施案例的介紹,是亞馬遜云科技官方《基于智能搜索和大模型打造企業下一代知識庫》系列的第四篇博客。感興趣的小伙伴可以進入官網深入了解其核心組件、快速部署指南以及LangChain集成及其在電商的應用場景。
制造行業:裝備維保知識庫問答和售后客服
金融行業:智能客服和智能報告生成
教育行業:面向學生和面向學校的智能問答機器人
醫療行業:醫療論文論文信息檢索
方案架構圖如下:
通用場景:基于企業內部知識庫例如IT/HR信息的問答
在該場景下,企業可利用IT手冊,員工手冊,銷售手冊等構建企業知識庫。使用人員為所有的內部員工,幫助員工提升信息獲取的效率,從而提升工作效率。
提問與員工手冊相關的問題,搜索引擎會首先獲得相關的預料,然后使用LLM對預料進行信息抽取,過濾和總結,然后直接給出問題答案。
例1:查詢年假時間
例2:查詢上下班時間
制造行業
行業場景
制造行業中相對來說是一個傳統的行業,因為歷史積累,擁有眾多的原始文檔,但是由于大部分企業處于數字化轉型的初期,無法有效利用這些文檔。因此,其主要訴求為建立一個企業級的知識庫平臺,利用散落各處的文檔提升企業運行效率。例如隨著制造業的發展,企業對裝備的維護和保養變得更加重視。裝備維保知識庫問答系統可以提供實時的維護指導,幫助操作員和維修人員解決各種故障和技術問題。售后客服對于提供優質的客戶支持至關重要。裝備的故障和技術問題可能會對客戶的生產線造成重大影響,因此快速響應和解決問題是必要的。
客戶選擇此方案出于三個考慮:
制造行業中,許多文檔描述都是比較專業的知識,所有的描述都需要嚴謹,因此大語言模型的幻覺問題會導致內容輸出不可信,反而出現更多不可控的風險;
所有的回答必須精確到具體出處,避免大語言模型生成內容出現偏差;
存在大量敏感數據,包括維保記錄,機械設計圖紙等,使用第三方API調用的大語言模型有可能存在數據泄漏,造成違規和安全隱患。
典型的使用場景為裝備維保知識庫問答和售后客服。
行業場景實踐
裝備維保知識庫問答和售后客服
在該場景下,企業可利用歷史維保記錄,例如故障現象、故障原因、維修手冊、用戶手冊等構建企業知識庫。使用人員為一線維保工程師或者售后客服,結合檢索和大語言模型,可以直接針對用戶的故障現象,給出具體的原因分析。
例1:裝備維保場景——提問某零件生銹的原因(中文場景)
例2:產品售后場景-提問某指示燈狀態意義(英文場景)
金融行業
行業場景
金融行業分為銀行、保險、資本市場以及支付多個子垂直行業,基于智能搜索和大模型的知識庫,銀行可以快速準確地回答客戶的各類問題,提供個性化的金融產品推薦和投資建議;保險機構可以賦能用戶快速找到適合自己需求的保險產品,并了解保險條款和理賠流程;資本市場成員可以借助其幫助投資者快速獲取和理解市場動態、公司財務數據和分析報告等信息;支付機構則建立智能客服系統,幫助用戶快速解決支付相關的問題。
客戶選擇此方案出于三個考慮:
金融行業中所有的描述都需要嚴謹,數據需要精確,因此大語言模型的幻覺問題會導致內容輸出不可信,嚴重則損壞企業形象以及客戶流失;
金融機構(如銀行、保險)會提供相關的咨詢服務,所涉及到的回復必須精確到具體出處,尤其法律法規相關內容需要和法規文件完全一致;
金融數據存在大量敏感數據,包括交易、企業營收、內部資產以及個人信息,使用公開的大語言模型有可能在不經意間泄漏相關數據,造成違規和安全隱患。
典型的使用場景為智能客服與智能報告生成。
行業場景實踐
智能客服
智能客服在金融行業中具有廣泛的應用和場景,包括:
產品和服務咨詢:幫助客戶查詢和了解金融機構提供的各類產品和服務。通過自然語言處理和機器學習技術,智能客服可以回答關于金融產品特性、利率、費用等方面的問題,為客戶提供個性化的產品咨詢。
交易指導和操作支持:智能客服可以指導客戶進行各類金融交易操作,如轉賬、存款、理財產品購買等。客戶可以通過與智能客服進行交互,獲取操作步驟和操作指導,提高交易的便捷性和準確性。
投訴和問題解決:智能客服可以處理客戶的投訴和問題,并提供相應的解決方案。通過對客戶問題的分析和分類,智能客服可以快速回答常見問題,同時也可以轉接給人工客服處理更復雜的問題,提高問題解決的效率和客戶滿意度。
例 1:金融產品的咨詢
通過提問(如下例)關于金融產品營收數據的分析,搜索引擎會搜索獲得相關語料,并作為大語言模型的輸入,進行匯總和總結。
例2:金融專業知識的咨詢
對于某些金融知識(如GDR,存托憑證等)存在專業性強、不易理解的特點,傳統客服無法快速理解、整理并得出相關的結論來回應該類型的客戶咨詢,造成用戶體驗差。同時對于專業知識的回應,需要準確且嚴謹的材料中獲得,因此參考資料的出處也是本場景重要的指標。使用智能搜索和大模型方案可以有效提高內容總結的效果,同時列舉出清晰的數據出處,精確到文檔的句和段。
智能報告生成
金融行業中尤其是資本市場,無論是券商還是二級市場機構分析員,均需要對大量的數據和報告進行閱讀和分析,同時需要對外輸出各類型的報告,如行研、個股分析、市場分析和展望、投資建議分析等。他們會遇到以下痛點:
時間壓力:分析員通常需要在短時間內完成大量的報告撰寫工作,以滿足客戶和市場對即時信息的需求。這給他們帶來了時間上的壓力,可能導致報告的質量和深度受到影響。
數據整理和處理:撰寫報告需要分析員從各種來源收集、整理和處理大量的市場數據、財務數據和新聞資訊等信息。手動處理和整理這些數據可能耗費大量時間和精力,并且容易出現錯誤。
分析和解釋復雜數據:分析員需要深入理解和解釋復雜的金融數據、財務指標和市場趨勢。這需要投入大量的研究和分析工作,以便提供準確、全面的分析和評估。
信息獲取和更新:分析員需要不斷跟蹤和獲取最新的市場信息、行業動態和公司公告等。信息的獲取和更新可能比較困難和耗時,尤其是當信息來源龐雜且分散時。
語言表達和報告風格:撰寫高質量的報告需要良好的語言表達能力和清晰的報告風格。然而,分析員可能面臨語言表達的挑戰,以及如何將復雜的金融概念和數據以簡潔明了的方式傳達給讀者。
通過使用智能搜索和大模型方案,可以在資訊整理理解以及基礎報告生成兩個方面減輕上述問題帶來的成本。
以下例子以大宗商品中的原油為例子,需要寫一篇“關于原油上漲帶來的風險“的報告:
通過提交相關的任務指引,包括(但不僅限于):1)任務描述;2)文章規定的格式、標題和段落;3)文章規定的分段內容和主旨。智能搜索引擎會先進行從已經加載的數據中獲得相關內容,并將內容傳遞到大語言模型,并要求大語言模型按照指引進行內容生成和輸出。輸出的報告可以作為基礎內容提供給報告撰寫和分析團隊進行二次加工,從而提高生成效率。
教育行業
行業場景
針對教育領域和智能教育產品的行業場景,可以從以下兩個角度來說明,包括學校/老師角度、學生/家長角度。
學校/老師:本方案為基礎來提供創新的在線教育工具,例如AI Class Bot,助力學校和培訓機構快速建立在線學習課程,幫助學校提高教學質量和效率,也能夠節省教學資源和成本,減輕老師課程設計和輔導的負擔,拓展教學內容和形式,增強教學創新和競爭力。
學生/家長:以本方案為基礎來構建智能輔導系統,根據每個學生的水平和進度,生成適合他們的學習內容和方法,自適應地生成不同難度和類型的問題和解析,做到實現因材施教和自適應教育。同時還可以構建學校與家長之間的智能問答系統,可以幫助家長了解孩子的學習情況和需求,提供更多的學習支持和指導。
在教育行業中,客戶選擇此方案出于三個考慮:
通過本方案可以快速、方便的將課程內容導入到知識庫,利用大語言模型形成課程問答機器人。結合數字人技術還可以提供多輪對話的功能,讓教育過程增加更多的趣味性。
通過本方案利用AI/ML技術實現的用戶正向反饋功能,可以幫助每個學生實時反饋搜索結果的權重,從而優化自己的知識庫模型,以便實現自適應學習的目標。
通過本方案可以把學校已知的資料以及散落在互聯網的資料統一匯集到知識庫,包括各種非結構化和半結構化數據,讓家長更加快捷的查找所要的信息。
典型場景為面向學生的問答機器人和面向學校的問答機器人。
行業場景實踐
例1:學生場景的問答機器人(AI Class Bot)-英文單詞學習的AI客服機器人
針對英文單詞學習領域,將現有英文單詞學習過程中的相關FAQ知識庫導入現有方案中,該知識庫文件中包含了眾多在英文單詞學習過程中的客戶問題以及處理辦法,通過本方案的知識庫上傳功能,將數據導入到知識庫系統中。
本例中,我們希望客服機器人的答案一定是要基于知識庫的范圍內進行作答,如果不在知識庫的范圍,要回答“根據已知知識無法回答該問題”,也就是說我們要避免大語言模型的幻覺問題。基于這個要求,普通的大預言模型在回答用戶問題時可以有一定的創新性,也就是模型可以設置temperature值,以控制大語言模型的創新性。但是就算設置非常低的值,也不能保證大語言模型不自己創新的回答用戶問題。
本方案針對該需求增加了置信度(evidence)的判斷,對于大語言模型給出的答案與用戶的問題、知識庫的搜索結果都做了相似度計算,低于某個值就返回用戶“無法回答該問題”。如下圖所示:
有一些問題在知識庫的范疇內,問答機器人就可以回答,如下圖:
例2:學校場景的問答機器人(AI School Bot)–報考志愿問答機器人
面臨中考、高考的考生家長相對比較焦慮,他們需要掌握更多的學校信息以便和自己孩子的學習情況做比較,選擇更加適合自身的學校和未來的報考專業。以下是一個詢問中學信息的問答場景,我們僅僅導入了幾個國際學校的數據到知識庫,希望問答機器人在知識庫的范疇內回答問題,同時需要給出答案的置信度。如下圖所示:
當問詢某個國際學校的課程信息時,問答機器人將做如下回答:
醫療行業
行業場景
醫療行業有大量文檔,其中既包括敏感資料如藥物臨床研究數據,患者健康數據,藥研實驗數據,也包括大量的公開數據集如基因數據,醫學論文等。然而,作為一個歷史悠久等行業,很多醫院與企業仍然處于數字化轉型的初期,存在數據量大,格式不統一,閱讀理解難等問題。醫療健康領域數字化轉型,降低醫學數據的使用門檻一直是該領域的重要方向。具體來看:
藥物研發:通過整合藥物設計的公開論文與內部文檔為藥企提供藥物設計的知識庫,通過關鍵詞快速了解藥理活性,作用位點,毒理,適用病理等信息,幫助企業提高研發迭代速度、提升研發效率、降低研發成本和提升項目整體成功率。
就醫知識庫:整合FAQ咨詢數據、藥品說明書、患者病歷、醫學指南、醫學書籍、醫學論文、專業網站、專家錄入數據等數據源,構建“疾病-癥狀-藥品-診斷-人群”的私有知識庫以及基于知識庫的醫藥大健康智能專家虛擬助理。
典型場景是醫療論文信息檢索。
行業場景實踐
醫療論文信息檢索
本次場景演示中,我們從亞馬遜云科技的公開數據集中選取大家非常最常使用的NCBI數據集,并選擇2023年度的一個子數據集作為樣本數據,供測試。
為了方便測試,我們清洗一部分血液病相關的論文作為測試數據集,使用一些常見的血液病問題進行提問,平臺將會從相應的數據集中進行召回,并根據prompt來生成相應的內容。考慮到醫療相關的論文都為英文,我們本次測試中,都使用的是擅長英文的開源大模型進行測試。
由于論文數據多樣、還會有歷史等不同信息等,所以在實際使用中,有可能需要通過不同的關鍵詞、句來召回最適合您使用場景的結果。
而對于知識庫沒有的數據,平臺將會召回“Not found answer” 或者“I don’t know”。這是確保在醫療、生命科學場景,對于不確認的信息,規避無效數據的回復。
由于論文數據的龐大,新舊數據的沖突等各種原因,在實際使用過程,我們建議用戶您根據自己的實際情況、使用場景的需求,對于論文、內部科研數據、任何您需要使用的數據做一次提前的清理,比如,最保留最新數據等。這樣保證數據在召回時候更符合您的需求。
總結
在日常使用大語言模型的過程中,兩個比較突出的問題是不能被忽視的。它們分別是:
幻覺問題(Hallucination)
數據泄露(Data Leakage)
幻覺問題是自然語言處理領域中的基礎問題之一,指文本生成模型的生成結果中含有與輸入事實上沖突的內容,即結果可能出現虛構和捏造事實的情況。數據泄露問題是指用戶在使用市面上大語言模型過程中,會主動或不經意間傳入的可能涉及到商業機密、個人隱私、企業管理等敏感數據,造成數據泄露的問題。本方案的架構設計能夠有效解決上述兩個問題。
綜上所述,基于智能搜索和大語言模型結合方案為不同行業場景構建GAI應用,達到:
制造行業:通過構建智能企業知識庫,有效整合制造業中的各類資料,并應用AI技術,將其快速轉化為可信、準確的知識資源,提供給內部員工,從而極大地提升他們獲取專業信息的效率。
金融行業:精準的命中金融行業中多種過去只能依靠人工處理的場景,使用AI/ML的技術為金融客戶降本增效,并助力客戶主動挖掘更多業務場景,在保證數據安全可控的前提下加速AI/ML對業務創新的效率;
教育行業:通過GAI技術,我們可以根據每個學生的水平和進度,生成適合他們的學習內容和方法,自適應地生成不同難度和類型的問題和解析,做到實現因材施教和自適應教育。
醫療行業:通過生成式AI技術,我們可以讓更多生命科學的工作者,可以從海量的知識信息中,更容易獲取、提取所需要的臨床、科研等信息,更好的為我們每個人的身體健康保駕護航。
審核編輯 黃宇
-
測試
+關注
關注
8文章
5269瀏覽量
126599 -
亞馬遜
+關注
關注
8文章
2650瀏覽量
83315 -
LLM
+關注
關注
0文章
286瀏覽量
327
發布評論請先 登錄
相關推薦
評論