色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Hugging Face LLM部署大語言模型到亞馬遜云科技Amazon SageMaker推理示例

科技新思路 ? 來源:科技新思路 ? 作者:科技新思路 ? 2023-11-01 17:48 ? 次閱讀

本篇文章主要介紹如何使用新的Hugging Face LLM推理容器將開源LLMs,比如BLOOM大型語言模型部署到亞馬遜科技Amazon SageMaker進(jìn)行推理的示例。我們將部署12B Open Assistant Model,這是一款由開放助手計(jì)劃訓(xùn)練的開源Chat LLM。

這個示例包括:

設(shè)置開發(fā)環(huán)境

獲取全新Hugging Face LLM DLC

將開放助手12B部署到亞馬遜云科技Amazon SageMaker

進(jìn)行推理并與我們的模型聊天

清理環(huán)境

什么是Hugging Face LLM Inference DLC?

Hugging Face LLM DLC是一款全新的專用推理容器,可在安全的托管環(huán)境中輕松部署LLM。DLC由文本生成推理(TGI)提供支持,這是一種用于部署和服務(wù)大型語言模型(LLM)的開源、專門構(gòu)建的解決方案。TGI使用張量并行和動態(tài)批處理為最受歡迎的開源LLM(包括StarCoder、BLOOM、GPT-Neox、Llama和T5)實(shí)現(xiàn)高性能文本生成。文本生成推理已被IBM、Grammarly等客戶使用,Open-Assistant計(jì)劃對所有支持的模型架構(gòu)進(jìn)行了優(yōu)化,包括:

張量并行性和自定義cuda內(nèi)核

在最受歡迎的架構(gòu)上使用flash-attention優(yōu)化了用于推理的變形器代碼

使用bitsandbytes進(jìn)行量化

連續(xù)批處理傳入的請求以增加總吞吐量

使用safetensors加速重量加載(啟動時間)

Logits扭曲器(溫度縮放、topk、重復(fù)懲罰…)

用大型語言模型的水印添加水印

停止序列,記錄概率

使用服務(wù)器發(fā)送事件(SSE)進(jìn)行Token流式傳輸

官方支持的模型架構(gòu)目前為:

BLOOM/BLOOMZ

MT0-XXL

Galactica

SantaCoder

gpt-Neox 20B(joi、pythia、lotus、rosey、chip、redPajama、open Assistant)

FLAN-T5-XXL(T5-11B)

Llama(vicuna、alpaca、koala)

Starcoder/santaCoder

Falcon 7B/Falcon 40B

借助亞馬遜云科技Amazon SageMaker上推出的全新Hugging Face LLM Inference DLC,亞馬遜云科技客戶可以從支持高度并發(fā)、低延遲LLM體驗(yàn)的相同技術(shù)中受益,例如HuggingChat、OpenAssistant和Hugging Face Hub上的LLM模型推理API

1.設(shè)置開發(fā)環(huán)境

使用SageMaker python SDK將OpenAssistant/pythia-12b-sft-v8-7k-steps部署到亞馬遜云科技Amazon SageMaker。需要確保配置一個亞馬遜云科技賬戶并安裝SageMaker python SDK。

wKgZomVCHvaAbhP6AAA5d7O5Fws111.png

如果打算在本地環(huán)境中使用SageMaker。需要訪問具有亞馬遜云科技Amazon SageMaker所需權(quán)限的IAM角色。可以在這里找到更多關(guān)于它的信息

wKgaomVCHvaAJAqEAAC68T4u3EA031.png

2.獲取全新Hugging Face LLM DLC

與部署常規(guī)的HuggingFace模型相比,首先需要檢索容器URI并將其提供給HuggingFaceModel模型類,并使用image_uri指向該鏡像。要在亞馬遜云科技Amazon SageMaker中檢索新的HuggingFace LLM DLC,可以使用SageMaker SDK 提供的get_huggingface_llm_image_uri方法。此方法允許根據(jù)指定的 “后端”、“會話”、“區(qū)域” 和 “版本”檢索所需的Hugging Face LLM DLC 的 URI。

wKgZomVCHveAJaLYAABAo2uUmOc916.png

要將[Open Assistant Model](openAssistant/Pythia-12b-sft-v8-7K-steps)部署到亞馬遜云科技Amazon SageMaker,創(chuàng)建一個HuggingFaceModel模型類并定義終端節(jié)點(diǎn)配置,包括hf_model_id、instance_type等。使用g5.4xlarge實(shí)例類型,它有1個NVIDIA A10G GPU和64GB的GPU內(nèi)存。

wKgaomVCHveADTaWAAC_MdCodQY826.png

亞馬遜云科技Amazon SageMaker現(xiàn)在創(chuàng)建端點(diǎn)并將模型部署到該端點(diǎn)。這可能需要10-15分鐘。

4.進(jìn)行推理并與模型聊天

部署終端節(jié)點(diǎn)后,可以對其進(jìn)行推理。使用predictor中的predict方法在端點(diǎn)上進(jìn)行推理。可以用不同的參數(shù)進(jìn)行推斷來影響生成。參數(shù)可以設(shè)置在parameter中設(shè)置。

溫度:控制模型中的隨機(jī)性。較低的值將使模型更具確定性,而較高的值將使模型更隨機(jī)。默認(rèn)值為0。

max_new_tokens:要生成的最大token數(shù)量。默認(rèn)值為20,最大值為512。

repeption_penalty:控制重復(fù)的可能性,默認(rèn)為null。

seed:用于隨機(jī)生成的種子,默認(rèn)為null。

stop:用于停止生成的代幣列表。生成其中一個令牌后,生成將停止。

top_k:用于top-k篩選時保留的最高概率詞匯標(biāo)記的數(shù)量。默認(rèn)值為null,它禁用top-k過濾。

top_p:用于核采樣時保留的參數(shù)最高概率詞匯標(biāo)記的累積概率,默認(rèn)為null。

do_sample:是否使用采樣;否則使用貪婪的解碼。默認(rèn)值為false。

best_of:生成best_of序列如果是最高標(biāo)記logpros則返回序列,默認(rèn)為null。

details:是否返回有關(guān)世代的詳細(xì)信息。默認(rèn)值為false。

return_full_text:是返回全文還是只返回生成的部分。默認(rèn)值為false。

truncate:是否將輸入截?cái)嗟侥P偷淖畲箝L度。默認(rèn)值為true。

typical_p:代幣的典型概率。默認(rèn)值null。

水印:生成時使用的水印。默認(rèn)值為false。

可以在swagger文檔中找到TGI的開放api規(guī)范。

openAssistant/Pythia-12b-sft-v8-7K-steps是一種對話式聊天模型,這意味著我們可以使用以下提示與它聊天:

wKgZomVCHviAE-lAAAAQqU4QjKc607.png

先試一試,問一下夏天可以做的一些很酷的想法:

wKgaomVCHviAQnPuAABQPury5fQ789.png

現(xiàn)在,使用不同的參數(shù)進(jìn)行推理,以影響生成。參數(shù)可以通過輸入的parameters屬性定義。這可以用來讓模型在“機(jī)器人”回合后停止生成。

wKgZomVCHvmAElpXAACaE-pUodY766.png

現(xiàn)在構(gòu)建一個快速gradio應(yīng)用程序來和它聊天。

wKgZomVCHvmATJ_BAAC52SpVk0g497.pngwKgaomVCHvmAIi4cAAEHWf9rfs0704.png

程序運(yùn)行成功后,顯示如下聊天窗口:

wKgZomVCHvqAQXxvAAGom2TeVss859.png

現(xiàn)在已經(jīng)成功地將Open Assistant模型部署到亞馬遜云科技Amazon SageMaker并對其進(jìn)行了推理。此外,還構(gòu)建了一個快速的gradio應(yīng)用程序,可以與模型聊天。

現(xiàn)在,可以使用亞馬遜云科技Amazon SageMaker上全新Hugging Face LLM DLC構(gòu)建世代人工智能應(yīng)用程序的時候了。

5.清理環(huán)境

刪除模型和端點(diǎn)。

wKgaomVCHvqAVlcQAAAJ15R1HD8880.png

6.總結(jié)

從上面的部署過程,可以看到整個部署大語言模型的過程非常簡單,這個主要得益于SageMaker Hugging Face LLM DLC的支持,還可以通過將Amazon SageMaker部署的端點(diǎn)與應(yīng)用集成,滿足實(shí)際的業(yè)務(wù)需求。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    520

    瀏覽量

    10268
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2650

    瀏覽量

    83315
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    286

    瀏覽量

    327
收藏 人收藏

    評論

    相關(guān)推薦

    ?使用AWS Graviton降低Amazon SageMaker推理成本

    Amazon SageMaker(https://aws.amazon.com/sagemaker/)提供了多種機(jī)器學(xué)習(xí)(ML)基礎(chǔ)設(shè)施和模型
    的頭像 發(fā)表于 05-28 09:31 ?739次閱讀
    ?使用AWS Graviton降低<b class='flag-5'>Amazon</b> <b class='flag-5'>SageMaker</b><b class='flag-5'>推理</b>成本

    基于Transformer的大型語言模型LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語言模型LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語言模型
    的頭像 發(fā)表于 06-25 15:08 ?1457次閱讀
    基于Transformer的大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>(<b class='flag-5'>LLM</b>)的內(nèi)部機(jī)制

    Hugging Face更改文本推理軟件許可證,不再“開源”

    據(jù)悉,TGI 已成為 Hugging Face 商業(yè)產(chǎn)品(如推理端點(diǎn))及其商業(yè)合作伙伴(如 Amazon SageMaker、Azure 機(jī)
    的頭像 發(fā)表于 07-31 14:42 ?654次閱讀

    NVIDIA 與 Hugging Face 將連接數(shù)百萬開發(fā)者與生成式 AI 超級計(jì)算

    NVIDIA DGX Cloud 集成 Hugging Face 平臺將加速大語言模型LLM
    發(fā)表于 08-09 11:41 ?204次閱讀
    NVIDIA 與 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 將連接數(shù)百萬開發(fā)者與生成式 AI 超級計(jì)算

    NVIDIA 與 Hugging Face 將連接數(shù)百萬開發(fā)者與生成式 AI 超級計(jì)算

    NVIDIA DGX Cloud 集成 Hugging Face 平臺將加速大語言模型LLM
    的頭像 發(fā)表于 08-09 11:38 ?1140次閱讀
    NVIDIA 與 <b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 將連接數(shù)百萬開發(fā)者與生成式 AI 超級計(jì)算

    亞馬遜科技推出五項(xiàng)Amazon SageMaker新功能

    Inference通過優(yōu)化加速器的使用,平均降低50%的基礎(chǔ)模型部署成本,并平均縮短了20%的延遲時間; Amazon SageMaker Clarify能夠讓客戶更輕松地根據(jù)支持負(fù)
    的頭像 發(fā)表于 12-06 14:04 ?754次閱讀

    ServiceNow、Hugging Face 和 NVIDIA 發(fā)布全新開放獲取 LLM,助力開發(fā)者運(yùn)用生成式 AI 構(gòu)建企業(yè)應(yīng)用

    2024 年 2 月 28 日 - ServiceNow(NYSE:NOW)、Hugging Face 和 NVIDIA 于今日發(fā)布 StarCoder2,其為一系列用于代碼生成的開放獲取大語言
    發(fā)表于 02-29 11:12 ?247次閱讀
    ServiceNow、<b class='flag-5'>Hugging</b> <b class='flag-5'>Face</b> 和 NVIDIA 發(fā)布全新開放獲取 <b class='flag-5'>LLM</b>,助力開發(fā)者運(yùn)用生成式 AI 構(gòu)建企業(yè)應(yīng)用

    Mistral Large模型現(xiàn)已在Amazon Bedrock上正式可用

    Mistral AI的Mistral Large模型現(xiàn)已在Amazon Bedrock上正式可用。今年三月,亞馬遜科技在Amazon Be
    的頭像 發(fā)表于 04-08 16:26 ?553次閱讀

    亞馬遜攜手AI新創(chuàng)企業(yè)Hugging Face,提升AI模型在定制芯片計(jì)算性能

    Hugging Face作為一家估值為45億美元的公司現(xiàn)已成為了眾多AI研究員和開發(fā)者分享Chatbot和相關(guān)軟件的核心平臺,受到亞馬遜、谷歌、英偉達(dá)等巨頭的青睞。
    的頭像 發(fā)表于 05-23 14:24 ?403次閱讀

    Hugging Face科技公司推出SmolLM系列語言模型

    7月22日最新資訊,Hugging Face科技公司在語言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語言
    的頭像 發(fā)表于 07-23 16:35 ?323次閱讀

    LLM模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)
    的頭像 發(fā)表于 07-24 11:38 ?857次閱讀

    亞馬遜科技正式上線Meta Llama 3.2模型

    亞馬遜科技宣布,Meta的新一代模型Llama 3.2,包括其首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和
    的頭像 發(fā)表于 10-11 09:20 ?506次閱讀

    亞馬遜科技上線Meta Llama 3.2模型

    亞馬遜科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款多模態(tài)模型,現(xiàn)已在
    的頭像 發(fā)表于 10-11 18:08 ?444次閱讀

    Amazon Bedrock推出多個新模型和全新強(qiáng)大的推理和數(shù)據(jù)處理功能

    亞馬遜科技助力客戶加速采用生成式AI 模型擴(kuò)展規(guī)模空前,并新增推理優(yōu)化工具及額外的數(shù)據(jù)功能,為客戶提供了更大的靈活性和控制力,更快構(gòu)建和部署
    的頭像 發(fā)表于 12-07 19:31 ?581次閱讀
    <b class='flag-5'>Amazon</b> Bedrock推出多個新<b class='flag-5'>模型</b>和全新強(qiáng)大的<b class='flag-5'>推理</b>和數(shù)據(jù)處理功能

    亞馬遜科技推出新一代Amazon SageMaker

    為數(shù)據(jù)、分析和AI提供統(tǒng)一平臺 北京2024年12月10日?/美通社/ -- 亞馬遜科技在2024 re:Invent全球大會上,宣布推出新一代Amazon SageMaker,將客
    的頭像 發(fā)表于 12-10 15:53 ?112次閱讀
    主站蜘蛛池模板: 久久精品国产亚洲AV久五月天| 久久永久视频| 美国xaxwaswaskino| 色百度网址大全| 在线观看免费av网站| 夫妻日本换H视频| 久久国产精品人妻中文| 日本夜夜夜| 伊人久久综合成人亚洲| 妇少水多18P蜜泬17P亚洲乱 | 冠希和阿娇13分钟在线视频| 护士WC女子撒尿| 人人插人人射| 在线va无卡无码高清| 国产成人精品电影在线观看| 裸妇厨房风流在线观看| 午夜福利电影| AV多人爱爱XXx| 极品色αv影院| 熟女久久久久久久久久久| 2021扫黑风暴在线观看免费完整版 | 99在线国产视频| 好硬好湿好爽再深一点视频| 日本xxx护士与黑人| 伊人网综合在线观看| 国产精品99久久久久久动态图| 芒果影院网站在线观看| 幸福草电视剧演员表介绍 | 精品四虎国产在免费观看| 日本美女bb| 51精品少妇人妻AV一区二区| 国产午夜精品理论片在线| 青青草国拍2018| 做暖暖视频在线看片免费| 国产香蕉视频在线播放| 日韩精品一区VR观看| 538在线播放| 九九热精品在线| 亚洲AV无码国产精品午夜久久| 成人免费一级毛片在线播放视频| 恋夜影院安卓免费列表uc|