色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(13):模型與調(diào)度器-3

NVIDIA英偉達企業(yè)解決方案 ? 來源:未知 ? 2023-02-03 04:55 ? 次閱讀
前面兩篇文章,已經(jīng)將 Triton 的“無狀態(tài)模型”、“有狀態(tài)模型”與標準調(diào)度器的動態(tài)批量處理器與序列批量處理器的使用方式,做了較完整的說明。 大部分的實際應用都不是單純的推理模型就能完成服務的需求,需要形成前后關系的工作流水線。例如一個二維碼掃描的應用,除了需要第一關的二維碼識別模型之外,后面可能還得將識別出來的字符傳遞給語句識別的推理模型、關鍵字搜索引擎等功能,最后找到用戶所需要的信息,反饋給提出需求的用戶端。 本文的內(nèi)容要說明 Triton 服務器形成工作流水線的“集成推理”功能,里面包括“集成模型(ensemble model)”“集成調(diào)度器(ensemble scheduler)”兩個部分。下面是個簡單的推理流水線示意圖,目的是對請求的輸入圖像最終反饋“圖像分類”與“語義分割”兩個推理結果: 6bce43b4-a33b-11ed-bfe3-dac502259ad0.png 當接收到集成模型的推斷請求時,集成調(diào)度器將:
  1. 確認請求中的“IMAGE”張量映射到預處理模型中的輸入“RAW_IMAGE”。
  2. 檢查集合中的模型,并向預處理模型發(fā)送內(nèi)部請求,因為所需的所有輸入張量都已就緒。
  3. 識別內(nèi)部請求的完成,收集輸出張量并將內(nèi)容映射到“預處理圖像”,這是集成中已知的唯一名稱。
  4. 將新收集的張量映射到集合中模型的輸入。在這種情況下,“classification_model”和“segmentation_model”的輸入將被映射并標記為就緒。
  5. 檢查需要新收集的張量的模型,并向輸入就緒的模型發(fā)送內(nèi)部請求,在本例中是分類模型和分割模型。請注意,響應將根據(jù)各個模型的負載和計算時間以任意順序排列。
  6. 重復步驟 3-5,直到不再發(fā)送內(nèi)部請求,然后用集成輸出名稱的張量去響應推理請求。
整個流水線使用 3 個模型,并進行以下三個處理步驟:
  1. 使用 image_prepoecess_model 模型,將原始圖像處理成preprocessed_image 數(shù)據(jù);
  2. 將 preprocessed_image 數(shù)據(jù)傳遞給 classification_model 模型,執(zhí)行圖像分類推理,最終返回“CLASSIFICATION”結果;
  3. 將 preprocessed_image 數(shù)據(jù)傳遞給 segmentation_model 模型,執(zhí)行語義分割推理計算,最終返回“SEGMENTATION”結果;
在執(zhí)行過程中,推理服務器必須支持以下的功能,才能將多種推理模型集成一個或多個工作流水線,去執(zhí)行完整的工作流程:
  • 支持一個或多個模型的流水線以及這些模型之間輸入和輸出張量的連接;
  • 處理多個模型的模型拼接或數(shù)據(jù)流,例如“數(shù)據(jù)處理->推理->數(shù)據(jù)后處理”等;
  • 收集每個步驟中的輸出張量,并根據(jù)規(guī)范將其作為其他步驟的輸入張量;
  • 所集成的模型能繼承所涉及模型的特征,在請求方的元數(shù)據(jù)必須符合集成中的模型;
為了實現(xiàn)的推理流水線功能,Triton 服務器使用集成模型與集成調(diào)度器的配合,來完成這類工作流水線的搭建管理。接著就執(zhí)行以下步驟來創(chuàng)建一個流水線所需要的配套內(nèi)容:
  1. 在模型倉里為流水線創(chuàng)建一個新的“組合模型”文件夾,例如為“ensemble_model”;
  2. 在目路下創(chuàng)建新的 config.pbtxt,并且使用“platform: "ensemble"”來定義這個模型要執(zhí)行集成功能;
  3. 定義集成模型:
無論工作流水線中調(diào)用多少個模型,Triton 服務器都將這樣的組合視為一個模型,與其他模型配置一樣,需要定義輸入與輸出節(jié)點的張量類型與尺度。 以上面示例圖中的要求,這個集成模型有一個名為“IMAGE”的輸入節(jié),與兩個名為“CLASSIFICATION”“SEGMENTATION”的輸出節(jié)點,至于數(shù)據(jù)類型與張量維度內(nèi)容,就得根據(jù)實際使用的模型去匹配。這部分配置的參考內(nèi)容如下:
name:"ensemble_model"
platform: "ensemble"
max_batch_size: 1
input [
  {
    name: "IMAGE"
    data_type: TYPE_STRING
    dims: [ 1 ]
  }
]
output [
  {
    name: "CLASSIFICATION"
    data_type: TYPE_FP32
    dims: [ 1000 ]
  },
  {
    name: "SEGMENTATION"
    data_type: TYPE_FP32
    dims: [ 3, 224, 224 ]
  }
]
從這個內(nèi)容中可以看出,Triton 服務器將這個集成模型視為一個獨立模型。 4. 定義模型的集成調(diào)度器:這部分使用“ensemble_scheduling”來調(diào)動集成調(diào)度器,將使用到模型與數(shù)據(jù)形成完整的交互關系。 在上面示例圖中,灰色區(qū)塊所形成的工作流水線中,使用到 image_prepoecess_modelclassification_modelsegmentation_model 三個模型,以及 preprocessed_image 數(shù)據(jù)在模型中進行傳遞。 下面提供這部分的范例配置內(nèi)容,一開始使用“ensemble_scheduling”來調(diào)用集成調(diào)度器,里面再用“step”來定義模組之間的執(zhí)行關系,透過模型的“input_map”“output_map”“key:value”對的方式,串聯(lián)起模型之間的交互動作:
ensemble_scheduling{
  step [
    {
      model_name: "image_preprocess_model"
      model_version: -1
      input_map {
        key: "RAW_IMAGE"
        value: "IMAGE"
      }
      output_map {
        key: "PREPROCESSED_OUTPUT"
        value: "preprocessed_image"
      }
    },
    {
      model_name: "classification_model"
      model_version: -1
      input_map {
        key: "FORMATTED_IMAGE"
        value: "preprocessed_image"
      }
      output_map {
        key: "CLASSIFICATION_OUTPUT"
        value: "CLASSIFICATION"
      }
    },
    {
      model_name: "segmentation_model"
      model_version: -1
      input_map {
        key: "FORMATTED_IMAGE"
        value: "preprocessed_image"
      }
      output_map {
        key: "SEGMENTATION_OUTPUT"
        value: "SEGMENTATION"
      }
    }
  ]
}
這里簡單說明一下工作流程: (1) 模型 image_preprocess_model 接收外部輸入的 IMAGE 數(shù)據(jù),進行圖像預處理任務,輸出 preprocessed_image 數(shù)據(jù);(2) 模型 classification_model 的輸入為 preprocessed_image,表示這個模型的工作是在 image_preprocess_model 之后的任務,執(zhí)行的推理輸出為 CLASSIFICATION;(3) 模型 segmentation_model 的輸入為 preprocessed_image,表示這個模型的工作是在 image_preprocess_model 之后的任務,執(zhí)行的退輸出為 SEGMENTATION;(4) 上面兩步驟可以看出 classification_model 與 segmentation_model 屬于分支的同級模型,與上面工作流圖中的要求一致。 完成以上的步驟,就能用集成模型與集成調(diào)度器的搭配,來創(chuàng)建一個完整的推理工作流任務,相當簡單。 不過這類集成模型中,還有以下幾個需要注意的重點:
  • 這是 Triton 服務器用來執(zhí)行用戶定義模型流水線的抽象形式,由于沒有與集成模型關聯(lián)的物理實例,因此不能為其指定 instance_group 字段;
  • 不過集成模型內(nèi)容所組成的個別模型(例如image_preprocess_model),可以在其配置文件中指定 instance_group,并在集成接收到多個請求時單獨支持并行執(zhí)行。
  • 由于集成模型將繼承所涉及模型的特性,因此在請求起點的元數(shù)據(jù)(本例為“IMAGE”)必須符合集成中的模型,如果其中一個模型是有狀態(tài)模型,那么集成模型的推理請求應該包含有狀態(tài)模型中提到的信息,這些信息將由調(diào)度器提供給有狀態(tài)模型。
總的來說,Triton 服務器提供的集成功能還是相對容易理解與操作的,只要大家留意模型之間所傳遞的數(shù)據(jù)張量格式與尺度,就能輕松搭建起這樣的推理工作流,去面對實際環(huán)境中更多變的使用需求。


原文標題:NVIDIA Triton 系列文章(13):模型與調(diào)度器-3

文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    22

    文章

    3771

    瀏覽量

    91000

原文標題:NVIDIA Triton 系列文章(13):模型與調(diào)度器-3

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開發(fā)了一個全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?334次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢,為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務
    的頭像 發(fā)表于 09-09 09:19 ?461次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進
    的頭像 發(fā)表于 09-06 14:59 ?303次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>幫助開發(fā)者生成合成訓練數(shù)據(jù)

    英偉達推出全新NVIDIA AI Foundry服務和NVIDIA NIM推理微服務

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務和 NVIDIA NIM 推理微服務,與同樣剛推出的 Llama 3.1 系列開源
    的頭像 發(fā)表于 07-25 09:48 ?701次閱讀

    NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

    借助 NVIDIA AI Foundry,企業(yè)和各國現(xiàn)在能夠使用自有數(shù)據(jù)與 Llama 3.1 405B 和 NVIDIA Nemotron 模型配對,來構建“超級模型
    發(fā)表于 07-24 09:39 ?706次閱讀
    <b class='flag-5'>NVIDIA</b> AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI <b class='flag-5'>模型</b>

    NVIDIA Omniverse 將為全新 OpenPBR 材質(zhì)模型提供原生支持

    、組合、模擬和協(xié)作的可擴展框架和生態(tài)系統(tǒng),OpenUSD 使開發(fā)者能夠構建可互操作的 3D 工作流,開啟了工業(yè)數(shù)字化的新時代。 此外,NVIDIA Omniverse 還將為全新 OpenPBR 材質(zhì)模型
    的頭像 發(fā)表于 06-14 11:23 ?627次閱讀
    <b class='flag-5'>NVIDIA</b> Omniverse 將為全新 OpenPBR 材質(zhì)<b class='flag-5'>模型</b>提供原生支持

    NVIDIA與Google DeepMind合作推動大語言模型創(chuàng)新

    支持 NVIDIA NIM 推理微服務的谷歌最新開源模型 PaliGemma 首次亮相。
    的頭像 發(fā)表于 05-16 09:44 ?445次閱讀

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的
    的頭像 發(fā)表于 04-28 10:36 ?555次閱讀

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新開源大語言模型采用 NVIDIA 技術構建,其經(jīng)過優(yōu)化后可在云、數(shù)據(jù)中心、邊緣和 PC 的 NVIDIA GPU 上運行。
    的頭像 發(fā)表于 04-23 09:52 ?453次閱讀

    NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉 3D 生成式 AI 模型)實現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?492次閱讀
    <b class='flag-5'>NVIDIA</b>生成式AI研究實現(xiàn)在1秒內(nèi)生成<b class='flag-5'>3</b>D形狀

    Anthropic發(fā)布Claude3系列模型

    近日,人工智能領域的創(chuàng)新者 Anthropic 宣布推出其備受矚目的 Claude 3 系列大型語言模型(LLM)。這一系列模型在各種認知任
    的頭像 發(fā)表于 03-06 09:56 ?605次閱讀

    使用NVIDIA Triton推理服務來加速AI預測

    這家云計算巨頭的計算機視覺和數(shù)據(jù)科學服務使用 NVIDIA Triton 推理服務來加速 AI 預測。
    的頭像 發(fā)表于 02-29 14:04 ?576次閱讀

    在AMD GPU上如何安裝和配置triton

    最近在整理python-based的benchmark代碼,反過來在NV的GPU上又把Triton裝了一遍,發(fā)現(xiàn)Triton的github repo已經(jīng)給出了對應的llvm的commit id以及對應的編譯細節(jié),然后跟著走了一遍,也順利的安裝成功,只需要按照如下方式即可完
    的頭像 發(fā)表于 02-22 17:04 ?2362次閱讀
    在AMD GPU上如何安裝和配置<b class='flag-5'>triton</b>?

    【BBuf的CUDA筆記】OpenAI Triton入門筆記一

    這里來看官方的介紹:https://openai.com/research/triton ,從官方的介紹中我們可以看到OpenAI Triton的產(chǎn)生動機以及它的目標是什么,還可以看到一些經(jīng)典算法的實現(xiàn)例子展示。
    的頭像 發(fā)表于 01-23 10:00 ?2564次閱讀
    【BBuf的CUDA筆記】OpenAI <b class='flag-5'>Triton</b>入門筆記一

    利用NVIDIA產(chǎn)品技術組合提升用戶體驗

    本案例通過利用NVIDIA TensorRT-LLM加速指令識別深度學習模型,并借助NVIDIA Triton推理服務
    的頭像 發(fā)表于 01-17 09:30 ?687次閱讀
    主站蜘蛛池模板: 忘忧草在线社区WWW日本-韩国| 欧美激情视频一区| 久久人妻少妇嫩草AV蜜桃99 | 国产69精品久久久久APP下载| 粉嫩自拍 偷拍 亚洲| 国产网址在线观看| 无码人妻丰满熟妇区五十路久久| 天天国产在线精品亚洲| 亚洲精品乱码久久久久久v| 在线看无码的免费网站| 99久久伊人一区二区yy5099| 亚洲无线观看国产| 0855午夜福利伦理电影| 亚洲乱码日产精品BD在线下载| 野花影院手机在线观看| 97精品国偷拍自产在线 | 最新国自产拍 高清完整版| 亚在线观看免费视频入口| 艳妇臀荡乳欲伦岳TXT下载| 9420高清免费观看在线大全| 大屁股妇女流出白浆| 国语大学生自产拍在线观看| 伦理片天堂eeuss影院| 本庄优花aⅴ全部在线影片| 亚洲精品视频在线播放| 暖暖视频在线观看高清...| 久久亚洲精品专区蓝色区| 久久中文字幕免费高清| 国产伊人自拍| 免费被靠视频动漫| 午夜亚洲国产理论片二级港台二级 | wwww69| 国产又爽又黄又不遮挡视频| 麻豆国产精品AV色拍综合| 少妇的肉体AA片免费| 又亲又揉摸下面视频免费看| 成年美女黄网站色app| 精品久久久无码21P发布| 日韩高清特级特黄毛片| 一边啪啪的一边呻吟声口述| 动漫美女性侵|