色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊廣告視頻抽幀的全流程GPU加速

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-20 15:19 ? 次閱讀

案例簡介

騰訊廣告的開發(fā)人員改進(jìn)了視頻抽幀的實(shí)現(xiàn)方式,使得全流程的操作均在 GPU 上完成,取代了原有的 CPU 抽幀流程,提高了性能,并降低了成本。

本案例涉及 GPU 加速的視頻解碼與圖像處理

線上測(cè)試集顯示,單個(gè) GPU 的視頻解碼算力與 8 個(gè) CPU 核大致相當(dāng)

GPU 做圖像處理比 CPU 更有性能和成本優(yōu)勢(shì),尤其與 GPU 視頻解碼聯(lián)合使用時(shí)

本案例使用了 NVIDIA T4 GPU 以及相關(guān)軟件

客戶簡介及應(yīng)用背景

視頻已成為內(nèi)容和廣告的主要媒介形式,但目前的視頻內(nèi)容理解或?qū)徍说?AI 能力,主流依然是先抽幀,再基于圖像幀做特征提取和預(yù)測(cè)。

騰訊廣告部門日常處理大量的視頻信息,而抽幀是視頻分析的第一步。抽幀由于步驟多、計(jì)算重,在視頻 AI 推理場(chǎng)景很容易成為性能瓶頸。

客戶挑戰(zhàn)

在騰訊廣告的流量中,視頻所占比例逐年快速提升,視頻抽幀這里如果出現(xiàn)時(shí)耗或吞吐瓶頸(特別是針對(duì)高 FPS 抽幀的情況),很容易影響到后續(xù)的特征提取以及模型預(yù)測(cè)性能。在當(dāng)前的廣告視頻 AI 推理服務(wù)中,抽幀往往占據(jù)了其中大部分時(shí)耗,因此,視頻抽幀的性能對(duì)于視頻內(nèi)容理解服務(wù)的時(shí)耗和整體資源開銷,有著舉足輕重的地位。

視頻抽幀的幾個(gè)步驟,計(jì)算量非常大,傳統(tǒng)的 CPU 方式抽幀往往受限于 CPU 整體的計(jì)算吞吐,很難滿足低時(shí)延高性能要求。因此,使用 GPU 加速等手段,來對(duì)視頻抽幀做極致的性能優(yōu)化是必然。

應(yīng)用方案

NVIDIA GPU 具備單獨(dú)的硬件編解碼計(jì)算單元,從早期發(fā)布的 Maxwell 架構(gòu)到最新的 Ampere 架構(gòu),都有完善的 API 支持,并且 GPU 上為數(shù)眾多的 CUDA 核心也特別適用于圖像數(shù)據(jù)并行處理加速。目前廣泛使用的推理芯片 NVIDIA T4 GPU,包含兩個(gè)獨(dú)立于 CUDA 的解碼單元,且支持大部分主流的視頻格式,是本案例的應(yīng)用型號(hào)。

視頻抽幀流程大體上包括以下幾個(gè)步驟:視頻解碼、幀色彩空間轉(zhuǎn)換、落盤方式的 JPEG 編碼,如果非落盤,則對(duì)解碼出來的視頻幀做預(yù)處理,然后交給模型進(jìn)行特征提取或預(yù)測(cè)。

pYYBAGKHQP-AWWX1AAARfk7pCwU836.png

其中幀色彩空間轉(zhuǎn)換、JPEG 編碼都涉及像素級(jí)別計(jì)算,非常適合使用 GPU CUDA kernel 來做并行計(jì)算加速。此外,視頻解碼后得到的幀都是未經(jīng)壓縮的原始數(shù)據(jù),數(shù)據(jù)量很大,如果解碼是在 CPU 上進(jìn)行,或者 GPU 解碼后自動(dòng)傳回了 CPU,則需要頻繁做 device(顯存)與 host(主存)之間的原始幀數(shù)據(jù)來回拷貝,IO 時(shí)耗長且數(shù)據(jù)帶寬擁塞,導(dǎo)致時(shí)延明顯增加。 因此,該方案的主要目標(biāo)是盡可能減少 host 與 device 間的數(shù)據(jù) IO 交換,做到抽幀過程全流程 GPU 異構(gòu)計(jì)算,充分利用 NVIDIA GPU 自帶的硬件解碼單元 NVDEC,最大限度減少視頻解碼對(duì)于 CPU 以及 GPU CUDA 核心占用的同時(shí),盡可能低延時(shí)、高吞吐地處理視頻抽幀以及后續(xù)的模型推理。

具體來說,本方案主要從計(jì)算和 IO 兩個(gè)方面著手,解碼部分充分利用了 GPU 通常閑置的 NVDEC 解碼器,其他步驟以像素或像素塊計(jì)算為主,因此使用 CUDA kernel 做并行加速。IO 方面,由于中間過程是原始幀,GPU 數(shù)據(jù)帶寬有限,該方案實(shí)現(xiàn)了全流程 CPU 和 GPU 無幀數(shù)據(jù)交換,最大程度提升性能和吞吐,確保視頻 AI 推理服務(wù)的 GPU 利用率。

計(jì)算優(yōu)化

1. 硬解碼

當(dāng)前線上主力的 GPU 推理卡 T4、P40,以及后續(xù)即將升級(jí)的 A 系列,主流的視頻編碼格式基本都已支持,各卡型支持的具體格式如下:

poYBAGKHQQKATJDxAABlI8RdKQs293.png

調(diào)用 GPU 硬解碼主要有兩種方式,一種是直接使用 NVIDIA 官方提供的 Video Codec SDK,另一種方式是使用 FFmpeg,其已經(jīng)封裝了對(duì) GPU 硬解碼的支持??紤]到目前 T4 GPU 對(duì)視頻格式的支持還不夠完善,因此本文使用的是 FFmpeg 方式,如果遇到 GPU 不支持的視頻格式,只需修改解碼器類型即可快速降級(jí)到 CPU 解碼方案,CPU 和 GPU 兩種模式抽幀的代碼邏輯也較為統(tǒng)一。

以下分別以 FFmpeg CPU 4、8、16 線程,以及 GPU 硬解碼方式,抽取線上 100 個(gè)廣告視頻做離線測(cè)試,平均時(shí)耗對(duì)比如下(CPU 為 2020 年發(fā)布的主流服務(wù)器 CPU):

pYYBAGKHQQWAXmdrAABYkAdPLCk456.png

注:視頻平均大小約 15M,平均時(shí)長 26s,大部分為 720P 視頻;FFmpeg 建議最大解碼線程數(shù) 16

分配給 GPU 模型推理服務(wù)的 CPU 核數(shù)一般不會(huì)太多,因此以 FFmpeg 8 線程、2 worker(在本文中是指單進(jìn)程多實(shí)例的方式)做性能壓測(cè),1000 個(gè)廣告視頻測(cè)試數(shù)據(jù)如下:

poYBAGKHQQeAbXL2AAB_4PM_CJg625.png

由此可見,在 GPU 線上推理環(huán)境,如果充分利用 T4 GPU 2 個(gè) NVDEC 硬件解碼模塊,可在幾乎不影響線上服務(wù) CPU、CUDA 原有 workloads 計(jì)算的情況下,額外增加一倍解碼算力,抽幀 QPS 可在原有基礎(chǔ)上翻倍。此處應(yīng)注意,不同架構(gòu) GPU 所附帶的 NVDEC 硬解模塊數(shù)不同,并且 NVDEC 不支持外部再用多線程操作解碼,應(yīng)當(dāng)根據(jù) NVDEC 模塊數(shù)選擇正確的多實(shí)例多 worker 進(jìn)行解碼。例如 T4 GPU 有 2 個(gè) NVDEC 硬解碼模塊,如果只用單實(shí)例,則硬解模塊利用率將不會(huì)超過 50%。如果服務(wù)對(duì)吞吐的要求高于時(shí)延,則此處 GPU 硬解碼的 worker 數(shù)可以設(shè)為大于 n,充分壓榨硬件解碼模塊。

2. CUDA 色彩空間轉(zhuǎn)換

視頻解碼后得到的幀為 YUV 格式,而通常模型預(yù)測(cè)或其他后續(xù)處理一般需要 RGB/BGR 像素格式,因此需要做一次色彩空間轉(zhuǎn)換,將 YUV 幀轉(zhuǎn)換為模型需要的 RGB 格式。傳統(tǒng)方式是調(diào)用 FFmpeg 的 swscale 模塊來實(shí)現(xiàn),但是該方式只支持在 CPU 進(jìn)行計(jì)算,需要做一次 device 到 host 的數(shù)據(jù) IO,并且非常消耗 CPU 資源,計(jì)算并行度也不高。統(tǒng)計(jì)發(fā)現(xiàn),swscale 計(jì)算耗時(shí)占比接近 40%。

YUV 到 RGB 格式的轉(zhuǎn)換是 3×3 的常量矩陣與 YUV 三維向量相乘,即逐像素地將明度 Y、色度 U、濃度 V 三個(gè)分量按公式線性變換為 R、G、B 三色值(這里的常量矩陣的值取決于視頻所采用的顏色標(biāo)準(zhǔn),比如 BT.601/BT.709/BT.2020,可參見 Video Codec SDK 里面的示例),因此可以很方便地將計(jì)算過程改為一維或二維線程塊的 CUDA kernel 調(diào)用,充分利用 GPU 數(shù)以千記的 CUDA 核心并行計(jì)算來做提速。

**性能:**對(duì)線上 100 個(gè)廣告視頻做性能對(duì)比評(píng)測(cè),CUDA kernel 調(diào)用相對(duì)于 CPU 的 swscale 方式平均提速在 20 倍以上,并且視頻清晰度越高,優(yōu)勢(shì)越明顯。

poYBAGKHQQiAPElQAABi3luX8lQ330.png

3. CUDA JPEG 編碼

如果是在視頻預(yù)處理等場(chǎng)景,則需要對(duì)抽幀結(jié)果做 JPEG 編碼后再落盤保存。JPEG 編碼具體流程如下:

poYBAGKHQQqATdHWAAB5XJLieO8142.png

雖然不同于色彩空間轉(zhuǎn)換的逐像素操作,但也是將整張圖片劃分為 8×8 像素的小分塊分別進(jìn)行離散余弦變換、量化、Huffman 編碼等處理,同樣非常適合用 GPU CUDA core 計(jì)算單元來做并行加速。NVIDIA 從 CUDA Toolkit 10 開始也已經(jīng)封裝了 nvJPEG 模塊提供 JPEG 編碼能力。

需要說明的是,使用 GPU 做 JPEG 編碼,與 CPU JPEG 編碼存在一定比例的像素差異。確保 JPEG 文件頭中各項(xiàng)參數(shù)一致的情況下(壓縮質(zhì)量、量化表、Huffman 表均相同),實(shí)測(cè)像素差異比在 0.5% 左右。由于 JPEG 編碼為有損壓縮,因此解碼后依然存在像素差異,有可能導(dǎo)致模型給出的預(yù)測(cè)結(jié)果存在偏差。例如 OCR 的目標(biāo)檢測(cè)模塊,分別使用 CPU 和 GPU 編碼的 JPEG 圖像作為輸入,預(yù)測(cè)得到的檢測(cè)框坐標(biāo)值在部分 case 上存在一定偏差,從而有概率導(dǎo)致文字識(shí)別結(jié)果出現(xiàn)不一致。一種可行的解決方案,是模型訓(xùn)練也使用 GPU JPEG 編碼的圖片作為輸入,保證模型訓(xùn)練和推理的輸入一致性,從而確保模型推理效果。

**性能:**實(shí)測(cè)線上 1000 個(gè)廣告視頻,CUDA 方式 JPEG 編碼約有 15~20 倍性能提升,同樣清晰度越高性能優(yōu)勢(shì)越大:

pYYBAGKHQQuAK0NPAABs-Cws5wQ730.png

IO優(yōu)化

FFmpeg 使用 GPU 硬解碼后,得到的視頻幀格式為 AV_PIX_FMT_NV12,通過 NVIDIA 提供的 cudaPointerGetAttributes API 做指針類型檢查,為 Host 端內(nèi)存指針。也就是說調(diào)用 NVDEC 模塊解碼后,默認(rèn)對(duì)視頻幀做了一次 device 到 host 的傳輸。

由于這里的視頻幀均為未壓縮的原始像素幀,且原始視頻的所有 FPS 幀都會(huì)做該處理,會(huì)占用大量 GPU 與 host 端內(nèi)存的數(shù)據(jù)帶寬。若有辦法做到 GPU 硬解后的視頻幀,不默認(rèn)傳回到 host 端,而是直接緩存在顯存等待后續(xù)計(jì)算,則可以無縫對(duì)接后續(xù)的模型推理或 JPEG 落盤,省去 device 與 host 端的來回兩次數(shù)據(jù)交換時(shí)耗,且大幅減輕 GPU 與 CPU 間的數(shù)據(jù) IO 吞吐壓力。

為此,可使用 FFmpeg 的 hwdevice 相關(guān)接口,直接得到顯存中的視頻幀。這樣得到的視頻幀格式變?yōu)?AV_PIX_FMT_CUDA,且 Y 和 UV plane 的 data linesize 也由 1088 變?yōu)?1280,使用時(shí)需要注意。此時(shí)使用 cudaPointerGetAttributes 檢查 frame data 指針類型,已經(jīng)是 device 端指針,由此打通了全流程異構(gòu)抽幀的關(guān)鍵一環(huán)。

通過 NVIDIA Nsight Systems 抓取到的性能數(shù)據(jù)可見,cudaMemcpy 由之前的 DtoH & HtoD 來回傳輸變?yōu)橐淮物@存內(nèi)部的 DtoD,時(shí)耗由 173ms x 2 變?yōu)?25ms,吞吐也有不少提升。此外,CUDA kernel 計(jì)算時(shí)間片的連續(xù)性也得到不少改善。

**性能:**實(shí)測(cè)線上 1000 個(gè)廣告視頻,整體性能相較于非硬件緩沖區(qū)方式有 25% 左右的提升,GPU 硬解碼器 NVDEC 資源利用率提升約 30%。

poYBAGKHQQuAcnfjAACmhcLa1Ok195.png

工程優(yōu)化

本文以介紹 GPU 全流程抽幀方案為主,過程中為了把性能做到極致也涉及到一些工程優(yōu)化:

通過顯存預(yù)分配+復(fù)用、AVHWDeviceContext 緩沖區(qū) & JPEG 編碼器復(fù)用等手段,單次抽幀時(shí)耗可再優(yōu)化百 ms 級(jí)別。

將 NVDEC 硬解碼、色彩空間轉(zhuǎn)換、JPEG 編碼、模型推理等步驟,利用 CUDA 多流,并對(duì)每個(gè)環(huán)節(jié)做 Pipeline overlap 并行化處理,可充分釋放每個(gè)步驟的最大計(jì)算性能,進(jìn)一步提升計(jì)算吞吐和資源利用率。

poYBAGKHQQ2ATTGSAABRg-YNdOw164.png

目前有不少算法服務(wù)是基于 Python 進(jìn)行開發(fā)&部署,本方案為保障高性能,使用 C++ 開發(fā)。通過 pybind11 基于 C++ 封裝 Python 抽幀 API,保障算法開發(fā)部署的靈活性與效率的同時(shí),確保高性能的抽幀能力。

不落盤方式,對(duì)接模型推理之前一般需要先做預(yù)處理操作,如果要做到全流程 GPU,需要將預(yù)處理改寫為 CUDA kernel 調(diào)用。這里可以將常用的 CV 類預(yù)處理操作封裝為 CUDA 基礎(chǔ)函數(shù)庫,也可以使用 NVIDIA 已經(jīng)封裝好的 NPP 模塊、DALI 預(yù)處理加速框架等方案。

使用效果及影響

全流程時(shí)耗對(duì)比:

相較于 CPU 8 線程解碼,全流程有一倍左右的速度優(yōu)勢(shì),并且由于幾乎不占用 PCIe 數(shù)據(jù)帶寬,對(duì)模型推理等 device&host 間數(shù)據(jù) IO 基本無影響,在吞吐上也有不少提升。

相較于 Python 算法常用的 ffmpeg-python 方式,有數(shù)倍性能提升。

pYYBAGKHQQ2AVQzCAABAXflDiCg610.png

視頻抽幀優(yōu)化是視頻 AI 推理優(yōu)化中的重要一環(huán),本方案從 GPU 硬件加速的角度出發(fā),分別針對(duì)抽幀各步驟做性能分析&計(jì)算優(yōu)化,解決了中間過程大數(shù)據(jù)量的原始視頻幀 host 與 device 端數(shù)據(jù) IO 交換問題,避免 GPU 與 CPU 間的 PCI-E 數(shù)據(jù)帶寬瓶頸,真正做到全流程 GPU 異構(gòu)抽幀。基于此,可在 GPU 無縫對(duì)接后續(xù)的模型推理(不落盤)以及 JPEG 編碼(落盤)兩種主流的抽幀使用場(chǎng)景,是實(shí)現(xiàn)全流程 GPU 視頻 AI 推理能力的先決條件。同時(shí),充分利用了 GPU 推理環(huán)境通常閑置的 NVDEC 解碼芯片,對(duì)于整體服務(wù)時(shí)耗、吞吐,以及硬件資源利用率均有不錯(cuò)的提升,降低了視頻 AI 推理服務(wù) GPU/CPU 算力成本,在算力緊缺的 AI2.0 時(shí)代有著非常重要的意義。

目前該方案已在騰訊廣告多媒體 AI 的視頻人臉服務(wù)落地,解決了其最主要的抽幀性能瓶頸,滿足廣告流水對(duì)于服務(wù)的性能要求。更多視頻 AI 算法,特別是高 FPS 抽幀場(chǎng)景也在逐步接入優(yōu)化中。

“目前該方案已在騰訊廣告多媒體 AI 的視頻人臉服務(wù)落地,解決了其最主要的抽幀性能瓶頸,滿足廣告流水實(shí)時(shí)處理對(duì)于服務(wù)的性能要求。更多騰訊內(nèi)部視頻 AI 算法,特別是高 FPS 抽幀場(chǎng)景也在逐步接入優(yōu)化中。后續(xù),我們還將與英偉達(dá)一起,探索視頻抽幀與模型推理的最佳結(jié)合方式,力求實(shí)現(xiàn)視頻AI推理的極致性能?!?/p>

向乾彪,騰訊廣告AI工程架構(gòu)師,GPU視頻抽幀項(xiàng)目負(fù)責(zé)人

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10882

    瀏覽量

    212236
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4754

    瀏覽量

    129074
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31155

    瀏覽量

    269494
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    GPU加速云服務(wù)器怎么用的

    GPU加速云服務(wù)器是將GPU硬件與云計(jì)算服務(wù)相結(jié)合,通過云服務(wù)提供商的平臺(tái),用戶可以根據(jù)需求靈活租用帶有GPU資源的虛擬機(jī)實(shí)例。那么,GPU
    的頭像 發(fā)表于 12-26 11:58 ?84次閱讀

    《CST Studio Suite 2024 GPU加速計(jì)算指南》

    許可證模型的加速令牌或SIMULIA統(tǒng)一許可證模型的SimUnit令牌或積分授權(quán)。 4. GPU計(jì)算的啟用 - 交互式模擬:通過加速對(duì)話框啟用,打開求解器對(duì)話框,點(diǎn)擊“加速”按鈕,打
    發(fā)表于 12-16 14:25

    虛擬制作技術(shù)在廣告領(lǐng)域中的應(yīng)用與挑戰(zhàn)

    技術(shù)的每一次革新都為創(chuàng)意的實(shí)現(xiàn)提供了更多可能。隨著虛擬制作技術(shù)日趨成熟及其在廣告領(lǐng)域流程的應(yīng)用,廣告內(nèi)容制作進(jìn)入到了更高效的數(shù)字化時(shí)代。在剛剛落幕的第三屆上海國際虛擬制作大會(huì)暨展覽會(huì)
    的頭像 發(fā)表于 12-06 09:39 ?451次閱讀

    騰訊混元大模型上線并開源文生視頻能力

    近日,騰訊宣布其混元大模型正式上線,并開源了一項(xiàng)令人矚目的能力——文生視頻。該大模型參數(shù)量高達(dá)130億,支持中英文雙語輸入,為用戶提供了更為便捷和多樣化的視頻生成體驗(yàn)。 據(jù)官方介紹,騰訊
    的頭像 發(fā)表于 12-04 14:06 ?175次閱讀

    從版本控制到流程支持:揭秘Helix Core如何成為您的創(chuàng)意加速

    加速
    龍智DevSecOps
    發(fā)布于 :2024年11月26日 13:42:47

    PyTorch GPU 加速訓(xùn)練模型方法

    在深度學(xué)習(xí)領(lǐng)域,GPU加速訓(xùn)練模型已經(jīng)成為提高訓(xùn)練效率和縮短訓(xùn)練時(shí)間的重要手段。PyTorch作為一個(gè)流行的深度學(xué)習(xí)框架,提供了豐富的工具和方法來利用GPU進(jìn)行模型訓(xùn)練。 1. 了解GPU
    的頭像 發(fā)表于 11-05 17:43 ?587次閱讀

    GPU深度學(xué)習(xí)應(yīng)用案例

    GPU在深度學(xué)習(xí)中的應(yīng)用廣泛且重要,以下是一些GPU深度學(xué)習(xí)應(yīng)用案例: 一、圖像識(shí)別 圖像識(shí)別是深度學(xué)習(xí)的核心應(yīng)用領(lǐng)域之一,GPU加速圖像識(shí)別模型訓(xùn)練方面發(fā)揮著關(guān)鍵作用。通過利用
    的頭像 發(fā)表于 10-27 11:13 ?417次閱讀

    GPU加速計(jì)算平臺(tái)是什么

    GPU加速計(jì)算平臺(tái),簡而言之,是利用圖形處理器(GPU)的強(qiáng)大并行計(jì)算能力來加速科學(xué)計(jì)算、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等復(fù)雜計(jì)算任務(wù)的軟硬件結(jié)合系統(tǒng)。
    的頭像 發(fā)表于 10-25 09:23 ?261次閱讀

    有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理

    有沒有大佬知道NI vision 有沒有辦法通過gpu和cuda來加速圖像處理
    發(fā)表于 10-20 09:14

    深度學(xué)習(xí)GPU加速效果如何

    圖形處理器(GPU)憑借其強(qiáng)大的并行計(jì)算能力,成為加速深度學(xué)習(xí)任務(wù)的理想選擇。
    的頭像 發(fā)表于 10-17 10:07 ?208次閱讀

    通過視頻提取及批量取模轉(zhuǎn)換實(shí)現(xiàn)基于STC32的點(diǎn)陣LED動(dòng)畫播放

    通過視頻提取及批量取模轉(zhuǎn)換實(shí)現(xiàn)基于STC32的點(diǎn)陣LED動(dòng)畫播放
    的頭像 發(fā)表于 06-27 02:16 ?401次閱讀
    通過<b class='flag-5'>視頻</b><b class='flag-5'>幀</b>提取及批量取模轉(zhuǎn)換實(shí)現(xiàn)基于STC32的點(diǎn)陣LED動(dòng)畫播放

    聚徽觸控-GPU 工控機(jī)是什么產(chǎn)品

    圖像處理器(Graphics Processing Unit,簡稱 GPU),又被稱為視覺處理單元、圖形核心,其設(shè)計(jì)專注于特定的任務(wù),主要用于加速緩沖區(qū)中實(shí)時(shí)的 3D 圖像構(gòu)建以及顯示相關(guān)的電子運(yùn)算。通常,
    的頭像 發(fā)表于 06-14 09:57 ?297次閱讀

    【RTC程序設(shè)計(jì):實(shí)時(shí)音視頻權(quán)威指南】視頻采集與渲染

    的分辨率,幀率,像素格式,也就是圖像的大小,每秒采集的圖像數(shù)以及硬件輸出的數(shù)據(jù)格式。不同的平臺(tái)都有獲取數(shù)據(jù)的標(biāo)準(zhǔn)流程和方法,在RTC應(yīng)用中,需要獲取數(shù)據(jù)的原始數(shù)據(jù),以便后續(xù)的轉(zhuǎn)換
    發(fā)表于 04-25 08:40

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗(yàn)】(原創(chuàng))7.硬件加速Sora文生視頻源代碼

    完成,準(zhǔn)備輸出視頻 // 調(diào)用硬件加速模塊進(jìn)行文本到視頻的轉(zhuǎn)換 // 將文本緩沖區(qū)的內(nèi)容“傳遞”給硬件
    發(fā)表于 02-22 09:49

    利用GPU加速在Orange Pi?5上跑LLMs:人工智能愛好者High翻了!

    本期視頻將會(huì)給人工智能愛好者們帶來超級(jí)震撼!視頻中,我們將深入了解利用GPU加速在OrangePi5上跑LLMs的精彩世界。最近知乎上的一篇文章《利用
    的頭像 發(fā)表于 01-22 15:29 ?1025次閱讀
    利用<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>在Orange Pi?5上跑LLMs:人工智能愛好者High翻了!
    主站蜘蛛池模板: 91精品乱码一区二区三区| 久久国产乱子伦免费精品 | 色拍拍噜噜噜啦啦新网站| 小女生RAPPER入口| 4k岛国精品午夜高清在线观看| 俄罗斯老妇女BBXX| 久久国产精品永久网站| 秋霞午夜一级理论片久久| 亚洲精品乱码久久久久久直播 | 亚洲黄色大片| 98久久无码一区人妻A片蜜| 国产跪地吃黄金喝圣水合集| 久久受www免费人成_看片中文| 日日干夜夜爽| 一区二区不卡在线视频| 成人 迅雷下载| 九九热最新视频| 色精品极品国产在线视频| 在线视频久久只有精品第一日韩| 调教女M屁股撅虐调教| 久久精品热在线观看30| 三男强一女90分钟在线观看| 在线观看成人免费| 国产69精品久久久久麻豆| 麻豆AV久久无码精品九九| 性欧美FREE少妇XXX| china男士同性视频tv| 精品国产自在现线拍国语| 色爱区综合激情五月综合激情| 中文字幕在线永久| 国产亚洲精品久久7777777| 区久久AAA片69亚洲| 中文字幕亚洲乱码熟女在线萌芽| 国产精品一区二区三区四区五区| 欧美极限扩肛| 在线一本码道高清| 国产亚洲欧美在线中文BT天堂网| 全彩无翼污之邪恶女教师| 最新国自产拍天天更新| 狠狠插综合| 翁公与小莹在客厅激情|