小型化、私有化, 大廠競逐端側生成式AI
2024年,端側運行生成式AI,幾乎成了Intel、AMD、高通等廠商下一代芯片的標配。
在CES上大火的Rabbit R1,可以利用ChatGPT來操作很多手機端的app,完全自然語言控制,演示視頻讓很多自媒體鼓吹可以拋棄手機了,但是有拿到產品的網友實測后發現,單任務響應時間超過20s,用戶體驗不友好。
在網絡訪問不暢通的情況下,如何才能獲得實時、低延遲的響應?答案是,把生成式AI服務放在端側,而不是在云、數據中心和端側節點之間頻繁傳輸。基于SG2300x打造的端側生成式AI盒子Airbox,Llama-7B的速度可以達到12 tokens/s,StableDiffusion 1s 出圖,讓生成式AI觸手可及。
SG2300X:令人驚喜的端側生成式AI處理能力
產品規格 | SG2300X |
處理器 | ARMA538核2.3GHz |
內存 | LPDDR4x 4.266 Gbps 128bit 68.256 GB/s;最大容量支持16GB |
智能算力 | 24 TOPS INT8;12 TFLOPS FP16/BF16;2 TFLOPS FP32;支持混合精度計算 |
視頻解碼 | H.264 & H.265: 32路 1080P @25fps;最大分辨率支持7680* 4320 |
視頻編碼 | H.264 & H.265: 12路 1080P @25fps;最大分辨率支持7680* 4320 |
圖片編解碼 | JPEG:解碼750張/秒@1080P;編碼250張/秒@1080P;最大分辨率支持 32768 * 32768 |
視頻后處理 | 支持圖像的CSC(RGB/YUV/HSV),resize(1/128~128),crop 支持padding,border,font,contrastandbrightnessadjustment 最大分辨率支持8192*8192,分辨率超過的圖片支持切割處理后拼接 支持8bits輸入格式:Y only,YUV420/YUV422/YUV444 Planar,NV12/NV21/NV16/NV61 Semi-planar,RGB planar and packed,YUV444 packed,YUV422 packed 支持8/16/32bits輸出格式:YUV444/RGB planar 支持8bits輸出格式:Y only planar,YUV420/I420 planar,NV12/NV21 semi planar,RGBY/BGRY planar,RGB/BGR packed |
高速接口 | PCIeGen3X16EP,可配置成X8RC+X8EP,支持級聯 2個以太網RGMII接口,支持速率10/100/1000Mbps;1個SD/SDIO controller;1個eMMC 5.1,總線位寬4-bit |
低速接口 | 1個SPI Flash接口;3個UART接口,3個I2C接口;2個PWM接口,2個風扇轉速檢測接口;32個通用IO |
安全性 | 支持AES/DES/SM4/SHA/RSA/ECC 加速;支持真隨機數產生;支持安全密鑰存儲機制,支持安全啟動,支持Trustzone |
典型功耗 | 20W |
工作溫度 | -40℃~+105℃ |
工具鏈 | 支持TensorFlow / Pytorch / Paddle / Caffe / MxNet / DarkNet / ONNX;支持TensorFlow / Pytorch / Paddle / TensorRT 以及客戶定制的INT8、FP16、BF16量化算法 |
SG2300X處理器擁有24T的算力,能夠流暢運行像LLAMA-2 7B這樣的生成式AI。
SG2300X驚人的算力使其可以在更短的時間內處理更多的數據,實現更快的響應速度,為用戶帶來更加流暢和智能的體驗。
瑞莎 AirBox:國產化邊緣智算設備
瑞莎 Fogwise AirBox是瑞莎計算機團隊研發的搭載SG2300X的邊緣智算盒子,算力高達 24TOPS@INT8,支持多精度(INT8、FP16/BF16、FP32),支持私有 GPT、文本到圖像等主流智能模型部署,配備鋁合金外殼,可在惡劣環境中部署。
AirBox 的核心元器件皆采用國產元器件,且瑞莎計算機擁有AirBox的完全知識產權,無懼“卡脖子”。
Radxa Fogwise AirBox | |
形態尺寸 | 104mm x 84mm x 52mm |
處理器 | SOPHON SG2300X SoC,八核 Arm Cortex-A53(ARMv8)@ 2.3GHz |
TPU | 張量處理單元,計算能力:最高達24TOPS(INT8),12TFLOPS(FP16/BF16)和2TFLOPS(FP32) 支持領先的深度學習框架,包括 TensorFlow、Caffe、PyTorch、Paddle、ONNX、MXNet、Tengine 和 DarkNet |
內存 | 16GB LPDDR4X |
存儲 | 工業級 64GB eMMC 16MB SPI 閃存 提供高速SD卡的SD卡插槽 |
多媒體 | 支持解碼32路H.265/H.264 1080p@25fps視頻 完全處理32路高清1080P@25fps視頻,涉及解碼和AI分析 支持編碼12路H.265/H.264 1080p@25fps視頻 JPEG:1080P@600fps,支持最大32768 x 32768 支持視頻后處理,包括圖像CSC、調整大小、裁剪、填充、邊框、字體、對比度和亮度調整。 |
連接? | 2x 千兆以太網端口(RJ45) 1x M.2 M Key(2230/2242)用于NVMe SSD 1x M.2 E Key用于WI-FI/BT |
工作溫度 | 0°C 到 45°C |
外殼 | 耐腐蝕的鋁合金外殼 |
散熱器 | PWM調速風扇與定制散熱片 |
大算力+大內存,AirBox打開智能本地化潘多拉魔盒
SG2300X中運行的 Llama-7B 模型,權重量化為 INT4,計算采用 FP16,在計算第一個 token 的時候算力利用率最高達到了80%,后續的推理有kvcache 加持,算力需求有所下降,數據搬運的時間完全覆蓋了計算的時間,瓶頸從計算來到了帶寬上。
而 StableDiffusion 類的模型,全程都會有密集的算力需求,所以如果想要同時高效運行 LLM 和 Stable Diffusion 類模型,大算力和大內存都是需要的,Airbox 采用的主控 SG2300x 擁有 24TOPS 的 INT8、12TFLOPS 的 FP16 以及 16G 的內存、128bit帶寬,恰逢其時。
本地運行并且把響應時間控制到 1s 以內,將極大地提升用戶體驗。以 qwen-7b 模型為例,跑在 Airbox 上的 latency 為 0.6s,后續推理的速度達到 12 token/s,能夠滿足自然語言問答、語音交互等場景的實時性需求。
Airbox 同時也是一個完整的運行 Ubuntu Linux 的服務器,它可以支持 CASAOS,獨立提供服務,只要聯網的設備,就能共享它的算力,古董PC機、平板、手機、NAS、音箱、故事機、電視等設備都能擁有生成式AI的能力,”一機多用“ 已成為現實。
¥2699!極致性價比,讓每個人都擁有端側智能設備
對比目前主流的端側算力產品,AirBox本地運行生成式AI的效率如何呢?
以Nvidia Jetson 系列多款支持生成式AI的設備為例,京東商城上 Jetson Orin 32G版本售價 8015 元,64G 版本 15600 元。
AGX Orin 通過 MLC 加速之后 Llama-7B 47tokens/s,Llama-2-13B 25 tokens/s:airbox 上 Llama2-7B 性能是 12 tokens/s, Llama2-13B 性能是 6 tokens/s,可以支持int4、int8、fp16精度,llama2 及其各種變種模型性能相似;單芯最大可以跑20B-int4的模型。
(注:Orin數據來源英偉達官網;此處數據越高越好)
經測試發現:AGX Orin和AirBox的每人民幣(產品售價)可獲得的每秒token數(實際性能),AirBox有著顯著的優勢。
Llama-7B:
AGX Orin(64G)≈0.00301 每秒token數/每人民幣
AirBox≈0.00445 每秒token數/每人民幣
Llama-13B:
AGX Orin(32G)≈0.00160 每秒token數/每人民幣
AirBox≈0.00222 每秒token數/每人民幣
AGX Orin上 Stable Diffusion 每張圖耗時 2.2s,SDXL 耗時 23.1s;Airbox使用LCM加速之后,SD1.5 耗時 1.1s,SDXL耗時 7.4s。
(注:Orin數據來源英偉達官網;Orin未標明步數,此處假設都是20步;此處數據越低越好)
豐富的生態應用
瑞莎 Fogwise AirBox 可提供卓越的智能性能,滿足您對強大計算能力的需求。這款小巧但功能強大的設備可與 Tensorflow、Pytorch 和 Caffe 等領先的深度學習框架無縫兼容,為用戶提供便攜、高效的智能體驗。無論您是制造商、智算愛好者、業余愛好者還是專業人士,Fogwise AirBox都是您的最佳選擇。
支持LLama 3:Meta 最新開源生成式AI
Meta 表示,Llama 3 在多個關鍵基準測試中展現出卓越性能,超越了業內先進的同類模型。無論是在代碼生成、復雜推理,還是在遵循指令和可視化想法方面,Llama 3 都實現了全面領先。該模型在以下五個基準測試中均表現出色:
MMLU(學科知識理解)
GPQA(一般問題解答)
HumanEval(代碼能力)
GSM-8K(數學能力)
MATH(高難度數學問題)
面對 Llama 3 如此激動人心的性能,Airbox 團隊積極響應,快速將 Llama 3 8B 移植并成功在 Airbox 上運行。以下視頻展示了 Llama 3 8B 在 Airbox 上的運行情況:
(注:Llama 3 8B 知識更新到 2023 年 3 月)
可以看到,Llama 3 8B 在 Airbox 上的運行表現極為流暢,達到了 9.6 token/s 的處理速度,已充分展現出其實用價值。
AirBox 團隊率先推出基于AirBox的Llama 3 8B 的在線體驗,歡迎各位切身感受來自 Llama 3 的高超性能與 AirBox所提供的澎湃算力。
關注瑞莎公眾號回復【airbox】即可快速體驗
(注:服務基于單個 AirBox 部署,如同時體驗人數較多,可能會出現排隊情況,如需深度體驗,建議您在流量低峰時進行)
支持CASA OS:輕量且功能豐富的開源面板系統
通過CASA OS 一鍵安裝 AirBox 生成式AI應用
目前已支持 Stable Diffusion、Whisper、ImageSearch、ChatDoc等熱門模型,一鍵輕松安裝,免去繁瑣環境配置。
文生圖、圖生圖:為您的靈感增添翅膀
AirBox 團隊針對 StableDiffusion 進行深度優化和適配,極速出圖。支持在線模型更換。
ChatDoc:讓AI讀懂你的文件
讓 AirBox 成為你的私人數據管家。
Whisper:上百種語言實時轉文本
Whisper 這個高效的語音識別模型能夠實時將語音轉換為文本,支持近百種語言,極大地提升了信息獲取的便捷性和準確性。無論是會議記錄、實時多語翻譯還是為視聽障人士提供實時字幕,Whisper 都能提供強大的支持,教育、醫療、法律等多個領域都將受益于其精準和快速的語音轉錄服務。
未來,以LLaMa、Stable Diffusion、Whisper 等生成式AI模型為基座,將誕生更多模態的交叉應用,催生出前所未見的智算能力,覆蓋語音、圖像和文本等多個領域。設想這樣一個場景:一個全能的智能個人助理,Whisper加TTS模型提供真實的多語種能力,實時翻譯和轉寫全球任何一種語言的對話,同時利用Stable Diffusion創造出視覺內容來輔助溝通,這將徹底改變國際會議、遠程教育和全球合作的方式,加速數字世界的到來!
-
芯片
+關注
關注
459文章
51568瀏覽量
429769 -
計算機
+關注
關注
19文章
7575瀏覽量
89093 -
AI
+關注
關注
87文章
32439瀏覽量
271613
發布評論請先 登錄
相關推薦
物聯網 + 設備管理,讓管理觸手可及

聚云科技榮獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證 助力企業加速生成式AI應用落地
打破技術壁壘!AWFlow讓嵌入式軟件開發觸手可及

OpenAI計劃開發可替代手機的生成式AI專用終端
FLIR紅外熱像儀讓科技溫度觸手可及
智慧交通,讓科技觸手可及!

亞馬遜云科技推出生成式AI服務Amazon App Studio
芯原AI技術研討會:引領嵌入式AI新潮流
飛騰云——讓高端音質觸手可及

評論