四虎网站网址,总裁h啪肉1v1文,亚洲精品久久久打桩机

MiniCPM-V 2.0: 具備領先OCR和理解能力的高效端側多模態大模型

一背景

今年4月份，面壁智能&清華大學自然語言處理實驗室推出MiniCPM系列的最新多模態版本MiniCPM-V 2.0。該模型基于MiniCPM 2.4B和SigLip-400M構建，共擁有2.8B參數。MiniCPM-V 2.0具有領先的光學字符識別（OCR）和多模態理解能力。該模型在綜合性OCR能力評測基準OCRBench上達到開源社區的最佳水平，甚至在場景文字理解方面實現接近Gemini Pro的性能。簡單來說，就是能夠實現更好地理解圖片中內容，實現精準的“以圖生文”的能力，所見即所得。

本文將通過走馬觀花的方式，初探MiniCPM-V 2.0的新特性。同時也將分享基于愛芯元智的AX650N芯片適配MiniCPM-V 2.0的最新進展，向業界對端側多模態大模型部署的開發者提供一種新的思路，促進社區對端側多模態大模型的探索。

二MiniCPM-V介紹

2.1 MiniCPM-V 2.0特性

● 領先的OCR和多模態理解能力。MiniCPM-V 2.0顯著提升了OCR和多模態理解能力，場景文字理解能力接近Gemini Pro，在多個主流評測基準上性能超過了更大參數規模（例如17-34B）的主流模型。

● 可信行為。MiniCPM-V 2.0是第一個通過多模態RLHF對齊的端側多模態大模型。該模型在Object HalBench達到和GPT-4V相仿的性能。

● 任意長寬比高清圖像高效編碼。MiniCPM-V 2.0可以接受180萬像素的任意長寬比圖像輸入（基于最新的LLaVA-UHD技術），這使得模型可以感知到小物體、密集文字等更加細粒度的視覺信息。

● 高效部署。MiniCPM-V 2.0可以高效部署在大多數消費級顯卡、個人電腦以及移動手機等終端設備。

● 雙語支持。MiniCPM-V 2.0提供領先的中英雙語多模態能力支持。該能力通過VisCPM[ICLR'24]論文中提出的多模態能力的跨語言泛化技術實現。

2.2 多模態“小鋼炮”

MiniCPM-V 2.0與參數規模更大的多模態大模型相比，也表現出優秀的成績，不愧是業界“小鋼炮”。

三芯片介紹

3.1 AX650N

愛芯元智第三代高能效比智能視覺芯片AX650N。集成了八核Cortex-A55 CPU，高能效比NPU，支持8K@30fps的ISP，以及H.264、H.265編解碼的 VPU。接口方面，AX650N支持64bit LPDDR4x，多路MIPI輸入，千兆Ethernet、USB、以及HDMI 2.0b輸出，并支持32路1080p@30fps解碼內置高算力和超強編解碼能力，滿足行業對高性能邊緣智能計算的需求。通過內置多種深度學習算法，實現視覺結構化、行為分析、狀態檢測等應用，高效率支持基于Transformer結構的視覺大模型和語言類大模型。提供豐富的開發文檔，方便用戶進行二次開發。

四上版部署

我們已實現“命令行”和“UI”兩種示例，其中“命令行”版本已上傳到網盤中，歡迎試用。

4.1 命令行版本

測試圖片：

測試結果：

4.2 GUI版本

4.3 性能統計

項目	描述
輸入圖片大小	280 x 280
Image Encoder	0.8s
Input Prompt	96 tokens
Prefill Time	0.4s
Decoder	5 tokens/s

五結束語

隨著大語言模型小型化的快速發展，越來越多有趣的多模態AI應用將逐漸從云端服務遷移到邊緣側設備和端側設備。我們會緊跟行業最新動態，適配更多的端側大模型，歡迎大家持續關注。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

自然語言處理

自然語言處理

+關注

關注
1

文章
618

瀏覽量
13552
愛芯元智

愛芯元智

+關注

關注
1

文章
78

瀏覽量
4830
大模型

大模型

+關注

關注
2

文章
2423

瀏覽量
2640

原文標題：愛芯分享 | 基于AX650N部署MiniCPM-V 2.0

文章出處：【微信號：愛芯元智AXERA，微信公眾號：愛芯元智AXERA】歡迎添加關注！文章轉載請注明出處。

基于AX650N/AX630C部署端側大語言模型Qwen2

本文將分享如何將最新的端側大語言模型部署到超高性價比SoC上，向業界對端側大

發表于 07-06 17:43 ?3510次閱讀

基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX</b>630C<b class='flag-5'>部署</b><b class='flag-5'>端</b><b class='flag-5'>側</b>大語言<b class='flag-5'>模型</b>Qwen2

基于AX650N/AX630C部署多模態大模型InternVL2-1B

InternVL2是由上海人工智能實驗室OpenGVLab發布的一款多模態大模型，中文名稱為“書生·萬象”。該模型在多學科問答（MMMU）等任務上表現出色，并且具備處理多種

發表于 11-18 17:32 ?690次閱讀

基于<b class='flag-5'>AX650N</b>/<b class='flag-5'>AX</b>630C<b class='flag-5'>部署</b><b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>InternVL2-1B

愛芯元智發布第三代智能視覺芯片AX650N，為智慧生活賦能

中國上海 2023 年 3 月 6 日 ——人工智能視覺感知芯片研發及基礎算力平臺公司愛芯元智宣布推出第三代高算力、高能效比的SoC芯片——AX650N。這是繼AX620、

發表于 03-07 10:57 ?1602次閱讀

愛芯元智發布第三代智能視覺<b class='flag-5'>芯片</b><b class='flag-5'>AX650N</b>，為智慧生活賦能

【愛芯派 Pro 開發板試用體驗】愛芯元智AX650N部署yolov5s 自定義模型

愛芯元智AX650N部署yolov5s 自定義模型本博客將向你展示零基礎一步步的部署好自己的yolov5s模型（博主展示的是安全帽

發表于 11-16 19:34

【愛芯派 Pro 開發板試用體驗】愛芯元智AX650N部署yolov8s 自定義模型

愛芯元智AX650N部署yolov8s 自定義模型本博客將向你展示零基礎一步步的部署好自己的yolov8s模型（博主展示的是自己訓練的手

發表于 11-24 20:40

愛芯元智第三代智能視覺芯片AX650N高能效比SoC芯片

愛芯元智正式推出第三代高算力、高能效比的SoC芯片——AX650N。這是繼AX620、AX630系列后，愛芯元智推出的又一款高性能智能視覺芯片

發表于 03-10 17:13 ?4073次閱讀

基于AX650N部署DETR

目標檢測作為計算機視覺應用的基礎任務，一直備受行業應用重點關注。從最早學術界的Two-Stage方案Faster-RCNN，到首個利于工業界高效率部署的One-Stage方案SSD（Single

發表于 05-15 14:27 ?830次閱讀

基于AX650N部署EfficientViT

端側場景通常對模型推理的實時性要求較高，但大部分輕量級的Vision Transformer網絡仍無法在已有邊緣側/端

發表于 05-26 10:30 ?1035次閱讀

愛芯元智AX650N成端側、邊緣側Transformer最佳落地平臺

Transformer是當前各種大模型所采用的主要結構，而ChatGPT的火爆讓人們逐漸意識到人工智能有著更高的上限，并可以在計算機視覺領域發揮出巨大潛能。相比于在云端用GPU部署Transformer大模型，在邊緣

發表于 05-30 11:04 ?1003次閱讀

多模態大模型產業高峰論壇成功舉辦 ChatImg2.0、軟通天璇2.0 MaaS平臺重磅發布

5月30日，“多模態大模型產業高峰論壇”在軟通動力總部舉行。近百位專家學者、行業大咖和產業精英齊聚一堂，共同探討多模態大

發表于 05-31 10:14 ?630次閱讀

基于AX650N部署視覺大模型DINOv2

最近一段時間，基于Transformer網絡結構的視覺大模型呈現出爆發式增長，繼Segment Anything（SAM）之后，Meta AI再次發布重量級開源項目——DINOv2。DINOv2可以抽取到強大的圖像特征，且在下游任務上不需要微調，這使得它適合作為許多不同的應用中新的Backbone。

發表于 06-30 10:07 ?2990次閱讀

愛芯元智AX620E和AX650系列芯片正式通過PSA Certified安全認證

萬物互聯的時代，安全性已成為物聯網產品設計及部署的基本要求。近日，愛芯元智AX620E和AX650系列芯片（包含AX630C/

發表于 04-23 15:45 ?804次閱讀

PerfXCloud 重大更新端側多模態模型 MiniCPM-Llama3-V 2.5 閃亮上架

近日，PerfXCloud完成重大更新，上架了面壁小鋼炮 MiniCPM 系列的端側多模態模型

發表于 08-27 18:20 ?513次閱讀

利用OpenVINO部署Qwen2多模態模型

多模態大模型的核心思想是將不同媒體數據（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態之間的關聯，實現更加智能化的信息處理。簡單來說，多

發表于 10-18 09:39 ?412次閱讀

高通與智譜推動多模態生成式AI體驗的終端側部署

此前，驍龍峰會首日，智譜與高通技術公司宣布合作將GLM-4V端側視覺大模型，面向驍龍8至尊版進行深度適配和推理優化，支持豐富的多模態交互方式

發表于 11-08 09:55 ?172次閱讀