【LLM-多模态】Mini-Gemini:挖掘多模态视觉语言模型的潜力
myzbx 2025-04-11 02:35 66 浏览
一、结论写在前面
论文提出了Mini-Gemini,一个精简而强大的多模态VLM框架。Mini-Gemini的本质在于通过战略性框架设计、丰富的数据质量和扩展的功能范围,发掘VLM的潜在能力。其核心是补丁信息挖掘,它通过与高分辨率候选项交互,实现了高效提取细节视觉线索的功能。从数据角度来看,论文精心汇编的高质量数据集确保了准确的视觉-语言对齐,并增强了强大的指令执行能力。此外,论文在Mini-Gemini中支持基于推理的生成,并使当前VLM具备任意到任意的工作流程。论文在几个零样本基准测试中进行了广泛实验,证明了所提出方法的优越性,它不仅超过了之前的领先方法,甚至超过了私有模型。论文希望Mini-Gemini能够为图像理解和VLM引导生成提供一个强有力的基准。
代码和模型可在
https://github.com/dvlab-research/MiniGemini获取。
二、论文的简单介绍
2.1 论文背景
随着LLM的快速发展,赋予多模态输入强大能力正成为当前视觉语言模型(VLM)的一个重要部分。为了弥合模态差距,进行了几项研究来将视觉与LLM结合,从图像到视频。尽管取得了这些进展,但学术界的倡议与像GPT-4和Gemini这样经过大量数据和资源训练的成熟模型之间仍存在显著差距。
就视觉本身而言,图像分辨率是明确表现周围环境并最小化视觉幻觉的核心部分。为此,进行了更多尝试来进一步提高当前VLM中的视觉理解能力。例如,提出了LLaVA-Next和Otter-HD,通过提高图像分辨率来增强基于之前工作的能力。使用更高分辨率的图像增加视觉token数量无疑会丰富LLM中的视觉嵌入。然而,这种改进带来了更高的计算需求和相关成本,特别是在处理多个图像时。此外,现有的数据质量、模型能力和应用范围仍然无法满足加速训练和开发过程的需求。这种情况提出了一个关键问题:如何在学术环境中以可接受的成本推动VLM向成熟模型靠拢?
为了回答这个问题,论文从三个战略方面探索了VLM的潜力,即高效高分辨率解决方案、高质量数据和扩展应用。首先,论文利用卷积网络有效地生成更高分辨率的候选项,从而增强视觉细节,同时保持LLM的视觉token数量不变。为增强数据质量,论文从不同的公共来源汇总了高质量数据集,确保了丰富多样的数据基础。此外,论文的方法将这些增强与尖端的LLM和生成模型相结合,旨在提高VLM的性能和用户体验。这种多方面的策略使论文能够深入挖掘VLM的能力,在可管理的资源约束下取得重大进展。
2.2 论文的方案
Mini-Gemini框架的概念非常简单:利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选项;提出了补丁信息挖掘,以在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘;利用LLM将文本与图像结合,同时实现理解和生成。
2.2.1 双视觉编码器
在Mini-Gemini框架中,可以处理文本和图像输入,也可以单独或结合处理它们。为了阐述清晰,论文考虑同时处理这两种模态。如图2所示,处理过程首先从高分辨率图像开始,通过双线性插值生成相应的低分辨率图像。然后,论文在两条并行的图像流中对它们进行处理并编码为多网格视觉嵌入。特别地,对于低分辨率(LR)流,论文保持传统管线,并采用预训练的CLIP ViT对视觉嵌入进行编码量。这样可以很好地保留N个视觉补丁之间的长程关系,以备后续在LLM中进行交互。至于高分辨率(HR)流,论文采用基于CNN的编码器进行自适应高效的HR图像处理。
2.2.2 补丁信息挖掘
通过上面生成的LR嵌入和HR特征,论文提出补丁信息挖掘来扩展VLM增强视觉token的潜力。特别地,为了在LLM中保持最终视觉token数量的效率,论文将低分辨率视觉嵌入作为查询,旨在从HR候选项中检索相关视觉线索。
此外,所设计的补丁信息挖掘也支持视觉token扩展。如图3b所示,论文可以将视觉token扩展到5N以捕获更多细节。这是通过结合原始图像及其2倍上采样版本而实现的。
2.2.3 文本和图像生成
利用挖掘出的视觉token和输入文本token ,论文将它们连接作为LLM的输入进行自回归生成,如图2所示。与传统VLM[不同,提出的Mini-Gemini支持以文本和文本-图像作为输入和输出,即任意到任意的推理。除了图像理解之外,论文让Mini-Gemini依靠其卓越的图像-文本理解和推理能力来生成图像。
文本-图像指令:为了更好地实现跨模态对齐和指令微调,论文从公开可用的来源收集了高质量数据集。特别是对于跨模态对齐,论文利用了来自LLaVA过滤的CC3M数据集的558K图像-标题对,以及从ALLaVA数据集采样的695K由GPT-4V回复的标题。总共有120万张图像标题用于投影器预训练。
至于指令微调,论文从LLaVA[数据集中采样了643K个单轮和多轮对话(不包括21K TextCaps数据),从ShareGPT4V采样了100K个QA对,从LAION-GPT-4V采样了10K个标题,从ALLaVA数据集采样了700K个GPT-4V回复的指令对,以及从LIMA和OpenAssistant2采样了6K个纯文本多轮对话。
为增强OCR相关能力,论文进一步收集了28K个QA对,包括10K DocVQA、4K ChartQA、10K DVQA和4K AI2D数据。总的来说,有约150万条与图像理解相关的指令对话。此外,论文还收集了13K个与图像生成相关的指令对,将在后面详细阐述。
与生成相关的指令:为支持图像生成,论文进一步使用GPT-4 Turbo构建了一个包含13K条指令的数据集。如图4所示,训练数据涵盖两项任务:(a)简单指令重述:论文采用8K条来自LAION-GPT-4V的描述性图像标题,让GPT-4反向推理出相应的用户输入短语和目标标题(在Stable Diffusion(SD)域中)。(b)上下文提示生成:基于LIMA和OpenAssistant2中的一些高质量真实对话上下文,论文生成适合对话上下文的图像提示,共计5K条指令。对于这两种数据,在每次向GPT-4发出查询时,论文都会从GigaSheet随机抽取5个高质量的SD文本到图像提示作为上下文示例,以获得用于生成的目标提示。
2.3 论文的效果
2.3.1 实验设置
实现细节:论文采用预训练的CLIP ViTL作为LR视觉编码器,预训练的LAION ConvNext-L作为HR视觉编码器来实例化Mini-Gemini。为实现高效训练,论文固定两个视觉编码器,并在所有阶段优化补丁信息挖掘的投影器。与此同时,论文仅在指令调优阶段优化LLM。关于训练方案,论文使用AdamW优化器和Cosine学习率调度对所有模型进行1个epoch的优化。
数据集:为了模型优化,论文构建了高质量的数据用于跨模态理解和生成。主要包括120万对标题对进行模态对齐,以及150万个单轮或多轮对话进行指令调优。此外,论文在广为采用的零样本图像基准测试中报告了结果,包括VQAT(TextVQA)、MMB(MMBench)、MME、MM-Vet、MMMU和MathVista数据集。
2.3.2 主要结果
正常分辨率:在正常分辨率下,Mini-Gemini在各种规模的LLM上都始终优于现有模型。在高效模型类别中,配置为Gemma-2B的Mini-Gemini展现出了优于高效MobileVLM[63]的性能,甚至超过了配备Vicuna-7B甚至13B的InstructBLIP。当采用更大的LLM时,Mini-Gemini的可扩展性就变得明显。给定相同的LLM,经验证提出的Mini-Gemini在所有基准测试中都大幅领先于LLaVA-1.5。
高分辨率:为验证框架对扩展视觉token的支持,论文在表1中进行了LR视觉编码器输入尺寸为672、HR视觉编码器输入尺寸为1536的实验。如上所述,HR视觉编码器主要用于提供高分辨率候选信息。表1中的详细结果显示,Mini-Gemini在更具挑战性的基准测试中也表现出色。例如,该方法在MathVista[70]和MMMU[25]基准测试上与Qwen-VL-Plus不相上下,甚至在广为采用的MMB基准测试上超过了Gemini Pro和GPT-4V。
2.3.3 逐组件分析
补丁信息挖掘:论文首先深入探讨了提出的补丁信息挖掘,并在表2中报告了结果。很明显,将ConvNeXt-L集成为HR图像的视觉编码器,模型会获得显著的提升。当论文进一步将LR分辨率提高到336时,补丁信息挖掘仍然带来了稳定的增益。例如,使用默认的ConvNeXt-L作为视觉编码器时,它在TextVQA、MME和MM-Vet数据集上分别比基线高出3.3%、6.3%和3.5%。这证明了所设计模块在输入分辨率提高时的能力。
视觉编码器:为研究挖掘候选项带来的效果,论文在表2中使用不同的HR视觉编码器进行了实验。从表中论文可以得出结论,对于HR图像使用更大的视觉编码器有助于提高候选质量,但模型会在像ConvNeXt-XXL这样过于庞大的编码器上达到饱和。因此,考虑到效率和计算效率之间的平衡,论文选择ConvNeXt-L作为默认的HR视觉编码器。这一决策是基于它能够提供高质量的视觉信息挖掘,同时保持合理的计算需求,这一点从基准测试的比较性能可以得到证实。
高质量数据:在表3中,论文全面分析了数据组合效果,首先使用集成了补丁信息挖掘的基线模型。整合来自ShareGPT4V的高质量标题会提高视觉对齐能力并带来性能提升。论文在TextVQA基准测试中验证了零样本性能,并将TextCaps数据从训练集中移除,这导致了显著的性能下降,凸显了特定数据类型在训练中的价值。为了弥补这一下降,论文纳入了来自LAION-GPT-4V的其他高质量标题和专门用于OCR的数据,从而增强了模型的OCR推理能力。
视觉token扩展:如图3b所示,设计的补丁信息挖掘能够熟练地处理扩展的视觉token,从而使其在不同输入分辨率下的实用性得到推广。论文在表3中验证了token扩展的有效性。当增加LR和HR输入分辨率时,模型在所有基准测试中都取得了显著增益。论文的经验观察表明,提高分辨率可以大大减少视觉幻觉,从而带来更准确、更可靠的图像理解能力。
2.3.4 定性结果
视觉理解:为了确认Mini-Gemini在实际场景中的视觉理解能力,论文将其应用于图5中的各种理解和推理任务。得益于补丁信息挖掘和高质量数据,Mini-Gemini能够很好地解决几个复杂案例。
图像生成:在图6中,论文全面评估了Mini-Gemini的生成能力。与最近的AnyGPT和ChatIllusion等研究相比,论文更强的多模态理解能力使论文能够生成与给定指令更加对应的文本到图像描述,从而产生更加贴合上下文的图像-文本答复。值得注意的一点是,如图1和图6所示,它能够基于多模态人类指令生成高质量内容,而只使用了纯文本训练数据。这一能力凸显了Mini-Gemini在图像-文本对齐和语义解释方面的强大技能,这些技能在推理阶段能够发挥作用。借助LLM强大的推理能力,它可以在单轮或多轮对话中产生合理的图像-文本输出。
论文标题:Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
论文链接:
https://arxiv.org/pdf/2403.18814.pdf
相关推荐
- 如何设计一个优秀的电子商务产品详情页
-
加入人人都是产品经理【起点学院】产品经理实战训练营,BAT产品总监手把手带你学产品电子商务网站的产品详情页面无疑是设计师和开发人员关注的最重要的网页之一。产品详情页面是客户作出“加入购物车”决定的页面...
- 怎么在JS中使用Ajax进行异步请求?
-
大家好,今天我来分享一项JavaScript的实战技巧,即如何在JS中使用Ajax进行异步请求,让你的网页速度瞬间提升。Ajax是一种在不刷新整个网页的情况下与服务器进行数据交互的技术,可以实现异步加...
- 中小企业如何组建,管理团队_中小企业应当如何开展组织结构设计变革
-
前言写了太多关于产品的东西觉得应该换换口味.从码农到架构师,从前端到平面再到UI、UE,最后走向了产品这条不归路,其实以前一直再给你们讲.产品经理跟项目经理区别没有特别大,两个岗位之间有很...
- 前端监控 SDK 开发分享_前端监控系统 开源
-
一、前言随着前端的发展和被重视,慢慢的行业内对于前端监控系统的重视程度也在增加。这里不对为什么需要监控再做解释。那我们先直接说说需求。对于中小型公司来说,可以直接使用三方的监控,比如自己搭建一套免费的...
- Ajax 会被 fetch 取代吗?Axios 怎么办?
-
大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发!今天给大家带来的主题是ajax、fetch...
- 前端面试题《AJAX》_前端面试ajax考点汇总
-
1.什么是ajax?ajax作用是什么?AJAX=异步JavaScript和XML。AJAX是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,AJAX可以使网页实...
- Ajax 详细介绍_ajax
-
1、ajax是什么?asynchronousjavascriptandxml:异步的javascript和xml。ajax是用来改善用户体验的一种技术,其本质是利用浏览器内置的一个特殊的...
- 6款可替代dreamweaver的工具_替代powerdesigner的工具
-
dreamweaver对一个web前端工作者来说,再熟悉不过了,像我07年接触web前端开发就是用的dreamweaver,一直用到现在,身边的朋友有跟我推荐过各种更好用的可替代dreamweaver...
- 我敢保证,全网没有再比这更详细的Java知识点总结了,送你啊
-
接下来你看到的将是全网最详细的Java知识点总结,全文分为三大部分:Java基础、Java框架、Java+云数据小编将为大家仔细讲解每大部分里面的详细知识点,别眨眼,从小白到大佬、零基础到精通,你绝...
- 福斯《死侍》发布新剧照 "小贱贱"韦德被改造前造型曝光
-
时光网讯福斯出品的科幻片《死侍》今天发布新剧照,其中一张是较为罕见的死侍在被改造之前的剧照,其余两张剧照都是死侍在执行任务中的状态。据外媒推测,片方此时发布剧照,预计是为了给不久之后影片发布首款正式预...
- 2021年超详细的java学习路线总结—纯干货分享
-
本文整理了java开发的学习路线和相关的学习资源,非常适合零基础入门java的同学,希望大家在学习的时候,能够节省时间。纯干货,良心推荐!第一阶段:Java基础重点知识点:数据类型、核心语法、面向对象...
- 不用海淘,真黑五来到你身边:亚马逊15件热卖爆款推荐!
-
Fujifilm富士instaxMini8小黄人拍立得相机(黄色/蓝色)扫二维码进入购物页面黑五是入手一个轻巧可爱的拍立得相机的好时机,此款是mini8的小黄人特别版,除了颜色涂装成小黄人...
- 2025 年 Python 爬虫四大前沿技术:从异步到 AI
-
作为互联网大厂的后端Python爬虫开发,你是否也曾遇到过这些痛点:面对海量目标URL,单线程爬虫爬取一周还没完成任务;动态渲染的SPA页面,requests库返回的全是空白代码;好不容易...
- 最贱超级英雄《死侍》来了!_死侍超燃
-
死侍Deadpool(2016)导演:蒂姆·米勒编剧:略特·里斯/保罗·沃尼克主演:瑞恩·雷诺兹/莫蕾娜·巴卡林/吉娜·卡拉诺/艾德·斯克林/T·J·米勒类型:动作/...
- 停止javascript的ajax请求,取消axios请求,取消reactfetch请求
-
一、Ajax原生里可以通过XMLHttpRequest对象上的abort方法来中断ajax。注意abort方法不能阻止向服务器发送请求,只能停止当前ajax请求。停止javascript的ajax请求...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 简介 (30)
- HTML 响应式设计 (31)
- HTML URL 编码 (32)
- HTML Web 服务器 (31)
- HTML 表单属性 (32)
- HTML 音频 (31)
- HTML5 支持 (33)
- HTML API (36)
- HTML 总结 (32)
- HTML 全局属性 (32)
- HTML 事件 (31)
- HTML 画布 (32)
- HTTP 方法 (30)
- 键盘快捷键 (30)
- CSS 语法 (35)
- CSS 轮廓宽度 (31)
- CSS 谷歌字体 (33)
- CSS 链接 (31)
- CSS 定位 (31)
- CSS 图片库 (32)
- CSS 图像精灵 (31)
- SVG 文本 (32)
- 时钟启动 (33)
- HTML 游戏 (34)
- JS Loop For (32)
