大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
《通化大嘴棋牌》,《首次登录送91元红包》可以微信充值的捕鱼游戏
“金源网投”
qy30千赢国际
……
{!! riqi() !!}
“买球游戏app”{!! reci() !!}
↓↓↓
{!! riqi() !!},归侨陈作义:跨洋归国六十余载 甘为植物当“医生”,太阳城电子游戏,欧洲杯比赛录像回放,新濠通下载,鸿博体育网站是多少
{!! riqi() !!},外交部:中方坚决反对日方为军国主义招魂,足彩310预测,八爪鱼棋牌,沙龙会体育,利记平台网址登录
{!! riqi() !!},中国最大淡水湖鄱阳湖跌破8米极枯水位,万博官网gi83殿com正规,bet36手机app,188体育买球,万博登录不上去
{!! riqi() !!}|扎根实践沃土 书写塞上赞歌——“十四五”时期宁夏努力创建铸牢中华民族共同体意识示范区|yabo22vip开户网址|天博平台下载|mobile体育|江南game网站
{!! riqi() !!}|希拉里:中国在太阳能和电动车等领域的优异成绩令人深刻|九游会赌场网站|永利博在线|真人发音版最新英语国际音标表|kb凯时国际娱乐
{!! riqi() !!}|委内瑞拉:委武装部队宣布新征召5600名士兵|口袋平台app下载|AG直营真人|新宝6平台登陆|单机炸金花……
{!! riqi() !!},中国专家谈AI未来:不是代替人,而是成为新的“纸和笔”,365中文体育,365bet体育备用网站APP,永利会员登录网址,bbin体育官网
{!! riqi() !!},全国台企联常务副会长吴家莹:乘“势”而为 明天会更好,888真人网页版,火狐体育APP下载,im体育和沙巴体育区别,胜负彩比分网
{!! riqi() !!}|中国人民解放军驻香港部队下半旗志哀|博狗网址大全|澳门官网平台|博雅斗地主全部版本|中国10个靠谱的投资平台
{!! riqi() !!},云聚西楚 文化筑梦 “江苏中华文化云课堂”宿迁专场分享会成功举办,世界杯开户(中国平台,日博体育玩法,世界杯直播网站,新平台注册送18
{!! riqi() !!},长三角职业教育“产学研用宣”共同体生态建设在沪启动,乐鱼手机版app正规吗,湘西内幕传真A,永利电玩城网址是多少,天博在线开户
{!! riqi() !!},中印尼民众追忆郑年锦:深耕千岛 情系故土,世界杯竞猜网站有哪些,世界杯安全买球网站,真人网上娱乐平台官网,188bet在线登录
{!! riqi() !!}|专家学者广西共论东南亚中文教育发展与创新|芒果体育官网下载|168网址|联众论坛|百德利手机棋牌
{!! riqi() !!}|一专多能的养生“常青树” 这个滋补“大咖”你吃对了吗?|扎金花手机游戏大全|nba怎么赌注|英皇国际游戏|鸿博股份彩票网站官网
{!! riqi() !!}|业界专家共话健康管理 从“病有所医”到“健有所管”|188bet真人投注|千赢国际在线登录|美高梅电子开户|大游bg视讯app网站
{!! reci() !!},{!! reci() !!}|美《时代》周刊揭晓2025年度人物:“AI缔造者们”|爱游戏登陆官网|真钱牛牛官方网站|澳门621133c0m|雷速篮球比分即时网
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺