搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-28 01:41:34
来源:

猫眼电影

作者:

王世子

手机查看

  猫眼电影记者 克里斯-斯卡莱 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:宝博体育平台登录

  12月28日,“2025从都国际论坛”在广州开幕,富兰克林投顾表示,在三大因素支持下,2026年科技股仍将跑赢大盘。一是AI演进:关注点将从快速应用转向价值创造,这将有助缓解泡沫疑虑。二是创新管道:预计数位劳动力、代理式商务、物理AI、区块链、稳定币、量子运算等多元领域将会取得进展。三是估值支撑:强劲获利成长将降低对本益比扩张的依赖。,果博赌场网站。

  12月28日,跨年玩法多种多样 年轻人愿意为“仪式感”买单,[#特斯拉回应FSD入华#:目前还没有时间表]新京报贝壳财经讯(记者林子)4月28日,对于市场近期关注的特斯拉完全自动驾驶(Full-Self Driving,以下简称“FSD”)入华的消息,特斯拉方面回应称,目前FSD入华还没有时间表。,云顶在线买球,乐鱼APP,天博体育苹果版。

 时事2:天博

  12月28日,让爱滚动:一位特奥滚球教练父亲的长情陪伴,2019年9月,汪争猛的父亲汪绪良做完良性肿瘤手术后,眼睛半失明,去村委会写申请,提交给当地残联办残疾人证。按照相关政策,残疾人可以优先纳入低保,可以享受危房改造补贴、生活和护理补贴等。但不久残联回复,汪绪良家里有营业执照,不符合办证条件。,UedBet赫塔菲,AOA平台首页,真钱牛牛棋牌。

  12月28日,文旅“蹲”下身来 “一米”大有可为,综合美联社、路透社和BBC报道,埃尔多安承认政府对地震的初步应对存在“不足”,承诺会加快处理重建工作,但表示现在情况已经“得到控制”。他还说,冬季天气也是影响救援的一个因素,相信未来的救灾工作“会更好”。,炸金花赌真钱的游戏,纬来体育怎么注册,水果老虎机。

 时事3:好玩的百人牛牛棋牌游戏

  12月28日,商务部:希望欧方克制审慎使用限制性经贸工具,钟自然出生于1962年8月,安徽桐城人,曾在原地质矿产部和原国土资源部工作多年,2014年任原国土资源部党组成员,中国地质调查局局长、党组书记。,新永利国际,3133拉斯维加斯app下载,盛大网络游戏官网。

  12月28日,台专业人士冀两岸携手挖掘AI应用场景,在耿勇看来,银行理财子围绕县域乡村居民的定制化理财产品日益增多,将有助于加快农商行向纯代销机构转型的步伐,因为后者可以将更多精力资源从产品风控转向当地居民理财需求洞察与合规销售。,四川血战麻将现金版,沙巴手机APP,手机澳门电子游戏网站。

 时事4:凯发官网

  12月28日,上海博物馆推出海派旗袍主题展 张信哲个人收藏参展,根据国际文传电讯社,哈萨克斯坦财政部长Madi Takiyev表示,哈萨克斯坦计划在1月至2月发行3亿至4亿美元的熊猫债。,世界杯 开户平台网站,新宝最新地址,ag亚洲是谁开的。

  12月28日,中央政府驻港联络办发言人:坚决支持香港特区依法对黎智英勾结外部势力危害国家安全犯罪予以惩治,据《纽约邮报》等报道,事后邓肯接受采访时表示,当时他的演讲还没开始多久就被强行打断了,他指责副院长与一些左翼学生沆瀣一气攻击自己,“在我看来,这是一个圈套,她和学生是串通好破坏活动的。”,足球比分足彩即时比分网球,bobty综合体育,新宝5平台网址。

责编:张温龙

审核:王昆

责编:唐健

相关推荐 换一换