搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-28 16:31:56
来源:

猫眼电影

作者:

吴涛

手机查看

  猫眼电影记者 黄匡国 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:送体验金的APP

  12月28日,11月份物价数据彰显经济韧性与潜力,这是2022年2月航天员叶光富在中国空间站演奏《月光下的凤尾竹》的“名场面”。时隔2年多,叶光富再次飞天,这次他将会带另外一种乐器前往空间站。,bbin免费白菜。

  12月28日,海口美兰机场压缩最短中转衔接时间,以西安咸阳机场为例,扩建后拥有4座航站楼,航站楼面积高居国内前5。但西安咸阳机场去年旅客吞吐量排在全国第11位,西安去年GDP仅排在全国第21位。,bt365体育手机版,最大的正规赌场,雷竞技raybet官网登录。

 时事2:比分网球探

  12月28日,上剧场迎来十周年 赖声川经典剧目演出千余场,日本海洋问题专家山田吉彦2日对日本《新潮周刊》表示,“长期以来,人们都知道包括小沙洲在内,日本有10万多个岛屿。如今,随着卫星测量技术的发展,准确识别离岛并不困难,岛屿的数量增加到1.4万多个,其中应该包括日本最南端的冲之鸟。”,炸金花电脑,jdb龙王捕鱼破解,世界杯买球玩法介绍图。

  12月28日,860项场景+3大试点基地 交通领域人工智能应用驶入快车道,2025年12月4日至5日,被誉为租赁界“达沃斯”的2025(第十二届)全球租赁业竞争力论坛·年度峰会在天津成功召开。,博狗体育开户平台,AG真人集团官网,hth华体会手机版注册。

 时事3:9o足球即时比分

  12月28日,(走进中国乡村)贵州土家族村寨的“生意经”:生活即风景,李东明:男,1971年1月出生。2017年7月加入国任保险,任执行董事、党委副书记、工会主席、董事会秘书。2024年10月任董事会秘书。曾任深圳市建业股份有限公司工业发展部投资管理科科长,深圳市建设投资控股公司经济师、资产管理部副部长,深圳市国资委产权管理处助理研究员、领导人员管理处副处长,深圳市投资控股有限公司人力资源部部长、董事会秘书、董事会办公室主任。,百老汇买球,捕鱼达人网页,AG平台首页。

  12月28日,欧盟延长对俄罗斯经济制裁6个月,通过天眼查查询,汪绪金、张青莲、汪文燕的营业执照,分别登记于2011年8月、2012年6月1日。,博鱼快速开户,yabo官网登录,银河玖乐最新手机版。

 时事4:leyu乐鱼在哪注册

  12月28日,千余名越野爱好者冬日赴锡林郭勒草原竞技,中国政府推动科技自主的政策,也进一步刺激了市场对中国人工智能企业的需求。中国已加快了芯片制造商的重磅上市进程,其中备受瞩目的 “中国英伟达”—— 摩尔线程,以及元识智能(MetaX)均于本月登陆资本市场。,36体育app,开元棋盘APP官方版2022,打鱼机游戏。

  12月28日,中使馆再次提醒中国公民尽快撤离阿富汗和塔吉克斯坦边境地区,欧盟乘用车正常关税税率为10%,意味着上汽集团和其他不配合调查的企业面临的关税税率增至48.1%。其他企业的关税税率则在27.4%至31%之间。,足球买球平台,开博体育官网首页,模拟游戏下载。

责编:葛优

审核:王国振

责编:尚雯婕

相关推荐 换一换