搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-26 05:00:47
来源:

猫眼电影

作者:

耿建荣

手机查看

  猫眼电影记者 周佛海 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:万博游戏

  12月26日,日本三季度国内生产总值修正后降幅扩大,截至收盘,上证指数涨0.07%,深证成指涨0.27%,创业板指涨0.41%,全市场成交额约为1.92万亿元,较上一交易日增加392亿元。,能赢现金的斗地主。

  12月26日,日本学者:高市错误言论偏离和平路线 危害国际秩序,当天,台湾北部与中部地区都遭到大雷雨侵扰,各地区发生大树倒塌、变电箱爆炸等灾情,还有飞机航班遭雷击,所幸都平安降落。晚间,台北101大楼也被闪电击中,有民众拍摄到大楼遭受雷击的罕见瞬间,原本只有微弱灯光的天空,在雷击中台北101时,紫光瞬间照亮整个城市,让不少网友惊叹。报道称,台北101大楼配备避雷设施,雷击对建筑物本体并无影响。,乐鱼体育app下载,新濠天地手机版,捕鱼达人2破解版。

 时事2:乐鱼官网注册

  12月26日,民生领域反垄断执法再加力,平台经济成重点,12月10日,苏银理财发布公告称,部分理财产品新增浙江开化农商行、浙江绍兴瑞丰农商行作为销售机构。,男篮世界杯在哪下注,外围盘,银河赌场网站。

  12月26日,克重缩水,量贩零食店“算盘”打向何方?,5月4日的外交部例行记者会上,有记者提问北约计划在日本设立联络处一事。外交部发言人毛宁表示,亚洲是和平稳定的高地、合作开发的热土,不应成为地缘争夺的角斗场。北约持续东进亚太、干预地区事务,势必破坏地区和平稳定,促推阵营对抗,应引起地区国家高度警惕。,龙王捕鱼免费,明博体育打不开,凤凰v02安卓直装下载。

 时事3:澳门皇冠官网在线观看

  12月26日,2025三湘民营企业百强榜发布 各项主要指标稳步提升,新京报讯 据国家空间天气监测预警中心消息,国家空间天气监测预警中心5月11日9时发布地磁暴红色预警:北京时间2024年5月10日23时起发生地磁暴,最大级别达到超大地磁暴(Kp=9)水平,预计未来24小时,磁暴过程仍将持续,后续仍可能发生大地磁暴。,澳门棋牌游戏网站,6up扑克之星有假吗,365足球外围网站下载。

  12月26日,岁末“春绿陇原”绽放丝路风华 新版舞剧《丝路花雨》亮相,双方将就深化同东盟合作加强协调,继续一道努力推动巩固东盟在亚太地区多边架构中的中心地位,提升东亚峰会、东盟地区论坛等东盟主导机制效能。,伟德体育最新地址,AG论坛,凯时k66体育。

 时事4:世界杯买球app基fc3_tv

  12月26日,宁夏银川召开庆祝中国民主促进会成立80周年大会,对此,白宫、美国中情局等美政府机构则紧急否认。白宫国安委员会发言人沃森(Adrienne Watson)称调查报告“完全虚构”,CIA和国务院的发言人回应称,报告“完全是错误的”。,梭哈游戏下载大全,龙域游戏,凯时官方版棋牌。

  12月26日,“小哥礼行”暖杭城:新就业群体共绘文明图景,证券日报网讯 12月26日,瑞德智能在互动平台回答投资者提问时表示,公司暂未布局太赫兹领域。未来如有相关进展,公司将严格按照信息披露规则及时履行披露义务。,澳门星际官方网站下载,博彩网平特报记录,博鱼网站是多少。

责编:李伯华

审核:舒丘尔利埃夫

责编:鲍寿柏

相关推荐 换一换