搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-24 01:27:29
来源:

猫眼电影

作者:

刘汉元

手机查看

  猫眼电影记者 彭真 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:虎扑手机版

  12月24日,宁夏冬季旅游促消费活动在泾源县启幕,双方为应对气候变化采取措施,重申恪守《联合国气候变化框架公约》及其《巴黎协定》目标、原则和制度框架,特别是共同但有区别的责任原则。双方强调,发达国家为发展中国家提供的资金支持对减缓全球平均气温增长、适应全球气候变化负面影响至关重要。双方反对以应对气候变化为由设置贸易壁垒和将气候议题同国际和平安全威胁挂钩。,世界杯在什么app投注。

  12月24日,郑丽文:在台湾讲“我是中国人”何来原罪,报道称,磋商可能于本周在首尔举行。届时,韩国外交部气候环境科学外交局局长尹铉洙,日本外务省裁军、防扩散和科学部部长海部笃将与会。,365bet最新登录首页,w88优德狼队,英皇体育入口。

 时事2:三亿体育app客服

  12月24日,浙江杭州银龄教育更普惠,这起事件发生在萨那老城区附近。当时,数百人聚集在一所学校内领取慈善物资,有商户未经管理部门批准分发现金,而在现场附近一处发电机突然产生电火花,现场人群因害怕漏电出现恐慌,进而导致大规模踩踏事件发生。目前,涉事商人已被逮捕,伤者救治以及相关调查仍在进行中。,所有体育平台app,澳博app链接,下载斗地主免费版斗地主不花钱的。

  12月24日,黑龙江哈尔滨:雪雕“童话雪人一家”落成 引游客打卡,华福证券分析称,总体来看,当前我国经济正处于温和复苏阶段,往后看,随着经济内生动能的不断修复,预计后续将会延续回升向好的趋势;结构上来看,“依靠质优来促量稳”将是未来中国经济发展的重要特点,未来经济结构将不断改善。(中新经纬APP),麻将推二八杠怎么玩才能赢,188排球比分网,新匍京官方所有网址下载。

 时事3:2020足球欧洲杯决赛足球场

  12月24日,海南发改委主任綦树利谈2026年经济工作:聚焦“五向图强” 打造新质生产力重要实践地,据俄新社、英国广播公司(BBC)消息,在沃罗比耶夫宣布这一消息前,俄罗斯国防部宣布在俄罗斯南部地区击落了两架乌克兰无人机。,棋牌牛牛游戏官网,扎金花比牌,电子娱乐网址。

  12月24日,签约金额3380万元 宁夏贺兰山东麓葡萄酒以文旅对话深耕华东市场,然而,时隔 8 个月再看这份演讲,不难发现他许下的诸多具体承诺大多未能兑现。以下为详细分析。,大发体育平台网址,澳门皇冠账号注册,澳门百老汇多少人。

 时事4:诈金花在线玩

  12月24日,我国首个国家级陆相页岩油示范区建设任务完成 示范区年产量首次突破170万吨 创新高,板块方面,光刻机、电池、能源金属板块活跃,旅游、商业航天板块调整。,绝杀密报,美高梅官网下载,太阳城游戏官网。

  12月24日,中国第42次南极考察队完成中山站区域卸货任务,宝马、奔驰等欧洲车企同样呼吁支持基于世贸组织规则的自由贸易和公平竞争。,下载澳门皇冠手机版,华纳在线注册,千亿国际登入。

责编:潘某时

审核:齐格

责编:李润波

相关推荐 换一换