搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-24 10:48:25
来源:

猫眼电影

作者:

刘良恒

手机查看

  猫眼电影记者 刘迎 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:葡京app大全

  12月24日,前11月广州海关检疫监管供澳门农食产品1.8万批次,另有证券公司研报显示,近年来,我国高层住房的得房率在70%~80%左右。,龙域游戏大厅。

  12月24日,广东茂名非遗盛典启幕 “冼太爱国战舞”姊妹篇首演,该公司目前有19家股东,11家国有股东中,深投控与深圳罗湖投资控股均为深圳市国有资本投资运营公司,共占国任保险54.622%股权。民营股东共8家,公开关联信息层面无关联关系。,皇冠app苹果官方,伟德官网下载地址,必赢官网网址多少。

 时事2:365体育直播软件网站

  12月24日,郭艾伦复出 四川男篮赛季首轮不敌广州,过去3小时,广东省深圳市南山区和宝安区(石岩、西乡、新安街道)累计雨量已达暴雨,预计强降雨还将持续1至2小时,深圳市气象台2024年6月14日8时59分在上述区域发布暴雨橙色预警信号,深圳市进入暴雨防御状态。,E世博app最新版,博狗在线试玩,赌博手机注册。

  12月24日,《阿凡达3》票房为何遇冷?当“神作”开始重复自己,2。尽量避免在高温时段进行户外活动,高温条件下作业的人员应当缩短连续工作时间。,欧宝app下载入口,天天体育平台官网,大发888平台网址。

 时事3:18luck新利体育登录

  12月24日,危急时刻果断一跃 铁路乘务员站外勇救落水者,证券日报网讯 12月23日,新宝股份在互动平台回答投资者提问时表示,截至2025年12月19日收市后,公司股东总户数27674户,其中机构户数是3329户。,开云手机版登录,金沙亚洲手机版,bg大游。

  12月24日,特朗普宣布向美国农民提供120亿美元救助,受地磁暴影响,我国大部分地区电离层将会出现扰动,短波通信和导航定位会受到不同程度的影响;高层大气密度显著增加,将导致低轨卫星轨道衰减加剧。以上后续效应请相关部门关注,国家空间天气监测预警中心将密切跟踪事件发展,及时发布预报预警信息。,永利会员手机登录,六合神话,澳门壹号赌场。

 时事4:澳门皇冠官网视频直播

  12月24日,中越边城东兴塑新貌:烟火气中添“啡”凡滋味,对于村民所称的申请大病医疗补助受影响,刘长文否认,“申请低保户,才会看家里有没有工商企业。农村合作医疗、大病医疗报销不受工商注册影响,任何人(报销)都一样。”,沙巴体育赌场网站,有没有能上下分的捕鱼游戏,线上金沙网址。

  12月24日,河南11月份规上工业增加值同比增长8.0%,在到访中国前一周左右,马斯克宣布推迟访问印度的计划,当时他给出的理由是特斯拉公司的业务繁忙、自己脱不开身。《印度斯坦时报》《印度时报》等一众印度主流媒体28日在报道其此次访华的消息时纷纷打出“马斯克宣布推迟访印数日后即访华”的标题。印度“今日商业”网站28日直言,虽然此前疯传马斯克访印将会有宣布在印建特斯拉工厂的大动作,但在可预见的未来,特斯拉在印度建厂计划仍具有不确定性。,胜利体育,大发体育好玩吗?,皇冠hga035新版。

责编:陈彦

审核:高明华

责编:李令臣

相关推荐 换一换