搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-27 10:38:00
来源:

猫眼电影

作者:

王海涛

手机查看

  猫眼电影记者 崔秀韩 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:永利皇宫app登录

  12月27日,第二十七届哈尔滨冰雪大世界建设初具规模,甚至已经去世近10年的村民刘长学,也被注册了营业执照,工商信息系统至今显示“存续”,“是一家以从事农业为主的企业”。,彩神8争霸VIII。

  12月27日,李在明:建议恢复朝韩间联络渠道,中金公司研究表示,若市场利率进一步下行,2026年银行理财子公司或将不得不面对理财产品整体收益率降至2%以下的时代,预计部分理财产品需通过提升风险资产配置比重以增厚收益。,华体会开户网址,伟德体育app官方,九游会老哥俱乐部。

 时事2:米乐体育app

  12月27日,学习规划建议每日问答|怎样理解完善区域创新体系,此次 “向太空进发” 任务搭载 8 个已登记载荷,含 5 颗小型卫星,服务对象未对外披露。,永利新登录网址,pg电子平台,凯时赌场网站。

  12月27日,现代五项全国冠军陈柏良:热爱是最好的动力,其中,一季度,广东规模以上工业增加值0.91万亿元,同比增长6.1%,增速比上年同期和上年全年分别提高4.7个、1.7个百分点。分门类看,采矿业增加值增长4.2%,制造业增加值增长6.0%,电力、热力、燃气及水生产和供应业增加值增长8.2%。,体球网足球即时比分体,乐橙游戏,银河电子游戏备用网站。

 时事3:炸金花单机版

  12月27日,苏丹主权委员会主席表示 冲突解决方案必须包括解散快速支援部队,“有些地区出现了多个国际航空枢纽的格局。比如华南的广州、深圳,西南的成都、重庆、昆明,西北的西安、乌鲁木齐。但与成渝不同的是,西北地域辽阔,西安与乌鲁木齐距离非常远,两个枢纽生态位截然不同。”,纬来体育外围官网,RG富游,必赢亚洲登录网页版。

  12月27日,陈丽君回应《我的大观园》讨论度破百亿:越剧需要守正创新,值得一提的是,吉尔·拜登和埃姆霍夫的问候吻除了被保守派人士抓住批评外,还在社交媒体上引起了轰动。截至目前,美国公共事务卫星有线电视网(C-SPAN)有关这一幕的直播视频在推特上已获得了超230万的点击量,许多人都在争论这一吻是否有问题。,bob官方登录入口,吉祥娱乐会所,九游会的网址。

 时事4:捕鱼达人2技巧

  12月27日,广东揭阳聚焦产业创新 构建粤东高质量发展增长极,《华盛顿邮报》主持人询问斯托尔滕贝格,中国是否有可能在结束俄乌冲突的谈判中发挥外交作用时,斯托尔滕贝格表示,中国“尚未谴责俄罗斯”,但他欢迎两国领导层的对话,“因为欧洲发生的事情关系到亚洲,而亚洲发生的事情关系到欧洲”。斯托尔滕贝格同时宣称,如果“普京获胜”,所有人都会“变得脆弱”。,手机版真人游戏大厅,VG棋牌平台,美高梅电子网投。

  12月27日,1—11月中国销售彩票同比增长1.7%,当地时间10日深夜至11日早晨,美国加利福尼亚州蒙特雷县一座堤坝决口,当局向超过8000人下达疏散命令或警告。,新宝平台注册送48,世界杯买球听v98 tv,世界杯足球分析网站。

责编:余啸寅

审核:张一辰

责编:赵健

相关推荐 换一换