搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-26 18:34:09
来源:

猫眼电影

作者:

布斯卡格利亚

手机查看

  猫眼电影记者 秘张铭 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:凯发娱乐网页版注册

  12月26日,与世界各国共享机遇共同发展——扩大高水平对外开放,开创合作共赢新局面,LeoLabs5月9日在推特上发帖称:“自2022年8月4日发射以来,我们观察到多次提高飞航天器轨道高度的大型演习,以及重复部署、编队飞行和卫星物体J(NORADID 54218)的对接的有关动作。我们已经确定,测试航天器2(指可重复使用试验航天器)具有推进能力,并与目标J进行了近距离操作,包括至少两次或可能三次捕获/对接操作。”,凯发娱乐手机登陆版。

  12月26日,泽连斯基称将与特朗普在美国举行会晤,据相关统计,在2017年公布的首批“双一流”建设高校中,北京、江苏、上海分别以31所、15所、13所的数量高居前三,而广东只有5所高校在列,落后差距十分明显。,沙巴在线娱乐,世界杯哪里投注比较稳,大发国际888最新官网。

 时事2:卡塔尔世界杯竞猜网站

  12月26日,追梦大湾区:残特奥会书写粤港澳融合新篇章,非洲的手机市场一直是鱼龙混杂,更多人其实在使用“翻新机”,这也是众多手机品牌并未认真看待非洲市场的原因。,yabo赌场网站,十三张牌游戏,扑克王德州牛仔能赢吗。

  12月26日,千吨级“巨无霸”就位!平陆运河船闸人字门吊装全部完成,编队刚到达任务海区,雷达部位就报告海区出现可疑目标。编队迅速调整阵位,组成攻击、防御两个阵型。此时受短时降雨影响,海上涌浪明显增强,艇身摇摆不定,能见度低。指挥员立即指挥车舵兵保持航向稳定,配合抓取目标。,街机捕鱼达人兑换码领取,bet365怎么开户,赌博去哪个网站。

 时事3:世界杯下注方法

  12月26日,轮椅上的追风少女逆袭成“三冠王”:“凡事发生皆有利于我”,这与河南打造世界文化旅游圣地的目标相辅相成。而其中致胜的关键一招,就是加快推进郑汴洛国际文化旅游目的地建设,这直接决定着文化旅游强省“强不强”,也决定着河南能否在万亿级文旅阵营中争先跃进。,赌搏网址,365体育正规吗,线上彩票直营平台。

  12月26日,广东国有资产“亮家底”:总资产超31.6万亿元,近日,多家磷酸铁锂头部企业相继公布停产检修计划。安达科技公告,为保障生产线稳定,公司自2026年1月1日起对部分产线进行为期一个月的检修,预计减少磷酸铁锂产量3000-5000吨,预计对生产经营不会产生重大影响。德方纳米公告称,计划进行年度设备检修与维护工作,检修时间从2026年1月1日起,预计一个月。湖南裕能计划对部分生产线进行检修,检修时间从2026年1月1日起,预计一个月。,188体育比分,真人在线注册,188金宝慱官网登录。

 时事4:日博体育备用网址

  12月26日,(年终特稿)星河摆渡间,感知中国太空探索“航线”新突破,“因此,邓肯失去了在斯坦福法学院发表意见的权利。”本周四,他受该校联邦主义者协会的邀请为法学院学生演讲,然而他根本没有机会读准备好的讲稿。,mg现金平台,网络斗牛赢钱软件,GD电子钻石狂热。

  12月26日,内蒙古外贸行经贸洽谈活动在北京举行,2025年12月17日,中国证监会一纸《行政处罚决定书》震动资本市场——江苏诺泰澳赛诺生物制药股份有限公司(以下简称“诺泰生物”)因在2021年年度报告中虚增营业收入3000万元、虚增利润总额2595.16万元,并在2023年公开发行可转债文件中编造重大虚假内容,被处以合计4740万元罚款;公司实际控制人及多名高管合计被罚2880万元,总罚金高达7620万元。,爱游戏网页官方,内部人员揭秘ag录像,欧宝官方首页官网。

责编:赵海峰

审核:托尼·瓦德

责编:吴文生

相关推荐 换一换