搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-23 09:32:47
来源:

猫眼电影

作者:

武则天

手机查看

  猫眼电影记者 冯导练 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:365登录平台

  12月23日,金融活水精准滴灌,山东硬核科技拔节,证券日报网讯 12月23日,西部牧业在互动平台回答投资者提问时表示,截至12月19日公司的股东总数为2.28万户。,bet8体育怎么样。

  12月23日,西延高铁不同快慢车次怎么选?带你解锁陕北出行新方式,克瑞尼什中国 ETF 基金首席投资官布兰登・埃亨表示,寒武纪等中国人工智能芯片制造商的快速崛起,彰显了中国人工智能及限止行业的创新规模与速度。,下载千亿体育官网,3d推荐号码,8828彩票网址。

 时事2:云顶国际下载

  12月23日,浙江审议通过海洋经济高质量发展促进条例,——深化环保合作,在跨界水体保护、环境污染应急联络、生物多样性保护及固体废物处理等领域加强合作。,365体育足球官网,186棋牌,大富豪3app下载。

  12月23日,中国咖啡主产区云南:司法“抓前端、治未病” 助推产业提质增效,今年初,2024年河南省文化和旅游局长会议在郑州召开,今年河南将全面塑造“行走河南·读懂中国”品牌,力争全年游客接待量突破10亿人次、旅游综合收入突破1万亿元。从2023年“共接待国内游客8.48亿人次,实现国内旅游收入8510亿元”来看,河南今年有望在中部率先完成万亿级的“破门”。,火狐app网站,棋牌游戏门户,你发168app下载安装。

 时事3:kb体育app手机官网入口

  12月23日,山南市第45届雅砻物资交流会开幕 焕发商贸新活力,推文中,斯诺登还附上了发表于1961年4月的一篇有关“猪湾事件”的新闻报道。在这篇报道中,时任美国国务卿的迪安·鲁斯克否认“猪湾事件”是“从美国领土发起的”,鲁斯克当时告诉记者,“古巴发生的事情属于古巴人自己解决的问题”,但美国对共产主义政权的敌人表示同情。,智博体育官网,环球好玩吗?,大赢家的网址是什么。

  12月23日,“十四五”以来贵州形成“一盘棋”的“大交通”格局,据了解,这轮高温以干热、暴晒、地温高为突出特点,并且一天当中高温持续的时间也长,大城市中,像是石家庄、济南、郑州等地甚至从10点持续到19点至20点,可谓“高温陪你上下班”。另外,从6月15日开始,济南高温将再度上演“连续剧”,尤其是下周初的最高气温甚至可达38℃左右,“炎”值不减,公众需密切留意临近预报,做好防暑降温工作。,欧冠篮赛程,真人AG技巧破解,365bet官网在线。

 时事4:9游会老哥俱乐部

  12月23日,王毅同文莱外交主管部长艾瑞万会谈,他警告道,去年也有好几所和斯坦福大学一样著名的高等学府发生过类似的抗议闹事,比如耶鲁大学、加州大学等,让不少业内人士心有余悸,甚至考虑不再录用相关学校的学生。,世界杯买球去哪买,开元app官方版下载,bob综合游戏。

  12月23日,天津师范大学在肯尼亚建立非洲本土中文教师区域培养培训中心(东非),从初期的艰难摸索,到如今的体验对齐、甚至特色反超,鸿蒙生态的“微笑曲线”已清晰可见。面对仍在观望的开发者,同程旅行鸿蒙App商务负责人王志强直言,必须及早布局,才能抓住鸿蒙生态的增长红利,否则很可能会落后于时代大势。,365体育官方中文版ios,什么捕鱼可以赚钱快,和抢庄牛牛同款的棋牌。

责编:威尔史密斯

审核:王松柏

责编:郭佳祖

相关推荐 换一换