搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-24 16:52:52
来源:

猫眼电影

作者:

毛廷

手机查看

  猫眼电影记者 陈莹莹 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:皇冠注册娱乐

  12月24日,王毅:学思践悟习近平外交思想 砥砺奋进民族复兴新征程,财政部数据显示,2023年关税2591亿元,同比下降9.4%。2024年一季度关税567亿元,同比下降8.6%。,365在线备用。

  12月24日,磷虾油“零含量”,在透支同仁堂信誉,西安咸阳机场T5,与北京大兴机场、成都天府机场航站楼面积相当。三座机场中规模最小的兰州中川机场T3,面积也相当于上海虹桥机场两座航站楼之和。,世界杯足彩合买投注,足彩世界杯怎么购买,大发888电子网投。

 时事2:mgm买球

  12月24日,乘势而上实现“十五五”良好开局——论贯彻落实中央经济工作会议精神,在加入国任保险之前,邓可的职业生涯长期在阳光保险集团度过,积累了从地方到总部、从前线销售到后台运营的全面经验。,炸金花app下载,美高梅游戏平台,必赢亚洲手机端登录下载。

  12月24日,关注巴以局势:气温下降天气恶劣 流离失所者勉强度日,此前担任福建省委常委、福州市委书记的林宝金,已于今年1月任省人大常委会副主任、党组副书记。,欧亚国际登录网址,葡京真人娱乐,k1体育棋牌官网网址。

 时事3:真人版天天诈金花

  12月24日,中国2025式人民警察制式服装正式列装,刘树林:男,1964年11月出生,曾任中国信达济南办事处高级经理、执行高级经理。2011年6月任信达财险山东分公司总经理、党委书记,2014年5月起任总公司副总裁、党委委员。2015年4月起任执行董事,2016年4月连选连任执行董事,2016年4月起任总裁。,牛游戏网,亚新体育平台网址,澳门国际娱乐澳门真人娱乐平台。

  12月24日,外媒:尽管特朗普称已停火,但泰柬之间的战斗仍在继续,据国泰君安证券,2024年4月,A股沪深北三市上市新股共计5只、首发募资总额27.05亿元,募资规模环比2024年3月下滑54.15%、同比2023年4月下滑94.59%。4月新股发行上市节奏延续放缓态势,单月募资额再度下滑,刷新近五年来低位。2024年前四月,新股上市数量及募资额相比上年同期分别下滑66%和77%。,澳门金沙电玩下载,澳门永利提款,kok快速注册。

 时事4:奥博银河网站

  12月24日,让“伊玛堪”被更多人看见 两名边境民警跨界成“非遗网红”,答:高官磋商是中国东盟重要战略沟通与合作机制。刚才我和东盟同事在亲切友好的气氛中,就新形势下深化全方位合作及共同关心的国际地区问题深入交换意见,达成广泛共识。,巴黎人登录线上,365bet滚球盘网址,aoa体育官网下载链接。

  12月24日,中国人民抗日战争纪念馆举行南京大屠杀死难者国家公祭日悼念活动,极目新闻记者查询发现,在重庆市甘肃商会的微信公众号中,今年1月曾发布了《[新任理事介绍]商会理事——赵菊英》的信息。其中介绍,赵菊英是泸州盛夏之光文化传媒有限责任公司总经理,籍贯是甘肃省嘉峪关市。该页面的照片显示,这个理事赵菊英与社交媒体“赵菊英家庭教育”中的赵菊英是同一人。文章介绍称,泸州盛夏之光文化传媒有限责任公司植根于山城重庆。,捕鱼上下分版,手机澳门皇冠玩的吗,博天堂开户网址。

责编:许泽夫

审核:丹·阿克森

责编:柯林士

相关推荐 换一换