搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

迎接「万物皆可RAG」时代:最新综述展示50多种多模态组合

2025-12-24 13:54:37
来源:

猫眼电影

作者:

蔡承颖

手机查看

  猫眼电影记者 黄洪 报道首次登录送91元红包

大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。

然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。

来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。

论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG

该论文的最大亮点在于其前所未有的广度:

它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。

通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。

表 1:基于输入 - 输出模态组合的 MM-RAG 分类法

在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。

表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用

四大关键阶段剖析 MM-RAG 工作流

基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):

图 1 MM-RAG 的工作流

a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。

b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。

c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。

d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。

论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。

一站式指南:

训练、评估与应用前瞻

除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:

训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。

作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。

 时事1:线上快三网站

  12月24日,长安三万亩,从GDP总量上看,2024年一季度,经济大省广东、江苏、山东继续霸榜前三;浙江、河南、四川、湖北、福建、湖南、安徽紧随其后,在全国排在第四至十名。,现金买球平台。

  12月24日,中新多式联运示范项目在重庆双向开行国际班列,今年以来,摩尔线程、沐曦股份等一批含科量高、稀缺性强的“独角兽”上市,给一级市场投资人带来了财富效应,一些“独具慧眼”的上市公司也现身其中。这些上市公司通过产业基金间接参股,成为资本市场上重要的产业投资力量。,188bet金宝搏在线登录,大赢家旧版体育,百老汇官方网站。

 时事2:云顶国际体育

  12月24日,人工智能赋能医疗创新 2025(第七届)健康大会在杭州举行,不久前,《郑州市加快推进文旅文创高质量发展实施细则(试行)》(以下简称《细则》)印发,从创建国家级、省级文化旅游品牌,旅行社引客入郑,文化旅游新业态发展等方面进行扶持,包括对新成功创建国家级旅游度假区的主体一次性奖励最高可达500万元等。,抢庄斗牛怎么玩网址,tvt体育平台,沙巴体育备用网址手机。

  12月24日,老挝艺术博物馆:“朽木”赋新生 展现老挝历史文化,对于业绩承压,传音回应称,受市场竞争以及供应链成本综合影响,毛利率有所下降,扣非净利润因此有所减少。简单来说,就是新兴市场竞争显著加剧。,kok体育下载,狗博体育官网app,LEG棋牌。

 时事3:欧宝官网体育入口

  12月24日,上海最大数智草莓植物工厂落成 实现365天“草莓自由”,美联储的政策动向一直是黄金市场的最重要风向标。12月10日美联储如期宣布连续三次降息,并启动技术性扩表。12月降息25个基点的决议遭到三票反对,暴露了决策层内部的巨大分歧。分歧主要源于一些决策者更担心劳动力市场降温,另一些人则认为美联储应优先控制高于目标的通胀。会后预测显示,多数官员预计明年仅再降息一次,六位官员倾向于维持利率不变。预示明年美联储进一步降息的门槛提高,降息步伐趋于放缓。,凯时下载手机app,888电玩城官网下载,澳门皇冠账号注册。

  12月24日,勿让“谷圈”乱象圈住未成年人,为提高全人类健康水平,双方继续就全球卫生问题开展密切协作,包括支持世界卫生组织发挥作用及反对将其工作政治化。,最大的网上彩票平台,7m比分,世界杯网上在哪买球。

 时事4:九州酷游体育

  12月24日,宁夏治理欠薪冬季行动成效显著 核实处置欠薪线索超2000件,2021年10月,在接受组织谈话时,靳东矢口否认了与李某某等商人老板之间存在不正当经济利益关系,并多次表示其所讲属实,愿承担一切责任和后果。但几十天后,被采取留置措施的靳东便将自己的严重违纪违法事实和盘托出。因亲清不分,靳东最终倒在了不法商人的“糖衣炮弹”之下,成为金钱的俘虏,走向了腐化堕落。,dafabet888经典版客户端,米乐网登录平台,kok在哪下载。

  12月24日,2025年茶产业综合产值将突破万亿元 迈入量质提升新阶段,6月中旬以来,我国华北、黄淮等地高温肆虐,多地炎热程度同期少见,今明两天(6月14日至15日),北方大部地区高温将短暂缓和,但仍未彻底结束。而在南方,预计19日前,江南、华南以及西南地区东部等地强降雨依然频繁,部分地区暴雨连连,需注意防范暴雨致灾。,ag真人游戏平台注册,多宝买球,扎金花软件。

责编:黄维德

审核:马兆绪

责编:蔡琪瑶

相关推荐 换一换