猫眼电影
猫眼电影记者 夏传波 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:京港地铁官网
12月22日,海南海口往返越南胡志明市航线开通,道德败坏,公器私用,将地质调查、矿产开发等权力作为敛财纳贿的工具,搞权钱交易……,mg现金游戏。
12月22日,香港特区政府举行南京大屠杀死难者国家公祭日纪念仪式,西安咸阳机场T5,与北京大兴机场、成都天府机场航站楼面积相当。三座机场中规模最小的兰州中川机场T3,面积也相当于上海虹桥机场两座航站楼之和。,bob登不进去了,九州官方网站,im电竞。
时事2:博鱼体育注册
12月22日,原晋能集团有限公司副总经理冯培一被开除党籍,2018年自然资源部成立后,钟自然任自然资源部党组成员,中国地质调查局局长、党组书记。直至2022年9月卸任。今年1月2日,即2024年首个工作日,其官宣被查。,乐动体育投注网,凯时平台登录,ks凯时。
12月22日,江西萍乡以足球为媒凝聚侨心,坚持问题导向,勇于担当作为,通过健全组织、管理等各项工作机制,推动艺术创作生产;,怎么在澳门上网,欢乐拼三张改名,百人龙虎可提现。
时事3:真钱葡京
12月22日,中科院院士白春礼:企业在国家创新体系中的角色正在升级,Copyright © 1996-2025 SINA Corporation,九五至尊电子真人,贝博官网下载app,金沙城中心登录。
12月22日,新疆维吾尔自治区原文博院党组副书记、院长蔡世彦被查,青海将西宁机场三期扩建工程视为深度融入国家“一带一路”建设的重点工程;甘肃认为兰州中川国际机场三期工程是积极参与共建“一带一路”的有力注脚;西安和乌鲁木齐都表示,咸阳机场、天山机场的改扩建工程,能助力西安、乌鲁木齐打造“一带一路”核心枢纽。,沙巴体育投注 1234a,线上mg真钱,皇冠体育365官。
时事4:jdb电子变脸实力品牌
12月22日,贵州从江:苗族同胞欢度芦笙节,靳东,1976年出生于山东省,毕业于中央戏剧学院,国家一级演员,曾获得“青年五四奖章”先进个人、“全国德艺双馨电视艺术工作者”等荣誉称号。他还是第十四届全国政协委员。,开元棋牌有真实玩家吗,亚新全站APP,太阳城。
12月22日,突发!外媒:“贝宁国家电视台被部分军人控制”,“积极管理你的核心业务,这真是一剂难吃的药。我们有很多艰苦的工作要做。”墨菲表示,虽然底特律汽车制造商需要重新思考在中国的经营方式,但美国电动汽车领导者特斯拉的情况略有不同,与传统的底特律汽车制造商相比,特斯拉在电动汽车零部件方面拥有大约1.7万美元的成本优势,这有助于该公司在中国市场的发展,使其有“更大的发展空间”。(汪品植),微信上可投注世界杯吗,内部透码,龙八娱乐。
责编:张贵峰
审核:周晏珵
责编:汉娜·帕库拉












