猫眼电影
猫眼电影记者 仲小萍 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:天博官网APP登录网页版
12月27日,我国船企签订国内单次合作最高金额订单,过去多年来,各地高校尤其是好大学普遍集中在省会城市,成为高教资源布局失衡的突出表现。,在澳门有梭哈项目。
12月27日,中国修订国家通用语言文字法 规范网络空间用语用字要求,韩国国务调整室曾于4月16日发布政府部门联合新闻稿,重申日本福岛核污染水排海计划需从科学、客观层面确保安全性,并符合国际标准的既有立场。,娱乐真人,mg线上平台,易彩堂官方网址是多少。
时事2:百乐门开户平台
12月27日,国际货币基金组织上海中心正式开业,贺晋强调,实现“稳”的目标,关键在于“苦练内功”,这里的“苦”并非苦苦支撑,而是通过针对性提升核心能力筑牢发展基础。,澳门百老汇app端平台,手机单机斗地主,在线游戏平台。
12月27日,英国住院医师流感高峰期启动罢工,重庆取代广州再次晋级“经济第四城”,苏州以微弱优势力压成都,长沙连续被无锡、郑州反超,南通压过西安、佛山,温州则反超大连、徐州拿下“后备军团”第一坐席……,捕鱼达人怎么玩技巧,华体会游戏竞彩,九游会网址大全。
时事3:现金美高梅官网
12月27日,给文物“做CT”?科技“硬核”护宝,毫无疑问,下半年锂价反弹具备坚实的基本面改善作为支撑,这也使得其反弹行情具备较好的持续性。,明博在线官网,12博娱乐地址,凯发k8app下载。
12月27日,2025GIS全球创新展在港开幕 推动全球创科合作,比赛开始后,辽粤大战延续了前两回合的强度,广东队在主场观众的助威下率先发力,取得13分领先优势。上半场尾声阶段,辽宁队连续追分,将分差追至只有3分。下半场,胡明轩连续突破得手,徐杰也命中三分,广东队打出18比5的攻势,再度拉开分差。第四节初,辽宁队主帅杨鸣不满判罚,吃到技术犯规。随着分差扩大到20分以上,广东队提前锁定胜局。,下载百姓彩票app,世界杯买球靠谱app,世界杯买球怎么算积分。
时事4:凯时kb88
12月27日,甘肃高校育“冷门专业”文物医生:“Z时代”学子深耕文物保护修复,相比之下,日本国土地理院对岛屿的定义,就没强调“能维持人类居住”这一条。中国中日关系史学会副会长刘江永3日对《环球时报》记者说,日本现在采用卫星技术或是其他高科技测量技术,这就使得对岛屿的测量结果会更为精确一些。但是日方声称的这些新增加“岛屿”是否符合《联合国海洋法公约》对于岛屿的界定,是否能够要求专属经济区或者大陆架还值得商榷。,ManBetX万博开户,一点红最新传密,21点棋牌在线。
12月27日,宁波海关查获万余只侵权玩偶 含《疯狂动物城》等热门IP,6月16日,广东梅州多地出现大暴雨局部特大暴雨,其中,平远县泗水镇24小时降水达369.3毫米,全市多地受灾严重。16日、17日,梅州连续三次提升防汛应急响应,直至17日9时提升为防汛Ⅰ级应急响应。,捕鱼app上下分,万博体育网站,金百利国际娱乐菲律宾真人。
责编:龙文
审核:布赖恩·克兰斯顿
责编:马周红












