猫眼电影
猫眼电影记者 赫维留斯 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:狗万体育官网
12月22日,预防流感要做到的5件事,王新利:男,1969年2月出生。曾任民安财险董事长兼总经理;亚太财险副董事长兼总裁。2017年11月起任国任保险执行董事,2017年12月起任合规负责人,2018年4月起任总裁。,百家乐样板。
12月22日,体操奥运冠军黄旭:中华体育精神带给我力量,“一个中国原则得到国际社会普遍支持,是人心所向,大势所趋,不容否认,也不可阻挡。”汪文斌强调,任何打“台湾牌”,搞“以台制华”的图谋,必将遭到国际社会的坚决反对,注定以失败告终。,龙8的网址是多少,ya博体育app,世界杯投注怎么压。
时事2:365bet体育投注网址
12月22日,民企奋进自贸港:“立足海南、服务全球已从愿景变为现实”,黄建生从1993年至2015年担任刘院村村支书。2016年,黄建生升任吕王镇党委委员、副镇长。,鸿博体育投注登录,AG亚官网,bat365在线平台。
12月22日,勿让抢行加塞成为交通事故“导火索” 交替通行可使合流区通行效率提升,李家超还表示,错放国歌事件也涉及谷歌搜索器出现有关国歌的不正确资讯。他说,谷歌作为一个大机构,对于确保国歌资讯正确有道德及法律责任,希望谷歌可以与特区政府共同找出办法解决。李家超称,根据谷歌公开的公司政策显示,公司不会容许错误或违法资讯在搜索器内出现,他认为谷歌有责任及方法处理好相关问题。,欧博平台网址,星速下载app官方,必博体育官网网址查询。
时事3:买体育平台
12月22日,巴西华校与福建名师共探华文教育创新路径,近日,神州控股(00861.HK)旗下神州一诺成功中标签约上海仪电(集团)有限公司(以下简称“上海仪电”)的千万级数据中心搬迁集成服务项目。这是继今年6月神州一诺中标上海仪电智算基础设施服务项目后,双方在短期内达成的又一次重要合作。此次连续中标,不仅体现了上海仪电对神州一诺在“算力再造”领域技术实力与服务品质的充分信任,也标志着双方的合作关系在前期成功合作的基础上得到了进一步巩固与深化。,163娱乐平台GD真人厅,铂爵彩票下载,365bet手机版欧洲。
12月22日,中国海军989编队结束对印度尼西亚友好访问起程回国,盛典之外,有无数开发者虽未站在聚光等下,但他们与鸿蒙始终站在一起。在《盛典之外》栏目中,来自多个领域的开发者向新浪财经讲述了他们的心路历程。这背后既有对国产操作系统情怀层面的支持,更有基于用户与市场的理性判断。,天博手机网站,美高梅app客户端下载,买足球在哪个网站。
时事4:十赌九羸(新图)
12月22日,全国知名民企助力湖南高质量发展大会在长沙举行,去年,民航局、国家发改委联合发文《关于推进国际航空枢纽建设的指导意见》,画出国际航空枢纽的蓝图,提出“3+7+N”国际航空枢纽功能体系。,九州体育网站网址多少,葡京酒店,凯时网址官网。
12月22日,西安警方跨省追捕追回“养老钱”,工银瑞信基金认为,短期国内流动性宽松、无风险利率低位的环境没有发生变化,预计市场整体维持震荡,板块表现将更加均衡,看好出口板块表现和消费板块的左侧布局机会。中期维度,看好A股市场走势,可重点关注核心资产的配置价值。,AG每个平台开奖结果一样吗,网络电玩赌博,凯发 娱乐 k8。
责编:张桥水
审核:宋普选
责编:程昆余












