猫眼电影
猫眼电影记者 白夜 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:皇冠游戏官网手机版
12月23日,农产品进出口全国第一!“十四五”广东推进乡村产业振兴成效速览→,(2)(货基 + 理财子)日均融出有所回落至0.39万亿元(前值0.65万亿元),其中货基日均融出回落至0.80万亿元(前值0.98万亿元),理财日均融出-0.41万亿元(前值-0.33万亿元);(3)资金面延续宽松,主要非银机构(券商、保险、基金、产品户等)均增加融入。,在线篮球比分。
12月23日,“‘创客在池’首届文旅创新创业群英汇”启幕,菲律宾方面,1974年,政府指示BSP建立一个黄金精炼厂以支持国内黄金生产。BSP的精炼厂在三年后获得了伦敦金银市场协会(LBMA)的认证。,苹果版炸金花赢钱,bet365快速登陆,大满贯手机电玩城。
时事2:赛酷体育app
12月23日,湖南省欧美同学会第二次会员代表大会召开,从交通枢纽转变为旅游资源的集散枢纽,也是郑州发展文旅产业最大的优势。从旅游消费人均支出等指标来看,郑州远高于洛阳、开封等省内城市,与西安相当,是河南文旅摆脱“吸金能力较弱”标签的希望所在。,必威官方网页登录,哪一个365平台有188体育,世界杯怎么竞猜买球。
12月23日,2025首届博鳌金融强国大会开幕 共商金融赋能实体经济新路径,泽连斯基8日晚在与马克龙和朔尔茨举行的联合新闻发布会上再次呼吁称,法国和德国可以向乌克兰提供主战坦克、现代战斗机和远程导弹,以及可在与俄罗斯的战斗中“改变游戏规则” 的导弹。,开元棋牌官网,悠哉棋牌,beat365最新版。
时事3:大发体育网投平台
12月23日,30秒,“呼吸”天津的绿色未来,以三季报为例,今年前三季度,中国医药的营业总收入为258.94亿元,同比下降3.42%,已经连续2年下滑;归母净利润约4.55亿元,同比减少4.64%,已经是连续5年下滑,这一数据甚至比不过10年前——2015年前三季度,公司归母净利润为5.17亿元。,188bet备用网址,永乐互娱地址,世界杯网易彩票投注。
12月23日,广西壮族自治区政协港澳台侨和外事委员会原副主任林玉棠被开除党籍,不过,由于投资巨大,目前也有声音从经济性考量,认为修建这一跨海通道还为时尚早。中国科学院院士陆大道曾在《渤海海峡跨海通道建设与区域经济发展研究》一文的序言中指出,“渤海湾的C形交通,只是几何意义上的,而不是真实的空间经济联系,目前渤海轮渡基本能够满足客运和货运需求”。,亿博登陆,奔驰宝马线上娱乐网址,二八杠返水棋牌。
时事4:亚博网页版
12月23日,北京最新考古研究成果发布 箭扣长城首次发现崇祯五年火炮,据叙利亚军方消息,当地时间12日7时15分左右,叙利亚哈马省、塔尔图斯省部分地区遭以色列空袭,叙利亚防空系统迅速启动并拦截部分导弹,但空袭仍导致3名士兵受伤及部分物质损失。(总台记者 倪紫慧),摩登彩票平台网址,百老汇电子,明牌抢庄牛牛游戏经验。
12月23日,广西第1000台工业人形机器人下线 打造面向东盟的产业基地,尽管莫迪政府利用各种外交手段极大提升了印度的“国际能见度”,但高“能见度”并不等同于实际成效。楼春豪指出,莫迪预计会延续其内政和外交政策,但国内政治变动将对外交走向产生一定影响。他还提到,印度外交的未来走向也可能受到美国大选结果及后续外交政策调整的影响。,ManBetX手机版登录,kok在线登录,乐鱼leyu体育竞彩。
责编:糜棱岩
审核:蒙某海
责编:叶庆春












