猫眼电影
猫眼电影记者 肖大可 报道首次登录送91元红包
大模型最广泛的应用如 ChatGPT、Deepseek、千问、豆包、Gemini 等通常会连接互联网进行检索增强生成(RAG)来产生用户问题的答案。随着多模态大模型(MLLMs)的崛起,大模型的主流技术之一 RAG 迅速向多模态发展,形成多模态检索增强生成(MM-RAG)这个新兴领域。ChatGPT、千问、豆包、Gemini 都开始允许用户提供文字、图片等多种模态的输入。
然而,目前对于 MM-RAG 的应用和研究都还处于非常初级的阶段,现有的 MM-RAG 研究以及综述论文主要聚焦于文本和图像等少数模态组合;音频、视频、代码、表格、知识图谱、3D 对象等多种模态的组合均可用于检索增强生成,却仅有很少的探索和研究。这使得研究者和开发者难以全面把握 MM-RAG 的技术脉络和广阔的应用空间。
来自华中科技大学、复旦大学、中国电信、美国伊利诺伊大学芝加哥分校的研究者们共同发布了一篇全面覆盖几乎所有模态作为输入和输出组合的MM-RAG综述来全面且系统化地阐述这个广阔的研究和应用空间。
论文标题:A Comprehensive Survey on Multimodal RAG: All Combinations of Modalities as Input and OutputTechRxiv: https://doi.org/10.36227/techrxiv.176341513.38473003/v2GitHub 项目主页: https://github.com/INTREBID/Awesome-MM-RAG
该论文的最大亮点在于其前所未有的广度:
它首次覆盖了几乎所有可能使用的模态组合作为输入和输出,包括文本、图像、音频、视频、代码、表格、知识图谱、3D 对象等。
通过这种全面的梳理,作者们首先揭示了 MM-RAG 领域中庞大的潜在输入 - 输出模态组合空间,并指出了其中尚未被充分探索的空白(如表 1 所示)。在作者提出的 54 种潜在组合中,目前只有 18 种组合存在已有研究(表 1 中绿色对勾的格子),许多极具应用价值的组合 —— 例如 “文本 + 视频作为输入,生成视频作为输出”—— 仍是一片亟待开拓的蓝海。
表 1:基于输入 - 输出模态组合的 MM-RAG 分类法
在此基础上,作者们构建了一个基于输入 - 输出模态组合的全新 MM-RAG 分类法,不仅系统性地组织了现有研究,还清晰展示了不同 MM-RAG 系统的核心技术组件(如表 2 所示),为后续研究提供了统一框架和方法参考。
表 2不同输入输出模态下多模态 RAG 的核心技术组件、任务和应用
四大关键阶段剖析 MM-RAG 工作流
基于这个新的分类法,该综述深入分析了MM-RAG系统的工作流程,并将其划分为四个关键阶段(如图 1 所示):
图 1 MM-RAG 的工作流
a)预检索 (Pre-retrieval): 数据组织和查询的准备工作。
b)检索 (Retrieval): 高效准确地从海量多模态知识库中找到相关信息。
c)增强 (Augmentation): 将检索到的多模态信息有效地融入到大模型中。
d)生成 (Generation): 根据输入和增强信息生成高质量的多模态输出。
论文详细总结了每个阶段的常用方法,并讨论了对于不同模态针对性的优化策略,为构建高性能的MM-RAG系统提供了实用的技术指导。
一站式指南:
训练、评估与应用前瞻
除了技术流程,该综述还提供了构建 MM-RAG 系统的一站式指南:
训练策略: 讨论了 MM-RAG 系统的训练方法,以最大化其检索和生成能力。评估方法: 总结了现有的MM-RAG 评估指标和 Benchmark,帮助研究者评估系统性能。应用与未来: 探讨了 MM-RAG 在多个领域的潜在应用,并指出了未来的重要研究方向。
作为首个覆盖所有常见输入 - 输出模态组合、并系统化解析了 MM-RAG 的工作流、组件、训练、评估等核心技术的综述,该论文不仅为研究者提供了索引式的知识入口,也为产业应用提供了全面的技术参考。论文作者还提供了持续更新的资源库,方便读者追踪最新进展。
时事1:大赢家体育彩票
12月25日,从“楼宇孤岛”到“青春网格” 山西晋城激活新兴青年力量,对于中国来说,与一个地区的合作模式也不是新鲜事物。例如,中国与东盟建立了“10+1”机制。,310足彩预测。
12月25日,(年终特稿)金锣声连响 香港为排名跃升写下进击注脚,斯坦巴赫继而表示,她会留下来听听邓肯的演讲,她也理解学生们认为他的观点“伤害太大”,称学校可能需要重新考虑其言论自由政策。,彩之星下载,9博体育,英皇娱乐平台首页。
时事2:亿博体育真人百家乐
12月25日,重庆:近80幅美术作品亮相 展示中国传统山居哲学与现代人居环境,四是依托金融科技“新赋能”。科技正不断拓宽资产管理行业的生产可能性边界。唯有将投资、运营、风控、合规等环节的数据模型与决策链条,通过AI及信息科技进行优化整合,才能切实提升具有中国特色的资产管理能力。,凯时入口登录,必威国内精品亚州,365bet体育官网手机版ios版。
12月25日,“侨聚云南·同心圆梦”收官 发挥“侨”力量促共同发展,2023年,唐山、徐州、大连、温州GDP分别为9133.3亿元、8900.44亿元、8752.9亿元和8730.63亿元,是最有希望在一两年内冲击万亿GDP的“种子选手”。在去年同期较高的增速基础上,今年一季度,四座城市均跑赢全国大盘。,bwin官网,CQ9电子游戏跳高高,德扑手机游戏。
时事3:盛兴线路导航sx2833
12月25日,中国体育部门与国际奥委会开展运动与健康合作,此外,当前很多AI仅提升文本/图片加工效率,而非真正的决策AI——决策AI是判断“说什么能打动用户、用什么渠道转化最高”,这才是促成理财、保险、基金销售的关键。,世博体育软件下载官网,手机网赌网址,日博365客户端。
12月25日,我国推动ISO立项首个工业废水毒性削减国际标准,他说,作为涉外领域的基础性法律,有必要对反制和限制措施作出原则性的规定:中国的核心利益不容损害,主权和领土完整不容侵犯,对于损害中国主权安全发展利益的行为,侵犯中国公民合法权益的行为,我们在法律中作出相关规定,予以坚决反制,是正当和必要的。,天博体育官方版,贝博2021vom,赌钱app下载官网。
时事4:网投平台总站
12月25日,第十届青葱计划“青葱校园行·成都站”举办,黄建生说,今年,他已经接近退休年龄,基本退居二线。今年4月底,村民发现异常情况后,村委会统一核查,打来电话,黄建生才发现,自己名下也于2013年底注册了“三个工商营业执照”。黄建生称,自己从部队转业回来就在村里当干部,从未做过生意。,AG亚游最新地址,皇冠国际真人在线娱乐平台,官方美高梅国际代理。
12月25日,英国11月通胀率降至3.2% 创八个月新低,瑞银全球财富管理在本月发布的一份报告中,将中国科技板块评为 “最具吸引力” 标的。报告指出,投资者寻求地域多元化配置,加之中国 “强劲的政策支持、技术自主战略推进以及人工智能商业化进程提速”,共同推动了该板块的投资价值。,ag体育官网下载,edf一定发手机版,bet9九州登录入口。
责编:周伟艺
审核:汪万里
责编:程立双












