(7秒深度揭秘)凯时手机APP鸿蒙版v8.384.4431

首页 >新闻 >社会新闻

当AI学会了想象：阿里和中科院如何让视频生成模型突破创意的边界

2025-12-24 07:59:31

来源：

猫眼电影

作者：

蔡岩红

手机查看

　　猫眼电影记者龙俊逸报道首次登录送91元红包

这是一项由中国科学院大学、阿里巴巴高德地图事业部、中国科学院自动化研究所以及清华大学、东南大学的研究团队共同完成的突破性研究。论文由吴美琪、朱家树、冯晓坤、陈楚彬、朱晨等多位研究者撰写，已发表在2025年10月的学术预印本平台上，论文编号为arXiv:2510.14847v2。

一、为什么AI总是在想象力上失手

你有没有试过给AI描述一个奇异的场景，比如"一只骆驼在沙漠里打包行李"或者"一只熊在草地上操控遥控器"？如果你试过，你可能会发现AI生成的视频往往显得生硬、不自然，甚至完全无法理解你的意思。这不是因为AI不够聪明，而是因为它遇到了一个根本性的问题：它从未见过这样的场景。

现在的视频生成模型在处理日常、真实的场景时表现得相当不错。你让它生成一个"人在沙滩上走路"的视频，它可能做得很好。但当你要求它生成一些想象力十足的、超现实的场景时，效果就会急剧下降。这背后的原因很有意思——这些奇异场景涉及的概念之间距离很远，它们在真实世界中几乎不会同时出现。

想象你在学习一门新语言。如果你学的是"苹果"和"红色"这样经常一起出现的词汇，学起来很容易。但如果要你学"紫色的数学"这样的组合，就会困难得多，因为这两个概念在现实中几乎没有关联。AI也是这样。它的训练数据主要来自真实世界的视频，而真实世界中，骆驼就是骆驼，它们走路、吃草，很少去"打包行李"。当AI被要求生成这样的场景时，它就陷入了困境。

二、ImagerySearch：让AI学会做白日梦

阿里和中科院的研究团队提出了一个巧妙的解决方案，叫做ImagerySearch。这个方法的灵感来自一个有趣的心理学理论——人类在想象奇异场景时，会花更多的时间和精力来构建心理意象。换句话说，当你想象"一只熊操控遥控器"时，你的大脑会比想象"一个人走路"时更加努力地工作。

ImagerySearch就是按照这个原理来设计的。它包含两个核心部分，像是两个相互配合的工具。第一个工具叫做"语义距离感知的动态搜索空间"，简单来说就是让AI根据你描述的场景有多"奇异"来调整自己的工作方式。如果你描述的是一个很常见的场景，AI就可以快速生成；如果你描述的是一个非常奇异的场景，AI就会放慢脚步，花更多时间和计算资源来探索各种可能性。

这就像你在做一道菜。如果是炒青菜这样的简单菜肴，你可以快速完成。但如果要做一道从未见过的创意菜肴，你就需要更多时间来尝试不同的配料和烹饪方法。AI也是这样——对于常见的场景，它可以直接套用已知的模式；对于奇异的场景，它需要更多的"尝试"。

第二个工具叫做"自适应意象奖励"。这是一个评分系统，用来判断AI生成的视频有多好。但这个评分系统不是固定的，它会根据你描述的场景的复杂程度来调整自己的评分标准。对于简单场景，它会严格要求视频的美观度；对于复杂场景，它会更加关注视频是否准确理解了你的描述。这就像一个老师在改卷子，对于简单题目要求高，对于难题只要学生理解了核心概念就给分。

三、如何衡量AI的想象力：LDT-Bench的诞生

但问题来了——如果我们要评估AI在想象力上的进步，用什么标准呢？现有的评估方法都是针对真实场景设计的，对于奇异场景就不太适用了。研究团队意识到这一点，决定创建一个全新的评估基准，名叫LDT-Bench。

LDT-Bench的构建过程相当有趣。研究团队首先从大规模的图像和视频数据库中提取了物体和动作。他们从ImageNet-1K中获取了1938种物体（从骆驼到遥控器，应有尽有），从Kinetics-600等视频数据库中获取了901种动作（从走路到打包，五花八门）。然后，他们用一个巧妙的方法来找出那些"最不相关"的配对。

想象你有一张巨大的地图，上面标记了所有物体和动作的位置。距离越远的两个点，就代表它们在现实世界中越不可能同时出现。研究团队就是按照这个逻辑，找出了距离最远的配对，比如"骆驼打包行李"或"熊操控遥控器"。最终，他们构建了一个包含2839个提示的数据集，涵盖了各种奇异的场景组合。

但仅有提示还不够，还需要一套评估方法。研究团队设计了一个叫做ImageryQA的评估框架，包含三个部分。第一部分叫ElementQA，它检查视频中是否出现了提示中提到的物体和动作。比如，如果提示是"熊操控遥控器"，它就会问"视频中出现了熊吗？""熊在操控遥控器吗？"第二部分叫AlignQA，它评估视频的视觉质量和美学效果。第三部分叫AnomalyQA，它检查视频中是否出现了不自然的现象，比如物体突然消失或运动违反物理规律。

这三部分评估就像一个全面的体检。ElementQA检查你是否理解了医生的指示，AlignQA检查你的整体健康状况，AnomalyQA检查是否有任何异常情况。

四、ImagerySearch的工作原理：一场精心编排的舞蹈

现在让我们深入了解ImagerySearch具体是如何工作的。为了理解这一点，我们需要先了解视频生成的基本原理。

现代的视频生成模型使用一种叫做扩散的技术。简单来说，这就像是在倒放一个视频。在正常的视频中，你看到的是从模糊到清晰的过程。但在扩散模型中，过程是反向的——模型从完全的噪声开始，逐步去除噪声，最终生成一个清晰的视频。这个过程分为很多步骤，通常需要几十甚至几百步才能完成。

ImagerySearch在这个过程中插入了一些"检查点"。在这些检查点处，模型会生成几个不同的候选视频，然后用评分系统给它们打分，最后只保留最好的那些，继续进行后续的去噪过程。这就像是在烹饪一道复杂的菜肴时，每隔一段时间就尝一下味道，如果不对就调整调料，然后继续烹饪。

但这里有个聪明的地方——模型不是在每一步都做这样的检查，而是只在特定的几个关键步骤做检查。研究团队通过分析发现，相邻的去噪步骤对视频的改变很小，只有在某些特定的步骤才会产生显著的变化。所以，他们选择了四个关键的检查点（第5、20、30、45步），这样既能保证质量，又不会浪费太多的计算资源。

现在让我们回到ImagerySearch的两个核心部分。第一部分——语义距离感知的动态搜索空间——的工作方式是这样的：首先，模型会计算你的提示中各个概念之间的"距离"。这个距离是通过一个文本编码器（比如T5或CLIP）来计算的。编码器会把每个词转换成一个数字向量，然后计算向量之间的距离。距离越大，说明这两个概念在现实世界中越不相关。

一旦计算出了这个距离，模型就会根据距离来调整搜索空间的大小。具体的公式很简单：候选视频的数量等于基础数量乘以一个与语义距离成正比的因子。换句话说，如果你的提示涉及的概念距离很远，模型就会生成更多的候选视频；如果距离很近，模型就会生成较少的候选视频。这样做的好处是，对于简单的任务，模型可以快速完成；对于复杂的任务，模型有更多的机会找到好的解决方案。

第二部分——自适应意象奖励——是一个更复杂的评分系统。它综合考虑了多个因素，包括视频的运动质量、文本与视频的对齐程度、视觉质量等。但关键的是，这些因素的权重不是固定的，而是会根据语义距离动态调整。对于语义距离大的提示，模型会更加强调文本对齐的重要性；对于语义距离小的提示，模型会更加关注视觉质量。

这就像是一个评委在评判艺术作品。对于一个传统的风景画，评委会严格要求色彩的准确性和构图的美感。但对于一个超现实主义作品，评委就会更加关注艺术家是否成功传达了他的创意意图，而不是过分强调技术细节。

五、实验结果：数字背后的故事

研究团队进行了大量的实验来验证ImagerySearch的有效性。他们在两个主要的数据集上进行了测试：自己创建的LDT-Bench和现有的VBench。

在LDT-Bench上，结果相当令人印象深刻。基础模型Wan2.1的总体评分是48.28分。当应用了ImagerySearch后，评分提升到了57.11分，提升幅度达到了8.83个百分点。这是一个相当显著的改进。更有趣的是，与其他最先进的测试时间缩放方法（比如Video-T1和EvoSearch）相比，ImagerySearch也表现得更好。这说明ImagerySearch不仅有效，而且相比现有的方法有明显的优势。

在更细致的评估中，我们可以看到ImagerySearch在三个方面都有改进。在ElementQA上（检查物体和动作是否出现），从1.66分提升到2.01分。在AlignQA上（检查视觉质量），从31.62分提升到36.82分。在AnomalyQA上（检查异常现象），从15.00分提升到18.28分。这说明ImagerySearch在所有方面都有改进，不是某一个方面特别强，而是全面提升。

在VBench上的表现也很不错。VBench是一个更加全面的评估基准，包含了多个维度的评估，比如美学质量、背景一致性、动态程度等。在这个基准上，ImagerySearch的平均评分是83.48分，比基础模型Wan2.1的78.53分提高了4.95个百分点。更重要的是，ImagerySearch在动态程度和主体一致性这两个维度上表现特别突出，这正是处理奇异场景所需要的。

六、稳定性和可扩展性：ImagerySearch的隐藏优势

除了在评分上的提升，研究团队还发现了ImagerySearch的另外两个重要优势。

第一个优势是稳定性。当语义距离增加时（也就是说，提示变得越来越奇异），不同的模型的表现会出现很大的波动。基础模型Wan2.1的表现会随着语义距离的增加而急剧下降。其他的测试时间缩放方法也会出现明显的波动。但ImagerySearch的表现相对稳定，即使在面对最奇异的场景时，也能保持相对一致的质量。这就像是一个经验丰富的厨师，无论菜肴有多复杂，都能保持相对稳定的质量。

第二个优势是可扩展性。研究团队测试了当增加计算资源时，模型的表现如何变化。他们用一个叫做"函数评估次数"的指标来衡量计算量。结果显示，ImagerySearch的表现随着计算量的增加而持续改进，而其他方法的表现在增加到一定程度后就停止改进了。这说明ImagerySearch能更有效地利用额外的计算资源。

七、消融研究：每个部分都很重要

为了确保ImagerySearch的两个核心部分都是必要的，研究团队进行了消融研究。这就像是在做一道菜时，逐个移除一个配料，看看效果如何。

当只使用基础模型时，VBench的评分是78.53分。当添加语义距离感知的动态搜索空间时，评分提升到81.30分。当添加自适应意象奖励时，评分提升到82.11分。当两个部分都使用时，评分达到83.48分。这清楚地表明，两个部分都有贡献，而且它们的贡献是相加的，这说明它们是互补的。

研究团队还测试了使用固定搜索空间大小而不是动态调整的效果。结果显示，固定大小的搜索空间（无论是0.5倍还是0.9倍）的表现都不如动态调整的好。这进一步证实了动态调整的重要性。

八、与其他方法的比较：为什么ImagerySearch更胜一筹

研究团队还比较了ImagerySearch与其他几种搜索策略的表现，比如Best-of-N（简单地生成N个视频，然后选择最好的）和粒子采样（一种更复杂的采样方法）。结果显示，ImagerySearch的表现都更好。这说明，不仅是动态调整很重要，ImagerySearch采用的具体搜索策略也是经过精心设计的。

九、实际应用的启示

这项研究对于视频生成技术的实际应用有什么启示呢？首先，它表明了一个重要的事实：现有的视频生成模型在处理真实场景时表现很好，但在处理创意、奇异的场景时仍然有很大的改进空间。这对于那些希望使用AI来创作创意内容的人来说是个好消息——虽然现在还不完美，但通过更聪明的方法，我们可以显著改进。

其次，这项研究展示了一个有趣的方向：不一定要重新训练模型或收集更多的训练数据，只需要在推理时使用更聪明的策略，就可以显著改进性能。这对于那些无法访问大量训练数据或计算资源的人来说特别有价值。

第三，这项研究提出的LDT-Bench为未来的研究提供了一个有用的评估工具。现在，研究者可以用这个基准来测试他们的模型在处理创意场景时的能力，而不仅仅是在处理真实场景时的能力。

十、未来的可能性

虽然ImagerySearch已经取得了显著的成果，但研究团队也指出了未来的改进方向。他们计划探索更灵活的奖励机制，可能会考虑使用强化学习或其他高级技术来进一步优化奖励函数。他们也可能会考虑如何将这种方法扩展到其他类型的生成任务，比如图像生成或文本生成。

此外，随着视频生成模型本身的不断进步，ImagerySearch这样的推理时优化方法可能会变得越来越重要。因为即使模型本身变得更强大，处理创意任务的难度仍然会存在，而聪明的推理策略可以帮助模型更好地应对这些挑战。

十一、对AI创意能力的思考

这项研究触及了一个深层的问题：AI是否真的能够进行创意思考？ImagerySearch的成功表明，至少在某种程度上，AI可以通过更聪明的推理策略来模拟创意思考的过程。它不是通过理解创意的本质，而是通过更多地探索可能性空间，并更聪明地评估这些可能性。

这就像是一个作家在创作一部新颖的小说时，不是凭空想象，而是通过大量的阅读、思考和修改来逐步完善自己的作品。AI也可以通过类似的过程来生成创意内容，虽然底层的机制可能完全不同。

说到底，ImagerySearch的核心贡献在于它展示了一个重要的原则：有时候，解决问题的关键不在于拥有更多的知识或更强大的工具，而在于如何更聪明地使用现有的工具。这个原则不仅适用于AI，也适用于人类的许多活动。

Q1：ImagerySearch是什么，它为什么能帮助AI生成更好的创意视频？

A：ImagerySearch是一种在视频生成过程中使用的智能搜索策略。它根据你描述的场景有多"奇异"来动态调整AI的工作方式——对于常见场景快速处理，对于奇异场景则花更多时间和资源探索。它包含两个核心部分：一个根据概念距离调整搜索范围的系统，和一个根据场景复杂度调整评分标准的系统。这样AI就能更好地处理那些在现实中很少出现的创意场景。

Q2：LDT-Bench是什么，为什么需要创建这样一个新的评估基准？

A：LDT-Bench是一个专门用来评估AI在处理创意、奇异场景时能力的数据集和评估框架。它包含2839个提示，涵盖了各种不常见的物体和动作组合。现有的评估方法主要针对真实场景设计，对于创意场景就不太适用。LDT-Bench填补了这个空白，让研究者能够系统地测试和改进AI的创意能力。

Q3：ImagerySearch相比现有的视频生成方法有什么具体的优势？

A：ImagerySearch在多个方面都有优势。在LDT-Bench上，它比基础模型提升了8.83个百分点。与其他最先进的方法相比，它也表现更好。更重要的是，当场景变得越来越奇异时，ImagerySearch的表现相对稳定，而其他方法的表现会急剧下降。此外，ImagerySearch能更有效地利用额外的计算资源，当增加计算量时，它的表现会持续改进。

时事1：365体育买球网

12月24日,冰雪热潮持续涌动多地特色IP绘就全国微笑曲线,海底捞北京合生汇店的相关负责人告诉第一财经记者：“今年过完年到现在，店里一直都很忙，再加上我们门店周围的商超、办公楼、居民区也多，顾客消费群体以年轻人为主，工作日正常每天接待量在300桌左右，节假日周末我们每天的接待量都要超过500桌。今年到店吃火锅的顾客明显比去年多，人流量回来了，人气旺了。”,申搏官网安装。

12月24日,博物馆进入“沉浸时代”，感官残障观众如何“入场”,福克斯新闻撰稿人乔·孔查（Joe Concha）也表示：“亲脸颊就好。或者给一个拥抱。这个就很奇怪，因为他们都知道摄像头在拍他们。”,BOB全站APP,搜米直播体育平台,皇冠体育首页。

时事2：澳门永利是干嘛的公司

12月24日,第二届浙江海外社团联谊大会举行,据《广西日报》5月6日消息，中央批准，庄革同志任广西壮族自治区党委委员、常委。,365bet体育足球官方介绍,bob78体育,世界杯买球认准ga68·me。

12月24日,签约31个项目总投资超62亿元第五届诏商大会在福建诏安举行,报道称，埃尔多安还强调当前应该是一个“团结的时刻”，“在这种时期，我不能容忍有人因为政治利益进行负面宣传”。,升博注册彩金,乐鱼2022世界杯,天博赢了30万提款不了。

时事3：久久棋牌评测

12月24日,国际移民日：华侨华人以主动叙事打破“他者”定义,这也意味着，对于那些迫切想要补上短板的高教弱省来说，努力的赛道方向有所转变——从外引到内培，必须更加重视本土高校实力的培养。,日博体育电子网投,凯发k8娱乐登录,澳博投注官网。

12月24日,湖南江永12支“农闲务工队” 上岗破解用工荒,昊海生科表示，该处罚决定书所涉主体为蒋伟个人，涉及的事项与公司无关，不会对公司日常经营、业务及财务造成重大影响。,2026世界杯投注流程,乐动体育登录,网上世博会。

时事4：188金宝慱手机客户端

12月24日,清华大学成立具身智能与机器人研究院,针对赫什的报告，俄罗斯外交部发言人在社交媒体Telegram上写道，“所有人都要求我对这位美国记者的调查发表评论。我们一再表明俄罗斯对美国和北约（一次、二次、三次、四次、四次、五次、六次）参与这次袭击的立场。”,斗牛看三张牌抢庄技巧,大发888在线官网,亚投彩票官网登录。

12月24日,涟漪漾成浪潮：浙江乡野的进化论与未来式,钟自然出生于1962年8月，安徽桐城人，曾在原地质矿产部和原国土资源部工作多年，2014年任原国土资源部党组成员，中国地质调查局局长、党组书记。,PG电子游戏登陆,188博金宝体育,皇冠集团体育app下载。

【通甬高铁建设“黑科技”：智能造桥机助力特大桥合龙】

【中央经济工作会议，要点来了！｜园来如此】

责编：官建文

审核：刘浩宇

责编：克莱莫