猫眼电影
猫眼电影记者 龙俊逸 报道首次登录送91元红包
这是一项由中国科学院大学、阿里巴巴高德地图事业部、中国科学院自动化研究所以及清华大学、东南大学的研究团队共同完成的突破性研究。论文由吴美琪、朱家树、冯晓坤、陈楚彬、朱晨等多位研究者撰写,已发表在2025年10月的学术预印本平台上,论文编号为arXiv:2510.14847v2。
一、为什么AI总是在想象力上失手
你有没有试过给AI描述一个奇异的场景,比如"一只骆驼在沙漠里打包行李"或者"一只熊在草地上操控遥控器"?如果你试过,你可能会发现AI生成的视频往往显得生硬、不自然,甚至完全无法理解你的意思。这不是因为AI不够聪明,而是因为它遇到了一个根本性的问题:它从未见过这样的场景。
现在的视频生成模型在处理日常、真实的场景时表现得相当不错。你让它生成一个"人在沙滩上走路"的视频,它可能做得很好。但当你要求它生成一些想象力十足的、超现实的场景时,效果就会急剧下降。这背后的原因很有意思——这些奇异场景涉及的概念之间距离很远,它们在真实世界中几乎不会同时出现。
想象你在学习一门新语言。如果你学的是"苹果"和"红色"这样经常一起出现的词汇,学起来很容易。但如果要你学"紫色的数学"这样的组合,就会困难得多,因为这两个概念在现实中几乎没有关联。AI也是这样。它的训练数据主要来自真实世界的视频,而真实世界中,骆驼就是骆驼,它们走路、吃草,很少去"打包行李"。当AI被要求生成这样的场景时,它就陷入了困境。
二、ImagerySearch:让AI学会做白日梦
阿里和中科院的研究团队提出了一个巧妙的解决方案,叫做ImagerySearch。这个方法的灵感来自一个有趣的心理学理论——人类在想象奇异场景时,会花更多的时间和精力来构建心理意象。换句话说,当你想象"一只熊操控遥控器"时,你的大脑会比想象"一个人走路"时更加努力地工作。
ImagerySearch就是按照这个原理来设计的。它包含两个核心部分,像是两个相互配合的工具。第一个工具叫做"语义距离感知的动态搜索空间",简单来说就是让AI根据你描述的场景有多"奇异"来调整自己的工作方式。如果你描述的是一个很常见的场景,AI就可以快速生成;如果你描述的是一个非常奇异的场景,AI就会放慢脚步,花更多时间和计算资源来探索各种可能性。
这就像你在做一道菜。如果是炒青菜这样的简单菜肴,你可以快速完成。但如果要做一道从未见过的创意菜肴,你就需要更多时间来尝试不同的配料和烹饪方法。AI也是这样——对于常见的场景,它可以直接套用已知的模式;对于奇异的场景,它需要更多的"尝试"。
第二个工具叫做"自适应意象奖励"。这是一个评分系统,用来判断AI生成的视频有多好。但这个评分系统不是固定的,它会根据你描述的场景的复杂程度来调整自己的评分标准。对于简单场景,它会严格要求视频的美观度;对于复杂场景,它会更加关注视频是否准确理解了你的描述。这就像一个老师在改卷子,对于简单题目要求高,对于难题只要学生理解了核心概念就给分。
三、如何衡量AI的想象力:LDT-Bench的诞生
但问题来了——如果我们要评估AI在想象力上的进步,用什么标准呢?现有的评估方法都是针对真实场景设计的,对于奇异场景就不太适用了。研究团队意识到这一点,决定创建一个全新的评估基准,名叫LDT-Bench。
LDT-Bench的构建过程相当有趣。研究团队首先从大规模的图像和视频数据库中提取了物体和动作。他们从ImageNet-1K中获取了1938种物体(从骆驼到遥控器,应有尽有),从Kinetics-600等视频数据库中获取了901种动作(从走路到打包,五花八门)。然后,他们用一个巧妙的方法来找出那些"最不相关"的配对。
想象你有一张巨大的地图,上面标记了所有物体和动作的位置。距离越远的两个点,就代表它们在现实世界中越不可能同时出现。研究团队就是按照这个逻辑,找出了距离最远的配对,比如"骆驼打包行李"或"熊操控遥控器"。最终,他们构建了一个包含2839个提示的数据集,涵盖了各种奇异的场景组合。
但仅有提示还不够,还需要一套评估方法。研究团队设计了一个叫做ImageryQA的评估框架,包含三个部分。第一部分叫ElementQA,它检查视频中是否出现了提示中提到的物体和动作。比如,如果提示是"熊操控遥控器",它就会问"视频中出现了熊吗?""熊在操控遥控器吗?"第二部分叫AlignQA,它评估视频的视觉质量和美学效果。第三部分叫AnomalyQA,它检查视频中是否出现了不自然的现象,比如物体突然消失或运动违反物理规律。
这三部分评估就像一个全面的体检。ElementQA检查你是否理解了医生的指示,AlignQA检查你的整体健康状况,AnomalyQA检查是否有任何异常情况。
四、ImagerySearch的工作原理:一场精心编排的舞蹈
现在让我们深入了解ImagerySearch具体是如何工作的。为了理解这一点,我们需要先了解视频生成的基本原理。
现代的视频生成模型使用一种叫做扩散的技术。简单来说,这就像是在倒放一个视频。在正常的视频中,你看到的是从模糊到清晰的过程。但在扩散模型中,过程是反向的——模型从完全的噪声开始,逐步去除噪声,最终生成一个清晰的视频。这个过程分为很多步骤,通常需要几十甚至几百步才能完成。
ImagerySearch在这个过程中插入了一些"检查点"。在这些检查点处,模型会生成几个不同的候选视频,然后用评分系统给它们打分,最后只保留最好的那些,继续进行后续的去噪过程。这就像是在烹饪一道复杂的菜肴时,每隔一段时间就尝一下味道,如果不对就调整调料,然后继续烹饪。
但这里有个聪明的地方——模型不是在每一步都做这样的检查,而是只在特定的几个关键步骤做检查。研究团队通过分析发现,相邻的去噪步骤对视频的改变很小,只有在某些特定的步骤才会产生显著的变化。所以,他们选择了四个关键的检查点(第5、20、30、45步),这样既能保证质量,又不会浪费太多的计算资源。
现在让我们回到ImagerySearch的两个核心部分。第一部分——语义距离感知的动态搜索空间——的工作方式是这样的:首先,模型会计算你的提示中各个概念之间的"距离"。这个距离是通过一个文本编码器(比如T5或CLIP)来计算的。编码器会把每个词转换成一个数字向量,然后计算向量之间的距离。距离越大,说明这两个概念在现实世界中越不相关。
一旦计算出了这个距离,模型就会根据距离来调整搜索空间的大小。具体的公式很简单:候选视频的数量等于基础数量乘以一个与语义距离成正比的因子。换句话说,如果你的提示涉及的概念距离很远,模型就会生成更多的候选视频;如果距离很近,模型就会生成较少的候选视频。这样做的好处是,对于简单的任务,模型可以快速完成;对于复杂的任务,模型有更多的机会找到好的解决方案。
第二部分——自适应意象奖励——是一个更复杂的评分系统。它综合考虑了多个因素,包括视频的运动质量、文本与视频的对齐程度、视觉质量等。但关键的是,这些因素的权重不是固定的,而是会根据语义距离动态调整。对于语义距离大的提示,模型会更加强调文本对齐的重要性;对于语义距离小的提示,模型会更加关注视觉质量。
这就像是一个评委在评判艺术作品。对于一个传统的风景画,评委会严格要求色彩的准确性和构图的美感。但对于一个超现实主义作品,评委就会更加关注艺术家是否成功传达了他的创意意图,而不是过分强调技术细节。
五、实验结果:数字背后的故事
研究团队进行了大量的实验来验证ImagerySearch的有效性。他们在两个主要的数据集上进行了测试:自己创建的LDT-Bench和现有的VBench。
在LDT-Bench上,结果相当令人印象深刻。基础模型Wan2.1的总体评分是48.28分。当应用了ImagerySearch后,评分提升到了57.11分,提升幅度达到了8.83个百分点。这是一个相当显著的改进。更有趣的是,与其他最先进的测试时间缩放方法(比如Video-T1和EvoSearch)相比,ImagerySearch也表现得更好。这说明ImagerySearch不仅有效,而且相比现有的方法有明显的优势。
在更细致的评估中,我们可以看到ImagerySearch在三个方面都有改进。在ElementQA上(检查物体和动作是否出现),从1.66分提升到2.01分。在AlignQA上(检查视觉质量),从31.62分提升到36.82分。在AnomalyQA上(检查异常现象),从15.00分提升到18.28分。这说明ImagerySearch在所有方面都有改进,不是某一个方面特别强,而是全面提升。
在VBench上的表现也很不错。VBench是一个更加全面的评估基准,包含了多个维度的评估,比如美学质量、背景一致性、动态程度等。在这个基准上,ImagerySearch的平均评分是83.48分,比基础模型Wan2.1的78.53分提高了4.95个百分点。更重要的是,ImagerySearch在动态程度和主体一致性这两个维度上表现特别突出,这正是处理奇异场景所需要的。
六、稳定性和可扩展性:ImagerySearch的隐藏优势
除了在评分上的提升,研究团队还发现了ImagerySearch的另外两个重要优势。
第一个优势是稳定性。当语义距离增加时(也就是说,提示变得越来越奇异),不同的模型的表现会出现很大的波动。基础模型Wan2.1的表现会随着语义距离的增加而急剧下降。其他的测试时间缩放方法也会出现明显的波动。但ImagerySearch的表现相对稳定,即使在面对最奇异的场景时,也能保持相对一致的质量。这就像是一个经验丰富的厨师,无论菜肴有多复杂,都能保持相对稳定的质量。
第二个优势是可扩展性。研究团队测试了当增加计算资源时,模型的表现如何变化。他们用一个叫做"函数评估次数"的指标来衡量计算量。结果显示,ImagerySearch的表现随着计算量的增加而持续改进,而其他方法的表现在增加到一定程度后就停止改进了。这说明ImagerySearch能更有效地利用额外的计算资源。
七、消融研究:每个部分都很重要
为了确保ImagerySearch的两个核心部分都是必要的,研究团队进行了消融研究。这就像是在做一道菜时,逐个移除一个配料,看看效果如何。
当只使用基础模型时,VBench的评分是78.53分。当添加语义距离感知的动态搜索空间时,评分提升到81.30分。当添加自适应意象奖励时,评分提升到82.11分。当两个部分都使用时,评分达到83.48分。这清楚地表明,两个部分都有贡献,而且它们的贡献是相加的,这说明它们是互补的。
研究团队还测试了使用固定搜索空间大小而不是动态调整的效果。结果显示,固定大小的搜索空间(无论是0.5倍还是0.9倍)的表现都不如动态调整的好。这进一步证实了动态调整的重要性。
八、与其他方法的比较:为什么ImagerySearch更胜一筹
研究团队还比较了ImagerySearch与其他几种搜索策略的表现,比如Best-of-N(简单地生成N个视频,然后选择最好的)和粒子采样(一种更复杂的采样方法)。结果显示,ImagerySearch的表现都更好。这说明,不仅是动态调整很重要,ImagerySearch采用的具体搜索策略也是经过精心设计的。
九、实际应用的启示
这项研究对于视频生成技术的实际应用有什么启示呢?首先,它表明了一个重要的事实:现有的视频生成模型在处理真实场景时表现很好,但在处理创意、奇异的场景时仍然有很大的改进空间。这对于那些希望使用AI来创作创意内容的人来说是个好消息——虽然现在还不完美,但通过更聪明的方法,我们可以显著改进。
其次,这项研究展示了一个有趣的方向:不一定要重新训练模型或收集更多的训练数据,只需要在推理时使用更聪明的策略,就可以显著改进性能。这对于那些无法访问大量训练数据或计算资源的人来说特别有价值。
第三,这项研究提出的LDT-Bench为未来的研究提供了一个有用的评估工具。现在,研究者可以用这个基准来测试他们的模型在处理创意场景时的能力,而不仅仅是在处理真实场景时的能力。
十、未来的可能性
虽然ImagerySearch已经取得了显著的成果,但研究团队也指出了未来的改进方向。他们计划探索更灵活的奖励机制,可能会考虑使用强化学习或其他高级技术来进一步优化奖励函数。他们也可能会考虑如何将这种方法扩展到其他类型的生成任务,比如图像生成或文本生成。
此外,随着视频生成模型本身的不断进步,ImagerySearch这样的推理时优化方法可能会变得越来越重要。因为即使模型本身变得更强大,处理创意任务的难度仍然会存在,而聪明的推理策略可以帮助模型更好地应对这些挑战。
十一、对AI创意能力的思考
这项研究触及了一个深层的问题:AI是否真的能够进行创意思考?ImagerySearch的成功表明,至少在某种程度上,AI可以通过更聪明的推理策略来模拟创意思考的过程。它不是通过理解创意的本质,而是通过更多地探索可能性空间,并更聪明地评估这些可能性。
这就像是一个作家在创作一部新颖的小说时,不是凭空想象,而是通过大量的阅读、思考和修改来逐步完善自己的作品。AI也可以通过类似的过程来生成创意内容,虽然底层的机制可能完全不同。
说到底,ImagerySearch的核心贡献在于它展示了一个重要的原则:有时候,解决问题的关键不在于拥有更多的知识或更强大的工具,而在于如何更聪明地使用现有的工具。这个原则不仅适用于AI,也适用于人类的许多活动。
Q1:ImagerySearch是什么,它为什么能帮助AI生成更好的创意视频?
A:ImagerySearch是一种在视频生成过程中使用的智能搜索策略。它根据你描述的场景有多"奇异"来动态调整AI的工作方式——对于常见场景快速处理,对于奇异场景则花更多时间和资源探索。它包含两个核心部分:一个根据概念距离调整搜索范围的系统,和一个根据场景复杂度调整评分标准的系统。这样AI就能更好地处理那些在现实中很少出现的创意场景。
Q2:LDT-Bench是什么,为什么需要创建这样一个新的评估基准?
A:LDT-Bench是一个专门用来评估AI在处理创意、奇异场景时能力的数据集和评估框架。它包含2839个提示,涵盖了各种不常见的物体和动作组合。现有的评估方法主要针对真实场景设计,对于创意场景就不太适用。LDT-Bench填补了这个空白,让研究者能够系统地测试和改进AI的创意能力。
Q3:ImagerySearch相比现有的视频生成方法有什么具体的优势?
A:ImagerySearch在多个方面都有优势。在LDT-Bench上,它比基础模型提升了8.83个百分点。与其他最先进的方法相比,它也表现更好。更重要的是,当场景变得越来越奇异时,ImagerySearch的表现相对稳定,而其他方法的表现会急剧下降。此外,ImagerySearch能更有效地利用额外的计算资源,当增加计算量时,它的表现会持续改进。
时事1:365体育买球网
12月24日,冰雪热潮持续涌动 多地特色IP绘就全国微笑曲线,海底捞北京合生汇店的相关负责人告诉第一财经记者:“今年过完年到现在,店里一直都很忙,再加上我们门店周围的商超、办公楼、居民区也多,顾客消费群体以年轻人为主,工作日正常每天接待量在300桌左右,节假日周末我们每天的接待量都要超过500桌。今年到店吃火锅的顾客明显比去年多,人流量回来了,人气旺了。”,申搏官网安装。
12月24日,博物馆进入“沉浸时代”,感官残障观众如何“入场”,福克斯新闻撰稿人乔·孔查(Joe Concha)也表示:“亲脸颊就好。或者给一个拥抱。这个就很奇怪,因为他们都知道摄像头在拍他们。”,BOB全站APP,搜米直播体育平台,皇冠体育首页。
时事2:澳门永利是干嘛的公司
12月24日,第二届浙江海外社团联谊大会举行,据《广西日报》5月6日消息,中央批准,庄革同志任广西壮族自治区党委委员、常委。,365bet体育足球官方介绍,bob78体育,世界杯买球认准ga68·me。
12月24日,签约31个项目总投资超62亿元 第五届诏商大会在福建诏安举行,报道称,埃尔多安还强调当前应该是一个“团结的时刻”,“在这种时期,我不能容忍有人因为政治利益进行负面宣传”。,升博注册彩金,乐鱼2022世界杯,天博赢了30万提款不了。
时事3:久久棋牌评测
12月24日,国际移民日:华侨华人以主动叙事打破“他者”定义,这也意味着,对于那些迫切想要补上短板的高教弱省来说,努力的赛道方向有所转变——从外引到内培,必须更加重视本土高校实力的培养。,日博体育电子网投,凯发k8娱乐登录,澳博投注官网。
12月24日,湖南江永12支“农闲务工队” 上岗 破解用工荒,昊海生科表示,该处罚决定书所涉主体为蒋伟个人,涉及的事项与公司无关,不会对公司日常经营、业务及财务造成重大影响。,2026世界杯投注流程,乐动体育登录,网上世博会。
时事4:188金宝慱手机客户端
12月24日,清华大学成立具身智能与机器人研究院,针对赫什的报告,俄罗斯外交部发言人在社交媒体Telegram上写道,“所有人都要求我对这位美国记者的调查发表评论。我们一再表明俄罗斯对美国和北约(一次、二次、三次、四次、四次、五次、六次)参与这次袭击的立场。”,斗牛看三张牌抢庄技巧,大发888在线官网,亚投彩票官网登录。
12月24日,涟漪漾成浪潮:浙江乡野的进化论与未来式,钟自然出生于1962年8月,安徽桐城人,曾在原地质矿产部和原国土资源部工作多年,2014年任原国土资源部党组成员,中国地质调查局局长、党组书记。,PG电子游戏登陆,188博金宝体育,皇冠集团体育app下载。
责编:官建文
审核:刘浩宇
责编:克莱莫












