搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

谷歌MIT联手:首个智能体Scaling Law出炉,盲目堆Agent性能暴跌70%

2025-12-27 06:51:34
来源:

猫眼电影

作者:

徐东

手机查看

  猫眼电影记者 吴青峰 报道首次登录送91元红包

↑阅读之前记得关注+星标⭐️,,每天才能第一时间接收到更新

AI圈里一直流传着一句信条:“More agents is all you need”(智能体越多越好)。

大家的直觉很简单:一个诸葛亮不够,那就找三个臭皮匠来凑。甚至有人觉得,只要我把一堆AI拉进一个群里,让它们互相讨论、投票,无论什么任务都能做得更好

但现在,Google Research、DeepMind联合MIT的一项重磅研究,给这个想法泼了一盆冷水

https://arxiv.org/pdf/2512.08296

他们做了一场史上最严苛的压力测试,结果发现了一个反直觉的真相:

盲目组建AI团队,不仅不能提升能力,甚至可能把原本聪明的模型搞成“人工智障”,性能暴跌70%。

为此,研究团队总结出了一套 “智能体Scaling Law”,这是第一套能帮你算清楚“到底该单干还是群殴”的数学公式

为了搞清楚AI协作的真相,研究人员没有只测一种模型,而是把市面上最强的三大模型——OpenAI (GPT系列)、Google (Gemini系列)、Anthropic (Claude系列) 全部拉上了擂台

他们设计了180种不同的配置,不仅有单打独斗的(单智能体),还有四种不同的“组队模式”:

1.各自为战: 大家各干各的,最后凑一起。2.中心化指挥: 有个“经理”负责分派任务和检查。3.去中心化讨论:大家围成一圈开会,互相辩论。4.混合模式:既有经理,底下人也能私聊

为了公平,不管是单人还是团队,手里能花的钱(Token预算)和能用的工具都是一样的

测试结果出来后,呈现出了极端的两极分化,就像两个平行宇宙。

宇宙一:人多力量大

在 金融分析(Finance-Agent)这类任务里,多智能体简直杀疯了

因为金融任务可以拆得非常细,比如A查财报,B看K线,C做风控,最后汇总。在这种场景下,找个“经理”来指挥(中心化架构),性能直接比单干提升了80.9%

宇宙二:人多即地狱

但在“规划任务”(PlanCraft,比如在Minecraft里合成物品)里,情况完全失控

这类任务讲究逻辑的连贯性:你得先砍树,才能做木板,再做工作台。步骤环环相扣

结果研究发现,只要引入协作,所有多智能体架构全部崩盘因为大家七嘴八舌地讨论打断了推理的连贯性,把宝贵的计算资源都浪费在了沟通上。比起单干,性能最高暴跌了70%

还有个中间派:

模拟真实职场打工(Workbench)的任务,结果显示,这就属于费力不讨好。折腾半天组建团队,最好的结果也就提升了5.7%,甚至有的架构还倒退了

为什么会出现这种差异?研究团队通过那套Scaling Law公式,像法医一样解剖了背后的原因,找到了三条铁律:

铁律1:工具越重,开会越废(工具-协作权衡)

想象一下,如果一个工匠要用16种不同的锤子和锯子干活

单干时,他拿起工具就干。但如果是个团队,每换个工具都要跟队友确认、同步信息

数据显示,任务需要的工具越多,协作带来的内耗就越严重。在这种“重工具”场景下,把资源花在沟通上简直是浪费,不如留给单人去思考

铁律2:高手不需要队友(能力饱和)

研究划定了一条残酷的“红线”:45%。

如果一个单智能体自己做这道题的准确率已经超过了45%,那么给它加队友往往是负收益

就像学霸做题,自己做能得90分。非要给他配几个60分的队友在旁边指指点点,最后成绩反而会被拉低。

铁律3:没经理的团队是灾难(错误放大)

这是最吓人的数据

如果你让一群AI各自跑结果(独立架构),却没人负责检查,错误率会被放大17.2倍!

因为一个AI犯了错,没纠正,另一个AI接着错,最后错上加错

只有引入“中心化”的经理角色,强制进行检查验证,才能把错误控制住(只放大4.4倍)

结论:算好这笔账

这项研究最大的贡献,就是告诉大家:别迷信人海战术了

Google和MIT把这些发现浓缩成了一个预测模型。现在,只要你输入三个数据:

1. 模型本身聪不聪明?

2. 任务要用多少工具?

3. 这任务能不能拆解?

这个公式就能以87%的准确率告诉你:该单干,还是该组队

简单来说,这就是一本AI算力经济学:在预算有限的情况下,把算力花在让一个大脑深思熟虑上,往往比让一群大脑开会吵架更划算——除非,你真的有一个好经理和容易拆分的任务

最后记得⭐️我,每天都在更新:欢迎点赞转发推荐评论,别忘了关注我

 时事1:AG真人快速登陆

  12月27日,宁夏七旬匠人巧手“化朽木为神奇” 枯木根雕焕发艺术新生,据国际网球联合会发布的《2021年全球网球报告》,2021年全球参与网球运动的人口有8718万人,中国以1992万人成为全球网球参与人数排名第二的国家,仅次于美国,占全球总网球人口的22.9%。同时,中国网球场的数量也为全球第二,达49767个。网球教练则以11350人位居全球第五。,bob电玩平台。

  12月27日,2025深圳马拉松鸣金 科技赋能智慧赛事,这种向数据中心的倾斜不仅仅是资金流向的变化,更是商业地产投资性质的根本性转变。传统上,写字楼、公寓和购物中心被视为多元化且稳定的资产,能够对冲科技行业的波动。在2000年至2002年的科技股抛售潮中,尽管纳斯达克指数暴跌近80%,但商业地产价值基本持平或仅小幅下跌。如今,这种脱钩关系已不复存在。,365bet体育平台体育首选,世界杯怎么买球app,AG真人手机端网址。

 时事2:贝博app官方下载

  12月27日,以总理办公室:内塔尼亚胡28日将启程访美,亚洲新闻台(CNA)记者提问:去年中国全国人大公布了《对外关系法(草案)》,其中包括中国在必要时可以采取反制和限制措施。考虑到中国面临的外部挑战,包括涉及美国的挑战,上述措施对中国的外交政策意味着什么?中国外交是否会越来越具有攻击性?,捕鱼达人2技巧,手机棋牌娱乐,九游会苹果版。

  12月27日,想缴费出场?先看30秒广告……扫码自助缴费后隐藏什么套路,同一日,香港交易所发布业绩公告显示,香港交易所第一季度收入及其他收益为52亿港元,同比减少6%;第一季度净利润为29.7亿港元,同比减少13%。,易博体育的app下载安装,电玩捕鱼,大阳城娱乐贵宾厅。

 时事3:纬来体育官方app

  12月27日,中国首个深水油田二次开发项目全面投产,当地时间2月9日,泽连斯基拟前往布鲁塞尔与欧盟领导人会晤并在欧洲议会发表演讲。欧洲理事会主席米歇尔的一名发言人对外界披露,此前米歇尔曾经邀请泽连斯基“亲自参加一次欧盟峰会”。,亚星国际官网,心博天下网站是多少,bbin快速开户。

  12月27日,北京逾20家博物馆将“跨年”开放迎新年,钱所长解释,过去工商登记的规定和流程不严格,可以委托人代办,因此会出现这种“空壳个体户”。那么是否有人大批量“代办”刘院村个体工商户登记?钱所长称目前没有发现。“这些情况,我们核实完之后,会统一对外发布。”他同时告诉记者,2024年工商注册登记系统升级后,个体户也要提交年报,登记也需要现场人脸识别,冒名登记的情况应该可以杜绝。,tvt体育平台下载,永利博体育,电玩城线上赌博。

 时事4:澳博体育app下载

  12月27日,外交部发言人就外交部亚洲事务特使将再次赴柬埔寨、泰国穿梭调停答记者问,数量视角,存单活跃度整体略有下降,存单收益率中枢下降,从结构上来看,非银买盘偏弱。,九州BET9网页登录,永利博官网在线,欧亿体育。

  12月27日,中国地震局针对西藏那曲市双湖县地震启动四级应急服务响应,洪恩识字作为一款儿童教育App,稳定性关乎用户体验的底线,“我们所有反馈的问题基本上在一天之内都能得到解决。”洪恩中文启蒙技术负责人王鹤由衷的称赞道,鸿蒙团队和伙伴并肩作战,提供到位的技术支持,甚至是提供随时响应的服务,帮助迅速发现问题并且顺利解决。,澳门官方网投,真金斗地主苹果版,银河国际网开户。

责编:韩德尔

审核:于敢勇

责编:李夏君

相关推荐 换一换