亚虎官网手机客户端注册-亚虎官网手机客户端注册2026最新v7.97.304-2265安卓网

首页 >新闻 >社会新闻

DeepSeek发布最强开源新品，瞄向全能Agent，给GPT-5与Gemini 3下战书

2025-12-25 09:48:59

来源：

猫眼电影

作者：

郭兰英

手机查看

　　猫眼电影记者许利民报道首次登录送91元红包

图片来源：unsplash

ChatGPT迎来三周岁生日之际，竞争对手DeepSeek送来了一份“生日礼”，似乎并不想让这位大模型领域的先行者过得那么轻松。

12月1日晚间，DeepSeek一口气发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型，同步发布的技术论文显示，这两个推理能力达到了全球领先水平。

根据DeepSeek介绍，已经在网页端、App、API全部更新的“常规军”V3.2重在平衡推理能力与输出长度，适合日常使用。

在Benchmark推理测试中，V3.2与GPT5、Claude  4.5在不同领域各有高低，只有Gemini 3 Pro对比前三者均有较明显优势。

图片来自DeepSeek官微

与此同时，DeepSeek方面还表示，对比国产大模型厂商月之暗面新近发布的Kimi-K2-Thinking，V3.2的输出长度大幅降低，显著减少了计算开销与用户等待时间。在智能体评测中，V3.2得分也高于同为开源的Kimi-K2-Thinking和MiniMax M2，是目前的“最强开源大模型”，相比闭源大模型的巅峰也已无限迫近。

图片来自DeepSeek官微

更值得注意的是，V3.2在一些问答场景和通用Agent任务中的表现。在一个关于旅游攻略的具体场景咨询中，V3.2通过深度思考和网站爬虫、搜索引擎等工具调用，给出了十分详尽、精确的攻略和建议。V3.2更新的API首次支持了在思考模式下使用工具调用能力，大大提升了用户获取到的答案的丰富度和适用性。

而且，DeepSeek方面特别强调，V3.2“并没有针对这些测试集的工具进行特殊训练”。

我们注意到，在大模型测试得分越来越高，但在与普通用户的互动中却经常犯一些常识性错误的当下（尤其以GPT5发布时遭遇的吐槽为代表），DeepSeek近期“上新”时经常强调这一点，证明自身走的不是一条只用正确的答案作为奖励机制，打造出了看似高智商的“最强大脑”，却无法胜任用户个人所需的简单任务、简单问题的“低情商”智能体。

而只有从根本上克服这一点，成为所谓高智商、高情商的“双高”大模型，才有孕育出全能、可靠、高效的AI Agent的能力。DeepSeek方面也表示，相信V3.2在真实应用场景中能够展现出较强的泛化性。

为了在计算效率、强大推理能力与智能体性能之间取得平衡，DeepSeek在训练、整合以及应用层面进行了全方位的优化。根据技术论文，V3.2引入了DSA（DeepSeek稀疏注意力机制），能在长上下文场景中显著降低计算复杂度，同时保持模型性能。

同时，为了将推理能力整合到工具使用场景中，DeepSeek开发了新的合成流程，能够系统性地大规模生成训练数据。这一方法促进了可扩展的智能体训练后优化，显著提升了复杂、交互式环境中的泛化能力和对指令跟随能力。

另外，如上文所述，V3.2也是DeepSeek推出的首个将思考融入工具使用的模型，大幅提高了模型的泛化能力。

相比于重视平衡性，专注于如何“说人话、干人事”的V3.2，长思考“特种部队”V3.2 Speciale的定位则是将将开源模型的推理能力推向极致，探索模型能力的边界。

值得一提的是，V3.2 Speciale的一大亮点是结合了上周刚刚发布的最强数学大模型DeepSeek-Math-V2的定理证明能力。

我们此前的文章中提到，Math-V2不仅在2025国际数学奥林匹克竞赛和2024中国数学奥林匹克上都取得了金牌级成绩，在IMO-Proof Bench基准测试评估中还得到了比Gemini 3更好的成绩。

而且，与此前提到的思路类似，这款数学模型同样在努力克服正确答案奖励机制和“做题家”的身份，以自验证的方式突破目前AI在深度推理方面的局限，让大模型真的弄懂何为数学，怎样推导过程，以此形成更强大、稳定、实用也泛用的定理证明能力。

在推理能力上大幅增强的V3.2 Speciale，也在主流推理基准测试中取得了媲美Gemini 3.0 Pro的成绩。不过，V3.2 Speciale的能力优势需消耗大量Tokens，显著升高的成本让其目前不支持工具调用和日常对话、写作，仅供研究使用。

从OCR到Math-V2，再到V3.2和V3.2 Speciale，DeepSeek近期的新品发布不仅每次都收获赞誉一片，也在绝对能力提升的同时不断明确着“实用性”“泛化能力”等发展主线。

2025年后半程，GPT-5、Gemini 3、Claude Opus 4.5相继发布，测试成绩一次好过一次，再加上快速追赶的DeepSeek，“最牛大模型”的赛道已经有些拥挤。而头部的大模型在训练上已有较明显的区别，表现上也各有特色，相信2026年的大模型的竞赛会更加精彩。（作者｜胡珈萌，编辑｜李程程）

时事1：中体网比分

12月25日,重庆：民众长江畔“围炉煮茶”乐享冬日时光,3.0）以及AI营销代理（SenseAvatar），重点强调通过一键操作生成更优质内容的增强功能，并基于本地计算平台提供更具成本效益的解决方案。,外围买球app官网。

12月25日,领航2025｜创新之帆,从1994年中国正式接入国际互联网开始，“缺芯少魂”一直紧紧束缚着中国信息产业的发展步伐。在操作系统领域，我们长期处于受制于人的境地：在个人电脑端，Windows系统几乎形成垄断；在移动终端，安卓与iOS双分天下，构筑起坚不可摧的生态壁垒。,买球去哪个网站买,ag真人国际,乐玩游戏中心。

时事2：国际上的真人游戏

12月25日,重庆又一隧道主线通车助力“隧道之城”建设,针对外媒炒作的太空军事化问题，我外交部，国防部有过多次回应。外交部发言人赵立坚19日表示，美方应采取负责任的外空行为，停止推进外空军事化武器化进程，切实承担起维护外空和平与安全的应有责任。,ag环亚旗舰厅app下载,博鱼官网买球,立博体育官网。

12月25日,1—11月中国财政收入同比增长0.8%,在服务过程中，“空中柜面”运用了“远程交互+智能防控”数字新技术，通过全流程智能识别与录音录像、电子签名存证、OCR 识别等技术，确保每一笔业务操作可追溯、信息真实有效，有力保护客户个人信息与资金安全，可以说是从机制上筑牢消费者权益“防护网”。,世界杯投注金额,开元棋官网下载,万博平台网页版登录。

时事3：ag真人正规平台网站

12月25日,全球舱容最大乙烷运输船首航保障华东化工原料供应,据测算，在4月份-2.5%的PPI同比变动中，翘尾影响约为-1.8个百分点，今年价格变动的新影响约为-0.7个百分点。,168体育网页版,hth华体会网投,百老汇投注登录。

12月25日,南航广州至悉尼航线将增至每天四个往返,具体来看，三大股指盘中强势上扬，午后涨幅有所收窄。截至收盘，沪指微涨0.07%报3919.98点，深证成指涨0.27%，创业板指涨0.41%，中证2000指数跌0.63%，沪深北三市合计成交19216亿元，较此前一日增加近400亿元。,2026世界杯手机投注开户,bet365在线投注网,永利酒店官网。

时事4：2020欧洲杯附加赛球队

12月25日,中新多式联运示范项目在重庆双向开行国际班列,近年来，渤海海峡跨海通道相继被纳入了国务院发布的《环渤海地区合作发展纲要》《支持东北振兴若干重大政策举措的意见》《山东半岛蓝色经济区发展规划》《全国海洋功能区划（2011年~2020年）》以及山东省、辽宁省的“十二五”“十三五”“十四五”规划等。在梁启东看来，应建议将此列入国家“十五五”规划，加快论证和建设进程。,澳门金沙城娱乐场网,火狐体育线上平台,leyu乐鱼官网登录入口。

12月25日,充值数千元“很快被吃光” 年轻人沉溺“捕鱼机”追悔莫及,除了市场风险，运营中断带来的技术性违约风险也不容忽视。Parametrix保险公司首席商务官Sharon Haran指出，许多租赁协议包含保护科技租户的条款。例如，如果每月断电时间超过一定限度，业主可能面临相当于数月租金的罚款；而长期的电力、冷却或连接问题甚至可能赋予租户取消整个租约的权利。这种技术性指标可能导致重大的财务损失，也是许多保守投资者至今未涉足该行业的原因。,金沙亚洲登录,皇冠手机网址注册账号,伟德体育app官方。

【武汉以大众冰雪季激活冬季消费市场】

【年轻人主动相亲！超六成受访者对寻找另一半抱有积极心态】

责编：张晓芳

审核：布莱格登

责编：翁多尔