沙巴体育靠谱吗,让你在休闲的每一刻都能享受极致的娱乐体验

首页 >新闻 >社会新闻

DeepSeek发布最强开源新品，瞄向全能Agent，给GPT-5与Gemini 3下战书

2025-12-24 08:21:42

来源：

猫眼电影

作者：

张本涌

手机查看

　　猫眼电影记者刘彤报道首次登录送91元红包

图片来源：unsplash

ChatGPT迎来三周岁生日之际，竞争对手DeepSeek送来了一份“生日礼”，似乎并不想让这位大模型领域的先行者过得那么轻松。

12月1日晚间，DeepSeek一口气发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型，同步发布的技术论文显示，这两个推理能力达到了全球领先水平。

根据DeepSeek介绍，已经在网页端、App、API全部更新的“常规军”V3.2重在平衡推理能力与输出长度，适合日常使用。

在Benchmark推理测试中，V3.2与GPT5、Claude  4.5在不同领域各有高低，只有Gemini 3 Pro对比前三者均有较明显优势。

图片来自DeepSeek官微

与此同时，DeepSeek方面还表示，对比国产大模型厂商月之暗面新近发布的Kimi-K2-Thinking，V3.2的输出长度大幅降低，显著减少了计算开销与用户等待时间。在智能体评测中，V3.2得分也高于同为开源的Kimi-K2-Thinking和MiniMax M2，是目前的“最强开源大模型”，相比闭源大模型的巅峰也已无限迫近。

图片来自DeepSeek官微

更值得注意的是，V3.2在一些问答场景和通用Agent任务中的表现。在一个关于旅游攻略的具体场景咨询中，V3.2通过深度思考和网站爬虫、搜索引擎等工具调用，给出了十分详尽、精确的攻略和建议。V3.2更新的API首次支持了在思考模式下使用工具调用能力，大大提升了用户获取到的答案的丰富度和适用性。

而且，DeepSeek方面特别强调，V3.2“并没有针对这些测试集的工具进行特殊训练”。

我们注意到，在大模型测试得分越来越高，但在与普通用户的互动中却经常犯一些常识性错误的当下（尤其以GPT5发布时遭遇的吐槽为代表），DeepSeek近期“上新”时经常强调这一点，证明自身走的不是一条只用正确的答案作为奖励机制，打造出了看似高智商的“最强大脑”，却无法胜任用户个人所需的简单任务、简单问题的“低情商”智能体。

而只有从根本上克服这一点，成为所谓高智商、高情商的“双高”大模型，才有孕育出全能、可靠、高效的AI Agent的能力。DeepSeek方面也表示，相信V3.2在真实应用场景中能够展现出较强的泛化性。

为了在计算效率、强大推理能力与智能体性能之间取得平衡，DeepSeek在训练、整合以及应用层面进行了全方位的优化。根据技术论文，V3.2引入了DSA（DeepSeek稀疏注意力机制），能在长上下文场景中显著降低计算复杂度，同时保持模型性能。

同时，为了将推理能力整合到工具使用场景中，DeepSeek开发了新的合成流程，能够系统性地大规模生成训练数据。这一方法促进了可扩展的智能体训练后优化，显著提升了复杂、交互式环境中的泛化能力和对指令跟随能力。

另外，如上文所述，V3.2也是DeepSeek推出的首个将思考融入工具使用的模型，大幅提高了模型的泛化能力。

相比于重视平衡性，专注于如何“说人话、干人事”的V3.2，长思考“特种部队”V3.2 Speciale的定位则是将将开源模型的推理能力推向极致，探索模型能力的边界。

值得一提的是，V3.2 Speciale的一大亮点是结合了上周刚刚发布的最强数学大模型DeepSeek-Math-V2的定理证明能力。

我们此前的文章中提到，Math-V2不仅在2025国际数学奥林匹克竞赛和2024中国数学奥林匹克上都取得了金牌级成绩，在IMO-Proof Bench基准测试评估中还得到了比Gemini 3更好的成绩。

而且，与此前提到的思路类似，这款数学模型同样在努力克服正确答案奖励机制和“做题家”的身份，以自验证的方式突破目前AI在深度推理方面的局限，让大模型真的弄懂何为数学，怎样推导过程，以此形成更强大、稳定、实用也泛用的定理证明能力。

在推理能力上大幅增强的V3.2 Speciale，也在主流推理基准测试中取得了媲美Gemini 3.0 Pro的成绩。不过，V3.2 Speciale的能力优势需消耗大量Tokens，显著升高的成本让其目前不支持工具调用和日常对话、写作，仅供研究使用。

从OCR到Math-V2，再到V3.2和V3.2 Speciale，DeepSeek近期的新品发布不仅每次都收获赞誉一片，也在绝对能力提升的同时不断明确着“实用性”“泛化能力”等发展主线。

2025年后半程，GPT-5、Gemini 3、Claude Opus 4.5相继发布，测试成绩一次好过一次，再加上快速追赶的DeepSeek，“最牛大模型”的赛道已经有些拥挤。而头部的大模型在训练上已有较明显的区别，表现上也各有特色，相信2026年的大模型的竞赛会更加精彩。（作者｜胡珈萌，编辑｜李程程）

时事1：188宝金博入口登录

12月24日,WCBA：陕西榆林天泽92:81击败石家庄英励结束连败,在正式出舱前，航天员在轨完成了多次出舱活动演练，本次出舱将是“圆梦乘组”的首次出舱任务，也是中国空间站建成后的首次出舱任务。接续梦想，矢志飞天，让我们一起期待属于中国载人航天与“圆梦乘组”的精彩时刻。,英皇体育客户端下载。

12月24日,12月上映电影类型丰富带动岁末观影热潮,不过，从旅游收入来看，郑州与杭州（1705亿元）、青岛（1910亿元）相当，但是远低于成都（3700亿元）、西安（3350.39亿元）。这一定程度上也反映出，郑州旅游业具备较大的提升空间。,d88尊龙官网网址,现在哪个平台捕鱼金币可以卖,365体育注册开户。

时事2：最大赌博娱乐

12月24日,农工党十七届四中全会在京开幕,今年是“一带一路”倡议提出十周年。在中国与中亚五国领导人的共同擘画下，“一带一路”在中亚的高质量发展可期可待。未来，中国与中亚“一带一路”合作可以拓展至数字经济、人工智能、绿色能源、减贫等多个新领域。,188体育赌场,12bet在哪玩,分分彩平台。

12月24日,外媒：关税政策引发经济不确定性美国劳动力市场状况恶化,在无人机业务中，我们做了很多赋能。比如电池电量监控、飞行路线规划、空域管制政策等，都需要输入大模型。再以小例子说明，为轮船接入全息网后，可监测航线是否有海盗出没——这些都是重大风险点，靠人力难以解决，必须通过系统内外部数据对接来实现。这是我们系统设计的亮点。,怎么世界杯投注,永利国际真人,竞博JBOapp下载。

时事3：188金博网注册

12月24日,近五年青海珍稀濒危野生动物数量和分布逐步恢复,不仅如此，机器狗还与游客进行了“亲密互动”，现场为游客送上精心筹备的福袋，现场气氛十分热烈。据悉，春节期间，AI机器狗表演每天都将在景区上演。,葡京客户端下载,华体会竞彩官网,真钱彩网。

12月24日,今年前11个月青岛机场国际及地区旅客量同比增长25.5%,两个月之后，这一增资扩股信息迎来了新进展。国民养老保险发布的信息显示，10月10日，公司召开2025年第一次临时股东大会，审议通过《关于国民养老保险股份有限公司拟增资扩股并引入战略投资人的议案》，同意公司以发行新股方式增资、引入战略投资人并增加注册资本。股东大会授权董事会，并同意董事会授权高级管理层具体实施增资引战的相关各项工作。,体育在线投注,银河电子游艺网址,大小球盘。

时事4：手机电玩城直营

12月24日,广西海上风电装备批量出口欧洲,短短几个月时间，西北四大省会密集完成了机场扩建，而且规模都非常可观，呈你追我赶之势。,188体育在线网站,手机现金游戏大厅,体育在线投注网。

12月24日,冰雪大世界开园一秒进入现实版冰雪王国,（3）请以“月的独白”为题目，用月亮的口吻，写一首小诗或一段抒情文字。要求：感情真挚，语言生动，有感染力。,必威官网登录入口,皇城国际线上娱乐城,亚冠2020赛程。

【中国选手首夺霹雳舞世锦赛冠军】

【斯里兰卡遭遇极端天气已致132人死亡】

责编：任贤齐

审核：颜师古

责编：江瑶