猫眼电影
猫眼电影记者 前川真悟 报道首次登录送91元红包
机器之心编辑部
新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。
该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。
简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。
论文标题:mHC: Manifold-Constrained Hyper-Connections论文地址:https://arxiv.org/pdf/2512.24880
这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。
传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借「恒等映射」保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C。
近期,以字节跳动Seed团队提出的 Hyper-Connections (HC) 为代表的研究,通过扩展残差流宽度和多样化连接模式,拓展了过去十年中广泛应用的残差连接范式。
虽然这些方法带来了显著的性能提升,但但也带来了两个严重问题:
数值不稳定性: 原始的 HC 中,连接矩阵是自由学习的,没有约束。这导致信号在经过多层传播后,数值会「爆炸」或「消失」,破坏了恒等映射的特性,模型越深越难训练。系统开销大: 通道变宽意味着显存读写 (I/O) 和通信成本成倍增加,也就是所谓的「显存墙」问题。
从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销。
为了解决这些挑战,DeepSeek 的研究团队提出了Manifold-Constrained Hyper-Connections (mHC,流形约束超连接)。
这是一个通用框架,它将 HC 的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。
它的核心目的是:在保留「加宽残差流」带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题。
团队利用Sinkhorn-Knopp 算法将残差连接矩阵投影到 Birkhoff 多胞形(双随机矩阵)上。这使得信号传播变为特征的「凸组合」,从数学上严格保证了信号范数的稳定性(能量守恒)。为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的 DualPipe 通信计算重叠策略。
实证表明,mHC 不仅解决了稳定性问题,且在大规模训练中(如 27B 模型)表现出卓越的可扩展性。在 n=4 的扩展倍率下,仅增加了 6.7% 的训练时间开销,却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。
图 1:残差连接范式示意图。 本图对比了以下三种结构设计: (a) 标准残差连接(Residual Connection); (b) Hyper-Connections (HC); (c) 我们提出的 Manifold-Constrained Hyper-Connections (mHC)。与无约束的 HC 不同,mHC 专注于优化残差连接空间,通过将矩阵投影到受约束的流形上,以确保稳定性。
具体方法介绍
流形约束超连接 (mHC)
借鉴恒等映射(Identity Mapping)原则,mHC 的核心前提是将残差映射
虽然原始的恒等映射是通过强制执行
因此,该 DeepSeek 团队提出将残差映射投影到一个流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力(expressivity)。
为此,他们的做法是将
形式上,令
其中 1_n 表示全 1 的 n 维向量。
为什么选择双拟随机性?因为其具有多项有利于大规模训练的理论属性:
),这意味着学习到的映射是非扩张的,可有效缓解梯度爆炸问题。范数保持:其谱范数有界且不超过 1(即
复合封闭性:双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性。几何解释:该集合构成了 Birkhoff 多胞形,是排列矩阵集的凸包。这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用。
此外,该团队还对输入映射
参数化与流形投影
本节将详述 mHC 中各映射的计算过程。
给定第 l 层的输入隐藏矩阵 x_l,先将其展平为向量
最终的约束映射通过以下方式获得:
DeepSeek 在实验中采用 t_max=20 次迭代。
高效基础设施设计
DeepSeek 还为 mHC 量身定制了基础设施设计,使其在 n=4 时在大模型中的训练开销仅增加 6.7%:
算子融合 (Kernel Fusion):
重新调整 RMSNorm 的顺序以提高效率,并采用混合精度策略。
开发了统一的算子,将多次扫描和矩阵乘法融合,减少内存带宽瓶颈和算子启动开销。
在单个算子中实现 Sinkhorn-Knopp 迭代及其自定义反向传播。
重计算 (Recomputing):
为了减轻 n 流设计带来的内存压力,DeepSeek 在前向传播后丢弃 mHC 算子的中间激活,并在反向传播时即时重新计算。
通过推导得出最优重计算块大小 L_r^*,以最小化总内存占用。
DualPipe 中的通信重叠:
扩展了 DualPipe 调度算法,以改善流水线并行阶段边界处的通信与计算重叠在专用高优先级计算流上执行 MLP 层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率。
实验设置
研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接(HC)以及提出的流形约束超连接(mHC)进行了对比分析。
他们采用了受 DeepSeek-V3 启发的 MoE 架构,训练了四种不同的模型变体,以覆盖不同的评估体系。
具体而言,HC 和 mHC 的扩展率 n 均设置为 4,主要关注点是一个 27B 参数规模的模型。其训练数据集的大小与其参数量成正比,该模型用于展示系统层面的主要结果。在此基础上,他们通过引入使用成比例数据训练的较小的 3B 和 9B 模型来分析计算扩展性,从而观察不同计算规模下的性能趋势。此外,为了专门研究 Token 规模的影响,他们另外训练了一个独立的 3B 模型,该模型在一个固定的 1T Token 的语料库上进行训练。
主要结果
图 5:流形约束超连接 (mHC) 的训练稳定性。 该图展示了:(a) mHC 和 HC 相对于基线模型的训练损失绝对差值;(b) 三种方法在训练过程中的梯度范数。所有实验均基于 27B 参数规模的模型。实验结果表明,mHC 在损失函数和梯度范数两方面均表现出更优的稳定性。
研究团队首先考察 27B 模型的训练稳定性和收敛性。如图 5 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定问题,与基线模型相比,最终损失降低了 0.021。图 5 (b) 中的梯度范数分析进一步证实了这种稳定性的提升:mHC 表现出明显优于 HC 的行为,保持了与基线模型相当的稳定轮廓。
表 4:27B 模型在系统级基准测试上的结果。 本表对比了基线模型、HC 以及 mHC 在 8 个不同的下游基准测试中的零样本和少样本性能表现。结果显示,mHC 始终优于基线模型,并在大多数基准测试中超越了 HC,证明了其在大规模预训练中的有效性。
表 4 展示了在多种下游基准测试中的性能表现。mHC 带来了全面的提升,一致性地优于基线模型,并在大多数任务上超过了 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH 和 DROP 任务上分别实现了 2.1% 和 2.3% 的性能增益。
规模扩展实验
图 6:mHC 与基线模型的扩展特性对比。 (a) 计算扩展曲线:实线描绘了在不同计算预算下的性能差距。每个点代表模型大小与数据集大小的最优计算配置,涵盖了从 3B、9B 到 27B 参数规模的规模扩展过程。 (b) Token 扩展曲线:展示了 3B 模型在训练过程中的轨迹。每个点代表模型在不同训练 Token 数量下的性能表现。
为了评估该方法的扩展性,研究者报告了在不同规模下 mHC 相对于基线模型的损失改善情况。在图 6 (a) 中,他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。其轨迹表明,即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减。
此外,他们在图 6 (b) 中考察了训练过程中的动态变化,展示了 3B 模型的 Token 扩展曲线。总的来看,这些发现验证了 mHC 在大规模场景下的有效性。这一结论在他们内部的大规模训练实验中得到了进一步的证实。
更多详情请参阅原论文。
时事1:巴黎人线上现金
12月28日,济南大明湖地铁沿线发现龙山文化城址,他解读说,中俄务实合作是双边互利合作,不损害任何国家和企业的利益,任何别有用心的威胁与不和谐之音都不能影响双边合作的势头。,凯旋国际。
12月28日,为什么老二总是比老大更聪明?真相扎心了......,“空中柜面”重塑服务流程,客户无需亲自赴柜,通过手机即可视频连线空中柜员,支持办理包括多保单、跨类型业务在内的50多项保全服务,省去了客户往返网点与现场等候时间,将传统需临柜办理的业务转化为约10分钟的视频服务,真正实现“一次呼入、一柜通办”。无论是居家、出行或在海外,均可享受专业、高效的服务响应,极大节约客户时间成本与经济成本,提升服务获得感。,国际真人娱乐,博乐体育在线入口,纵横天下A。
时事2:斗地主窍门顺口溜
12月28日,福建支持台胞开设沙县小吃门店 提供创业补助和技能培训,而且在国泰之前,南航和乌鲁木齐航空已经开通了香港航线。相当于香港也不是乌鲁木齐的新航点。,亚星客户端下载,澳门永利总站登录网址是多少,博鱼快速注册。
12月28日,福州首家市内免税店开业,4月份,全国居民消费价格环比上涨0.1%。其中,城市上涨0.1%,农村持平;食品价格下降1.0%,非食品价格上涨0.3%;消费品价格下降0.1%,服务价格上涨0.3%。,手机彩票软件下载,永乐会官网,博鱼网址是多少。
时事3:Yabo下载
12月28日,高市涉台答辩遭日本在野党追问 国会多次中断,2020 年代初,整个行业还对电动汽车领域满怀狂热与憧憬,然而消费者的实际需求始终未达预期。如今这场电动汽车热潮已然消退,车企们在前期持续观望、谋划应对之策后,终于开启全面战略转型。过去五年,车企在该领域的巨额资本投入沦为泡影;底特律的车企巨头们正把重心重新放回高油耗的大型皮卡和 SUV 车型上;多家车企也终于坦言:此前电动汽车的发展浪潮,由政策驱动,而非市场需求。,新宝手机5登陆地址,立博免费试玩,1号站娱乐平台。
12月28日,全国第十二届残疾人运动会:辽宁选手刘爽赛艇赛场连夺两金,在多边层面,长期以来,中国与中亚五国的合作平台主要是上合组织。除土库曼斯坦为中立国之外,其他四个中亚国家均为上合组织创始成员国。在上合组织框架内,中国与中亚国家开展的安全合作卓有成效,在打击”三股势力”、推动阿富汗和平进程等方面取得的成就有目共睹。,金莎娱乐,单机无网炸金花,网络版捕鱼游戏和街机捕鱼游戏。
时事4:大富豪3登录网站
12月28日,好评中国|锚定高质量发展,奋力实现“十五五”良好开局,此外,我们还开发了移动端应用。现在工作中80%的时间使用手机,移动端应用效果很好,比如微信审批、经销商获客、承租人获客、外部厂商对接等,一个手机就能搞定。电子签章应用后,对于小业务,签订总对总协议后无需到场,远程即可完成签署,既节省成本又提高效率。特别是刚才谢总提到的汽车业务,批量通过移动端进件已是行业普遍做法。,凯发官网,365bet体育足球注册,完美体育首页官网入口。
12月28日,武汉:涨渡湖湿地池杉斑斓 林鸟相依绘就生态画卷,2018年11月,房文斌担任国任保险党委书记,彼时根据公开信息徐兴建职位仍为董事长。2019年4月,房文斌董事长任职资格获批,徐兴建卸任。,千亿体育,威尼斯人网址,下载打渔游戏。
责编:郑裕玲
审核:石浦
责编:乌尔鹏












