猫眼电影
猫眼电影记者 梅迪尔 报道首次登录送91元红包
机器之心发布
机器之心编辑部
今年,文本生成领域迎来了从自回归(Auto-Regressive)向扩散语言模型(Diffusion LM)的重要范式转变。然而,长序列训练的不稳定性一直是制约扩散模型发展的核心痛点。上下文窗口限制使得模型在处理复杂的数学推理、编程任务,尤其是需要深度推理的「慢思考」场景时,显得捉襟见肘。
华为近日正式发布 openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B 进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至 32K
在「慢思考」能力的加持下,该模型在多个权威基准中创下了 7B 参数量级的全新 SOTA 纪录:
多学科知识(MMLU-Pro):超越 16B 参数量的 LLaDA 2.0-mini-preview22%数学推理(MATH):得分,大幅领先同类模型。代码生成(MBPP):得分,展现出卓越的逻辑泛化能力。
Base模型链接:https://ai.gitcode.com/ascend-tribe/openPangu-7B-Diffusion-Base慢思考模型链接:https://ai.gitcode.com/ascend-tribe/openPangu-R-7B-Diffusion
接下来,我们将深入解析这款模型背后的技术革新。
1. 架构创新:
前文因果注意力掩码,自回归到 BlockDiffusion 的无缝迁移
openPangu-R-7B-Diffusion 在注意力机制上并未沿用传统扩散模型(如 LLaDA)的全注意力(Full Attention),也未采用 SDAR 或 Fast-dLLMv2 的分块掩码(Block Attention),而是创新性地融合了自回归的前文因果注意力掩码(Causal Attention Mask)。
这一设计从根本上解决了架构适配难题:
消除适配壁垒:以往将自回归模型适配至扩散模型,往往需要 Attention Mask Annealing 或 Shift Operation 等复杂操作来弥合差异。而 openPangu-R-7B-Diffusion 通过保留前文的因果注意力特性,使得模型仅需从「预测 Next Token」转变为「预测 Next Block 中的 Mask Token」,极大地降低了适配成本。兼容性最大化:该设计让模型能够自然继承自回归模型的预训练知识,为长窗口训练打下坚实基础。
2. 训练与推理:双模式解码与效率倍增
在训练策略上,openPangu-R-7B-Diffusion 延续了 BlockDiffusion 的思路(拼接带掩码的 Block 与无掩码的 Context),但进行了关键优化:
Context 利用率 100%:传统方法往往忽略无掩码 Context 部分的 Loss 计算,导致一半的数据被浪费。openPangu-R-7B-Diffusion 则将这部分数据用于标准的自回归 Next Token Prediction 训练。双模式解码:这种训练方式赋予了模型「自回归 + 扩散」的双重解码能力。用户可以通过不同的采样设置,灵活权衡生成质量与速度。极致性能:模型完整保留了变长推理与 KV-Cache 特性。在并行解码模式下,其速度最高可达自回归解码的2.5 倍
可视化实测:亲眼见证「慢思考」与扩散生成的融合
为了更直观地展示 openPangu-R-7B-Diffusion 的工作机制,我们对模型的推理过程进行了可视化处理。
在输入一道经典的数学逻辑推理题(Claire 的煎蛋问题)后,我们可以清晰地观察到扩散语言模型的独特生成方式:模型并非像传统自回归模型那样「逐词蹦出」,而是在 4 个生成步数(Generation Steps)内,并行地将多个 [MASK] 噪声逐步去噪还原为
、Claire、makes 等清晰的语义 Token。
图中首位的Token 尤为关键,它标志着模型正在启动我们前文提到的 「慢思考」模式。这种结合了扩散并行生成与深度思维链(Chain-of-Thought)的能力,正是 openPangu-R-7B-Diffusion 能够在数学和编程基准上大幅超越同类模型的核心原因。
结语:开启扩散语言模型的新篇章
openPangu-R-7B-Diffusion 的发布,不仅仅是一个新模型的开源,更是对「扩散模型能否处理复杂长文本」这一难题的有力回应。凭借其创新的因果注意力掩码架构,它成功证明了扩散模型不仅可以「快」(并行解码),更可以「深」(32K 长文与慢思考)。
值得一提的是,openPangu-R-7B-Diffusion 的训练、推理及评测全流程均在昇腾 NPU集群上完成,有力证明了国产算力在以前沿扩散语言模型领域的强劲实力。
时事1:皇冠真人百家乐
12月26日,中国献血法实施27年拟迎首次修订,双方重申在维护信息通信技术领域安全问题上的一致立场,同意协作应对包括与人工智能相关的各类网络安全风险。双方鼓励全球共同推动人工智能健康发展,共享人工智能红利,加强人工智能能力建设国际合作,妥善应对人工智能军事应用问题,支持在联合国、国际电信联盟、金砖国家、上海合作组织、国际标准化组织等机制平台开展人工智能交流合作。反对利用技术垄断、单边强制措施恶意阻挠他国人工智能发展、阻断全球人工智能供应链。,bob娱乐体育平台官网入口。
12月26日,粤桂协作 助力广西农产品对接大湾区市场,综合财联社、证券时报报道,史美伦,这位74岁的女性身上有诸多美誉,包括“铁娘子”和“超级打工女皇”,随着任期结束,她在港交所主席的职位上正式画上了句号。,手机真金娱乐场,168体育网站登录,威尼斯人网上。
时事2:ag捕鱼王2下载
12月26日,【我的2025】城市里的单车“牧人”:每天装卸上千次 助力打工人不迟到,当地时间3月12日,英国首相苏纳克将飞往美国与美国总统拜登及澳大利亚总理阿尔巴尼斯会谈,旨在敲定一份涉及三方的核潜艇合作协议细节。,威尼斯城娱乐在线注册,巴黎人下载,beplayer体育官网下载app。
12月26日,搭建“空中出海口” 花湖机场咸宁城市货站启用,“当地城市的年轻人基本人手一台智能手机。”2017年6月,初到刚果(金),彭昌国就在表姐位于刚果(金)第二大城市卢本巴希的手机档口帮忙。当时,在刚果(金)的大城市中,智能手机已经比较常见。,爱游戏体育app最新版本,ManBetX万博免费试玩,腾龙在线客服联系方式。
时事3:优博注册App
12月26日,昆明各界人士纪念“一二·一”运动80周年,证券日报网讯 12月23日,铁龙物流在互动平台回答投资者提问时表示,为保证所有投资者平等获悉公司信息,根据信息披露公平原则,公司选择在定期报告中披露对应期末时点的股东人数信息,具体情况请参阅公司披露的定期报告。,天博登录不了,半岛网网址,新2皇冠手机网页版。
12月26日,开放获取期刊《科学报告》作者突破百万 文章引用量超665万次,紧接着4月17日,天山机场启用面积50万平方米的T4航站楼,这是新疆历史上最大单体建筑施工项目。,hth华体会入口登录,365088bet,宝马会在哪开户。
时事4:百家乐登陆
12月26日,抖音电商2025火锅开吃节数据报告:8天内成交7024万单,当天,台湾北部与中部地区都遭到大雷雨侵扰,各地区发生大树倒塌、变电箱爆炸等灾情,还有飞机航班遭雷击,所幸都平安降落。晚间,台北101大楼也被闪电击中,有民众拍摄到大楼遭受雷击的罕见瞬间,原本只有微弱灯光的天空,在雷击中台北101时,紫光瞬间照亮整个城市,让不少网友惊叹。报道称,台北101大楼配备避雷设施,雷击对建筑物本体并无影响。,玩牛牛怎么才能赢钱,百家乐牌路分析软件,亿博官网地址。
12月26日,中方:菲方应停止无休止地上演自编自导的海上闹剧,5月10日,中新(西兰)两军在西安举行第11次战略对话。双方围绕共同关心的国际和地区问题坦诚交换意见,表达了共同致力于推动两军交流合作的积极意愿,增进了相互了解和信任。,ag哪个平台正规,永丰棋牌,棋乐棋牌。
责编:李隐
审核:裴矩
责编:封懿












