全球首个“纯AMD”训练MoE大模型ZAYA1 发布：14T tokens+CCA注意力，性能对标Qwen3

加载中...

2025/11/25 · Ai资讯

151

AMD携手IBM与AI初创Zyphra发布ZAYA1——全球首个全程基于AMD硬件训练的MoE基础模型，预训练14T tokens，综合性能与Qwen3系列持平，数学/STEM推理未经指令微调即可逼近Qwen3专业版。

训练规模

- 集群:IBM Cloud128节点×8张AMD Instinct MI300X，共1024卡;InfinityFabric+ROCm，峰值750PFLOPs

- 数据:14T tokens，课程学习由通用网页→数学/代码/推理;后训练版本将另行发布

架构创新

1. CCA注意力:卷积+压缩嵌入注意力头，显存占用↓32%，长上下文吞吐↑18%

2. 线性路由MoE:专家粒度细化+负载均衡正则，Top-2路由精度提升2.3pp，稀疏度达70%时仍保持高利用率

基准成绩

ZAYA1-Base（非指令版）在MMLU-Redux、GSM-8K、MATH、ScienceQA等基准与Qwen3-Base打平;CMATH与OCW-Math显著超越，验证STEM潜力。Zyphra透露，指令与RLHF版本将于2026Q1推出，并开放API与权重下载。

AMD表示，此次合作验证MI300X+ROCm在大规模MoE训练中的可行性，未来将与更多云厂商复制“纯AMD”集群方案，目标2026年训练>100B参数的MoE模型时实现与NVIDIA方案TCO持平。

您需要登录后再评论

{{item.create_time_txt}}待审核

删除

@{{comment.reply_nickname}}

{{comment.create_time_txt}}待审核

删除

展开更多

加载更多

回复@{{replyItem.user_nickname}}的评论

取消

删除评论

确定要删除该评论吗？

取消

确定

用户名/邮箱

密码

注册账号

找回密码

用户名/邮箱

注册邮箱已存在

邮箱验证码

密码

确认密码

两次输入密码不一致

注册并登录

直接登录

找回密码

用户名/邮箱

邮箱验证码

密码

确认密码

两次输入密码不一致

确定

注册账号