moe_创想鸟

硬件教程

华为推出准万亿参数盘古 Ultra MoE 模型全流程在昇腾 AI 平台训练

5 月 30 日，华为推出了全新的 AI 模型——盘古 Ultra MoE，该模型的参数量达到了 7180 亿。作为一款接近万亿参数的 MoE ( Mixture of Experts ) 模型，它在整个训练过程中完全基于华为的昇腾 AI 平台完成，标志着华为在超大规模模型训练方面取得了重要进展。 …

程序猿

2025年11月17日

0000

硬件教程

每 2 秒吃透一道高数大题！华为终于揭秘准万亿 MoE 昇腾训练系统全流程

现在，请大家一起来数一下 “1”、”2″。 OK，仅仅 2 秒的时间，一个接近万亿规模的 MoE 大模型就已经掌握了如何解答一道高等数学难题的方法！而且呢，这个大模型还是完全依靠国产设备进行训练的，整个流程都体现了浓浓的“国产”特色。这就是华为借助…

程序猿

2025年11月17日

2000

利用PyTorch实现混合专家模型(MoE)

mixtral 8x7b的推出在开放ai领域引起了广泛关注，特别是混合专家（mixture-of-experts：moes）这一概念被大家所熟知。混合专家（moe）概念象征着协作智能，体现了整体大于部分之和的理念。moe模型整合了多种专家模型的优势，以提供更准确的预测。它由一个门控网络和一组专家网络…

程序猿

2025年11月7日 • 科技

0000

全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，deepseek-v2[1]，全球最强开源 moe 模型来了。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ DeepSeek-V2 是一…

程序猿

2025年11月7日 • 科技

0000

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

阿里云通义千问团队在最新论文中揭示了混合专家模型(moe)训练中的一个关键问题，并提出了一种创新的解决方案。该问题在于现有moe训练框架普遍采用局部负载均衡损失(lbl)，导致专家激活不均衡，限制了模型性能和专家特异性。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 Deep…

程序猿

2025年11月1日 • 科技

0000