架构创新:DeepSeek MoE架构
MOE架构(Mixture of Experts 混合专家模型)是一种通过组合多个专家模型
来提高深度学习模型性能和效率的架构。
架构创新:MLA架构
DeepSeek 的 MLA(Multi-head Latent Attention,多头潜在注意力)架构,
知识蒸馏
最后更新于
2025-02-20 22:25:56
并被添加「deepseek」标签,已有 63 位童鞋阅读过。
本站使用「署名 4.0 国际」创作共享协议,可自由转载、引用,但需署名作者且注明文章出处
相关文章
此处评论已关闭