DeepSeek核心技术简介~为什么这么牛?

架构创新:DeepSeek MoE架构

‌MOE架构(Mixture of Experts 混合专家模型)是一种通过组合多个专家模型来提高深度学习模型性能和效率的架构。

架构创新:MLA架构

DeepSeek 的 MLA(Multi-head Latent Attention,多头潜在注意力)架构,

知识蒸馏

相关文章

此处评论已关闭