架构创新:DeepSeek MoE架构 MOE架构(Mixture of Experts 混合专家模型)是一种通过组合多个专家模型来提高深度学习模型性能和效率的架构。 架构创新:MLA架构 DeepSeek 的 MLA(Multi-head Latent Attention,多头潜在注意力)架构, 知识蒸馏
架构创新:DeepSeek MoE架构 MOE架构(Mixture of Experts 混合专家模型)是一种通过组合多个专家模型来提高深度学习模型性能和效率的架构。 架构创新:MLA架构 DeepSeek 的 MLA(Multi-head Latent Attention,多头潜在注意力)架构, 知识蒸馏
一、技术选型与总结 1、需求简述 假如公司有100W数据, 包括新闻,企业,个人,方案等数据。需要将公司数据投喂给DeepSeek继续训练(模型微调),从而达到提问公司数据时可以正常返回,其次可以完成一些创造性的任务。 特别说明:新闻文章、产品数据属于非结构化数据,企业、个人、参展等数据属于结构化数据。 2、实现方案及优缺点 目前主流的实现方案有两种: 二次训练:在预训练模型的基础上,用自...