1.DeepSeek悄然发布新版大语言模型DeepSeek-V3-0324,采用混合专家(MoE)架构,实现与全激活模型相当的性能,降低计算需求。
2.新模型融合多头潜在注意力(MLA)和多标记预测(MTP)技术,输出速度提高近80%。
3.DeepSeek-V3-0324基于4位模式,运行速度超过每秒20个tokens,可在配备 mlx-lm的512GB M3 Ultra上运行。
4.由于此次发布的新模型使用了MIT开源许可,任何人可免费用于商业用途。
5.专家预测,DeepSeek-R2模型可能将在未来两个月内推出,对OpenAI的下一个旗舰模型GPT-5构成直接挑战。
以上内容由腾讯混元大模型生成,仅供参考
来源 | DeepTech深科技
https://x.com/TheXeophon/status/1904225899957936314/photo/1