据国内媒体报道,深度求索公司计划在近期推出一款全新的AI大模型——DeepSeek-R2。这款AI大模型在技术上采用了更先进的混合专家模型(MoE),并结合了智能门控网络层(Gating Network),旨在优化高负载推理任务的性能。
DeepSeek-R2不仅在技术上有所提升,更在成本上具有显著优势。据分析师预测,其定价可能会显著低于OpenAI的同类产品,预示着AI服务定价模式或将迎来一次颠覆性变革。同时,有消息透露,相较于GPT-4,DeepSeek-R2的成本有望下降97%。
这款AI大模型在参数量上也达到了新的高度。据透露,DeepSeek-R2的总参数量可能达到1.2万亿,相较于前代产品DeepSeek-R1的6710亿参数,几乎翻倍。这一巨大的参数量将进一步提升其处理复杂任务的能力。
值得一提的是,DeepSeek-R2是基于华为昇腾910B芯片集群训练的。在FP16精度下,其计算能力达到了惊人的512PetaFLOPS,芯片使用效率也高达82%。据华为实验室统计,这一性能相当于英伟达上一代A100训练集群的91%左右,显示了DeepSeek-R2在性能上的卓越表现。
综合来看,DeepSeek-R2不仅在技术上取得了显著进步,更在成本和性能上实现了双重突破。随着其即将推出,我们有理由期待这款AI大模型将在各个领域带来更加出色的表现和应用。