在过年期间,可能大家或多或少都会被 deep sicking,其实它确实是我们国人的一个骄傲吧。我们一直在想为什么 deep sick 它可以成功,为什么它可以击败 OPEN AI 的一些顶级的模型。其实 deep sick 它在24年的1月份发布了首款 deepseek V 一的模型,然后在今年的12月26日发布了这个 dv3成为了开源模型中性能最高的模型,并且可以击败 gp t4o。它的一个核心的让大家非常惊叹的点就是它的训练成本仅有557万美金。在刚刚过去的几天吧,它又乘胜追击发布了这款 RE,然后可以追平 OPEN AI 的这个 OE 以及在初一的那一天发布了 genius pro 这款多模态的模型,可以击败 OPEN AI 的这个 e3这个模型。
在整个的分析下来,特别是研读了一下这个 deep 皮书,我们发现它的成功的关键可能主要有三个部分。首先它的模型是做的很大的。它采用了这种 massive moe 的这种产品架构,把模型的参数量做到了671b,然后在每一次推理中,它的激活的参数量大概是在37b 左右。通过把模型的量级放大模型中所包含的信息确实变得很多了。另外他还创造了很多之前没有的,或者说没太有人用的一些架构,它也取得了很多。就很不错的效果,首先就是多头潜在注意力机制 MLA 提高了这个模型的上下文的连接能力。另外,用这种多 token 预测的这种 MTP 的这种方式,它也是让训练的效果变得更好。另外,deep 的一个核心就是它可以做到极致的成本压缩,特别是用了这种 fp8的这种混精度的加速技术,还有这种 due 的这种加速的算法,让训练变得非常的高效。仅仅用了 OPEN AI 的十分之一的 GPU 时间就完成了整个模型的训练。
在整个分析下来,我觉得 deepseek 他的成功其实是带给我们很多启示的,特别是在算力层面。首先我觉得到的第一个启示是开源大模型的时代来了。其实在之前我们发现一些开源的大模型,即使性能最好的相对性能比较好的那种闭源大模型还是有很大的差距的。但是 deep sick 出来之后,我们发现这个差距不存在了,因此这种开源大模型的时代来临,它会导致这种大模型的落地成本是会大大的降低。大家可以看到左上角的这个图是。Deepv3和 gp t4o 的一个价格对比,可以看到它的推理云端的推理价格差了大概在十倍以上。另外右边是整个的一个模型的训练成本可能也是在十倍左右的差距,所以可能在未来,不管是大模型的推理,还是说有一些用户他需要微调,需要做二次训练。这个成本落地的成本都会变低。
其次,第二个点,我们认为算力的需求它反而是增加了。但是他从训练侧逐渐的向推理侧做了清洗。为什么这么说,因为 deepseek 它出现它的出现,其实证明了训练可能不需要这么算多算力可能。在训练层面,他的大家对大模型的算力需求都是处处于一个高估的状态,而这种模型的这种大参数量级就导致他在推理的过程中需要很多的算力。一旦它开源之后被大家广泛使用后,推理侧的算力需求会提升的非常快。另外我们认为在推理这块在未来的几个月之内,可能云端的推理需求会激增。原因就是这种大参数量级的模型可能它需要的这个硬件,或者说算力是比较多的,特别是 dv3这个模型,它在官方的建议上是用两台八卡的 h100或者200来做这种推理。其实这种设计多卡多机。或者说这种场景可能在云端,它的性价比会更加高对。然后由于这个云端的推理需求激增,以及我们发现我们的算能的 ic11版卡它有这种大容量的特质,在这种超大模型上,其实是会有一个比较好的性价比优势。
