Navigation menu

新闻中心

让美国硅谷恐慌！中国工程院院士揭秘：DeepSee

快科技1月17日新闻，在AI范畴，DeepSeek带来的影响力，一点也不亚于“六代机”。那么，DeepSeek毕竟凶猛在那里？据新浪科技报道，本日，中国工程院院士、清华年夜学盘算机系教学郑纬平易近指出了DeepSeek其胜利出圈的要害地点。现在，业界对DeepSeek的爱好与夸奖，重要会合在三个方面。第一，在技巧层面，DeepSeek背地的DeepSeek-V3及公司早先推出的DeepSeek-R1两款模子，分辨实现了比肩OpenAI 4o跟o1模子的才能。第二，DeepSeek研发的这两款模子本钱更低，仅为OpenAI 4o跟o1模子的非常之一阁下。第三，DeepSeek把这一两年夜模子的技巧都开源了，这让更多的AI团队，可能基于开始进同时本钱最低的模子，开辟更多的AI原生利用。DeepSeek是怎样实现模子本钱的下降的呢？郑纬平易近指出，“DeepSeek自研的MLA架构跟DeepSeek MOE架构，为其本身的模子练习本钱降落，起到了要害感化。”他指出，“MLA重要经由过程改革留神力算子紧缩了KV Cache巨细，实现了在同样容量下能够存储更多的KV Cache，该架构跟DeepSeek-V3模子中FFN 层的改革相共同，实现了一个十分年夜的稀少MoE 层，这成为DeepSeek练习本钱低最要害的起因。”据懂得，KV Cache是一种优化技巧，常被用于存储人工智能模子运转时发生的token的键值对（即key- value数值），以进步盘算效力。详细而言，在模子运算进程中，KV cache会在模子运算进程中充任一个内存库的脚色，以存储模子之前处置过的token键值，经由过程模子运合计算出留神力分数，无效把持被存储token的输入输出，经由过程“以存换算”防止了少数年夜模子运算每次都是从第一个token开端运算的反复盘算，晋升了算力应用效力。别的，据郑纬平易近流露，DeepSeek还处理了“十分年夜同时十分稀少的MoE模子”应用的机能困难，而这也成了“DeepSeek练习本钱低最要害的起因”。“DeepSeek比拟凶猛的是练习MoE的才能，成为公然MoE模子练习中第一个能练习胜利这么年夜MoE的企业。”郑纬平易近说别的，DeepSeek还充足应用专家收集被稀少激活的计划，限度了每个token被发送往GPU集群节点（node）的数目，这使得GPU之间通讯开支稳固在较低的水位。新近，图灵奖得主、主导Meta AI研讨的首席迷信家杨破昆（Yann LeCun）以为，DeepSeek胜利的最年夜播种并非中国竞争对其余国度带来更年夜要挟，而是AI开源的代价使任何人都能受益。“对那些看到DeepSeek表示并以为‘中国在AI范畴正超出美国’的人而言，你的解读错了”，杨破昆在Threads写道，“准确解读应是‘开源模子正超出专有模子’”。【本文停止】如需转载请务必注明出处：快科技义务编纂：朝晖

上一篇：#DeepSeek热度忽然飙升##DeepSeek崩了# Dee 下一篇：没有了

新闻中心

让美国硅谷恐慌！中国工程院院士揭秘：DeepSee

相关新闻