Navigation menu

新闻中心

让美国硅谷恐慌!中国工程院院士揭秘:DeepSee

快科技1月17日新闻,在AI范畴,DeepSeek带来的影响力,一点也不亚于“六代机”。那么,DeepSeek毕竟凶猛在那里?据新浪科技报道,本日,中国工程院院士、清华年夜学盘算机系教学郑纬平易近指出了DeepSeek其胜利出圈的要害地点。现在,业界对DeepSeek的爱好与夸奖,重要会合在三个方面。第一,在技巧层面,DeepSeek背地的DeepSeek-V3及公司早先推出的DeepSeek-R1两款模子,分辨实现了比肩OpenAI 4o跟o1模子的才能。第二,DeepSeek研发的这两款模子本钱更低,仅为OpenAI 4o跟o1模子的非常之一阁下。第三,DeepSeek把这一两年夜模子的技巧都开源了,这让更多的AI团队,可能基于开始进同时本钱最低的模子,开辟更多的AI原生利用。DeepSeek是怎样实现模子本钱的下降的呢?郑纬平易近指出,“DeepSeek自研的MLA架构跟DeepSeek MOE架构,为其本身的模子练习本钱降落,起到了要害感化。”他指出,“MLA重要经由过程改革留神力算子紧缩了KV Cache巨细,实现了在同样容量下能够存储更多的KV Cache,该架构跟DeepSeek-V3模子中FFN 层的改革相共同,实现了一个十分年夜的稀少MoE 层,这成为DeepSeek练习本钱低最要害的起因。”据懂得,KV Cache是一种优化技巧,常被用于存储人工智能模子运转时发生的token的键值对(即key- value数值),以进步盘算效力。详细而言,在模子运算进程中,KV cache会在模子运算进程中充任一个内存库的脚色,以存储模子之前处置过的token键值,经由过程模子运合计算出留神力分数,无效把持被存储token的输入输出,经由过程“以存换算”防止了少数年夜模子运算每次都是从第一个token开端运算的反复盘算,晋升了算力应用效力。别的,据郑纬平易近流露,DeepSeek还处理了“十分年夜同时十分稀少的MoE模子”应用的机能困难,而这也成了“DeepSeek练习本钱低最要害的起因”。“DeepSeek比拟凶猛的是练习MoE的才能,成为公然MoE模子练习中第一个能练习胜利这么年夜MoE的企业。”郑纬平易近说别的,DeepSeek还充足应用专家收集被稀少激活的计划,限度了每个token被发送往GPU集群节点(node)的数目,这使得GPU之间通讯开支稳固在较低的水位。新近,图灵奖得主、主导Meta AI研讨的首席迷信家杨破昆(Yann LeCun)以为,DeepSeek胜利的最年夜播种并非中国竞争对其余国度带来更年夜要挟,而是AI开源的代价使任何人都能受益。“对那些看到DeepSeek表示并以为‘中国在AI范畴正超出美国’的人而言,你的解读错了”,杨破昆在Threads写道,“准确解读应是‘开源模子正超出专有模子’”。【本文停止】如需转载请务必注明出处:快科技义务编纂:朝晖
上一篇:#DeepSeek热度忽然飙升##DeepSeek崩了# Dee 下一篇:没有了