DeepSeek成功的底层逻辑及产业影响

3个月前 来源:新华网 观看:51

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?0RW即热新闻——关注每天科技社会生活新变化gihot.com

工程创新0RW即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。0RW即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。0RW即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变0RW即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……0RW即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。0RW即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。0RW即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。0RW即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。0RW即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?0RW即热新闻——关注每天科技社会生活新变化gihot.com

工程创新0RW即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。0RW即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。0RW即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变0RW即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑0RW即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……0RW即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。0RW即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。0RW即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。0RW即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。0RW即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
花江峡谷大桥是贵州省六枝至安龙高速公路的关键控制性工程,大桥全长2890米,桥面距离水面625米,建成后将成为“世界第一高桥”。花江峡谷大桥...
01-21
这两天,小红书“霸屏”了,成为网络热议话题。如果还有人不明所以,可以打开小红书App浏览一下,就会发现刷到外国博主的几率非常大,他们还给自己贴上了“T...
01-21
  1月20日下午,辽宁省商务厅发布《辽宁省手机、平板、智能手表(手环)购新补贴实施细则》,明确补贴范围及...
01-21
  2月7日,来自辽宁省邮政管理局的监测数据显示,今年春节假期(1月28日至2月4日),辽宁省快递业务揽收量1578....
02-08
1月20日各地正式实施手机、平板、智能手表(手环)等数码产品购新补贴政策,“国补”范围从家电、汽车向日常消费电子领域扩展。个人消费者购买单件销售价格不超过6000元的手机、...
01-21
1 月 21 日消息,据晚点 Auto 报道,华为与江淮汽车合作的高端品牌尊界首款车型 S800 在销售渠道布局方面取得新进展。据悉,尊界门店销售专项招聘已于 1 月中旬启动,尊界 ...
01-22
2 月 6 日消息,据北京青年报,《北京市新能源汽车高质量超级充电站发展行动计划》提出,今年,北京将建成 1000 座以上超级充电站,这些超充站普遍设置不少于 2 个功率 480 ...
02-06
  光明日报北京1月19日电(记者牛梦笛、张进进)中央广播电视总台《2025年春节联欢晚会》19日举行...
01-22
《难哄》是双男女主吗小说?难哄小说女主描述的是什么?《难哄》不是双女主小说,而是一部以温以凡和桑延为主角的现代言情小说。单女主设定:女主温以凡因家庭变故...
02-21
  新华社北京12月18日电 12月18日,《新华每日电讯》发表题为《人均预期78.6岁,如何迎接长寿“新常态”?》的报道。 &emsp...
01-21
  近期,流感等呼吸道疾病进入高发期。全国流感病毒阳性率上升,尤以甲流多发。  中国疾控中心1...
01-21
研考是重要的国家教育考试,关系教育公平和广大考生切身利益。为积极营造清朗健康的全国研考网络环境,根据...
01-21
  作者:西南财经大学马克思主义学院教授、四川省中国特色社会主义理论体系研究中心研究员 刘世强,西南...
01-22
  1月13日,四川日报刊登《中国长城资产管理股份有限公司四川省分公司与四川天府银行股份有限公...
01-22
  摘要  【开年已跌逾20%!氧化铝供需格局将反转?】2024年,氧化铝期货作为国内大宗商品期货市场...
01-24
摩羯座的男生通常比较内敛和保守,不太擅长表达自己的感情。当他们对一个女生有意思时,往...
01-22
天蝎座男生通常被认为是神秘、深沉而又充满魅力的存在。他们对爱情有着极高的要求,很难...
01-22
蓝色条纹衬衫搭配什么马甲?一、蓝色条纹衬衫搭配什么马甲?搭配蓝色牛仔马甲特别匹配,这样的组合特别统一特别有套装的高级感,搭配黑色水洗布马甲也非常协调,黑色百搭经典有低调大...
02-07
男商务衬衫搭配什么裤子好看?一、男商务衬衫搭配什么裤子好看?搭配一:牛仔裤牛仔裤应该是男士日常穿搭中的必备裤装,时尚、个性又百搭,搭配一件格子衬衫或者任何休闲风格的衬衫都...
02-07
2月13日消息,徐州多多万品电子商务有限公司董事长李婷、总裁韩秀丽一行近日到访国联股份冷链多多,冷链多多CEO梁豪、多多万店事业部总经理张敏代表公司接待了来访嘉宾,双方围绕...
02-14
2月16日消息,时值服饰行业春季上新节点,快手电商男装运动行业联合快手电商中小商家行业、快手商业化男装运动行业发起“早春新风尚-男装运动鞋服焕新季”活动。2月12日-2月28...
02-17
随着2025年1月的新年序曲轻轻响起,一批精选的冬季好物如约而至。《消费者报道》在这个岁末年初的温馨时刻,精心策划并发布了本年度1...
02-07
继于东来坐上河南座谈会“C位”后,区域零售龙头胖东来再次成为政策焦点。在最新发布的许昌市《政府工作报告》中,“放大胖东来引流...
03-01
2024年末,一位科技创业者火了。作者 | 王思琪来源 | 投资家(ID:touzijias)2024年末,一位科技创业者火了。2025年初,这位创业者再度爆火。近日,中国科技行业因一位85后年轻人现身《...
01-24
近日,华力创科学宣布完成数千万元A+轮融资,本轮融资由金属3D打印领域头部上市公司铂力特独家投资。据披露,本轮融资所募集的资金将专注于深挖高性能光学多模态感知技术,结合金属...
01-24
《漫威蜘蛛侠2》PC版将于1月31日发售。近日索尼公布了该作PC配置需求,并详细介绍了其光线追踪功能,一起来看看吧! Steam商店地址:点击进入 全新预告: 《漫威蜘蛛...
01-30
由AlterEyes打造的像素风3D休闲涂色游戏《彩色立方体(Color-A-Cube)》,现已在Steam平台推出试玩Demo。 本作中玩家将有着身临其境的着色体验,让您可以探索体素世...
02-05
近期,国家安全机关第一时间侦破一起重要涉密人员主动投靠境外间谍情报机关的重大间谍案件,及时制止卖密行为,有力维护了国家安全。潜滋暗长生邪念韩某某,案发前在某重要涉密单位...
02-07
2025年综合运输春运工作专班数据显示,预计2025年2月9日(春运第27日,农历正月十二),全社会跨区域人员流动量20629万人次,其中,铁路客运量1330万人次,公路人员流动量18983万人次(高速公...
02-09
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮