DeepSeek成功的底层逻辑及产业影响

1年前 来源:新华网 观看:159

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?X6G即热新闻——关注每天科技社会生活新变化gihot.com

工程创新X6G即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。X6G即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。X6G即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变X6G即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……X6G即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。X6G即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。X6G即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。X6G即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。X6G即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?X6G即热新闻——关注每天科技社会生活新变化gihot.com

工程创新X6G即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。X6G即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。X6G即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变X6G即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑X6G即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……X6G即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。X6G即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。X6G即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。X6G即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。X6G即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
从“神一”到“神十九”,25年间,中国航天带给世界无数次惊喜,人们对航天员在轨期间的工作、生活情况等也越来越关注。未来,随着我国载人航天工程、载人...
01-21
1月20日,中国有“人造太阳”之称的全超导托卡马克核聚变实验装置(EAST)在安徽合肥创造新的世界纪录,首次实现1亿摄氏度1066秒的高约束模等离子体运行,标...
01-23
  记者1月15日获悉,辽宁邮政快递业迎来2025年“开门红”:1月1日-13日,辽宁省快递业务量和投递量较去年同...
01-21
①不少人聚会喜欢在冬日里围炉煮茶轻轻松松地聊聊天。周玉婷 摄②“上门代厨”满足了消费者在家聚餐解...
01-22
最近,不少网友发现,自己在春运开始前买好机票,结果却在春节前降价了……据报道,1月19日,有游客向记者反映,近日重新预订了一家三口春节期间从北京前往珠海的航班,同样的航班,相比半...
01-22
  正月初七返程火车票今日开抢,预计当天为节后客流高峰日  正月初七返程火车票今日开抢!  1月21日,按照铁路车票预售期,旅客可以购买2月4日(正月初七)的火车票。2025年铁...
01-21
1 月 24 日消息,小鹏汽车今日发布《小鹏 MONA 答用户问(第 14 期)》,重点针对哨兵模式相关问题进行了解答。附重点内容如下:哨兵模式在什么情况下会触发?有人碰到车会有报...
01-25
1 月 29 日消息,宝马公司推出了 2026 款 iX 中型 SUV,作为中期改款车型,此次改款不仅对车型阵容进行了调整,还对外观、内饰以及动力系统进行了优化升级。宝马 iX 自 202...
01-29
  1、《难哄》桑延的工作是程序员,不过他还有副业,他有个酒吧,自己也是酒吧老板。  2、桑延在一个温暖有爱的家庭中长大,性格看似毒舌傲娇,实际上三观很正,有情有义。  3、...
02-15
《难哄》小说穆承允结局是什么?穆承允结局怎么样?‌《难哄》小说中穆承允的结局是没有与温以凡在一起‌。穆承允对温以凡有一定的好感,但这种好感并未发展成深...
02-21
这里是《21健讯Daily》,欢迎与21世纪经济报道新健康团队共同关注医药健康行业最新事件!政策动向国家医保局预设“互联网首诊”价格项目日前,...
01-24
21世纪经济报道记者季媛媛 上海报道 新一代药王“K药”刚刚宣布拿下294.82亿美元销售额后,“网红”司美格鲁肽随即高调宣称,2024年销售额为2...
02-06
近日,省委、省政府决定,单耀军同志任河北工程大学党委委员、常委、副书记,校...
01-21
上海市科学学研究所研究员李辉为华东师范大学应用伦理专业研究生授课。受访者供图“只有完善多学科协同...
01-22
  本报记者 冷翠华  见习记者 杨笑寒   截至2月13日,已有135家险企(不含再保险公司)披露了20...
02-14
  2025年开年,保险资金等中长期资金入市迎来了更为广阔的政策空间。1月22日,中央金融办、中国证...
02-14
摩羯男和金牛女的配对指数非常高,他们在很多方面都能够互补,形成一个稳定而和谐的关系。...
01-22
天秤男是一个追求平衡和和谐的星座,他们喜欢美丽、优雅的事物。当他们遇到某个特定的星...
01-22
夏季男士衬衫男士短袖衬衫怎么搭配?一、夏季男士衬衫男士短袖衬衫怎么搭配?搭配一:粉色短袖衬衫+白色休闲裤粉色短袖衬衫是比较挑人的,适合肤色比较百分人穿,搭配一条白色休闲裤,...
02-07
领结婚证穿搭男士? 朋友结婚男士穿什么衣服?一、领结婚证穿搭男士? 领证当天男士最好穿白色的衬衫、粉色的衣服、浅蓝色的衣服,一来红底的照片看上去色彩突出明显;二来这些...
02-17
2月7日消息,秦皇岛津峰线缆制造有限公司(以下简称:津峰线缆)董事长韩金良一行日前到访涂多多。现场,涂多多副总裁、跨境产发部常务副总经理郑德莲与津峰线缆副总经理韩冬共同签署...
02-07
2月10日消息,天眼查显示,2月8日,与辉同行(北京)科技有限公司发生工商变更,原全资股东董宇辉退出股东行列,新增子三省(北京)科技有限公司为股东并全资持股,董宇辉由直接持股变更为间接...
02-11
2月13日消息,京东养车日前与杭州陆益嘉信息技术有限公司达成战略合作,双方将以独家授权的合作模式,共同推进浙江省五市京东养车连锁加盟门店的拓展。根据合作协议,双方将于三年...
02-14
2月16日消息,亚冬会近日在哈尔滨举行,吸引入境宾客在哈尔滨畅游畅买,也给文旅消费增添了新活力。支付宝数据显示,亚冬会期间(2月7日-14日),入境宾客用支付宝消费金额同比去年同期增...
02-17
空调界“价格屠夫”要来了。作者 | 笔锋来源 | 投资家(ID:touzijias)空调界“价格屠夫”要来了。12月底,70岁的董明珠在访谈中被问及退休问题时,她意味深长地暗示“明年可能会退...
01-21
自去年底开始,黄金多头优势逐渐退却,国际现货黄金价格经历几次大跌后一度跌下2700关口,多空进入漫长的震荡周期,多头始终无法找到再度冲高的时机。  北京时间1月21日,国际现货...
01-24
春节想打麻将,但又无力招架亲戚们在牌桌上的花式八卦盘问?那就来试试这款主打单人PVE的“i人麻将”吧! 点数无上限、构筑无下限,一起来花式赢积分。在这个春节,i...
01-27
RTX 5090和RTX 5080显卡在今天正式开卖,由于货源稀少,性能强劲,一上市很快就被一扫而空,导致很多潜在买家只能“望卡兴叹”。 当然,这些抢显卡的人很多并不是真正...
02-03
记者从国家医保局获悉,今年1月,有专家认为某些集采药品可能存在“血压不降、麻药不睡、泻药不泻”质量风险,有关部门派员调研了解情况。日前,参与调研的医保、药监部门接受了记...
02-09
澎湃新闻记者 邹佳雯“回到2019年,总是在书本和新闻中出现的老人,就坐在我们面前,那是一位可爱的寻常老人,说话带笑意,脸色红润润的,身体随着讲述有小幅的晃动,故事讲得很有感染力,...
02-10
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮