DeepSeek成功的底层逻辑及产业影响

11个月前 来源:新华网 观看:121

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?gAZ即热新闻——关注每天科技社会生活新变化gihot.com

工程创新gAZ即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变gAZ即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……gAZ即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?gAZ即热新闻——关注每天科技社会生活新变化gihot.com

工程创新gAZ即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变gAZ即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑gAZ即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……gAZ即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。gAZ即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
  科技日报记者 刘霞  据物理学家组织网15日报道,美国劳伦斯·利弗莫尔国家实验室(LLNL)科学家...
01-21
1月19日,记者从海军军医大学第一附属医院获悉,该院呼吸内科白冲、石荟教授团队,与海军军医大学组织胚胎学教研室韩超峰教授,共同揭示了良性气道狭窄发...
01-21
  日前,国家统计局辽宁调查总队发布辽宁工业生产者出厂价格和购进价格变化情况。调查数据显示:1月份,辽...
02-13
  本报记者张建友  游客在抚远东极广场迎接新年第一缕朝阳佳木斯市文化广电和旅游局供图 ...
02-18
1月20日各地正式实施手机、平板、智能手表(手环)等数码产品购新补贴政策,“国补”范围从家电、汽车向日常消费电子领域扩展。个人消费者购买单件销售价格不超过6000元的手机、...
01-21
  中新经纬1月18日电 近日,博通分析(咨询分析机构)发布了《非银支付行业企业数字化服务专题分析2024》(下称“报告”),中新经纬研究院受权发布。  ↓↓报告摘编如下↓↓ ...
01-21
[本站 资讯] 1月18日,海通国际发布研究报告“预测小米可能会收购蔚来,并使蔚来的换电技术得到更广泛的应用,甚至可能在专利保护下开放给其他汽车制造商使用,还预测小米、...
01-21
1 月 23 日消息,小鹏汽车昨晚正式推送AI 天玑 5.5.0,支持“车位到车位”(先锋版),并对智驾功能进行了多项优化。整理如下:“车位到车位”(先锋版):地库、闸机、园区、城市道...
01-23
《难哄》穆承允喜欢的女生是谁?穆承允和温以凡是什么关系?《难哄》中穆承允喜欢的女生是温以凡。‌在小说中,穆承允对温以凡有一定的好感,但这种好感并未发展成...
02-19
近期,演员于适的名誉维权案有了新进展。据其工作室发布的消息,一系列针对名誉权受损的维权行动正在紧锣密鼓地进行中。具体而言,工作室透露,已有7起因涉嫌侵害于适名誉权的案件...
02-22
  降糖药物的选择应根据糖尿病患者的自身病情、经济条件,潜在性副作用等因素综合考虑。通过这篇文章,希望帮助更多糖尿病患者达到...
01-21
21世纪经济报道记者季媛媛 上海报道 近期,安科生物发布重要公告,宣布将运用自有资金,最高不超过3100万美元(含相关手续费如经纪佣金及征费等)...
02-14
  大众网记者 秦瑾 通讯员 李永添 报道  12月24日,德州学院董仲舒书院揭牌开班仪式在厚德楼第二报告厅举行。德州市人民政府原副市长、一级巡视员董绍辉,上海交通大学...
01-21
一直以来,人类利用完整的微生物细胞作为催化体系来制备所需的产品,例如酿...
01-23
  四川省首家省级法人城市商业银行,开年换帅。据“四川妇女儿童中心”公众号消息,省妇联与四川...
01-22
  银行业理财登记托管中心近日发布《中国银行业理财市场年度报告(2024年)》(简称《报告》)。《报...
01-22
金牛座的男生通常被认为是稳重、务实的代表,他们对感情非常认真,但有时候也会故意气你。...
01-22
每个人都希望找到一个与自己完美契合的伴侣,而星座匹配可以为我们提供一些有趣的线索。...
01-22
魅力四射:过膝长靴在T台走秀的绝美瞬间在时尚界,过膝长靴无疑是一个不可忽视的存在。每当我站在T台边,看着模特们用这双靴子赋予整场走秀独特的风格时,心中总会隐隐涌起一阵美妙...
02-12
白色裤子搭配什么颜色衬衫好看?不要穿太紧身的服饰,夏季服装搭配,,‘’aircloset ‘’就是教你穿衣搭配的众号了,9.9元订购五套品牌女装和搭配全套衣服,服装色彩尽量明亮柔和,太深...
02-17
2月10日消息,消费者研究与零售监测公司尼尔森IQ(NIQ)近日宣布与京东超市达成战略合作,双方将就快消品类别进行数据合作,共建消费趋势洞察。此外,双方还将启动“扶摇计划”,共同探索...
02-11
2月15日消息,1688数据显示,2024年1688跨境生意订单规模同比增长超70%,2025年1688将进入海外15个国家和地区。“过去,许多工厂因缺乏外贸经验,只能依赖外贸公司或放弃海外市场。如...
02-15
2月16日消息,亚冬会近日在哈尔滨举行,吸引入境宾客在哈尔滨畅游畅买,也给文旅消费增添了新活力。支付宝数据显示,亚冬会期间(2月7日-14日),入境宾客用支付宝消费金额同比去年同期增...
02-17
3月4日消息,中国和哈萨克斯坦互免签证执行一年多来,两国人员往来增长迅速。银联借势加快推动在哈支付生态建设,本地化业务进程提速。2024年,当地居民使用银联卡在华交易笔数同比...
03-05
2024年国网全年电网投资首超6000亿元,预计达到6092亿元,相比2023年新增711亿元,13.2%的同比增速也为近年最高值。据国网1月15日发布的信息显示,2025年国网将进一步加大投资力度,...
01-22
自去年底开始,黄金多头优势逐渐退却,国际现货黄金价格经历几次大跌后一度跌下2700关口,多空进入漫长的震荡周期,多头始终无法找到再度冲高的时机。  北京时间1月21日,国际现货...
01-24
AMD CEO苏姿丰在公司2024年第四季度财报电话会议上宣布,RX 9070系列“RDNA 4”GPU将于三月初发售。 在最近的2024年第四季度财报电话会议上,苏妈终于让所有谣言...
02-07
近日Sprecher啤酒公司宣布与育碧合作,推出一款限量版的啤酒以庆祝《刺客信条:影》的发行,并将在游戏内提供免费的奖励。 视频欣赏: 据悉,玩家购买这款特别版啤酒...
02-15
据新华社报道,美国总统特朗普2月1日签署行政令,对进口自中国的商品加征10%的关税。美国的这一最新贸易保护措施在国际社会和美国国内遭到广泛反对。 商务部回应美对华加征关税...
02-02
极目新闻记者 肖名远2月3日晚,广东湛江徐闻县西连镇发生一起火灾,一对父子在救火时遇难,另有四人严重受伤。因经济困难,伤者的家人在网上发起求助,一天内就获得各方好心人的50万...
02-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮