DeepSeek成功的底层逻辑及产业影响

1年前 来源:新华网 观看:133

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?We3即热新闻——关注每天科技社会生活新变化gihot.com

工程创新We3即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。We3即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。We3即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变We3即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……We3即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。We3即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。We3即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。We3即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。We3即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?We3即热新闻——关注每天科技社会生活新变化gihot.com

工程创新We3即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。We3即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。We3即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变We3即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑We3即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……We3即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。We3即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。We3即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。We3即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。We3即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
来自美国亚利桑那大学的天文学家团队使用大型双筒望远镜干涉仪,在红外波段捕捉到了迄今为止最清晰的活动星系核(AGN)图像,并将研究结果发表在最新一期...
01-21
最近,“静电颜色挑战”在网络上走红,大量网友跟风模仿。许多社交媒体博主称,当两个相爱的人接触时,如果产生的静电呈粉色,那么说明他们之间是“真爱”,而...
01-23
  受东北地区强冷空气影响,近期,渤海辽东湾海域海冰发展迅速,面积将达到今冬以来的最大值。...
01-28
  “跟着电影游中国”活动2月17日在京启动。活动旨在抓住春节档电影全球热映契机,利用当前过境...
02-18
  继“City不City”之后,“周五下班去中国”成为海外游客新潮流,韩国年轻人日渐兴起了“去中国过周末”的citywalk。  免签政策开放以来,越来越多的外国游客亲身体验、...
01-21
  “领养条件:成年,经济能力稳定,自己居住或者父母室友房东允许;每个月愿意花三四百元管它吃喝拉撒;支付宝芝麻信用分550分以上;猫咪都是纯种精品健康猫咪,质保180天,终身售后...
01-21
在激烈的变革时代,宝马展现了一家优秀企业的“定力”与“韧劲”。2024年,宝马集团再度夺冠中国豪华乘用车市。这一年,宝马坚守“纯粹驾驶乐趣”的品牌承诺,携手经销商伙伴提升运...
01-21
  2025年开年,中国汽车工业传捷报。  13日,中国汽车工业协会公布数据显示,2024年我国汽车产销...
01-21
电视剧《难哄》中的钟思乔职业成为了近期热门话题。该剧开拍前就吸引了大量粉丝,随着剧集播出,更多观众加入粉丝群体,对剧情充满期待,并对钟思乔的职业感到好奇...
02-22
在光彩夺目的娱乐圈内,何炅凭借其出色的主持才能和温文尔雅的气质,早已赢得了无数观众的喜爱与尊敬。而近日,这位步入人生新阶段的知名主持人,又以一种令人意想不到的方式,再次成...
02-22
  11月18日至24日是世界卫生组织确定的“提高抗微生物药物认识周”。当前,抗生素使用情况如何?“新华视点”记者走访多地进行调查...
01-21
  即将告别春节假期,你有没有不想上班、不想上学、不想起床?从“假期模式”切换到“工作模式”还不太适应?如何调整?指南请收好↓↓↓  01  什么是“节后综合征”? ...
02-07
  我是莆田阅读推广的追梦人,揣着一份“让阅读滋养人们心灵、让教育生活因书而美好”的炽热梦...
01-21
  大众网记者 隋宜笑 报道  12月26日,山东政法学院党委委员、副校长胡晓清,山东政法学院传媒学院党总支书记徐永青,山东政法学院传媒学院副院长常洪卫等一行5人到访山东...
01-21
  近日,又有一家消费金融公司收到监管罚单。  根据国家金融监督管理总局四川监管局开出的罚...
01-22
  消费是经济增长的重要引擎,也与百姓日常生活息息相关。近段时间以来,金融业紧跟政策导向,瞄准...
01-22
冷战是一种常见的情感处理方式,但对于狮子男他们往往更难以忍受这种冷漠的态度。如果你...
01-22
白羊座男生是十二星座中最具有阳刚之气的一种类型,他们热情、积极、直接,对于喜欢的人往...
01-22
石家庄时尚盛宴:揭秘模特T台走秀的光彩时刻当我走进石家庄的时尚中心,目光所及之处尽是华丽的灯光、绚烂的服饰,以及那些熠熠生辉的模特。在这个为期数天的T台走秀活动中,观众们...
02-12
怎样免费加盟淘宝代理男装?怎样免费加盟淘宝代理男装?免费的,,,其实是最昂贵的。。。。这个道理和我们现实中一样。。。。。。很抱歉,回答者上传的附件已失效服装加盟店排行榜品牌...
02-12
2月5日消息,盒马发布《2025盒区房春节消费报告》(以下简称“报告”)。《报告》显示,盒马年菜销售同比增长了42%,下单购买年菜的18-35岁的年轻消费者占比达56%,不同于老一辈,这届年...
02-07
1月21日消息,卓尔智联生态圈第三十一次联席会议近日在上海举行。本次会议以“聚势同行 创领新程”为主题,卓尔智联集团高管及职能部门负责人,下属公司CEO、财务、风险等条线负...
02-07
时隔两月,网红袋泡茶品牌“CHALI茶里”再度陷入欠薪风波。据《消费者报道》此前报道,2024年11月13日晚间,针对当时多名自称茶里的员...
02-07
2月21日消息,银联国际日前与阿联酋本地转接网络Al Etihad Payments(AEP)签署合作协议,双方将在阿联酋当地共同推动发卡行发行“银联-Jaywan”双品牌卡,提升当地居民日常消费、跨...
02-22
近日,众钠能源完成由中合投资和黄海金控联合投资的近亿元A1轮融资,本轮融资充分体现了资本市场对硫酸铁钠技术路线及众钠团队产业化能力的高度认可...
02-07
在全球化的大背景下,中国品牌凭借自身实力与创新能力,在国际舞台上愈发耀眼。近日,来自拉丁美洲的一则消息引起了行业广泛关注:远大智能工业集团博林特电梯,成功中标哥伦比亚麦德...
02-09
在《绝地潜兵》初代中,玩家实际上可以前往母星超级地球,进行保卫战。根据最新的泄露看来,《绝地潜兵2》的保卫站也已在制作当中,并且这场入侵我们将无法阻止。 数...
01-25
曾为《上古卷轴》系列献声的资深游戏配音演员韦斯·约翰逊突发重病入院,其家人已在GoFundMe平台发起医疗费募捐。截至发稿时,该活动已筹得超5.2万美元(最初目标5...
01-31
极目新闻记者 柯称 李碗容 张屏 庞正 马鑫人勤春来早对于人形机器人来说也许也是这样大年初八新春开工首日湖北10个型号的“楚才”系列人形机器人在洪山礼堂前集中亮相这是...
02-05
抖音安全中心2月8日公告称,近期,徐熙媛(大S)女士逝世引发广泛关注,广大网友纷纷表达哀思悼念,希望逝者能够安息。但也有部分账号借机炒作,发布谣言,违背公序良俗和道德底线,不尊重逝...
02-08
SQL Error: select * from ***_ecms_news1 where id in(217,283,22,71,,131,130,161) limit 8
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮