DeepSeek成功的底层逻辑及产业影响

1年前 来源:新华网 观看:149

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?eFS即热新闻——关注每天科技社会生活新变化gihot.com

工程创新eFS即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。eFS即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。eFS即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变eFS即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……eFS即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。eFS即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。eFS即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。eFS即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。eFS即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?eFS即热新闻——关注每天科技社会生活新变化gihot.com

工程创新eFS即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。eFS即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。eFS即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变eFS即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑eFS即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……eFS即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。eFS即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。eFS即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。eFS即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。eFS即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
  蓝鲸新闻8月7日讯(记者 汤诗韵)中老年人正在成为区块链骗局的猎物。近日有网友爆料父母沉迷“...
01-21
1月15日,“AI六小虎”之一的MiniMax发布并开源了新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型...
01-21
  1月22日,腊月二十三,这一天是北方传统的小年,而南方传统的小年则在腊月二十四。小年到,甲辰龙年...
01-23
  蓝天白云、繁星闪烁,辽宁“好天儿”更多了。1月23日,记者从省生态环境厅了解到,2024年,我省环境空气质...
01-24
  “学习机负责教书,督导老师负责育人”“用AI代替老师,‘双减’政策下的托管班”……越来越多的AI自习室,在居民区、校园旁悄然出现。  有媒体报道称,公开资料显示,截至2...
01-21
新闻通讯员 木子春运承载着亿万游子对家乡的眷恋与期盼,春节的脚步近了,归心似箭的人们纷纷踏上返乡之路。据交通运输等部门预计,今年春运全社会跨区域人员流动量将达到90亿人...
01-22
1月15日,在MG新年首场“有意思”发布会上,MG打破常规,首开传统车企新车重新发布“先河”。上汽MG品牌事业部总经理周钘首次以新身份正式亮相,并将MG ES5重新发布,为观众深度解读...
01-21
  21世纪经济报道特约记者钱伯彦法兰克福报道  不出意料,奔驰的2024年并不好过。  1月10日...
01-21
最近热播的《大梁第一女仵作》受到许多观众的喜爱,大家不仅追剧热情高涨,还对情节和人物充满好奇。为了让大家更全面地了解这部电视剧,这里整理了一些相关信息...
02-19
人气演员王鹤棣近日现身上海,参与了一场备受瞩目的品牌盛事,现场发布的未经修饰的照片和视频迅速在网络上走红,引起了广泛热议。 活动中,王鹤棣以一袭粉色衬衫惊艳亮相,帅气形象...
02-22
21世纪经济报道记者 韩利明 上海报道1月20日,国家医保局发函指出,关于近期上海市“两会”期间,有政协委员、医学专家反映某些集采药品可能存...
01-21
  美国科罗拉多大学博尔德分校一项最新研究表明,与较早经历更年期的女性相比,较晚经历更年期的...
02-11
  大众网记者 秦瑾 通讯员 吴悦 报道  12月19日,2024年度山东省数据要素发展大会暨可信数据空间建设启动会在山东大厦举行。齐鲁师范学院人工智能教育研究院研发的“...
01-21
作者:沈阳职业技术学院 王坤高校辅导员肩负着组织者、指导者和实施者的多重角色。在思政教育工作中,应...
01-22
  新年伊始,锂电行业迎来一波产能扩张热潮,包括宁德时代、亿纬锂能、瑞浦兰钧在内的多家头部电...
01-21
经济观察网 记者 胡群 2024年,全球家族办公室的资产配置出现了哪些新动向?近期发布的《瑞银2024年全球家族办公室报告》显示,与上一年度相比,2024年,全球家族办公室的投资策略出...
02-13
白羊座男生通常充满活力、冲动和自信。他们喜欢追求刺激和挑战,对于新鲜事物充满好奇心...
01-22
冷战是一种常见的情感处理方式,但对于狮子男他们往往更难以忍受这种冷漠的态度。如果你...
01-22
揭示女明星穿衣风格的秘密:如何借鉴她们的时尚灵感当我们翻看杂志或者社交媒体时,常常会被一位位女明星的穿衣风格所吸引。她们的时尚选择不仅体现了个人魅力,更在无形中影响了...
02-17
时尚T台秀上的秘密武器:道具伞的魅力与创意当我走进时尚界的T台秀场,映入眼帘的总是那些色彩斑斓、设计独特的服装,以及为其增光添彩的各种道具。其中,有一种道具常常成为我特别...
02-17
2月7日消息,秦皇岛津峰线缆制造有限公司(以下简称:津峰线缆)董事长韩金良一行日前到访涂多多。现场,涂多多副总裁、跨境产发部常务副总经理郑德莲与津峰线缆副总经理韩冬共同签署...
02-07
2月19日消息,陶都国控产业投资(邯郸)集团有限公司(以下简称“陶都国控”)运营总监、销售总监陈亮近日到访国联股份新疆数字经济总部。涂多多副总裁、西北大区总经理李庆代表公司...
02-20
据中国铁路公众号消息,2025年铁路春运1月14日开始,至2月22日结束,为期40天,全国铁路预计发送旅客5.1亿人次,日均发送1275万人次,节前客...
02-08
3月5日消息,据晚点LatePost消息,美团CEO王兴近日召开了总监级别以上的内部沟通会,美团最高决策层S-team的每一位成员都有发言。此次是美团的15周年,除了核心本地商业,王兴提出在...
03-05
在农村义务教育学生营养改善计划备受瞩目的背景下,来自中粮福临门学生营养餐专用食用植物调和油的好消息让市场看到了团膳定制油方向的广阔空间。数据显示,自2024年8月上市以...
01-22
蛇送金光兆五湖,安凯客车驰四海。2月4日,安凯客车“贺新春全球行”批量发车仪式在安凯厂区隆重举行。开工即迎大单,安凯客车党委书记、董事长、总经理黄李平携公司领导班子,以及...
02-09
根据 The Gamer 报道,热门手机游戏《精灵宝可梦TCGPocket》的一些卡牌已经出现在了交易平台 eBay 上,而通过游戏外进行卡牌交易或是售卖卡牌是违反游戏用户守则...
02-15
育碧发布了截至2024 年 12 月 31 日的九个月财务报告,这家法国开发商和发行商重点介绍了即将推出的《刺客信条》游戏以及正在进行的成本削减计划,该计划已经导致...
02-15
当地时间2月6日,美国马萨诸塞州联邦法官乔治·图尔将联邦雇员接受特朗普政府“买断计划”的最后期限推迟至2月10日。法官在裁决中表示,在相关法律问题得到进一步审理之前,该计...
02-07
春节档电影《哪吒之魔童闹海》(以下称《哪吒2》)将在当地时间2月12日起于北美地区开启特别制式点映,2月14日正式上映。目前预售场次火爆,上座率达90%以上,多个热门场次均已售罄,一...
02-10
SQL Error: select * from ***_ecms_news1 where id in(63,205,151,152,158,116,123,) limit 8
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮