DeepSeek成功的底层逻辑及产业影响

2个月前 来源:新华网 观看:22

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?pDj即热新闻——关注每天科技社会生活新变化gihot.com

工程创新pDj即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。pDj即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。pDj即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变pDj即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……pDj即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。pDj即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。pDj即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。pDj即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。pDj即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?pDj即热新闻——关注每天科技社会生活新变化gihot.com

工程创新pDj即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。pDj即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。pDj即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变pDj即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑pDj即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……pDj即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。pDj即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。pDj即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。pDj即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。pDj即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实...
01-22
  科技日报记者 雍黎  人工智能浪潮正席卷全球,重庆应该如何加速培育壮大人工智能产业?在重庆...
01-23
  记者从交投集团高速运营公司了解到截至1月27日9:20受降雪天气影响辽宁省内204个收费站入口双向关闭...
01-28
在全面振兴新突破三年行动“首战告捷”的基础上,2024年,辽宁实现了“攻坚连胜”,地区生产总值(GDP)增速高于...
02-11
  海报新闻记者 孙佃潇 北京报道  大学教授、收藏家、作家、阿里巴巴荣誉合伙人……如果细写,王帅的身份可能一张A4纸都写不完。1月18日晚,王帅作为一位分享者,携新书《...
01-21
  中新经纬1月17日电 据国家统计局网站17日消息,2024年12月份,规模以上工业(以下简称规上工业)原煤、原油、天然气、电力生产平稳增长。  原煤、原油和天然气生产及相关情...
01-21
2 月 6 日消息,汽车媒体 carscoops 今天(2 月 6 日)发布博文,报道称捷豹 I-Pace 电动 SUV 曾被寄予厚望,但近年来因电池问题频繁召回,导致大量车辆被报废。捷豹公司已在美...
02-06
2 月 6 日消息,据 Thelec 报道,LG 新能源(LG Energy Solution)将为特斯拉新款 Model Y 供应 2170 电池。报道称,新电池的电芯容量为 5300 毫安时,相较于此前的 5000 毫安...
02-06
《余烬之上》戚美华身份是什么?戚美华是坏人吗?‌戚美华在《余烬之上》中的身份是廖思远的养母,并且经营着一家药铺‌‌。戚美华的性格豪放,喜欢享受生活,交际广...
02-21
最近,《陌上又花开》在短视频软件上引起了广泛关注,无论是颜值、演技还是剧情,都迅速吸引了观众的目光。剧中赵大爷的故事也成为了热议话题。马春秀细心照料下...
02-22
21世纪经济报道记者 韩利明 上海报道医药领域关乎民生福祉。日前,最高人民检察院官网披露数据显示,2024年1月至11月,全国检察机关起诉医疗领...
02-15
21世纪经济报道记者 闫硕 北京报道HPV是一种易感染人体表皮和黏膜鳞状上皮的病毒,已被发现有两百多种型别,根据致癌性的不同分为高危型别和...
02-18
  大众网记者 张明明 报道  11月11日至14日,由教育部高等教育司指导、中国高等教育学会主办的第四届全国高校教师教学创新大赛产教融合赛道全国赛在重庆邮电大学举行...
01-21
  今天我和华商童学会小记者一行50多人来到了浐灞公安局,亲自了解体验警察叔叔工作的一天。说到这里,我猜大家都想知道公安局里是什么样子,公安局都有什么工作内容、审讯犯...
01-21
  中国经济网北京1月21日讯 A股五大上市保险公司近日纷纷“晒”出2024年全年保费收入(指原保险...
01-21
  原标题:非上市寿险“成绩单”出炉:59家公司共赚约247亿元,超七成盈利,20家去年投资收益表现亮眼...
02-08
天蝎男是一个神秘而深沉的星座,他们喜欢与人保持一定的距离感,不轻易展示自己的内心世界...
01-22
双子座的男生善于交际,聪明机智,喜欢追求新鲜刺激的感觉。然而,有时候他们也会变得烦躁不...
01-22
童装搭配技巧? 童装搭配文案?一、童装搭配技巧?童装怎么样搭配!1,首先是看儿童的肤色选择深浅,2,儿童的胖瘦选择衣服,3,儿童的喜爱选择,4颜色深浅错开搭配,5舒适宽松二、童装搭配文案?1....
02-07
独特魅力:韩国牛仔裤模特精彩T台走秀每年的时尚周总是让人期待不已,尤其是那些展现出独特风格的服装秀。我记得第一次观看韩国牛仔裤模特的T台走秀时,那种体验简直酣畅淋漓。牛...
02-17
2月8日消息,淘宝数据显示,由导演饺子创作的哪吒系列形象授权周边在平台上销售额目前已经突破了5000万。其周边种类也覆盖了盲盒、卡牌、毛绒、搪胶娃娃、胶片卡、冰箱贴、徽章...
02-09
2月15日消息,淘宝发布“情人节送礼榜”,护肤品、化妆品稳坐情人节礼物前排,淘宝天猫上的护肤类产品、唇部彩妆订单分别增长了124%、144%。口红、眼影、粉底液的“色号难题”,几...
02-16
3月4日消息,据美团旅行数据,2025年2月1日以来,“世界文化遗产-苏州园林”拙政园的门票搜索量同比上涨120%,近3成搜索者为00后年轻游客。图源:苏州园林官微为给全球游客提供更便捷...
03-05
3月6日消息,携程集团与山东文旅集团近日宣布达成全方位战略合作,两大旅游集团20强将围绕“平台赋能+产业创新”主线,通过资源整合与模式创新,共同构建覆盖“产品开发、营销推广...
03-09
1月20日晚,河化股份(000953.SZ)发布2024年度业绩预告,预计2024年实现营业收入1.9亿元-2.5亿元;实现净利润7800万元-8600万元,同比扭亏为盈。业绩变动的主要原因是:河化股份将35...
01-21
据中国民用航空局最新发布的统计数据,2024年,中国无人机产业迎来了前所未有的发展高潮。全年累计飞行时长达到了2666万小时,与去年相比,实现了15%的显著增长。这一数据不仅反映...
02-09
今日(1月24日)Xbox直面会上,忍者龙剑传2复刻版《忍者龙剑传2:黑之章》公布并发售,Steam国区售价298元,支持简体中文字幕。现在官网发布了角色截图,一起来欣赏下吧! ...
01-25
大年初一,《真三国无双:起源》制作人庄知彦在X上发推,用中文“蛇年大吉,恭喜发财!”向中国玩家拜年,发布新年祝福。 他随后用日语再次向国内玩家恭贺新年,祝中国玩...
02-01
极目新闻记者 李迎近日,四川“献血大王”杨秀伟因突发脑梗入院治疗。2月6日,杨秀伟的妻子谢素华称,目前丈夫病情平稳但尚未脱离危险期,仍在住院观察阶段。据谢素华介绍,1月30日,她...
02-06
在2月9日的比赛中,中国代表团获得7金7银9铜。其中,中国短道速滑队以2金2银4铜收官。△点击图片,查看哈尔滨第九届亚冬会奖牌榜。2月10日,将决出7枚金牌。比赛有哪些精彩看点?一起...
02-10
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮