DeepSeek成功的底层逻辑及产业影响

1年前 来源:新华网 观看:139

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?8BN即热新闻——关注每天科技社会生活新变化gihot.com

工程创新8BN即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。8BN即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。8BN即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变8BN即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……8BN即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。8BN即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。8BN即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。8BN即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。8BN即热新闻——关注每天科技社会生活新变化gihot.com

仿佛是一夜之间,DeepSeek迎来了“滔天的流量”。它不仅在全球引发了新一轮的AI应用热潮,而且给全球的算力资本市场带来了重大冲击。究其原因,DeepSeek不仅在训练成本及使用成本、模型训练及优化方式等领域实现了大量的工程创新,而且打破了AI领域许多的传统叙事逻辑。简而言之,DeepSeek正在改变游戏规则。8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek最新推理模型R1的横空出世,带来了一个非常大的惊喜,仅用6天就发展了1亿用户。“用好奇心来揭开AGI的神秘面纱”这一愿景,更增添了神秘色彩。那么,DeepSeek在技术上究竟有哪些创新,成功的背后有哪些深层次的原因?这一切将对中美下一个十年的科技竞争产生哪些影响?8BN即热新闻——关注每天科技社会生活新变化gihot.com

工程创新8BN即热新闻——关注每天科技社会生活新变化gihot.com

成就与众不同8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek不仅引发了全球新一轮的AI应用热潮,而且对全球的算力资本市场产生重大冲击。究其原因,DeepSeek在训练成本及使用成本、模型训练及优化方式方面均实现了大量工程创新。8BN即热新闻——关注每天科技社会生活新变化gihot.com

成本是最大的亮点。DeepSeek-R1的整体训练成本比OpenAI少了一个数量级以上。R1在整个训练过程中的工程优化和创新亮点非常多,包括“Multi-Head Latent Attention——多头隐形注意力机制”“Multi-token predication——多token预测”“有选择性地使用8个浮点数精度FP8来替代FP16甚至FP31”等。这些优化其实都不容易实现。每一个看似不显著的优化,在层级叠加效应下却产生了非常惊人的效果。8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek其实一共发布了两个模型,分别是R1和R1-zero。DeepSeek基于V3这个基础模型聚焦强化学习获得了R1-zero。但是,R1-zero在回答一些问题的时候容易产生包括“多语言混杂”在内的诸多问题。Deep-Seek又对这个模型进行了SFT(监督微调优化),从而产生了R1。R1的强化学习功能可以实现自动化,是比较容易去scale的。这样一来,该模型未来的想象空间接近无限。8BN即热新闻——关注每天科技社会生活新变化gihot.com

颠覆性改变8BN即热新闻——关注每天科技社会生活新变化gihot.com

打破传统叙事逻辑8BN即热新闻——关注每天科技社会生活新变化gihot.com

DeepSeek之所以备受关注,本质在于打破了很多AI领域的传统叙事逻辑,例如OpenAI对于推理模型的算力堆叠霸权逻辑、AI应用圈的OpenAI寡头垄断格局逻辑、美国对中国的高制程芯片封锁逻辑以及AI大模型的开源闭源逻辑……8BN即热新闻——关注每天科技社会生活新变化gihot.com

首先,AI圈公认这种推理模型的实现难度是极大的。此前,比较好的推理模型只有OpenAI的GPT o1。Anthropic做不出来,Google“卡”了很久才推出表现一般的Germini 2.0。DeepSeek-R1至少是o1的平替,甚至部分能力还要强于o1。进一步来看,R1不仅免费还开源,训练成本和使用成本均实现了指数级下降。原先o1凭借领先性可以“收割”相当长一段时间的价值,但DeepSeek-R1的出现以及开源的举措,让绝大多数开发者以及聚焦应用的创业公司都能够以更低的门槛去做开发。更加便宜且更容易私有化部署的R1,击碎了华尔街对于所有大模型公司的估值逻辑。8BN即热新闻——关注每天科技社会生活新变化gihot.com

其次,DeepSeek的出现打破了AI应用圈原有的竞争枷锁。就算是美国的顶尖应用公司选择DeepSeek和ChatGPT时,答案也很清楚。Cursor、Perplexity这些AI领域的超级明星应用,都第一时间进行了DeepSeek模型的部署,而且设置了推荐第一优先级。此外,Google、Amazon、NV等平台也都部署了Deep-Seek模型。这些改变,同步影响了云服务的市场格局。国内大量从事应用开发的企业,在DeepSeek-R1出现之前不得不使用微软云(为了便捷使用GPT-4的API);现在,使用阿里云上部署的Deep-Seek成为可选项。8BN即热新闻——关注每天科技社会生活新变化gihot.com

再其次,DeepSeek带来了芯片封锁逻辑的崩塌。DeepSeek在辉达CUDA生态的更底层(例如PTX层),通过微调底层代码来优化性能,从而解决“连接通信能力和调度能力被阉割”的问题。专家普遍认为,目前中美AI大模型领域的技术差距约为4个月。从技术能力发展的趋势来看,这一差距继续缩小的概率大于扩大的概率。8BN即热新闻——关注每天科技社会生活新变化gihot.com

最后,开源让DeepSeek在舆论战中至少“不落下风”。在AGI的道路上做出最强大的模型并开源,应该是OpenAI最早的初心和使命。市场永远不会说谎,谁的模型能力强谁就能掌握最终的话语权。2024年12月DeepSeek V3发布的时候,国际主流媒体主要关注其“成本低廉”;当Deep-Seek-R1发布时,情况则截然不同,因为“滔天的流量”来了。作为一个开源模型,DeepSeek让所有用户在任何领域都增加了一个“顶尖专家”,免费且24小时随时在线。8BN即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-674-0.htmlDeepSeek成功的底层逻辑及产业影响

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:中央网信办部署推进2025年信息化重点工作

下一篇:小心AI伴侣背后的“温柔陷阱”

为你推荐
  据国务院国资委8月6日消息,近日,国务院国资委、国家发展改革委印发《关于规范中央企业采购管...
01-21
据物理学家组织网15日报道,美国劳伦斯·利弗莫尔国家实验室(LLNL)科学家将国家点火装置(NIF)所发射的高功率激光与超轻金属泡沫巧妙结合,创造出迄...
01-21
  为科学、准确、全面反映海洋经济发展规模、结构等情况,近日,省自然资源厅印发《辽宁省海洋经济统计核...
02-07
  新华社北京2月13日电题:破百亿元!“哪吒”动画新突围  新华社记者李欢  突破100亿元!2月13...
02-14
新华社北京1月21日电(记者张辛欣、张晓洁)工业和信息化部副部长张云明在21日国新办举行的“中国经济高质量发展成效”系列新闻发布会上表示,我国已有570多家工业企业入围全球研...
01-22
  与辉同行带货阿胶茶未检出驴成分?生产厂商回应  中新网北京1月18日电(赵方园)与辉同行直播间带货产品再陷质量风波。近日,有消费者向中新健康反馈,在与辉同行直播间购买...
01-21
在激烈的变革时代,宝马展现了一家优秀企业的“定力”与“韧劲”。2024年,宝马集团再度夺冠中国豪华乘用车市。这一年,宝马坚守“纯粹驾驶乐趣”的品牌承诺,携手经销商伙伴提升运...
01-21
  近日,多家车企公布了2025年首月汽车销量成绩。有车企销量实现开门红,同比取得大幅增长;但也有...
02-05
  作者:陈亦水  2025年春节档,注定要在中国影史上留下浓墨重彩的一笔,不仅创下多项票房历史纪...
02-20
在璀璨夺目的娱乐圈内,何炅凭借其出色的主持能力和温文尔雅的气质,早已赢得了众多粉丝的喜爱与尊敬。然而,近日,这位年过半百的知名主持人再度成为话题中心,原因竟是他那令人惊叹...
02-22
21世纪经济报道记者 韩利明 上海报道1月20日,国家医保局发函指出,关于近期上海市“两会”期间,有政协委员、医学专家反映某些集采药品可能存...
01-21
这里是《21健讯Daily》,欢迎与21世纪经济报道新健康团队共同关注医药健康行业最新事件!政策动向国家药监局药审中心发布《地中海贫血基因治...
02-10
沈阳农业大学认真学习贯彻习近平总书记关于教育的重要论述、给全国涉农高校的书记校长和专家代表重要回...
01-21
2024年12月,杭州的天气湿冷入骨,浙江大学经济学院百人计划研究员、博士生导师...
01-22
  近年来,中国保险业发展迅速,市场规模已跃居世界第二。互联网保险作为新的产业形态,一直以来受...
01-24
经济观察网 邢祺欣/文 6月19日,惠誉评级在北京举行的“2024惠誉看中国”会议上,发布《中国主权评级及宏观经济前景展望》报告。对中国政府近期采取的支持经济的措施,惠誉评级中...
02-13
狮子座男生通常被认为是自信、阳光、热情的代表,他们喜欢成为众人瞩目的焦点。然而,正因...
01-22
天蝎座男性在工作中往往是强势而有魅力的领导者,他们对待感情也同样充满了热情和决心。...
01-22
162女适合什么风格穿搭?一、162女适合什么风格穿搭?白色T恤搭配条纹伞裙,红色蓬纱裙,打造文艺气质女神风格。白色T恤搭配灰色大衣在配个贝雷帽。短款羽绒服搭配破洞直筒裤,整体风...
02-07
揭秘香港服饰潮流教父的时尚传奇在全球时尚舞台上,香港以其独特的文化和时尚风格而闻名。而提到香港的服饰潮流,无不让人想到那些耳熟能详的名字,其中有一个人被誉为“香港服饰...
02-07
2月9日消息,2025年春节假期落下帷幕,天猫数据显示,蛇年春节消费市场中,电子年货、非遗商品、黄金珠宝、户外运动装备等纷纷成为今年春节消费新潮中的热销爆款。国家补贴政策加力...
02-09
拼多多发力商家直播。据亿邦动力,拼多多正在招募在抖音直播的商家入驻多多直播,开启双平台直播。目前,在拼多多双开直播,平台可为商家提供智能中控系统支持,商家不需要招募及配置...
02-20
近日,有网友陆续在社交平台发帖称,在专门销售平价商品的两元店里发现一些网红品牌粉扑在售,售价2元左右。而相关产品在品牌官方渠道...
02-21
3月4日消息,农历二月初二“龙抬头”,理发行业迎来生意开门红。美团数据显示,“龙抬头”当天,理发订单量较去年同期翻倍增长,理发订单预约量周同比增长270%,上午11时-12时、下午16...
03-05
岁月悠悠,转眼又是一年。回首2024,中国式现代化进程持续推进,高质量发展成为各行各业奋进的目标,时代巨变催促着各行各业加速转型。作为社会“稳定器”和经济“减震器”的保险业...
01-23
在全球化背景下,跨界合作已成为推动产业升级的重要动力。作为亚洲领先的数字娱乐平台,九游娱乐与意大利足球甲级联赛的传统劲旅佛罗伦萨足球俱乐部正式宣布达成战略合作协议,成...
02-09
根据国外游戏论坛IconEra管理员爆料,SIE已不再计划将《恶魔之魂》和《GT赛车7》移植到PC平台。 关于《GT赛车7》,爆料称原本有一个PC版正在开发中,但最终被取消...
02-03
由战马工作室(Warhorse Studios)打造的中世纪背景RPG游戏《天国:拯救2》,在近日正式发售后迅速获得了100万份的销量,并且Steam平台上的总体评价也来到92%好评率的特...
02-06
来自2025年综合运输春运工作专班数据显示,2025年2月4日(春运第22日,农历正月初七),全社会跨区域人员流动量预计34611万人次。其中,铁路客运量1690万人次,公路人员流动量32556万人次...
02-04
2025年春节是“春节——中国人庆祝传统新年的社会实践”列入联合国教科文组织人类非物质文化遗产代表作名录后的首个春节。文化和旅游部组织开展“欢欢喜喜过大年”春节主题...
02-05
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮