DeepSeek：迈向全社会分享的普遍智能

1年前来源：文汇报观看：146

去年春节，美国OpenAI开发的视频生成AI工具Sora横空出世，成为世界关注的焦点。今年春节前夕，一家低调的中国AI企业DeepSeek推出的开源大模型在全球引发了不啻Sora的震撼——它在模型算法和工程优化方面所进行的系统级创新，为在受限资源下探索通用人工智能开辟了新的道路，并为打破以“大模型、大数据和大算力”为核心的生成式AI“扩展定律”天花板带来了无限遐想。

过去几周，DeepSeek超越ChatGPT，登顶苹果美国地区应用商店免费App下载排行榜。1月28日，美国“外交学者”网站（The Diplomat）发表题为《中国的DeepSeek是美国人工智能的“斯普特尼克时刻”》的文章指出，DeepSeek此次的开源之举延续了OpenAI的初心使命——为了人类利益推动人工智能发展。

DeepSeek的出圈，再次印证了一个科技创新硬道理：赢得比赛的关键是精益求精、富有创造力的创新，而非单纯的金融实力和一味的出口管制。

“大力出奇迹”并非AI唯一出路

2019年，人工智能领域强化学习鼻祖、DeepMind研究科学家、加拿大阿尔伯塔大学计算机学教授理查德·萨顿发表了一篇题为《苦涩的教训》的文章，认为“纵观过去70年的AI发展历史，想办法利用更大规模的算力总是最高效的手段”。

在“数据是燃料、模型是引擎、算力是加速器”这一深度学习理念支持下，以Transformer为基本模型的生成式AI（如ChatGPT等）不再从互联网中搜索和罗列已有的匹配信息，而是从海量数据中洞悉单词与单词之间的共现概率，以组合意义下“昨日重现”方式合成众所周知的语言内容。

Transformer是2017年谷歌公司提出的一种新型深度神经网络，其核心在于通过自注意力机制让每个单词记住在不同语境下的“左邻右舍”，然后以似曾相识之感来概率合成新的内容。“Transformer”这一名字或许受到了电影《变形金刚》的英文名“Transformers”的启发，因此可以将合成内容的生成式AI看成一个“魔镜”，它能够根据输入内容如变魔术般输出与之对应的内容。

由于每个单词要记住越来越多不同语境下的“左邻右舍”，因此模型参数不断增多而导致模型规模不断增大，随之出现了大模型的“扩展定律”（Scaling Law），即随着模型规模、训练数据和计算资源的增加，模型性能会得到显著提升，并且这些关系遵循可预测的模式。

面对越来越大的模型，训练模型所需的AI算力不断飙升，“大力出奇迹”这一算力霸权开始左右人工智能的发展。英伟达创始人兼首席执行官黄仁勋据此提出过“黄氏定律”：在计算架构改进的推动下，人工智能芯片的性能每年可提升1倍，速度远超集成电路领域的摩尔定律。

人工智能“扩展定律”虽然也需要算法和系统创新，但是这一“无他、但手熟尔”的模式不应是AI发展的唯一出路，因为“化繁为简、大巧不工”才是推动“机器学习”迈向“学习机器”的初衷。

“万物之始，大道至简，衍化至繁”，以简单直接思路解决复杂问题才是科学研究之道。1953年，诺贝尔物理学奖得主恩利克·费米提到，冯·诺依曼曾对他说过，用4个参数就能画出一头大象，用5个参数就可以让象鼻子动起来。英国数学家雅各布·布鲁诺斯基也曾提到，冯·诺依曼认为围棋不是博弈，虽然因为计算复杂而难以找到答案，但在理论上，下围棋一定有个最佳落子方案。

这些故事告诉我们，用简单方法解决复杂问题是科学研究基本思路之一。正如爱因斯坦所言，“所有科学中最重大的目标就是从最少数量的假设和公理出发，用逻辑演绎推理的方法解释最大量的经验事实”。由此可见，DeepSeek的研发初心切合了大模型发展的内在逻辑，为遏制其规模“疯长”势头提供了一剂良药。

从“学而不思则罔”到“思而不学则殆”

能用众力，则无敌于天下矣；能用众智，则无畏于圣人矣。DeepSeek的精彩表现在于其对算法、模型和系统等进行的系统级协同创新，是众智和众力相互叠加的成果。

应该说，DeepSeek模型仍是基于此前的Transformer架构，没有实现改变游戏规则的颠覆性基础理论创新。但是，它在模型算法和工程优化方面进行了系统级创新，在2048块英伟达H800 GPU（针对中国市场的低配版GPU）集群上完成训练，打破了大语言模型以大算力为核心的预期天花板，为在受限资源下探索通用人工智能开辟了新的道路。其算法和工程创新主要包括混合专家模型、低秩注意力机制、强化学习推理、小模型蒸馏，以及诸如FP8混合精度和GPU部署优化等工程创新。

其中，混合专家稀疏模型与传统大语言模型“众人拾柴、咸与维新”的路径不同，它另辟蹊径利用了“术业有专攻”的理念，每次让若干个合适专家协作发挥各自能力，完成特定任务。

实际上，人脑也是一个稀疏模型。虽然人脑由800多亿个神经元和100万亿个突触连接而成，但它在完成识人辨物和举手投足等任务时，每次只有一小部分神经元被激活。实现“弱水三千，只取一瓢饮”，且让被选择的若干专家能够以“十个指头弹钢琴”的形式，负载均衡地合作完成任务，而不是“三个和尚无水喝”——这正是DeepSeek所做出的难得的算法创新。

低秩注意力机制的引入使DeepSeek在保持模型性能的同时显著降低了计算和存储成本。人类在理解外界信息时，往往看到的是内嵌在信息中的本质结构。例如，我们理解一篇文章，更关切若干单词组合所刻画的主题概念，而非单词从头到尾的罗列。传统大模型中的注意力机制由于需要记录每个单词在不同上下文中的左邻右舍，因此变得庞大无比。DeepSeek对这一巨大的注意力机制矩阵进行了压缩，从而极大提升了模型运行效率。

在强化学习推理方面，传统大模型训练时采用了“授之以鱼，不如授之以渔”的方法，即人类给出大量思维链数据，通过监督式微调来让大语言模型仿照思维链完成相应任务。但DeepSeek的做法则如同让一个天才儿童在没有任何范例的指导下，完全通过“尝试与试错”来不断探索未知空间，并利用已有经验不断取得进步，最终完成从“摸着石头过河”到“先知后行”的蝶变。

而且，DeepSeek进一步提出了让模型从若干答案中进行比较的选择方法，以实现自我提升。

这种直接训练方法不仅耗时更短、计算资源需求大幅减少，更让模型学会了思考，而且是以见证“啊哈时刻（Aha Moment）”（指让用户眼前一亮时刻）的顿悟方式思考。

但值得注意的是，该方法难免导致推理过程难以被溯源和理解等局限。为此，DeepSeek收集了一部分思维链数据，引入冷启动和有监督微调等方法，对模型进行再次训练，从而让模型在保持强大推理能力的同时，还学会了用人类易懂的方式表达思维过程。

广受关注的“模型蒸馏”就是让小模型模仿大模型回答问题的结果，来提升自身能力。比如，在对一篇文章分类时，大模型认为该文章以85%、10%和5%的概率分别属于正面、负面和中性等不同情感类别。小模型就从大模型输出的结果中认真思考，不断调整参数，以期望继承大模型能力，从而输出类似结果。

由于神经网络有强大的非线性映射能力，蒸馏学习不仅没有导致“东施效颦”的笑话，反而使得大模型的能力之道以“他山之石、可以攻玉”的蒸馏之术迁移到了小模型。这不禁让人感叹，对于大模型而言，“学而不思则罔”；对于小模型而言，“思而不学则殆”。

智能时代，教育何为？

人工智能是一种类似于内燃机或电力的“通用目的技术”，天然具备“至小有内，至大无外”推动学科交叉的潜力。无论是从人工智能角度解决科学问题（AI for Science，如利用人工智能预测蛋白质序列的三维空间结构），还是从科学的角度优化人工智能（Science for AI，如从统计物理规律角度优化神经网络模型），未来的重大突破都将源自于这种交叉领域的工作。

如果说过往的技术发明是从机械化增强角度提升人类与环境的互动能力，那么人工智能的出现将对人类的这一根本能力和角色发起挑战——生成式人工智能的出现使得智能机器成为知识生产的辅助者，这将深刻改变个体学习者的自主思考、判断、学习能力，乃至伦理道德观。

如何看待一项新技术的发展，这是进行技术预测的一项必需认知准备。遗憾的是，人类总是习惯于线性思维（这符合人类自然的认知模式：节省能量与快速计算），但这种认知配置很容易出现认知偏差，其中最常见的就是对于技术近期与远期影响的判断出现不对称性——短期内倾向于高估技术的影响，长期内低估技术的影响，即美国科学家罗伊·阿玛拉提出的“阿玛拉法则”。

那么，随着智能时代的来临，如何通过教育体系的变革来应对这一时代之变？在浙江大学2024年6月发布的《大学生人工智能素养红皮书》中，我们提出，大学生人工智能素养是由体系化知识、构建式能力、创造性价值和人本型伦理构成的有机整体，其中知识为基、能力为重、价值为先、伦理为本。

目前，浙江大学和复旦大学等高校已将人工智能作为全校大学生通识必修课程。而且，浙江大学、复旦大学、上海交大、南京大学、中科大和同济大学已在四年前共同推出“课程共建、学分互认、证书共签”的AI+X微专业，今年还将推出升级版，以进一步加强人工智能通识教育和交叉学科教育。

2024年春节，我为文汇报撰写《Sora“超级涌现力”将把AI引向何方》的文章，今年春节又为DeepSeek撰稿。虽然希望人工智能年年有精彩，但我更期盼全社会分享的普遍智能到来。

DeepSeek模型特点速读

混合专家稀疏模型

DeepSeek的基座模型V3采用了混合专家机制，每一个Transformer层包含256个专家和1个共享专家，V3基座模型总共有6710亿参数，但每次token仅激活8个专家、370亿参数。这一创新算法与稠密模型相比，预训练速度更快；与具有相同参数数量的模型相比，具有更快的推理速度。

低秩注意力机制

低秩注意力机制又被称为多头潜在注意力机制。DeepSeek引入“低秩”这一概念，对巨大的注意力机制矩阵进行压缩，减少参与运算的参数数量，从而在保持模型性能的同时显著降低计算和存储成本，把显存占用降到了其他大模型的5%—13%，极大提升了模型运行效率。

强化学习推理

DeepSeek这次在训练推理模型中直接采用了一条前所未有的“纯”强化学习路径，仅根据模型输出答案优劣以及输出答案格式完整等简单信息，对模型行为进行奖惩。

该方法不仅对计算资源的需求大幅减少，还可让模型以“顿悟”的方式学会思考，并用人类易懂的方式表达思维过程。

模型蒸馏

为了让简洁紧凑的小模型具备DeepSeek-R1那样的推理能力，DeepSeek开发团队采用蒸馏方法来增强小模型的推理能力，即让小模型模仿大模型回答问题的结果，来提升自身能力。

工程创新

DeepSeek使用FP8混合精度加速训练并减少GPU内存使用，使用DualPipe算法（即将前向和后向计算与通信阶段重叠，以最大限度减少计算资源闲置）提升训练效率，并进行了极致的内存优化。他们开发了一套完善的数据处理流程，着重于最小化数据冗余，同时保留数据的多样性。

点击展开全文

本文链接：http://www.gihot.com/news-8-1199-0.htmlDeepSeek：迈向全社会分享的普遍智能

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：山东化工技师学院举办第47届世赛化学实验室技术项目技能竞赛技术交流及工作总结会议

下一篇：港中大成立致真交叉数学科学院，丘成桐任创院院长

为你推荐

问学尼山，出入经史

　　　——山东大学尼山学堂培养古典学术专门人才的探索　　尼山学堂师生在曲阜游学考察。王薪...

01-21

感受不一样的“警”彩|西安高新东区小学李昕尔

　　今天我和华商童学会小记者一行50多人来到了浐灞公安局，亲自了解体验警察叔叔工作的一天。说到这里，我猜大家都想知道公安局里是什么样子，公安局都有什么工作内容、审讯犯...

01-21

险资获准试点“买黄金”影响几何？

　　2月9日，国家统计局发布数据显示，1月份国内金饰品价格环比上涨3%，同比上涨30.0%。受春节假期因...

02-11

调降利率、提高认购门槛多家银行调整积存金业务

　　本报记者熊悦　　金价持续攀高之际，已有商业银行下调黄金账户业务（即“积存金”，以下统称“积...

02-11

双鱼男试探女生的表现，双鱼对待自己喜欢的人

双鱼座的男生通常是非常敏感和浪漫的，他们对待自己喜欢的人也有着独特的方式。当双鱼男...

01-22

天秤喜欢一个人的表现，天秤座对喜欢的人态度

天秤座是一个注重平衡和和谐的星座，当他们喜欢上一个人时，会展现出一些独特的表现。 1....

01-22

模特T台走秀效果大揭秘：音乐如何影响整个秀场氛围

模特T台走秀效果大揭秘：音乐如何影响整个秀场氛围当我们在社交媒体上浏览顶级模特们在T台走秀的精彩瞬间时，或许会显得光鲜亮丽，难以想象，在这个过程中，还有一种不可见的力量同样...

02-07

世界油品排名？

世界油品排名？2020世界10大石油品牌出炉！中石油、中石化再度上榜近日，全球著名品牌评价机构BrandFinance发布了《2020年全球最具价值品牌500排行榜》。作为全球品牌评价的风向...

02-07

京东工业与常州同惠电子签署战略合作协议

2月13日消息，常州同惠电子股份有限公司日前与京东工业品举行战略合作签约仪式，同惠电子董事长赵浩华与京东工业品副总裁郭晓博代表双方签署协议。图源：Tonghui同惠公众号根据协...

02-14

京东与学而思合作定下3年50亿销售目标

2月18日消息，京东宣布与学而思签订战略合作协议，明确了未来三年内，学而思在京东全渠道销售50亿元、覆盖超100万用户的目标。根据协议，双方将聚焦“人、货、场”的全面协同，通过产...

02-18

途虎养车联合发布首个“超级金牌汽车膜品质验证”

2月18日消息，中汽中心、国检集团、途虎养车联合发布首个“超级金牌汽车膜品质验证”报告，首次全方位展现各类车膜在真实用车场景下的性能信息，为消费者选购提供权威参考。图源：...

02-19

智联招聘张月佳：HR需率先转型成为“超级个体”

3月1日消息，在北京大学国家发展研究院【承泽论坛】第32期，智联招聘集团总裁张月佳指出，在数字技术的加持下，更多职场人有机会成为“超级个体”，而HR是寻找与培养超级个体的关键。...

03-01

15分钟闪电换锁！Yale耶鲁让智能生活“加速跑”

近年来，智能门锁已然成为智能家居领域的热门单品。然而，随着智能锁技术的快速迭代，老款产品逐渐难以满足人们日益增长的生活需求。众多用户虽有强烈的换新意愿，却在这一过程中遭...

01-21

浙大天才，震惊全球

2024年末，一位科技创业者火了。作者 | 王思琪来源 | 投资家（ID：touzijias）2024年末，一位科技创业者火了。2025年初，这位创业者再度爆火。近日，中国科技行业因一位85后年轻人现身《...

01-24

《刺客信条：影》副总监表示日本背景的设定非常棘手很难从其他文化角度描述日本文化

遭遇延期的《刺客信条：影》在近日重新开启了预购，由于游戏以日本封建时代为背景，并采用了“黑人武士弥助”的设定以及将其作为主角之一，从而引发了不少争议，尤其是...

01-27

英伟达RTX神经渲染纹理压缩首测：节省显存96%

随着Blackwell架构、RTX 50系列显卡的推出，NVIDIA发布了一系列新技术，比如说RTX神经渲染纹理压缩(NTC)，现在终于第一次看到了关于它的测试，可以节省多达96%的显存...

02-12

2025澳门单打世界杯参赛名额选拔办法公布，马龙、樊振东和陈梦无缘赛事

北京时间2月1日，国际乒联在官网公布了2025澳门单打世界杯的参赛名额选拔办法。48个名额将分别由洲际杯赛和世界排名决定，其中每个大洲的洲际杯赛会产生4个名额（共20个名额），其余2...

02-02

乙巳蛇年首张营业执照在武汉市民之家发出

极目新闻记者张秀娟 2月5日上午9时10分许，武汉市民之家企业开办综合办事窗口，工作人员将崭新的营业执照交至武汉国有资本投资运营集团有限公司办事人员彭艳丽的手中。这是武...

02-05

要上太空种地了？人工光合作用试验为啥要在太空做？

随着人类探索太空的脚步迈得越来越大，在月球上，甚至在火星上驻留并建设基地成为可能。想在月球上居住和旅行，水、氧气等生存资源和交通工具就不可或缺...

01-21

饮接骨木汁或可促进代谢健康

美国华盛顿州立大学科学家领衔开展的一项研究显示，连续一周每天饮用约355毫升接骨木汁，能促使肠道微生物组发生积极变化，提升身体燃烧脂肪的能力，从而...

01-24

中国春节档电影海外掀热潮《哪吒2》登陆北美一票难求

　　今年春节，中国动画电影《哪吒之魔童闹海》登顶中国影史票房榜，魔童“哪吒”脚踏风火轮冲出国...

02-13

辽宁：“点对点”服务助力务工人员返岗复工

　　2月13日，40名辽宁朝阳籍务工人员乘坐G3503次列车抵达大连北站。元宵节过后，随着企业复工复产步伐加快...

02-14

招商“不让卷”，小城市还能拼什么？一线招商员：挑战不小，但还有机会

过去半年，为防治部分地方政府招商“内卷化”，遏制拼优惠、拼“政策洼地”式的政府招商模式，一系列文件、法规密集推出。 “去年8月拼...

01-21

（新春走基层）走进江西小龙虾养殖第一县：“稻虾种养”助力虾农致富有方

中新网江西永修1月21日电(卢梦梦)冬日清晨，赣北大地一片沉寂。在江西省九江市永修县涂埠镇，龙虾养殖户王贤荣一早便开始了日常巡塘工作。看到虾塘里的水草开始长根，王贤荣欣喜...

01-22

展示、销售、售后一体阿维塔中心南京大明路店开业

1月15日，阿维塔中心南京大明路店隆重开业，作为阿维塔大家庭中的新成员，南京大明路中心店集展示、销售、售后服务为一体，让众多热爱阿维塔品牌的朋友近距离感受阿维塔“与众不同...

01-21

比亚迪 ATTO 3 纯电 SUV 在韩国预售一周破千辆

1 月 26 日消息，据韩联社报道，比亚迪韩国公司 24 日透露，截至 23 日，旗下纯电 SUV 车型“ATTO 3”（元 PLUS）在韩预售量突破 1000 辆关口。这距离比亚迪本月 16 日在韩国市...

01-27

《难哄》温以凡被舅舅欺负了吗他舅舅玷污他了吗

《难哄》温以凡被舅舅欺负了吗？他舅舅玷污他了吗？在《难哄》中，温以凡确实遭遇了舅舅车兴德的欺负。醉酒后的侵犯企图：温以凡暂住在大伯大伯母家时，大伯母的弟弟...

02-19

《香草的每天》第19集剧情解析

《香草的每天》近期正在热播，播出后反响良好，网上热度持续上升，在各大论坛上也引发了热烈讨论。观众们尤其关注第19集的剧情。在这一集中，作为点心教室最后的学...

02-20

国家卫健委等6部门发布意见开展儿童友好医院建设

　　本报北京1月14日电（记者白剑峰）国家卫生健康委等6部门日前发布《关于开展儿童友好医院建设的意见》提出，秉持儿童优先理念，从儿童视角出发，为儿童提供有情感、有温度...

01-21

"药箱子"再升级医保药品目录七年持续"上新"

　　2025年1月1日，新版国家医保目录将正式实施。此次共新增91种药品，其中89种以谈判/竞价方式纳入，另有2种国家集采中选药品直接纳入，...

01-21

全部导航

DeepSeek：迈向全社会分享的普遍智能

青岛港湾职业技术学院学子获全国大学生外语能力演讲大赛省赛一等奖

菏泽职业学院“青春・清菏韵泽”廉洁文化馆今日正式开馆

第三届全国职业技能大赛化学实验室技术赛项山东省选拔赛在山东化工技师学院圆满收官

凝聚青春力量，践行责任担当——工作室主持人徐欣应邀为辽宁省中职学生干部素质能力提升训练营做专题讲座

事关生命安全！“中小学交通安全十问”发布

收藏！2025年考证考试时间表公布

11月高考热点：高考报名、艺体类招考规定、三大招飞

从新手到专家的蜕变之旅