■本报记者赵广立
回忆起和弟弟陈天石——如今的中科寒武纪科技股份有限公司(以下简称寒武纪公司)董事长兼总经理一起钻研深度学习处理器芯片的岁月,中国科学院计算技术研究所(以下简称计算所)副所长、处理器芯片全国重点实验室主任陈云霁总结出四个字——“有笑有泪”。
一次“流泪事件”让人忍俊不禁:兄弟俩曾因一篇论文中一句话的表述争红了脸,后来争吵升级,打了一架。
陈云霁已经记不起论文中那句话后来到底采纳了谁的意见,只记得最后俩人都双眼噙满泪花,互相松开了揪着对方衣领的手。
“亲兄弟之间可以放下一切掩饰,坦率面对各种问题,不用给对方留任何情面。”陈云霁笑着说,“也许正因为这样,我俩才得以快速推进芯片设计和人工智能(AI)算法的交叉研究。”
1“你怎么乱改?”
来自江西南昌的陈云霁、陈天石兄弟,都毕业于中国科学技术大学(以下简称中国科大)少年班,又先后来到计算所深造。
哥哥陈云霁先一步考入中国科大少年班、踏入计算所。“我们俩成长轨迹接近,有必然性,也有巧合。”陈云霁笑言,“陈天石对我从来是不服气的。觉得‘我们天天玩在一起,你也不比我聪明,你能上少年班,我也能上’,后面的每一步也是一样。”
计算所是兄弟俩“科学家梦”开始的地方。
陈云霁在少年班学的专业是计算机。当他大四那年听说计算所在做国产通用处理器(即“龙芯”)时,有过相关经历的他心里“痒得很”,就想到计算所读研。
陈云霁本科时成绩并不好,“既非最聪明也非最刻苦”,但打心底里对计算机感兴趣。“龙芯1号”研制组组长胡伟武注意到这一点,力排众议招他为研究生,把他带进“龙芯”研发团队。
陈云霁被分在验证组,主要工作就是编写测试程序,验证芯片功能是否正确、能不能“跑得通”。
芯片功能验证既繁重又枯燥。在芯片模拟器上验证,速度非常慢,一次操作系统启动就要两个星期;发现了问题还要及时响应,和工程师一起查找原因、解决问题。为了提高效率,测试工程师一般同时测试多个任务。但越是这样,越需要有人一刻不停地在屏幕前盯着,等待“success”最终跳出来。
“既耗人也耗机器。”陈云霁说,“点灯熬油、通宵达旦是常态。”
“这么机械的工作,能不能让机器替人干?”他想,如果验证、找错的活儿都能自动化,那就可以饱饱地睡一觉了。
“懒人”推动科技进步!说干就干,没过多久,陈云霁就和同事搭建起了基于AI程序的验证平台—— 一个用AI方法自动化生成的验证测试程序。
一开始,验证程序的质量参差不齐,有的效率不够高,有的找错能力不行。这时候,正在中国科大研究“演化算法”的陈天石送出了关键“助攻”,通过演化算法,他们逐步提高了自动生成的测试程序质量。
“读博期间我花了很多时间做这件事,后来几个师弟师妹也加入进来。毕业后不久,胡伟武老师就让我做‘龙芯’验证组的组长。”陈云霁说。
胡伟武是大忙人,但他仍投身一线编程序写芯片代码,负责处理器核里面最复杂的访存队列模块。然而,验证组查找出访存队列的问题后,经常找不到人。陈云霁等不了也闲不住,就根据自己的理解,一边琢磨一边动手修改。
“胡老师的代码大家都不敢改,一来他写的是很复杂的部分,很难懂;二来,改错了怎么办?”陈云霁记得,胡伟武有次出差回来看到代码被改了,就质问他:“你怎么乱改?都改错了。”然后一五一十地告诉他每一步代码的逻辑道理。
次数多了,陈云霁慢慢能把胡伟武的代码改对了。胡伟武见他积极主动、干劲十足,在他博士毕业一年后破格让他成为“龙芯三号”主架构师中的一员。
2“别搞这么虚无缥缈的东西了”
成为“龙芯三号”主架构师的陈云霁,知识结构日益丰富。业余时间他又开始琢磨,怎么把AI和芯片设计的基础研究交叉,做一款“聪明的芯片”。
“用智能手段做芯片的验证测试只是填补国内空白,我还是想做一些别人从来没做过的东西。”陈云霁说。
2010年,陈天石从中国科大博士毕业,加入计算所担任助理研究员。
兄弟重聚,一有空就探讨应该做什么样的研究。讨论来讨论去,最后认定有两件事“非常好玩”,一件是用AI辅助做处理器芯片的设计,另一件是做AI芯片。
但那时,AlphaGo还没有击败李世石,英伟达还只是“游戏显卡”的代名词,没有人知道“AI+芯片”会碰撞出什么样的火花。
而彼时国内市场上芯片“造不如买”,自主研发通用CPU芯片不受重视;AI给人的感觉是“遥遥无期”,更不受待见。因此,兄弟二人想要做的“聪明的芯片”,是“冷门中的冷门”。
他们也没有“上帝视角”。陈天石回忆,刚来计算所时他的研究方向是AI,加入的又是“龙芯”处理器团队,当时心里其实特别忐忑,因为这两个方向“在当时看来完全没关系”。
“用一块芯片加速处理几乎所有的深度学习算法程序”的想法,无异于天方夜谭。
他们想不通,学生们更想不通。“不止一个学生劝我们‘别搞这么虚无缥缈的东西了’,他们跟我说‘陈老师要不您还是带我们做点不那么非主流的东西吧’。”陈云霁说。
他特别理解学生们的心情。当时,他们这个课题连20万元的项目都申请不下来。一名学生专门做了调研:国际上完全没有类似的论文或工作。
“从原始创新的角度看,当你做的东西在国际上没有任何相似的东西时,这是一件让人感到无比激动和兴奋的事情。但从功利的角度讲,这也意味着干这件事的风险非常大。”陈云霁顿了一下说,“这可能需要一些理想主义。”
他后来在一篇文章中回顾了这段岁月,其中有段话是这样写的:“在一个学术界不认可、工业界不关心、难以发论文、难以申项目的冷门交叉学科方向孤独前行,就像在一片黑暗中摸索,不知道哪里是方向、哪里是出口,甚至不知道有没有出口。”
3“计算所是做大事的地方”
2010年底,在计算所内的一次汇报中,兄弟俩向领导报告了做AI芯片的设想。
他们不知道该怎么讲这天方夜谭般的想法,于是描述了一个场景:大家很早就在说有一天机器会替代人开车,但如果开车的机器人在做模式识别的时候速度不够快,那就完全没有让机器开的理由——当它识别出前面路上的灯或者行人的时候,车已经撞上去了。所以,它一定要有很强的车载运算能力。
没想到,这个通俗的比方打动了所领导,并给出了“你们说得有道理”的评价。
这给了兄弟俩继续做下去的信心。
2011年,聚焦于前沿技术探索的“计算机体系结构国家重点实验室”(以下简称国重实验室)依托计算所成立。在时任计算所所长、国重实验室主任孙凝晖的支持下,国重实验室围绕“非传统体系结构方向”设立了3个研究组,智能处理器团队(现计算所智能处理器中心)在列。
陈云霁感慨:“在当时的情境下,个人能坚持‘心中的一团火花不熄灭’已属不易,而孙老师愿意从组织上创建一个新课题组做这样的研究,就更加难得。”
对于兄弟俩来说,创立智能处理器团队的时机恰到好处,因为“如果再晚半年,抢占深度学习处理器研究的国际学术制高点的机遇,恐怕就错过了”。
陈云霁记得,2013年的一天,孙凝晖把他叫到办公室,提出由他担任智能处理器团队的课题组负责人(PI),专注于智能处理器的基础研究。
彼时,陈云霁正处于“科学家和工程师之间的叠加态”—— 一边从事通用CPU芯片的工程技术和产品研制工作,一边探索智能处理器。显然,孙凝晖注意到了他这种“难以专注”的状态。
“只有专注才能拔尖。”孙凝晖对他说,“一个人不可能同时做好学术研究、技术开发、产品研制这几件事,只能分阶段来做。”
面对这位年轻的研究员,孙凝晖为30岁的陈云霁做了长远打算:“计算所是做大事的地方,研究员仅仅是做大事的起点。要想在市场、用户那里占有一席之地,还得有超过别人的创新和优势。”
这次深入谈话改变了陈云霁的职业生涯。从那之后,他坚定了信念,再也没有过任何动摇。
4“中文发音的芯片”
沉下心后,他们用详尽实验得出的实际数据,扎扎实实地证明了深度学习处理器的巨大潜力。陈云霁说,他没想到,这些成果产生了他们不曾想象的学术影响力。
2014年是兄弟俩丰收的一年。在2014年3月召开的国际顶级学术会议ASPLOS上,他们和合作伙伴、计算所客座研究员Olivier Temam的成果——《DianNao:一种小尺度的高吞吐率机器学习加速器》获得了最佳论文奖。这是中国乃至亚洲科研机构首次在计算机系统和高性能计算领域顶级国际会议上获得最佳论文奖。
这次获奖完全在陈云霁意料之外。ASPLOS的颁奖宴会,他和Temam一开始没打算去,因为“没想过获奖这种事跟我们有什么关系”。当获奖者揭晓时,他还在“埋头苦吃”,根本没注意台上在说什么,直到发现和他一桌的学者都停下刀叉,微笑望着他和Temam。
那一刻他突然“蒙了”,走上台接过奖牌时依然是一脸茫然。他上一次有这种“怎么可能”的震惊心情,还是在高中校运会获得3000米跑冠军的时候。
2014年12月,《DaDianNao:一种机器学习超级计算机》获处理器架构领域另一个顶尖学术会议MICRO最佳论文——这是MICRO自1963年创办以来,首次有美国以外国家的学者获该奖项。
一下子拿到两个计算机体系结构顶会的最佳论文,兄弟俩才终于意识到,他们蹚出了一条前人不曾涉足的路。
DianNao和DaDianNao在国际上开创的深度学习处理器方向,已经成为国际计算机体系结构研究的主流。这两篇论文的他引很快达到数千次,施引者遍及全球数十个国家、数百个科研机构。其中,英伟达是引用最多的机构之一。《科学》杂志刊文评价这项工作是深度学习处理器的“先驱”和“引领者”。
“DianNao”和“DaDianNao”的名字和发音曾让国外同行大费周章。一般在国际上发表研究成果,取名字时都会选一个英语语系里的名字。但兄弟俩反其道而行之,使用中文拼音命名,寓意“电做的大脑”,表达“AI”之义。参加国际会议时,他们经常要给外国同行纠正发音,特别是三声的“脑”,让许多外国人卷着舌头重复了好多遍。
在他们看来,这两个名字独具魅力,“因为此前没有中文发音的芯片”。
5“寒武纪大爆发”
最佳论文到手后,孙凝晖问兄弟俩:“你们能做出真正的深度学习处理器芯片吗?”
在国重实验室,有个不成文的共识——重视论文,但绝不止于发表论文,要更重视技术发明和原型系统,将成果实际应用于产业。孙凝晖此问,其实是勉励他们做出真正的AI芯片。
事实上,在2014年5月31日将DaDianNao论文投稿后,陈云霁就带着一群研究生坐绿皮火车晃荡着去了成都—— 一边放松,一边着手准备原型芯片的研制。
那几天,他们晚上在成都的街头寻访美食,白天在大学里找间没人的教室讨论芯片研制问题。
回到北京,在中国科学院主管部门和计算所的支持下,课题组全面投入紧张的芯片研制工作。即便已在“龙芯”团队身经百战,作为新PI的陈云霁还是感受到了责任之重。
在实验室一间不足30平方米、被戏称为“小黑屋”的玻璃房里,挤满了智能处理器团队的成员,几乎每张1.5米长的桌子前都要坐两个人,拥挤喧闹、热火朝天是常态。2015年,国际上第一颗深度学习处理器原型芯片的一次流片成功,就是在这里揭晓的。
陈云霁、陈天石都清晰记得那颗芯片流片回来的晚上——
“我们聚在‘小黑屋’里,把芯片和调试主机的串口连通后,调试主机屏幕上很快就跳出了深度学习测试结果正确的信息。”
接下来就是陈云霁的“个人秀”,他随手抓起身旁的拖把,即兴和学生们表演了一段“舞枪弄棒”。
初为PI的不安感,在那一刻消散了。
陈云霁说,之所以给芯片取名“寒武纪”,最初寓意是这个项目只是一个基础性支撑,表明它是一个非常早期的起点——就如寒武纪那个遥远而原始的时代一样。陈天石也说,寒武纪芯片想做的是“未来无处不在的AI应用的垫脚石”。
他们没想到,这个领域的大爆发来得迅猛且快速。
2016年春,谷歌公司研发的AlphaGo一战成名,AI迅速在全世界掀起浪潮。同年,在计算所和风险投资机构的支持下,寒武纪公司成立。
2017年,打上“真正的AI手机”标签的华为Mate10在“寒武纪芯片”的助攻下取得巨大成功。“寒武纪1A处理器”也成为首款商用深度学习专用处理器。
2020年7月20日,寒武纪公司在科创板挂牌上市,上市首日即突破千亿元市值。从正式递交招股书到正式敲钟上市,寒武纪公司仅用了116天,成为国内AI芯片第一股。
如今将工作重心转向科研管理和基础研究的陈云霁,已接替孙凝晖,担任处理器芯片全国重点实验室(由计算机体系结构国家重点实验室重组而成)的主任。每当路过“小黑屋”看到里面挤满了热火朝天工作的同事和学生时,他的心中仍会升腾起一股热流。
“寒武纪”的初心,始终没有忘记。
《中国科学报》(2024-09-19第4版专题)(原标题:开创“寒武纪”)
本文链接:http://www.gihot.com/news-8-8208-0.html开创“寒武纪”
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
点击右上角微信好友
朋友圈
点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮
点击右上角QQ
点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮