中国“女娲”让基因组“暗物质”现原形

2周前 来源:文汇报 观看:39

 0MX即热新闻——关注每天科技社会生活新变化gihot.com

郭国骥(左一)在指导团队进行实验。(受访者供图)

  ?0MX即热新闻——关注每天科技社会生活新变化gihot.com

人类基因组计划完成20多年来,超过九成的非编码序列仍是未破译的“天书”,是基因组的“暗物质”。近日,浙江大学医学院郭国骥、韩晓平教授团队在《细胞》发布最新成果,其自主研发的AI生物大模型“女娲CE”(简称NvwaCE),为破译非编码序列提供了全新的工具。

据悉,“女娲CE”大模型能从一级DNA序列出发,精准预测脊椎动物基因突变对细胞的表型影响,精度达单细胞级,准确率超90%。此外,它还成功预测并经实验验证了罕见病镰刀型贫血症的基因治疗位点,成为世界首例AI预测的人类疾病治疗性位点。

“通过深度学习,那些人类暂时无法理解的复杂语法,正在被AI学习、解析。”郭国骥就课题最新进展,接受了文汇报记者专访。

单细胞图谱,让AI大模型有了“精品教材”

人类几乎所有具体的生理机能都依靠蛋白质来完成。在人类基因组中,编码序列(对蛋白质进行编码,直接表达为蛋白质)仅占1%-2%,剩下的98%都是非编码序列(不会直接表达为蛋白质,包含调控序列)。

这98%的非编码序列,在很长一段时间内,无法被理解。近年来,随着AI和生物学研究的深入,科学家们发现,这些序列对基因的表达调控,有可能被解读。

“生命科学研究长期以‘还原论’为主,也就是科学家会将某个表型还原到某个基因,研究它的调控和功能。但进入调控序列,这种方法就行不通了。”郭国骥解释,非编码序列有一套复杂精密的“语法系统”,决定了哪个基因在何时、何地、以何种强度表达。每一个调控序列的碱基,都可能在不同时间、不同类型细胞中扮演不同角色。因此,用传统敲除验证的方法,就像盲人摸象。

2020年,郭国骥团队完成了小鼠和人类细胞图谱的一系列工作,他们开始思考,从生物的一级DNA序列寻找细胞图谱的编码模式。当时,传统学界并不理解。“凭什么一级DNA序列就会决定终极表型?”但郭国骥认为,生物的表观、表型等复杂现象的“因”,深植于DNA序列本身。从一级DNA序列出发,研究生物表型,远比直接研究生物表型特征之间的联系更能找到本质规律。

传统表型检测外貌、身高、指纹之类的宏观表型。郭国骥则将之精细到单细胞级别的分子表型。“单个细胞里面的分子是什么?我们测的是这种‘没有偏见’的分子表型。”

为此,团队在传统的ATAC测序技术上自主研发出超高灵敏度、超高通量的单细胞级测序技术UUATAC-seq,使测序灵敏度在理论上提升了4倍,通量提升了10到100倍,可以在单日内高效绘制一个物种所有类型细胞核中的染色质可及性图谱。以此为基础,团队科学家绘制出涵盖哺乳类、鸟类、两栖类、爬行类、水生类五大类脊椎动物的单细胞图谱数据集。

通过研究范式创新获得高质量的数据,是这个团队的核心科研优势所在。据介绍,国外许多顶尖的基因组AI模型,比如近日Deepmind团队预发表的AlphaGenome,都是基于ENCODE项目进行数据训练。由于该数据集年代久远、最长已超过20年,其涵盖的基本是“群体细胞”“器官细胞”或者在体外培养的“细胞系”数据,存在分辨率低、不同类型细胞混杂的问题。用这样的数据集训练AI,好比用一本内容模糊、混杂的教材教学生。

相较而言,女娲CE的训练集堪称“精品”,所有数据在同一技术标准下产生,精度达到单细胞级别,数据噪音更少,有高度的可比性与纯净性。

“可以说,我们为AI提供了迄今为止最适合学习基因调控语法的训练集。”郭国骥说。

更高精度带来惊人发现:“生命语法”比DNA序列本身更保守

与依赖大量数据、超长扫描窗口(读长)的生物深度学习算法不同,女娲CE采用多任务框架、超短扫描窗口,直接学习从一级DNA序列到生物体所有类型细胞表型的映射关系。“AI学到了一些我们人类暂时无法理解的复杂规则。”郭国骥说,通过这种规则,就能让基因组的“暗物质”开口说话,进而预测基因突变带来的后果。

借助女娲CE,以500碱基对(简称bp)的“短窗口”进行分段扫描,团队发现,在亿万年的演化长河中,脊椎动物的基因“调控语法”比其核苷酸序列本身更为保守。

“这意味着,在进化过程中,即使物种的某段调控序列和过去已完全不同,但它们最终行使的功能依然类似。”郭国骥说,这一发现对达尔文进化论中的“随机突变”提出了重要补充:脊椎动物的基因组突变并非完全随机,适者生存并非仅仅依靠环境筛选,还有一套深刻的内在调控语法约束着进化过程。“任何跳出这套语法的突变,可能胚胎都无法形成。它在接受自然选择前,就被生命底层的逻辑淘汰了。”

这一发现本身,也成为了女娲CE算法的重要组成部分,让它拥有超高泛化能力。女娲CE能够从基因组序列出发,预测未经训练物种的细胞染色质可及性蓝图,并一次性预测了包括人、猴、牛、猪、马、羊、熊猫七个物种的单细胞调控原件蓝图。

女娲CE的正式发表,也意味着中国科学家团队在AI基因组大模型研发的赛道上已先人一步。团队表示,相关数据和模型本身,将会全部开源。

世界首例AI预测基因位点成功,开拓基因治疗新路径

要知道,很多遗传性疾病、罕见病,都是因为细胞的表型异常。以往,当科学家们试图通过基因编辑手段治疗这些疾病,只能通过“神农尝百草”的方式,不断尝试,尝试几百、上千次都不算多的。但是,有了AI,就可以根据异常表型特征,让AI预测哪些基因位点最有可能让表型恢复正常。

针对镰状细胞病,女娲CE就预测出了治疗关键位点:胎儿血红蛋白基因HBG1-68:A>G。这是一个全新的、从未被记录过的位点。进一步实验显示,该位点在基因编辑后能够实现胎儿血红蛋白表达量的显著提升,这也是科学家首次在人类细胞中验证了基因组AI预测的功能性位点。

除了“女娲”,还有“华佗”“神农”……郭国骥坦言,他偏爱用中国传统神话为自己的算法命名,这既是对传统文化的致敬,也寄托了一种希望。“AI或许最终会超越人类,向着‘神性’发展,就像神话中的女娲抟土造人,帮我们理解乃至创造生命,解决人类的难题。”

郭国骥团队的下一步计划,是构建虚拟细胞,将调控元件模型与网络模型、蛋白质结构模型等模块整合,创造出“数字小鼠”乃至“数字人类”。有了这样的“数字生命”,科学家就可以高效进行虚拟实验,测试基因突变的影响或筛选疾病药物和治疗位点,从而大幅缩短研发周期、降低成本,并极大减少实验动物的使用,让未来的临床试验更安全、更精准。

业余时间,郭国骥还是一位歌者。他创作的歌曲《生命》中,有这样一句歌词:“宇宙浩瀚无穷尽,却不及她的珍贵……该如何解开基因的密锁,该如何理清神经的网络,千山万水寻寻觅觅,春去秋来上下求索。”

为生命求索,中国科学家从未停下前进的脚步。0MX即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-8-6056-0.html中国“女娲”让基因组“暗物质”现原形

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:著名医学生物化学家、医学教育家杨同书逝世

下一篇:著名神经病学家、临床医学教育家饶明俐病逝

为你推荐
  大众网记者 司心鹏 报道  近日,教育部发布了《关于推荐国家特殊教育改革实验区的通知》,旨在适应特殊教育改革发展的新形势新要求,在全国范围内设立一批特殊教育改革...
01-21
    王绶琯(1923—2021)  天文学家,教育家,中国射电天文学开创者,中国现代天体物理学奠基人之...
01-22
  记者 刘飞跃 报道  本报济南讯 近日,中共济南市委金融委员会办公室发布《关于启动资本市场...
01-22
  近年来,随着个人消费贷款需求不断增长,不法贷款中介、电信诈骗不法人员盯上了这块“蛋糕”。...
01-24
摩羯座的男生一向以稳重、务实和有责任感而著称。他们通常不会轻易被外界的诱惑所动摇...
01-22
每个人都有自己的审美观和喜好,摩羯男也不例外。他们对女生的打扮有着独特的偏好,下面就...
01-22
男士礼物排行榜?1,欧莱雅男士专用洗面奶欧莱雅男士专用洗面奶,这个算是男生日常必备了吧,便宜又好用,深受广大男同胞的喜欢。深度清洁,改善痘痘肌肤还是不错的。使用过后能感觉皮...
02-12
女生短裙穿搭注意事项?一、女生短裙穿搭注意事项?1、穿裙子的时候最重要的就是看自己的比例,如果自己腿比较粗,就可以选择把裙子穿到腰部旁边一点,超过腰部一点,可以遮蔽一部分腿...
02-22
京东官宣入局外卖市场。今日下午,京东宣布京东外卖正式启动“品质堂食餐饮商家”招募。京东表示,2025年5月1日前入驻的商家,全年免佣金。对于已签约商户佣金政策是否调整,接近京...
02-12
2月16日消息,淘宝香港站近日宣布与一站式家居维修平台Papabo达成合作,将在信和集团旗下尖沙咀中港城开设“PapaHome淘宝家具实体店”,计划于2月22日开业,首阶段营运面积超过2.5...
02-17
图源:图虫创意 不断下行的猪价终于在2024年出现回升,A股生...
02-21
2月24日消息,智联招聘发布第三期《2025年春招市场行情周报》,继续围绕38个重点城市,洞察春节后第三周招聘求职趋势,快速呈现春招市场最新动态。智联招聘数据显示,节后第三周,交通/...
02-25
1月20日晚,河化股份(000953.SZ)发布2024年度业绩预告,预计2024年实现营业收入1.9亿元-2.5亿元;实现净利润7800万元-8600万元,同比扭亏为盈。业绩变动的主要原因是:河化股份将35...
01-21
近日,AI异构算力软件Infra供应商中科加禾完成数千万元Pre-A1轮融资,由北京市人工智能产业投资基金领投。成立于2023年的中科加禾,聚焦编译技术,为助推...
02-07
之前在Xbox直面会上,忍者龙剑传2复刻版《忍者龙剑传2 黑之章》正式公布。随后该作上架Steam并发售,售价298元,游戏总评为“多半好评”。 Steam商店地址:点击进入 ...
01-28
玩家们经常将《漫威争锋》与《守望先锋2》相比较,多数人认为《漫威争锋》比《守望先锋2》更有趣好玩。《漫威争锋》上线后,其Steam玩家数不断攀升,而《守望先锋2...
02-03
极目新闻记者 李博秦礼和与孙女在足球场内合影2月5日,湖北恩施利川市忠路镇江源村,73岁秦礼和正陪2岁半的孙女,在自己手工打造的笼式足球场踢足球。孩子步履蹒跚,欢笑声接连不断...
02-06
极目新闻评论员 屈旌2月9日,截至15时,哪吒2票房超78亿,已进入全球影史票房前40,今日或将突破80亿大关。据报道,《哪吒2》片尾出现了138家中国动画公司,导演饺子曾表示,本来寄希望于...
02-09
  IT之家1月17日消息,亚马逊今日证实,该公司将在其北美商店部门裁员约200名员工。  亚马逊的...
01-21
  科技日报记者 雍黎  人工智能浪潮正席卷全球,重庆应该如何加速培育壮大人工智能产业?在重庆...
01-23
  【带你一起看大展】  光明日报记者李韵王笑妃  1月21日,记者走进中国国家博物馆北3展厅,...
01-23
  中国自然资源部北海区海洋预报台9日发布的监测数据显示,当日,辽东湾海冰面积达10018平方公里,三分之一...
02-11
  每年这个时候,车厘子大量上市,酸甜多汁的口感引得人不免多吃几颗。不过,有网友发文称“自己‘狂炫’三大碗车厘子后中毒了”,这样的说法也引发热议,有网友留言说自己也有...
01-22
  中国甘肃等地发现大型金矿 新增金资源量168吨  中新社北京1月19日电 (记者 庞无忌)记者19日从中国自然资源部中国地质调查局获悉,中国地质调查局在甘肃、内蒙古、黑龙...
01-21
2 月 2 日消息,星纪魅族集团官方今日发文宣布,截至 2025 年 1 月,Flyme Auto 合作车型总销量超 49.8 万辆。据此前报道,Flyme Auto 2.0 版本车载软件系统将于今年 3 月...
02-02
“若前方无路,我便踏出一条路;若天理不容,我便扭转这乾坤。”电影《哪吒2》开年“王炸”,让人看到了哪吒打破命运,勇敢做自己,最终活出自我的过程。新年刚过,国内车市异常“开卷”,...
02-07
正在热播的《罪之花》凭借演员的颜值、演技及剧情吸引了众多观众的关注。该剧主要讲述了江陵城首富楚阔一家因养女楚清的设计而遭遇一系列不幸:楚夫人坠亡,楚...
02-20
近期电视剧《善意的竞争》成为热门话题,开拍前就吸引了大量粉丝。随着剧集播出,观众群体不断扩大,大家都非常兴奋并期待剧情发展。很多人特别好奇刘在伊是否喜...
02-20
21世纪经济报道记者林昀肖 北京报道1月14日,市场监管总局官网正式发布《医药企业防范商业贿赂风险合规指引》。《指引》共四章49条,其中包括...
01-21
21世纪经济报道记者季媛媛 上海报道 继2023年出现上市以来首次亏损,科创板首家CRO(医药合同研发服务)企业美迪西(688202.SH)2024年的业绩继续...
01-22
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮