中国“女娲”让基因组“暗物质”现原形

5个月前 来源:文汇报 观看:88

 XEE即热新闻——关注每天科技社会生活新变化gihot.com

郭国骥(左一)在指导团队进行实验。(受访者供图)

  ?XEE即热新闻——关注每天科技社会生活新变化gihot.com

人类基因组计划完成20多年来,超过九成的非编码序列仍是未破译的“天书”,是基因组的“暗物质”。近日,浙江大学医学院郭国骥、韩晓平教授团队在《细胞》发布最新成果,其自主研发的AI生物大模型“女娲CE”(简称NvwaCE),为破译非编码序列提供了全新的工具。

据悉,“女娲CE”大模型能从一级DNA序列出发,精准预测脊椎动物基因突变对细胞的表型影响,精度达单细胞级,准确率超90%。此外,它还成功预测并经实验验证了罕见病镰刀型贫血症的基因治疗位点,成为世界首例AI预测的人类疾病治疗性位点。

“通过深度学习,那些人类暂时无法理解的复杂语法,正在被AI学习、解析。”郭国骥就课题最新进展,接受了文汇报记者专访。

单细胞图谱,让AI大模型有了“精品教材”

人类几乎所有具体的生理机能都依靠蛋白质来完成。在人类基因组中,编码序列(对蛋白质进行编码,直接表达为蛋白质)仅占1%-2%,剩下的98%都是非编码序列(不会直接表达为蛋白质,包含调控序列)。

这98%的非编码序列,在很长一段时间内,无法被理解。近年来,随着AI和生物学研究的深入,科学家们发现,这些序列对基因的表达调控,有可能被解读。

“生命科学研究长期以‘还原论’为主,也就是科学家会将某个表型还原到某个基因,研究它的调控和功能。但进入调控序列,这种方法就行不通了。”郭国骥解释,非编码序列有一套复杂精密的“语法系统”,决定了哪个基因在何时、何地、以何种强度表达。每一个调控序列的碱基,都可能在不同时间、不同类型细胞中扮演不同角色。因此,用传统敲除验证的方法,就像盲人摸象。

2020年,郭国骥团队完成了小鼠和人类细胞图谱的一系列工作,他们开始思考,从生物的一级DNA序列寻找细胞图谱的编码模式。当时,传统学界并不理解。“凭什么一级DNA序列就会决定终极表型?”但郭国骥认为,生物的表观、表型等复杂现象的“因”,深植于DNA序列本身。从一级DNA序列出发,研究生物表型,远比直接研究生物表型特征之间的联系更能找到本质规律。

传统表型检测外貌、身高、指纹之类的宏观表型。郭国骥则将之精细到单细胞级别的分子表型。“单个细胞里面的分子是什么?我们测的是这种‘没有偏见’的分子表型。”

为此,团队在传统的ATAC测序技术上自主研发出超高灵敏度、超高通量的单细胞级测序技术UUATAC-seq,使测序灵敏度在理论上提升了4倍,通量提升了10到100倍,可以在单日内高效绘制一个物种所有类型细胞核中的染色质可及性图谱。以此为基础,团队科学家绘制出涵盖哺乳类、鸟类、两栖类、爬行类、水生类五大类脊椎动物的单细胞图谱数据集。

通过研究范式创新获得高质量的数据,是这个团队的核心科研优势所在。据介绍,国外许多顶尖的基因组AI模型,比如近日Deepmind团队预发表的AlphaGenome,都是基于ENCODE项目进行数据训练。由于该数据集年代久远、最长已超过20年,其涵盖的基本是“群体细胞”“器官细胞”或者在体外培养的“细胞系”数据,存在分辨率低、不同类型细胞混杂的问题。用这样的数据集训练AI,好比用一本内容模糊、混杂的教材教学生。

相较而言,女娲CE的训练集堪称“精品”,所有数据在同一技术标准下产生,精度达到单细胞级别,数据噪音更少,有高度的可比性与纯净性。

“可以说,我们为AI提供了迄今为止最适合学习基因调控语法的训练集。”郭国骥说。

更高精度带来惊人发现:“生命语法”比DNA序列本身更保守

与依赖大量数据、超长扫描窗口(读长)的生物深度学习算法不同,女娲CE采用多任务框架、超短扫描窗口,直接学习从一级DNA序列到生物体所有类型细胞表型的映射关系。“AI学到了一些我们人类暂时无法理解的复杂规则。”郭国骥说,通过这种规则,就能让基因组的“暗物质”开口说话,进而预测基因突变带来的后果。

借助女娲CE,以500碱基对(简称bp)的“短窗口”进行分段扫描,团队发现,在亿万年的演化长河中,脊椎动物的基因“调控语法”比其核苷酸序列本身更为保守。

“这意味着,在进化过程中,即使物种的某段调控序列和过去已完全不同,但它们最终行使的功能依然类似。”郭国骥说,这一发现对达尔文进化论中的“随机突变”提出了重要补充:脊椎动物的基因组突变并非完全随机,适者生存并非仅仅依靠环境筛选,还有一套深刻的内在调控语法约束着进化过程。“任何跳出这套语法的突变,可能胚胎都无法形成。它在接受自然选择前,就被生命底层的逻辑淘汰了。”

这一发现本身,也成为了女娲CE算法的重要组成部分,让它拥有超高泛化能力。女娲CE能够从基因组序列出发,预测未经训练物种的细胞染色质可及性蓝图,并一次性预测了包括人、猴、牛、猪、马、羊、熊猫七个物种的单细胞调控原件蓝图。

女娲CE的正式发表,也意味着中国科学家团队在AI基因组大模型研发的赛道上已先人一步。团队表示,相关数据和模型本身,将会全部开源。

世界首例AI预测基因位点成功,开拓基因治疗新路径

要知道,很多遗传性疾病、罕见病,都是因为细胞的表型异常。以往,当科学家们试图通过基因编辑手段治疗这些疾病,只能通过“神农尝百草”的方式,不断尝试,尝试几百、上千次都不算多的。但是,有了AI,就可以根据异常表型特征,让AI预测哪些基因位点最有可能让表型恢复正常。

针对镰状细胞病,女娲CE就预测出了治疗关键位点:胎儿血红蛋白基因HBG1-68:A>G。这是一个全新的、从未被记录过的位点。进一步实验显示,该位点在基因编辑后能够实现胎儿血红蛋白表达量的显著提升,这也是科学家首次在人类细胞中验证了基因组AI预测的功能性位点。

除了“女娲”,还有“华佗”“神农”……郭国骥坦言,他偏爱用中国传统神话为自己的算法命名,这既是对传统文化的致敬,也寄托了一种希望。“AI或许最终会超越人类,向着‘神性’发展,就像神话中的女娲抟土造人,帮我们理解乃至创造生命,解决人类的难题。”

郭国骥团队的下一步计划,是构建虚拟细胞,将调控元件模型与网络模型、蛋白质结构模型等模块整合,创造出“数字小鼠”乃至“数字人类”。有了这样的“数字生命”,科学家就可以高效进行虚拟实验,测试基因突变的影响或筛选疾病药物和治疗位点,从而大幅缩短研发周期、降低成本,并极大减少实验动物的使用,让未来的临床试验更安全、更精准。

业余时间,郭国骥还是一位歌者。他创作的歌曲《生命》中,有这样一句歌词:“宇宙浩瀚无穷尽,却不及她的珍贵……该如何解开基因的密锁,该如何理清神经的网络,千山万水寻寻觅觅,春去秋来上下求索。”

为生命求索,中国科学家从未停下前进的脚步。XEE即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-8-6056-0.html中国“女娲”让基因组“暗物质”现原形

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:著名医学生物化学家、医学教育家杨同书逝世

下一篇:著名神经病学家、临床医学教育家饶明俐病逝

为你推荐
日前,辽宁省总工会公布了《关于2024年辽宁省劳模创新工作室和职工创新工作室有关事项的通报》,沈阳工业大...
01-21
近日,记者从中国科学院长春光学精密机械与物理研究所获悉,该所微纳光子学与材料国际实验室杨建军团队的最...
01-21
  中国网财经1月15日讯 持牌消金进入纵深发展阶段后,在重塑业务模式的过程中,消费金融公司们既...
01-22
  摘要  【一年跌近30%纯碱拐点何时出现?】2024年,在上游产能大幅扩张与行业高开工率的双重作...
01-27
双鱼座的男生通常是浪漫、敏感且富有想象力的人。他们渴望与一个特别的女生建立深厚的...
01-22
狮子座男生通常都是阳光、自信、热情洋溢的,当他们喜欢上一个人时,会展现出一系列特殊的...
01-22
冬季男穿搭? 1、英伦绅士风  英伦风打扮的关键特性就是说精美、修身养性。在严寒的冬天,一套打扮得当的英伦风服装,将你的绅士精美反映得酣畅淋漓。  搭配技巧:英伦绅士风...
02-07
雨薇服饰有限公司:创造时尚与品质的完美结合在如今的时尚行业中,有许多品牌脱颖而出,但为什么我会特别关注雨薇服饰有限公司呢?这不仅因为它的设计独特,更因为它在服饰的每一个细...
02-12
2月10日消息,抖音发布直播间盗播违规处理公示,自2024年11月份起,抖音电商开启了对直播间“内容作弊:盗播”行为开展了专项治理行动,至今已累计处置盗播直播间10万余个,涉及违规作...
02-11
与其被动防守,不如主动出击。近年来,随着各行业竞争日趋白热化,内卷现象不断加剧。面对生存压力,互联网巨头们在巩固核心业务的同时,愈发迫切地需要拓展多元化布局。这一战略转...
02-18
2月4日消息,途家民宿数据显示,截至2月4日,春节期间持非中国护照游客的民宿预订量同比增长3.7倍,有51个乡镇第一次迎来了外国人的订单。从平台民宿预订情况看,大理连续三年蝉联第...
02-07
3月5日消息,抖音生活服务南部大区日前推出“萤光计划”,2025年将投入亿级流量、百万货补,帮助中小商家快速掌握运营技能、降低经营成本、获得交易增长。该计划将从资源激励、产...
03-05
2025年,中国“HR SaaS第一股”给资本市场带来一些震撼。据北森港股公告,1月14日,北森境内控股公司与企业培训平台“酷学院”股东订立境内股权转让协...
02-07
2月5日,有投资者在投资者互动平台向东峰集团提问:公司公告预计亏损5亿元左右,感觉公司今年在洗澡。国资入主后是否会调整并购策略?未来准备如何提升公司经营业绩?东峰集团在投资...
02-09
在2024年1月,育碧推出了《波斯王子:失落的王冠》,尽管游戏广受好评,但育碧以销量不佳为由将其开发团队解散,开发人员则被分配到了育碧的其他项目中。而最近,通过一名...
02-02
近日据外媒报道称,RTX 5090、5080虽然上市还没有半个月,但已有不少用户反映显卡出现崩溃黑屏问题。 报道中提到,全球多地用户近日集中报告称(故障报告已超千例),这...
02-10
据央视新闻报道,当地时间2月1日,美国联邦选举委员会年底的备案文件显示,埃隆·马斯克在2024年美国大选中的花费超过了2.9亿美元。马斯克 资料图(来源:环球网)文件表明,马斯克在年末...
02-02
下一站,回家!无论是绿皮车的温暖情怀,还是高铁的高效快捷,回家的路,永远是最美的风景 下一站,回家!无论是绿皮车的温暖情怀,还...
01-21
1月16日,有消息称美团正在试水“浣熊食堂”放心外卖店业务。对此,记者联系美团获悉,“浣熊食堂”是美团投入资金和人力,深度参与餐饮上下游建设探索的...
01-21
  近日,全省各地陆续发布2024年经济运行数据。面对多重压力叠加、多重挑战并行的复杂形势,在省委、省政...
01-22
  为深入贯彻落实党中央、国务院关于加大保障性住房建设和供给的决策部署,通过收购存量商品房方式增加...
02-06
  海报新闻记者 孙佃潇 北京报道  大学教授、收藏家、作家、阿里巴巴荣誉合伙人……如果细写,王帅的身份可能一张A4纸都写不完。1月18日晚,王帅作为一位分享者,携新书《...
01-21
  低空运动设备发生事故?海南陵水:非旅游行为 当事人无碍  中新网海南陵水1月20日电 (张月和)1月18日,网传海南陵水清水湾有疑似滑翔伞等运动游乐设备发生安全事故。海南省...
01-21
1 月 21 日消息,smart 精灵#5 SUV 将推出插电式混合动力版本,以应对全球部分市场对纯电动车型需求的变化。这一决定标志着由吉利和梅赛德斯-奔驰共同拥有的 smart 品...
01-22
1 月 27 日消息,蔚来官方宣布,1 月 27 日,蔚来第 3,100 座换电站于四川省凉山德昌县汽车站正式上线,加速推进换电县县通布局。据蔚来官方称,蔚来用户累计换电超过 6,400 ...
01-28
  1、《滤镜》定档于2025年2月24日开播,檀健次跟李兰迪领衔主演的,这是一个充满奇幻色彩的故事。  2、一个神秘的超科技产品,让女主苏橙橙拥有了改变容貌,甚至是变成其他东...
02-17
近期,电视剧《119紧急呼叫》在各大短视频平台上大受欢迎,特别是第6集的剧情引起了观众们的热烈讨论。以下是该集的主要内容。五年前,粕原雪告诉姐姐小夏她打算...
02-20
  中国疾控中心最新监测数据显示,当前全国流感病毒检测阳性率继续上升,且以甲型流感为主。专家...
01-21
  本报北京2月13日电(记者白剑峰)国家卫生健康委决定2025年在全国卫生健康系统组织实施一批为民服务实事项目,用心用情做好8件为民服务健康实事,让人民群众有更多的获得...
02-14
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮