语言文字领域重大部署:国家队开工新基建,高品质“投喂”大模型

4个月前 来源: 观看:60

21世纪经济报道记者王峰北京报道  语言文字是大模型的资源池,语料库的质量决定着大模型的发展。而在大模型时代,语言文字已成为赋能产业发展的数据要素。5cd即热新闻——关注每天科技社会生活新变化gihot.com

近日,教育部、国家语委、中央网信办印发《关于加强数字中文建设 推进语言文字信息化发展的意见》(以下简称《意见》),全面谋划数字中文建设。5cd即热新闻——关注每天科技社会生活新变化gihot.com

在3月31日教育部新闻发布会上,教育部语言文字信息管理司司长刘培俊指出,《意见》创新应用自然语言处理、大语言模型、多模态信息处理、知识图谱、语料加工等五项前沿技术,重点服务大语言模型等人工智能技术创新应用“制高点”,夯实国家关键语料基础设施“新基建”。5cd即热新闻——关注每天科技社会生活新变化gihot.com

数字中文推动产业升级

20世纪80年代,王选院士的团队发明激光照排技术,并结合汉字的编码标准,突破了中文数字化的空间限制,让承载中华文化的中文在全球互联网空间获得新生。5cd即热新闻——关注每天科技社会生活新变化gihot.com

当前,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。5cd即热新闻——关注每天科技社会生活新变化gihot.com

3月31日教育部新闻发布会  图片来源:教育部官网
5cd即热新闻——关注每天科技社会生活新变化gihot.com

北京大学王选计算机研究所所长汤帜认为,新形势下,语言文字将实现与信息技术的深度融合,要形成“技术突破—场景落地—生态繁荣”的良性循环,打造数字化引领品牌,有力服务教育发展、助力科技创新、赋能文化传承、推动产业升级、促进社会进步。5cd即热新闻——关注每天科技社会生活新变化gihot.com

《意见》特别提出,要实施数字中文推动产业升级行动。支持语言文字信息技术新产品、新职业和新业态发展,鼓励传统语言产业数字化转型升级,培育基于数字中文的新型语言产业。推动语言资源、语言翻译、智能机器人、中文内容服务等软硬件产品研发应用,支持围绕语音、语料、语言应用生态形成产业聚集,鼓励创建语言产业应用示范品牌。5cd即热新闻——关注每天科技社会生活新变化gihot.com

汤帜介绍,新形势下,语言文字将实现从“静态符号”向“动态数字资产”,从“信息载体”向“生产要素”的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。5cd即热新闻——关注每天科技社会生活新变化gihot.com

比如,广东省教育厅在广州大学设立粤语语料库建设与大模型评测重点实验室,为语料基础设施建设、语言智能应用等提供坚实数据支撑,指导深圳大学建立语言障碍多模态数据库,涵盖汉语失语症语料库、儿童语言障碍语料库,有力服务语言康复研究。5cd即热新闻——关注每天科技社会生活新变化gihot.com

北京师范大学针对古汉语信息处理任务“低资源”“富知识”的特点,以解决领域知识学习需求为核心任务,使用1.8B(18亿)参数量,训练出“AI太炎”古汉语大语言模型。5cd即热新闻——关注每天科技社会生活新变化gihot.com

北京师范大学副校长康震介绍,该模型在确保语料来源安全、语料内容安全、语料标注安全、模型安全等基础上,能够高质量完成古典文献释读,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务。截至目前,该模型已广泛应用于海内外的学术科研、基础教育、编辑出版等多个领域,辅助古籍整理、语言研究、语文教育、辞书编纂等应用场景任务。5cd即热新闻——关注每天科技社会生活新变化gihot.com

建设新型国家语料库

《教育强国建设规划纲要(2024—2035年)》提出,要建设新型国家语料库。《意见》也提出,到2027年初步建成国家关键语料库。语料库在语言文字信息化工作中发挥什么样的作用,下一步将如何推进?5cd即热新闻——关注每天科技社会生活新变化gihot.com

刘培俊指出,将聚焦“需求”这一关键。在关键学科、重点行业、战略区域、民生期待和社会急需领域,分批建设规范、安全、优质的国家关键语料库。目前,教育部、国家语委已经支持建设了30余项关键领域的语料库。5cd即热新闻——关注每天科技社会生活新变化gihot.com

北京师范大学已建设了通用汉字全息数据库,《说文》学数字资源库、历代碑刻与手写文字属性资源库、甲骨文拓片资源库等专业数字资源库。5cd即热新闻——关注每天科技社会生活新变化gihot.com

刘培俊指出,目前,教育部、国家语委已经支持布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据需求稳步扩大建设范围,提升建设成效。5cd即热新闻——关注每天科技社会生活新变化gihot.com

下一步,将逐步建立健全语料共建共享新机制,研制语言资源、语言数据、基础语料以及大语言模型的技术和管理标准,依托高校研究机构推进多学科交叉融合,为语言科技、语料建设以及人工智能创新应用培养高素质人才。5cd即热新闻——关注每天科技社会生活新变化gihot.com

教育部语言文字应用管理司副司长王晖指出,当前以DeepSeek等为代表的人工智能技术创新不断取得突破性的进展,在这个大背景下,国家提出这样一个战略部署,建设新型国家语料库,凸显了其重要性、必要性和紧要性,我们应当积极统筹、广泛协同、大力推进。5cd即热新闻——关注每天科技社会生活新变化gihot.com

“但是很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。”王晖说。5cd即热新闻——关注每天科技社会生活新变化gihot.com

对此,下一步将立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。5cd即热新闻——关注每天科技社会生活新变化gihot.com

据介绍,目前已经启动开发建设“中华文脉新型语料库”“中华大阅读体系语料库”,以这两个示范库建设整体打造出标杆。5cd即热新闻——关注每天科技社会生活新变化gihot.com

“中华文脉新型语料库可以简单理解为瞄准的是智慧教师,中华大阅读体系语料库瞄准的是智慧学伴。在此基础上,探索建设系列教育、语言文化国家新型语料库群,服务教育强国、文化强国建设。”王晖说。5cd即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-1-43895-0.html语言文字领域重大部署:国家队开工新基建,高品质“投喂”大模型

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:国内独角兽企业估值超1.5万亿美元!北京独角兽企业数量和估值全国第一

下一篇:缅甸强震已致该国2056人遇难

为你推荐
据环球时报援引日本《产经新闻》2日报道,自2024年12月下旬流感病例数创新高后,日本多地药店表示已无用于治疗感冒、发烧等疾病药品的库存。此外,一些过于拥挤的医院也建议患者...
02-04
买了机票,选座这样的附加服务,一般是谁先到谁先得,消费者鲜有异议。但一段时间以来,部分航空公司开始对这一基本服务引入加价机制,选择靠窗、靠过道或经济舱前排等座位都要额外支...
02-06
海军054B护卫舰首舰漯河舰1月22日上午在山东青岛某军港交接入列。10时许,入列授旗仪式开始,全场高唱中华人民共和国国歌,五星红旗冉冉升起。仪仗礼兵...
01-23
  科技日报记者 雍黎  人工智能浪潮正席卷全球,重庆应该如何加速培育壮大人工智能产业?在重庆...
01-23
  春节假期临近,宠物寄养成为宠物主关注焦点。  记者12日走访上海多家宠物店发现,近期宠物寄...
01-21
  近日,随着鞍山台安500兆瓦风电项目、锦州常兴300兆瓦风电项目全容量并网,我省最大发电企业——国家电...
02-05
长三角的“千亿县”,又扩容了。 近日,合肥长丰县在作2024年政府工作报告时宣布,长丰晋级安徽省第二个“千亿县”。预计全年GDP增长10...
01-21
新闻通讯员 木子春运承载着亿万游子对家乡的眷恋与期盼,春节的脚步近了,归心似箭的人们纷纷踏上返乡之路。据交通运输等部门预计,今年春运全社会跨区域人员流动量将达到90亿人...
01-22
1 月 22 日消息,汽车媒体 ShortsCar 昨日(1 月 21 日)在 Instagram 上发布动态,抓拍到了现代 IONIQ 6 首批 P1 原型车的照片。这款流线型电动轿车改头换面,前脸重新设计,...
01-23
1 月 27 日消息,蔚来官方宣布,1 月 27 日,蔚来第 3,100 座换电站于四川省凉山德昌县汽车站正式上线,加速推进换电县县通布局。据蔚来官方称,蔚来用户累计换电超过 6,400 ...
01-28
《六姊妹》老五刘小玲结局是什么?老五最后嫁给了谁?‌《六姊妹》中老五刘小玲的结局是经历了三次婚姻,最终找到了真正心疼她的人,过上了安逸的生活。‌刘小玲在...
02-21
近期,《树下有片红房子》备受关注,播出后引起了巨大的热度。在社交平台上,这部剧的相关资讯和剧情分析也十分丰富。为了让大家更全面深入地了解这部剧,以下整理...
02-21
  回望现代医学的发展,我们不得不承认有一些“疾病”是和时代捆绑在一起的,但也有一些,似乎像是...
02-08
  记者昨日从国家医保局获悉,国家医保服务平台APP“医保药品耗材追溯信息查询”功能于近日正式上线,购药者通过扫描药盒上的药品追溯码,即可获取详细的药品销售信息,了...
02-11
  大众网记者 司心鹏 报道  4月1日,华为ICT大赛2023—2024全国总决赛成绩公布,山东商业职业技术学院云计算技术与应用产业学院学生团队获得昇腾AI赛道国赛二等奖2项,计...
01-21
1月22日,中国科学技术大学招生办公室发布严正声明: ? 近期,我办接到家...
01-23
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮