大模型发展亟需高质量“教材”相伴

11个月前 来源:科技日报 观看:113

1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”YUJ即热新闻——关注每天科技社会生活新变化gihot.com

大模型训练语料短缺问题严重YUJ即热新闻——关注每天科技社会生活新变化gihot.com

科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

高质量语料应具备七大特征YUJ即热新闻——关注每天科技社会生活新变化gihot.com

那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

“高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

完善相关机制提高语料质量YUJ即热新闻——关注每天科技社会生活新变化gihot.com

记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”YUJ即热新闻——关注每天科技社会生活新变化gihot.com

“人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

 YUJ即热新闻——关注每天科技社会生活新变化gihot.com

1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”YUJ即热新闻——关注每天科技社会生活新变化gihot.com

大模型训练语料短缺问题严重YUJ即热新闻——关注每天科技社会生活新变化gihot.com

科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

高质量语料应具备七大特征YUJ即热新闻——关注每天科技社会生活新变化gihot.com

那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

“高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

完善相关机制提高语料质量YUJ即热新闻——关注每天科技社会生活新变化gihot.com

记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”YUJ即热新闻——关注每天科技社会生活新变化gihot.com

“人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。YUJ即热新闻——关注每天科技社会生活新变化gihot.com

 YUJ即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-944-0.html大模型发展亟需高质量“教材”相伴

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:新模型可实现零样本动物社交身份识别

下一篇:英公布70年来最大规模核电扩张计划

为你推荐
真相:刷京东白条教程,三个方法你想知道的都在这里在这个科技飞速发展和金融创新层出不穷的时代,京东白条作为一种便捷的消费信贷工具,已经深入到了许多人的日常生活中。然而,近...
08-06
广州越秀区本地当面套花呗京东白条VISA信用卡分付一手商家秒到账:【150 0062 3958 微信同号】一手当面靠谱!白条怎么套出来,大家在急用钱的时候肯定会想到京东白条或者京东金条...
07-31
我们往往只欣赏自然,很少研究与自然共生存。——王尔德 知识不多就是愚昧;不习惯于思维,就是粗鲁或蠢笨;没有高尚的情操,就是卑俗。——车尔尼雪夫斯基 人若...
08-05
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——易付( aux678678 可v可来电)(全年365天不掉线) 生当作人杰,死亦为鬼雄。  译:活着的时候要做英雄,死后...
08-05
  海报新闻记者 文露漪 首席记者 张珈玮 报道  苏云瑞不敢将自己的故事发到网上,害怕没有人相信。在闹掰后,他与养父也彻底失去了联系。2024年过了大半,和此前多年一样,...
10-10
现在网络鱼龙混杂,请认准靠谱八年商家,金牌小帮手——小创(137-1300-8979可v可来电)(全年365天不掉线) 【羊小咩享花卡要怎样提现】【羊小咩享花卡怎么刷出来】【羊...
08-20
[本站 资讯] 2024北京车展已经拉开了帷幕,本届车展有200余款新车发布/上市,不乏诸多重磅车型。为了方便各位了解新车信息,我们制作了车展新车汇总系列选题,按照展馆的维...
04-26
南宁风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-26
了解:花呗怎么套出来急用钱(商家秒到的几种方法)支付宝提现扣费标准支付宝提现分为普通提现实时提现和快速提现,普通提现实时提现都是免费的,2小时快速提现电脑端操作需要收取02...
08-21
徐州风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-24
温州风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-22
南宁风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-25
温州风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-25
策划 | 创意互动中心 南财新闻部统筹 | 李振 喻淑琴 林青云文案 | 程迪 设计 | 郑嘉琪 王冰执行 | 庞诗隽 张梦琦 梁智馥通讯员 | ...
08-24
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮