大模型发展亟需高质量“教材”相伴

8个月前 来源:科技日报 观看:96

1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”W6Q即热新闻——关注每天科技社会生活新变化gihot.com

大模型训练语料短缺问题严重W6Q即热新闻——关注每天科技社会生活新变化gihot.com

科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

高质量语料应具备七大特征W6Q即热新闻——关注每天科技社会生活新变化gihot.com

那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

“高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

完善相关机制提高语料质量W6Q即热新闻——关注每天科技社会生活新变化gihot.com

记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”W6Q即热新闻——关注每天科技社会生活新变化gihot.com

“人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

 W6Q即热新闻——关注每天科技社会生活新变化gihot.com

1月5日,美国人工智能公司OpenAI表示,正在与数十家出版商洽谈达成文章授权协议,以获取内容来训练其人工智能模型。2023年12月27日,《纽约时报》起诉OpenAI和微软公司,指控这两家公司未经许可使用其数百万篇文章训练人工智能模型。而早在2023年3月,就有消息显示谷歌Bard模型的部分训练数据来源于ChatGPT。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

这些事件剑指同一个问题——大模型高质量语料短缺。“对于从头开始训练的模型,语料短缺会在非常大的程度上限制大模型发展。”近日,哈尔滨工业大学(深圳)计算机科学与技术学院教授邵睿在接受科技日报记者采访时说:“增加语料对于提升大模型能力的边际效益正在减弱,高质量语料的缺乏正日益成为限制大模型发展的瓶颈。”W6Q即热新闻——关注每天科技社会生活新变化gihot.com

大模型训练语料短缺问题严重W6Q即热新闻——关注每天科技社会生活新变化gihot.com

科技部新一代人工智能发展研究中心2023年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

虽然大模型发展如火如荼,但大模型高质量语料短缺已成为全球共性问题。公开资料显示,大模型对数据供给要求极高。比如,训练GPT-4和Gemini Ultra大概需要4万亿至8万亿个单词。麻省理工学院等高校研究人员预测,到2026年之前,机器学习数据集可能会耗尽所有可用的高质量语料数据。研究机构EpochAI亦公开表示,最早在2024年,人类就可能会陷入训练数据荒,届时全世界的高质量训练数据都将面临枯竭。OpenAI也公开表达过对数据告急的担忧。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

值得注意的是,当前大模型数据集主要为英文。中文语料面临的短缺问题更加严峻。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

中国工程院院士、鹏城实验室主任高文曾公开表示,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

上海数据交易所市场发展部副总经理章健此前公开表示,当前大模型行业存在语料供应不足的问题,特别是在垂直细分领域,一些共享、免费下载的语料数量虽然大,质量却不高。“我们在追求语料数量增长的同时,也要重视质量。”章健说。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

高质量语料应具备七大特征W6Q即热新闻——关注每天科技社会生活新变化gihot.com

那么,何为高质量语料?记者采访时,包括腾讯、商汤科技、哈尔滨工业大学(深圳)等企业和高校专业人士均给出一致答案:高质量语料应具备多样性、大规模、合法性、真实性、连贯性、无偏见和无害等七大特征。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

邵睿表示,高质量语料应具有多样性高、句式流畅的特点。腾讯机器学习平台算法负责人康战辉认为,语料的多样性是保证语料质量的基础,要通过不同的途径采集新闻、小说、诗歌、科技文章等不同类型的语料。这有助于大模型学习到更丰富的语言表达。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

同时,高质量语料要具有较大规模,因为大模型需要大量语料来学习语言规律并提高泛化能力。只有拥有充足的语料,大模型才能更好地捕捉细微的语言特征。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

此外,高质量语料应是合法且无害的。不合法或有害的语料可能导致模型产生不恰当的回答或建议,或无意中泄露他人隐私。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

“高质量语料还应该具有真实性和连贯性,以便让大模型更好地理解语境并生成符合逻辑的回答。”康战辉说,语料库应该充分反映语料的多样性并避免偏见,这样大模型在不同场景下回答不同用户的问题时才能做到尽可能科学客观。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

完善相关机制提高语料质量W6Q即热新闻——关注每天科技社会生活新变化gihot.com

记者在采访中了解到,目前训练大模型的语料有一部分是从数据公司购买的,也有一部分是从网络公开语料或者公开数据集中获取并整理的。“从数据公司购买的语料质量较高,并且大多是垂域数据,但其数据量较少且价格较贵。”邵睿说,“网络公开语料通用性较好,数据量大,但数据质量无法保证,数据格式难以统一。”W6Q即热新闻——关注每天科技社会生活新变化gihot.com

“人类产生的有效信息,包括大量高价值信息可能不一定是互联网数据,而是沉散在各行各业里的数据。”商汤科技发言人说,“怎样更多汇聚数据,设计更多、更好的网络结构,用更多的计算资源去支撑更大容量的高质量语料,产生更强的智能,是一个至关重要的问题。”这位发言人认为,要解决语料问题,不仅要靠增加语料总量,还需要提高语料质量,甚至要考虑完善数据交换机制,推动人工智能数据基础设施化。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

正如这位发言人所说,目前业界正在采取一些措施,推动数据交换机制的建设。记者梳理发现,2023年7月,深圳数据交易所联合近50家单位成立开放算料联盟。该联盟将围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注、合成数据等相关标准制定,协助数据交易所增加与大模型相关的新品类和新专区。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

同样是2023年7月,在2023世界人工智能大会现场,中国大模型语料数据联盟成立。同年8月,上海人工智能实验室宣布,联合中国大模型语料数据联盟成员单位共同开源发布“书生·万卷”1.0多模态预训练语料。这次开源的数据总量超过2TB,包含超5亿个文本、2200万个图文交错文档、1000个影像视频。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

除了建设更为完善的体制机制,数据清洗等技术手段也能在一定程度上解决高质量语料短缺难题。但要看到,这些技术手段有较高门槛。商汤科技发言人透露,该公司在数据清洗的过程中投入了上千块GPU的算力。OpenAI在无数场合介绍过GPT-4训练的经验,但从未公开过数据清洗的经验。W6Q即热新闻——关注每天科技社会生活新变化gihot.com

 W6Q即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-944-0.html大模型发展亟需高质量“教材”相伴

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:新模型可实现零样本动物社交身份识别

下一篇:英公布70年来最大规模核电扩张计划

为你推荐
当面套花呗京东白条抖音月付分期乐VISA信用卡分付一手商家秒到账:【138 1874 5895 微信同号】一手当面靠谱!白条怎么套出来,大家在急用钱的时候肯定会想到京东白条或者京东金条...
08-03
深圳盐田区当面套VISA境外卡花呗白条分付【微电:150 0062 3958】全天在线欢迎打电话,当面办理安全靠谱!京东白条作为消费金融的主力军,具有连接用户、商户、场景的天然优势,是京...
07-31
追风被黑系统维护审核怎么解决藏分技巧【微信chuhei816】 为加快推进浙江省数字经济创新提质“一号发展工程”,激励社会各界发挥数据要素乘数效应赋能经济社会发展,近日,我市举...
08-04
实现梦想比睡在床上的梦想更灿烂。 地球上的任何一点离太阳都同样地遥远。——伯顿 贫寒更须读书,富贵不忘稼穑。——王永彬 虚心使人提高,骄傲使人落后,...
08-03
工人日报-中工网记者 刘静 通讯员 王力8月19日,由中铁北京局承建的西渝高铁康渝段站前五标项目隧道正洞累计掘进突破一万米,完成隧道总比的44.3%,标志着项目建设取得阶段性进展...
08-21
大哥的日子也不好过作者|王磊本以为通用的无人车公司 Cruise,已经到历史最低点了。当地时间 12 月 14 日,通用旗下 Robotaxi 公司 Cruise 内部再次宣布大规模的裁员,裁...
12-23
12 月 3 日消息,蔚来汽车官方社区近日预热了 ET5 车型即将推出的“赛道模式”,号称“极限驾控,一触即发”。据官方海报,这次推出的“赛道模式”被命名为 EP mode,从名称...
12-04
告知:急用钱花呗怎么弄出来(仅需5个方法一看就会)花呗信用购为用户提供了安全、可靠的消费金融服务。在花呗信用购的推动下,越来越多的用户选择将信用购作为个人消费的首选方式...
09-03
台州风控花呗白条套取秒到账:【181 181 43671微信同号】万事达 、境外卡、微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已...
08-27
印度卡马替尼哪里买/详细代购方法与渠道一览1. 印度医疗机构内购:在印度的众多医院中,多数设有药房,患者可在此直接购买到印度卡马替尼。 2. 依赖专业医疗服务:国际医疗【微信:...
07-27
不同的节气养生的方法是不一样的,我们应该懂得一些保健的小常识,这样的话可以有利于身体的健康。立秋节气应该如何养生的呢,立秋后湿气重,可以吃一些去湿气的食物,而且秋季也是需...
04-02
8月2日,2024年沈阳市第一轮民办义务教育学校电脑随机录取现场会在沈阳市尚品东林学校举行。民办小学(学部...
08-05
3月10日,由省住建厅、省爱卫办联合组织的全省爱国卫生城乡环境“大扫除”活动启动仪式在沈阳举行,14个市...
03-11
烟台风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-30
西安风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-26
抖音月付本质是中融小dai为用户提供的在线消费金融服务。商家开通之后,客户在这个店铺里面购物时,就能享受本月购买下月还款的服务。抖音月付的消费额度是不支持直接提现使用...
09-06
石家庄风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。...
08-28
大连风控花呗白条套取秒到账:【181 181 43671微信同号】微信分付、抖音月付、支付宝信用购取消实体商家当面刷,本地一手超低费用没有中间商赚差价,所有信息已实名安全的很。十...
08-12
微粒贷是腾讯微众银行旗下的信贷产品,微粒贷也是大品牌的信贷产品,微众银行是我们国家第一个互联网银行,而且资质也是比较齐全的,当前,微粒贷也是上征信的,如果想要提取出来,直接在...
07-31
21世纪经济报道记者 张伟泽 见习记者 孙迟悦 香港报道9月11日,印尼雇主协会主席Shinta Widjaja Kamdani在“一带一路”高峰论坛主论坛上表...
09-12
  【编者按】文物是活着的历史,让文物说话,让历史发声,不仅丰富着全社会历史文化滋养,更坚定着中华儿女内...
07-02
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮