“喂”给人工智能的真实数据终将耗尽,合成数据能否让AI模型精确可靠?

11个月前 来源:中国科技网 观看:341

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。EHg即热新闻——关注每天科技社会生活新变化gihot.com

澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据具有诸多优势,但过度依赖合成数据也可能削弱AI的精确性和可靠性。EHg即热新闻——关注每天科技社会生活新变化gihot.com

合成数据应运而生EHg即热新闻——关注每天科技社会生活新变化gihot.com

以往,科技公司主要依赖真实数据来构建、训练和改进AI模型。真实数据是指由人类创建的文本、视频和图像。它们通过调查、实验、观察或挖掘网站和社交媒体等途径被收集而来。EHg即热新闻——关注每天科技社会生活新变化gihot.com

真实数据因蕴含真实事件以及其场景和背景而极具价值,但其并非尽善尽美。它可能掺杂拼写错误、不一致或无关的内容,甚至潜藏严重偏见,导致生成式AI模型在某些情况下创建的图像仅展示男性或白人形象。EHg即热新闻——关注每天科技社会生活新变化gihot.com

但真实数据日益匮乏,因为人类生成数据的速度赶不上AI不断增长的需求。EHg即热新闻——关注每天科技社会生活新变化gihot.com

美国开放人工智能研究中心联合创始人伊利亚·苏茨克维尔在去年12月举行的机器学习会议上声称,AI行业已触及他所称的“数据峰值”,AI的训练数据如同化石燃料一样面临着耗尽的危机。此外,有研究预测,到2026年,ChatGPT等大型语言模型的训练将耗尽互联网上所有可用文本数据,届时将没有新的真实数据可供使用。EHg即热新闻——关注每天科技社会生活新变化gihot.com

为给AI提供充足的“养分”,一种由算法生成的、模仿真实世界情况的数据——合成数据应运而生。合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。它可以作为真实世界数据的替代品,来训练、测试、验证AI模型。EHg即热新闻——关注每天科技社会生活新变化gihot.com

从理论上来说,合成数据为训练AI模型提供了一种经济高效且快捷的解决方案。它有效解决了AI训练使用真实数据时饱受诟病的隐私问题和道德问题,尤其是涉及个人健康数据等敏感信息时。更重要的是,与真实数据不同,合成数据在理论上可以无限供应。EHg即热新闻——关注每天科技社会生活新变化gihot.com

研究机构高德纳公司估计,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。EHg即热新闻——关注每天科技社会生活新变化gihot.com

科技公司来者不拒EHg即热新闻——关注每天科技社会生活新变化gihot.com

事实上,微软、元宇宙平台公司,以及Anthropic等众多科技头部企业和初创企业,已经开始广泛使用合成数据来训练其AI模型。EHg即热新闻——关注每天科技社会生活新变化gihot.com

例如,微软在1月8日开源的AI模型“Phi-4”,便是合成数据携手真实数据训练的;谷歌的“Gemma”模型也采用了类似方法。Anthropic公司也利用部分合成数据,开发出其性能最优异的AI系统之一“Claude 3.5 Sonnet”。苹果自研AI系统Apple Intelligence,在预训练阶段,也大量使用了合成数据。EHg即热新闻——关注每天科技社会生活新变化gihot.com

随着科技公司对合成数据的需求与日俱增,生产合成数据的工具也接踵而至。EHg即热新闻——关注每天科技社会生活新变化gihot.com

英伟达公司发布的3D仿真数据生成引擎Omniverse Replicator,能够生成合成数据,用于自动驾驶汽车和机器人训练。去年6月,英伟达开源了Nemotron-4340b系列模型,开发者可使用该模型生成合成数据,用于训练大型语言模型,以应用于医疗保健、金融、制造、零售等行业。在医疗、金融等专业领域,该模型能够根据特定需求生成高质量的合成数据,帮助构建更为精准的行业专属模型。微软推出的开源合成数据工具Synthetic Data Showcase则旨在通过生成合成数据和用户界面,实现隐私保护的数据共享和分析。亚马逊云科技推出的Amazon SageMaker Ground Truth也能为用户生成数十万张自动标记的合成图像。EHg即热新闻——关注每天科技社会生活新变化gihot.com

此外,去年12月,元宇宙平台公司推出开源大模型Llama 3.3,更是大幅降低了生成合成数据的成本。EHg即热新闻——关注每天科技社会生活新变化gihot.com

过度依赖风险难测EHg即热新闻——关注每天科技社会生活新变化gihot.com

尽管合成数据暂时解决了AI训练的燃眉之急,但它也并非尽善尽美。EHg即热新闻——关注每天科技社会生活新变化gihot.com

一个关键问题在于:当AI模型过于依赖合成数据时,它们可能会“崩溃”。它们会产生更多“幻觉”,编造看似合理可信但实际上并不存在的信息。而且,AI模型的质量和性能也会飞速下降,甚至无法使用。例如,某个AI模型生成的数据出现了一些拼写错误,利用这些充满了错误的数据训练其他模型,这些AI模型必定会“以讹传讹”,导致更大的错误。EHg即热新闻——关注每天科技社会生活新变化gihot.com

此外,合成数据也存在过于简单化的风险。它可能缺乏真实数据集蕴含的细节和多样性,这可能导致在其上训练的AI模型的输出也过于简单,缺乏实用性。EHg即热新闻——关注每天科技社会生活新变化gihot.com

为解决这些问题,国际标准化组织需要着手创建强大的系统,来跟踪和验证AI训练数据。此外,AI系统可以配备元数据追踪功能,让用户或系统能对合成数据进行溯源。人类也需要在AI模型的整个训练过程中对合成数据进行监督,以确保其高质量且符合道德标准。EHg即热新闻——关注每天科技社会生活新变化gihot.com

AI的未来在很大程度上取决于数据的质量,合成数据将在克服数据短缺方面发挥越来越重要的作用。对合成数据的使用,人们必须保持谨慎态度,尽量减少错误,确保其作为真实数据的可靠补充,从而保障AI系统的准确性和可信度。EHg即热新闻——关注每天科技社会生活新变化gihot.com

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。EHg即热新闻——关注每天科技社会生活新变化gihot.com

澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据具有诸多优势,但过度依赖合成数据也可能削弱AI的精确性和可靠性。EHg即热新闻——关注每天科技社会生活新变化gihot.com

合成数据应运而生EHg即热新闻——关注每天科技社会生活新变化gihot.com

以往,科技公司主要依赖真实数据来构建、训练和改进AI模型。真实数据是指由人类创建的文本、视频和图像。它们通过调查、实验、观察或挖掘网站和社交媒体等途径被收集而来。EHg即热新闻——关注每天科技社会生活新变化gihot.com

真实数据因蕴含真实事件以及其场景和背景而极具价值,但其并非尽善尽美。它可能掺杂拼写错误、不一致或无关的内容,甚至潜藏严重偏见,导致生成式AI模型在某些情况下创建的图像仅展示男性或白人形象。EHg即热新闻——关注每天科技社会生活新变化gihot.com

但真实数据日益匮乏,因为人类生成数据的速度赶不上AI不断增长的需求。EHg即热新闻——关注每天科技社会生活新变化gihot.com

美国开放人工智能研究中心联合创始人伊利亚·苏茨克维尔在去年12月举行的机器学习会议上声称,AI行业已触及他所称的“数据峰值”,AI的训练数据如同化石燃料一样面临着耗尽的危机。此外,有研究预测,到2026年,ChatGPT等大型语言模型的训练将耗尽互联网上所有可用文本数据,届时将没有新的真实数据可供使用。EHg即热新闻——关注每天科技社会生活新变化gihot.com

为给AI提供充足的“养分”,一种由算法生成的、模仿真实世界情况的数据——合成数据应运而生。合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。它可以作为真实世界数据的替代品,来训练、测试、验证AI模型。EHg即热新闻——关注每天科技社会生活新变化gihot.com

从理论上来说,合成数据为训练AI模型提供了一种经济高效且快捷的解决方案。它有效解决了AI训练使用真实数据时饱受诟病的隐私问题和道德问题,尤其是涉及个人健康数据等敏感信息时。更重要的是,与真实数据不同,合成数据在理论上可以无限供应。EHg即热新闻——关注每天科技社会生活新变化gihot.com

研究机构高德纳公司估计,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。EHg即热新闻——关注每天科技社会生活新变化gihot.com

科技公司来者不拒EHg即热新闻——关注每天科技社会生活新变化gihot.com

事实上,微软、元宇宙平台公司,以及Anthropic等众多科技头部企业和初创企业,已经开始广泛使用合成数据来训练其AI模型。EHg即热新闻——关注每天科技社会生活新变化gihot.com

例如,微软在1月8日开源的AI模型“Phi-4”,便是合成数据携手真实数据训练的;谷歌的“Gemma”模型也采用了类似方法。Anthropic公司也利用部分合成数据,开发出其性能最优异的AI系统之一“Claude 3.5 Sonnet”。苹果自研AI系统Apple Intelligence,在预训练阶段,也大量使用了合成数据。EHg即热新闻——关注每天科技社会生活新变化gihot.com

随着科技公司对合成数据的需求与日俱增,生产合成数据的工具也接踵而至。EHg即热新闻——关注每天科技社会生活新变化gihot.com

英伟达公司发布的3D仿真数据生成引擎Omniverse Replicator,能够生成合成数据,用于自动驾驶汽车和机器人训练。去年6月,英伟达开源了Nemotron-4340b系列模型,开发者可使用该模型生成合成数据,用于训练大型语言模型,以应用于医疗保健、金融、制造、零售等行业。在医疗、金融等专业领域,该模型能够根据特定需求生成高质量的合成数据,帮助构建更为精准的行业专属模型。微软推出的开源合成数据工具Synthetic Data Showcase则旨在通过生成合成数据和用户界面,实现隐私保护的数据共享和分析。亚马逊云科技推出的Amazon SageMaker Ground Truth也能为用户生成数十万张自动标记的合成图像。EHg即热新闻——关注每天科技社会生活新变化gihot.com

此外,去年12月,元宇宙平台公司推出开源大模型Llama 3.3,更是大幅降低了生成合成数据的成本。EHg即热新闻——关注每天科技社会生活新变化gihot.com

过度依赖风险难测EHg即热新闻——关注每天科技社会生活新变化gihot.com

尽管合成数据暂时解决了AI训练的燃眉之急,但它也并非尽善尽美。EHg即热新闻——关注每天科技社会生活新变化gihot.com

一个关键问题在于:当AI模型过于依赖合成数据时,它们可能会“崩溃”。它们会产生更多“幻觉”,编造看似合理可信但实际上并不存在的信息。而且,AI模型的质量和性能也会飞速下降,甚至无法使用。例如,某个AI模型生成的数据出现了一些拼写错误,利用这些充满了错误的数据训练其他模型,这些AI模型必定会“以讹传讹”,导致更大的错误。EHg即热新闻——关注每天科技社会生活新变化gihot.com

此外,合成数据也存在过于简单化的风险。它可能缺乏真实数据集蕴含的细节和多样性,这可能导致在其上训练的AI模型的输出也过于简单,缺乏实用性。EHg即热新闻——关注每天科技社会生活新变化gihot.com

为解决这些问题,国际标准化组织需要着手创建强大的系统,来跟踪和验证AI训练数据。此外,AI系统可以配备元数据追踪功能,让用户或系统能对合成数据进行溯源。人类也需要在AI模型的整个训练过程中对合成数据进行监督,以确保其高质量且符合道德标准。EHg即热新闻——关注每天科技社会生活新变化gihot.com

AI的未来在很大程度上取决于数据的质量,合成数据将在克服数据短缺方面发挥越来越重要的作用。对合成数据的使用,人们必须保持谨慎态度,尽量减少错误,确保其作为真实数据的可靠补充,从而保障AI系统的准确性和可信度。EHg即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-217-0.html“喂”给人工智能的真实数据终将耗尽,合成数据能否让AI模型精确可靠?

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:仿昆虫微型机器人飞行长达15分钟

下一篇:新型光学原子钟比铯钟精度高千倍

为你推荐
被誉为“AI六小虎”之一北京智谱华章科技有限公司(以下简称智谱)被拉入实体清单了。当地时间1月15日,美国商务部工业和安全局(BIS)修订...
01-21
每到年关讨债忙!作为中国最有名的背债人之一,罗永浩近期忙得不可开交。2025年的第一周,一款名为J1 Assistant的聚合类AI助理软件在海...
01-27
  为帮助大家顺利年报,辽宁省市场监督管理局准备了年报指南。  一、谁需要年报?  依据《企业信息公...
02-08
    敦煌研究院文物数字化保护团队在进行数字化采集。  敦煌研究院供图  2006年,敦煌研...
02-18
  眼下流感等呼吸道传染病正处于季节性流行期。如何正确服用抗流感药物奥司他韦、玛巴洛沙韦?  北京佑安医院感染综合科主任医师 李侗曾:从疗效上来说,其实是一样的。新...
01-21
长三角的“千亿县”,又扩容了。 近日,合肥长丰县在作2024年政府工作报告时宣布,长丰晋级安徽省第二个“千亿县”。预计全年GDP增长10...
01-21
  中国汽车工业协会本周发布的数据显示,2024年我国商用车产销分别完成380.5万辆和387.3万辆。...
01-21
“若前方无路,我便踏出一条路;若天理不容,我便扭转这乾坤。”电影《哪吒2》开年“王炸”,让人看到了哪吒打破命运,勇敢做自己,最终活出自我的过程。新年刚过,国内车市异常“开卷”,...
02-06
《难哄》穆承允说了什么?穆承允结局是什么?在《难哄》中,穆承允说过的话虽没有大面积的详细描写,但有一些关键话语能体现他的人物特点和相关情节对温以凡表达关...
02-19
《难哄》向朗人物介绍,向朗cp是谁和谁‌向朗‌是电视剧《难哄》中的一个角色,由翟潇闻饰演。向朗与温以凡和钟思乔从小一起长大,总是在朋友需要帮助时伸出援手...
02-19
  记者昨日从国家医保局获悉,国家医保服务平台APP“医保药品耗材追溯信息查询”功能于近日正式上线,购药者通过扫描药盒上的药品追溯码,即可获取详细的药品销售信息,了...
02-11
21世纪经济报道记者武瑛港 北京报道近期血液净化上市公司健帆生物发布业绩预告,2024年营收为25.95亿元~27.87亿元,与2023年的19.22亿元相比...
02-11
  今天我和华商童学会小记者一行50多人来到了浐灞公安局,亲自了解体验警察叔叔工作的一天。说到这里,我猜大家都想知道公安局里是什么样子,公安局都有什么工作内容、审讯犯...
01-21
大家好,我是童学会小记者李峻轩。今天我们来到了九紫宝藏陨石博物馆参观。通过讲解员的生动解说,和仔细观察产品,我知道了陨石分为三大类:石陨石、铁陨石和石铁陨石。其中石陨...
01-21
  阿里资产拍卖网络平台显示,1月11日,安邦集团持有的天津信托1.36%股权流拍。  二拍将于1月22...
01-22
  原标题:1月份信托产品发行规模超300亿,基础产业类及金融类非标信托产品热度提升  财联社2月...
02-11
天秤座的男人通常具有温和、善良、浪漫的性格,他们注重平衡和和谐,追求美好的事物。在婚...
01-22
天蝎座的男生通常被认为是深沉、神秘而又充满魅力的人。他们对待感情非常认真,喜欢掌控...
01-22
穿搭化妆风格? 菲律宾穿搭风格?一、穿搭化妆风格?每个人的气质不同,在穿搭上有很多种风格,所以,妆容方面也是有很多风格的。那么,接下来我们一起来看看妆容有哪些风格吧!感兴趣的朋...
02-07
lv包包和ysl包包哪个? ysl包包真假鉴定?lv包包和ysl包包哪个?看你买那种了,钱包很一般的两折的大概三千多,大点的自然就会贵很多,平时出门背的包我们国内买的最便宜的是五千多,经典...
02-17
这下雷军真成“爽文”男主了。小米集团股价再创新高用网上的话说,50多岁,正值“当打之年”,是努力拼搏的好时候。2025年,56岁的雷军还在继续为梦想奋斗,并迎来了人生的高光时刻。...
02-20
2月19日消息,陶都国控产业投资(邯郸)集团有限公司(以下简称“陶都国控”)运营总监、销售总监陈亮近日到访国联股份新疆数字经济总部。涂多多副总裁、西北大区总经理李庆代表公司...
02-20
2月8日消息,据“市象”公众号消息,蚂蚁集团副总裁、蚂蚁国际首席技术官王晓航(花名:达杭)于近日突然离职。公开资料显示,王晓航毕业于新加坡国立大学,加入蚂蚁集团前,曾担任百度百付...
02-09
2月13日消息,飞猪发布的《2025年元宵节出游快报》显示,元宵“灯会游”热度同比去年增长43%,豫园灯会、自贡国际恐龙灯会、长安灯会·大唐芙蓉园、粤港澳大湾区灯会、秦淮灯会等...
02-14
2024年,全球宏观经济环境复杂多变,国内经济弱复苏背景下,固定收益市场成为投资者的重要选择。债券市场配置需求旺盛,收益率曲线平坦化,投资者对固定收益类基金的关注度显著提升。...
01-21
据中国民用航空局最新发布的统计数据,2024年,中国无人机产业迎来了前所未有的发展高潮。全年累计飞行时长达到了2666万小时,与去年相比,实现了15%的显著增长。这一数据不仅反映...
02-09
最近颇受好评的英雄射击游戏《漫威争锋》确认,将回归其最原始的形式,由漫威官方发布介绍游戏剧情的正版漫画。 《漫威争锋》本身有着完全原创的故事,实际上,在游戏...
01-22
谷歌于上个月与三星和高通合作,推出了安卓扩展显示(AndroidXR)平台。 公司称它是“为下一代计算构建的新操作系统”,并且目前收购了 HTC Vive 的部分工程团队,他们...
01-25
极目新闻通讯员 龚轩 “我的车定速巡航功能失效了,刹车也踩不动,怎么办?”2月1日凌晨5时11分,湖北省公安厅高警总队六支队指挥中心民警石路接到群众报警求助。情况紧急,石路立即...
02-02
据新华社报道,美国总统特朗普2月1日签署行政令,对进口自中国的商品加征10%的关税。美国的这一最新贸易保护措施在国际社会和美国国内遭到广泛反对。 商务部回应美对华加征关税...
02-02
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮