“喂”给人工智能的真实数据终将耗尽,合成数据能否让AI模型精确可靠?

9个月前 来源:中国科技网 观看:317

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。aHB即热新闻——关注每天科技社会生活新变化gihot.com

澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据具有诸多优势,但过度依赖合成数据也可能削弱AI的精确性和可靠性。aHB即热新闻——关注每天科技社会生活新变化gihot.com

合成数据应运而生aHB即热新闻——关注每天科技社会生活新变化gihot.com

以往,科技公司主要依赖真实数据来构建、训练和改进AI模型。真实数据是指由人类创建的文本、视频和图像。它们通过调查、实验、观察或挖掘网站和社交媒体等途径被收集而来。aHB即热新闻——关注每天科技社会生活新变化gihot.com

真实数据因蕴含真实事件以及其场景和背景而极具价值,但其并非尽善尽美。它可能掺杂拼写错误、不一致或无关的内容,甚至潜藏严重偏见,导致生成式AI模型在某些情况下创建的图像仅展示男性或白人形象。aHB即热新闻——关注每天科技社会生活新变化gihot.com

但真实数据日益匮乏,因为人类生成数据的速度赶不上AI不断增长的需求。aHB即热新闻——关注每天科技社会生活新变化gihot.com

美国开放人工智能研究中心联合创始人伊利亚·苏茨克维尔在去年12月举行的机器学习会议上声称,AI行业已触及他所称的“数据峰值”,AI的训练数据如同化石燃料一样面临着耗尽的危机。此外,有研究预测,到2026年,ChatGPT等大型语言模型的训练将耗尽互联网上所有可用文本数据,届时将没有新的真实数据可供使用。aHB即热新闻——关注每天科技社会生活新变化gihot.com

为给AI提供充足的“养分”,一种由算法生成的、模仿真实世界情况的数据——合成数据应运而生。合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。它可以作为真实世界数据的替代品,来训练、测试、验证AI模型。aHB即热新闻——关注每天科技社会生活新变化gihot.com

从理论上来说,合成数据为训练AI模型提供了一种经济高效且快捷的解决方案。它有效解决了AI训练使用真实数据时饱受诟病的隐私问题和道德问题,尤其是涉及个人健康数据等敏感信息时。更重要的是,与真实数据不同,合成数据在理论上可以无限供应。aHB即热新闻——关注每天科技社会生活新变化gihot.com

研究机构高德纳公司估计,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。aHB即热新闻——关注每天科技社会生活新变化gihot.com

科技公司来者不拒aHB即热新闻——关注每天科技社会生活新变化gihot.com

事实上,微软、元宇宙平台公司,以及Anthropic等众多科技头部企业和初创企业,已经开始广泛使用合成数据来训练其AI模型。aHB即热新闻——关注每天科技社会生活新变化gihot.com

例如,微软在1月8日开源的AI模型“Phi-4”,便是合成数据携手真实数据训练的;谷歌的“Gemma”模型也采用了类似方法。Anthropic公司也利用部分合成数据,开发出其性能最优异的AI系统之一“Claude 3.5 Sonnet”。苹果自研AI系统Apple Intelligence,在预训练阶段,也大量使用了合成数据。aHB即热新闻——关注每天科技社会生活新变化gihot.com

随着科技公司对合成数据的需求与日俱增,生产合成数据的工具也接踵而至。aHB即热新闻——关注每天科技社会生活新变化gihot.com

英伟达公司发布的3D仿真数据生成引擎Omniverse Replicator,能够生成合成数据,用于自动驾驶汽车和机器人训练。去年6月,英伟达开源了Nemotron-4340b系列模型,开发者可使用该模型生成合成数据,用于训练大型语言模型,以应用于医疗保健、金融、制造、零售等行业。在医疗、金融等专业领域,该模型能够根据特定需求生成高质量的合成数据,帮助构建更为精准的行业专属模型。微软推出的开源合成数据工具Synthetic Data Showcase则旨在通过生成合成数据和用户界面,实现隐私保护的数据共享和分析。亚马逊云科技推出的Amazon SageMaker Ground Truth也能为用户生成数十万张自动标记的合成图像。aHB即热新闻——关注每天科技社会生活新变化gihot.com

此外,去年12月,元宇宙平台公司推出开源大模型Llama 3.3,更是大幅降低了生成合成数据的成本。aHB即热新闻——关注每天科技社会生活新变化gihot.com

过度依赖风险难测aHB即热新闻——关注每天科技社会生活新变化gihot.com

尽管合成数据暂时解决了AI训练的燃眉之急,但它也并非尽善尽美。aHB即热新闻——关注每天科技社会生活新变化gihot.com

一个关键问题在于:当AI模型过于依赖合成数据时,它们可能会“崩溃”。它们会产生更多“幻觉”,编造看似合理可信但实际上并不存在的信息。而且,AI模型的质量和性能也会飞速下降,甚至无法使用。例如,某个AI模型生成的数据出现了一些拼写错误,利用这些充满了错误的数据训练其他模型,这些AI模型必定会“以讹传讹”,导致更大的错误。aHB即热新闻——关注每天科技社会生活新变化gihot.com

此外,合成数据也存在过于简单化的风险。它可能缺乏真实数据集蕴含的细节和多样性,这可能导致在其上训练的AI模型的输出也过于简单,缺乏实用性。aHB即热新闻——关注每天科技社会生活新变化gihot.com

为解决这些问题,国际标准化组织需要着手创建强大的系统,来跟踪和验证AI训练数据。此外,AI系统可以配备元数据追踪功能,让用户或系统能对合成数据进行溯源。人类也需要在AI模型的整个训练过程中对合成数据进行监督,以确保其高质量且符合道德标准。aHB即热新闻——关注每天科技社会生活新变化gihot.com

AI的未来在很大程度上取决于数据的质量,合成数据将在克服数据短缺方面发挥越来越重要的作用。对合成数据的使用,人们必须保持谨慎态度,尽量减少错误,确保其作为真实数据的可靠补充,从而保障AI系统的准确性和可信度。aHB即热新闻——关注每天科技社会生活新变化gihot.com

人工智能(AI)初创公司xAI创始人埃隆·马斯克近日表示:“在AI训练中,我们现在基本上耗尽了人类知识的累积总和。”之前研究也表明,人类生成的真实数据将在2到8年内消耗殆尽。鉴于真实数据日益稀缺,为满足AI的“胃口”,科技行业正转向使用合成数据。aHB即热新闻——关注每天科技社会生活新变化gihot.com

澳大利亚“对话”网站在本月稍早时间报道中指出,合成数据具有诸多优势,但过度依赖合成数据也可能削弱AI的精确性和可靠性。aHB即热新闻——关注每天科技社会生活新变化gihot.com

合成数据应运而生aHB即热新闻——关注每天科技社会生活新变化gihot.com

以往,科技公司主要依赖真实数据来构建、训练和改进AI模型。真实数据是指由人类创建的文本、视频和图像。它们通过调查、实验、观察或挖掘网站和社交媒体等途径被收集而来。aHB即热新闻——关注每天科技社会生活新变化gihot.com

真实数据因蕴含真实事件以及其场景和背景而极具价值,但其并非尽善尽美。它可能掺杂拼写错误、不一致或无关的内容,甚至潜藏严重偏见,导致生成式AI模型在某些情况下创建的图像仅展示男性或白人形象。aHB即热新闻——关注每天科技社会生活新变化gihot.com

但真实数据日益匮乏,因为人类生成数据的速度赶不上AI不断增长的需求。aHB即热新闻——关注每天科技社会生活新变化gihot.com

美国开放人工智能研究中心联合创始人伊利亚·苏茨克维尔在去年12月举行的机器学习会议上声称,AI行业已触及他所称的“数据峰值”,AI的训练数据如同化石燃料一样面临着耗尽的危机。此外,有研究预测,到2026年,ChatGPT等大型语言模型的训练将耗尽互联网上所有可用文本数据,届时将没有新的真实数据可供使用。aHB即热新闻——关注每天科技社会生活新变化gihot.com

为给AI提供充足的“养分”,一种由算法生成的、模仿真实世界情况的数据——合成数据应运而生。合成数据是在数字世界中创造的,而非从现实世界收集或测量而来。它可以作为真实世界数据的替代品,来训练、测试、验证AI模型。aHB即热新闻——关注每天科技社会生活新变化gihot.com

从理论上来说,合成数据为训练AI模型提供了一种经济高效且快捷的解决方案。它有效解决了AI训练使用真实数据时饱受诟病的隐私问题和道德问题,尤其是涉及个人健康数据等敏感信息时。更重要的是,与真实数据不同,合成数据在理论上可以无限供应。aHB即热新闻——关注每天科技社会生活新变化gihot.com

研究机构高德纳公司估计,2024年AI及分析项目使用的数据中,约60%是合成数据。到2030年,AI模型使用的绝大部分数据将是由AI生成的合成数据。aHB即热新闻——关注每天科技社会生活新变化gihot.com

科技公司来者不拒aHB即热新闻——关注每天科技社会生活新变化gihot.com

事实上,微软、元宇宙平台公司,以及Anthropic等众多科技头部企业和初创企业,已经开始广泛使用合成数据来训练其AI模型。aHB即热新闻——关注每天科技社会生活新变化gihot.com

例如,微软在1月8日开源的AI模型“Phi-4”,便是合成数据携手真实数据训练的;谷歌的“Gemma”模型也采用了类似方法。Anthropic公司也利用部分合成数据,开发出其性能最优异的AI系统之一“Claude 3.5 Sonnet”。苹果自研AI系统Apple Intelligence,在预训练阶段,也大量使用了合成数据。aHB即热新闻——关注每天科技社会生活新变化gihot.com

随着科技公司对合成数据的需求与日俱增,生产合成数据的工具也接踵而至。aHB即热新闻——关注每天科技社会生活新变化gihot.com

英伟达公司发布的3D仿真数据生成引擎Omniverse Replicator,能够生成合成数据,用于自动驾驶汽车和机器人训练。去年6月,英伟达开源了Nemotron-4340b系列模型,开发者可使用该模型生成合成数据,用于训练大型语言模型,以应用于医疗保健、金融、制造、零售等行业。在医疗、金融等专业领域,该模型能够根据特定需求生成高质量的合成数据,帮助构建更为精准的行业专属模型。微软推出的开源合成数据工具Synthetic Data Showcase则旨在通过生成合成数据和用户界面,实现隐私保护的数据共享和分析。亚马逊云科技推出的Amazon SageMaker Ground Truth也能为用户生成数十万张自动标记的合成图像。aHB即热新闻——关注每天科技社会生活新变化gihot.com

此外,去年12月,元宇宙平台公司推出开源大模型Llama 3.3,更是大幅降低了生成合成数据的成本。aHB即热新闻——关注每天科技社会生活新变化gihot.com

过度依赖风险难测aHB即热新闻——关注每天科技社会生活新变化gihot.com

尽管合成数据暂时解决了AI训练的燃眉之急,但它也并非尽善尽美。aHB即热新闻——关注每天科技社会生活新变化gihot.com

一个关键问题在于:当AI模型过于依赖合成数据时,它们可能会“崩溃”。它们会产生更多“幻觉”,编造看似合理可信但实际上并不存在的信息。而且,AI模型的质量和性能也会飞速下降,甚至无法使用。例如,某个AI模型生成的数据出现了一些拼写错误,利用这些充满了错误的数据训练其他模型,这些AI模型必定会“以讹传讹”,导致更大的错误。aHB即热新闻——关注每天科技社会生活新变化gihot.com

此外,合成数据也存在过于简单化的风险。它可能缺乏真实数据集蕴含的细节和多样性,这可能导致在其上训练的AI模型的输出也过于简单,缺乏实用性。aHB即热新闻——关注每天科技社会生活新变化gihot.com

为解决这些问题,国际标准化组织需要着手创建强大的系统,来跟踪和验证AI训练数据。此外,AI系统可以配备元数据追踪功能,让用户或系统能对合成数据进行溯源。人类也需要在AI模型的整个训练过程中对合成数据进行监督,以确保其高质量且符合道德标准。aHB即热新闻——关注每天科技社会生活新变化gihot.com

AI的未来在很大程度上取决于数据的质量,合成数据将在克服数据短缺方面发挥越来越重要的作用。对合成数据的使用,人们必须保持谨慎态度,尽量减少错误,确保其作为真实数据的可靠补充,从而保障AI系统的准确性和可信度。aHB即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-217-0.html“喂”给人工智能的真实数据终将耗尽,合成数据能否让AI模型精确可靠?

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:仿昆虫微型机器人飞行长达15分钟

下一篇:新型光学原子钟比铯钟精度高千倍

为你推荐
1月14日,记者从中国科学院合肥物质科学研究院等离子体物理研究所(以下简称“等离子体所”)获悉,由该所建设运行的国家重大科技基础设施“聚变堆主机关...
01-21
在冰上飞驰,在雪上起舞……近几年,冰雪运动、冰雪旅游不断升温,冰天雪地的“冷资源”摇身一变成为“热产业”。《中国冰雪旅游发展报告(20...
01-23
  据省交通运输厅预测,今年春节期间,省内自驾车出行量将创历史新高,国网辽宁电动汽车公司预测春节期间将...
01-22
  本报记者赵珊《人民日报海外版》(2025年01月17日第12版)  新春佳节临近,海南省海口市博爱路...
01-21
  眼下流感等呼吸道传染病正处于季节性流行期。如何正确服用抗流感药物奥司他韦、玛巴洛沙韦?  北京佑安医院感染综合科主任医师 李侗曾:从疗效上来说,其实是一样的。新...
01-21
  中新经纬1月17日电 “宁波市中级人民法院”微信号17日消息,2025年1月17日,浙江省宁波市中级人民法院一审开庭审理了自然资源部原党组成员、中国地质调查局原党组书记、局...
01-21
1 月 24 日消息,中国执行信息公开网显示,哪吒汽车关联公司合众新能源汽车股份有限公司 1 月 23 日新增一则被执行人信息,执行标的 5717 万余元,执行法院为临邑县人民法...
01-24
2 月 6 日消息,据 Thelec 报道,LG 新能源(LG Energy Solution)将为特斯拉新款 Model Y 供应 2170 电池。报道称,新电池的电芯容量为 5300 毫安时,相较于此前的 5000 毫安...
02-06
最近几天,《漫城》这部备受期待的新剧终于开播,热度居高不下,在各大社交平台上频繁登上热搜。剧中讲述了禾蕊与白筱朵在繁华且充满竞争的城市中的友情故事,以及...
02-20
《逃命游戏:无限重启》播出后,许多观众对剧情发展和角色命运产生了浓厚兴趣。该剧由夏婧苒和宋旭主演,于每天上午10点更新,属于复仇题材,在汪汪剧场播出。故事讲...
02-21
21世纪经济报道记者林昀肖 实习生苏洋 北京报道春节假期已临近结束,而假期复工后往往会感觉容易疲倦、难以集中精神、心神不定、失眠、胃口...
02-04
  即将告别春节假期,你有没有不想上班、不想上学、不想起床?从“假期模式”切换到“工作模式”还不太适应?如何调整?指南请收好↓↓↓  01  什么是“节后综合征”? ...
02-07
  大众网记者 杨涛报道  12月10日,山东港口第二届青年志愿服务项目大赛决赛在潍坊市渤海湾航运举行,青岛港湾职业技术学院“德传巷陌 艺润万家”文化惠民志愿服务项目...
01-21
近日,教育部教育考试院发布《关于开展2024年下半年中小学教师资格考试(面试)报名工作的通知》。2024年下半...
01-21
  中国网财经1月15日讯 持牌消金进入纵深发展阶段后,在重塑业务模式的过程中,消费金融公司们既...
01-22
  中国证监会1月22日消息,近日,中央金融办等六部门联合印发的《关于推动中长期资金入市工作的实...
01-24
水瓶座的男生是一个非常独立和自由的人,他们对于爱情有着独特的看法和追求。他们喜欢与...
01-22
天蝎男是一个神秘而深沉的星座,他们对爱情有着极高的要求和期待。在选择伴侣时,天蝎男会...
01-22
穿貂怎么搭配围巾图片欣赏?一、穿貂怎么搭配围巾图片欣赏?个人觉得貂皮本身就有厚重感,搭配围巾不是很适合,可以搭配轻质的丝巾。搭配如果艳丽一点可以选择正红色;肤色白的话可以...
02-17
lv包包和ysl包包哪个? ysl包包真假鉴定?lv包包和ysl包包哪个?看你买那种了,钱包很一般的两折的大概三千多,大点的自然就会贵很多,平时出门背的包我们国内买的最便宜的是五千多,经典...
02-17
网约车市场正在悄然发生变化,如同暴风雨来临前的宁静,让人恐惧。1、抖音上线打车服务抖音不仅能刷短视频,现在还能直接打车了。据Tech星球独家消息,抖音在近日上线了打车服务,入...
02-07
1月24日消息,国联股份冷链多多数字云仓(寮步仓)开仓仪式近日在东莞市寮步镇举办,标志着冷链多多禽蛋产业链仓网布局在华南地区再落一子。涂多多高级副总裁、物流部总监安珅,冷链...
02-07
2025年开年,消费品以旧换新政策扩围至手机、平板、智能手表手环等数码类别,为消费电子市场注入了新活力。1月8日,国家发展改革委、财...
02-07
2月7日消息,Airbnb爱彼迎今日发布Z世代出境游趋势。根据Airbnb爱彼迎全球数据显示,1月份的平台住宿搜索量成为继暑期旅游旺季以外的热度高峰期。聚焦Z世代旅行者,他们是推动春...
02-08
全球性金融券商集团英国EBC Group平台始终致力于以领先生态,与全球交易者共塑交易的未来。 自第一届交易大赛起,为赤忱的热爱和卓越的才华提供舞台,在全球内寻找交易好手以赋能...
01-24
随着农历新年脚步的临近,全国各地的美容美发行业迎来了一年中最繁忙的时节,一股强劲的“美丽经济”热潮正在席卷全国。民众纷纷把握这一辞旧迎新的契机,通过精心打扮自己,以崭新...
02-09
索尼宣布,是时候和去年为庆祝PlayStation成立30周年而推出的PS5主题说再见了。不过好消息是,鉴于玩家们的 “热烈反响”,索尼计划让这些主题回归。 去年12月,索尼...
02-03
《漫威蜘蛛侠2》Steam版现已推出第二个热修复补丁。 此热修复补丁——在《漫威蜘蛛侠2》于Valve平台收获“褒贬不一”评价之际发布——包含“多项崩溃修复与改...
02-04
据央视新闻报道,当地时间2月1日,美国联邦选举委员会年底的备案文件显示,埃隆·马斯克在2024年美国大选中的花费超过了2.9亿美元。马斯克 资料图(来源:环球网)文件表明,马斯克在年末...
02-02
极目新闻通讯员 李璐“太感谢你们了!这么短的时间,就帮我找回了背包,为我解决了大麻烦!”1月31日上午,张先生来到湖北枣阳市公安局北城派出所领回自己失而复得的背包,紧紧握住民警...
02-02
SQL Error: select * from ***_ecms_news1 where id in(,47,157,114,233,136,219,214) limit 8
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮