大模型既要“吃得饱”更要“吃得好”

1年前 来源:科技日报 观看:99

前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟得出一幕“贾宝玉倒拔垂杨柳”的奇景,令人啼笑皆非。之所以会出现这种“混搭”和“幻觉”,是因为大模型不仅学习了原著,还“广纳博采”了不少错误信息。tbW即热新闻——关注每天科技社会生活新变化gihot.com

这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。tbW即热新闻——关注每天科技社会生活新变化gihot.com

数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。tbW即热新闻——关注每天科技社会生活新变化gihot.com

提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。tbW即热新闻——关注每天科技社会生活新变化gihot.com

如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。tbW即热新闻——关注每天科技社会生活新变化gihot.com

前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟得出一幕“贾宝玉倒拔垂杨柳”的奇景,令人啼笑皆非。之所以会出现这种“混搭”和“幻觉”,是因为大模型不仅学习了原著,还“广纳博采”了不少错误信息。tbW即热新闻——关注每天科技社会生活新变化gihot.com

这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。tbW即热新闻——关注每天科技社会生活新变化gihot.com

数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。tbW即热新闻——关注每天科技社会生活新变化gihot.com

提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。tbW即热新闻——关注每天科技社会生活新变化gihot.com

如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。tbW即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-856-0.html大模型既要“吃得饱”更要“吃得好”

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:张成伟代表:把低空安全作为初心使命

下一篇:全国人大代表、万事利集团董事长屠红燕:连续三年呼吁AI应用,加快丝绸纺织业变革

为你推荐
一项发表在《科学》杂志上的新研究,为脊髓损伤患者恢复复杂触觉感知带来了前所未有的希望。瑞典查尔姆斯理工大学研究团队首次推出一种可安装在椅子...
01-21
AI教父黄仁勋再次现身中国!1月15日,英伟达创始人兼CEO黄仁勋在深圳接受媒体采访时表示,“我是来和我的员工一起庆祝春节的,这就是我的...
01-21
  中新网西安2月8日电(记者阿琳娜)记者8日从西北大学文化遗产学院获悉,通过对唐高祖李渊侄子、...
02-11
有效衔接传统和新兴市场 突出体现优势产业和产品145个重点境外展会助力辽企“走出去”  电话邮件不如...
02-18
新闻通讯员 金晨 姚子怡随着农历春节日益临近,在新一轮家电以旧换新等利好政策加持下,武汉经开区家电销售又迎来一波小高峰。1月20日,记者在区内多个家电卖场看到,各式各样的家...
01-21
泰国旅游安全信心下降之际,从旅游业内到社媒大众都在推测:三亚旅游将迎“泼天富贵”。 喧嚣背后,近期三亚旅游热度究竟如何?时代周报...
01-21
1 月 22 日消息,汽车媒体 ShortsCar 昨日(1 月 21 日)在 Instagram 上发布动态,抓拍到了现代 IONIQ 6 首批 P1 原型车的照片。这款流线型电动轿车改头换面,前脸重新设计,...
01-23
2 月 2 日消息,星纪魅族集团官方今日发文宣布,截至 2025 年 1 月,Flyme Auto 合作车型总销量超 49.8 万辆。据此前报道,Flyme Auto 2.0 版本车载软件系统将于今年 3 月...
02-02
  1、《掌心》礼宗旭的母亲是被他的父亲毒打虐待的,礼宗旭因小时候目睹母亲的遭遇而留下了童年阴影。  2、曾亲眼看到母亲被家暴的画面,礼宗旭也成了心理变态,叶平安后来...
02-15
最近风靡的电视剧《小锦鲤之我给全家送福气》凭借其演员的颜值、演技以及精彩的剧情吸引了大量观众。这部剧不仅情节吸引人,人物塑造也十分到位,还有许多精彩...
02-19
21世纪经济报道记者武瑛港 实习生房思宇 北京报道北京的铜锅涮、炙子烤肉、北京烤鸭,上海的八宝鸭、素蟹粉、糖醋小排,广东的脆皮烧鹅、文昌...
02-01
  11月8日,备受关注的《学前教育法》正式通过,并将于明年6月1日开始实施。这是我国首次针对3到6岁孩子...
01-21
讣 告 中国共产党党员、中国科学院院士、北京航空航天大学航空科学与工程学...
01-23
  乌鲁木齐银行第三大股东深圳君豪集团有限公司所持有的4000万股股权即将于1月18日进行司法拍...
01-22
  中国经济网北京2月6日讯 国家金融监督管理总局网站近日发布的国家金融监督管理总局重庆监管...
02-07
狮子座男孩通常自信、勇敢,喜欢成为众人焦点。然而,有时候我们可能想开个玩笑或者捉弄一...
01-22
射手座的男生天性热情开朗,喜欢自由自在地生活。他们追求刺激和冒险,对于感情也是如此。...
01-22
引领潮流:2023年热门时尚服饰与包包选择潮流的魅力时尚,总是充满变幻与惊喜。每一年、每一个季节,都见证着不同的潮流风向。在2023年的时尚舞台上,服饰和包包更是不可忽视的主角...
02-12
ysl官网怎么退? valentino法国官网?ysl官网怎么退?ysl官网你可以申请退款,然后联系下客服,就说想要退,他们会给你一个地址,然后你寄过去就可以了,他们会把钱通过原路返给你的。其实...
02-17
2月7日消息,震坤行宣布旗下AI产品:AI物料管家已接入DeepSeek V3模型,用户可以在处理海量物料数据清单时自主选择使用,至此将为企业在物料梳理相关工作环节带来更多改善。图源:震...
02-08
抖音电商势不可挡。据36氪消息,2024年,抖音电商的商品交易总额(GMV)约为3.5万亿元,同比增幅达30%,2025年目标为4.2万亿元。截至发稿,此数据尚未获得抖音电商相关负责人回应。另据了...
02-15
2月5日消息,8天假期叠加“请2休11”的拼假策略,带来了春节假期更多元的出游模式。途牛《2025春节出游消费盘点》(以下简称“报告”)数据显示,更多途牛用户选择了5至6天或3至4天的...
02-07
图源:图虫创意 不断下行的猪价终于在2024年出现回升,A股生...
02-21
2025新年伊始,武汉便迎来了一场星光熠熠的盛大发布仪式。潮宏基一城一非遗的武汉站,携手汉绣非遗传承人王子怡,重构花丝与汉绣新生表达,通过新的博物馆概念空间,展陈出了非遗碰撞...
01-22
近日,华力创科学宣布完成数千万元A+轮融资,本轮融资由金属3D打印领域头部上市公司铂力特独家投资。据披露,本轮融资所募集的资金将专注于深挖高性能光学多模态感知技术,结合金属...
01-24
英伟达最新推出的RTX 50系列显卡,特别是RTX 5090,在全球范围内都是一卡难求,在中国台湾RTX 5090显卡同样也是供不应求。 据媒体报道,在这种供不应求的情况下,黄牛...
02-06
AMD CEO苏姿丰在公司2024年第四季度财报电话会议上宣布,RX 9070系列“RDNA 4”GPU将于三月初发售。 在最近的2024年第四季度财报电话会议上,苏妈终于让所有谣言...
02-07
央视网消息:商务部数据显示,2024年,中国服务贸易实现快速增长,全年服务进出口总额首次突破1万亿美元,规模创下历史新高,结构持续优化,展现出广阔的发展潜力。2024年,中国全年服务进...
02-04
△以色列外交部长萨尔(资料图)以色列外交部长萨尔5日说,以色列将不参加联合国人权理事会。萨尔当天在社交媒体上说,以色列欢迎美国总统特朗普关于美国退出联合国人权理事会的决...
02-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮