大模型既要“吃得饱”更要“吃得好”

9个月前 来源:科技日报 观看:83

前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟得出一幕“贾宝玉倒拔垂杨柳”的奇景,令人啼笑皆非。之所以会出现这种“混搭”和“幻觉”,是因为大模型不仅学习了原著,还“广纳博采”了不少错误信息。0TU即热新闻——关注每天科技社会生活新变化gihot.com

这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。0TU即热新闻——关注每天科技社会生活新变化gihot.com

数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。0TU即热新闻——关注每天科技社会生活新变化gihot.com

提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。0TU即热新闻——关注每天科技社会生活新变化gihot.com

如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。0TU即热新闻——关注每天科技社会生活新变化gihot.com

前段时间,网络上流传着一些由大模型生成的“异次元篇章”。比如,有人让大模型续写《红楼梦》情节时,竟得出一幕“贾宝玉倒拔垂杨柳”的奇景,令人啼笑皆非。之所以会出现这种“混搭”和“幻觉”,是因为大模型不仅学习了原著,还“广纳博采”了不少错误信息。0TU即热新闻——关注每天科技社会生活新变化gihot.com

这些人工智能(AI)生成的“胡言乱语”虽是网友们茶余饭后的笑谈,但提醒我们要清醒认识到其背后折射出的问题:数据质量是大模型应用成败的关键。以个性化推荐AI系统为例,一些企业在开发过程中,虽然收集了大量的用户行为数据,但数据中充斥着错误的标注、重复的数据以及相互矛盾的信息,数据的量增加了,但系统推荐的准确性并没有显著提升。《自然》杂志(Nature)刊登的一篇有关大模型可靠性研究的文章指出,一个西班牙研究团队发现,包括OpenAI公司的GPT在内的几个大模型升级后,虽然参数量更大了,误答情况却更严重了。因此,大模型长得壮不壮,不仅取决于“食量”(即数据的数量),更在于食物的“质量”(即数据的质量)——吃得饱并不等同于吃得好。0TU即热新闻——关注每天科技社会生活新变化gihot.com

数据是大模型的基石,在数据质量不高、可靠性缺失的情况下,一味追求大模型参数量的增加,不仅无法提升模型性能,反而会放大偏差和谬误,产生更多不可信数据。如此一来,势必造成计算与存储资源的浪费,增加开发和维护成本,降低用户信任度。更为严重的是,这种“大模型幻觉”和“灾难性遗忘”现象如果发生在精确性要求极高的工业生产领域中,还可能引发不可预测的风险和隐患。以油气勘探为例,基于大模型给出的错误预测进行开采可能导致数亿元的资金损失,并对自然环境造成不可逆转的破坏。0TU即热新闻——关注每天科技社会生活新变化gihot.com

提升大模型性能,关键是处理好数据“质”和“量”的关系,构建大规模、高质量的数据集。应建立完善的数据收集、清洗、验证和存储机制,加强对数据质量的监控和评估,确保数据的准确性、完整性和一致性。此外,还应注重跨领域合作,引入数据科学家、AI算法工程师等多方力量,开展大模型算法合作、制定数据共享和隐私安全保密协议,推动大模型产学研用生态建设。0TU即热新闻——关注每天科技社会生活新变化gihot.com

如今,大模型的发展已迈入多模态融合阶段。通过加强数据治理,优化人工智能学习、训练和验证的“基础食材”,端上大规模、高质量、多模态数据集的“丰盛大餐”,必将助力大模型能力的提升,让人工智能更好地赋能千行百业、造福人类社会。0TU即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-2-856-0.html大模型既要“吃得饱”更要“吃得好”

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:张成伟代表:把低空安全作为初心使命

下一篇:全国人大代表、万事利集团董事长屠红燕:连续三年呼吁AI应用,加快丝绸纺织业变革

为你推荐
做企业,实际上是做文化。当员工在面对市场苦寻出路,或在诱惑面前左右摇摆之时,文化将成为指引他们找寻正路、穿越周期的明灯。刚刚过...
01-21
据发表于1月13日《自然·通讯》杂志的一项研究,西班牙国家癌症研究中心领衔的团队发现一种由线粒体蛋白控制的脂肪消耗机制。该机制有助于科...
01-24
  受到近期寒潮天气影响,渤海辽东湾海域的海冰发展迅速,目前辽东湾超过四分之一的海面被海冰覆盖。...
02-07
  近日,《辽宁省加大存量商品房收购力度 进一步提升住房保障能力的若干措施》(以下简称《若干措施》)正...
02-07
  每年这个时候,车厘子大量上市,酸甜多汁的口感引得人不免多吃几颗。不过,有网友发文称“自己‘狂炫’三大碗车厘子后中毒了”,这样的说法也引发热议,有网友留言说自己也有...
01-22
  中新经纬1月20日电 国家发改委网站20日消息,国家发展改革委、国家数据局近日发布《关于建立公共数据资源授权运营价格形成机制的通知》(下称通知)。  通知明确定价范围...
01-21
2 月 2 日消息,继昨日多位博主分享了蔚来 5 年 0 息购车优惠海报后,蔚来官方公布了限时金融优惠更多细节:用户 2025 年 2 月 1 日至 2 月 28 日期间支付定金购买蔚来,可...
02-02
2 月 1 日消息,特斯拉在海外发布视频,主要展示该公司的自动机械臂整备其 Cybercab无人驾驶出租车。参考视频,相应机械臂能够将车内遗留的物品、喝剩一半的水瓶、未归位...
02-02
  1、《难哄》桑延和《偷偷藏不住》的桑延本质上是同一个人,但是剧里面是由不同的演员饰演的。  2、桑延在《偷偷藏不住》剧中由马伯骞饰演,在《难哄》里是白敬亭饰演的...
02-17
  1、《树下有片红房子》祁琪有感情线,祁栖暗恋宋丛,最后跟宋丛走到了一起。  2、祁栖是陈欢尔的同桌好友,景栖迟前期也喜欢过她,四个主角之间有着错综复杂的暗恋关系。 ...
02-18
  记者从国家医保局了解到,12月1日,全国医保正式上线慢性阻塞性肺疾病、类风湿关节炎、冠心病、病毒性肝炎、强直性脊柱炎等5种门...
01-21
21世纪经济报道记者 韩利明 上海报道随着四大跨国疫苗企业辉瑞、葛兰素史克(GSK)、默沙东、赛诺菲陆续发布2024年业绩,21世纪经济报道记者依...
02-11
在清华大学的倾情帮扶下,青海大学于2007年5月成立了计算机技术与应用系(现为...
01-21
1月17日下午2点,东北大学2024创业项目座谈交流会暨第十九批(2025年)创业类项目实施培训会在东北大学南湖校...
01-21
  原标题:又见共管保险箱被撬!浙金信托一产品爆雷后被监管认定存在四大问题  来源:界面新闻 ...
01-28
  2月10日,集运指数(欧线)期货主力合约2504收涨14.22%。期货日报记者注意到,集运指数(欧线)期货主力...
02-11
天秤座的男人通常具有温和、善良、浪漫的性格,他们注重平衡和和谐,追求美好的事物。在婚...
01-22
天蝎男是一个充满神秘和矛盾的星座,他们在婚后对待妻子的态度也有着独特的方式。有人说...
01-22
追寻时尚:2018年夏季潮流服饰全景探秘炎炎夏日来临,作为时尚引领者的你是否已经准备好迎接这个季节的潮流服饰了呢?2018年的夏季潮流服饰,以其独特的设计、清新的色彩和个性化的...
02-12
如何成功创立属于自己的鞋子品牌:从灵感到实现的全方位指南想要创业,相信很多人心中都会闪现出一个个创意,而创立属于自己的鞋子品牌无疑是一个令人兴奋且富有挑战的目标。那么...
02-12
阿里巴巴港股成交额突破440亿港元,创历史天量,盘中股价涨超15%。消息面上,阿里巴巴昨日发布2025财年第三财季业绩公告。财报显示,阿里巴巴第三财季收入2801.54亿元,同比增长8%;经...
02-22
这份作业抄的不错。1、美团上线美食社区产品美团这次又悄悄地搞了一波大的。据悉,1月21日,美团在苹果应用商店App Store上线了一款名为“鸭觅”的美食社区产品,其slogan是“一...
02-07
2月7日消息,Airbnb爱彼迎今日发布Z世代出境游趋势。根据Airbnb爱彼迎全球数据显示,1月份的平台住宿搜索量成为继暑期旅游旺季以外的热度高峰期。聚焦Z世代旅行者,他们是推动春...
02-08
全球性金融券商集团英国EBC Group平台始终致力于以领先生态,与全球交易者共塑交易的未来。 自第一届交易大赛起,为赤忱的热爱和卓越的才华提供舞台,在全球内寻找交易好手以赋能...
01-24
近日,华力创科学宣布完成数千万元A+轮融资,本轮融资由金属3D打印领域头部上市公司铂力特独家投资。据披露,本轮融资所募集的资金将专注于深挖高性能光学多模态感知技术,结合金属...
01-24
根据外媒的一份新报告,法国外设厂商NACON称他们预计公司2025/2026财年上半年的销量将大幅增长,作为增长的其中一个原因,他们认为任天堂Switch 2将在此期间发布,即2...
01-22
《华纳大乱斗》的游戏总监对上周五宣布的该免费格斗游戏第五季将成为最终季一事,发表了看法。 上周五,开发商Player First Games证实,第五季将于5月30日结束,距离...
02-04
中央气象台今早6点继续发布大风黄色预警和寒潮蓝色预警。大风黄色预警:预计今天8点到明天8点,华北、内蒙古中部、宁夏、陕西北部、黄淮等地的部分地区有5~6级、阵风7~8级的偏...
02-06
据东方财经报道,2月6日,大S离世后,张兰首度出镜在抖音直播带货,直播间人气达到10W+,一个多小时后突然遭到封禁。张兰直播时的截图(图源:个人账号)直播时,张兰表示,自己过去三天经历了...
02-06
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮