AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

7小时前 来源: 观看:5

21世纪经济报道记者 闫硕 北京报道tiJ即热新闻——关注每天科技社会生活新变化gihot.com

近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性,引发业内广泛讨论。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景和行为维度。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供有力支持,相关企业有望迎来新的发展机遇。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性,尤其是对于医药行业的AI应用来说,已显现三大趋势:模型即产品、本地与端侧部署、研发端AI应用的快速拓展。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

新的评估测试集

改善人类健康将成为通用人工智能(AGI)的决定性影响之一。如果能够得到有效开发和部署,大语言模型有望拓展健康信息的获取渠道,支持临床医生提供高质量医疗服务,并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

OpenAI认为,现有评估仍然存在一些问题,首先,未反映真实场景,脱离了实际医疗互动的复杂性,如仅采用标准化测试或有限临床问题。其次,缺乏专家医学验证,评分标准未经过医疗专家严格审核,难以体现专业医疗判断。此外,也并未预留改进空间,最先进模型已接近“天花板”得分,无法激励持续优化。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

也因此,在过去的一年里,OpenAI与60个国家的262名医生合作构建了HealthBench,包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中,7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面,5个评估纬度则包含准确性、沟通质量、情境理解等方面。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

在HealthBench的基础上,OpenAI还推出了两个特别版本:HealthBench Consensus(共识版)和HealthBench Hard(困难版)。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度;后者则设置了更高难度的评估场景,目前最高得分仅为o3模型的32%,主要被用于挑战模型在复杂医疗情境中的极限表现。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

对于HealthBench的可信度,OpenAI开展了HealthBench Consensus(共识版)的元评估,即将模型的打分结果与医生人工打分进行对比。结果表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

有券商分析师向21世纪经济报道记者表示,在医疗等垂直领域,准确性和实际场景的相关性比“流畅对话”更为关键,HealthBench不同于过去大多关注通用大语言模型表现的基准,而是聚焦医疗垂直领域,为医疗领域的AI应用提供更为专业的评估工具,同时也将推动大模型领域建立专业的AI评估标准。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

值得一提的是,在HealthBench的测评中可以发现,大模型在医疗领域的应用正迅速发展。比如,2023年推出的GPT-3.5Turbo得分为16%,而2024年5月推出的GPT-4o得分已达到32%,2024年12月推出的o3模型得分更是达到60%。另外,较小规模的模型尤其进步显著,GPT-4.1 nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来:引领潮流》报告,人工智能是医疗保健的主要变革力量,预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

其中,AI在医疗服务中的应用前景广阔。中信建投证券分析指出,AI可以扩展医疗服务可及性,可应用于诊断前、诊治及诊断后阶段,解决当前医院系统医疗人员短缺和缺乏有效分流等问题,以少量资源实现高效率。此外,AI辅助医生诊疗未来有望降低误诊率的同时,在部分疑难杂症诊疗方面也有望发挥协同作用。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

也因此,不仅评估工具在发生变革,大模型本身也在持续优化。当前,AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变,已进入到多模态融合阶段。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

浙商证券分析指出,大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,大模型通过“预训练+微调”架构,用统一参数体系处理多模态医疗数据。在临床应用中,借助多模态技术,AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

需要指出的是,由于万亿级参数模型高昂的训练成本与当下较低的投资回报比,叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈,大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛,转向模型效率优化与单位算力下的性能提升。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

在应用方面,Barrett Li向记者总结道,随着大模型的不断进化,目前对于医药行业的AI应用来说,几大趋势已经显现:tiJ即热新闻——关注每天科技社会生活新变化gihot.com

首先,模型即产品。相比通用大模型在其他行业中相对较低的应用门槛,医药行业高度专业性的场景,对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广,大模型厂商未来预计会逐步关闭对外的API接口,转而将专业化后的模型本身作为产品直接提供给企业用户使用,颠覆现有的套壳应用层。而现有的专业AI软件,也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来,将会有更多直接针对医药行业训练的模型被广泛应用。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

其次,本地与端侧部署。针对特定场景而训练优化的专业模型,可以在满足性能要求的前提下,减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下,专业中小模型的本地部署会提供极大的赋能。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

“此外,研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素,相比通用大模型在商业化阶段的快速发展,医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。tiJ即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-7-17974-0.htmlAI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:CXO企业一季报:5家营收破10亿元,8家亏损,国际化与创新赛道或成破局关键

下一篇:交易超10亿美金,石药这款首仿药何以抢滩全球市场?

为你推荐
21世纪经济报道记者 李佳英 广州报道近期,宁夏纪委监委反腐专题片《为了人民的利益》、贵州纪委监委专题片《纵深推进——贵州正风肃纪反腐...
01-21
  2025年1月1日,新版国家医保目录将正式实施。此次共新增91种药品,其中89种以谈判/竞价方式纳入,另有2种国家集采中选药品直接纳入,...
01-21
  大众网记者 秦瑾 通讯员 朱睿斌 报道  近日,济南市教育局公布了2024年度市校融合发展战略工程支持项目名单,齐鲁师范学院科学教育和基础学科创新后备人才培养市校共...
01-21
东北大学深入学习贯彻习近平总书记关于教育的重要论述和给东北大学全体师生重要回信精神,落实立德树人根...
01-23
  乌鲁木齐银行再次因股权拍卖引发市场关注。2025年1月19日,该行第三大股东深圳君豪集团有限公...
01-22
  近日,多家消费金融公司围绕春节购物、出行、旅游等消费需求,打造多样化服务和优惠举措,推出满...
01-24
天蝎座的男生通常被认为是深情而又神秘的存在。他们对感情非常认真,一旦决定与某人交往...
01-22
水瓶座的男生通常被认为是理性、独立和冷漠的代表,但当他们真正爱上一个人时,他们会展现...
01-22
T恤穿搭技巧? 男士t恤衫穿搭技巧?一、T恤穿搭技巧?01 T恤+吊带裙简约T恤与长款吊带连衣裙搭配,优雅大气,而且能凸显优美的身材曲线。手臂粗的姑娘们,可以选择袖子宽松的T恤,腰部较...
02-12
红色衬衫搭配什么外套?一、红色衬衫搭配什么外套?红色衬衫,可以搭配黑色西装,红与黑的搭配也比较经典好看,女生的话可以搭配相应颜色的针织开衫,也显得比较自信优雅百搭且好看。白...
02-17
1月27日消息,“2024年中国产业互联网垂直细分行业TOP10企业”榜单近日发布。卓尔智联及旗下中农网、卓钢链、化塑汇、CIC、华纺链、海上鲜分别入选综合型、农业、钢铁、化工...
02-07
2月19日消息,陶都国控产业投资(邯郸)集团有限公司(以下简称“陶都国控”)运营总监、销售总监陈亮近日到访国联股份新疆数字经济总部。涂多多副总裁、西北大区总经理李庆代表公司...
02-20
2月12日消息,美团旅行数据显示,2月第一周,“元宵灯会”搜索量同比上涨351%,“元宵灯谜”搜索量同比上涨超225%。2025年元宵十大热门灯会分别是:唐山南湖春节灯会、自贡国际恐龙灯...
02-13
金价整体大涨,金饰消费下行,一众品牌金饰企业2024年营收下滑,但也有商家探索出了新玩法。 比如深圳水贝,这里是全国最大的黄金批发市...
03-01
近日,朴烯晶新能源材料(上海)有限公司(以下简称“朴烯晶”)完成数亿元B轮融资。本轮融资由国科东方领投,大零号湾策源基金、尚研莘工基金、民银国际跟投...
02-07
【#海尔生物等在天津成立生物医药产业基金# 出资额5600万】天眼查App显示,近日,天津协禾生物医药产业基金合伙企业(有限合伙)成立,执行事务合伙人为天津滨海创投投资管理有限公司...
02-09
之前在Xbox直面会上,忍者龙剑传2复刻版《忍者龙剑传2 黑之章》正式公布。随后该作上架Steam并发售,售价298元,游戏总评为“多半好评”。 Steam商店地址:点击进入 ...
01-28
Apogee Entertainment已将《Turbo Overkill》中充满爆炸场面的动作元素和链锯带来的混乱体验带到了Xbox Series X/S平台。这款残酷的赛博朋克风格第一人称射击...
02-03
中国贸促会新闻发言人就美方宣布对中国输美产品加征10%关税发表谈话美国东部时间2月1日,美方以芬太尼等问题为由,对中国输美产品加征10%关税。中国工商界对此深表遗憾、坚决反...
02-02
新华社布宜诺斯艾利斯2月5日电(记者张铎)阿根廷政府5日宣布,阿总统米莱已决定该国退出世界卫生组织。阿根廷总统府发言人阿多尔尼当天在新闻发布会上说,阿根廷不允许任何国际组...
02-06
“成功!”1月9日,伴随着最后一个控制开关被合上,宽敞明亮的集控室内爆发出热烈的掌声与欢呼声,中国能建主体投资建设的全球首座300兆瓦(MW)压气储能示范...
01-21
  中国自然资源部北海区海洋预报台16日发布的监测数据显示,当日,辽东湾海冰面积为1157平方公里,海上浮冰...
02-17
  受益于亚冬会带来的冰雪经济新热度,滑雪服、羽绒服、滑雪手套等装备的销量在这个冬天迎来了...
02-18
新闻记者 康旭阳 通讯员 沈商轩实习生 何世银1月21日,全国手机、平板、智能手表(手环)购新补贴政策实施暨“年在荆楚 巳巳如意”湖北新春消费季启动仪式在武汉举行。新闻记者获...
01-22
  国内首个男性HPV疫苗上市,如何搅动百亿市场?国产疫苗有哪些布局?  男性也可以接种HPV疫苗了。  1月18日,默沙东在北京、上海、广州同时举行新闻发布会,宣布四价HPV(人乳...
01-21
1 月 29 日消息,浙江吉利控股集团汽车销售有限公司官方发布视频,在吉利汽车贵阳制造基地,全球第 10 万辆吉利银河 E5 汽车于大年初一(今日)下线。据此前报道,吉利银河 E5 ...
01-29
2 月 6 日消息,Jeep 昨日(2 月 5 日)发布公告,宣布推出 Wagoneer S Limited 版,配备了与 Launch Edition 相同的 400 伏、100 千瓦时电池组,支持在 20 分钟内通过 DC 快充...
02-06
《香草的每天》近期正在热播,播出后反响良好,网上热度持续上升,在各大论坛上也引发了热烈讨论。观众们尤其关注第19集的剧情。在这一集中,作为点心教室最后的学...
02-20
近期电视剧《难哄》成为热门话题,该剧在开拍前就吸引了大量粉丝。随着剧集的播出,更多观众加入讨论,对剧情充满期待,尤其是关于“难哄桑稚迷路怎么回事”的情节...
02-22
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮