AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

1年前 来源: 观看:260

21世纪经济报道记者 闫硕 北京报道Ypl即热新闻——关注每天科技社会生活新变化gihot.com

近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性,引发业内广泛讨论。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景和行为维度。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供有力支持,相关企业有望迎来新的发展机遇。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性,尤其是对于医药行业的AI应用来说,已显现三大趋势:模型即产品、本地与端侧部署、研发端AI应用的快速拓展。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

新的评估测试集

改善人类健康将成为通用人工智能(AGI)的决定性影响之一。如果能够得到有效开发和部署,大语言模型有望拓展健康信息的获取渠道,支持临床医生提供高质量医疗服务,并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

OpenAI认为,现有评估仍然存在一些问题,首先,未反映真实场景,脱离了实际医疗互动的复杂性,如仅采用标准化测试或有限临床问题。其次,缺乏专家医学验证,评分标准未经过医疗专家严格审核,难以体现专业医疗判断。此外,也并未预留改进空间,最先进模型已接近“天花板”得分,无法激励持续优化。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

也因此,在过去的一年里,OpenAI与60个国家的262名医生合作构建了HealthBench,包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中,7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面,5个评估纬度则包含准确性、沟通质量、情境理解等方面。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

在HealthBench的基础上,OpenAI还推出了两个特别版本:HealthBench Consensus(共识版)和HealthBench Hard(困难版)。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度;后者则设置了更高难度的评估场景,目前最高得分仅为o3模型的32%,主要被用于挑战模型在复杂医疗情境中的极限表现。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

对于HealthBench的可信度,OpenAI开展了HealthBench Consensus(共识版)的元评估,即将模型的打分结果与医生人工打分进行对比。结果表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

有券商分析师向21世纪经济报道记者表示,在医疗等垂直领域,准确性和实际场景的相关性比“流畅对话”更为关键,HealthBench不同于过去大多关注通用大语言模型表现的基准,而是聚焦医疗垂直领域,为医疗领域的AI应用提供更为专业的评估工具,同时也将推动大模型领域建立专业的AI评估标准。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

值得一提的是,在HealthBench的测评中可以发现,大模型在医疗领域的应用正迅速发展。比如,2023年推出的GPT-3.5Turbo得分为16%,而2024年5月推出的GPT-4o得分已达到32%,2024年12月推出的o3模型得分更是达到60%。另外,较小规模的模型尤其进步显著,GPT-4.1 nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来:引领潮流》报告,人工智能是医疗保健的主要变革力量,预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

其中,AI在医疗服务中的应用前景广阔。中信建投证券分析指出,AI可以扩展医疗服务可及性,可应用于诊断前、诊治及诊断后阶段,解决当前医院系统医疗人员短缺和缺乏有效分流等问题,以少量资源实现高效率。此外,AI辅助医生诊疗未来有望降低误诊率的同时,在部分疑难杂症诊疗方面也有望发挥协同作用。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

也因此,不仅评估工具在发生变革,大模型本身也在持续优化。当前,AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变,已进入到多模态融合阶段。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

浙商证券分析指出,大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,大模型通过“预训练+微调”架构,用统一参数体系处理多模态医疗数据。在临床应用中,借助多模态技术,AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

需要指出的是,由于万亿级参数模型高昂的训练成本与当下较低的投资回报比,叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈,大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛,转向模型效率优化与单位算力下的性能提升。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

在应用方面,Barrett Li向记者总结道,随着大模型的不断进化,目前对于医药行业的AI应用来说,几大趋势已经显现:Ypl即热新闻——关注每天科技社会生活新变化gihot.com

首先,模型即产品。相比通用大模型在其他行业中相对较低的应用门槛,医药行业高度专业性的场景,对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广,大模型厂商未来预计会逐步关闭对外的API接口,转而将专业化后的模型本身作为产品直接提供给企业用户使用,颠覆现有的套壳应用层。而现有的专业AI软件,也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来,将会有更多直接针对医药行业训练的模型被广泛应用。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

其次,本地与端侧部署。针对特定场景而训练优化的专业模型,可以在满足性能要求的前提下,减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下,专业中小模型的本地部署会提供极大的赋能。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

“此外,研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素,相比通用大模型在商业化阶段的快速发展,医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。Ypl即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-7-17974-0.htmlAI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:CXO企业一季报:5家营收破10亿元,8家亏损,国际化与创新赛道或成破局关键

下一篇:交易超10亿美金,石药这款首仿药何以抢滩全球市场?

为你推荐
  近期,流感等呼吸道疾病进入高发期。全国流感病毒阳性率上升,尤以甲流多发。  中国疾控中心1...
01-21
  不少网友在春节期间  开启了天天吃剩菜的生活  这样的“剩宴”安全吗?  哪些食物不适...
02-05
  大众网记者 杨涛报道  11月19日,白俄罗斯共和国职业教育研究院校长戈卢博夫斯基•瓦莱里•尼古拉耶维奇副教授, 国际合作中心主任科列伊妮娜•奥尔加•瓦列耶夫娜一...
01-21
2025年寒假伊始,遍布沈阳市城乡社区的“中小学家访社区共享会客厅”再一次启动了。家访是学校与家庭沟通...
01-21
  观点网讯:1月20日,汇贤产业信托宣布偿还贷款及其财务影响。  公告显示,于2025年1月20日,汇贤...
01-21
  近年来,随着个人消费贷款需求不断增长,不法贷款中介、电信诈骗不法人员盯上了这块“蛋糕”。...
01-24
水瓶座男生通常聪明、理性、独立,他们喜欢追求自由和创新。他们对于社交活动非常感兴趣...
01-22
双子座的男生喜欢聪明、机智和有趣的人。他们对于细节非常敏感,因此如果你想要感动一个...
01-22
泳装模特T台走秀事故:背后的故事与影响在时尚界,总有一些事件能让整个行业为之侧目,泳装模特的T台走秀事故便是如此。最近,我在一个时尚秀上亲眼目睹了这样一次令人震惊的事件,这...
02-12
女生短裙穿搭注意事项?一、女生短裙穿搭注意事项?1、穿裙子的时候最重要的就是看自己的比例,如果自己腿比较粗,就可以选择把裙子穿到腰部旁边一点,超过腰部一点,可以遮蔽一部分腿...
02-22
这两位来自福建龙岩的老乡,故事就此拉开序幕。1.抖音生活服务春节团购订单量暴涨春节放假期间,本地消费需求暴涨,让抖音狠狠地吃了一波红利。日前,抖音生活服务发布《2025春节消...
02-07
2月15日消息,快手电商女装亲子行业近日开启“春日焕新季”。活动分三个阶段,第一阶段从2月13日至19日,将为商家带来商家端和用户端补贴、流量激励、新品扶持、磁力金牛对投、短...
02-16
今年1、2月分别有春节和情人节两个节日,不少消费者会趁着节日,给亲友、恋人送上精心准备的黄金饰品。周大福、周六福、金大福、金六...
02-07
2月27日,九号公司(689009.SH)发布2024 年年度业绩快报。报告期内,该公司营业总收入为141.71亿元,同比增长38.63%;归母净利润10.88亿元,同...
03-01
1月22日晚,海王生物(000078.SZ)披露了2024年度业绩预告。公告显示,2024年,海王生物预计实现营业收入280亿元至320亿元,归属于上市公司股东的净利润亏损9.5亿元至12亿元,集中...
01-23
近日,柔性钙钛矿电池研发制造企业湖南炎和科技有限责任公司(简称“炎和科技”)完成千万级天使+轮融资,由朝希资本独家投资。炎和科技是一家专注于钙钛...
02-07
《黑神话:悟空》大获成功后,亢金龙、紫蛛儿、小狐狸萍萍等角色也深受玩家喜爱。近日小狐狸萍萍女演员钱思怡在网上分享视频,展示了她泡澡的视频,一起来看看吧! 视频...
01-31
根据《毁灭战士:黑暗时代》Steam页面,这款FPS游戏将采用第三方DRM:D加密。考虑到《夺宝奇兵:古老之圈》没有使用D加密,因此这多少有点让人意外。 所以这意味着《毁...
01-31
总台记者当地时间2月5日获悉,当天,日本埼玉县八潮市道路塌陷事故现场,救援人员使用水下无人机在下水管道内进行调查时,在塌陷现场下游100米至200米左右的下水管道中,发现了疑似货...
02-06
极目新闻记者 戎钰两眼一睁一闭,《哪吒2》票房又多了几个亿——伴随着网友的这句调侃,2月6日,动画电影《哪吒2》的票房超过57.75亿(含预售),取代2021年上映的战争电影《长津湖》,成...
02-06
据物理学家组织网14日报道,美国国家航空航天局(NASA)和意大利航天局携手研制的月球GNSS(全球导航卫星系统)接收器实验(LuGRE)有效载荷即将发射升空。LuGRE...
01-21
  2月7日,来自辽宁省邮政管理局的监测数据显示,今年春节假期(1月28日至2月4日),辽宁省快递业务揽收量1578....
02-09
  本报记者集体采写  在披红挂彩、喜气洋洋的新春氛围中,冰雪运动、冰雪旅游迅速升温,成为人...
02-11
新闻通讯员 霍才元 朱世坤 千门瑞气迎春至,万缕祥光映业兴。1月19日,湖北省民营经济研究会学术年会在武汉隆重举行,北京高山绿生态有限公司等一批民营企业在会上荣获表彰,成为行...
01-21
  2025年春运开始于1月14日,至今第一轮购票高峰已经过去。由于火车票有提前15天开始发售的规则,春运第一天的火车票在2024年12月31日就已经开始发售,铁路12306的监控中心...
01-21
1 月 21 日消息,美国东部时间 20 日中午,特朗普在国会大厦圆形大厅宣誓就任美国第 47 任总统。特朗普随后发表就职演讲,他在一项行政命令中表示,将下令其政府“取消电动...
01-22
2 月 2 日消息,比亚迪今日公布 1 月销售新车300538 辆,乘用车销售 296446 辆,同比增长 47.5%。其中,乘用车海外销售 66336 辆,同比增长 83.4%。此外,比亚迪新能源累销超 1...
02-03
最近打开社交应用,经常能看到关于《痞子无间道》第8集剧情的讨论。这部剧的粉丝们对此非常关注,今天就来聊聊这一集的内容。在第8集中,费仁在大飞的房间里寻找...
02-19
  作者:陈亦水  2025年春节档,注定要在中国影史上留下浓墨重彩的一笔,不仅创下多项票房历史纪...
02-20
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮