AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

1个月前 来源: 观看:64

21世纪经济报道记者 闫硕 北京报道NWd即热新闻——关注每天科技社会生活新变化gihot.com

近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性,引发业内广泛讨论。NWd即热新闻——关注每天科技社会生活新变化gihot.com

根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景和行为维度。NWd即热新闻——关注每天科技社会生活新变化gihot.com

有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供有力支持,相关企业有望迎来新的发展机遇。NWd即热新闻——关注每天科技社会生活新变化gihot.com

另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。NWd即热新闻——关注每天科技社会生活新变化gihot.com

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性,尤其是对于医药行业的AI应用来说,已显现三大趋势:模型即产品、本地与端侧部署、研发端AI应用的快速拓展。NWd即热新闻——关注每天科技社会生活新变化gihot.com

新的评估测试集

改善人类健康将成为通用人工智能(AGI)的决定性影响之一。如果能够得到有效开发和部署,大语言模型有望拓展健康信息的获取渠道,支持临床医生提供高质量医疗服务,并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。NWd即热新闻——关注每天科技社会生活新变化gihot.com

OpenAI认为,现有评估仍然存在一些问题,首先,未反映真实场景,脱离了实际医疗互动的复杂性,如仅采用标准化测试或有限临床问题。其次,缺乏专家医学验证,评分标准未经过医疗专家严格审核,难以体现专业医疗判断。此外,也并未预留改进空间,最先进模型已接近“天花板”得分,无法激励持续优化。NWd即热新闻——关注每天科技社会生活新变化gihot.com

也因此,在过去的一年里,OpenAI与60个国家的262名医生合作构建了HealthBench,包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中,7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面,5个评估纬度则包含准确性、沟通质量、情境理解等方面。NWd即热新闻——关注每天科技社会生活新变化gihot.com

在HealthBench的基础上,OpenAI还推出了两个特别版本:HealthBench Consensus(共识版)和HealthBench Hard(困难版)。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度;后者则设置了更高难度的评估场景,目前最高得分仅为o3模型的32%,主要被用于挑战模型在复杂医疗情境中的极限表现。NWd即热新闻——关注每天科技社会生活新变化gihot.com

对于HealthBench的可信度,OpenAI开展了HealthBench Consensus(共识版)的元评估,即将模型的打分结果与医生人工打分进行对比。结果表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致。NWd即热新闻——关注每天科技社会生活新变化gihot.com

有券商分析师向21世纪经济报道记者表示,在医疗等垂直领域,准确性和实际场景的相关性比“流畅对话”更为关键,HealthBench不同于过去大多关注通用大语言模型表现的基准,而是聚焦医疗垂直领域,为医疗领域的AI应用提供更为专业的评估工具,同时也将推动大模型领域建立专业的AI评估标准。NWd即热新闻——关注每天科技社会生活新变化gihot.com

值得一提的是,在HealthBench的测评中可以发现,大模型在医疗领域的应用正迅速发展。比如,2023年推出的GPT-3.5Turbo得分为16%,而2024年5月推出的GPT-4o得分已达到32%,2024年12月推出的o3模型得分更是达到60%。另外,较小规模的模型尤其进步显著,GPT-4.1 nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25。NWd即热新闻——关注每天科技社会生活新变化gihot.com

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来:引领潮流》报告,人工智能是医疗保健的主要变革力量,预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元。NWd即热新闻——关注每天科技社会生活新变化gihot.com

其中,AI在医疗服务中的应用前景广阔。中信建投证券分析指出,AI可以扩展医疗服务可及性,可应用于诊断前、诊治及诊断后阶段,解决当前医院系统医疗人员短缺和缺乏有效分流等问题,以少量资源实现高效率。此外,AI辅助医生诊疗未来有望降低误诊率的同时,在部分疑难杂症诊疗方面也有望发挥协同作用。NWd即热新闻——关注每天科技社会生活新变化gihot.com

也因此,不仅评估工具在发生变革,大模型本身也在持续优化。当前,AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变,已进入到多模态融合阶段。NWd即热新闻——关注每天科技社会生活新变化gihot.com

浙商证券分析指出,大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,大模型通过“预训练+微调”架构,用统一参数体系处理多模态医疗数据。在临床应用中,借助多模态技术,AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近。NWd即热新闻——关注每天科技社会生活新变化gihot.com

需要指出的是,由于万亿级参数模型高昂的训练成本与当下较低的投资回报比,叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈,大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛,转向模型效率优化与单位算力下的性能提升。NWd即热新闻——关注每天科技社会生活新变化gihot.com

在应用方面,Barrett Li向记者总结道,随着大模型的不断进化,目前对于医药行业的AI应用来说,几大趋势已经显现:NWd即热新闻——关注每天科技社会生活新变化gihot.com

首先,模型即产品。相比通用大模型在其他行业中相对较低的应用门槛,医药行业高度专业性的场景,对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广,大模型厂商未来预计会逐步关闭对外的API接口,转而将专业化后的模型本身作为产品直接提供给企业用户使用,颠覆现有的套壳应用层。而现有的专业AI软件,也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来,将会有更多直接针对医药行业训练的模型被广泛应用。NWd即热新闻——关注每天科技社会生活新变化gihot.com

其次,本地与端侧部署。针对特定场景而训练优化的专业模型,可以在满足性能要求的前提下,减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下,专业中小模型的本地部署会提供极大的赋能。NWd即热新闻——关注每天科技社会生活新变化gihot.com

“此外,研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素,相比通用大模型在商业化阶段的快速发展,医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。NWd即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-7-17974-0.htmlAI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:CXO企业一季报:5家营收破10亿元,8家亏损,国际化与创新赛道或成破局关键

下一篇:交易超10亿美金,石药这款首仿药何以抢滩全球市场?

为你推荐
  近日公布的新版医保药品目录新增91种药品,目录内药品总数增至3159种,参保人的“药篮子”再次升级。医保目录是如何诞生...
01-21
21世纪经济报道记者 韩利明 上海报道 丙类药品目录的落地,已是箭在弦上。1月17日上午,在国家医保局“保障人民健康,赋能经济发展”的主题...
01-21
建设教育强国,龙头是高等教育。近日印发的《教育强国建设规划纲要(2024&mdas...
01-21
    陈子元1991年参加中国科协第四次全国代表大会时写下的会议记录和心得体会。  老科学...
01-21
  近日,由元保集团(以下简称“元保”)和清华大学五道口金融学院中国保险与养老金融研究中心联合...
01-22
  我国农村信用社联合社改革明显提速,2024年12月24日国家金融监督管理总局批复同意筹建江苏农...
01-22
水瓶女是一个独立、聪明且有点神秘的星座,她们对感情的态度往往让人捉摸不透。如果你想...
01-22
狮子座是十二星座中的一员,他们以自信、勇敢和领导能力著称。然而,有时候我们可能会遇到...
01-22
夏日狂欢:模特T台走秀泳衣背后的时尚魅力在炎炎夏日,泳衣秀成为了时尚界的一大亮点,尤其是在模特T台走秀中,那些色彩艳丽、设计独特的泳衣总是能瞬间吸引观众的目光。那么,究竟是...
02-07
当红女星风采:近期绽放的璀璨之美在最近的娱乐圈中,无论是电影、电视剧,还是社交媒体,许多女明星的魅力时刻吸引着大家的注意。仿佛每一位女神都在绽放自己的光芒,成了各界瞩目的...
02-07
2月6日消息,沃尔玛加拿大公司近日宣布,将投资65亿加元(约45亿美元)用于门店和供应链的布局与扩张。该计划包括开设数十家门店,其中首批五家超级购物中心将于2027年前在安大略省和...
02-07
2月9日消息,苏宁易购日前与海信召开2025战略启动会,双方明确2025年百亿目标,聚焦换新消费趋势,将深化产品共创、场景升级、本地化经营、破圈营销,提升全品类经营效率。开工抢先机...
02-09
2月16日消息,新春期间,快手快聘新春招工会再次引爆蓝领招聘市场,1月15日-2月12日活动期间,用户求职意愿激增,求职人数是去年的284%,超1000万用户通过视频直播求职。同时,平台撮合效...
02-17
图片来源:图虫创意 在2025年全国两会期间,全国人大代表、天...
03-09
【#吉利旗下极光湾在上海成立汽车零部件公司# 注册资本2000万】天眼查App显示,1月20日,上海极光湾汽车零部件有限公司成立,法定代表人为WANG RUI PING,注册资本2000万人民币,经营...
01-21
近日,柔性钙钛矿电池研发制造企业湖南炎和科技有限责任公司(简称“炎和科技”)完成千万级天使+轮融资,由朝希资本独家投资。炎和科技是一家专注于钙钛...
02-07
期待多时的RTX 5090/5080已经正式开卖,而国行对应的则是RTX 5090D。 作为国内特供版,RTX 5090D在硬件上与RTX 5090相似,拥有相同的核心数量和显存配置,甚至PCB设计...
02-03
根据 Culture Crave 报道,流媒体平台迪士尼+上出现了最近热门的团队英雄动作射击游戏《漫威争锋》的独立分区。 该分区以“出现在《漫威争锋》的角色为特色”,...
02-11
新华社布宜诺斯艾利斯2月5日电(记者张铎)阿根廷政府5日宣布,阿总统米莱已决定该国退出世界卫生组织。阿根廷总统府发言人阿多尔尼当天在新闻发布会上说,阿根廷不允许任何国际组...
02-06
今明两天(2月7日至8日),寒潮继续影响我国,中东部气温将陆续迎来这轮过程的最低点,并将大面积创今冬以来气温新低。同时,全国降水范围有所缩减,主要出现在东北地区、西南地区东部、...
02-07
德国联邦物理技术研究院团队成功开发出一系列先进的光学原子钟,其中包括单离子时钟和光晶格时钟。这些新型时钟展示了前所未有的精度,可比现有的定义...
01-22
美国研究人员开发出一个新的人工智能模型,经过大量数据的训练后,该模型能精确预测各种人体细胞内部的基因表达情况,将为生物和医学研究带来便利。这个...
01-27
  只需按一下按键,不用碰方向盘,汽车就自动倒进停车位,不剐不碰、稳稳当当。  日前,在东软睿驰汽车技术...
02-17
  作者:本报记者李晓东《光明日报》(2025年02月16日05版)  乐山甜皮鸭。周艺珣绘  【至味人...
02-18
  自提外带、年夜饭礼盒成新宠,小型套餐受青睐——  蛇年年夜饭有哪些新风向?  春节临近,多地年夜饭市场“热气腾腾”,各具特色的年夜饭套餐陆续推出。某线上平台数据...
01-21
新华社北京1月21日电(记者张辛欣、张晓洁)工业和信息化部副部长张云明在21日国新办举行的“中国经济高质量发展成效”系列新闻发布会上表示,我国已有570多家工业企业入围全球研...
01-22
1 月 21 日消息,小米汽车旗下首款 SUV 车型 YU7 的实车图片和视频在网络上频频流出,最新视频曝光了该车的车门、尾门以及部分内饰设计。注意到,从最新曝光的视频中可以...
01-21
1 月 22 日消息,特斯拉新款 Model Y 实车图在网上再次曝光,展示了更多细节信息。从实车的尾标来看,此次曝光的不再是首发版,而是后续将大批量生产的版本。注意到,从外观...
01-23
  《难哄》温以凡明明是喜欢桑延的,却在高考后背弃了跟桑延的约定,还用言不由衷的借口拒绝了桑延。《难哄》温以凡到底经历了什么?她为什么要拒绝桑延?   温以凡本来跟桑延...
02-18
最近,由几位优秀演员出演的电视剧《继承者游戏》播出后,获得了不错的收视率和热度。剧情和人物塑造都相当出色,值得一看。该剧上线时间为14:00,题材为男频复仇...
02-21
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮