AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

11个月前 来源: 观看:249

21世纪经济报道记者 闫硕 北京报道n3v即热新闻——关注每天科技社会生活新变化gihot.com

近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性,引发业内广泛讨论。n3v即热新闻——关注每天科技社会生活新变化gihot.com

根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景和行为维度。n3v即热新闻——关注每天科技社会生活新变化gihot.com

有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供有力支持,相关企业有望迎来新的发展机遇。n3v即热新闻——关注每天科技社会生活新变化gihot.com

另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。n3v即热新闻——关注每天科技社会生活新变化gihot.com

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性,尤其是对于医药行业的AI应用来说,已显现三大趋势:模型即产品、本地与端侧部署、研发端AI应用的快速拓展。n3v即热新闻——关注每天科技社会生活新变化gihot.com

新的评估测试集

改善人类健康将成为通用人工智能(AGI)的决定性影响之一。如果能够得到有效开发和部署,大语言模型有望拓展健康信息的获取渠道,支持临床医生提供高质量医疗服务,并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。n3v即热新闻——关注每天科技社会生活新变化gihot.com

OpenAI认为,现有评估仍然存在一些问题,首先,未反映真实场景,脱离了实际医疗互动的复杂性,如仅采用标准化测试或有限临床问题。其次,缺乏专家医学验证,评分标准未经过医疗专家严格审核,难以体现专业医疗判断。此外,也并未预留改进空间,最先进模型已接近“天花板”得分,无法激励持续优化。n3v即热新闻——关注每天科技社会生活新变化gihot.com

也因此,在过去的一年里,OpenAI与60个国家的262名医生合作构建了HealthBench,包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中,7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面,5个评估纬度则包含准确性、沟通质量、情境理解等方面。n3v即热新闻——关注每天科技社会生活新变化gihot.com

在HealthBench的基础上,OpenAI还推出了两个特别版本:HealthBench Consensus(共识版)和HealthBench Hard(困难版)。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度;后者则设置了更高难度的评估场景,目前最高得分仅为o3模型的32%,主要被用于挑战模型在复杂医疗情境中的极限表现。n3v即热新闻——关注每天科技社会生活新变化gihot.com

对于HealthBench的可信度,OpenAI开展了HealthBench Consensus(共识版)的元评估,即将模型的打分结果与医生人工打分进行对比。结果表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致。n3v即热新闻——关注每天科技社会生活新变化gihot.com

有券商分析师向21世纪经济报道记者表示,在医疗等垂直领域,准确性和实际场景的相关性比“流畅对话”更为关键,HealthBench不同于过去大多关注通用大语言模型表现的基准,而是聚焦医疗垂直领域,为医疗领域的AI应用提供更为专业的评估工具,同时也将推动大模型领域建立专业的AI评估标准。n3v即热新闻——关注每天科技社会生活新变化gihot.com

值得一提的是,在HealthBench的测评中可以发现,大模型在医疗领域的应用正迅速发展。比如,2023年推出的GPT-3.5Turbo得分为16%,而2024年5月推出的GPT-4o得分已达到32%,2024年12月推出的o3模型得分更是达到60%。另外,较小规模的模型尤其进步显著,GPT-4.1 nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25。n3v即热新闻——关注每天科技社会生活新变化gihot.com

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来:引领潮流》报告,人工智能是医疗保健的主要变革力量,预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元。n3v即热新闻——关注每天科技社会生活新变化gihot.com

其中,AI在医疗服务中的应用前景广阔。中信建投证券分析指出,AI可以扩展医疗服务可及性,可应用于诊断前、诊治及诊断后阶段,解决当前医院系统医疗人员短缺和缺乏有效分流等问题,以少量资源实现高效率。此外,AI辅助医生诊疗未来有望降低误诊率的同时,在部分疑难杂症诊疗方面也有望发挥协同作用。n3v即热新闻——关注每天科技社会生活新变化gihot.com

也因此,不仅评估工具在发生变革,大模型本身也在持续优化。当前,AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变,已进入到多模态融合阶段。n3v即热新闻——关注每天科技社会生活新变化gihot.com

浙商证券分析指出,大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,大模型通过“预训练+微调”架构,用统一参数体系处理多模态医疗数据。在临床应用中,借助多模态技术,AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近。n3v即热新闻——关注每天科技社会生活新变化gihot.com

需要指出的是,由于万亿级参数模型高昂的训练成本与当下较低的投资回报比,叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈,大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛,转向模型效率优化与单位算力下的性能提升。n3v即热新闻——关注每天科技社会生活新变化gihot.com

在应用方面,Barrett Li向记者总结道,随着大模型的不断进化,目前对于医药行业的AI应用来说,几大趋势已经显现:n3v即热新闻——关注每天科技社会生活新变化gihot.com

首先,模型即产品。相比通用大模型在其他行业中相对较低的应用门槛,医药行业高度专业性的场景,对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广,大模型厂商未来预计会逐步关闭对外的API接口,转而将专业化后的模型本身作为产品直接提供给企业用户使用,颠覆现有的套壳应用层。而现有的专业AI软件,也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来,将会有更多直接针对医药行业训练的模型被广泛应用。n3v即热新闻——关注每天科技社会生活新变化gihot.com

其次,本地与端侧部署。针对特定场景而训练优化的专业模型,可以在满足性能要求的前提下,减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下,专业中小模型的本地部署会提供极大的赋能。n3v即热新闻——关注每天科技社会生活新变化gihot.com

“此外,研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素,相比通用大模型在商业化阶段的快速发展,医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。n3v即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-7-17974-0.htmlAI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:CXO企业一季报:5家营收破10亿元,8家亏损,国际化与创新赛道或成破局关键

下一篇:交易超10亿美金,石药这款首仿药何以抢滩全球市场?

为你推荐
  降糖药物的选择应根据糖尿病患者的自身病情、经济条件,潜在性副作用等因素综合考虑。通过这篇文章,希望帮助更多糖尿病患者达到...
01-21
编者按:一个人工智能(AI)机器人,在短短8天内独立完成了668项实验,合成了668种化合物,并成功研发出一种全新的化学催化剂。这一壮举令人赞叹。AI...
02-11
  特约通讯员鲁磊本报记者葛仁鑫  前不久,成都市树德实验中学初二学生朱梓明在完成一份“特...
01-21
  大众网记者 司心鹏 通讯员 邱文风 王琴 报道  12月5日,山东商业职业技术学院云计算技术与应用产业学院党总支与浪潮软件股份有限公司党委开展了“党建引领聚合力,双...
01-21
  财中社1月20日电国信证券发布农林牧渔行业农产品研究跟踪系列报告。文中指出看好猪价2025年...
01-21
  中国经济网北京2月6日讯 国家金融监督管理总局网站近日发布的国家金融监督管理总局重庆监管...
02-07
天蝎男是一个内敛而神秘的星座,他们往往不会轻易表露自己的感情。当他们暗恋一个人时,常...
01-22
狮子座男生通常具有自信、热情和领导力,他们喜欢被关注和赞美。如果你想吸引一个狮子座...
01-22
探秘丹妹潮流服饰:引领时尚新风潮近年来,随着时尚行业的发展与变化,越来越多的服饰品牌通过独特的设计与个性化的风格赢得了年轻消费者的青睐。在这样的市场背景下,丹妹潮流服饰...
02-07
穿搭女小个子?1、高腰裤现在很流行高腰直筒裤,不要以为只有高个子可以穿,没关系,矮子一样可以穿,只要你掌握裤子的长度,我觉得就OK,只是要切忌,如果你想要你的比例看起来比较好的话,...
02-17
2月13日消息,苏宁易购宣布全面启动“6000元以上手机补贴计划”,2月14日至3月16日期间,针对6000元以上机型追加250-1000元补贴,每人限购一台,苏宁易购全国直营店可用。2月14日零点...
02-14
2月18日消息,遥望科技近日与巴西最大直播机构ABLELIVE达成独家战略合作,携手深耕巴西市场,共同打造该国直播电商行业的最大样板,致力推动巴西直播电商生态体系的深度升级。图源: ...
02-18
2月24日消息,叮当健康科技集团有限公司公告称,相对于截至2023年12月31日止年度净亏损约2.31亿元,公司预期2024财年净亏损将增加64%以上。图源:东方财富网叮当健康表示,以上亏损主...
02-25
2月25日消息,中国银行手机银行APP近日接入中国银联云闪付网络支付平台,实现支付体验焕新升级。双方秉持开放共赢理念,依托科技创新,为用户提供更加便捷、高效的支付体验。截至目...
02-26
岁末年关的春运路上,既有寒风瑟瑟,也有“暖得一匹”的诸多时刻。随着春节临近,2025年春运进入客流高峰,日均发送旅客超过15万人的南京南站,春运客流高峰出现在20日左右。作为六朝...
01-22
2025年1月21日,深圳市聚心教育科技有限公司今日正式官宣,以5000万人民币估值已顺利完成500万元人民币A轮融资。本轮投资是由采纳资本领投,由金伯乐创投、美城创投、领创ITVC、...
01-23
发行商Hooded Horse近日宣布,中古时期策略游戏《庄园领主》销量已突破300万份,官方对玩家的支持表示了衷心感谢。 《庄园领主》最初于2024年4月26日在Steam上发...
02-10
韩国生活模拟游戏《inZOI》将于3月开放抢先体验版。游戏引入了独特元素,即角色死亡后可以作为幽灵出现,这一设定与《模拟人生4》市民死后世界相似。 近日inZOI...
02-13
新华社北京2月9日电 日前,中央层面整治形式主义为基层减负专项工作机制办公室会同中央纪委办公厅对3起整治形式主义为基层减负典型问题进行通报。具体如下:1.中国就业培训技术...
02-09
△幻影2000-5F战机(资料图)据俄新社9日报道,俄罗斯外交部发言人扎哈罗娃日前接受俄新社采访时说,西方向乌克兰提供法国“幻影-2000”战斗机只会让西方和乌克兰陷入更大僵局。扎...
02-10
年关将至,A股进入2024业绩预告披露的密集期,半导体行业也不例外。1月15日晚,乐鑫科技(688018.SH)发布业绩预告,公司2024年年度实现营业...
01-21
近日,知名研究机构胡润百富公开发布“2024胡润中国人工智能企业50强”榜单,岩山科技凭借其在自动驾驶及类脑智能领域的技术创新和应用实践,荣誉入选榜...
01-21
  快递物流四通八达,连接千城百业、沟通供需两端,是经济运行的“毛细血管”。近日,记者从2025年全省邮政...
02-07
  中国自然资源部北海区海洋预报台9日发布的监测数据显示,当日,辽东湾海冰面积达10018平方公里,三分之一...
02-11
全国2024年GDP公布的当日下午,上海就迫不及待地公布了全年数据:53926.71亿元,同比增长5.0%。不仅成功晋升为全国第一个五万亿城市,上...
01-21
新华社北京1月21日电(记者张辛欣、张晓洁)工业和信息化部副部长张云明在21日国新办举行的“中国经济高质量发展成效”系列新闻发布会上表示,我国已有570多家工业企业入围全球研...
01-22
1 月 21 日消息,据中国汽研今日消息,《智能网联汽车交通事故保险赔偿判定技术规范》团体标准启动会近日在北京召开。平安财险、太平洋财险、中国人寿财险等 20 余家保...
01-21
1 月 23 日消息,阿维塔 06 的实车图在网上曝光,这款定位中型车的新车预计将在今年第二季度正式上市。从曝光的照片来看,阿维塔 06 提供了多种大胆的配色方案,包括紫色、...
01-24
近期,电视剧《119紧急呼叫》在各大短视频平台上大受欢迎,特别是第6集的剧情引起了观众们的热烈讨论。以下是该集的主要内容。五年前,粕原雪告诉姐姐小夏她打算...
02-20
《漫城》正在热播,凭借其精彩的剧情、精良的制作和演员们的出色表现,该剧赢得了观众的一致好评,并取得了收视率第一的成绩。在剧中,白筱朵一直犹豫是否应该向苏...
02-20
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮