AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

7个月前 来源: 观看:213

21世纪经济报道记者 闫硕 北京报道G7n即热新闻——关注每天科技社会生活新变化gihot.com

近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性,引发业内广泛讨论。G7n即热新闻——关注每天科技社会生活新变化gihot.com

根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景和行为维度。G7n即热新闻——关注每天科技社会生活新变化gihot.com

有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供有力支持,相关企业有望迎来新的发展机遇。G7n即热新闻——关注每天科技社会生活新变化gihot.com

另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。G7n即热新闻——关注每天科技社会生活新变化gihot.com

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性,尤其是对于医药行业的AI应用来说,已显现三大趋势:模型即产品、本地与端侧部署、研发端AI应用的快速拓展。G7n即热新闻——关注每天科技社会生活新变化gihot.com

新的评估测试集

改善人类健康将成为通用人工智能(AGI)的决定性影响之一。如果能够得到有效开发和部署,大语言模型有望拓展健康信息的获取渠道,支持临床医生提供高质量医疗服务,并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。G7n即热新闻——关注每天科技社会生活新变化gihot.com

OpenAI认为,现有评估仍然存在一些问题,首先,未反映真实场景,脱离了实际医疗互动的复杂性,如仅采用标准化测试或有限临床问题。其次,缺乏专家医学验证,评分标准未经过医疗专家严格审核,难以体现专业医疗判断。此外,也并未预留改进空间,最先进模型已接近“天花板”得分,无法激励持续优化。G7n即热新闻——关注每天科技社会生活新变化gihot.com

也因此,在过去的一年里,OpenAI与60个国家的262名医生合作构建了HealthBench,包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中,7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面,5个评估纬度则包含准确性、沟通质量、情境理解等方面。G7n即热新闻——关注每天科技社会生活新变化gihot.com

在HealthBench的基础上,OpenAI还推出了两个特别版本:HealthBench Consensus(共识版)和HealthBench Hard(困难版)。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度;后者则设置了更高难度的评估场景,目前最高得分仅为o3模型的32%,主要被用于挑战模型在复杂医疗情境中的极限表现。G7n即热新闻——关注每天科技社会生活新变化gihot.com

对于HealthBench的可信度,OpenAI开展了HealthBench Consensus(共识版)的元评估,即将模型的打分结果与医生人工打分进行对比。结果表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致。G7n即热新闻——关注每天科技社会生活新变化gihot.com

有券商分析师向21世纪经济报道记者表示,在医疗等垂直领域,准确性和实际场景的相关性比“流畅对话”更为关键,HealthBench不同于过去大多关注通用大语言模型表现的基准,而是聚焦医疗垂直领域,为医疗领域的AI应用提供更为专业的评估工具,同时也将推动大模型领域建立专业的AI评估标准。G7n即热新闻——关注每天科技社会生活新变化gihot.com

值得一提的是,在HealthBench的测评中可以发现,大模型在医疗领域的应用正迅速发展。比如,2023年推出的GPT-3.5Turbo得分为16%,而2024年5月推出的GPT-4o得分已达到32%,2024年12月推出的o3模型得分更是达到60%。另外,较小规模的模型尤其进步显著,GPT-4.1 nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25。G7n即热新闻——关注每天科技社会生活新变化gihot.com

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来:引领潮流》报告,人工智能是医疗保健的主要变革力量,预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元。G7n即热新闻——关注每天科技社会生活新变化gihot.com

其中,AI在医疗服务中的应用前景广阔。中信建投证券分析指出,AI可以扩展医疗服务可及性,可应用于诊断前、诊治及诊断后阶段,解决当前医院系统医疗人员短缺和缺乏有效分流等问题,以少量资源实现高效率。此外,AI辅助医生诊疗未来有望降低误诊率的同时,在部分疑难杂症诊疗方面也有望发挥协同作用。G7n即热新闻——关注每天科技社会生活新变化gihot.com

也因此,不仅评估工具在发生变革,大模型本身也在持续优化。当前,AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变,已进入到多模态融合阶段。G7n即热新闻——关注每天科技社会生活新变化gihot.com

浙商证券分析指出,大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,大模型通过“预训练+微调”架构,用统一参数体系处理多模态医疗数据。在临床应用中,借助多模态技术,AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近。G7n即热新闻——关注每天科技社会生活新变化gihot.com

需要指出的是,由于万亿级参数模型高昂的训练成本与当下较低的投资回报比,叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈,大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛,转向模型效率优化与单位算力下的性能提升。G7n即热新闻——关注每天科技社会生活新变化gihot.com

在应用方面,Barrett Li向记者总结道,随着大模型的不断进化,目前对于医药行业的AI应用来说,几大趋势已经显现:G7n即热新闻——关注每天科技社会生活新变化gihot.com

首先,模型即产品。相比通用大模型在其他行业中相对较低的应用门槛,医药行业高度专业性的场景,对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广,大模型厂商未来预计会逐步关闭对外的API接口,转而将专业化后的模型本身作为产品直接提供给企业用户使用,颠覆现有的套壳应用层。而现有的专业AI软件,也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来,将会有更多直接针对医药行业训练的模型被广泛应用。G7n即热新闻——关注每天科技社会生活新变化gihot.com

其次,本地与端侧部署。针对特定场景而训练优化的专业模型,可以在满足性能要求的前提下,减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下,专业中小模型的本地部署会提供极大的赋能。G7n即热新闻——关注每天科技社会生活新变化gihot.com

“此外,研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素,相比通用大模型在商业化阶段的快速发展,医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。G7n即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-7-17974-0.htmlAI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:CXO企业一季报:5家营收破10亿元,8家亏损,国际化与创新赛道或成破局关键

下一篇:交易超10亿美金,石药这款首仿药何以抢滩全球市场?

为你推荐
21世纪经济报道记者 林昀肖 北京报道近日,人福医药发布《关于控股股东签署重整投资协议的公告》,招商创科将作为重整投资人参与其控股股东当...
01-21
21世纪经济报道记者 韩利明 上海报道1月20日,国家医保局发函指出,关于近期上海市“两会”期间,有政协委员、医学专家反映某些集采药品可能存...
01-21
  “如果不是郑皆连院士坚定的科学执言,‘世界第一拱’极有可能与我们擦肩而过。”这是广西大...
01-21
  大众网记者 杨涛报道  日前,第十七届山东省职业院校技能大赛高职组“健身指导”赛项结果出炉,青岛港湾职业技术学院代表队凭借出色的团队表现和创新的活动设计,获第6...
01-21
  原标题:盘点2024持牌消金(一)|行业进入纵深发展:头部“缩表”、腰部“赶超”,不良资产加速“甩卖...
01-22
  偿付能力是对保险公司各类风险的综合判断,偿付能力监管是预警和监测保险业风险的重要抓手。...
01-23
摩羯座的男生通常比较内敛和保守,不太擅长表达自己的感情。当他们对一个女生有意思时,往...
01-22
天秤座的人是非常注重平衡和公正的,他们追求和谐的关系,并且希望能够与自己喜欢的人建立...
01-22
她们是中国最美的女明星,背后又有怎样的故事?提到中国当红的女明星,脑海中可能会闪现出许多美丽的面孔。无论是荧屏上的璀璨明星,还是时尚红毯上的亮丽风景,她们用自己的魅力吸引...
02-07
女明星穿搭解析:时尚潮流背后的秘密在这个视觉至上的时代,女明星的穿着打扮不仅仅是一种个人风格的展示,更是引领时尚潮流的一种体现。我们经常在红毯、活动以及社交媒体上看到...
02-17
2月8日消息,全国企业破产重整案件信息网日前发布苏宁电器集团有限公司、苏宁控股集团有限公司以及苏宁置业集团有限公司的破产重整案件信息与一债会公告。三家公司已于2025年...
02-09
2月19日消息,阿里云墨西哥数据中心今日正式启用,这是阿里云在拉美区域的第一座数据中心,为中国出海企业及当地客户提供产品及服务。阿里云墨西哥数据中心首批上线的产品涵盖弹...
02-20
“老花眼”是随着年龄增长而自然出现的一种视觉问题,通常在40岁左右开始显现。为解决这一问题,专为老视人群设计的光学眼镜——老花...
03-04
3月6日消息,携程集团与山东文旅集团近日宣布达成全方位战略合作,两大旅游集团20强将围绕“平台赋能+产业创新”主线,通过资源整合与模式创新,共同构建覆盖“产品开发、营销推广...
03-09
当钟表的指针指向晚上8点,全世界的目光都聚焦在了中国的电视屏幕上,共同期待着一年一度的春晚盛宴。而今年的春晚,更因恰逢首个非遗新年而显得格外特别。一、春晚“清新奇迹”:...
02-09
步入2024年,中国外贸以同比增长5%的亮眼成绩,向世界展示了其坚不可摧的经济韧性。这一非凡成就,根植于中国完善且强大的产业链与供应链体系,以及不断激发的创新活力与不懈奋斗。...
02-09
Apogee Entertainment已将《Turbo Overkill》中充满爆炸场面的动作元素和链锯带来的混乱体验带到了Xbox Series X/S平台。这款残酷的赛博朋克风格第一人称射击...
02-03
根据 The Gamer 报道,热门手机游戏《精灵宝可梦TCGPocket》的一些卡牌已经出现在了交易平台 eBay 上,而通过游戏外进行卡牌交易或是售卖卡牌是违反游戏用户守则...
02-15
极目新闻记者 吴昌华通讯员 胡子昂 何周谛2025年2月2日,农历正月初五,武汉归元寺迎来群众敬香祈福高峰。当天清晨,天还没亮,已有不少人等候在归元寺外,武汉公安民警、辅警早已在...
02-03
2月4日,据报道,《封神2》太原路演现场观众情绪失控,导演乌尔善被观众贴脸质问: “为什么封神的口碑两极分化,你想过没有? 我们作为路人一直在给你说好话,你有没有想过自己去解决这...
02-05
1月14日,记者从中国科学院合肥物质科学研究院等离子体物理研究所(以下简称“等离子体所”)获悉,由该所建设运行的国家重大科技基础设施“聚变堆主机关...
01-21
近日,在主题为“中医药突破人类重大疾病治疗的新认识”的香山科学会议上,“70%”是被与会专家反复提及的数字——癌症、心脑血管疾病、精...
01-24
  攻坚之年,辽宁战绩如何?社会各界十分关注。  1月19日,省政府新闻办召开的2024年全省经济运行情况新...
01-21
近日,我省14市陆续公布了2025年政府工作报告,各地增长目标也全部揭晓。今年,是全面振兴新突破三年行动的决...
02-09
  新华社拉萨1月21日电(记者蒋梦辰、刘洪明)2024年西藏农村居民人均可支配收入21578元,同比增长8.3%。同时,城乡居民收入差距持续缩小,城乡居民收入倍差由上年的2.60降至2.57。...
01-22
  中国财政部督促注册会计师协会加强自律监督  中新社北京1月16日电 (记者 赵建华)中国财政部近日印发《关于进一步加强注册会计师协会自律监督工作的意见》(下称《意见...
01-21
1 月 23 日消息,凯翼汽车宣布旗下凯翼拾月 Mate微型车将于今年第一季度上市,该车即目前在售拾月的 5 门 5 座版车型,作为参考,在售 3 门 4 座版凯翼拾月指导价区间为 5....
01-24
1 月 27 日消息,雷军昨日发文称,小米汽车已和 13 家行业内优质运营商达成充电补能网络合作,超过 102 万充电桩入驻「小米充电地图」,今年的 Flag要成为“公用桩充电之王...
01-28
  1、《难哄》电视剧定档于2025年2月18日 开播,这是根据同名小说改编的青春偶像剧。  2、白敬亭和章若楠领衔主演,白敬亭饰演桑延,章若楠饰演温以凡一角,这部剧将会上线优...
02-14
《余烬之上》是根据什么改编的?余烬之上大结局是什么电视剧《余烬之上》没有明确的原著改编来源,是原创剧本。余烬之上大结局是什么‌《余烬之上》的大结局主...
02-21
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮