AI医疗进入精准化“深水区” ：OpenAI医疗评估基准落地、大模型加速变革｜AI医疗浪潮㉑

1年前来源：观看：269

21世纪经济报道记者闫硕北京报道

近日，OpenAI推出HealthBench开源基准测试，用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性，引发业内广泛讨论。

根据官方信息，HealthBench由262位来自60个国家/地区执业的医生共同参与构建，整合了5000段真实的医疗对话数据。与以前的狭窄基准不同，HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估，涵盖多个健康背景和行为维度。

有研报分析指出，随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善，AI医疗模型的性能评估将更加科学、全面，有助于加速AI技术在医疗领域的落地应用，为医疗行业的智能化升级提供有力支持，相关企业有望迎来新的发展机遇。

另一方面，大模型本身也在加速变革。事实上，随着大模型竞争的白热化，竞争的焦点也已进入全新阶段：从早先粗放的参数体量堆砌竞赛，转变为模型效率优化与单位算力下的性能提升。

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示，随着大模型的不断进化，以及模型优化方法的不断提升，已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性，尤其是对于医药行业的AI应用来说，已显现三大趋势：模型即产品、本地与端侧部署、研发端AI应用的快速拓展。

新的评估测试集

改善人类健康将成为通用人工智能（AGI）的决定性影响之一。如果能够得到有效开发和部署，大语言模型有望拓展健康信息的获取渠道，支持临床医生提供高质量医疗服务，并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。

OpenAI认为，现有评估仍然存在一些问题，首先，未反映真实场景，脱离了实际医疗互动的复杂性，如仅采用标准化测试或有限临床问题。其次，缺乏专家医学验证，评分标准未经过医疗专家严格审核，难以体现专业医疗判断。此外，也并未预留改进空间，最先进模型已接近“天花板”得分，无法激励持续优化。

也因此，在过去的一年里，OpenAI与60个国家的262名医生合作构建了HealthBench，包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中，7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面，5个评估纬度则包含准确性、沟通质量、情境理解等方面。

在HealthBench的基础上，OpenAI还推出了两个特别版本：HealthBench Consensus（共识版）和HealthBench Hard（困难版）。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度；后者则设置了更高难度的评估场景，目前最高得分仅为o3模型的32%，主要被用于挑战模型在复杂医疗情境中的极限表现。

对于HealthBench的可信度，OpenAI开展了HealthBench Consensus（共识版）的元评估，即将模型的打分结果与医生人工打分进行对比。结果表明，7个评估领域中的6个领域，模型打分结果与医生评分的中位数水平高度一致。

有券商分析师向21世纪经济报道记者表示，在医疗等垂直领域，准确性和实际场景的相关性比“流畅对话”更为关键，HealthBench不同于过去大多关注通用大语言模型表现的基准，而是聚焦医疗垂直领域，为医疗领域的AI应用提供更为专业的评估工具，同时也将推动大模型领域建立专业的AI评估标准。

值得一提的是，在HealthBench的测评中可以发现，大模型在医疗领域的应用正迅速发展。比如，2023年推出的GPT-3.5Turbo得分为16%，而2024年5月推出的GPT-4o得分已达到32%，2024年12月推出的o3模型得分更是达到60%。另外，较小规模的模型尤其进步显著，GPT-4.1 nano的表现超过GPT-4o，且成本仅为GPT-4o的1/25。

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来：引领潮流》报告，人工智能是医疗保健的主要变革力量，预计2024年—2032年，AI医疗市场将以每年43%的速度增长，市场规模有望达到4910亿美元。

其中，AI在医疗服务中的应用前景广阔。中信建投证券分析指出，AI可以扩展医疗服务可及性，可应用于诊断前、诊治及诊断后阶段，解决当前医院系统医疗人员短缺和缺乏有效分流等问题，以少量资源实现高效率。此外，AI辅助医生诊疗未来有望降低误诊率的同时，在部分疑难杂症诊疗方面也有望发挥协同作用。

也因此，不仅评估工具在发生变革，大模型本身也在持续优化。当前，AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变，已进入到多模态融合阶段。

浙商证券分析指出，大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题，大模型通过“预训练+微调”架构，用统一参数体系处理多模态医疗数据。在临床应用中，借助多模态技术，AI可以实现跨模态数据的理解和动态时序建模，使得AI诊疗与医生的诊疗水平更加接近。

需要指出的是，由于万亿级参数模型高昂的训练成本与当下较低的投资回报比，叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈，大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛，转向模型效率优化与单位算力下的性能提升。

在应用方面，Barrett Li向记者总结道，随着大模型的不断进化，目前对于医药行业的AI应用来说，几大趋势已经显现：

首先，模型即产品。相比通用大模型在其他行业中相对较低的应用门槛，医药行业高度专业性的场景，对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广，大模型厂商未来预计会逐步关闭对外的API接口，转而将专业化后的模型本身作为产品直接提供给企业用户使用，颠覆现有的套壳应用层。而现有的专业AI软件，也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来，将会有更多直接针对医药行业训练的模型被广泛应用。

其次，本地与端侧部署。针对特定场景而训练优化的专业模型，可以在满足性能要求的前提下，减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下，专业中小模型的本地部署会提供极大的赋能。

“此外，研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素，相比通用大模型在商业化阶段的快速发展，医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及，研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。

点击展开全文

本文链接：http://www.gihot.com/news-7-17974-0.htmlAI医疗进入精准化“深水区” ：OpenAI医疗评估基准落地、大模型加速变革｜AI医疗浪潮㉑

声明：本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：CXO企业一季报：5家营收破10亿元，8家亏损，国际化与创新赛道或成破局关键

下一篇：交易超10亿美金，石药这款首仿药何以抢滩全球市场？

为你推荐

“南瓜家族成员”热量大揭秘

　　冬天适量食用南瓜,不仅能为身体提供丰富的营养,还能为健康加上一道坚实的屏障，南瓜也越来越成为受到人们喜爱的主食之一。南瓜...

01-21

《冬春季呼吸道传染病防治健康提示》来啦

　　进入冬季，全国多地甲流病例数量明显增加。网络相关词条搜索量不断上升，不少网友表示已不幸“中招”。近日，山东省相关部门联合发布《冬春季呼吸道传染病防治健康提示...

01-21

齐鲁师范学院在山东省第五届高校体育教师基本功大赛中获得团体总分一等奖

　　大众网记者秦瑾通讯员张建东报道　　近日，由山东省教育厅主办、曲阜师范大学承办的山东省第五届高校体育教师基本功大赛圆满落幕。齐鲁师范学院体育学院教师们以...

01-21

辽宁大学与沈阳“九·一八”历史博物馆共同举办合作共建签约暨揭牌仪式

日前，辽宁大学马克思主义学院与沈阳“九·一八”历史博物馆共建活动在辽宁大学崇山校区图书馆学术报告厅...

01-21

金融监管总局印发《保险公司监管评级办法》

　　近日，金融监管总局发布《保险公司监管评级办法》（简称《评级办法》），自2025年3月1日起施行。监...

01-21

58家非上市财险公司2024年实现盈利

　　本报记者冷翠华见习记者杨笑寒　　2024年四季度偿付能力报告陆续披露，非上市财险公司的“...

02-11

三个水瓶座男生喜欢你表现，从这几个方面就能看出来

水瓶座男生通常都是聪明、独立和理性的人，他们在感情方面也有着自己独特的表达方式。如...

01-22

能被水瓶男看上的女人特征是什么

水瓶座的男人通常具有独立、聪明、理性和创新的特点。他们对于自由和个人空间非常重视...

01-22

170偏瘦男生穿搭？ 170斤的男生穿搭？

170偏瘦男生穿搭？ 170斤的男生穿搭？一、170偏瘦男生穿搭？建议以合身的休闲套装为主。大家都知道，男生身高170厘米，是属于中等身材，标准体重在120斤左右。如果这个男生偏瘦，则建议日...

02-17

加拿大户外运动品牌排行榜？

加拿大户外运动品牌排行榜？1、TheNorthFace北面　　品牌创立时间：1966年　　北面是1966年创立于美国的全球知名户外运动品牌，专注于为全球户外运动爱好者提供户外服装、背包、...

02-17

刘强东做外卖，王兴搞AI，我看到大佬们的野心

与其被动防守，不如主动出击。近年来，随着各行业竞争日趋白热化，内卷现象不断加剧。面对生存压力，互联网巨头们在巩固核心业务的同时，愈发迫切地需要拓展多元化布局。这一战略转...

02-18

淘天高管会：扶持商家增长成2025最高战略

阿里电商要增长，扶持商家是第一优先级。据晚点LatePost消息，2月2日（大年初五），阿里电商事业群CEO蒋凡召开小范围高管会，明确了2025年淘宝天猫的第一件大事是通过扶持优质品牌和商...

02-20

快手快聘新春招工会：双方意向达成量同比增长572%

2月16日消息，新春期间，快手快聘新春招工会再次引爆蓝领招聘市场，1月15日-2月12日活动期间，用户求职意愿激增，求职人数是去年的284%，超1000万用户通过视频直播求职。同时，平台撮合效...

02-17

从合作到独家控制，继收购沙宣后汉高再收中国知名代工厂

又一外资大手笔并购！近日，德国化妆品巨头汉高宣布完成对苏州博克生物科技股份有限公司（以下简称“苏州博克”）的收购，继去年完成对宝洁...

03-10

EBC平台第二届百万美金交易大赛：携手好友，以连接释放热爱

全球性金融券商集团英国EBC Group平台始终致力于以领先生态，与全球交易者共塑交易的未来。自第一届交易大赛起，为赤忱的热爱和卓越的才华提供舞台，在全球内寻找交易好手以赋能...

01-24

金价攀升或非短期，多重利好年内或将黄金推升至3000

自去年底开始，黄金多头优势逐渐退却，国际现货黄金价格经历几次大跌后一度跌下2700关口，多空进入漫长的震荡周期，多头始终无法找到再度冲高的时机。　　北京时间1月21日，国际现货...

01-24

崔佛演员想要客串《GTA6》但想要一开始就被干掉

在《GTA5》中为魅力主角之一崔佛配音的男演员史蒂文·奥格（Steven Ogg）希望能在《GTA6》中最后一次扮演这个疯子角色。史蒂文·奥格希望崔佛能在游戏早期的某个...

01-29

用户称RTX 5090运行中有烧焦味英伟达虚惊一场

2月10日消息，这RTX 5090才上市没多久，问题已经多到令人无语，什么黑屏、变砖、系统无法识别等.... 据外媒Tom's Hardware报道称，有用户已经表示，RTX 5090在运行当中...

02-12

美宣布对中国商品加征10%关税，商务部：强烈不满，坚决反对，将采取相应反制措施

据新华社报道，美国总统特朗普2月1日签署行政令，对进口自中国的商品加征10%的关税。美国的这一最新贸易保护措施在国际社会和美国国内遭到广泛反对。商务部回应美对华加征关税...

02-02

第一家被美国列入实体清单的大模型企业出现了！企业回应：强烈反对

被誉为“AI六小虎”之一北京智谱华章科技有限公司（以下简称智谱）被拉入实体清单了。当地时间1月15日，美国商务部工业和安全局（BIS）修订...

01-21

河北唐山：自动化让城市配电网更智能

1月13日，科技日报记者来到河北省唐山市220千伏君瑞变电站设备间，看到一只智能巡检“机器狗”正在一台变电设备前执行任务，不时伸出背上的伸缩臂探视设...

01-22

寒潮持续辽东湾海域超四分之一海面被海冰覆盖

　　受到近期寒潮天气影响，渤海辽东湾海域的海冰发展迅速，目前辽东湾超过四分之一的海面被海冰覆盖。...

02-07

冰雪旅游“火”力十足

　　本报记者集体采写　　在披红挂彩、喜气洋洋的新春氛围中，冰雪运动、冰雪旅游迅速升温，成为人...

02-11

00后女生大学毕业后做保洁，春节前每天要干八小时以上，一天能赚350元

　　海报新闻记者黄晓荣报道 ...

01-21

武铁首趟夜行高铁“温暖”出发：车上特意准备了热茶和毛毯

新闻记者潘锡珩通讯员苏杭徐媛媛1月21日凌晨0时55分，1168名旅客从广州白云站搭乘G4554次“夜行高铁”踏上返回武汉的归程，虽已是深夜，但旅客们回家的热情满满。这是中国铁路...

01-22

最高续航719公里！“六边形战士”Model Y 再进化，预售价26.35万元起

1月10日，焕新Model Y正式登陆特斯拉中国官网，同时上线首发版车型，预售价26.35万元起，在外观、座舱、续航等方面均迎来升级，安全、智能等硬核产品实力进一步提升，使这款全球最畅销...

01-21

10万元级别也有好看的旅行车了！比亚迪海豹06旅行版谍照

[本站国内谍照] 海豹06家族再扩大，除了海豹06 DM-i、海豹06 GT，和已经曝光的海豹06 EV，海豹06旅行版谍照也随之曝光。新车设计看齐海豹06 DM-i，引入第五代DM插混。当然...

01-24

滤镜什么时候开播

　　1、《滤镜》定档于2025年2月24日开播，檀健次跟李兰迪领衔主演的，这是一个充满奇幻色彩的故事。　　2、一个神秘的超科技产品，让女主苏橙橙拥有了改变容貌，甚至是变成其他东...

02-17

树下有片红房子陈欢尔和谁在一起了

　　1、《树下有片红房子》陈欢尔和景栖迟在一起了，两人在打打闹闹中沉淀下了深厚的感情，互相陪伴彼此走过了艰难的时光。　　2、虽然宋丛先喜欢的陈欢尔，但陈欢尔只是把他当...

02-18

全部导航

AI医疗进入精准化“深水区” ：OpenAI医疗评估基准落地、大模型加速变革｜AI医疗浪潮㉑

新的评估测试集

大模型持续优化

卫生健康系统推出为民服务“八件实事”

“燃烧”脂肪关键机制发现

春节返乡潮遇上呼吸道疾病高峰：基层与县医院如何筑牢防线？

春节假期即将落幕，是否中招“假期综合征”？

21健讯Daily | 大S因流感并发肺炎去世；两部门推动异地就医医保支付机制变革

诺华31亿美元收购生物制药企业，MNC“买买买”大潮已至？

卫生健康为民服务八件实事今年落地

AI重构医疗：DeepSeek能否成为医药行业变革的催化剂？｜AI医疗浪潮⑥