AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

4个月前 来源: 观看:174

21世纪经济报道记者 闫硕 北京报道GHW即热新闻——关注每天科技社会生活新变化gihot.com

近日,OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性,引发业内广泛讨论。GHW即热新闻——关注每天科技社会生活新变化gihot.com

根据官方信息,HealthBench由262位来自60个国家/地区执业的医生共同参与构建,整合了5000段真实的医疗对话数据。与以前的狭窄基准不同,HealthBench通过48562个独特的医生编写的评分标准进行有意义的开放式评估,涵盖多个健康背景和行为维度。GHW即热新闻——关注每天科技社会生活新变化gihot.com

有研报分析指出,随着OpenAI推出HealthBench等医疗大模型评估基准的建立和完善,AI医疗模型的性能评估将更加科学、全面,有助于加速AI技术在医疗领域的落地应用,为医疗行业的智能化升级提供有力支持,相关企业有望迎来新的发展机遇。GHW即热新闻——关注每天科技社会生活新变化gihot.com

另一方面,大模型本身也在加速变革。事实上,随着大模型竞争的白热化,竞争的焦点也已进入全新阶段:从早先粗放的参数体量堆砌竞赛,转变为模型效率优化与单位算力下的性能提升。GHW即热新闻——关注每天科技社会生活新变化gihot.com

IQVIA艾昆纬战略规划副总监Barrett Li向21世纪经济报道记者表示,随着大模型的不断进化,以及模型优化方法的不断提升,已经为AI在要求更特殊的专业场景中的更广泛应用拓展了可能性,尤其是对于医药行业的AI应用来说,已显现三大趋势:模型即产品、本地与端侧部署、研发端AI应用的快速拓展。GHW即热新闻——关注每天科技社会生活新变化gihot.com

新的评估测试集

改善人类健康将成为通用人工智能(AGI)的决定性影响之一。如果能够得到有效开发和部署,大语言模型有望拓展健康信息的获取渠道,支持临床医生提供高质量医疗服务,并帮助人们维护自身健康。而评估对于理解模型在医疗场景中的表现至关重要。GHW即热新闻——关注每天科技社会生活新变化gihot.com

OpenAI认为,现有评估仍然存在一些问题,首先,未反映真实场景,脱离了实际医疗互动的复杂性,如仅采用标准化测试或有限临床问题。其次,缺乏专家医学验证,评分标准未经过医疗专家严格审核,难以体现专业医疗判断。此外,也并未预留改进空间,最先进模型已接近“天花板”得分,无法激励持续优化。GHW即热新闻——关注每天科技社会生活新变化gihot.com

也因此,在过去的一年里,OpenAI与60个国家的262名医生合作构建了HealthBench,包括5000个真实的医疗对话数据。HealthBench 的测试样本被分为7个主题和5个评估维度。其中,7个主题包括紧急转诊、专业沟通定制、健康数据任务等方面,5个评估纬度则包含准确性、沟通质量、情境理解等方面。GHW即热新闻——关注每天科技社会生活新变化gihot.com

在HealthBench的基础上,OpenAI还推出了两个特别版本:HealthBench Consensus(共识版)和HealthBench Hard(困难版)。前者包含34个经医生共识验证的、对模型行为表现尤为关键的评估维度;后者则设置了更高难度的评估场景,目前最高得分仅为o3模型的32%,主要被用于挑战模型在复杂医疗情境中的极限表现。GHW即热新闻——关注每天科技社会生活新变化gihot.com

对于HealthBench的可信度,OpenAI开展了HealthBench Consensus(共识版)的元评估,即将模型的打分结果与医生人工打分进行对比。结果表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致。GHW即热新闻——关注每天科技社会生活新变化gihot.com

有券商分析师向21世纪经济报道记者表示,在医疗等垂直领域,准确性和实际场景的相关性比“流畅对话”更为关键,HealthBench不同于过去大多关注通用大语言模型表现的基准,而是聚焦医疗垂直领域,为医疗领域的AI应用提供更为专业的评估工具,同时也将推动大模型领域建立专业的AI评估标准。GHW即热新闻——关注每天科技社会生活新变化gihot.com

值得一提的是,在HealthBench的测评中可以发现,大模型在医疗领域的应用正迅速发展。比如,2023年推出的GPT-3.5Turbo得分为16%,而2024年5月推出的GPT-4o得分已达到32%,2024年12月推出的o3模型得分更是达到60%。另外,较小规模的模型尤其进步显著,GPT-4.1 nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25。GHW即热新闻——关注每天科技社会生活新变化gihot.com

大模型持续优化

根据世界经济论坛发布的《人工智能驱动健康的未来:引领潮流》报告,人工智能是医疗保健的主要变革力量,预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元。GHW即热新闻——关注每天科技社会生活新变化gihot.com

其中,AI在医疗服务中的应用前景广阔。中信建投证券分析指出,AI可以扩展医疗服务可及性,可应用于诊断前、诊治及诊断后阶段,解决当前医院系统医疗人员短缺和缺乏有效分流等问题,以少量资源实现高效率。此外,AI辅助医生诊疗未来有望降低误诊率的同时,在部分疑难杂症诊疗方面也有望发挥协同作用。GHW即热新闻——关注每天科技社会生活新变化gihot.com

也因此,不仅评估工具在发生变革,大模型本身也在持续优化。当前,AI在医疗领域的应用历经了从规则驱动到数据驱动、从单一任务优化到多模态协同的演变,已进入到多模态融合阶段。GHW即热新闻——关注每天科技社会生活新变化gihot.com

浙商证券分析指出,大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,大模型通过“预训练+微调”架构,用统一参数体系处理多模态医疗数据。在临床应用中,借助多模态技术,AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近。GHW即热新闻——关注每天科技社会生活新变化gihot.com

需要指出的是,由于万亿级参数模型高昂的训练成本与当下较低的投资回报比,叠加通用参数的堆砌对专业场景下的模型效率提升遇到了瓶颈,大模型竞争的焦点已从早先粗放的参数体量堆砌竞赛,转向模型效率优化与单位算力下的性能提升。GHW即热新闻——关注每天科技社会生活新变化gihot.com

在应用方面,Barrett Li向记者总结道,随着大模型的不断进化,目前对于医药行业的AI应用来说,几大趋势已经显现:GHW即热新闻——关注每天科技社会生活新变化gihot.com

首先,模型即产品。相比通用大模型在其他行业中相对较低的应用门槛,医药行业高度专业性的场景,对于模型的适配性有着更高的要求。而随着模型训练与针对特定知识库优化的技术与应用逐渐推广,大模型厂商未来预计会逐步关闭对外的API接口,转而将专业化后的模型本身作为产品直接提供给企业用户使用,颠覆现有的套壳应用层。而现有的专业AI软件,也必须逐步增强其底层模型训练的能力以应对这一挑战。在可见的未来,将会有更多直接针对医药行业训练的模型被广泛应用。GHW即热新闻——关注每天科技社会生活新变化gihot.com

其次,本地与端侧部署。针对特定场景而训练优化的专业模型,可以在满足性能要求的前提下,减少对硬件方面提出过高的要求。因此在成本可控性、分析可溯源、数据安全、反馈延迟等要求更高的场景下,专业中小模型的本地部署会提供极大的赋能。GHW即热新闻——关注每天科技社会生活新变化gihot.com

“此外,研发端AI应用也在快速拓展。出于高度专业性、数据安全、隐私合规等因素,相比通用大模型在商业化阶段的快速发展,医药行业企业尚未在研发阶段感受到AI所带来的巨大转变。而随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒未来也有望被逐一消解。”Barrett Li说道。GHW即热新闻——关注每天科技社会生活新变化gihot.com

本文链接:http://www.gihot.com/news-7-17974-0.htmlAI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇:CXO企业一季报:5家营收破10亿元,8家亏损,国际化与创新赛道或成破局关键

下一篇:交易超10亿美金,石药这款首仿药何以抢滩全球市场?

为你推荐
21世纪经济报道记者 韩利明 上海报道春节前,王晨(化名)家中未满一岁的幼儿突发咳嗽、流涕等症状。尽管卫生院就在隔壁,王晨还是选择驱车前往县...
02-02
  大众网记者 王一刚 报道  报纸王国欢迎您,纸不仅是孩子们熟知的事物,更是他们游戏,创作和探索的素材,在《报纸王国》主题活动中孩子们与报纸展开了一系列的活动,不知不...
01-21
  大众网记者 杨涛报道  近日,2024年山东省“技能兴鲁”职业技能大赛暨第五届山东省汽车服务行业职业技能竞赛在青岛港湾职业技术学院成功举行。“技能兴鲁”职业技能...
01-21
  在我国人口老龄化加速的大背景下,养老金融成为社会关注的焦点。中共中央、国务院近日出台的...
01-21
  摘要  【供需有望改善钢价或先抑后扬】1月上旬,炉料补库渐入尾声,下游需求处于淡季,炉料及钢...
02-05
狮子座男孩通常自信、勇敢,喜欢成为众人焦点。然而,有时候我们可能想开个玩笑或者捉弄一...
01-22
金牛座的男生通常被认为是稳重、务实和可靠的代表。他们在感情中也是如此,对于选择伴侣...
01-22
掌握潮流:男士服饰搭配的5个必备技巧在这个追求个性的时代,男士服饰搭配越来越受到关注。作为一名对时尚有追求的男士,我经常会思考如何在众多潮流中找到适合自己的搭配方法。...
02-12
吉林时尚潮流服饰搭配指南,让你成为街头的焦点在吉林这个四季分明的地方,潮流服饰搭配不仅关乎个人风格,更是展现独特个性与生活态度的方式。无论是冬日的寒风中,还是夏日的阳光...
02-17
1.抖音再次下调商家保证金随着春节假期临近尾声,大家也都开始陆续复工。而为了鼓励商家以更加饱满的热情投入到工作中,抖音电商再次出手,推出了一系列扶持商家的新举措。近日,抖...
02-08
2月19日消息,阿里云墨西哥数据中心今日正式启用,这是阿里云在拉美区域的第一座数据中心,为中国出海企业及当地客户提供产品及服务。阿里云墨西哥数据中心首批上线的产品涵盖弹...
02-20
法国作家罗曼·罗兰曾说:“没有一场深刻的恋爱,人生等于虚度一场。”爱情自古以来是人类追求、渴望的情感之一,人们在它带来的诗意与...
03-04
3月4日消息,农历二月初二“龙抬头”,理发行业迎来生意开门红。美团数据显示,“龙抬头”当天,理发订单量较去年同期翻倍增长,理发订单预约量周同比增长270%,上午11时-12时、下午16...
03-05
全球性金融券商集团英国EBC Group平台始终致力于以领先生态,与全球交易者共塑交易的未来。 自第一届交易大赛起,为赤忱的热爱和卓越的才华提供舞台,在全球内寻找交易好手以赋能...
01-24
自去年底开始,黄金多头优势逐渐退却,国际现货黄金价格经历几次大跌后一度跌下2700关口,多空进入漫长的震荡周期,多头始终无法找到再度冲高的时机。  北京时间1月21日,国际现货...
01-24
《刺客信条:影》未发布的故事及角色细节,通过一家成人卡通网站泄露了出去。 上周末,该游戏当前尚未发布的艺术设定集扫描件被发布在一个成人动漫网站上,随后被发行...
02-05
《最终幻想7:重生》“轻松抓陆行鸟”mod出自mod制作者LordGregory之手。有了它,你就无需重玩那些必定失败的潜行环节,在这些环节中,你得悄悄靠近当地的陆行鸟。通...
02-10
亚冬会的成功举办,离不开哈尔滨各行各业的倾情参与和服务保障。其中,有一位小有名气的“的哥”,他叫徐峰,是一位“五星级驾驶员”。每年一到冰雪旅游旺季,他都会给乘客“整活”送...
02-05
随着人工智能技术的迅猛发展,AI大模型“深度求索 DeepSeek”凭借其突破性进展迅速走红,各种“培训课”马上就来了。学习人工智能一定要付费吗?消费者如何甄别纷繁的网课?有消费...
02-07
  IT之家1月19日消息,闻泰科技昨日发布公告,预计2024年度实现归属于母公司所有者的净亏损30亿元...
01-21
当下,IP成为了企业品牌发展的主旋律,而创始人IP更是企业品牌营销中常见的一个名词。2024年12月26日至28日,全球创始人IP领袖高峰论坛顺应时势,围绕“创...
01-21
  几乎从不运动的北京白领李莹最近入手了人生第一双跑鞋,目的很单纯:为了穿搭显高。  高跟鞋...
01-23
  潮玩、手办等各渠道售罄,有的商品预售发货时间已排到6月底……  一“吒”难求!《哪吒2》周...
02-14
  中新经纬1月17日电 17日,“国家网络安全通报中心”微信号发布《关于利用人工智能技术绕过图形类验证机制新型犯罪手法预警通报》。  近期,广西桂林公安网安部门工作发现...
01-21
  中新经纬1月17日电 国新办17日就2024年国民经济运行情况举行发布会。国家统计局局长康义表示,从未来看,支撑消费持续增长的有利条件较多。  有记者提问称:中央经济工作会...
01-21
  原标题:新能源汽车成为中国制造“亮丽名片”多举措保障产业良好发展  在21日国务院新闻办...
01-24
2 月 2 日消息,继昨日多位博主分享了蔚来 5 年 0 息购车优惠海报后,蔚来官方公布了限时金融优惠更多细节:用户 2025 年 2 月 1 日至 2 月 28 日期间支付定金购买蔚来,可...
02-02
最近热播的《大梁第一女仵作》受到许多观众的喜爱,大家不仅追剧热情高涨,还对情节和人物充满好奇。为了让大家更全面地了解这部电视剧,这里整理了一些相关信息...
02-19
《白色橄榄树》凭借其独特的故事情节、精湛的演员表演和震撼人心的视听效果赢得了广大观众的喜爱。播出后不久,这部剧就在各大热门视频网站上迅速登上了排行...
02-20
返回

点击右上角微信好友

朋友圈

点击浏览器下方“”分享微信好友Safari浏览器请点击“”按钮

点击右上角QQ

点击浏览器下方“”分享QQ好友Safari浏览器请点击“”按钮