ChatGPT现已向部分用户开放将Apple Health数据连接到应用内全新“健康”板块的功能。听起来很简单:你把自己的健身和医疗数据交给聊天机器人,它就返还给你健康洞察。但当一位记者将十年Apple Watch数据喂给它时,得到的结果非但没有带来清晰,反而引发了强烈担忧。
这次测试暴露了当系统在理解不足的情况下却给出斩钉截铁的结论时,这种功能有多危险。它非但没有提供帮助,反而在真实的医疗问题上制造了困惑和恐慌。
记者做了什么,又发生了什么
《华盛顿邮报》记者Geoffrey Fowler将自己的Apple Health数据授权给了ChatGPT,其中包括十年间累计的2900万步行走记录和600万次心跳数据。随后,他要求ChatGPT Health对他的心脏健康进行评分。
聊天机器人直接给了他一个F。
这个结果让他震惊,于是他拿着结果去找真实的心脏科医生。医生当场否决了这个评分,表示Fowler的心脏病风险极低,低到保险公司很可能都不会批准额外的检查项目。这让AI的结论与真实医疗建议之间的巨大鸿沟暴露无遗。
专家强烈反驳AI的结论
来自斯克里普斯研究所的心脏病学家Eric Topol也审视了整个事件。他称聊天机器人的分析“毫无根据”,并警告公众不要相信尚未成熟的工具给出的医疗建议。
他进一步解释了危险所在,正如他所说:“这样做的人会真的被自己的健康状况吓坏。”他还指出,反过来也可能出现另一种问题——让本来不健康的人产生一切正常的错误安心感。
更大的问题是极度不稳定
最令人不安的并非那个糟糕的F分,而是分数反复无常。Fowler再次询问同一个问题时,ChatGPT的分数在F和B之间来回跳动。与此同时,它甚至会忘记用户的基本信息——比如年龄和性别,尽管它拥有全部数据访问权限。
这表明系统对数据的理解根本不具备稳定性,每次回答都可能截然不同,使得它的健康建议极不可靠。
Claude的表现也好不到哪儿去
Fowler还用相同的数据测试了Anthropic的Claude聊天机器人。Claude给出了C的分数,看起来比F好一些,但它依然没能正视Apple Watch数据的局限性——这些数据从来都不是用来替代正规医疗检测的。
虽然分数变了,但核心问题并没有改变。
这些健康工具到底是怎么宣传的
OpenAI和Anthropic都声明,他们的工具不会替代医生,也不会提供诊断,仅提供信息。然而,这些工具依然会给出评分和评判,听起来就像医学结论。
这形成了一个灰色地带。美国食品药品监督管理局(FDA)近期表示要“作为监管者退后一步”,以支持创新。但FDA局长同时警告,不要让AI在未经审评的情况下做出医疗或临床断言。ChatGPT和Claude都坚称自己没有越界,即便它们在对某人健康状况打分。
ChatGPT Health目前的现状
目前ChatGPT与Apple Health的连接功能仅向一小部分等待名单中的Beta用户开放。在报道发出后,OpenAI表示计划改进这一系统。正如OpenAI副总裁Ashley Alexander所说:“我们通过等待名单的方式推出ChatGPT Health,是为了在广泛开放前学习并改进用户体验。”
但这次测试已经说明了一个清晰的事实:把健康数据交给AI,并不等于AI真正理解这些数据。在这一现状改变之前,这类工具带来的风险很可能大于益处。

Jacky
全部评论0