顺天堂大学医学院综合诊疗科学讲座的兼任讲师高桥宏瑞及主任教授内藤俊夫等人,利用通过ChatGPT自订GPT创建的生成式AI仿真患者(27岁男性下肢无力病例),与医学生、实习医生及指导医生等共7人进行医疗面谈的对话记录,探讨在评估医患对话记录时AI评分的有效性。针对评估以患者为中心的医疗面试沟通能力的25个项目,比较了生成式AI(GPT-o1 Pro/GPT-5 Pro)与5名临床指导医生的评分结果,发现AI评分与人类评分呈现高度一致(r=0.87–0.90,CCC=0.86–0.88),且在重复评分中也表现出稳定性。其变异系数约为人类的一半,评分时间也缩短了58%至67.6%。尽管这是一项基于少数样本和单一病例的初步研究,但通过「AI进行初步评分,教师确认其内容的评估模式」,有望节省评估业务的人力,并扩大迅速且标准化回馈的机会。未来期望能在多病例、多机构中验证其普遍适用性。 本论文于2026年2月17日发表在《JMIR Medical Education》期刊的在线版。 本研究成果的要点 - 利用AI仿真患者与医学生、实习医生及指导医生的医疗面试对话记录,实施了比较生成式AI(GPT-o1 Pro/GPT-5 Pro)自动评分与5名临床指导医生评分的妥当性验证。 - 确认AI评分与人类评分呈现高度一致,平均得分差距也很小。 - AI评分将评估时间缩短了约6成,且重复评分的稳定性也很高,因此提出了由AI进行初步评分、教师确认的评估模式,展现了面试教育省力化与规模化的可能性。 背景 医生所需要的知识不只局限于书本。在有限的时间内整理患者的诉求,无遗漏地进行鉴别诊断,同时给予安心感的面试能力至关重要。面试的品质直接关系到诊断的精确度、医疗安全以及患者的认同感。近年来,客观评估医学生的面试能力,并根据其达成度进行培育的教育重要性日益增加。然而,在评估与回馈方面,除了需要确保教师和仿真患者(扮演患者角色的人员)之外,还需要进行评分作业,导致教育现场的劳动负担相当庞大。在针对多数人的教育中,也面临难以提供足够面试机会的课题。此外,容易产生评分差异或指导延迟,使得确保教育品质及教育机会变得困难。如果能实现可靠的自动评估,不仅有助于减轻教育者的负担,还能更广泛地提供反复练习和即时回馈。但是,针对医疗面试的对话记录,AI评估是否能如教师评估般可靠,过去并未得到充分验证。因此,本研究的目的是,针对医疗面试的文本记录,由AI与临床指导医生在相同标准下进行评分,并验证其一致性与评估时间的缩短效果。 内容 在本研究中,通过ChatGPT自订GPT创建的生成式AI仿真患者(27岁男性下肢无力病例),与2名医学生、3名实习医生及2名指导医生共计7人进行了医疗面试,并将对话纪录自动生成的文本稿(未经人工修改)作为评估对象。面试评估采用了评估以患者为中心的医疗面试沟通能力的25个项目、总分125分的评分量表,将5名临床指导医生独立评分后的平均值作为人类评估。另一方面,生成式AI(GPT-o1 Pro、GPT-5 Pro)在相同的指示条件下对每份对话纪录进行5次评分,并验证其与人类评估的一致性及评分的稳定性,也就是重复评估相同纪录时的误差幅度。结果显示,人类评估的平均得分为53.7分,而AI的得分分别为52.1分及53.2分,呈现相近的数值,得分的趋势也吻合良好(相关系数0.87~0.90)。此外,AI与人类的得分差平均为0.43分(差距范围-4.87~5.72)及1.54分(-8.60~11.68),并未发现明显的偏差。在评分时间方面,人类每件平均需要10分16秒,而AI则需要4分19秒(缩短58%)及3分2秒。