
结合传统的大型语言模型Nal方法提高了识别认知能力下降早期迹象的准确性,为早期诊断提供了新的希望。
最近的一项电子生物医学研究评估了大型语言模型(LLMs)在识别电子健康记录(EHRs)中的认知衰退迹象方面的有效性。
阿尔茨海默病和相关的痴呆症折磨着数百万人,降低了他们的生活质量,并造成了经济和情感上的损失。早期识别认知退化可能导致更有效的治疗和更高水平的护理。
法学硕士在几个医疗保健领域和临床语言处理任务(包括信息提取、实体识别和问答)中展示了令人鼓舞的结果。然而,它们在使用电子健康信息检测特定临床疾病(如认知能力下降)方面的功效值得怀疑。
很少有研究使用符合HIPAA(健康保险流通与责任法案)的云计算系统的llm评估电子病历数据。很少有研究将大型语言模型与传统的基于人工智能(AI)的方法(如机器学习和深度学习)进行比较。这种类型的研究可能会影响模型增强技术。
在本研究中,研究人员利用大型语言模型和电子病历数据研究了进行性认知衰退的早期检测。他们还比较了大型语言模型与使用特定领域数据训练的传统模型的性能。
研究人员分析了波士顿麻省总医院布里格姆分校的专有和开源法学硕士。他们研究了年龄≥50岁的人在2019年轻度认知障碍(MCI)诊断前4年的医疗记录。
国际疾病分类,第十版,临床修改(ICD-10-CM)确定MCI。研究小组排除了暂时性、可逆性和恢复性认知衰退的病例。
符合HIPAA法案的云计算系统支持GPT-4(专有)和Llama 2(开源)的提示。
诸如错误分析指令、检索增强生成(RAG)和硬提示之类的提示增强方法支持LLM开发。硬类型提示选择包括随机、目标和K-means聚类辅助选择。
基线研究模型包括XGBoost和基于注意力的深度神经网络(DNN)。DNN框架包括双向长短期记忆(LSTM)网络。基于性能,研究人员选择了最佳的基于法学硕士的方法。
他们基于多数投票构建了一个三模型合奏。他们使用混淆矩阵评分来评估模型的性能。该团队使用直观的手动模板工程方法来微调任务描述。额外的任务指导增强了LLM推理。
该研究数据集包括1,969人的4,949份临床记录,其中53%为女性,平均年龄为76岁。认知功能关键词过滤笔记,开发学习模型。没有关键词过滤的测试数据集包括来自1161人的1996个临床记录,其中53%是女性,平均年龄为77岁。
研究小组发现,GPT-4比美洲驼2更准确、更高效。然而,GPT-4并不能胜过使用特定领域和本地EHR数据训练的传统模型。使用通用领域、机器学习或深度学习训练的大型语言模型的错误概况非常不同;将它们合并成一个整体可以显著提高性能。
集成研究模型达到了90%的精度,94%的召回率和92%的F1分数,在所有性能指标上优于所有单独的研究模型,结果具有统计学意义。
值得注意的是,与最准确的个体模型相比,集合研究将精度从80%以下提高到90%以上。误差分析表明,一个模型的最小误差预测了63个样本。
然而,在所有模型中,只有2例互误(3.20%)。研究结果表明,不同模型的误差分布存在差异。采用五次提示和基于错误的指令的动态RAG方法获得了最好的结果。
GPT-4强调了老年痴呆症的治疗选择,如阿拉西普和多奈哌齐。它还能比以前的模型更好地检测出轻度神经认知障碍、重度神经认知障碍和血管性痴呆等诊断。GPT-4解决了认知问题的情感和心理后果,例如焦虑,这通常被其他模型所忽视。
与传统模型不同,GPT-4可以处理模棱两可的短语并分析复杂的信息,而不会混淆否定和上下文因素。然而,GPT-4可能偶尔会过度解释或过于谨慎,忽略了临床发生的潜在原因。GPT-4和基于注意的dnn偶尔都会误解临床检测结果。
根据研究结果,大型语言模型和基于电子健康记录训练的传统人工智能模型具有不同的错误概况。将三个模型结合到集成研究模型中,提高了诊断性能。
研究结果表明,使用一般领域训练的法学硕士需要额外的发展来改善临床决策。未来的研究应该将法学硕士与更本地化的模型结合起来,利用医学信息和领域专业知识来提高特定任务的模型性能,并尝试提示和微调策略。











