大型语言模型(LLMs)在多个领域已达到最先进的性能,但其临床部署面临关键障碍,尤其是在复杂场景中推理不足和解释性有限。这些挑战在门诊和急诊的神经外科诊断中尤为突出,因为时间敏感的决策、数据碎片化和复杂的共病使得传统的自由文本建模方法不可靠。为解决现有大型语言模型在医疗辅助诊断中的局限性,特别是在可解释性和预测性能方面,本研究提出了 NRAG 辅助诊断方法,该方法结合了LLM 与知识图谱。
2025
研究方法
该研究围绕神经外科门诊与急诊疾病诊断的LLM框架NRAG展开,其研究方法按逻辑顺序可分为数据处理、框架构建、实验设计三大核心模块,具体分点分类整理如下:
图1 NRAG的框架
一、数据收集与预处理
1、数据来源:核心数据来自首都医科大学附属北京天坛医院2004-2020年神经外科门诊病历(0.3B条结构化记录),补充数据集采用CNI(Chinese Neurosurgical Instruction)神经外科急诊数据集(51,119条就诊记录,含69种诊断类型)。
2、数据预处理流程:
(1)标准化标识:为每条记录分配唯一患者ID和就诊ID,补全缺失ID或剔除无法关联的记录;
(2)数据合并:合并同一患者1个月内的多次就诊记录,以患者为分析单元;
(3)文本清洗:去除重复标点、乱码等异常字符,过滤个人隐私信息;
(4)术语规范化:基于临床高频表达和专家经验构建症状术语词典,疾病诊断信息与ICD-10编码对齐。
- 数据集构建:
构建神经外科QA数据集(5K条记录),包含患者病历、KG推理路径、诊断结果三部分核心内容;
按9:1比例随机划分训练集与测试集(患者级划分避免数据泄露),平均每条记录含2.1个诊断标签。
二、NRAG框架构建
框架通过“关键信息识别-知识检索与增强-诊断预测”三步流程实现LLM与知识图谱(KG)的融合,具体如下:1、关键信息识别:
采用NLP技术(BERT-CRF、BERT-BiLSTM-CRF)从电子病历中提取症状、疾病、用药等实体;
对提取的实体进行标准化处理,形成症状集合(S)和疾病集合(D),构建归一化的症状-疾病映射关系。
2、知识检索与增强:
知识图谱基础:整合多源数据(百万级病历+UMLS、SympGAN等公共医学知识库),构建含6.8k实体、330k关系的神经外科领域KG;
检索路径设计:聚焦“症状-疾病”相关单跳/多跳路径,包括症状→疾病、症状→药物→疾病、症状→新症状→疾病等7类核心路径;
检索优化:采用Personalized PageRank(PPR)算法筛选关键节点,结合医学先验约束(限制1-2阶邻域),平衡检索效率与临床相关性;
路径筛选策略:
策略1(路径优先):统计子路径频率,按重要性得分保留Top-α比例路径;
策略2(节点优先):当子路径稀疏时,统计疾病节点频率,保留Top-β比例疾病作为候选诊断。
- 诊断预测:
基础模型与微调:以ChatGLM3-6B为基础模型,采用P-Tuning v2进行参数高效微调;
提示词设计:构建临床场景化模板,格式为“角色定义+患者病历信息+KG增强信息”,引导模型生成诊断结果;
任务形式:将疾病诊断转化为多标签文本分类问题,模型输入为(提示词+归一化症状+KG增强信息),输出为预测诊断(D’)。
三、实验设计与评估方法
1、实验设置:
基线模型:选取通用LLM(ChatGPT-4、Chinese-LLaMA-Alpaca-2-7b)和医疗领域LLM(DeepSeek-v3、LLM4DEU)作为对比;
硬件与超参数:基于2台Tesla V100-SXM2-32GB GPU训练,学习率5e-5,训练轮次10,批次大小8,输入/输出最大长度分别为1024/256 tokens; -
提示词策略:对ChatGPT、DeepSeek采用少样本提示(3个完整案例),确保对比公平性。
2、评估指标:
核心性能指标:精确率(Precision)、召回率(Recall)、F1-score(含微平均、宏平均、加权平均)、AUC;
语言生成指标:ROUGE-1、ROUGE-2、ROUGE-L(语义一致性)、BLEU-4(文本流畅度);
专家评估:采用双盲法,由北京天坛医院医师从“诊断准确性(DAA)”和“推理路径质量(RPQA)”两方面评分(1-5分制)。
3、实验设计:
组件消融:验证KG信息、指令微调、少样本提示的单独贡献(如ChatGLM3基础模型、ChatGLM3+KG、NRAG无KG等变体);
鲁棒性测试:
部分知识丢失(NRAG_PGL):50%概率移除正确标签;
负向提示干扰(NRAG_NPI):加入负语义提示;
错误知识注入(NRAG_RDA):用随机疾病替换候选诊断;
知识整合方式对比:比较“路径式提示(NRAG_KGPI)”与“节点式提示”的性能差异。
。
2025
主要成果
一、指令调节数据集的构建
本研究构建了一个该基于指令的微调数据集通过整合真实世界临床记录、知识图谱检索路径及从知识图谱中提取的潜在答案,为神经外科疾病诊断提供支持。如表1针对神经外科疾病的诊断,我们通过整合真实世界临床记录、知识图谱检索路径以及从知识图谱中推导的潜在答案来构建训练数据。如表1所示,医疗记录(第1行)包含患者主诉、病史、体格检查及辅助检查结果等信息。通过命名实体识别提取关键实体,并结合相关知识图谱路径形成潜在推理路径(第2行),以支持诊断过程。诊断结果(第3行)与明确定义的大语言模型角色及任务目标共同融入提示词,最终构成训练数据(第4行)。表1 神经外科QA数据集的案例
二、对比试验
1、不同大语言模型在神经外科诊断任务中的体现
本研究提出的 NRAG 采用ChatGLM3-6B基座模型对门诊数据集进行微调,并与LLM4DEU(同样以ChatGLM作为基座模型 )、ChatGPT-4、DeepSeek(DeepSeek-v3) 以 及 LLaMA(中文版LLaMAAlpaca-2-7B)等模型进行对比。实验结果表明, NRAG 模型在门诊数据集上达到了最佳的整体性能(F1-score=0.8112),精确率(Precision=0.8047)和召回率(Recall=0.8208)平衡良好,如表 所示 。 值 得 注 意 的 是 , 该 模 型 表 现 出 较 低 的 标 准 差(0.0104),表明其具有高度稳定性,这一特性使其能够有效满足门诊环境中诊断准确性和病例覆盖的双重需求。
表2 不同LLM在神经外科诊断任务中的表现
2、不同大语言模型在语言流畅性方面的表现
本文通过rouge-1、rouge-2、rouge-L和BLEU-4指标(如表III所示)评估了生成诊断与标准诊断的相似度以及生成文本的流畅性。实验结果揭示了不同模型在文本生成任务中的显著性能差异,这反映了不同架构和训练策略对输出质量的影响。 NRAG 模型在rouge-1指标(0.8005)上表现最佳,展现出其在捕捉基本语义信息方面的强大能力,这一优势可归因于其检索增强生成机制,该机制能实现更精确的关键词-内容匹配。然而,其在rouge-2(0.5413)和 ROUGEL(0.与LLaMA-7B相比,6976)表明后者在长距离语义连贯性和短语级匹配方面表现更优。表3 LLM语言流利性的比较
3、不同LLM的F1变异和AUC结果
为了评估平衡分类能力,本研究进一步评估了宏观F1(F1\_\_macro)和加权F1(F1\_\_weighted)分数,结果如表所示 。 NRAG 在 F1\_\_micro(0.7826)、 F1\_\_weighted(0.8417)和AUC(0.89)方面均取得最高值,表现出卓越的整体性能。其在类别平衡和全面分类能力上的出色表现验证了其检索增强机制的有效性。表4 LLM的F1变体与AUC结果
三、消融试验
为了评估 NRAG 中不同组分的贡献,我们在 NRAG 上进行了消融实验。具体而言,我们分析了指令调优、知识增强信息和知识整合方法的贡献度,如表5所示。前三行对应原始大语言模型(未进行微调),其余行则代表经过微调的模型。表5 消融试验的结果
四、专家评价
为了定量评估模型的诊断能力和推理路径的可解释性,我们与北京天坛医院的医生进行了双盲评估实验。评估任务主要包含两个部分:诊断准确性评估(DAA)和推理路径质量评估(RPQA)。DAA任务旨在评估各类大语言模型(LLMs)的诊断准确性。研究要求医师根据患者信息,对四组诊断结果(NRAG 、ChatGPT、DeepSeek及实际诊断)的准确性进行评分。DAA评分采用1至5分制(5分为最高分),每位医师需完成50例病例的评估。如表6所示,这表明 NRAG 的诊断能力接近临床医生的水平,并且超越了基线方法。
表6 专家评价诊断准确性
五、病例分析和可解释性研究
为了更直观地说明各种模型对病历的诊断性能,本研究在表7中列出了各种模型对脑血管疾病、抑郁状态和锥体外系综合征等高频疾病的诊断结果。在脑血管疾病病例中, NRAG 的诊断与标准诊断完全一致,显示出很高的准确率。表7 不同LLM的案例分析
2025
小结
优势
1、技术融合创新:首次将 ChatGLM3 与神经外科领域知识图谱(KG)通过问答范式深度融合,构建 “关键信息识别 - 知识检索 - 诊断预测” 闭环框架,既发挥 LLM 的语义理解能力,又借助 KG 补充缺失症状、提供可追溯推理路径,突破传统 LLM “黑箱” 局限与 KG 推理灵活性不足的问题。
2、场景适配性强:聚焦神经外科门诊与急诊(OES)场景特性,适配 “数据碎片化、决策时效强、合并症复杂” 的临床需求,通过 KG 多跳路径检索(如症状→药物→疾病)补充病历缺失信息,门诊场景 F1-score 达 0.8112,急诊场景达 0.8107,平衡准确性与实用性。
3、数据集与评估体系完善:构建含可解释性标注的神经外科 QA 数据集,结合 ICD-10 编码与临床专家经验优化数据质量;采用 “量化指标(F1、AUC、ROUGE 等)+ 专家双盲评估(诊断准确性、推理路径质量)+ 消融实验” 的多维度评估,验证结果可信度高。
4、临床实用性突出:诊断结果与临床医师评估高度契合(专家评分 4.33,接近实际病历诊断 4.25),88.89% 的推理路径被评为有效,且模型参数仅 6B,相比 DeepSeek(671B)等大模型部署成本更低、响应更快,适配临床实际应用场景。
5、方法论可复用:提出 “LLM + 领域 KG + 指令微调” 的融合模式,为其他医学专科的智能诊断提供可复用技术路径,同时解决医疗 AI 中 “数据不完全”“可解释性不足” 的共性问题。
局限性
1、场景泛化性不足:目前仅在神经外科场景验证有效性,尚未扩展至心内科、肿瘤科等其他医学专科,其跨领域适配能力需进一步验证。
2、知识图谱静态化局限:依赖静态 KG 构建,未纳入动态更新的医学知识(如新兴疾病、最新诊疗指南),难以适配医学知识的快速迭代。
3、推理深度有待提升:现有推理主要基于 KG 的关联路径,缺乏因果推理机制,对于存在冲突证据的复杂临床场景,推理准确性可能受影响。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**