导读:探索DRGs分组付费模式下病案首页ICD编码质控问题。应用先进的自然语言处理技术、机器学习技术、自学习算法、强误差容忍度等基于人工智能算法开发的各类模型,将其应用在以诊断(编码)为主的病案首页数据之上。使用技术手段辅助ICD编码的同时进行病案首页质控,人工核查与计算机智能核查保证准确性,提高病案首页书写标准化、规范化。人工智能技术可以更方便高效地辅助医生完成病案首页录入过程。解决了病案首页ICD编码中的一大难题,实现了DRGs分组付费模式下的可行性应用。
病案首页智能编码的研究背景
研究背景 近年来,国家系统大力推进按人头付费、按病种付费、按床日付费、总额预付等多种付费方式相结合的复合支付方式改革。其中,DRGs作为按病种付费的最好方式之一,被认为是当前最具有前景的医保预付费支付方式,并被作为医院绩效评价体系的重要依据,对医管、医保、医院、病人都产生了重大影响。进行DRGs分组所需的全部信息基本是依据病案首页中的各项目进行计算。
病案首页是病历档案中最重要的一页内容,它浓缩了病历档案整体的精华,是医疗信息管理和医疗业务统计的重要资料。病案首页的质量会直接影响DRGs分组的质量和使用后的效果。而病案首页中的诊断编码又是病案信息中的重中之重,其编码的准确性、规范性将极大地影响DRGs分组的结果以及后续各类指标及费用计算。
现状分析 现阶段病案首页填写流程中要求医师对于病人的出院诊断进行一步编码。但由于各种原因,导致现阶段医生ICD编码的准确度极低。原因主要有:医生手书的诊断文字的组织方式可能和ICD编码中真实概念的书写方式差异巨大,因而很难直接通过搜索工具进行准确编码;医生本身训练中没有太多编码的教学培训内容,导致该合并的编码没有进行合并等问题;相比于编码工作,医生更将其看作一项任务要求,因而很多错误是由于心不在焉而造成的。病案首页的填写质量直接影响到医院统计报表的正确产出以及相关监管部门的政策落实。
研究目的 随着计算能力的提升,基于深度学习的人工智能技术出现了井喷。人工智能技术在很多的领域里可以模仿人脑进行一定程度的逻辑及非逻辑判断,最终可以实现类似于人类的决策判断。
利用先进的人工智能技术探索在病案首页质量控制问题,尤其是编码纠正、辅助上的可行应用。具体实现目标如下:智能化ICD自动编码对应;多诊断情况下自动判别主要诊断;智能化编码合并及合理费用优化。病案首页数据质控可以使用片面与全面方式分别实现。片面实现方式仅只利用病案首页内的相关数据,利用相关分析方法进行处理分析,最终可以实现病案数据的修正、优化及稽查。全面实现方式在可以获得包括病人电子病历数据、处方数据、检查数据等相关其他信息时可以做出的复杂数据质量评估。
病案首页智能编码模型
应用先进的自然语言处理技术、机器学习技术等基于人工智能算法开发的各类模型,将其应用在以诊断(编码)为主的病案首页数据之上。具体技术架构如图1所示,其包含以下特征。
整合知识库的自然语言处理文本分析 原始出院诊断信息为病案首页中的重要信息来源,而且大多数情况下以自然语言形态出现(即医生手动输入的文字型诊断内容)。同时,国家规范的ICD编码(包含ICD-10以及ICD-9-CM版本),其中的标准诊断书写方式也是基于自然语言。一般情况下医生需要通过自己输入的关键词或完整诊断内容从系统自动化匹配的ICD编码中选择合适的对应编码。然而很多时候医生的书写方式与ICD中的形态完全不同,因而一些情况下通过关键字的搜索无法找到对应的ICD编码。
然而这一问题可以通过知识库积累与自然语言处理算法进行优化。自然语言处理算法可以将医生书写的出院诊断文字进行语义学分析。将其中的核心词,及对应程度、病因、病理、部位、临床表现等的修饰词进行拆分与结构化。因而,不同部分的信息点可以以不同的方式进行分析。例如,标为“开放性右肱骨骨折”的主要诊断,自然语言分析可将其拆分为“开放性” “右” “肱骨””骨折”,分别指代诊断的类别、方位、位置及内容。因而可以对不同部分进行详尽的分析,从ICD编码中找出对应的大类。
进而,医学知识库可以将各类表述同一诊断的不同表述方式进行整理归一,同时也可以将各类医学名词之间的关联性进行细化。例如上例中,可以通过知识库分析得知“右肱骨”属于“肱骨”、“肱骨”位于上臂,因此将会从ICD编码中排除所有不符合的编码,对候选结果进行优化。
机器学习、深度学习模型构建 由于编码过程除了涉及医学相关知识外,还要求编码人员有一定的逻辑判断能力。例如可以从多个出院诊断中选择合适的诊断作为主要诊断,或面对多个诊断信息时可以恰当地将其中可以合并的诊断进行编码合并。在此前提下,机器学习、深度学习算法可以对该环节进行一定程度的辅助。
计算语言相似度的方法有很多,依据前期探索的经验,单一方法在自动编码辅助上的效果都偏差。因而需要探索多种方法整合后生成的模型是否可以具备更高的可用性。同时,应用神经网络将各类单一算法中有限的变量整合后进行关联,将可以在原有算法基础上形成新的、可支持一定逻辑的深度学习模型。一些候选的研究算法罗列在表1中。
自学习算法、强误差容忍度 为实现主诊断的选择与合并编码,模型应具备极强的自学习能力与抗噪声能力。现有院内编码数据(甚至包括监管部门得到的历年上传的数据)的一个特点就是其中依旧有不少难以发现的错误与偏差。因而,在训练相关的模型时,在无法得到完整的并且无误的训练数据的时候如何保证模型具备一定的误差容忍度就成了极具挑战性的命题。
文章应用深度学习算法,力图从海量有噪声的数据中构建鲁棒的神经网络,避免部分噪音对模型的干扰。同时考虑到潜在的模型可扩展性,使得将算法应用于其他医院或地区时可以具有更高的适用性。同时,改模型可以接受各区域、医院积累的临床经验作为输入参数,对模型进行有方向性的增强学习。例如,某家医院可以将其积累的包含院内医生使用习惯的不规则“内码库”进行导入,之后模型可以学习该内码库中的表达方式,将系统在特定方面进行优化,以最大化地为该医院优化算法。同时,该算法也兼容不同版本的ICD编码,甚至各医院的扩展编码。使得改模型的后期转化能力大大加强。
随着病案首页在医疗付费、流程管控中的重要性增加,其编码数据的准确性引起了越来越多的关注。从各类医院的真实数据抽验研究表明,病案首页编码数据的准确程度远未达到监管部门的要求。为了使各项统计工作、审批基线有据可依,院方应严把病案首页质量关,狠抓全体医护人员病案书写质量,并加强医师的职业素养和专业水平,同时使用技术手段辅助、审查并按数据的准确度与完整性,大力促进病案首页书写标准化、规范化,确保统计工作的高质量,实现医学、统计、信息、计算机应用四位一体。同时,也应加强病案、技术部门相互间的沟通与协作,使得先进的技术得以辅助日常的医生工作流程,提高工作效率和工作质量。