医院数据挖掘

医院数据挖掘

  数据挖掘是利用了分类、关联性分析、序列分析、群集分析、机器学习、知识发现及各种统计学方法,从庞大的数据库中,找出隐藏的未知的有用的信息。HIS是联机事务处理(OLTP)系统,其数据库包括了医院所有的与收费有关的医疗活动,如各种检查、化验、医治、用药、护理以及床位、耗材等纪录。数据挖掘的第一步需要把分析型数据从事务处理环境中提取出来,按照决策支持系统(DSS)处理的需要进行重新组织,建立单独的联机分析(OLAP)的数据仓库。

 

数据挖掘技术在卫生系统方面的应用主题是多方面的。HIS中存储的主要信息有:①病人属性信息,②诊断信息(病种和各种诊断性检查),③医疗信息(治疗过程中的各种手术、放化疗、护理、用药、检查,以及医嘱等,治疗的科室及负责人)④费用信息(每一项诊断治疗项目的费用及床位、耗材、取暖等各种费用),⑤医保病人数据,⑥时间信息(各种医疗活动的开始时间和持续时间)。这些都可通过数据挖掘,提供决策支持。

1. 单病种费用分析

单病种平均住院日、平均住院费用等作为医院管理体系的重要指标已沿用了几十年,这些都是在手工管理时代形成的,对短期的、一次性住院治疗的疾病(如阑尾炎)是行之有效的;我们的数据仓库是按单科诊治环节分类的,每个环节的指标(如某病种诊断的费用和天数,手术的费用和天数,化疗的费用和天数、放疗的费用和天数、姑息治疗的费用和天数)是独立的与住院次数无关,真实地反映了医疗资源的消费,在病人之间、各医生之间、各科室之间和各医院之间均可进行有意义的比较和统计分析。数据挖掘系统随时给出单病种每个环节指标的平均数、分布曲线及动态变化,主要肿瘤的诊断环节和手术环节的费用和天数大体呈正态分布,在此基础上确定正常值分布以及常规指标。及时发现或回顾性地分析各种异常数据,监测不合理的医疗行为发生。

2. 医院全成本核算

医院全成本核算可以使医院像企业一样进行成本、人力、物流、效益、效率、预测等方面的运营性分析和卫生经济学研究,可以生成各种统计数字、可视化的分析结果,形成高效率的决策支持系统。

3. 病人属性的多维立方体

HIS中包含了病人的各种属性,包括性别、年龄、民族、地区、病种、临床分期、临床疗效、随访信息(生存期、死因等)和费用等等。这些属性在数据仓库中这些数据不再是简单的二维表,而是综合描述的多维立方体,可以满足各种角度的查询分析要求,并将分析结果用可视化的方式演示。例如我们可以分析每一种肿瘤病人这些年来到医院就医的人数的动态变化及趋势,从而对医院的学科建设提供决策服务的依据。可以分析各种不同身份(自费、一般公疗、干部和高水平服务)病人的构成及医疗消费水平,确定各档次的服务对象及标准,更好地为医院定位。

4. 过度治疗分析和临床路径研究

由于发病、转移原因不明和病死率较高,在肿瘤疾病诊断和治疗过程中不同程度存在着过度(无效)检查和治疗的现象。恶性肿瘤作为特殊疾病,公费医疗的标准较为宽松,自费患者和公费患者的费用差距很大,而疗效未必相差有多大。此外还有一些医疗行为是医生出于研究目的进行的,例如为了资料完整,不管病情一律作全套检查;对临床试验的用药和检查收费等等。这些费用应该由受益者(如药厂)负责,或申请科研经费,不应计入治疗费。这些过度的、不合理的或不是诊治必需的医疗活动加重了病人负担,是公费医疗费用上涨的重要原因之一。

 

医院数据仓库设计 医院数字化建设从系统功能上可划分为三个层次,别为业务信息系统、管理信息系统、分析决策信息系统,其中每个层次又可以划分为多个业务领域。数据仓库能够面向多个应用平台进行综合分析,目前首先针对HIS系统设进行设计,将来其他应用进入数据仓库时总的结构不变,只需拉加数据处理。总医院数据现有资源包括:应用系统(HIS)、生产数据库(Oracle 8i on Windows在线数据)、历史数据平台(Oracle 8iWindow,所有HIS数据)、备份软件(Legato Neworker)、存储设备(STK 9714带库,磁盘阵列)。 总医院将建立和开发的系统包括:ETL(Extract,Transfer,Load)应用软件、关系型历史数据集(ODS,存入历史数据服务器)、数据归档及备份(设备用STK9714带库)、多维数据库(Caché)、数据仓库支撑环境(SpeedMinor)、数据仓库应用模型、应用系统(C/SB/S应用)(总医院系统总体架构如图1所示)数据仓库建设过程 数据仓库是一个循环往复的过程,通常涉及数据的选择、变换、建模、评估、解释模型、运用和巩固模型等步骤。(数据仓库设计的基本过程如图2所示)。确定主题 数据仓库的中的数据是按分析主题来组织数据的,因此确定主题是数据仓库建设的首要目标。同时还要根据主题确定子主题、维度和数据来源等(如下表所示)

 数据准备的好坏将影响到数据挖掘的效率和准确度以及最终模型的有效性,数据准备工作包括数据的选择(选择相关和合适的数据)、探索(尽可能了解数据,如分布情况和异常数据等)、修正(包括缺失数据的插值等)、变换(离散值数据与连续值数据之间的相互转换,数据的分组分类,数据项之间的计算组合等)。建立模型 这是最关键的步骤,选取数据挖掘工具提供的算法应用于以上已准备好的数据,选取相应参数,生成模型。 评估、解释模型 对生成的模型进行比较和评估,直到生成一个相对最佳模型,再对此模型用业务语言加以解释,如果没有问题,可以对模型进行试验性的应用;如果有问题,再重复上面的数据准备和建模过程,直到建立满意的模型为止。运用、巩固模型 对使用人员理解的、并被认为是符合实际和有价值的模型进一步监控其在实际应用中的表现,如果发现模型有表现不好的情况,应对模型作进一步的考察,以反映业务运作规律的变化。 医院数据仓库的主要功能 病人构成分析 分析医院门诊、住院病人的各种构成,如病人的来源分布、职业分布、身份分布、年龄分布等,以便能够有针对性地采取一些措施来提高服务质量。病人就诊时间分析 分析门诊病人从挂号到离院各就医环节的时间分布,分析出病人的就诊瓶颈,以便针对这些瓶颈采取措施,减少病人的排队时间,提高病人的就诊质量。 病人费用构成分析病人费用由药品、检查、治疗、化验、手术等组成,该功能分析医院、科室乃至每个医生的病人费用构成,如发现药品比例过高,可以层层分析到哪个科室、哪位医生甚至哪个药品导致药品比例过高,从而能有针对性地控制药品比例。同期费用对比分析 对医院或科室同期的各种费用进行对比分析,找出医院收入增加或减少的原因,也可以把费用与门诊量或收容量进行对比分析,发现医院收入增加或减少的原因。单病种分析 对单病种进行分析,包括对单病种的费用、住院天数、治疗方案等进行分析,以便及时总结经验,找出最佳的治疗方法,减轻病人负担的同时医院也增加了经济效益。成本效益分析 把各个不同系统,如信息系统、财务系统等的数据汇总到数据仓库,然后对医院的成本效益进行全面分析,以便真正把握医院的经营状况。 数据仓库是一个非常庞大的知识系统,其功能远远不只这些,像医保病人分析、免费病人分析、医院各种科学预测等在此就不进行详细介绍。随着医院的发展,数据仓库决策支持系统必将在医院的管理和决策中起到越来越重要的作用。

 

关于万序|产品中心|解决方案|客户案例|服务中心|联系我们