数据分析对于智能医疗时代的意义是非凡的,说到数据分析,数据质量和数据安全就必然会成为绕不开的话题。
6月24日,由HC3i中国数字医疗网和中关村互联网产业联盟移动医疗专业委会联合主办的2017中美智能医疗大数据峰会在北京成功闭幕。会议期间,哥伦比亚大学医疗信息学系副教授翁春华女士《大数据医疗离不开数据质量和数据安全》为主题发表演讲。
云计算和大数据的兴起,为整个行业带来了极好的机会,美国医学院把大数据当成是创建有学习能力医疗系统的基石,专门出版报告指出怎样充分利用临床产生大数据带来的机会。那么什么才是迎接这个全新发展阶段的正确姿势呢?翁春华表示,“拥抱机会的同时也应该知道数据可能存在的局限性。”
随着医学进入信息和大数据时代,电子医疗信息系统在全球范围内得到了推广和普及,其在生成大量价值数据的同时,也在生成了海量的医疗病历误传信息。长期以来电子病历里面的错误,正在以比以前更快的速度和更大的产量给应用者和研究者带来误导性信息。那么在应用大数据的过程中,有哪些问题是需要特别关注的呢?
数据不正确
很多医院常用的标准是ICD9/10,诊断信息最常见的问题是粒度不够。ICD的信息本来都是统计出来的,所以真正有意义的深度信息和表型信息应该来自于文本或者是其它更有意义的数据类型,而且ICD9/10有漏诊和过渡诊断的问题,如果生成的数据是医生特别忙的时候,有可能没有时间帮你把正确的代码找出来,有可能只是找几个特别有用的或者是最主要可以代表病人疾病的数据,在记录的过程中会漏掉其它非主要的疾病。如果诊断信息不是医生生成,而是专门的人员生成,他们也会漏掉一些不产生高经济价值的信息。
“我们做研究的过程中曾经碰到过这样的问题:有一次到高血压诊所的地方寻找病人,让他们参与关于高血压的临床测试,结果发现里面所有的病人都没有关于高血压的ICD9/10的数据,我们问医生,医生表示因为所有人都有高血压,我们才懒得把信息放在病历里。病人得其它的病才会把信息放在病历里,对他们而言这是一个显而易见的信息,没有必要花力气再记录信息。所以可以看到电子病历的很多信息都是记录的人根据自然的需要,有选择地把信息放在里面,等到信息被后来的人拿去重用做研究或者其它的分析,如果不知道信息是怎么被选进去记录,有可能就会误导“,翁春华如是说。
此外,过渡诊疗的问题也是不容忽视的。病人的情况是不断变化的,比如之前得的病现在已经治好了,但是这些信息还会继续留在系统中,不了解情况的人拿到这样的病历的时候,很有可能认为病人仍然患有已经治愈了的疾病。同时,医生因为方便用了错误的诊断码、第三方要最大化收益用了错误的诊断码以及因诊断码不存在使用了替代号码等等都可能造成过渡诊疗。
数据不完整
患者在不同医疗机构就诊的情况是非常常见的,这就会导致患者的病历信息不完整,而通过一个单位不完整的病人记录去研究疾病的发展过程,很有可能会得到错误的信息。
数据的完整性可以从四个维度来考量:数据是否具体,数据是否过时,数据是否改变原意造成误解,数据是否可考,数据是否符合研究要求。”我们拿长老医院的450万病人的电子病例记录,用数据不完整性的定义看数据到底有多完整。结果非常让人惊讶,有足够信息的病例特别少,只有一半左右的病例满足任何一种完整性的标准”。翁春华表示,在使用数据之前,对数据的完整性进行考察是非常必要的一个步骤。
数据不可用
数据的不可用,主要表现在重新性高、数据分布不均、信息不集中等方面。数据的重复性,会严重影响数据挖掘的算法结果解释,会带来偏见和噪音,降低数据的可用价值。因而,如果要使用数据,就要寻找真实的数据和数据来源。基于这样的行业现状,“我们意识到非常有必要有标准化的数据检测工具”,翁春华如是说。
近年来,医疗大数据的火热吸引了多元化的资源进入该领域,但是有多少大数据项目和产品是基于完整、正确、一致、可信、当前数据建立的呢?答案值得商榷。“最好有全国统一的病人检索方法,所有病人都有唯一的病人号码,不管走到哪里任何时候,方便做数据整合,数据质量的汇报最好基于标准化。”