医学大数据研究在中国
Big Data and medical research in China
原文链接 https://www.bmj.com/content/360/bmj.j5910
作者:张路霞[*1,2],王海波[*3,4],李全政[5],赵明辉[1,6],詹启敏[7]
[*]张路霞和王海波为并列第一作者。
机构地区:
[1]北京大学第一附属医院肾脏内科,北京大学肾脏病研究所,中国北京;
[2]北京大学健康医疗大数据研究中心,中国北京;
[3]中山大学第一附属医院临床研究中心,中国广州;
[4]标普医学信息研究中心,中国深圳;
[5]哈佛大学医学院附属麻省总医院MGH&BWH临床数据科学中心,美国马萨诸塞州波士顿;
[6]北大-清华生命科学联合中心,中国北京
[7]北京大学医学部,中国北京。
过去的十年,我们见证了数据资源的快速累积,日常生成并收集的数据量出现了惊人的增长,同时,各行各业尤其是在医学领域,分析和解释这些海量数据的能力也取得了长足的进展。在过去的几年中,国人对于大数据在医学领域的应用倾注了巨大的热情,期望通过将强大的数据资源与新技术相结合来解决现有的诸多挑战,也希望通过大数据提供更好的循证决策,来改变现有医学模式[1]。中国幅员辽阔,人口众多,随着基础医疗系统的普及和我国医疗信息化的快速发展,中国可以拥有“更大的数据”。 因此,本文我们将重点讨论大数据在中国的现状以及未来利用大数据推动中国医学研究的机会。
什么是“大数据”?
二十年前,大数据被定义为“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[2]。”如今,数据数字化已经成为医疗行业的常态。通过多种医疗记录、监管信息和医学研究,大量的医疗数据正在产生[3]。在全球范围内,数据量预计将以每两年翻一番的速度增长,到2020年,数据量将比2011年增长50倍(44ZB)[4]。除了数据量(volume)[5]之外,我们还关注大数据的类型(variety)和速度(velocity),这些被统称为大数据的3V特征。医疗数据的多样性归因于多种数据来源,这些数据来源反映了健康和疾病过程的总体情况,包括结构化数据和非结构化数据。医疗大数据的来源主要有:1)行业监管性数据和医疗保险数据;2)常规人口统计和重大疾病监测数据;3)真实世界证据,包括电子医疗档案(EMR)或电子健康档案(EHR),医学影像和健康体检数据;4)研究数据,包括来自临床试验或队列研究的生物标志物和多组学信息;5)登记系统(器械,操作,疾病);6)移动医疗设备;7)患者自我报告的数据。此外,医疗数据正在与来自社交媒体、职业信息、地理位置、经济数据和/或环境数据的各种信息相结合[6],将所有这些信息源集成到可用于分析的数据集中是发挥大数据效力的关键。另外,大数据生成和处理的速度还应该能够满足预防和治理疾病的实时需求。于是乎,上述3V特征就构成了20年前制定的大数据定义的关键要素[2]。
最近,真实性(veracity)作为大数据的目标之一,被纳入到大数据的定义之中[7]。尽管怀疑论者认为大数据难以验证,并且永远不可能“100%准确”[5,8],但毋庸置疑,为了最大限度地利用大数据,数据质量的持续改进是不可或缺的。与大数据相关的另一个重要概念是,数据的汇集本身并非是我们的最终目的,相反,数据必须要被分析、被解释和被执行。因此,为了获取大数据的全部价值(value),我们需要不断地发展新兴技术和分析方法(如机器学习),并且必须评估这些新生成信息的临床效果,并将其转化为临床实践工具[9]。因此,这2个V,即真实性(veracity)和价值(value),被认为是描述大数据重要特征所必需的新维度。
中国的医疗数据从哪里来?
促进大数据在医疗领域的应用已经成为中国着重发展的内容。2016年7月,国务院办公厅印发了《促进和规范健康医疗大数据应用发展的指导意见》(以下简称《意见》)(表1)。10 意见指出,健康医疗大数据是国家重要的基础性战略资源。健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于激发深化医药卫生体制改革的动力和活力,提升健康医疗服务效率和质量,扩大资源供给,不断满足人民群众多层次、多样化的健康需求,有利于培育新的业态和经济增长点。
伴随着上海市和宁波市等区域医疗中心的不断涌现,中国人民共和国国家卫生和计划生育委员会(以下简称卫计委)宣布启动健康医疗大数据中心与产业园建设国家试点工程。11 确定福建省、江苏省及福州、厦门、南京、常州为第一批试点省市。这些大数据中心建成后将可以整合以下数据来源:
中国正在充分利用大数据的力量,利用身份证明信息将不同来源的数据进行链接。以医疗保险数据为例,不论是抽样率5%的抽样数据库,还是覆盖6亿参保人员5年数据的总体数据库,研究者都可以向其监管机构——中国医疗保险研究会申请,在通过严格的审批流程后进行使用(非公开数据)。自2016年开始,多个研究项目已被批准使用中国医保数据来评估心血管疾病、糖尿病、肾病和慢性阻塞性肺病等慢性病的疾病负担。此外,公共卫生领域的专家和学者也在利用其他包括病案首页数据库和国家死亡登记数据库等国家级管理型数据进行研究。13,14
个体化医疗数据也同样受到重视。中华人民共和国科学技术部(以下简称科技部)在2016年启动了国家重点研发计划“精准医学研究”重点专项并资助了多个获批项目。一个将可存储一系列大型人群队列全部数据和生物样本的“精准医学整合数据平台”已经开始建设。这个平台将纳入至少70万研究对象,其中40余万人来自自然人群队列研究,30余万人来自重点慢性非传染性疾病患者队列研究。得益于中国巨大的人群数量和中央集中式的管理方式,大样本研究将为精准医学的发展提供巨大的价值。
除了政府引导的研究项目之外,中国的医学学术研究团队和机构也已经在数据共享的研究领域开始了行动(表2)。2017年10月,北京大学公共卫生学院发布了中国队列共享平台(China Cohort Consortium,chinacohort.bjmu.edu.cn)。中国队列共享平台首批已纳入近20余项队列及相关研究项目,如李立明教授牵头的中国成人50万队列、双生子队列等,涵盖慢性病、传染病、妇幼健康、职业病等多个研究领域。该平台将可使用通用数据模型实现数据协调;完成患者个体化数据的荟萃分析;甚至形成新的队列项目。另外,基于专项疾病数据共享的平台也在不断涌现,涵盖包括心血管疾病、卒中、癌症和肾脏疾病等。例如,2015年推出的中国肾脏疾病数据网络(China Kidney Disease Network,kidney.net.cn)应用前沿技术,分析整合后的多种来源肾脏疾病数据,既可为健康医疗政策的提供证据支持,还可以用于加速学术研究进程,更可以有效促进肾脏病领域的疾病管理。15
中国的医疗大数据应用的道路并不平坦
EMR和EHR的应用水平仍待提高。
一般来说,EMR是指一家医疗机构中于健康医疗相关的电子数据,而EHR是指贯穿多家机构之间的某一个个体患者的电子医疗数据。目前EMR和EHR在中国仍未广泛被应用于学术研究。其中EMR主要被用于对日常医疗实践的管理,也由此产生了大量的非结构化数据(表3)。即便中国已有超过九成的医院在应用EMR,但其数据可及性和数据质量仍是一个亟待解决的问题。
EHR虽然已在发达国家广泛应用,但在中国的发展仍然遇到很多困难。中国现在有超过300家开发医院EMR系统的厂商,均采用了各自不同的技术架构和数据标准。而且不同的健康医疗体系之间并未要求进行数据交换。即便如前文提及的,已有一些区域医疗信息平台建成并使用,但这些平台大多仍处于初级建设和应用的阶段,仍需大量的优化和升级工作,特别是针对数据结构、数据标准、和数据传输协议方面的改进。卫生监管部门、医院和EMR厂商应就如何改进医院信息系统达成共识,并开发能够用于整合多源异构数据的相关技术。卫生监管部门也应该利用政策手段加强不同医疗机构之间的数据交换和整合。
缺乏医学数据系统
医疗大数据应用遇到的另一个重大挑战,就是缺乏统一的广泛应用的医学术语系统。目前在中国,多个术语标准在被同时应用。例如,2002年卫计委授权对全国住院病人的诊断数据编码使用国际疾病分类系统(ICD),包括ICD-9和ICD-10。然而,医疗信息系统的爆炸式增长使得临床术语编码出现很多变种,以至于极难完成数据交换。一些普遍被认可的术语系统尚未在中国应用,包括医学系统命名法-临床术语(SNOMED CT)、统一医学语言系统(UMLS)或医学语言、百科全书和术语命名的通用架构(GALEN)。这些系统旨在通过整理和统一关键医学术语、分类和编码标准,从而促进更有效地、具有互操作性的生物医学信息系统和服务,也包括EHR。另外,这些系统普遍都是用英语开发的,如果要应用这些系统,还需要解决中英文之间的转换问题。
现有的医疗实践模式
中国现行的医疗系统基础架构和医疗实践模式也给大数据在这个领域的有效应用带来了挑战。由于缺乏一个良好的转诊制度,加上各地医疗质量的巨大差异,很大程度上造成了“医疗移民”这一现象,患者需要在不同的省份和城市之间不断的旅行才能完成就医。在中国现行的医疗系统中,基本无法根据临床需要在不同的EMR或区域EHR系统中实现患者转移。唯有建立一个整合全中国医疗机构数据的统一平台,才可能实现对患者个体数据的可追溯性。如果在中国开展“深度患者”(Deep Patient)研究16,即使用机器学习的方法分析医疗数据来预测可能出现的不良事件,其将面临的主要障碍既不是建立分析所需的机器学习算法,也不是要召集更多的患者参与研究,而是要基于EMR或EHR得到每个患者的纵向数据和临床结局。另外,临床医疗实践中存在的巨大异质性也会对研究结果的真实性产生影响。
数据质量
以上提到的多个问题都会最终影响到大数据应用的质量。已经有证据表明,将大数据分析应用在高质量的临床数据时,得到的结果也会更加有效、稳定和有意义。17 但是,获得高质量的临床数据集难度非常大。一种方式是仔细审查数据库特征并判断哪些变量是相对准确的(例如医保数据中的费用数据),然后用这些数据来回答所研究的问题。当然,要从根本上提高数据质量,需要在多部门持续共同投入巨大的精力完成,包括数据有效性、数据代表性和完整性等。
隐私问题
虽然隐私问题是健康医疗大数据应用中的一个极其重要的问题。但目前中国还未有相关的法律和法规对这方面的问题进行解释和规定。如何能在保证数据应用完整性的条件下对隐私进行保护?这个问题亟待监管部门出台相关的规定和研究标准。
中国应用大数据提高健康医疗水平的机遇?
大数据在医学中的应用包括公共健康促进(疾病监测,人口管理),医疗管理(医疗质量控制、绩效管理),药品和医疗器械监测,日常临床实践(风险预测,诊断准确性和决策支持)和学术研究等。1,9
通过大数据方法监测重大疾病趋势、为医疗卫生政策提供证据支持,在中国已有法定国家管理型数据库的基础上,是一件相对容易完成的任务。应用机器学习等先进的数据分析手段来代替放射科和解剖病理科学家也已经成为目前中国一个热点研究领域。18 但是中国的数据生态系统还未成熟到可以为临床决策支持系统这类需要长期的深度随访的高质量数据的应用提供支撑。
一直以来,关于中国的健康医疗大数据的讨论都是由计算机科学家和医疗信息化产业引导的,主要围绕在数据的收集、存储、整合和管理。然而,健康医疗大数据的未来不应只局限于之前的数据层面,而是要逐渐转向利用先进的分析技术回答相关临床问题,帮助临床医生和政策制定者理解大数据,优化基于大数据产生的临床决策支持工具等。
结论
中国已经宣布,在国家层面加速健康医疗大数据应用布局。这一举措将在不久的将来对医学研究、医疗实践和医疗行业的发展产生深远的影响。尽管我们对健康医疗大数据这一领域倾注了前所未有的巨大热情,我们仍倡导投身于此的研究者遵循儒家古训:“博学之,审问之,慎思之,明辨之,笃行之”,让大数据真真正正地给当今医学带来颠覆性变革。
要点:在中国,健康医疗大数据的应用机遇与挑战并存,已经成为国家发展的重点。大数据与创新数据应用技术的融合极有可能给医学研究和对疾病、健康的理解带来颠覆性的变革。
参考文献
1. Obermeyer Z, Emanuel EJ. Predicting the Future - Big Data, Machine Learning, and Clinical Medicine. N Engl J Med 2016;375(13):1216-9. doi: 10.1056/NEJMp1606181
2. Available from: https://www.gartner.com/it-glossary/big-data/ accessed December 5 2017.
3. Auffray C, Balling R, Barroso I, et al. Making sense of big data in health research: Towards an EU action plan. Genome Med 2016;8(1):71. doi: 10.1186/s13073-016-0323-y
4. Austin C, Kusumoto F. The application of Big Data in medicine: current implications and future directions. J Interv Card Electrophysiol 2016;47(1):51-59. doi: 10.1007/s10840-016-0104-y
5. Baro E, Degoul S, Beuscart R, et al. Toward a Literature-Driven Definition of Big Data in Healthcare. Biomed Res Int 2015;2015:639021. doi: 10.1155/2015/639021
6. Fernandez-Luque L, Bau T. Health and social media: perfect storm of information. Healthc Inform Res 2015;21(2):67-73. doi: 10.4258/hir.2015.21.2.67
7. Kruse CS, Goswamy R, Raval Y, et al. Challenges and Opportunities of Big Data in Health Care: A Systematic Review. JMIR Med Inform 2016;4(4):e38. doi: 10.2196/medinform.5359
8. Ward JC. Oncology reimbursement in the era of personalized medicine and big data. J Oncol Pract 2014;10(2):83-6. doi: 10.1200/JOP.2014.001308
9. Rumsfeld JS, Joynt KE, Maddox TM. Big data analytics to improve cardiovascular care: promise and challenges. Nat Rev Cardiol 2016;13(6):350-9. doi: 10.1038/nrcardio.2016.42
10. China to boost big data application in health and medical sectors [Available from: http://english.gov.cn/policies/latest_releases/2016/06/24/content_281475379018156.htm accessed June 10 2017.
11. China to build health care big data centers, industrial parks [Available from: http://www.nhfpc.gov.cn/zhuz/tpxw/201610/38c38546204c45dba44298291ad173c3.shtml accessed June 10 2017.
12. Shan L, Wu Q, Liu C, et al. Perceived challenges to achieving universal health coverage: a cross-sectional survey of social health insurance managers/administrators in China. BMJ open 2017;7(5):e014425. doi: 10.1136/bmjopen-2016-014425
13. Zhang L, Long J, Jiang W, et al. Trends in Chronic Kidney Disease in China. N Engl J Med 2016;375(9):905-6. doi: 10.1056/NEJMc1602469
14. Zhou M, Wang H, Zhu J, et al. Cause-specific mortality for 240 causes in China during 1990-2013: a systematic subnational analysis for the Global Burden of Disease Study 2013. Lancet 2016;387(10015):251-72. doi: 10.1016/S0140-6736(15)00551-6
15. Zhang L, Wang H, Long J, et al. China Kidney Disease Network (CK-NET) 2014 Annual Data Report. Am J Kidney Dis 2017;69(6S2):A4. doi: 10.1053/j.ajkd.2016.06.011
16. Miotto R, Li L, Kidd BA, et al. Deep Patient: An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records. Sci Rep 2016;6:26094. doi: 10.1038/srep26094
17. Altman RB, Ashley EA. Using "big data" to dissect clinical heterogeneity. Circulation 2015;131(3):232-3. doi: 10.1161/CIRCULATIONAHA.114.014106
18. Available from: http://english.gov.cn/policies/latest_releases/2017/07/20/content_281475742458322.htm accessed December 4 2017.