欢迎来到北京大学健康医疗大数据国家研究院

设为首页 | 加入收藏
可计算医学知识的基本概念与实现路径
时间:2021-11-23 09:01:34来源: 点击数:



原文链接:http://qbxb.istic.ac.cn/fileup/HTML/2021-11-1221.shtml


  • 杜建 1  孔桂兰 李鹏飞 1,2 白永梅 1  张路霞 1

1. 北京大学健康医疗大数据国家研究院,北京 100191;

2. 北京大学信息技术高等研究院,杭州 226019

摘要

可计算医学知识强调将科学出版物中人读的知识格式通过抽取和编程转化为机器可执行的知识格式,是促进知识大规模应用的重要手段,其不仅为情报学领域开展知识计算研究提供了新范式,也为数字图书馆存储和管理数字化知识对象提出了新需求。可计算医学知识的基本概念包括两个方面,一是知识的表示形式可计算化,二是知识在实践中“可执行”,两者缺一不可。本文归纳提出了可计算医学知识的两条实现路径。一是数据挖掘,从表格等结构化数据中形成计算机可直接调用和执行的数字化知识对象(如疾病风险模型计算器),用知识网格(K-Grid)管理,提供辅助诊断;二是文本挖掘,从临床指南、医学文献的知识主张等非结构化文本中抽取三元组,并纳入三元组背后的证据和数据,计算置信度,用图数据库(K-Graph)来管理,实现知识单元的查询和输出,提供治疗建议等。最后讨论了可计算医学知识对于深化情报学研究的积极意义及其在促进知识转化、知识发现和循证决策中的应用场景,以期为国内学术界开展医学知识计算引入跨学科研究思路,也为我国建设“从数据到知识、从知识到实践、从实践再到数据”的学习型健康医疗体系提供技术方法基础与实现路径参考。

 

1 引  言

如何从数据中生成知识(data to knowledge,D2K)是情报学和数据科学的重要研究内容,也是解决大数据时代信息超载的关 键         [   1-2 ]。当前,各国高度重视科技创新,由此产出的科学出版物及其相关数据将持续快速增长。现代科学的特点是科学文献呈指数级增长,但出版量的增长并未反映科学认知领域的扩大,例如,新出现的科学概念(论文标题中识别出的新短语)数量呈线性增   [   3-4   ]。受此启发,我们认为,海量的科学出版物仅是数据或信息,而其中涉及的“知识单元”对于开展知识发现、加快知识转化、促进知识驱动的管理决策则具有更重要意义。我国情报学学者马费成教授曾指出,从物理层次的文献单元向认知层次的知识单元转换是情报学取得突破性发展需要解决的关键问   [   5   ]。但究竟如何表示知识单元一直没有得到解   [   6   ]。知识通常以文字、符号和图片的形式呈现,并通过书籍、期刊和论文的形式进行传播。一个人想要理解、总结以及运用这些知识,则需要亲自阅读这些书籍、期刊和论文,这是一个缓慢而费力的过程。为了保持知识更新,需要从海量数据和信息中抽取、剥离出知识单元,并建立适宜的表示模型;同时,为促进知识转化,需要搭建知识和实践之间的桥梁,构建两者之间的交互机制,促进知识驱动或知识指导的实践。

上述观点在医学领域尤为明显和迫切。医学知识从发现到实际应用,平均有17年的时滞。为何转化时滞如此之长,一个重要原因是目前的医学知识多表现为线性的文本(如医学文献、临床指南等)和碎片化的模型(如疾病风险评估模型等)。为了加速医学知识向临床应用的转化,美国密歇根大学提出了“推进可计算生物医学知识”(mobilizing computable biomedical knowledge,MCBK)的理念和行动,在美国、英国、澳大利亚、中国等引起了广泛关 注         [   7 ],已连续3年召开年会,共同推动第二次知识革   [   8   ]。其核心思想包括3个重要环节。一是将目前人读的知识格式转化为机器可执行的格式,开发辅助临床决策的应用产品,实现“从数据到知识”;二是将知识对象存储在知识管理平台上,供临床医护人员在实践中实时调用,实现广泛共享和利用,实现“从知识到实践”;三是在知识驱动的临床实践中产生新的数据,实现“从实践再到数据”,进而循环往复又形成新的知识。最终实现“从数据到知识,从知识到实践,从实践再到数据”的循环,促进学习型健康医疗体系的建立。

目前,在“数据-知识-实践”周期中,从数据到知识,是科学共同体开展科学发现的过程;而从知识到实践的进程缓慢,可计算知识是实现“从知识到实践”的重要技术手段。以医学领域为例,通过革新医学知识的呈现和管理方式(从“人读”到“机器读”,从“图书馆存储”到“可计算知识管理平台存储”),并构建知识应用的标准模式,有望促成整个健康医疗体系的变革。本文在国际相关研究和实践基础上,结合我们的理解,引入和阐述可计算医学知识的基本概念、主要类型、表示模型和管理平台等,以期为学术界开展医学知识可计算引入跨学科研究思路,也为我国建立学习型健康医疗体系提供方法基础和实现路径。

 

2 可计算医学知识的基本概念

根据能否清晰表述和有效转移,可以把知识分为显性知识(explicit knowledge)和隐性知识(tacit knowledge)。医学知识,是经过医学实践证实、科学分析或严谨研讨过程后形成的结果或论断,对特定的临床专业或疾病人群具有重要指导意义,可界定为经过科学实验/试验并经同行评议后已发表或已被医学界接受的结果、主张或认知。由于医学(特别是现代医学)有严格的培养标准和教育体系,医学知识主要以显性知识为主,即可以被记录下来,并被他人直接加以使用的知 识         [   9 ]。医学研究产出的医学文献和临床指南成为医学知识的主要载体。然而,大多数已发表的电子文献停留于人类可理解的自然语言表示模式,即非结构化的格式(一般以PDF文档格式存储),机器无法理解与计算,导致大量隐含在医学文献中的知识主张、可在实践中应用的模型或规则不能得到有效管理与利用。

以“‘computable knowledge’AND‘biomedical OR medical’”为核心关键词,通过系统的文献检索与分析归纳,这一概念从字面上主要有两种表述,“可计算的医学知识”(computable medial knowledge)和“医学知识的可计算化”(making medical knowledge computable)。前者侧重实现的结果,后者侧重实现的过程。从本质上来看,两者表达的意思是相同的。我们认为,可计算医学知识的基本概念包括两个方面,一是知识的表示形式可计算化,二是知识在实践中“可执行”,两者缺一不可。

 

2.1  知识的表示形式可计算化

表示形式主要有两类:一是从非结构化数据中生成知识单元(knowledge unit),表示为从自由文本中抽取的“主语-谓语-宾语”语义三元组(subject-predicate-object,SPO triple )         [     10-11 ];二是从结构化数据中生成可计算的知识对象(computable knowledge objects),表示为从医疗大数据中生成的疾病预测模型,以及疾病诊断规则、计算机化的临床指南   [   7   ,     12 ]。

美国密歇根大学MCBK主要侧重于后者,包括两方面。一是构建可计算的各类知识对象,通过计算机程序对各类知识进行编程封装,形成计算机能处理的知识对象。一个知识对象包括知识载体、与用户交互的界面,以及有关知识的详细说明3个部分。二是在一个大的知识管理平台上实现对知识对象的共享和利用。例如,在统一的标准下类似Apple的APP Store提供各类APP应用的下载和使用,医生、患者、公众等都能够直接使用这些知识对象。

以“动脉粥样硬化性心血管疾病预测的中国模型”为例进行说明,作者不仅发表了学术论文(人读的格式,如文字、图片和公式 )         [     13 ];在此基础上还开发了可公开使用的网页版计算器(web-based calculator           和手机APP程序,把疾病预测模型以机器可执行的格式存储并供用户使用。

根据健康人或患者输入的年龄、总胆固醇、高密度脂蛋白胆固醇、糖尿病等综合指标数据,可计算出10年后个人ASCVD(arteriosclerotic cardiovascular disease,动脉硬化性心血管疾病)的发病风险。基于网页版计算器和手机APP程序这样的机器可执行的知识对象,用户通过“填写-计算-预测”产生了大量新的数据,这些新的数据可进一步帮助改进预测模型的准确性,进而又形成了性能更佳的预测模型(即“新知识”)。最终,实现了“从数据到知识、从知识到实践,从实践再到数据”的循环。然而,目前,这样的疾病预测模型散落于医学科研机构或医疗机构中科研人员自建的网站,无法对于用户实现“一站式获取和大规模使用”。MCBK的目标就是要建立规范统一的、标准化的知识对象存储和共享平台。

 

2.2  知识在实践中“可执行”

除了上述介绍的源自结构化数据的疾病预测模型作为可直接调用和运行(即“可执行”)的知识对象外,来源于非结构化文本的知识图谱通常也作为计算机系统中用来形式化表示知识的一种工 具         [     14 ]。知识图谱在临床实践中的价值主要体现为在将知识图谱和基于真实世界数据的电子病历的结合应用上。目前,将医学知识图谱与电子病历相结合(即促使医学知识“可执行”)是医学知识图谱应用的前沿研究课题。这样的结合为临床医护人员带来的益处主要包含3个方面:一是方便查询医学领域知识;二是逻辑化呈现患者数据和信息;三是辅助临床决策,从而帮助提高诊断效率和准确率。

使用知识图谱可以提升从文献或大量临床数据中检索信息、查询知识的能力。例如,利用大型开放式知识库(如Wikipedia和SemMedDB)提供的有关每种疾病及其相关症状、检查和治疗的知识图谱,将电子病历中提取的与诊断相关的信息与之进行比对,可提高临床诊断的效 率         [     15 ]。采用结构化图谱方式取代传统的叙述性文本对患者病情进行描述,可改进复杂患者数据或个人健康信息的表示和呈现,减轻医生的信息负担和认知负担。在临床诊疗过程中,可通过将人读的、自然语言描述的医学证据和临床指南转化为机器可读、可理解的知识图谱,把已有的知识通过知识图谱工具提供给临床以作为诊疗决策的重要参   [   16   ]。医学知识图谱与先进的知识图谱推理方法的结合可以极大地减轻临床医生的诊断压力,减少误诊率并提高诊断效率。由于医学的系统性,目前的医学知识图谱主要面向专病,未来需要更为完整和准确的全科医学知识图谱,并需要不断改进知识图谱推理算法,以期更好地与临床决策支持相结   [   17   ]。

此外,与MCBK侧重“医学知识的表示形式可计算化,即从人读的论文转化为机器可执行的程序”不同,有学者提出医学证据合成(evidence synthesis)也需要引入可计算化的思路,以减轻人工负荷。根据统计,目前全球每天要进行75项临床试验和11项系统综述,如何跟上海量医学证据的发展,并将其转化为临床实践是一个迫切需要解决的科学问 题         [     18 ]。系统综述和meta分析已被公认为是客观评价和合成针对某一特定问题的研究证据的最佳手段,通常被视作最高级别的证据。2020年,医学信息学领域的学者发表了“可计算的证据合成”(computable evidence synthesis)的概念,提出了直接利用结构化数据促进医学证据合成的观   [   19   ]。

在临床试验过程中,有关试验设计和实施的信息通常与试验结果一起以期刊文章的形式发布。因此,当前的医学证据合成主要依赖于人工检索书目数据库并阅读、筛选证据,导致数据不够完整,且带有一定程度的偏倚,如已发表文章多为阳性结果。关于试验涉及的临床问题和干预措施的详细信息,可通过在试验注册时预先指定的数据元素获取,使得数据结果能够以标准化、结构化的格式呈现。临床试验注册平台所提供的结构化结果数据更具有及时性、完整性和易获取的特点,且可以实现数据的自动更新和计算机可解释。

因此,现在应该重新反思证据合成的基本原理。随着获取不同形式的可计算试验数据成为可能,将有助于系统综述从耗时的试验结果出版物筛选模式转为主动积极的临床试验监测模式,从证据积累模式转变为证据优先级排序的模式。与此概念相对应,2020年8月,可计算化出版(computable publishing)组织成立,通过开发临床试验结果报告器(clinical trials reporter)等工具,支持基于标准的、机器可解释的公共知识表达,尤其是与健康医疗和科学证据有关的公共知 识         [     20 ]。

 

3 可计算医学知识的前端表示模型

基于美国密歇根大学对可计算医学知识的定义,只有通过计算机编程封装知识对象之后,才能实现可计算,从这个角度来看,可计算医学知识的最终表示方式都是程序代码。然而,本节重点阐述如何表示封装之前的可计算医学知识,即可计算医学知识的前端表示模型。

 

3.1  医学规则与诊疗知识库

在医学教科书、医学文献中出现的大多医学知识,均是以传统IF(前件)-THEN(后果)规则的格式进行表示。以发烧为例,医学知识中的诊断规则通常表示如下:如果患者体温超过38℃,那么该患者处于发烧状态。传统的医学规则包含前件和后果,前件为临床的某种病症,后果为某种特定的疾病、治疗方案、或者结局等。在临床实践中,大多数医护人员的疾病诊断及治疗均是依赖现有医学知识中累积的各种规则。把针对特定疾病的诊疗规则进行归纳、整理,最终形成该种疾病的诊疗知识库。

随着计算机技术的发展,计算机存储和计算能力已经远超人脑的记忆思维能力,把传统IF-THEN诊疗规则或者诊疗知识库电子化、结构化,就形成了计算机能够存储并理解的计算机化医学规则或者知识库。在文献和医学实践中,基于专家系统方式实现的临床决策支持系统,就是依赖于这样的医学规则和知识库。

 

3.2  数据驱动的疾病预测模型

传统医学实践中,医护人员是依据权威的医学知识或者自身经验进行临床疾病诊断、治疗以及疾病管理决策,因此,不同医疗机构以及医护人员的医疗服务水平和患者的预后与医护人员自身的医疗背景以及经验具有很大关联,差异性非常大。在计算机与信息技术高度发达、大数据与人工智能已经深度融入医学领域的当今时代,临床的诊疗及疾病管理决策已经不单单是依靠现有领域知识和专家自身经验,基于传统医学研究临床试验中所收集的数据以及真实医疗实践中累积的医疗大数据进行分析、挖掘,找