根据能否清晰表述和有效转移,可以把知识分为显性知识(explicit knowledge)和隐性知识(tacit knowledge)。医学知识,是经过医学实践证实、科学分析或严谨研讨过程后形成的结果或论断,对特定的临床专业或疾病人群具有重要指导意义,可界定为经过科学实验/试验并经同行评议后已发表或已被医学界接受的结果、主张或认知。由于医学(特别是现代医学)有严格的培养标准和教育体系,医学知识主要以显性知识为主,即可以被记录下来,并被他人直接加以使用的知
识
[
9
]。医学研究产出的医学文献和临床指南成为医学知识的主要载体。然而,大多数已发表的电子文献停留于人类可理解的自然语言表示模式,即非结构化的格式(一般以PDF文档格式存储),机器无法理解与计算,导致大量隐含在医学文献中的知识主张、可在实践中应用的模型或规则不能得到有效管理与利用。
以“‘computable knowledge’AND‘biomedical OR medical’”为核心关键词,通过系统的文献检索与分析归纳,这一概念从字面上主要有两种表述,“可计算的医学知识”(computable medial knowledge)和“医学知识的可计算化”(making medical knowledge computable)。前者侧重实现的结果,后者侧重实现的过程。从本质上来看,两者表达的意思是相同的。我们认为,可计算医学知识的基本概念包括两个方面,一是知识的表示形式可计算化,二是知识在实践中“可执行”,两者缺一不可。
表示形式主要有两类:一是从非结构化数据中生成知识单元(knowledge unit),表示为从自由文本中抽取的“主语-谓语-宾语”语义三元组(subject-predicate-object,SPO triple
)
[
10-11
];二是从结构化数据中生成可计算的知识对象(computable knowledge objects),表示为从医疗大数据中生成的疾病预测模型,以及疾病诊断规则、计算机化的临床指南
等[
7
,
12
]。
美国密歇根大学MCBK主要侧重于后者,包括两方面。一是构建可计算的各类知识对象,通过计算机程序对各类知识进行编程封装,形成计算机能处理的知识对象。一个知识对象包括知识载体、与用户交互的界面,以及有关知识的详细说明3个部分。二是在一个大的知识管理平台上实现对知识对象的共享和利用。例如,在统一的标准下类似Apple的APP Store提供各类APP应用的下载和使用,医生、患者、公众等都能够直接使用这些知识对象。
以“动脉粥样硬化性心血管疾病预测的中国模型”为例进行说明,作者不仅发表了学术论文(人读的格式,如文字、图片和公式
)
[
13
];在此基础上还开发了可公开使用的网页版计算器(web-based calculator
)
和手机APP程序,把疾病预测模型以机器可执行的格式存储并供用户使用。
根据健康人或患者输入的年龄、总胆固醇、高密度脂蛋白胆固醇、糖尿病等综合指标数据,可计算出10年后个人ASCVD(arteriosclerotic cardiovascular disease,动脉硬化性心血管疾病)的发病风险。基于网页版计算器和手机APP程序这样的机器可执行的知识对象,用户通过“填写-计算-预测”产生了大量新的数据,这些新的数据可进一步帮助改进预测模型的准确性,进而又形成了性能更佳的预测模型(即“新知识”)。最终,实现了“从数据到知识、从知识到实践,从实践再到数据”的循环。然而,目前,这样的疾病预测模型散落于医学科研机构或医疗机构中科研人员自建的网站,无法对于用户实现“一站式获取和大规模使用”。MCBK的目标就是要建立规范统一的、标准化的知识对象存储和共享平台。
除了上述介绍的源自结构化数据的疾病预测模型作为可直接调用和运行(即“可执行”)的知识对象外,来源于非结构化文本的知识图谱通常也作为计算机系统中用来形式化表示知识的一种工
具
[
14
]。知识图谱在临床实践中的价值主要体现为在将知识图谱和基于真实世界数据的电子病历的结合应用上。目前,将医学知识图谱与电子病历相结合(即促使医学知识“可执行”)是医学知识图谱应用的前沿研究课题。这样的结合为临床医护人员带来的益处主要包含3个方面:一是方便查询医学领域知识;二是逻辑化呈现患者数据和信息;三是辅助临床决策,从而帮助提高诊断效率和准确率。
使用知识图谱可以提升从文献或大量临床数据中检索信息、查询知识的能力。例如,利用大型开放式知识库(如Wikipedia和SemMedDB)提供的有关每种疾病及其相关症状、检查和治疗的知识图谱,将电子病历中提取的与诊断相关的信息与之进行比对,可提高临床诊断的效
率
[
15
]。采用结构化图谱方式取代传统的叙述性文本对患者病情进行描述,可改进复杂患者数据或个人健康信息的表示和呈现,减轻医生的信息负担和认知负担。在临床诊疗过程中,可通过将人读的、自然语言描述的医学证据和临床指南转化为机器可读、可理解的知识图谱,把已有的知识通过知识图谱工具提供给临床以作为诊疗决策的重要参
考[
16
]。医学知识图谱与先进的知识图谱推理方法的结合可以极大地减轻临床医生的诊断压力,减少误诊率并提高诊断效率。由于医学的系统性,目前的医学知识图谱主要面向专病,未来需要更为完整和准确的全科医学知识图谱,并需要不断改进知识图谱推理算法,以期更好地与临床决策支持相结
合[
17
]。
此外,与MCBK侧重“医学知识的表示形式可计算化,即从人读的论文转化为机器可执行的程序”不同,有学者提出医学证据合成(evidence synthesis)也需要引入可计算化的思路,以减轻人工负荷。根据统计,目前全球每天要进行75项临床试验和11项系统综述,如何跟上海量医学证据的发展,并将其转化为临床实践是一个迫切需要解决的科学问
题
[
18
]。系统综述和meta分析已被公认为是客观评价和合成针对某一特定问题的研究证据的最佳手段,通常被视作最高级别的证据。2020年,医学信息学领域的学者发表了“可计算的证据合成”(computable evidence synthesis)的概念,提出了直接利用结构化数据促进医学证据合成的观
点[
19
]。
在临床试验过程中,有关试验设计和实施的信息通常与试验结果一起以期刊文章的形式发布。因此,当前的医学证据合成主要依赖于人工检索书目数据库并阅读、筛选证据,导致数据不够完整,且带有一定程度的偏倚,如已发表文章多为阳性结果。关于试验涉及的临床问题和干预措施的详细信息,可通过在试验注册时预先指定的数据元素获取,使得数据结果能够以标准化、结构化的格式呈现。临床试验注册平台所提供的结构化结果数据更具有及时性、完整性和易获取的特点,且可以实现数据的自动更新和计算机可解释。
因此,现在应该重新反思证据合成的基本原理。随着获取不同形式的可计算试验数据成为可能,将有助于系统综述从耗时的试验结果出版物筛选模式转为主动积极的临床试验监测模式,从证据积累模式转变为证据优先级排序的模式。与此概念相对应,2020年8月,可计算化出版(computable publishing)组织成立,通过开发临床试验结果报告器(clinical trials reporter)等工具,支持基于标准的、机器可解释的公共知识表达,尤其是与健康医疗和科学证据有关的公共知
识
[
20
]。
基于美国密歇根大学对可计算医学知识的定义,只有通过计算机编程封装知识对象之后,才能实现可计算,从这个角度来看,可计算医学知识的最终表示方式都是程序代码。然而,本节重点阐述如何表示封装之前的可计算医学知识,即可计算医学知识的前端表示模型。
在医学教科书、医学文献中出现的大多医学知识,均是以传统IF(前件)-THEN(后果)规则的格式进行表示。以发烧为例,医学知识中的诊断规则通常表示如下:如果患者体温超过38℃,那么该患者处于发烧状态。传统的医学规则包含前件和后果,前件为临床的某种病症,后果为某种特定的疾病、治疗方案、或者结局等。在临床实践中,大多数医护人员的疾病诊断及治疗均是依赖现有医学知识中累积的各种规则。把针对特定疾病的诊疗规则进行归纳、整理,最终形成该种疾病的诊疗知识库。
随着计算机技术的发展,计算机存储和计算能力已经远超人脑的记忆思维能力,把传统IF-THEN诊疗规则或者诊疗知识库电子化、结构化,就形成了计算机能够存储并理解的计算机化医学规则或者知识库。在文献和医学实践中,基于专家系统方式实现的临床决策支持系统,就是依赖于这样的医学规则和知识库。
传统医学实践中,医护人员是依据权威的医学知识或者自身经验进行临床疾病诊断、治疗以及疾病管理决策,因此,不同医疗机构以及医护人员的医疗服务水平和患者的预后与医护人员自身的医疗背景以及经验具有很大关联,差异性非常大。在计算机与信息技术高度发达、大数据与人工智能已经深度融入医学领域的当今时代,临床的诊疗及疾病管理决策已经不单单是依靠现有领域知识和专家自身经验,基于传统医学研究临床试验中所收集的数据以及真实医疗实践中累积的医疗大数据进行分析、挖掘,找出疾病的规律和特征,构建疾病发生、发展以及患者预后的预测模型,将辅助医护人员进行有效的、优化的临床决策。
数据驱动的疾病发生、发展及患者预后的预测模型,其输入变量一般是患者的人口学信息、临床病症以及实验室检查检验的结果,其输出变量一般是某种疾病或并发症发生、某种预后发生的概率。将数据驱动的疾病预测模型进行系统实现,并有效嵌入或者集成到日常的医疗服务工作流程中,就形成了一个自动化、智能的临床决策支持工具,以辅助临床医护人员进行各种诊疗决策。一般来讲,数据驱动的疾病预测工具应与基于知识的决策支持工具融合使用,一是拓展了现有领域知识和专家经验,二是弥补了基于局部真实世界医疗大数据或者临床试验数据进行疾病建模带来的局限性。
大量的生物医学知识隐藏在自由文本中,自然语言处理技术对实体(如疾病、药物、基因、蛋白质等)和关系(如疾病治疗、蛋白质/药物相互作用和药物不良反应事件)的抽取,有助于支撑生物医学知识管理和发现等应用,促进临床医生和实验室科研人员更有效地获取信息和生成新知识。可计算知识应是结构化的知识,从格式上可由计算机程序读取。一种简单的、可计算的知识表示是语义三元组。语义三元组由两个概念组成,这两个概念通过某些谓语(即动词)相互关联,如“导致(causes)”和“治疗(treats)”。如“布洛芬-引起-胃肠道出血”就是这样一种语义三元组。语义三元组被称为“思想的原子”,既可以具象地表示某一命题或主张,又具有不可再分性。例如,可以将药物知识表示为三元
组
[
21
],以从PubMed文献中抽取的三元组作为基准,将从FDA(Food and Drug Administration,美国食品药品监督管理局)药物说明书中抽取的三元组与之对比,可识别新的且文献中未报道过的医学知
识[
22
];将电子病历文本中的知识元表示为语义三元组,开展电子病历潜在知识发现研
究[
23
]。基于“以三元组为知识单元,以不确定性为知识语境”的知识计算模型,开展矛盾性、冲突性知识发
现[
24
]。
在医学领域,语义三元组抽取已具有较为成熟的技术,其中,以美国国立医学图书馆的“科学知识语义表示”项目开发的SemRep工具和SemMedDB知识库为典型代表。SemRep是Semantic Representation的简称,是一个基于规则的自然语言处理工具。以一体化医学语言系统(unified medical language system,UMLS)中标准化的医学概念、概念类型(如药物、疾病)和概念之间的语义关系(如治疗)为基础,从自然语言文本中抽取“主语-谓语-宾语”三元组。最新版UMLS收录约380万个概念、127种概念类型和54种语义关系。SemMedDB知识库存储基于SemRep工具,抽取PubMed文献标题和摘要形成的三元组以及其来源语
句
[
25
]。该库每年发布一次,且不断改进,包括对SemRep工具提取的错误概念和关系进行纠正。SemRep和SemMedDB支持了多种临床决策和转化应用,包括医疗诊断、药物再利用、基于文献的发现和假设生成,有助于改善健康结局。目前,SemRep工具正在被重新设计,以提高其整体性能。SemRep和SemMedDB实现了大规模知识单元的抽取和存储,是一个基础库,并且可进行二次开发。例如,英国学者最近开发了MELODI Presto系
统
,该系统提供基于Web网页查询SemMedDB中的三元组及其背后的支持语
句[
26
]。
3.4 纳米出版模型(nanopublication)
近年来,生物语义学(biosemantics)领域的进展为细粒度表示医学知识对象提供了启示和借鉴,以荷兰莱顿大学生物语义学专家Barend Mons教授及其团队提出的纳米出版模型为典型代
表
[
27-28
]。该模型并非专指纳米领域,而是指借鉴纳米之义,具有科学意义的、机器可读的、最小的知识单元。纳米出版物模型解决了由于科学论文和数据集的不断增长而导致检索、分析知识单元以及将科学结果与基础数据联系起来日益困难的问题,实现了将人读的知识转化为机器可读的知识。
基本结构包括三部分:①主张(assertion),即主-谓-宾三元组表示的科学论断;②出处信息(provenance),表示提出主张或创建了事实性素材(如数据、图表等)的作者、机构、时间和地点等;③出版信息(publication Information),关于一个纳米出版物本身的元数据,包括纳米出版物的创建者、创建日期和版本等。这三个组件缺一不可,保证了信息完整性,并能有效提升科研信息的复用可能。这三个部分的内容均使用RDF格式进行描述,保证了机器可理解和可操作。
目前主要有三种进行中的应用。一是科研工作者自行将个人研究成果发布为纳米出版物(存储于平台http://nanopub.org/wordpress/);二是将已有关系型数据库(如基因-疾病关联知识库DisGeNet)以纳米出版物形式发
布
[
29
];三是支持目标导向的大型项目,如药物发现语义平台Open PHACTS(Open Pharmaceutical Triple Store)项
目[
30
],是一个存储和计算药学概念三元组的仓储。基于纳米出版模型,建立试验数据和科学结论的规范语义描述本体,并在大规模生物医药文献集上构建了药学知识单元形成的网络,即知识图谱。纳米出版模型尚未在临床医学领域广泛应用,这也是我们计划研究的主要内容。
如果以纳米出版模型作为知识单元,构建知识单元的引用关系反映的知识演化,那么需要解决的问题是如何像科学论文那样,构建纳米出版物的引用格式。2019年,有学者提出了可对单个纳米出版物进行引用的纳米引用格式(nanocitation),并设计了一个系统自动生成纳米出版物的引文,解决了这一模型缺乏引文标准的问题,在此基础上可以设计文献计量学指标,开展知识单元这一细粒度层面的分
析
[
31
]。为了充分发挥并利用可计算医学知识的优势,最终需要一种全新的方法让所有知识在开始生成时便适合于计
算[
32
]。例如,将传统的人读的科学出版物转化为机器可读的纳米出版物,研究产出将不再仅仅是科学论文及相关的数据集,而是一组可计算格式的结果或主张,描述实验过程和结果的自然语言文本(即学术论文)仅作为供人类可读并参考的一种形式,对其进行处理后可产生更高阶的信息,如系统综述和临床实践指南。
3.5 knowlet模型:以知识子图作为可编码知识单元
提出纳米出版模型的Barend Mons教授及其团队同时提出,把所有持相同论断的纳米出版物中共同出现的论断聚合为一个“基本论断”,以减少冗
余
[
33
]。将围绕一个中心概念(central concept)、路径长度为1的三元组之组合作为一个knowlet。我们认为,knowlet是指知识图谱中可以表示一个独立知识单元的子图,可将其译为“知识子图”。例如,围绕“新冠”这一概念,作为起点或终点的所有关系,如症状、诊断、治疗形成的三元组。随着围绕某一概念的论断越来越多,与文本空间快速增长相比,知识子图空间增长较小,例如,有大量的文本涉及的知识单元只有一个。知识子图是一个独立的数字对象和最小的知识单元,其本身可被发现、可访问、可互操作以及可重用。
在上述5种医学知识表示模型中,医学诊断规则和数据驱动的疾病预测模型主要涉及结构化数据,以三元组为基础的表示模型主要适用于非结构化文本。实际上,规则也可以表示为三元组,例如,“心率”-“正常值”-“60~100次/分”就是“实体-属性-值”表示的三元组;基于医学数据、通过机器学习产生的决策树,可以转化为一系列的医学规则,亦可理解为三元组的逻辑组合。知识图谱的本质是三元组因果关系图谱,由“实体-属性-值”或“实体-关系-实体”构成。每个属性-值对应刻画了实体的内在特性;关系则连接两个实体,刻画了实体之间的外部关联。
本文第2节提出了可计算医学知识的两个要素:一是可计算化的表示形式,二是机器可执行。第3节和第4节分就分为围绕上述两个要素展开,其中,第3节是侧重于知识对象封装成软件代码之前如何表示的问题;而第4节侧重于知识对象封装成软件代码之后,如何提供服务的整个流程以及尚需要解决的问题。
北京大学健康医疗大数据国家研究院正在牵头积极推动可计算医学知识在中国的研究和实践,并与该概念的提出者——密歇根大学学习型健康医疗体系研究中心Charles Friedman教授的团队保持着密切合作。Charles Friedman教授团队开发了一个用于可计算知识对象封装、存储、管理和调用的知识网格(knowledge grid,K-Grid)平
台
。目前已经实现原型系统,并在持续研发中。北京大学健康医疗大数据国家研究院、浙江省北大信息技术高等研究院智慧医疗研究中心正在中国进行本地化开发与推广。目前,该平台中的知识对象主要来源于结构化数据,且以疾病预测模型为主。
上文介绍了荷兰莱顿大学Barend Mons教授团队提出的纳米出版模型与知识子图模型,主要来源于非结构化文本。我们尝试将这类知识对象也能编程封装之后,在K-Grid平台上实现调用和执行。因此,为了更充分和全面地在我国设计和发起可计算医学知识的研发和实践,我们整合了上述两条路径(
图1
)。
图1 可计算医学知识的两条实现路径(分别针对结构化数据和非结构化文本)
知识生成与知识的可计算化处理是分开的、在不同阶段进行的。本文重点讨论将生成后的知识(临床指南、医学文献、本地实验/试验后的分析结果等)实现可计算化这阶段。
一是数据挖掘,形成计算机可直接调用和执行(如直接计算出疾病风险分值)的知识对象,用知识网格(K-Grid)管理,提供辅助诊断。例如,根据生化指标判断患者是否可诊断为慢性肾病合并贫血,根据若干指标计算个人罹患肺癌风险分值等。数据挖掘产生的规则或者模型属于知识表示模型(如人工神经网络、决策树等),还没有形成可计算知识对象,需要K-Grid平台上的工具对规则或者模型进行编程封装之后,才能形成可计算知识对象;多种计算机语言(R或者Python)可供选择进行预测模型的封装。虽然R开发环境挖掘出来的模型本身就是可执行的,但是如果想通过K-Grid平台进行管理的话,还需要进一步编程封装。这与文本挖掘产生知识三元组是一个平行的过程。
二是文本挖掘,形成结构化的三元组,并纳入三元组背后的证据和数据,计算出置信度,采用类似Neo4j图数据库来管理,实现知识单元的查询和输出。例如,根据目前最佳证据,治疗某种疾病的药物清单,该药物清单可按照置信度排序,提供治疗方式的自动推荐。
总之,无论是路径一提供的辅助诊断,还是路径二提供的辅助治疗,均为临床决策支持的范畴。下文分别介绍了在两条实施路径中,我们已完成的内容以及需要继续研发的内容。
4.1 路径一:从结构化数据中生成的可计算医学知识
当前,作为中国首个“推动医学知识可计算行动”的网
站
,已完成平台的设计与研发(
图2
)。选择慢性疾病作为切入点,构建了医学知识模型与可计算编程规范。已建设医学知识对象29个,多场景兼容应用14个,全流程慢性肾脏疾病(chronic kidney disease,CKD)解决方案专题2个。为医疗机构和医学专家团队提供创建并管理医学知识模型的平台,让知识提供者能便捷分享最新研究成果;提供通用的模型API(application programming interface,应用程序接口)接口,软件工程师不需要掌握医学知识即可对模型进行组合与部署,研发符合定制化业务流程的应用;患者可通过已有应用进行健康状况自评与疾病风险预测,医护人员可以使用应用辅助诊疗与科研。通过与北京大学医学部、北京大学第一医院、密歇根大学等多家医疗机构与国内外院校开展深度合作,推动了学习型智慧健康体系在中国的落地发展。
图2 K-Grid-China可计算医学知识智能应用平台示意图
其主要功能是把原先需要医护人员、医疗领域决策者或者医学科研人员认真阅读、深入理解才能具体掌握的医学知识,转变为可计算的医学知识对象,以供各类医学应用大规模、并行、且实时地调用运行。该平台的核心组件主要包含知识对象、知识对象库、知识对象激活器以及服务四个部分(
图2
)。
(1)知识对象(knowledge objects)。知识对象是经编程封装的模块化、计算机可识别、可处理执行的知识模块。其来源可以是临床指南(guideline)、期刊文献以及数据驱动的疾病预测模型等。知识对象包含程序语言所组成的核心知识载体(knowledge payload)、用于与外界沟通的知识对象元数据(metadata)、该知识对象部署及相关服务的详细说明(specification)。
(2)知识对象库(digital library)。知识对象库用来储存与管理知识对象。一个知识网格平台可以包含多个知识对象库,知识对象库之间相互关联,知识对象库的基础为一个网络服务器(web server),加上对象检索服务。
(3)知识对象激活器(activators)。知识对象激活器是一个用来处理患者健康数据、激活并部署知识对象、利用知识对象来提供服务的工具。激活器提供可平行扩展的工具来让知识对象基于真实世界的患者数据进行计算推理,并给出运行结果。理想上激活器可以执行以不同语言所编程封装的知识载体,可将知识载体提供给其他应用程序,也可让某一知识载体本身提供服务。
(4)服务(services)。核心功能在于链接医学应用与知识对象,利用外界应用的输入数据激活相关的知识对象,并把运行结果反馈给外界应用。
知识网格平台与各个来源不同、类型相异的医学知识相比较,就如共同的桥梁和独立的小船,知识网格平台为各种医学知识提供了一个通用的平台工具,让各类医学知识能够通过该平台以一个通用的标准和模式为各类医学应用所调用,以期为学习型智慧健康医疗体系中知识到实践一环提供基础架构。
在该路径中,推进可计算的医学知识研发与应用还面临着若干挑战。一是将可计算的知识对象,例如,疾病预测模型应用于不同的电子病历系统涉及的标准和互操作性问题;二是需要更好地追踪和评估可计算医学知识对患者诊疗结果的影响;三是如何将目前针对单一病种的可计算医学知识实现方法和手段拓展到针对共病的医学知识
等
[
34
]。
4.2 路径二:从非结构化文本中生成的可计算医学知识
从文本信息中提取知识,开展知识计算一直是情报学的前沿问题,其核心在于找到合适的知识单元,即要解决什么是知识以及用什么来表示知识。现有研究表明,受计算机科学领域启发,以“实体-关系-实体”和“概念-属性-值”三元组作为知识计算单元,具有理论上的合理性以及数据实现的可行
性
[
35
]。数字时代,文本大数据中隐藏着大量医学知识,去除医学文本冗余部分并提取结构化知识单元是解决信息超载问题、实现大规模知识计算的关键。但仍有两个科学问题需要解决。一是如何既完整又最小化(不可再分)地表示一个独立的医学知识单元,即如何在三元组及其逻辑组合形成的知识图谱中,找到一个最小子图,作为可计算医学知识的基本单元,对其利用计算机语言进行编程实现,通过计算机程序实现与医疗数据之间的自动化对话;二是鉴于医学知识的个体化和不确定性特征,需要明确医学知识单元成立的依赖条件和证据来源,同时兼顾医学知识表示的结构化、完整性和不可再分性,才能将人读的知识格式尽可能“无丢失”和“无冗余”地转化为机器可读且可执行的知识格式。
以美国密歇根大学K-Grid原型为基础,参考荷兰莱顿大学纳米出版模型和知识子图(knowlet)模型,本文提出从非结构化文本中生成可计算医学知识的语义表示模型(
图3
)和主要实现路径(
图4
)。该模型兼顾医学知识结构化和可执行两个核心要点,考虑将置信度作为医学知识执行和应用的必要条件,以“可编码知识单元+置信度+可追踪的证据来源”为基本组件,每个组件均以资源描述框架(resource description framework,RDF)格式进行描述。为实现知识之间的互操作,对每个可编码知识单元分配一个可信任的统一资源标识符。该模型将“知识单元”及其背后的数据和证据链接起来。
图3 从非结构化文本中生成的可计算医学知识的语义表示模型
该模型的关键要素主要包括三个方面。
(1)知识的结构化问题。采用较为成熟的英文医学自然语言处理工具和中英文医学术语映射体系,解决中文医学自然语言处理和三元组抽取问题,形成以主语-谓语-宾语三元组形式表示的结构化主张。针对英文自然语言表述的医学文献、临床指南、医学百科和现有医学知识库等,利用一体化医学语言系统(UMLS),优化基于SemRep抽取的临床相关“概念-关系-概念”三元组;对于召回率低的问题,考虑增加利用通用信息抽取工具,如OpenIE抽取“实体-属性-值”三元组。同时,需要开展医学证据、结局指标与数值抽取,内容包括临床结局指标(如有效率、应答率等)、值及P-value。例如,从自然语言文本“2019年我国心血管疾病导致死亡人数约460万,占全部死亡的43%”中可抽取出:①三元组:“心血管疾病-死亡占比-43%”;②依赖条件:中国人群;③证据来源:2019年全球疾病负担报告(the global burden of disease study 2019,GBD 2019)。同时,探索基于临床试验注册平台数据开展证据合成的方法研究,以美国Clinicaltrials.gov、中国临床试验注册平台等为基础,利用其相对结构化的数据,自动生成“患者-干预-对照-结局”(population-interventions-comparisons-outcomes,PICO),对于注册平台上未报告结果的试验,通过计算机软件工具获取书目数据库(如PubMed)或网络(如权威会议报道)报告结果。
(2)知识的置信度问题。针对现有的临床治疗类知识图谱中三元组因缺乏置信度(confidence score)导致在真实世界临床决策难以落地的瓶颈,需要对医学知识三元组的置信度水平进行计算,但总体的置信度水平离不开每个证据的临床结局。根据证据推理(evidential reasoning)理论,把不同的临床证据的置信度进行合成,可计算得到该三元组的综合置信度得分。通过舍弃置信度较低的知识,或找到置信度较低知识的条件来保障知识图谱中三元组的质量。
(3)知识的临床决策支持应用。基于中文一体化医学语言系统(Chinese unified medical language system,CUMLS
)
[
36
]、国家卫生健康委员会陆续发布的中文医学术语表等,对构建的医学知识图谱中各三元组中的概念和关系进行中英文映射,转化为中文医学知识图谱三元组。探索实现医学知识“可执行”的机制,将医学知识图谱的子图作为知识单元进行计算机语言编码,并开发与真实世界电子病历中数据对话的接口。基于带有置信度的知识三元组,通过计算机编程封装转化为可计算知识对象以辅助临床决策,如诊断预测、治疗推荐等。通过在临床工作流程中嵌入可计算知识对象、开发可计算知识和患者数据之间的对话机制,解决从知识到实践,从实践再到数据的循环式学习,解决医学知识图谱在真实场景中落地应用问题。
对于从非结构化文本中抽取可计算医学知识,结构化和可执行同样是其两个关键要素,也是两个重要目标。其中,结构化是指从非结构化医学文本中生成结构化的知识,并构建适宜的表示和存储模型,实现大规模存取;可执行是指能与电子病历(EMR)数据进行交互,并提供决策支持,实现大规模使用。在知识图谱三元组的基础上,提出增加通过证据推理融合计算总体置信度水平的思路,解决的知识应用的关键瓶颈——不确定性。最终实现“从数据到知识、从知识到实践、从实践再到数据”的循环式学习,促进医学知识快速服务于临床实践。
参 考 文 献
1
叶鹰, 马费成. 数据科学兴起及其与信息科学的关联[J]. 情报学报, 2015, 34(6): 575-580. [百度学术]
2
Zhu L S, Zheng W J. Informatics, data science, and artificial intelligence[J]. JAMA, 2018, 320(11): 1103-1104. [百度学术]
3
Fortunato S, Bergstrom C T, Börner K, et al. Science of science[J]. Science, 2018, 359(6379): eaao0185. [百度学术]
4
Milojević S. Quantifying the cognitive extent of science[J]. Journal of Informetrics, 2015, 9(4): 962-973. [百度学术]
5
马费成. 情报学的进展与深化[J]. 情报学报, 1996, 15(5): 22-28. [百度学术]
6
文庭孝, 罗贤春, 刘晓英, 等. 知识单元研究述评[J]. 中国图书馆学报, 2011, 37(5): 75-86. [百度学术]
7
Friedman C P, Flynn A J. Computable knowledge: an imperative for Learning Health Systems[J]. Learning Health Systems, 2019, 3(4): e10203. [百度学术]
8
Williams M, Richesson R L, Bray B E, et al. Summary of third annual MCBK public meeting: mobilizing computable biomedical knowledge—accelerating the second knowledge revolution[J]. Learning Health Systems, 2021, 5(1): e10255. [百度学术]
9
Wyatt J, Scott P. Computable knowledge is the enemy of disease[J]. BMJ Health & Care Informatics, 2020, 27(2): e100200.[百度学术]
10
Kilicoglu H, Rosemblat G, Fiszman M, et al. Broad-coverage biomedical relation extraction with SemRep[J]. BMC Bioinformatics, 2020, 21(1): 188. [百度学术]
11
索传军, 盖双双. 知识元的内涵、结构与描述模型研究[J]. 中国图书馆学报, 2018, 44(4): 54-72. [百度学术]
12
Flynn A J, Friedman C P, Boisvert P, et al. The Knowledge Object Reference Ontology (KORO): a formalism to support management and sharing of computable biomedical knowledge for learning health systems[J]. Learning Health Systems, 2018, 2(2): e10054. [百度学术]
13
Yang X L, Li J X, Hu D S, et al. Predicting the 10-year risks of atherosclerotic cardiovascular disease in Chinese population: the China-PAR project (prediction for ASCVD risk in China)[J]. Circulation, 2016, 134(19): 1430-1440. [百度学术]
14
Callahan T J, Tripodi I J, Pielke-Lombardo H, et al. Knowledge-based biomedical data science[J]. Annual Review of Biomedical Data Science, 2020, 3: 23-41. [百度学术]
15
Zhang D C, He D Q. Enhancing clinical decision support systems with public knowledge bases[J]. Data and Information Management, 2017, 1(1): 49-60. [百度学术]
16
覃露, 徐晓巍, 丁玲玲, 等. 面向决策支持的临床指南知识表示方法研究[J]. 中华医学图书情报杂志, 2020, 29(2): 1-8. [百度学术]
17
朱超宇, 刘雷. 基于知识图谱的医学决策支持应用综述[J]. 数据分析与知识发现, 2020, 4(12): 26-32. [百度学术]
18
Bastian H, Glasziou P, Chalmers I. Seventy-five trials and eleven systematic reviews a day: how will we ever keep up?[J]. PLoS Medicine, 2010, 7(9): e1000326. [百度学术]
19
Dunn A G, Bourgeois F T. Is it time for computable evidence synthesis?[J]. Journal of the American Medical Informatics Association, 2020, 27(6): 972-975. [百度学术]
20
Alper B S, Richardson J E, Lehmann H P, et al. It is time for computable evidence synthesis: the COVID-19 knowledge accelerator initiative[J]. Journal of the American Medical Informatics Association, 2020, 27(8): 1338-1339. [百度学术]
21
Elkin P L, Carter J S, Nabar M, et al. Drug knowledge expressed as computable semantic triples[J]. Studies in Health Technology and Informatics, 2011, 166: 38-47. [百度学术]
22
Malec S A, Boyce R D. Exploring novel computable knowledge in structured drug product labels[J]. AMIA Joint Summits on Translational Science Proceedings, 2020, 2020: 403-412. [百度学术]
23
温有奎, 焦玉英. 基于语义三元组的电子病历潜在知识发现研究[J]. 情报学报, 2011, 30(7): 675-681. [百度学术]
24
Li X Y, Peng S Y, Du J. Towards medical knowmetrics: representing and computing medical knowledge using semantic predications as the knowledge unit and the uncertainty as the knowledge context[J]. Scientometrics, 2021, 126(7): 6225-6251.[百度学术]
25
Kilicoglu H, Shin D, Fiszman M, et al. SemMedDB: a PubMed-scale repository of biomedical semantic predications[J]. Bioinformatics, 2012, 28(23): 3158-3160. [百度学术]
26
Elsworth B, Gaunt T R. MELODI Presto: a fast and agile tool to explore semantic triples derived from biomedical literature[J]. Bioinformatics, 2021, 37(4): 583-585. [百度学术]
27
Mons B, van Haagen H, Chichester C, et al. The value of data[J]. Nature Genetics, 2011, 43(4): 281-283. [百度学术]
28
Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services & Use, 2010, 30(1/2): 51-56.[百度学术]
29
Fabris E, Kuhn T, Silvello G. Nanocitation: complete and interoperable citations of nanopublications[C]// Proceedings of the Italian Conference on Digital Libraries. Cham: Springer, 2020: 182-187. [百度学术]
30
Williams A J, Harland L, Groth P, et al. Open PHACTS: semantic interoperability for drug discovery[J]. Drug Discovery Today, 2012, 17(21/22): 1188-1198. [百度学术]
31
Fabris E, Kuhn T, Silvello G. A framework for citing nanopublications[C]// Proceedings of the International Conference on Theory and Practice of Digital Libraries. Cham: Springer, 2019: 70-83. [百度学术]
32
Wong D, Peek N. Does not compute: challenges and solutions in managing computable biomedical knowledge[J]. BMJ Health & Care Informatics, 2020, 27(2): e100123. [百度学术]
33
Mons B. FAIR science for social machines: let’s share metadata knowlets in the Internet of FAIR data and services[J]. Data Intelligence, 2019, 1(1): 22-42. [百度学术]
34
Walsh K, Wroe C. Mobilising computable biomedical knowledge: challenges for clinical decision support from a medical knowledge provider[J]. BMJ Health & Care Informatics, 2020, 27(2): e100121. [百度学术]
35
杜建. 医学知识不确定性测度的进展与展望[J]. 数据分析与知识发现, 2020, 4(10): 14-27. [百度学术]
36
李丹亚, 胡铁军, 李军莲, 等. 中文一体化医学语言系统的构建与应用[J]. 情报杂志, 2011, 30(2): 147-151. [百度学术]
38
Swierstra T, Efstathiou S. Knowledge repositories. In digital knowledge we trust[J]. Medicine, Health Care and Philosophy, 2020, 23(4): 543-547. [百度学术]
39
Efstathiou S, Nydal R, Laegreid A, et al. Scientific knowledge in the age of computation: explicated, computable and manageable?[J]. THEORIA: An International Journal for Theory, History and Foundations of Science, 2019, 34(2): 213-236.[百度学术]
40
Smalheiser N R. Rediscovering Don Swanson: the past, present and future of literature-based discovery[J]. Journal of Data and Information Science, 2017, 2(4): 43-64. [百度学术]
41
吴家睿. 确定的不确定性与不确定的确定性——治疗疾病决策与控制传染病决策之差异[J]. 医学与哲学, 2020, 41(8): 1-6, 70. [百度学术]
42
Andermann A, Pang T, Newton J N, et al. Evidence for Health II: overcoming barriers to using evidence in policy and practice[J]. Health Research Policy and Systems, 2016, 14: 17. [百度学术]
43
Zhang L X, Wang H B, Li Q Z, et al. Big data and medical research in China[J]. BMJ, 2018, 360: j5910. [百度学术]