欢迎来到北京大学健康医疗大数据国家研究院

设为首页 | 加入收藏
可计算医学知识的基本概念与实现路径
时间:2021-11-23 09:01:34来源: 点击数:



原文链接:http://qbxb.istic.ac.cn/fileup/HTML/2021-11-1221.shtml


  • 杜建 1  孔桂兰 李鹏飞 1,2 白永梅 1  张路霞 1

1. 北京大学健康医疗大数据国家研究院,北京 100191;

2. 北京大学信息技术高等研究院,杭州 226019

摘要

可计算医学知识强调将科学出版物中人读的知识格式通过抽取和编程转化为机器可执行的知识格式,是促进知识大规模应用的重要手段,其不仅为情报学领域开展知识计算研究提供了新范式,也为数字图书馆存储和管理数字化知识对象提出了新需求。可计算医学知识的基本概念包括两个方面,一是知识的表示形式可计算化,二是知识在实践中“可执行”,两者缺一不可。本文归纳提出了可计算医学知识的两条实现路径。一是数据挖掘,从表格等结构化数据中形成计算机可直接调用和执行的数字化知识对象(如疾病风险模型计算器),用知识网格(K-Grid)管理,提供辅助诊断;二是文本挖掘,从临床指南、医学文献的知识主张等非结构化文本中抽取三元组,并纳入三元组背后的证据和数据,计算置信度,用图数据库(K-Graph)来管理,实现知识单元的查询和输出,提供治疗建议等。最后讨论了可计算医学知识对于深化情报学研究的积极意义及其在促进知识转化、知识发现和循证决策中的应用场景,以期为国内学术界开展医学知识计算引入跨学科研究思路,也为我国建设“从数据到知识、从知识到实践、从实践再到数据”的学习型健康医疗体系提供技术方法基础与实现路径参考。

 

1 引  言

如何从数据中生成知识(data to knowledge,D2K)是情报学和数据科学的重要研究内容,也是解决大数据时代信息超载的关 键         [   1-2 ]。当前,各国高度重视科技创新,由此产出的科学出版物及其相关数据将持续快速增长。现代科学的特点是科学文献呈指数级增长,但出版量的增长并未反映科学认知领域的扩大,例如,新出现的科学概念(论文标题中识别出的新短语)数量呈线性增   [   3-4   ]。受此启发,我们认为,海量的科学出版物仅是数据或信息,而其中涉及的“知识单元”对于开展知识发现、加快知识转化、促进知识驱动的管理决策则具有更重要意义。我国情报学学者马费成教授曾指出,从物理层次的文献单元向认知层次的知识单元转换是情报学取得突破性发展需要解决的关键问   [   5   ]。但究竟如何表示知识单元一直没有得到解   [   6   ]。知识通常以文字、符号和图片的形式呈现,并通过书籍、期刊和论文的形式进行传播。一个人想要理解、总结以及运用这些知识,则需要亲自阅读这些书籍、期刊和论文,这是一个缓慢而费力的过程。为了保持知识更新,需要从海量数据和信息中抽取、剥离出知识单元,并建立适宜的表示模型;同时,为促进知识转化,需要搭建知识和实践之间的桥梁,构建两者之间的交互机制,促进知识驱动或知识指导的实践。

上述观点在医学领域尤为明显和迫切。医学知识从发现到实际应用,平均有17年的时滞。为何转化时滞如此之长,一个重要原因是目前的医学知识多表现为线性的文本(如医学文献、临床指南等)和碎片化的模型(如疾病风险评估模型等)。为了加速医学知识向临床应用的转化,美国密歇根大学提出了“推进可计算生物医学知识”(mobilizing computable biomedical knowledge,MCBK)的理念和行动,在美国、英国、澳大利亚、中国等引起了广泛关 注         [   7 ],已连续3年召开年会,共同推动第二次知识革   [   8   ]。其核心思想包括3个重要环节。一是将目前人读的知识格式转化为机器可执行的格式,开发辅助临床决策的应用产品,实现“从数据到知识”;二是将知识对象存储在知识管理平台上,供临床医护人员在实践中实时调用,实现广泛共享和利用,实现“从知识到实践”;三是在知识驱动的临床实践中产生新的数据,实现“从实践再到数据”,进而循环往复又形成新的知识。最终实现“从数据到知识,从知识到实践,从实践再到数据”的循环,促进学习型健康医疗体系的建立。

目前,在“数据-知识-实践”周期中,从数据到知识,是科学共同体开展科学发现的过程;而从知识到实践的进程缓慢,可计算知识是实现“从知识到实践”的重要技术手段。以医学领域为例,通过革新医学知识的呈现和管理方式(从“人读”到“机器读”,从“图书馆存储”到“可计算知识管理平台存储”),并构建知识应用的标准模式,有望促成整个健康医疗体系的变革。本文在国际相关研究和实践基础上,结合我们的理解,引入和阐述可计算医学知识的基本概念、主要类型、表示模型和管理平台等,以期为学术界开展医学知识可计算引入跨学科研究思路,也为我国建立学习型健康医疗体系提供方法基础和实现路径。

 

2 可计算医学知识的基本概念

根据能否清晰表述和有效转移,可以把知识分为显性知识(explicit knowledge)和隐性知识(tacit knowledge)。医学知识,是经过医学实践证实、科学分析或严谨研讨过程后形成的结果或论断,对特定的临床专业或疾病人群具有重要指导意义,可界定为经过科学实验/试验并经同行评议后已发表或已被医学界接受的结果、主张或认知。由于医学(特别是现代医学)有严格的培养标准和教育体系,医学知识主要以显性知识为主,即可以被记录下来,并被他人直接加以使用的知 识         [   9 ]。医学研究产出的医学文献和临床指南成为医学知识的主要载体。然而,大多数已发表的电子文献停留于人类可理解的自然语言表示模式,即非结构化的格式(一般以PDF文档格式存储),机器无法理解与计算,导致大量隐含在医学文献中的知识主张、可在实践中应用的模型或规则不能得到有效管理与利用。

以“‘computable knowledge’AND‘biomedical OR medical’”为核心关键词,通过系统的文献检索与分析归纳,这一概念从字面上主要有两种表述,“可计算的医学知识”(computable medial knowledge)和“医学知识的可计算化”(making medical knowledge computable)。前者侧重实现的结果,后者侧重实现的过程。从本质上来看,两者表达的意思是相同的。我们认为,可计算医学知识的基本概念包括两个方面,一是知识的表示形式可计算化,二是知识在实践中“可执行”,两者缺一不可。

 

2.1  知识的表示形式可计算化

表示形式主要有两类:一是从非结构化数据中生成知识单元(knowledge unit),表示为从自由文本中抽取的“主语-谓语-宾语”语义三元组(subject-predicate-object,SPO triple )         [     10-11 ];二是从结构化数据中生成可计算的知识对象(computable knowledge objects),表示为从医疗大数据中生成的疾病预测模型,以及疾病诊断规则、计算机化的临床指南   [   7   ,     12 ]。

美国密歇根大学MCBK主要侧重于后者,包括两方面。一是构建可计算的各类知识对象,通过计算机程序对各类知识进行编程封装,形成计算机能处理的知识对象。一个知识对象包括知识载体、与用户交互的界面,以及有关知识的详细说明3个部分。二是在一个大的知识管理平台上实现对知识对象的共享和利用。例如,在统一的标准下类似Apple的APP Store提供各类APP应用的下载和使用,医生、患者、公众等都能够直接使用这些知识对象。

以“动脉粥样硬化性心血管疾病预测的中国模型”为例进行说明,作者不仅发表了学术论文(人读的格式,如文字、图片和公式 )         [     13 ];在此基础上还开发了可公开使用的网页版计算器(web-based calculator           和手机APP程序,把疾病预测模型以机器可执行的格式存储并供用户使用。

根据健康人或患者输入的年龄、总胆固醇、高密度脂蛋白胆固醇、糖尿病等综合指标数据,可计算出10年后个人ASCVD(arteriosclerotic cardiovascular disease,动脉硬化性心血管疾病)的发病风险。基于网页版计算器和手机APP程序这样的机器可执行的知识对象,用户通过“填写-计算-预测”产生了大量新的数据,这些新的数据可进一步帮助改进预测模型的准确性,进而又形成了性能更佳的预测模型(即“新知识”)。最终,实现了“从数据到知识、从知识到实践,从实践再到数据”的循环。然而,目前,这样的疾病预测模型散落于医学科研机构或医疗机构中科研人员自建的网站,无法对于用户实现“一站式获取和大规模使用”。MCBK的目标就是要建立规范统一的、标准化的知识对象存储和共享平台。

 

2.2  知识在实践中“可执行”

除了上述介绍的源自结构化数据的疾病预测模型作为可直接调用和运行(即“可执行”)的知识对象外,来源于非结构化文本的知识图谱通常也作为计算机系统中用来形式化表示知识的一种工 具         [     14 ]。知识图谱在临床实践中的价值主要体现为在将知识图谱和基于真实世界数据的电子病历的结合应用上。目前,将医学知识图谱与电子病历相结合(即促使医学知识“可执行”)是医学知识图谱应用的前沿研究课题。这样的结合为临床医护人员带来的益处主要包含3个方面:一是方便查询医学领域知识;二是逻辑化呈现患者数据和信息;三是辅助临床决策,从而帮助提高诊断效率和准确率。

使用知识图谱可以提升从文献或大量临床数据中检索信息、查询知识的能力。例如,利用大型开放式知识库(如Wikipedia和SemMedDB)提供的有关每种疾病及其相关症状、检查和治疗的知识图谱,将电子病历中提取的与诊断相关的信息与之进行比对,可提高临床诊断的效 率         [     15 ]。采用结构化图谱方式取代传统的叙述性文本对患者病情进行描述,可改进复杂患者数据或个人健康信息的表示和呈现,减轻医生的信息负担和认知负担。在临床诊疗过程中,可通过将人读的、自然语言描述的医学证据和临床指南转化为机器可读、可理解的知识图谱,把已有的知识通过知识图谱工具提供给临床以作为诊疗决策的重要参   [   16   ]。医学知识图谱与先进的知识图谱推理方法的结合可以极大地减轻临床医生的诊断压力,减少误诊率并提高诊断效率。由于医学的系统性,目前的医学知识图谱主要面向专病,未来需要更为完整和准确的全科医学知识图谱,并需要不断改进知识图谱推理算法,以期更好地与临床决策支持相结   [   17   ]。

此外,与MCBK侧重“医学知识的表示形式可计算化,即从人读的论文转化为机器可执行的程序”不同,有学者提出医学证据合成(evidence synthesis)也需要引入可计算化的思路,以减轻人工负荷。根据统计,目前全球每天要进行75项临床试验和11项系统综述,如何跟上海量医学证据的发展,并将其转化为临床实践是一个迫切需要解决的科学问 题         [     18 ]。系统综述和meta分析已被公认为是客观评价和合成针对某一特定问题的研究证据的最佳手段,通常被视作最高级别的证据。2020年,医学信息学领域的学者发表了“可计算的证据合成”(computable evidence synthesis)的概念,提出了直接利用结构化数据促进医学证据合成的观   [   19   ]。

在临床试验过程中,有关试验设计和实施的信息通常与试验结果一起以期刊文章的形式发布。因此,当前的医学证据合成主要依赖于人工检索书目数据库并阅读、筛选证据,导致数据不够完整,且带有一定程度的偏倚,如已发表文章多为阳性结果。关于试验涉及的临床问题和干预措施的详细信息,可通过在试验注册时预先指定的数据元素获取,使得数据结果能够以标准化、结构化的格式呈现。临床试验注册平台所提供的结构化结果数据更具有及时性、完整性和易获取的特点,且可以实现数据的自动更新和计算机可解释。

因此,现在应该重新反思证据合成的基本原理。随着获取不同形式的可计算试验数据成为可能,将有助于系统综述从耗时的试验结果出版物筛选模式转为主动积极的临床试验监测模式,从证据积累模式转变为证据优先级排序的模式。与此概念相对应,2020年8月,可计算化出版(computable publishing)组织成立,通过开发临床试验结果报告器(clinical trials reporter)等工具,支持基于标准的、机器可解释的公共知识表达,尤其是与健康医疗和科学证据有关的公共知 识         [     20 ]。

 

3 可计算医学知识的前端表示模型

基于美国密歇根大学对可计算医学知识的定义,只有通过计算机编程封装知识对象之后,才能实现可计算,从这个角度来看,可计算医学知识的最终表示方式都是程序代码。然而,本节重点阐述如何表示封装之前的可计算医学知识,即可计算医学知识的前端表示模型。

 

3.1  医学规则与诊疗知识库

在医学教科书、医学文献中出现的大多医学知识,均是以传统IF(前件)-THEN(后果)规则的格式进行表示。以发烧为例,医学知识中的诊断规则通常表示如下:如果患者体温超过38℃,那么该患者处于发烧状态。传统的医学规则包含前件和后果,前件为临床的某种病症,后果为某种特定的疾病、治疗方案、或者结局等。在临床实践中,大多数医护人员的疾病诊断及治疗均是依赖现有医学知识中累积的各种规则。把针对特定疾病的诊疗规则进行归纳、整理,最终形成该种疾病的诊疗知识库。

随着计算机技术的发展,计算机存储和计算能力已经远超人脑的记忆思维能力,把传统IF-THEN诊疗规则或者诊疗知识库电子化、结构化,就形成了计算机能够存储并理解的计算机化医学规则或者知识库。在文献和医学实践中,基于专家系统方式实现的临床决策支持系统,就是依赖于这样的医学规则和知识库。

 

3.2  数据驱动的疾病预测模型

传统医学实践中,医护人员是依据权威的医学知识或者自身经验进行临床疾病诊断、治疗以及疾病管理决策,因此,不同医疗机构以及医护人员的医疗服务水平和患者的预后与医护人员自身的医疗背景以及经验具有很大关联,差异性非常大。在计算机与信息技术高度发达、大数据与人工智能已经深度融入医学领域的当今时代,临床的诊疗及疾病管理决策已经不单单是依靠现有领域知识和专家自身经验,基于传统医学研究临床试验中所收集的数据以及真实医疗实践中累积的医疗大数据进行分析、挖掘,找出疾病的规律和特征,构建疾病发生、发展以及患者预后的预测模型,将辅助医护人员进行有效的、优化的临床决策。

数据驱动的疾病发生、发展及患者预后的预测模型,其输入变量一般是患者的人口学信息、临床病症以及实验室检查检验的结果,其输出变量一般是某种疾病或并发症发生、某种预后发生的概率。将数据驱动的疾病预测模型进行系统实现,并有效嵌入或者集成到日常的医疗服务工作流程中,就形成了一个自动化、智能的临床决策支持工具,以辅助临床医护人员进行各种诊疗决策。一般来讲,数据驱动的疾病预测工具应与基于知识的决策支持工具融合使用,一是拓展了现有领域知识和专家经验,二是弥补了基于局部真实世界医疗大数据或者临床试验数据进行疾病建模带来的局限性。

 

3.3  语义三元组:细粒度表示医学知识主张

大量的生物医学知识隐藏在自由文本中,自然语言处理技术对实体(如疾病、药物、基因、蛋白质等)和关系(如疾病治疗、蛋白质/药物相互作用和药物不良反应事件)的抽取,有助于支撑生物医学知识管理和发现等应用,促进临床医生和实验室科研人员更有效地获取信息和生成新知识。可计算知识应是结构化的知识,从格式上可由计算机程序读取。一种简单的、可计算的知识表示是语义三元组。语义三元组由两个概念组成,这两个概念通过某些谓语(即动词)相互关联,如“导致(causes)”和“治疗(treats)”。如“布洛芬-引起-胃肠道出血”就是这样一种语义三元组。语义三元组被称为“思想的原子”,既可以具象地表示某一命题或主张,又具有不可再分性。例如,可以将药物知识表示为三元 组         [     21 ],以从PubMed文献中抽取的三元组作为基准,将从FDA(Food and Drug Administration,美国食品药品监督管理局)药物说明书中抽取的三元组与之对比,可识别新的且文献中未报道过的医学知   [   22   ];将电子病历文本中的知识元表示为语义三元组,开展电子病历潜在知识发现研   [   23   ]。基于“以三元组为知识单元,以不确定性为知识语境”的知识计算模型,开展矛盾性、冲突性知识发   [   24   ]。

在医学领域,语义三元组抽取已具有较为成熟的技术,其中,以美国国立医学图书馆的“科学知识语义表示”项目开发的SemRep工具和SemMedDB知识库为典型代表。SemRep是Semantic Representation的简称,是一个基于规则的自然语言处理工具。以一体化医学语言系统(unified medical language system,UMLS)中标准化的医学概念、概念类型(如药物、疾病)和概念之间的语义关系(如治疗)为基础,从自然语言文本中抽取“主语-谓语-宾语”三元组。最新版UMLS收录约380万个概念、127种概念类型和54种语义关系。SemMedDB知识库存储基于SemRep工具,抽取PubMed文献标题和摘要形成的三元组以及其来源语 句         [     25 ]。该库每年发布一次,且不断改进,包括对SemRep工具提取的错误概念和关系进行纠正。SemRep和SemMedDB支持了多种临床决策和转化应用,包括医疗诊断、药物再利用、基于文献的发现和假设生成,有助于改善健康结局。目前,SemRep工具正在被重新设计,以提高其整体性能。SemRep和SemMedDB实现了大规模知识单元的抽取和存储,是一个基础库,并且可进行二次开发。例如,英国学者最近开发了MELODI Presto系           ,该系统提供基于Web网页查询SemMedDB中的三元组及其背后的支持语   [   26   ]。

 

3.4  纳米出版模型(nanopublication

近年来,生物语义学(biosemantics)领域的进展为细粒度表示医学知识对象提供了启示和借鉴,以荷兰莱顿大学生物语义学专家Barend Mons教授及其团队提出的纳米出版模型为典型代 表         [     27-28 ]。该模型并非专指纳米领域,而是指借鉴纳米之义,具有科学意义的、机器可读的、最小的知识单元。纳米出版物模型解决了由于科学论文和数据集的不断增长而导致检索、分析知识单元以及将科学结果与基础数据联系起来日益困难的问题,实现了将人读的知识转化为机器可读的知识。

基本结构包括三部分:①主张(assertion),即主-谓-宾三元组表示的科学论断;②出处信息(provenance),表示提出主张或创建了事实性素材(如数据、图表等)的作者、机构、时间和地点等;③出版信息(publication Information),关于一个纳米出版物本身的元数据,包括纳米出版物的创建者、创建日期和版本等。这三个组件缺一不可,保证了信息完整性,并能有效提升科研信息的复用可能。这三个部分的内容均使用RDF格式进行描述,保证了机器可理解和可操作。

目前主要有三种进行中的应用。一是科研工作者自行将个人研究成果发布为纳米出版物(存储于平台http://nanopub.org/wordpress/);二是将已有关系型数据库(如基因-疾病关联知识库DisGeNet)以纳米出版物形式发 布         [     29 ];三是支持目标导向的大型项目,如药物发现语义平台Open PHACTS(Open Pharmaceutical Triple Store)项   [   30   ],是一个存储和计算药学概念三元组的仓储。基于纳米出版模型,建立试验数据和科学结论的规范语义描述本体,并在大规模生物医药文献集上构建了药学知识单元形成的网络,即知识图谱。纳米出版模型尚未在临床医学领域广泛应用,这也是我们计划研究的主要内容。

如果以纳米出版模型作为知识单元,构建知识单元的引用关系反映的知识演化,那么需要解决的问题是如何像科学论文那样,构建纳米出版物的引用格式。2019年,有学者提出了可对单个纳米出版物进行引用的纳米引用格式(nanocitation),并设计了一个系统自动生成纳米出版物的引文,解决了这一模型缺乏引文标准的问题,在此基础上可以设计文献计量学指标,开展知识单元这一细粒度层面的分 析         [     31 ]。为了充分发挥并利用可计算医学知识的优势,最终需要一种全新的方法让所有知识在开始生成时便适合于计   [   32   ]。例如,将传统的人读的科学出版物转化为机器可读的纳米出版物,研究产出将不再仅仅是科学论文及相关的数据集,而是一组可计算格式的结果或主张,描述实验过程和结果的自然语言文本(即学术论文)仅作为供人类可读并参考的一种形式,对其进行处理后可产生更高阶的信息,如系统综述和临床实践指南。

 

3.5  knowlet模型:以知识子图作为可编码知识单元

提出纳米出版模型的Barend Mons教授及其团队同时提出,把所有持相同论断的纳米出版物中共同出现的论断聚合为一个“基本论断”,以减少冗 余         [     33 ]。将围绕一个中心概念(central concept)、路径长度为1的三元组之组合作为一个knowlet。我们认为,knowlet是指知识图谱中可以表示一个独立知识单元的子图,可将其译为“知识子图”。例如,围绕“新冠”这一概念,作为起点或终点的所有关系,如症状、诊断、治疗形成的三元组。随着围绕某一概念的论断越来越多,与文本空间快速增长相比,知识子图空间增长较小,例如,有大量的文本涉及的知识单元只有一个。知识子图是一个独立的数字对象和最小的知识单元,其本身可被发现、可访问、可互操作以及可重用。

在上述5种医学知识表示模型中,医学诊断规则和数据驱动的疾病预测模型主要涉及结构化数据,以三元组为基础的表示模型主要适用于非结构化文本。实际上,规则也可以表示为三元组,例如,“心率”-“正常值”-“60~100次/分”就是“实体-属性-值”表示的三元组;基于医学数据、通过机器学习产生的决策树,可以转化为一系列的医学规则,亦可理解为三元组的逻辑组合。知识图谱的本质是三元组因果关系图谱,由“实体-属性-值”或“实体-关系-实体”构成。每个属性-值对应刻画了实体的内在特性;关系则连接两个实体,刻画了实体之间的外部关联。

 

4 医学知识“可执行”的实现路径

本文第2节提出了可计算医学知识的两个要素:一是可计算化的表示形式,二是机器可执行。第3节和第4节分就分为围绕上述两个要素展开,其中,第3节是侧重于知识对象封装成软件代码之前如何表示的问题;而第4节侧重于知识对象封装成软件代码之后,如何提供服务的整个流程以及尚需要解决的问题。

北京大学健康医疗大数据国家研究院正在牵头积极推动可计算医学知识在中国的研究和实践,并与该概念的提出者——密歇根大学学习型健康医疗体系研究中心Charles Friedman教授的团队保持着密切合作。Charles Friedman教授团队开发了一个用于可计算知识对象封装、存储、管理和调用的知识网格(knowledge grid,K-Grid)平 台               。目前已经实现原型系统,并在持续研发中。北京大学健康医疗大数据国家研究院、浙江省北大信息技术高等研究院智慧医疗研究中心正在中国进行本地化开发与推广。目前,该平台中的知识对象主要来源于结构化数据,且以疾病预测模型为主。

上文介绍了荷兰莱顿大学Barend Mons教授团队提出的纳米出版模型与知识子图模型,主要来源于非结构化文本。我们尝试将这类知识对象也能编程封装之后,在K-Grid平台上实现调用和执行。因此,为了更充分和全面地在我国设计和发起可计算医学知识的研发和实践,我们整合了上述两条路径( 图1 )。


图1 可计算医学知识的两条实现路径(分别针对结构化数据和非结构化文本)

知识生成与知识的可计算化处理是分开的、在不同阶段进行的。本文重点讨论将生成后的知识(临床指南、医学文献、本地实验/试验后的分析结果等)实现可计算化这阶段。

一是数据挖掘,形成计算机可直接调用和执行(如直接计算出疾病风险分值)的知识对象,用知识网格(K-Grid)管理,提供辅助诊断。例如,根据生化指标判断患者是否可诊断为慢性肾病合并贫血,根据若干指标计算个人罹患肺癌风险分值等。数据挖掘产生的规则或者模型属于知识表示模型(如人工神经网络、决策树等),还没有形成可计算知识对象,需要K-Grid平台上的工具对规则或者模型进行编程封装之后,才能形成可计算知识对象;多种计算机语言(R或者Python)可供选择进行预测模型的封装。虽然R开发环境挖掘出来的模型本身就是可执行的,但是如果想通过K-Grid平台进行管理的话,还需要进一步编程封装。这与文本挖掘产生知识三元组是一个平行的过程。

二是文本挖掘,形成结构化的三元组,并纳入三元组背后的证据和数据,计算出置信度,采用类似Neo4j图数据库来管理,实现知识单元的查询和输出。例如,根据目前最佳证据,治疗某种疾病的药物清单,该药物清单可按照置信度排序,提供治疗方式的自动推荐。

总之,无论是路径一提供的辅助诊断,还是路径二提供的辅助治疗,均为临床决策支持的范畴。下文分别介绍了在两条实施路径中,我们已完成的内容以及需要继续研发的内容。

 

4.1  路径一:从结构化数据中生成的可计算医学知识

当前,作为中国首个“推动医学知识可计算行动”的网 站                   ,已完成平台的设计与研发( 图2 )。选择慢性疾病作为切入点,构建了医学知识模型与可计算编程规范。已建设医学知识对象29个,多场景兼容应用14个,全流程慢性肾脏疾病(chronic kidney disease,CKD)解决方案专题2个。为医疗机构和医学专家团队提供创建并管理医学知识模型的平台,让知识提供者能便捷分享最新研究成果;提供通用的模型API(application programming interface,应用程序接口)接口,软件工程师不需要掌握医学知识即可对模型进行组合与部署,研发符合定制化业务流程的应用;患者可通过已有应用进行健康状况自评与疾病风险预测,医护人员可以使用应用辅助诊疗与科研。通过与北京大学医学部、北京大学第一医院、密歇根大学等多家医疗机构与国内外院校开展深度合作,推动了学习型智慧健康体系在中国的落地发展。


图2 K-Grid-China可计算医学知识智能应用平台示意图

其主要功能是把原先需要医护人员、医疗领域决策者或者医学科研人员认真阅读、深入理解才能具体掌握的医学知识,转变为可计算的医学知识对象,以供各类医学应用大规模、并行、且实时地调用运行。该平台的核心组件主要包含知识对象、知识对象库、知识对象激活器以及服务四个部分( 图2 )。

(1)知识对象(knowledge objects)。知识对象是经编程封装的模块化、计算机可识别、可处理执行的知识模块。其来源可以是临床指南(guideline)、期刊文献以及数据驱动的疾病预测模型等。知识对象包含程序语言所组成的核心知识载体(knowledge payload)、用于与外界沟通的知识对象元数据(metadata)、该知识对象部署及相关服务的详细说明(specification)。

(2)知识对象库(digital library)。知识对象库用来储存与管理知识对象。一个知识网格平台可以包含多个知识对象库,知识对象库之间相互关联,知识对象库的基础为一个网络服务器(web server),加上对象检索服务。

(3)知识对象激活器(activators)。知识对象激活器是一个用来处理患者健康数据、激活并部署知识对象、利用知识对象来提供服务的工具。激活器提供可平行扩展的工具来让知识对象基于真实世界的患者数据进行计算推理,并给出运行结果。理想上激活器可以执行以不同语言所编程封装的知识载体,可将知识载体提供给其他应用程序,也可让某一知识载体本身提供服务。

(4)服务(services)。核心功能在于链接医学应用与知识对象,利用外界应用的输入数据激活相关的知识对象,并把运行结果反馈给外界应用。

知识网格平台与各个来源不同、类型相异的医学知识相比较,就如共同的桥梁和独立的小船,知识网格平台为各种医学知识提供了一个通用的平台工具,让各类医学知识能够通过该平台以一个通用的标准和模式为各类医学应用所调用,以期为学习型智慧健康医疗体系中知识到实践一环提供基础架构。

在该路径中,推进可计算的医学知识研发与应用还面临着若干挑战。一是将可计算的知识对象,例如,疾病预测模型应用于不同的电子病历系统涉及的标准和互操作性问题;二是需要更好地追踪和评估可计算医学知识对患者诊疗结果的影响;三是如何将目前针对单一病种的可计算医学知识实现方法和手段拓展到针对共病的医学知识 等         [     34 ]。

 

4.2  路径二:从非结构化文本中生成的可计算医学知识

从文本信息中提取知识,开展知识计算一直是情报学的前沿问题,其核心在于找到合适的知识单元,即要解决什么是知识以及用什么来表示知识。现有研究表明,受计算机科学领域启发,以“实体-关系-实体”和“概念-属性-值”三元组作为知识计算单元,具有理论上的合理性以及数据实现的可行 性         [     35 ]。数字时代,文本大数据中隐藏着大量医学知识,去除医学文本冗余部分并提取结构化知识单元是解决信息超载问题、实现大规模知识计算的关键。但仍有两个科学问题需要解决。一是如何既完整又最小化(不可再分)地表示一个独立的医学知识单元,即如何在三元组及其逻辑组合形成的知识图谱中,找到一个最小子图,作为可计算医学知识的基本单元,对其利用计算机语言进行编程实现,通过计算机程序实现与医疗数据之间的自动化对话;二是鉴于医学知识的个体化和不确定性特征,需要明确医学知识单元成立的依赖条件和证据来源,同时兼顾医学知识表示的结构化、完整性和不可再分性,才能将人读的知识格式尽可能“无丢失”和“无冗余”地转化为机器可读且可执行的知识格式。

以美国密歇根大学K-Grid原型为基础,参考荷兰莱顿大学纳米出版模型和知识子图(knowlet)模型,本文提出从非结构化文本中生成可计算医学知识的语义表示模型( 图3 )和主要实现路径( 图4 )。该模型兼顾医学知识结构化和可执行两个核心要点,考虑将置信度作为医学知识执行和应用的必要条件,以“可编码知识单元+置信度+可追踪的证据来源”为基本组件,每个组件均以资源描述框架(resource description framework,RDF)格式进行描述。为实现知识之间的互操作,对每个可编码知识单元分配一个可信任的统一资源标识符。该模型将“知识单元”及其背后的数据和证据链接起来。


图3 从非结构化文本中生成的可计算医学知识的语义表示模型



图4 源于非结构化文本的可计算医学知识流程图

该模型的关键要素主要包括三个方面。

(1)知识的结构化问题。采用较为成熟的英文医学自然语言处理工具和中英文医学术语映射体系,解决中文医学自然语言处理和三元组抽取问题,形成以主语-谓语-宾语三元组形式表示的结构化主张。针对英文自然语言表述的医学文献、临床指南、医学百科和现有医学知识库等,利用一体化医学语言系统(UMLS),优化基于SemRep抽取的临床相关“概念-关系-概念”三元组;对于召回率低的问题,考虑增加利用通用信息抽取工具,如OpenIE抽取“实体-属性-值”三元组。同时,需要开展医学证据、结局指标与数值抽取,内容包括临床结局指标(如有效率、应答率等)、值及P-value。例如,从自然语言文本“2019年我国心血管疾病导致死亡人数约460万,占全部死亡的43%”中可抽取出:①三元组:“心血管疾病-死亡占比-43%”;②依赖条件:中国人群;③证据来源:2019年全球疾病负担报告(the global burden of disease study 2019,GBD 2019)。同时,探索基于临床试验注册平台数据开展证据合成的方法研究,以美国Clinicaltrials.gov、中国临床试验注册平台等为基础,利用其相对结构化的数据,自动生成“患者-干预-对照-结局”(population-interventions-comparisons-outcomes,PICO),对于注册平台上未报告结果的试验,通过计算机软件工具获取书目数据库(如PubMed)或网络(如权威会议报道)报告结果。

(2)知识的置信度问题。针对现有的临床治疗类知识图谱中三元组因缺乏置信度(confidence score)导致在真实世界临床决策难以落地的瓶颈,需要对医学知识三元组的置信度水平进行计算,但总体的置信度水平离不开每个证据的临床结局。根据证据推理(evidential reasoning)理论,把不同的临床证据的置信度进行合成,可计算得到该三元组的综合置信度得分。通过舍弃置信度较低的知识,或找到置信度较低知识的条件来保障知识图谱中三元组的质量。

(3)知识的临床决策支持应用。基于中文一体化医学语言系统(Chinese unified medical language system,CUMLS )         [     36 ]、国家卫生健康委员会陆续发布的中文医学术语表等,对构建的医学知识图谱中各三元组中的概念和关系进行中英文映射,转化为中文医学知识图谱三元组。探索实现医学知识“可执行”的机制,将医学知识图谱的子图作为知识单元进行计算机语言编码,并开发与真实世界电子病历中数据对话的接口。基于带有置信度的知识三元组,通过计算机编程封装转化为可计算知识对象以辅助临床决策,如诊断预测、治疗推荐等。通过在临床工作流程中嵌入可计算知识对象、开发可计算知识和患者数据之间的对话机制,解决从知识到实践,从实践再到数据的循环式学习,解决医学知识图谱在真实场景中落地应用问题。

对于从非结构化文本中抽取可计算医学知识,结构化和可执行同样是其两个关键要素,也是两个重要目标。其中,结构化是指从非结构化医学文本中生成结构化的知识,并构建适宜的表示和存储模型,实现大规模存取;可执行是指能与电子病历(EMR)数据进行交互,并提供决策支持,实现大规模使用。在知识图谱三元组的基础上,提出增加通过证据推理融合计算总体置信度水平的思路,解决的知识应用的关键瓶颈——不确定性。最终实现“从数据到知识、从知识到实践、从实践再到数据”的循环式学习,促进医学知识快速服务于临床实践。

 

5 讨  论

 

5.1  可计算医学知识的理论概念为深化情报学研究提供了新的范式

本文所讨论的“可计算医学知识”,均来源于医学文献、临床指南等科学出版物,其中既涉及逻辑化的知识对象,又涉及结构化的知识单元。对科学出版物的分析挖掘本身就是情报学的“看家本领”。但本文的研究重点并非对科学出版物外部属性特征的分析挖掘,而是对其中蕴含的知识单元或知识对象的分析挖掘,这也是促进情报学向深层次发展的需要,正如我国情报学学者马费成教授曾指出,从物理层次的文献单元向认知层次的知识单元转换是情报学取得突破性发展需要解决的关键问题。本文所涉内容是通过医学信息学或循证医学的智能化实现技术作为手段或途径,来讨论如何把科学出版物中的知识主张或知识对象,以合适的形式抽取出来,并通过编程封装,形成可计算的知识,即计算机可直接执行的知识,以促进知识的大规模应用,打通“data to knowledge”(D2K)和“knowledge to practice”(K2P)的鸿沟。

从科学出版物中抽取出知识单元或知识对象的过程,本身也是一个信息处理和情报提取的过程。但是,到底什么是知识单元或知识对象,需要明确其定义并构建合适的模型,即对“可计算化”进行建模。本文提出的两条实现路径,实际上分别对应了知识对象和知识单元。

受OMAHA白皮书《促进医学知识价值开发:临床指南的计算机化》(2019 )         [     37 ]的启发,本文认为,知识对象的抽取和封装过程是基于知识的建模;知识单元的抽取和封装过程是基于文档的建模。前者侧重知识的内在逻辑,后者侧重知识的表示形式。

(1)基于文档的模型。以科学出版物文档本身为中心,将其中以文本表示的知识主张(knowledge claims)转换为计算机可以理解的文档形式,例如,以三元组为主要形式的知识单元,强调知识主张的结构化。这种模型结构清晰、表示方法简单易懂、不需要特殊执行框架,可通过图数据库进行存储和查询,即使不懂编程知识的用户(如医学研究者、医生等)也可使用,其通用性较强。但由于其计算机化的程度只到文档层面,就导致了其对科学出版物中知识主张及其背后的逻辑论证过程的解构程度较浅,无法实现知识主张中复杂逻辑知识的表达,因此,其在决策支持(如临床辅助决策支持)层面的应用较浅,复杂知识的表达还得依赖基于知识的模型。

(2)基于知识的模型。以科学出版物中的知识为核心,将其中的知识对象以规则、决策树或者任务网络的形式进行逻辑的呈现,强调知识的逻辑表示形式,采用专门的格式将知识表示为一种形式化、计算机可读的形式,并且将不同知识融合形成一套知识库,用于临床辅助决策系统,并强调与电子病历系统的结合。同时,强调在不同机构和不同执行平台间的知识共享,故标准化的医学术语,如SNOMED CT(systematized nomenclature of medicine clinical terms)、UMLS和MeSH(medical subject headings)应用非常普遍。由于对医学知识的解构较深,这类模型普遍需要临床的医务工作者或者指南的撰写者与编程人员一起开发,才能更好地理解和表达医学文献与临床指南中所包含的知识对象。

 

5.2  可计算医学知识在促进知识转化、知识发现和循证决策中的应用场景

本文结合与情报学密切相关的科学哲学、决策科学等以“知识”为关注对象的领域的最新观点和进展,从学科交叉的角度,讨论可计算医学知识在促进知识转化、知识发现和循证决策的可靠性方面的具体应用场景。

(1)促进从知识到实践。目前,科学知识基本以文本格式发布,不利于用户使用。科学出版物是知识载体,从中抽取知识单元或知识对象,并封装成软件代码,这是可计算知识的基本概念和路径。与其他学科领域相比,医学领域和信息学的交叉研究(如医学信息学、健康信息学)的技术进展较快,需求也更为迫切,尤其是医疗实践需要跟上医学知识的快速增长和更新,需要将医学知识快速转化为医疗实践,而将人读的医学知识转化为机器可读、可执行的医学知识是促进“知识到实践”的有效途径。

(2)面向知识发现的知识管理。将科学知识储存在论文里,很难将所有的发现整合起来。学界认为,以数据为中心的科学标志着数据必须从论文限制中“解放”出来,并存储在云端,以看到更大、更具全局性的画面。理想情况下,所有的科学出版物都应该是计算机可读的,这样计算机就可以检测出人类无法识别的模 式         [     38 ]。最近,挪威学者在《计算时代“可解释的、可计算的、可管理的”的科学知识》一文中,提出将知识视为可计算对象的观   [   39   ],认为计算赋能(可计算)的知识管理实践提供了获取新的一阶科学知识的二阶科学研究方法,并提出了两个基本的知识概念:①知识被认为是在已发表的科学文本中显性表达的事实和信息;②知识被认为是通过适当的派生数据(derived data)和元数据来实现计算的。他们将可计算的知识管理(computable knowledge management)定义为:在科学出版物(如PubMed)和知识库(如GenBank)等一阶知识的基础上开展二阶科学研究,生成新的一阶知识的过程。本文认为,这一概念与基于文献的知识发现(literature-based discovery)是相似的,即把零散的、不相关的信息进行整合,揭示出新的、有希望的、令人惊讶的研究方向,或者提供潜在的变革性或突破性的见   [   40   ]。计算科学家以从文献和数据库中提取的知识为基础,对其进行计算处理,从而挖掘出可以由实验科学家在实验中得到检验的新假设。实验科学家和计算科学家之间的合作已成为科学知识发现的新趋势。

目前,知识管理主要依赖于客观认识论,即将知识视为客观的、物理的、可完全可解释的,而忽视了知识的不完整性、不确定性程度及其上下文背景,如其依赖的条件。要真正实现从现有知识大数据中再次发现新的知识,就不应仅关注结构化的知识单元(knowledge unit),还要关注知识背景(knowledge context)。以实践为基础的认识论挑战了科学知识可以完全解释和编码的假设,其认为开发知识管理工具以及据此做出决策和判断需要考虑科学知识固有的模糊性、不确定性;而且科学知识是多维的,既有具体性又有抽象性,既有隐性又有显性,既有集体性又有个体性,既有发展性又有静态性。认识到知识表达的多样性、模糊性、不确定性和不一致性,才能更高效地发现新的知识。将知识的动态性、不确定性、具象化和争议性纳入计算过程,是确保知识发现的有效性和可靠性的关键因素。因此,本文在知识图谱三元组的基础上,提出增加通过证据推理融合计算总体置信度水平的思路,解决的知识应用的关键瓶颈——不确定性,以打通知识和实践之间的桥梁。

(3)循证决策。循证决策(evidence-based policy-making)是借鉴循证医学而发展出来的一套决策理论,认为政策和决策制定也应吸收和使用最新的科学证据,同时,将社会经验和价值判断结合起来,尤其是在突发事件中,做出最佳决策,如新冠肺炎疫情的防控和治 疗         [     41 ]。但在政策和实践中执行循证决策时,需要克服以下障   [   42   ]:①错失机会窗。如果在需要制定关键决策时没有所需要的证据(或没有资源/基础设施),那么就会失去循证干预的机会。②知识缺口与不确定性。③有争议、无关的和相互矛盾的证据,这时不清楚遵循哪一条路径,会增加制定不正确或非循证决策的风险。而第二条和第三条障碍都涉及知识的不完备性和不确定性,促进本文对DIKW(data, information, knowledge, wisdom)模型的再次理解,尤其是关于如何从知识到智慧这一环节。从数据到信息,再到知识,解释的是“when/where/who/what”和“how/why”的问题。而从知识到智慧,解决的是“如何在不完备和不确定条件下中做出最佳决策”的问题。医学知识的不完备性和不确定性是客观存在的,是医学决策经常面临的现实环境和需要考虑的重要因素。从情报学的角度对医学知识不确定性进行测度,通过可计算的知识实现路径,及时挖掘出有争议的和相互矛盾的科学证据,可为循证决策提供重要的参考和依据。过去针对政府决策需求的情报学研究和服务可能多侧重提供确定性的信息和知识,特别是已证实或证伪的并有大量依据来支持。而识别知识缺口并通过情报学研究,特别是基于文献的知识发现,弥补这些知识缺口,以及测度并甄别出不确定性的知识及其背后的原因和条件,对于循证决策至关重要。

 

6 结  论

当前,我国政府高度重视面向人民生命健康的科技创新,《健康中国2030规划纲要》中提出,到2030年,大力加强国家临床医学研究中心和协同创新网络建设。可以预计,与我国人民生命健康相关的本土医学证据和知识将快速增长。目前,有关我国人群疾病与健康相关的医学知识散落在电子病历、电子健康档案、医学文献报道、临床实践指南以及医疗机构网站或自存储库中,需要人读、人理解或人整合之后,才能形成临床实践中可直接大规模使用的知识。此外,我国为数不多的可计算知识生成和应用实例(主要是临床决策支持工具系统)处于不同机构各为所用、互不兼容、缺乏标准的状态,存在显著的碎片化现象。同时,随着我国对发展健康医疗大数据与医疗人工智能的重视和投 入         [   43 ],以及公众的健康意识逐步从单纯的医疗服务提前到基于数字技术进行个人健康管理,健康医疗数据在实践中不断积累。在海量知识和数据的背景下,通过可计算医学知识的理念,将医学研究产出的证据和知识及时转化为临床实践,并搭建医学知识和医疗实践之间交互的“接口”和“桥梁”,形成“数据-知识-实践-数据”的循环式学习,从而提高医学研究效率和医疗服务质量,为我国建设学习型健康医疗体系提供方法学基础和路径参考。

总之,可计算知识强调将人读的知识格式通过抽取和编程转化为机器可执行的知识格式,其是促进将知识大规模应用到实践的重要手段,不仅为情报学领域开展知识计算或知识计量学研究提供了新范式,也为数字图书馆存储和管理数字化知识对象提出了新需求。本文以医学为例,详细地阐述了可计算医学知识的基本概念,并提出从结构化数据和非结构化文本中生成和共享可计算医学知识的两条实现路径,以期为国内学术界开展医学知识计算引入跨学科研究思路,并拓展其应用实践。

参 考 文 献

1  

叶鹰, 马费成. 数据科学兴起及其与信息科学的关联[J]. 情报学报, 2015, 34(6): 575-580. [百度学术]

2  

Zhu L S, Zheng W J. Informatics, data science, and artificial intelligence[J]. JAMA, 2018, 320(11): 1103-1104. [百度学术]

3  

Fortunato S, Bergstrom C T, Börner K, et al. Science of science[J]. Science, 2018, 359(6379): eaao0185. [百度学术]

4  

Milojević S. Quantifying the cognitive extent of science[J]. Journal of Informetrics, 2015, 9(4): 962-973. [百度学术]

5  

马费成. 情报学的进展与深化[J]. 情报学报, 1996, 15(5): 22-28. [百度学术]

6  

文庭孝, 罗贤春, 刘晓英, 等. 知识单元研究述评[J]. 中国图书馆学报, 2011, 37(5): 75-86. [百度学术]

7  

Friedman C P, Flynn A J. Computable knowledge: an imperative for Learning Health Systems[J]. Learning Health Systems, 2019, 3(4): e10203. [百度学术]

8  

Williams M, Richesson R L, Bray B E, et al. Summary of third annual MCBK public meeting: mobilizing computable biomedical knowledge—accelerating the second knowledge revolution[J]. Learning Health Systems, 2021, 5(1): e10255. [百度学术]

9  

Wyatt J, Scott P. Computable knowledge is the enemy of disease[J]. BMJ Health & Care Informatics, 2020, 27(2): e100200.[百度学术]

10  

Kilicoglu H, Rosemblat G, Fiszman M, et al. Broad-coverage biomedical relation extraction with SemRep[J]. BMC Bioinformatics, 2020, 21(1): 188. [百度学术]

11  

索传军, 盖双双. 知识元的内涵、结构与描述模型研究[J]. 中国图书馆学报, 2018, 44(4): 54-72. [百度学术]

12  

Flynn A J, Friedman C P, Boisvert P, et al. The Knowledge Object Reference Ontology (KORO): a formalism to support management and sharing of computable biomedical knowledge for learning health systems[J]. Learning Health Systems, 2018, 2(2): e10054. [百度学术]

13  

Yang X L, Li J X, Hu D S, et al. Predicting the 10-year risks of atherosclerotic cardiovascular disease in Chinese population: the China-PAR project (prediction for ASCVD risk in China)[J]. Circulation, 2016, 134(19): 1430-1440. [百度学术]

14  

Callahan T J, Tripodi I J, Pielke-Lombardo H, et al. Knowledge-based biomedical data science[J]. Annual Review of Biomedical Data Science, 2020, 3: 23-41. [百度学术]

15  

Zhang D C, He D Q. Enhancing clinical decision support systems with public knowledge bases[J]. Data and Information Management, 2017, 1(1): 49-60. [百度学术]

16  

覃露, 徐晓巍, 丁玲玲, 等. 面向决策支持的临床指南知识表示方法研究[J]. 中华医学图书情报杂志, 2020, 29(2): 1-8. [百度学术]

17  

朱超宇, 刘雷. 基于知识图谱的医学决策支持应用综述[J]. 数据分析与知识发现, 2020, 4(12): 26-32. [百度学术]

18  

Bastian H, Glasziou P, Chalmers I. Seventy-five trials and eleven systematic reviews a day: how will we ever keep up?[J]. PLoS Medicine, 2010, 7(9): e1000326. [百度学术]

19  

Dunn A G, Bourgeois F T. Is it time for computable evidence synthesis?[J]. Journal of the American Medical Informatics Association, 2020, 27(6): 972-975. [百度学术]

20  

Alper B S, Richardson J E, Lehmann H P, et al. It is time for computable evidence synthesis: the COVID-19 knowledge accelerator initiative[J]. Journal of the American Medical Informatics Association, 2020, 27(8): 1338-1339. [百度学术]

21  

Elkin P L, Carter J S, Nabar M, et al. Drug knowledge expressed as computable semantic triples[J]. Studies in Health Technology and Informatics, 2011, 166: 38-47. [百度学术]

22  

Malec S A, Boyce R D. Exploring novel computable knowledge in structured drug product labels[J]. AMIA Joint Summits on Translational Science Proceedings, 2020, 2020: 403-412. [百度学术]

23  

温有奎, 焦玉英. 基于语义三元组的电子病历潜在知识发现研究[J]. 情报学报, 2011, 30(7): 675-681. [百度学术]

24  

Li X Y, Peng S Y, Du J. Towards medical knowmetrics: representing and computing medical knowledge using semantic predications as the knowledge unit and the uncertainty as the knowledge context[J]. Scientometrics, 2021, 126(7): 6225-6251.[百度学术]

25  

Kilicoglu H, Shin D, Fiszman M, et al. SemMedDB: a PubMed-scale repository of biomedical semantic predications[J]. Bioinformatics, 2012, 28(23): 3158-3160. [百度学术]

26  

Elsworth B, Gaunt T R. MELODI Presto: a fast and agile tool to explore semantic triples derived from biomedical literature[J]. Bioinformatics, 2021, 37(4): 583-585. [百度学术]

27  

Mons B, van Haagen H, Chichester C, et al. The value of data[J]. Nature Genetics, 2011, 43(4): 281-283. [百度学术]

28  

Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services & Use, 2010, 30(1/2): 51-56.[百度学术]

29  

Fabris E, Kuhn T, Silvello G. Nanocitation: complete and interoperable citations of nanopublications[C]// Proceedings of the Italian Conference on Digital Libraries. Cham: Springer, 2020: 182-187. [百度学术]

30  

Williams A J, Harland L, Groth P, et al. Open PHACTS: semantic interoperability for drug discovery[J]. Drug Discovery Today, 2012, 17(21/22): 1188-1198. [百度学术]

31  

Fabris E, Kuhn T, Silvello G. A framework for citing nanopublications[C]// Proceedings of the International Conference on Theory and Practice of Digital Libraries. Cham: Springer, 2019: 70-83. [百度学术]

32  

Wong D, Peek N. Does not compute: challenges and solutions in managing computable biomedical knowledge[J]. BMJ Health & Care Informatics, 2020, 27(2): e100123. [百度学术]

33  

Mons B. FAIR science for social machines: let’s share metadata knowlets in the Internet of FAIR data and services[J]. Data Intelligence, 2019, 1(1): 22-42. [百度学术]

34  

Walsh K, Wroe C. Mobilising computable biomedical knowledge: challenges for clinical decision support from a medical knowledge provider[J]. BMJ Health & Care Informatics, 2020, 27(2): e100121. [百度学术]

35  

杜建. 医学知识不确定性测度的进展与展望[J]. 数据分析与知识发现, 2020, 4(10): 14-27. [百度学术]

36  

李丹亚, 胡铁军, 李军莲, 等. 中文一体化医学语言系统的构建与应用[J]. 情报杂志, 2011, 30(2): 147-151. [百度学术]

37  

浙江省数字医疗卫生技术研究院. OMAHA白皮书第十三期发布: 促进医学知识价值开发: 临床指南的计算机化[EB/OL]. (2019-07-31) [2021-02-25]. https://www.omaha.org.cn/index.php?g=&m=article&a=index&id=237&cid=11. [百度学术]

38  

Swierstra T, Efstathiou S. Knowledge repositories. In digital knowledge we trust[J]. Medicine, Health Care and Philosophy, 2020, 23(4): 543-547. [百度学术]

39  

Efstathiou S, Nydal R, Laegreid A, et al. Scientific knowledge in the age of computation: explicated, computable and manageable?[J]. THEORIA: An International Journal for Theory, History and Foundations of Science, 2019, 34(2): 213-236.[百度学术]

40  

Smalheiser N R. Rediscovering Don Swanson: the past, present and future of literature-based discovery[J]. Journal of Data and Information Science, 2017, 2(4): 43-64. [百度学术]

41  

吴家睿. 确定的不确定性与不确定的确定性——治疗疾病决策与控制传染病决策之差异[J]. 医学与哲学, 2020, 41(8): 1-6, 70. [百度学术]

42  

Andermann A, Pang T, Newton J N, et al. Evidence for Health II: overcoming barriers to using evidence in policy and practice[J]. Health Research Policy and Systems, 2016, 14: 17. [百度学术]

43  

Zhang L X, Wang H B, Li Q Z, et al. Big data and medical research in China[J]. BMJ, 2018, 360: j5910. [百度学术]


 



北京大学健康医疗大数据国家研究院版权所有 2019-2020