
杜建
职称:助理教授、副研究员
办公地点:北京大学医学部医学科技楼西楼5层
邮箱:dujian@bjmu.edu.cn
个人简介
2017年获南京大学信息资源管理博士学位。曾任职于北京协和医学院医学信息研究所,2019年11月入职北京大学医学部。近5年,主持科技部重点研发计划青年科学家项目、国家自然科学基金面上项目各1项。以第一/通讯作者在信息资源管理和生物医学信息学领域国际期刊和会议Journal of the American Medical Informatics Association (JAMIA)、Science Bulletin、EClinicalMedicine、Information Processing and Management (IP&M)、Scientific Data、AMIA Annual Symposium等发表论文40余篇。担任Nature 数据科学子刊Scientific Data编委,担任Health Data Science,BMC Medical Informatics and Decision Making编委。入选“中国知网2024年度Top1%高被引学者”。
担任中华医学会医学信息学分会委员、中华预防医学会生物信息学分会委员、中国医院协会医院情报图书专委会常委兼秘书长、中国医院协会健康医疗大数据应用管理专委会常委、中国科学学与科技政策研究会科学计量学与信息计量学专委会委员等。基于上述平台开展健康信息学、健康医疗大数据和医学科技政策的交叉研究。担任人工智能与信息计量学AII Workshop大会(2020-2025)、知识实体抽取与评估EEKE Workshop(2021-2025)、NetSci 2025 Satellite Workshop程序委员会委员等。2017年获中国科学技术情报学会首届青年情报科学家奖,入选中国科协青年人才托举工程。
主要研究方向
医学自然语言处理
医学知识图谱与大语言模型
健康信息治理与循证公共卫生决策
代表性科研项目
1. 科技部重点研发计划青年科学家项目,2022YFF0712000,从生物医学和流行病学研究数据中自动生成因果图的系列工具研发,2022/11-2025/10,200万元,主持
2. 国家自然科学基金面上项目,72074006,不确定性科学知识表示与计量的理论、方法与应用研究:以医学为例,2021/1-2024/12,50万元,主持
3. 国家自然科学基金青年项目,71603280,睡美人文献及唤醒睡美人的王子文献的识别方法与典型特征研究,2017/1-2019/12,17万元,主持
代表作
1. Xie Shiyao, Zhao Wenjing, Deng Guanghui, He Guohua, He Na, Lu Zhenhua, Hu Weihua, Zhao Mingming, Du Jian*; Utilizing ChatGPT as a scientific reasoning engine to differentiate conflicting evidence and summarize challenges in controversial clinical questions. Journal of the American Medical Informatics Association, 2024,31(7):1551-1560.
2. He, Zixuan; Yang, Lan; Li, Xiaofan; Du, Jian*. Discrepancies in reported results between trial registries and journal articles for AI clinical research. EClinicalMedicine, 2025, 80: 103066
3. Xin Guo; Jiakang Huo; Wanwei Dai; Tong Wang; Han Xiao; Wenjing Zhao; Xuanyu Shi; Xueheng Wang; Yang Gao; Zhi Li; Rui Zhan; Wenli Xu; Jian Du*; Erdan Dong*. Global rehabilitation research equality index across health conditions during 1990–2019: an alignment analysis between bibliographic and epidemiological data. Science Bulletin, 2025, 70(7):1057-1061.
4. Wang, Shuang; He, Xin; Du, Jian*. Scientific commentaries are dealing with uncertainty and complexity in science. Information Processing & Management, 2024, 61(4): 103707
5. Shi, Xuanyu; Du, Jian*. Constructing a finer-grained representation of clinical trial results from ClinicalTrials.gov. Scientific Data, 2024, 11(1): 41.
6. Shuang Wang; Kai Zhang; Jian Du*. PubMed captures more fine-grained bibliographic data on scientific commentary than Web of Science: a comparative analysis. BMJ Health & Care Informatics, 2024;31:e101017.
7. Yongmei Bai; Xuanyu Shi; Jian Du*. A computable biomedical knowledge system: Toward rapidly building candidate-directed acyclic graphs. Journal of Evidence-Based Medicine, 2024; 17: 307–316.
8. Wang, Shuang; Du, Jian*. A comment-driven evidence appraisal approach to promoting research findings into practice when only uncertain evidence is available. Health Research Policy and Systems, 2023, 21(1): 25.
9. Li, Xiaoying; Peng, Suyuan; Du, Jian*. Towards medical knowmetrics: representing and computing medical knowledge using semantic predications as the knowledge unit and the uncertainty as the knowledge context. Scientometrics, 2021,126, (7):6225-6251.
10. Du, Jian; Tang, Xiaoli; Wu, Yishan. The effects of research level and article type on the differences between citation metrics and F1000 recommendations. Journal of the Association for Information Science and Technology, 2016, 67, (12):3008-3021.
发明专利
1. 杜建; 史轩宇; 白永梅; 基于知识图谱的因果图生成方法、系统,2023-12-12, 中国,202311694543.3.
2. 杜建; 赵文静; 未验医学知识的识别与处理方法、装置及计算机可读介质,2023-12-01, 中国,202311239773.0.
开发软件/系统
1. CBK System是结构化医学知识系统(Computable Biomedical Knowledge System)的简称,是存储、检索和可视化Medline文献数据库中句子层级的三元组的软件工具。该系统由北京大学健康医疗大数据国家研究院医学知识计算实验室开发,定期更新美国国立医学图书馆的Semantic Medline Database(SemMedDB)知识库,提供基于web的医学概念及其关系的检索与下载服务;含路径推断(X-Y-Z)模块,支持头尾概念之间机制路径的发现;含因果图生成模块,支持两个临床变量(或医学概念)之间的混杂变量、中介变量和对撞变量的发现;提供三元组数据集的csv格式下载,支持导入其他图数据库(如Neo4j),开展进一步的图数据科学研究和图挖掘应用。https://cbk.bjmu.edu.cn/
2. 医学自然语言处理系统(Health Nature Language Processing System, HNLP System): https://hnlp.bjmu.edu.cn/
主讲课程
2020-,《健康数据科学——医学术语体系与文本挖掘》(4学时), 博士硕士研究生;
2021-,《开放数据获取与医学知识发现》(28学时),博士硕士研究生。
2024-,《玩儿转PubMed数据库探索网络医学》(18学时),本科生
2025-,《医学人工智能通识——文本挖掘与大语言模型》(3学时),本科生
2023-,《人工智能与文献挖掘》(20学时),北京大学临床数据科学家继续教育培训系列课程
获2023年度医学部机关直属单位青年教师“科研成果进课堂”教学比赛一等奖、最佳教案奖
获北京大学第二十四届青年教师教学基本功比赛(医科类)三等奖