¥ 57 6.5折 ¥ 88 九品
仅1件
作者詹启敏;董尔丹
出版社科学出版社
出版时间2022-06
版次1
装帧其他
货号A22
上书时间2024-11-25
第1章 界定与分类
目前,学界对于健康医疗人工智能(Health AI)的界定尚未建立标准和共识。通过对科学出版物的分析可帮助我们系统、清晰地了解该领域及其子领域所涵盖的内容和知识结构,本报告首先讨论该领域科学出版物数据集的界定方案。
一、数据集界定
用于界定的数据集由两部分来源的数据组成。
1.第一部分来自北京大学健康医疗大数据国家研究院。采用医学领域权威的知识组织体系——医学主题词表(Medical Subject Headings,MeSH)切入,通过 PubMed数据库对健康医疗人工智能科学出版物进行检索。
为减少数据噪声,本报告采用主要主题词(MeSH Major Topic),即该文章最核心的研究内容检索出版物。一般情况下,每篇 PubMed论文会标注10条左右的 MeSH主题词,我们从中再遴选出3~5个最能代表这篇论文核心内容的主题词,标注为主要主题词。如果一篇论文被标注的主要主题词中同时含有医疗保健和人工智能两个方面,则被视为健康医疗人工智能(Health AI)科学出版物。其中“医疗保健”采用“ Diseases”或“ Health Care”或“ Mental Disorders”及其所有下位术语来表示;“人工智能”则采用“ Arti.cial Intelligence”或“ Big Data”或“Medical Records Systems, Computerized”及其所有下位术语来表示。
2.第二部分来自 Digital Science。Digital Science旗下所属的 Dimensions平台是世界上最大的科学研究关联信息平台之一。本报告采用研究领域(Field of Research,FOR)方式切入,通过Dimensions 平台检索健康医疗人工智能相关领域的科学出版物。
在Dimensions 平台中,每篇科学出版物均被标注了对应的研究领域。如果一篇论文被标注的研究领域中同时含有医疗保健和人工智能两个方面,则被视为健康医疗人工智能科学出版物。其中,“医疗保健”采用“Medical and HealthSciences”及其下位研究领域来表示;“人工智能”采用“Artificial Intelligenceand Image Processing”及其下位研究领域来表示。
我们对两个来源提供的数据集进行融合,结果见图1-1,融合之后的数据集作为本报告界定的健康医疗人工智能科学出版物语料库,进而展开分析。本次报告主要关注2009~ 2020年健康医疗人工智能的发展趋势,经过年份筛选,我们最终获取了63216篇科学出版物。
图1-1 健康医疗人工智能科学出版物数据集语料库的界定方法
二、研究领域分类
由于本报告的数据集内容以科学出版物为主,且首先聚焦健康医疗领域,因此我们考虑仍先采用医学主题词表这一术语体系对健康医疗人工智能研究领域进行分类。在总数据集中,其中46362篇被PubMed 收录,含自动标注的MeSH 术语;剩余16854篇科学出版物并未被PubMed 收录,未标注MeSH主题词;对于这部分科学出版物,采用文本挖掘工具—— Medical Text Indexer(MTI)再将标题和摘要文本进行自动映射并标注 MeSH主题词,我们给每一段文本自动分配一个独立识别编号,用于后续返回结果的处理及与科学出版物对应。得到 MTI结果后,通过 Python程序提取 MeSH主题词及对应科学出版物。
本报告重点关注以下两个研究领域的分类情况。
1.健康医疗问题分类健康医疗人工智能涉及健康医疗问题领域的分类是本报告重点关注的方面之一。
这里我们仍采用医学主题词表这一术语体系对健康医疗人工智能涉及的疾病进行分类。考虑到大部分科学出版物标注的医学主题词都是比较精细的下位词,而医学主题词呈树状层级结构,因此我们采用2位数的 MeSH词进行分类,即将比较精细的下位词向上映射,以确保分类的精度。前面我们在数据集界定中提到,采用“ Diseases”或“ Mental Disorders”或“ Health Care”及其所有下位术语来表示“医疗保健”,故我们在本研究中采用上面所说的 Diseases、 Health Care及 Mental Disorders的一级下位术语进行分类,详见表1-1。
表1-1 健康医疗领域分类 MeSH对应表
2.技术细分领域分类此外,健康医疗人工智能涉及的技术细分领域分类也是本报告重点关注的方面。鉴于本报告的数据集重点关注聚焦于健康医疗人工智能领域的科学出版物,故在这一领域中我们亦考虑采用医学主题词表这一术语体系对该领域进行分类。在 MeSH树状结构表中,人工智能(Arti.cial Intelligence)位于信息科学(Information Science)大类下,具体的层级结构为:
·Information Science [L]信息科学
·Information Science [L01]信息科学
·Computing Methodologies [L01.224]计算机方法学
·Algorithms [L01.224.050]算法
Arti.cial Intelligence [L01.224.050.375]人工智能
“Arti.cial Intelligence”这一术语的 MeSH编码为 L01.224.050.375,拥有8个一级下位术语,包括计算机启发式、专家系统、模糊逻辑、知识库、机器学习、自然语言处理、神经网络和机器人。这些 Arti.cial Intelligence与其8个一级下位术语具体的层级结构为:
Arti.cial Intelligence [L01.224.050.375]人工智能
·Computer Heuristics [L01.224.050.375.095]计算机启发式
·Expert Systems [L01.224.050.375.190]专家系统
·Fuzzy Logic [L01.224.050.375.250]模糊逻辑
·Knowledge Bases [L01.224.050.375.480]知识库
·Biological Ontologies [L01.224.050.375.480.500]生物学本体
·Gene Ontology [L01.224.050.375.480.500.500]基因本体
·Machine Learning [L01.224.050.375.530]机器学习
·Deep Learning [L01.224.050.375.530.250]深度学习
Supervised Machine Learning [L01.224.050.375.530.500]有监督机器学习
·Support Vector Machine [L01.224.050.375.530.500.500]支持向量机
Unsupervised Machine Learning [L01.224.050.375.530.750]无监督机器学习
Natural Language Processing [L01.224.050.375.580]自然语言处理
·Neural Networks, Computer [L01.224.050.375.605]神经网络,计算机
·Deep Learning [L01.224.050.375.605.500]深度学习
·Robotics [L01.224.050.375.630]机器人
考虑到上述8个一级下位术语间存在交叉,在咨询医学信息学和医疗人工智能领域专家意见后,经反复研判,按照如下规则对其进行重组分类:
(1)将 Computer Heuristics、Fuzzy Logic、Expert Systems合并,统一称为决策规则类,这是因为它们都提供了具有解释性的预测模型。
(2)将 Neural Networks Computer与 Machine Learning合并,统一称为机器学习(含深度学习)类。
处理后,共计5个大类。值得注意的是,这5大类技术并非完全相互独立,而是存在一定交叉的。例如机器学习大类的下位术语深度学习、神经网络,也往往被用于自然语言处理;但本分类基本可以反映健康医疗人工智能的技术分类概况。具体聚焦技术的 MeSH分类见表1-2。
表1-2 聚焦技术细分领域分类
适读人群 :健康医疗人工智能相关的临床医护人员、疾病防控人员、健康产业人员、前沿科学技术研究人员、健康大数据相关工作人员及国家卫生管理部门
本报告坚持需求导向,体现了循证思维。
— 没有更多了 —
以下为对购买帮助不大的评价