正版图书保证 可开电子发票
¥ 69.4 7.0折 ¥ 99 全新
库存4件
作者主编姜晶梅
出版社科学出版社
ISBN9787030732002
出版时间2022-10
装帧平装
开本其他
定价99元
货号4222439
上书时间2024-01-23
第1章 绪论
学习目标:了解统计学作为方法学在医学研究领域中的作用。
1.1 医学统计学
统计学(statistics)是当今世界上*重要的认识论和方法论之一,几乎所有的科学问题*终都要转化为数据问题,并通过统计方法加以描述与分析。那么作为一门学科,统计学又是如何定义的呢?Merriam-Webster国际大词典中,“Statistics is a science dealing with the collection,analysis,interpretation,and presentation of masses of numerical data”。大多数统计专业教科书对统计学定义也有类似的表达,即“统计学是应用数学的原理与方法,研究数据的搜集、整理与分析,对不确定性数据作出科学推断的学科”。上述定义不难看出,统计学是关于数据的科学,其基本特点就是它的数量性。将统计学的原理与方法应用于医学(或生物)科研与实践,就衍生出了医学统计学(medical statistics),或更广泛意义上称为生物统计学(biostatistics)。
统计学的任务包括两大方面:①探索、概括和描述数据,致力于这些应用的统计学分支称为描述性统计学(descriptive statistics);②利用样本数据信息来推断总体分布的特征,以此为目的的统计学分支称为推断性统计学(inferential statistics)。在科研活动中,统计描述与统计推断不能分离且相辅相成,其共同目的是探讨客观事物的数量规律性,以达到对客观事物的认识。
简要回顾医学统计学的发展史,它几乎与统计学理论的发展并行:1603年英国伦敦教会每周一次发表的死亡公报(Bills of Mortality),标志着生物统计发展的起点。19世纪中后期到20世纪上半叶是统计学发展过程中的一个非常重要的时期。现代遗传学之父孟德尔(G.J.Mendel,1822—1884)利用豌豆实验,于1865年发现了生物遗传学的基本定律,被视为是将数学应用于生物学的第一人;现代统计学之父卡尔 皮尔逊(K. Pearson,1857—1936)提出了相关和卡方分布的概念,创办了著名的杂志Biometrika,并于1911在伦敦大学建立了世界上首*统计学系;1908年,戈塞(W.S.Gosset,1876—1937)以笔名“Student”在Biometrika上发表论文,提出t分布和t检验,创立了小样本理论和方法论;1922年,费希尔(R. A. Fisher,1890—1962)发展了显著性检验和估计理论,创立了实验设计方法和统计分析技术,并将其汇集于1935年编著的The Design of Experiments(1928—1933);奈曼(J.Neyman,1894—1981)和皮尔逊(E.S.Pearson,1895—1980)从数学角度完备了“假设检验”和“区间估计”的理论框架。
我国对生物统计学的研究始于20世纪20年代。汪厥明(1897—1978)率先开设生物统计学课程,是我国生物统计学创始人;1948年,郭祖超(1912—1999)编著了我国第一部医学统计方法的教科书《医学与生物统计方法》。经过几代人的努力,目前我国生物统计学的研究和应用在为医学研究提供方法学支撑的同时,其自身也得到了长足的发展与完善。
1.2 统计学中几个基本概念
1.总体与样本 统计学的核心任务是研究如何通过样本去推断总体。因此,总体和样本是统计学中两个*基本的概念。
总体(population)是根据研究目的确定的研究对象的某个(或某些)数量特征的全体,或称某个(或某些)指标的数据集合。这些数量特征一般都是以随机变量(随机变量的介绍见第4~5章)的形式出现,故对于总体的某个数量特征,自然就可以用一个随机变量来描述。构成总体的每一个基本单位称为个体(individual)。
在总体中,如果包含个体的数目是有限的,我们称之为有限总体(finite population)。例如,调查2020年北京市高校入学新生的身高,则全体新生的身高就构成了一个有限总体,而每个新生的身高就是个体。这里的总体是明确了时间、地点和人群范围的有限个体集合,尽管有时数量非常大;相比之下,新生儿体重、某种药物治疗高血压的疗效,这里的总体是没有时空限制的,只在理论上存在,因而被称为无限总体(infinite population)。本书中,我们假定所有所研究的总体是无限总体(上述有限总体的例子,因为个体数量很大,也可近似地视为无限总体)。无限总体广泛用于统计推断,将在后续章节陆续涉及。
样本(sample)是指从总体中抽取的一部分个体,是总体数据集X中的数据子集。用(X1,X2, ,Xn)表示样本量为的样本,其中,X1,X2, ,Xn相互独立且与总体同分布。样本(X1,X2, ,Xn)的观测值表示为(x1,x2, ,xn),这里采用的小写字母xi(i=1,2, ,n)是表示样本的一次具体的实现。从总体中获得样本的过程称为抽样(sampling)。在实践中,根据研究目的和可及性通常采用两类抽样方式来获得样本:随机抽样和非随机抽样。由于后者往往凭借研究者的主观判断,故本书仅限于对随机抽样的讨论。
在随机抽样过程中,鉴于总体数量特征的不确定性,为保证样本对总体的代表性,抽样时应遵循随机化(randomization)原则。通常有两种方式:①在抽样过程中,如果总体中的每个个体都有已知非零的概率(可能)被抽取到,则所获得的样本称为随机样本(random sample);②在抽样过程中,如果总体中的每个个体都有相同的概率(可能)被抽取到,则获得的样本称为简单随机样本(simple random sample)。本书今后提及的样本均为简单随机样本,为方便起见均称为随机样本。关于概率的定义将在第3章叙述。
总体与样本的关系 总体与样本的关系就是整体与部分的关系。一方面,样本来自总体,是总体的一部分,因此,样本的特征在某种程度上可以反映总体的特征;另一方面,我们通常感兴趣的是总体,而我们往往仅能通过样本的信息来推断总体的特征,因此,获得有代表性的样本这一过程就变得十分重要,是合理推断总体的基础。
2. 同质与变异 总体中的个体具有共性,统计上称为同质性(homogeneity)。事实上,没有同质性,就无总体可言。这里的同质也是一个相对的概念,在同质的总体中存在的个体差异称为变异(variation)。
举例1:调查2020年北京市高校入学新生的身高
同质:2020年北京市高校入学新生
变异:身高不同
举例2:研究某降压药的疗效
同质:用该药治疗的高血压患者
变异:疗效不同
上述例子可以看出,同质是指同一个总体中个体的性质、影响条件或背景相同或非常相似,是研究问题的基础;变异是指同质的个体之间存在的差异,是研究问题的前提。统计学的任务是在变异的背景下描述同一总体的同质性,揭示不同总体的异质性(heterogeneity)。由于变异是生物学现象的固有属性,因此,医学研究人员要学会在有变异存在的前提下运用统计学方法来揭示生命现象中的规律。
3.参数与统计量 参数(parameter)是用来描述总体特征的概括性数字度量,如欲了解2020年北京市高校入学新生的平均身高,这里的均数(平均身高)即为总体参数(通常用希腊字母表示)。统计量(statistic)是描述样本特征的概括性数字度量,如在上述总体中随机抽取130名新生所计算的平均身高,即为统计量(通常用字母表示)。关于统计量的数学定义及功能以后还将进一步叙述。
由于研究总体通常是理论层面的,故参数通常未知且为固定常数;而统计量是由样本数据计算而来的,因此它会随着样本的变化而发生改变。
4.数据类型 在研究总体和样本的过程中,我们会专注于研究对象的一个(或多个)数量特征,统计上称其为变量(variable),实践中常称为指标。在研究人群中,对某个指标的观察和测量得到的结果可以是定量的,也可以是定性的,相应的资料(数据)通常分为计量资料和分类资料。
(1)计量资料:计量资料(measurement data)是通过测量每个研究对象某项(或多项)指标的大小所获得的资料,表示事物的数量。例如,对儿童生理发育状况的调查,测得北京市7岁男童的身高(cm)、体重(kg)、脉搏(次/分)、血红蛋白(g/L)等所获得的资料;又如观察北京市某幼儿园儿童一年内患感冒的次数,可以是0次,1次,2次, 所获得的资料。
(2)分类资料:分类资料(categorical data)包含两类:
1)无序分类资料:无序分类资料(unordered categorical data)是将观察单位按某种属性或类别分组(包括二分类和多分类),然后清点汇总各组的频数而得到的资料。对于无序分类资料,其对应的变量称为名义变量(nominal variable)。例如,性别可赋值为男=1、女=2;同理可以将四种血型A、B、O、AB分别赋值为1、2、3、4。相比于计量资料,这里所赋予的数值无任何数量意义,观测值在同一组内没有量的差别,但在组间有质的不同。
2)有序分类资料:有序分类资料(ordinal categorical data)是将观察单位按某种属性的不同程度分组,然后清点汇总各组的频数而得到的资料。例如,临床上治疗某病的疗效可分为治愈、显效、好转、无效、恶化;实验室对患者的尿蛋白测定的结果分为,,+,++,+++等。其特点是变量的分组是有序的,通常以数字1,2,3, 表示,但这些数值只表示潜在的等级次序,并不真正具有数量关系。
需要注意的是,计量资料和分类资料有时因研究目的以及所使用的统计方法不同而相互转换。例如,抽样调查我国成年人的血压情况所获得的血压测量值是计量资料;若希望了解人群高血压患病情况,按照是否患有高血压将人群进行分组所形成的资料是二分类资料;若要继续了解高血压的分级情况,则可根据相应标准将血压值整理为有序分类资料;反之,分类资料根据研究目的也可以向计量资料转换,如在上述抽样调查中拟了解不同地区人群高血压的患病情况,由个体是否患有高血压计算得到不同地区高血压患病率进行描述和比较,这个患病率就属于计量资料的范畴。当然,在研究设计中,对于能够测量数值大小的指标,应尽可能以计量资料的形式获得而不损失信息,同时也可为在分析中根据研究目的灵活转化带来方便。
5.误差 误差(error)是指实际观测值与总体真值(参数)之差。由于生物医学领域所研究的变量通常是随机变量,不能获得真值,因此所获数据的准确度(accuracy)是必须要考虑的。
准确度是指观测值与真值符合的程度。观测值、真值和误差的关系可由下式表示:
(1.1)
其中,误差项ei按其产生的原因和性质可分为随机误差和非随机误差,后者又称为系统误差。
(1)随机误差:随机误差(random error)是一类不恒定、随机变化的误差,受多种不确定因素的影响,其特点是误差的大小及方向均不确定,满足E(ei)=0,ei∈(-∞,+∞)。
随机误差是客观存在且无法避免的。例如,实验过程中在相同条件下对同一对象重复进行测量,尽管努力控制系统误差,但每一次测量的结果仍会出现一些随机变化,即随机测量误差;抽样误差(sampling error)也是一种随机误差,是指由抽样引起的统计量和参数之间存在的差异。抽样误差是统计推断研究的主要内容,在第6章中会继续讨论。尽管随机误差在形式上显得杂乱无章,但在大量重复的条件下,这种变化的随机性就会呈现出一定的规律性。研究和应用随机误差的规律是统计学的重要内容之一。
(2)系统误差:系统误差(syste
……
《医学统计学.基础篇》共18章,系统地介绍了医学统计学中必备的随机变量及其概率分布的基础理论,常用的统计分析方法及研究设计。为增强《医学统计学.基础篇》的实用性,《医学统计学.基础篇》还纳入了诊断试验和生存分析的部分内容,以满足临床需求。《医学统计学.基础篇》的主要特点是深入浅出地介绍了基础统计理论方法,且例题大部分基于笔者主持和参与的医学科研项目,贴近医学科研实践。《医学统计学.基础篇》内容编排紧凑,注重逻辑,强调学生统计思维方式的培养和统计方法运用能力的训练。《医学统计学.基础篇》与将要出版的《医学统计学(多元篇)》(第2版)在内容及风格上形成配套教材。
系统阐述了医学统计学的基本理论、基本方法、医学试验设计及其在医学领域中的应用。
— 没有更多了 —
以下为对购买帮助不大的评价