前言
前 言
统计学主要是用来研究如何有效地收集、处理和分析实际数据的一门学科,统计学的本质在于挖掘原始数据中的潜在信息,通过有效且有针对性的统计分析与推断,为解决实际问题提供具有参考价值的建议。在2011年以前,统计学科分别隶属于两个一级学科,即应用经济学和数学;2011年以后,国务院学位委员会通过了新的学位授予和人才培养学科目录,统计学科上升为一级学科。这一方面说明了统计学这个学科本身的重要性,为未来统计学的快速发展提供了更加广阔的舞台和空间,同时这也对高等院校人才培养模式提出了新的要求。
经国务院学位委员会批准,我国自2011年起开始招收培养应用统计专业硕士,到目前已经连续招收了六届,且全国每年招生规模不断扩大。该专业学位设置的主要目的是为政府部门、大中型企业、咨询和研究机构培养高层次、应用型统计专门人才。相对于学术性硕士的培养而言,应用统计专业硕士培养的主要特点是“高层次、应用型”。从课程设置体系来看,“应用数理统计”课程是应用统计专业硕士培养为重要的基础课和核心课,是后继各类专业课的基础。从学科定义上来看,数理统计主要是用来研究如何有效地收集、处理和分析数据的一门学科,通过对随机现象有限次的观测或试验得到的数据进行归纳、分析,并据此对整体的数量规律性做出推断或判断。数理统计既强调统计理论数学阐述,如参数估计、非参数估计、相关与回归分析等,同时又非常注重统计方法的实际应用,数理统计对统计数据分析方法的影响是显著的,在对应用统计专业硕士的培养中发挥着重要作用。
鉴于应用统计专业硕士推出的时间较短,国内有针对性的数理统计教材很少,为了适应应用统计专业硕士培养快速发展的新形式,我们着手编写了本书。作者认为,“数理统计”作为应用统计专业硕士教学的一门基础课,在课程内容选编上既要体现不同于本科课程内容的“高层次”,又要体现出不同于传统学术型硕士课程内容的“应用型”,尽量做到理论方法与应用的有机融合。考虑到某些结论的证明过程过于烦琐,初学者往往感到困惑,在编写过程中我们强调方法的应用,淡化理论证明,注重案例教学。
值得注意的是,计算机的诞生与迅猛发展,为数据处理提供了强有力的技术支持。统计的学习与使用离不开计算机,离不开统计软件。目前常用的统计软件主要有SPSS、SAS、MATLAB、STATISTICA、R语言等。R 软件作为一种免费的开源统计软件,已经在统计学、运筹学、生物信息学、经济学、工程学等诸多领域得到广泛应用。由于设计上的特点,R语言并不局限某一类问题。配合不同的功能扩展包,以及各种灵活使用的基本工具,R 语言能够应用的领域相当广泛。在本书中,我们将采用R语言作为主要的教学软件。对于一些常用的结论,我们将通过R语言来实现。本书强调统计方法的R语言实现也是基于应用的目的。
本书共分6章,其中第1章由姜玉英编写,第2、3、6章由刘强编写,第4、5章及附录由王琳编写,书中的大部分程序由王琳编写,后由刘强负责统一定稿。
本书内容涵盖了概率论预备知识、统计基础知识、参数估计、假设检验、区间估计及回归分析。为了方便读者学习和实际应用,本书在附录中介绍了R语言的使用、非参数密度估计及非参数回归等内容,以开阔读者的应用视野。全部讲授完本书大约需要48学时,如果将R软件的学习与应用放到课后,则32学时左右即可完成本书内容的讲授。
本书的初稿在首都经济贸易大学应用统计专业硕士班讲授过多年,虽然经过多次修改,总感不足,趁此出版之际,我们对讲义又进行了大幅的整理与修订,希望本书的出版能为应用统计专业硕士的教学贡献一份绵薄之力。
在本书的撰写过程中,北京工业大学薛留根教授、程维虎教授,首都经济贸易大学统计学院纪宏教授、张宝学教授、马立平教授都给予了极大的支持和热心的帮助。电子工业出版社高等教育分社的谭海平社长和王二华编辑也为本书的出版付出了很大努力,在此一并表示感谢。本书的撰写也得到了北京市青年拔尖人才培育计划项目(CIT&TCD201404133)和首都经济贸易大学专业学位硕士教育系列教材建设项目的资助。
由于作者水平有限,尽管尽了很大努力,但书中仍不免存在错谬之处,恳请国内同行及读者不吝指正。电子邮箱为:cuebliuqiang@163.com。
作 者
2016年11月
导语摘要
本书介绍了数理统计的经典内容与方法,内容涵盖了概率论预备知识、统计基础、参数估计、假设检验、区间估计及回归分析。为了适应应用统计专业硕士培养发展的新形式,在本书编写过程中我们强调方法的应用,淡化理论的证明。为开阔读者的应用视野,本书还在附录中介绍了R语言的使用、非参数密度估计及非参数回归等内容。书中很多例题都附有R软件实现,各章均配有一定数量的习题。本书可以作为普通高等院校应用统计专业硕士学习“应用数理统计”课程的教材,也可以作为非数学专业的研究生或高年级本科生学习“数理统计”课程的教材或参考书。
作者简介
刘强教授,博士生导师,现任首都经济贸易大学统计学院副院长,兼任全国工业统计教学研究会常务理事兼常务副秘书长,北京应用统计学会常务理事,中国商业经济学会经济数学研究分会常务理事,北京大数据协会理事等。主要从事应用数理统计、经济数据分析、非参数统计以及复杂数据分析等方面的教学、科研工作。王琳,首都经济贸易大学统计学院讲师,美国匹兹堡大学生物统计系访问学者。主要从事生物信息学和计算生物学方面的研究,主持包括国家自然科学基金在内课题多项,发表SCI学术论文近十篇。
目录
目 录
第1章 预备知识1
1.1 随机事件及其概率2
1.1.1 样本空间与随机事件2
1.1.2 事件间的关系及运算2
1.1.3 概率的定义及性质3
1.1.4 条件概率与事件的独立性4
1.2 随机变量及其分布5
1.2.1 随机变量及其分布5
1.2.2 离散型随机变量及其分布率6
1.2.3 连续型随机变量及其概率密度7
1.2.4 随机变量函数的分布9
1.3 多维随机变量及其性质10
1.3.1 多维随机变量及其分布10
1.3.2 边缘分布与条件分布11
1.3.3 随机变量的独立性12
1.3.4 随机向量函数的分布12
1.3.5 随机向量的变换及其分布13
1.4 随机变量的数字特征13
1.4.1 数学期望与方差13
1.4.2 矩、协方差阵及相关系数16
1.4.3 条件数学期望17
1.5 特征函数及其性质18
1.6 大数定律与中心极限定理19
1.6.1 随机变量序列的收敛性19
1.6.2 大数定律20
1.6.3 中心极限定理21
习题122
第2章 统计基础24
2.1 一些基本概念24
2.1.1 总体与样本24
2.1.2 放回与不放回抽样26
2.1.3 参数与非参数分布族26
2.1.4 统计量与抽样分布27
2.2 三大抽样分布29
2.2.1 c2分布29
2.2.2 t分布32
2.2.3 F分布34
2.2.4 两个重要的结论36
2.3 常见分布族37
2.3.1 伽马分布族37
2.3.2 Fisher Z分布族38
2.3.3 贝塔分布族39
2.3.4 韦布尔分布族41
2.3.5 多项分布族41
2.3.6 指数型分布族42
2.4 常用统计量43
2.4.1 经验分布函数44
2.4.2 次序统计量45
2.4.3 样本p分位数47
2.5 充分统计量48
2.5.1 充分统计量48
2.5.2 因子分解定理50
2.5.3 指数型分布族的充分统计量52
2.6 完备统计量52
2.6.1 分布族的完备性52
2.6.2 完备统计量53
2.6.3 指数型分布族的完备统计量54
2.7 常用统计图形55
2.7.1 直方图55
2.7.2 茎叶图59
2.7.3 箱线图60
2.7.4 散点图62
2.7.5 折线图65
习题266
第3章 点估计69
3.1 点估计与优良性69
3.1.1 点估计的概念69
3.1.2 无偏性69
3.1.3 有效性70
3.1.4 均方误差准则71
3.1.5 相合性71
3.1.6 渐近正态性73
3.2 矩估计74
3.3 极大似然估计75
3.3.1 极大似然估计的原理76
3.3.2 极大似然估计的性质80
3.4 一致小方差无偏估计80
3.4.1 一致小方差无偏估计的概念80
3.4.2 零无偏估计法82
3.4.3 充分完备统计量法83
3.5 Cramer-Rao不等式83
3.5.1 C-R正则分布族与Fisher信息83
3.5.2 统计量的Fisher信息86
3.5.3 信息不等式与有效估计86
3.6 U统计量89
3.7 同变估计90
3.7.1 同变性的引入90
3.7.2 同变估计91
3.7.3 Pitman估计92
习题393
第4章 假设检验95
4.1 基本概念95
4.1.1 假设检验问题95
4.1.2 拒绝域与检验统计量96
4.1.3 两类错误和功效函数96
4.1.4 Neyman-Pearson原则97
4.1.5 检验函数与充分统计量98
4.2 Neyman-Pearson基本引理99
4.2.1 功效检验99
4.2.2 一致功效检验101
4.3 似然比检验102
4.4 正态总体的参数检验104
4.4.1 均值的检验104
4.4.2 方差的检验109
4.5 非参数假设检验112
4.5.1 皮尔逊?2拟合检验113
4.5.2 柯尔莫哥洛夫-斯米尔诺夫
检验法116
4.5.3 符号检验法118
4.5.4 Wilcoxon符号秩检验121
4.5.5 Wilcoxon-Mann-Whitney秩和
检验124
4.5.6 游程检验126
习题4127
第5章 区间估计130
5.1 区间估计的基本概念130
5.2 置信区间(置信域)的构造133
5.2.1 枢轴量法133
5.2.2 假设检验法136
5.2.3 近似分布法138
5.3 一致精确置信区间(置信限)138
习题5140
第6章 回归分析142
6.1 引言142
6.2 线性回归模型144
6.2.1 小二乘估计145
6.2.2 小二乘估计的性质148
6.3 模型的评价与检验150
6.3.1 模型的评价150
6.3.2 模型的检验152
6.4 响应变量的预测156
6.5 广义小二乘估计157
6.6 回归诊断158
6.6.1 残差分析159
6.6.2 影响分析163
6.6.3 多重共线性分析166
6.7 有偏估计169
6.7.1 岭估计169
6.7.2 主成分回归172
6.8 Box-Cox变换175
习题6178
附录A R语言简介181
附录B 非参数密度估计198
附录C 非参数回归208
附录D 常用的统计表216
参考文献239
内容摘要
本书介绍了数理统计的经典内容与方法,内容涵盖了概率论预备知识、统计基础、参数估计、假设检验、区间估计及回归分析。为了适应应用统计专业硕士培养发展的新形式,在本书编写过程中我们强调方法的应用,淡化理论的证明。为开阔读者的应用视野,本书还在附录中介绍了R语言的使用、非参数密度估计及非参数回归等内容。书中很多例题都附有R软件实现,各章均配有一定数量的习题。本书可以作为普通高等院校应用统计专业硕士学习“应用数理统计”课程的教材,也可以作为非数学专业的研究生或高年级本科生学习“数理统计”课程的教材或参考书。
主编推荐
刘强教授,博士生导师,现任首都经济贸易大学统计学院副院长,兼任全国工业统计教学研究会常务理事兼常务副秘书长,北京应用统计学会常务理事,中国商业经济学会经济数学研究分会常务理事,北京大数据协会理事等。主要从事应用数理统计、经济数据分析、非参数统计以及复杂数据分析等方面的教学、科研工作。王琳,首都经济贸易大学统计学院讲师,美国匹兹堡大学生物统计系访问学者。主要从事生物信息学和计算生物学方面的研究,主持包括国家自然科学基金在内课题多项,发表SCI学术论文近十篇。
以下为对购买帮助不大的评价