前言
前 言
在一本书中如果没有自己的观点,而只是各种已知知识的堆叠,那这本书还有什么意义呢?
——作者
时光飞逝,从我的本书出版到现在,转眼已经过去了7 年。期间,我的统计分析经验在不断积累,对统计学方法也有了更深一步的认识。但有一点始终未变,那就是我对统计学的热爱以及推广统计学的理念。从我的本书开始,我的理念就是,尽量写一本让非统计学专业人员也能看懂的统计书。直到本书的面世,尽管每本书的风格不一,但我始终遵循这一理念。
推广和普及统计学并不是一件容易的事情。由于各种原因,不少人在初学统计学时有点抵触,所以我尽量通过各种方式努力使统计学“平易近人”,写书便是其中之一。多年前我曾在百度空间创建了自己的“卫生统计空间”,阅读量达到近百万次,后来由于百度空间关闭而结束。后来我又在微信公众平台上创建了“小白学统计”公众号。在本书出版之际,该公众号恰好满两岁,粉丝也刚好满2 万人。不少人在公众号上留言,建议我将内容整理成册并出版。因此,在后期我就一边写新的文章,一边将其整理修订。虽然本书脱胎于“小白学统计”公众号,但内容其实和公众号里的文章并不相同。
事实上,我几乎重写了所有内容,因为正式出版的书籍不能像公众号里的文章那样随意。所以,尽管你会看到书中的内容有与公众号相似之处,但本书更为系统和详细。
关于本书的名字,我曾在公众号上征集各位读者的意见,很多人建议直接用《小白学统计》这一书名。但经过仔细考虑,以及几位试读朋友的建议,终还是命名为《白话统计》。因为本书并没有像教材一样系统地介绍各种统计方法,而更像随笔或补充读物。如果用武侠小说来类比,则更像梁羽生笔下的《玄功要诀》或金庸小说中的《易筋经》,虽然并不侧重教你具体招式,但却可以让你在学其他招数的时候事半功倍。
这是一本怎样的书
,你可以把本书看作一本“翻译”书。我在尽力把统计学中的公式“翻译”成白话文。比如,你在很多统计学书中看到正态分布的公式,而在本书中,你看到的是正态分布公式的解释及其实际含义;再如,你在统计学书中看到似然估计的公式时可能会有点困惑,本书则通过例子通俗地解释似然估计的计算思想。
第二,你还可以把本书看作统计学教材的补充内容。本书并不是简单地介绍各种统计方法,而是尽量把各种方法串联起来,从思路上理解方法本身。例如,教材中都会介绍如何用t 检验进行两组比较,本书则重在阐述t 检验的思想本身,这样你在任何场合(如线性回归、相关分析)看到t 检验都不会觉得陌生;而且本书还专门用了一章的篇幅对常见的各种统计学方法进行了串讲,从一般线性模型到广义可加模型,尽量让你明白它们之间的关系。
第三,如果你愿意,则也可以把本书看作一本打发时间的消遣读物。本书对所有概念和方法都尽量以通俗的语言而非官方语言来阐释。例如,在介绍分布时,通过大家熟知的郭靖如何消耗内力来进行说明,从而避免了不少人对“分布”这一概念完全摸不着头脑的尴尬;在介绍假设检验思想时,用了“女士品茶”这一浅显的例子来说明其思路。
从这本书中你能学到的和不能学到的
本书分为两大部分:基础篇和实用篇。其中,基础篇介绍了统计学中常见的概念及初学者容易存在的疑惑。例如,很多人都头疼的分布(第3 章)、初学者不易理解的假设检验(第7 章)、比较重要的中心极限定理(第6 章)、参数估计和置信区间(第8 章和第9 章)等。
实用篇则侧重介绍各种方法的思路及实现,先对各种常见方法进行了串讲(第10章),然后分别介绍了t 检验(第12 章)、方差分析(第13 章)、卡方检验(第14 章)、相关分析(第15 章)、回归分析(第16 章)。但是千万不要被我列举的表面现象所迷惑,这些方法可能你觉得都“会”,但如果你打开本书,则会发现原来这些内容并不是这么简单的。
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在本书中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据我多年的分析经验,它们在实践中通常是奏效的。
如果你想从本书中学习如何一步步地进行软件操作,那你可能会失望。本书没有教你具体的软件操作过程,因为软件实现是简单的,而统计分析思路则是更为复杂的。学习统计,遥远的距离是,你面对着电脑中的统计软件(中文版),菜单上的每个中文都认识,却始终不知道该点什么。这很让人受挫,不是吗?然而这不是软件操作的问题,而是统计思路的问题。本书将教你摆脱这一尴尬局面。
什么人适合阅读本书
如果你对统计学是完全的零基础,那么看前半部分内容应该问题不大,但对后半部分的统计方法可能需要花点心思,因为学习后半部分内容还是需要一定的统计学基础的。所以本书主要适合以下读者:
? 刚刚接触统计学,跟着老师听了几堂课,但是脑子里依然是一团糨糊的人。
? 学过统计学,但是对各种方法之间的关联并不清楚,想更进一步融会贯通的人。
? 在课堂上学过统计学,但遇到实际数据却不知如何下手,想了解数据分析思路的人。
? 统计学已经学得不错了,但有点眼高手低,对有些概念并未真正理解的人。
? 会一点数据分析,但是在实际数据面前容易头脑不清晰,想学习数据分析技巧的人。
? 会用简单的统计软件(如SPSS),但点开菜单却不知道里面的选项是什么意思、不知该如何勾选、也不知如何解读结果的人。
? 喜欢本人作品、“小白学统计”公众号的粉丝。
……
本书所用的软件
本书中结果的展示主要基于SAS 9.4 和JMP Pro 13。书中凡是涉及计算或结果展示的内容,大都给出了软件实现的语句或操作过程。考虑到不同读者有各自的软件使用习惯,书中分别给出了SAS 9.4、R 3.4.3、SPSS 20 和JMP Pro 13 的软件实现过程,部分特殊内容也用到了Medcalc 和Stata 12.0。
本书中的配套资源下载
本书中所有例子的数据、SAS 程序和R 程序都可以在知了帮网站下载,以节省读者输入数据和程序的时间。
致谢
首先,非常感谢陈峰老师在百忙之中帮忙作序,陈老师是一位儒雅型的生物统计学教授,能够请到陈老师作序,为本书增色不少。其次,感谢成都道然科技有限责任公司在整体策划和插图上的努力,你们看到书中那些生动的漫画都出自他们的手笔。
后还必须感谢“小白学统计”公众号的粉丝,正是你们的鼓励,才让我义无反顾地将其内容整理成册并出版。
本书是作者多年经验的累积,而且查阅了大量国内外文献,但仍不敢说百分之百正确。如果书中有任何观点上的错误,那说明本人水平仍有不足,所有错误均由本人承担责任,还请读者不吝指正,可在“小白学统计”公众号里留言。
冯国双
导语摘要
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(涉及Excel、SAS、R、JMP、SPSS 等)操作。
商品简介
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(涉及Excel、SAS、R、JMP、SPSS 等)操作。
作者简介
冯国双,北京大学医学部博士,具有十多年的数据统计分析经验,知名统计学平台“小白学统计”的创始者与维护者。已主编多部统计学专著,出版《小白学SAS》,同时兼任多个与统计有关的学术委员会委员。兴趣爱好:在热爱统计分析之余,还对古玩奇石、盆景制作和诗词鉴赏略有心得。
目录
目 录
第 1 篇 基础篇
第1 章 为什么要学统计 2
1.1 统计学有什么用 3
1.2 生活世事皆统计 4
1.3 如何学统计 4
第 2 章 变异——统计学存在的基础 6
2.1 随机与变异 6
2.2 特朗普与罗斯福的胜出——抽样调查到底可不可靠 8
2.3 什么是抽样误差 9
第 3 章 郭靖的内力能支撑多久——谈概率分布 11
3.1 累积分布与概率密度的通俗理解 12
3.2 是生存还是死亡?这是一个问题——用Weibull 分布寻找生存规律 16
3.3 2003 年的那场SARS——用Logistic 分布探索疾病流行规律 20
3.4 “普通”的正态分布 23
3.5 几个常用分布——t 分布、χ2 分布、F 分布 28
第 4 章 关于统计资料类型的思考 35
4.1 计数资料等于分类资料吗 36
4.2 计数资料可否采用连续资料的方法进行分析 37
4.3 分类资料中的无序和有序是如何确定的 38
4.4 连续资料什么时候需要转换为分类资料 39
4.5 连续资料如何分组——寻找cut-off 值的多种方法 41
4.6 什么是虚拟变量/哑变量 47
第 5 章 如何正确展示你的数据 52
5.1 均数和中位数——你被平均了吗 53
5.2 方差与标准差——变异的度量 54
5.3 自由度——你有多少自由活动的范围 56
5.4 百分位数——利用百分数度量相对位置 57
5.5 如何比较苹果和橘子——利用Z 值度量相对位置 59
5.6 某百岁老人调查报告说:少运动才能活得久——谈一下比例和率 61
5.7 在文章中如何正确展示百分比 63
第 6 章 寻找失踪的运动员——中心极限定理 64
6.1 中心极限定理针对的是样本统计量而非原始数据 65
6.2 样本量大于30 就可以认为是正态分布了吗 67
第 7 章 从“女士品茶”中领会假设检验的思想 70
7.1 女士品茶的故事 70
7.2 零假设和备择假设 . 72
7.3 假设检验中的两类错误 73
7.4 P 值的含义 76
7.5 为什么P 值小于0.05(而不是0.02)才算有统计学意义 78
7.6 为什么零假设要设定两组相等而不是两组不等 79
第 8 章 参数估计——一叶落而知秋 81
8.1 点估计 .81
8.2 小二乘估计 82
8.3 似然估计 84
8.4 贝叶斯估计 86
第 9 章 置信区间估计——给估计留点余地 88
9.1 置信区间的理论与实际含义 88
9.2 置信区间与P 值的关系 90
9.3 利用标准误计算置信区间 91
9.4 利用Bootstrap 法估计置信区间 . 92
第 2 篇 实用篇
第10 章 常用统计方法大串讲 98
10.1 一般线性模型——方差分析与线性回归的统一 99
10.2 广义线性模型——线性回归与Logistic 回归的统一 103
10.3 广义可加模型——脱离“线性”束缚 107
10.4 多水平模型——打破“独立”条件 112
10.5 结构方程模型——从单因单果到多因多果 119
第 11 章 正态性与方差齐性 .127
11.1 用统计检验方法判断正态性 127
11.2 用描述的方法判断正态性 130
11.3 方差分析中的方差齐性判断 .133
11.4 理解线性回归中的方差齐性 135
第 12 章 t 检验——不仅是两组比较 .138
12.1 从另一个角度来理解t 检验 138
12.2 如何正确应用t 检验 140
12.3 t 检验用于回归系数的检验 141
12.4 t 检验的替代——Wilcoxon 秩和检验 142
第 13 章 方差分析与变异分解 145
13.1 方差分析中变异分解的思想 145
13.2 为什么回归分析中也有方差分析 147
13.3 铁打的方差分析,流水的实验设计 148
13.4 方差分析后为什么要进行两两比较 152
13.5 多重比较方法的选择建议 154
13.6 所有的多组都需要做两两比较吗——兼谈固定效应和随机效应 164
13.7 重复测量方差分析详解 166
13.8 方差分析的替代——Kruskal-Wallis 秩和检验 176
13.9 多组秩和检验后的两两比较方法 178
第 14 章 卡方检验——有“卡”未必走遍天下 181
14.1 卡方检验用于分类资料组间比较的思想 181
14.2 卡方用于拟合优度评价——从Hardy-Weinberg 定律谈起 184
14.3 似然比χ2、M-H χ2、校正χ2 与Fisher 精确检验 186
14.4 等级资料到底可不可以用卡方检验 191
14.5 卡方检验的两两比较 193
14.6 Cochran-Armitage 趋势检验 194
14.7 分类变量的赋值是如何影响分析结果的 196
第 15 章 相关分析与一致性检验 200
15.1 从协方差到线性相关系数 200
15.2 线性相关系数及其置信区间 203
15.3 如何比较两个线性相关系数有无差异 206
15.4 分类资料的相关系数 207
15.5 基于秩次的相关系数 210
15.6 相关分析中的几个陷阱 213
15.7 用ICC 和CCC 指标判断一致性 215
15.8 用Bland-Altman 图判断一致性 218
15.9 Kappa 检验在一致性分析中的应用 219
第 16 章 线性回归及其分析思路 .222
16.1 残差——识别回归模型好坏的关键 223
16.2 回归系数的正确理解 226
16.3 回归系数检验VS 模型检验 227
16.4 均值的置信区间VS 个体的预测区间 228
16.5 逐步回归筛选变量到底可不可靠——谈变量筛选策略 230
16.6 如何评价模型是好还是坏——交叉验证思路 237
16.7 线性回归的应用条件——你的数据能用线性回归吗 240
16.8 如何处理非正态——Box-Cox 变换 247
16.9 如何处理非线性——Box-Tidwell 变换 248
16.10 方差不齐怎么办——加权小二乘法 250
16.11 当共线性导致结果异常时怎么办——岭回归、Lasso 回归 .254
16.12 发现异常值应该删除吗——谈几种处理异常值的方法 .260
16.13 如何处理缺失值——是删除还是填补 268
16.14 一个非教材的非典型案例——线性回归的综合分析 276
内容摘要
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(涉及Excel、SAS、R、JMP、SPSS 等)操作。
主编推荐
冯国双,北京大学医学部博士,具有十多年的数据统计分析经验,知名统计学平台“小白学统计”的创始者与维护者。已主编多部统计学专著,出版《小白学SAS》,同时兼任多个与统计有关的学术委员会委员。兴趣爱好:在热爱统计分析之余,还对古玩奇石、盆景制作和诗词鉴赏略有心得。
精彩内容
7.3假设检验中的两类错误当我们根据假设检验思想最终计算出结果并做出结论时,谁也不敢保证结论一定是正确的,任何结论都有错误的可能。比如,你做出嫌疑人有罪的结论,就存在冤枉好人的风险;你做出嫌疑人无罪的结论,就存在纵容恶人的风险。这实际上就是假设检验中的两类错误,我们通常称之为I型错误和II型错误。下面通过一个例子来更详细地说明这两类错误。
有一家化工厂,一直在排放污染物。环保署接到举报,于是派调查人员前去展开调查。根据环保署的标准,排放浓度的上限是万分之三。所以调查人员就进行抽样调查,随机抽取了几个排放点,检测排放的污染物的浓度。经过调查人员的努力,调查结果出来了,排放浓度是万分之四,高于排放标准上限。那么现在问题来了:要不要让它关门整顿?
如果你直接说“当然让它关门了,都超出上限了,还等什么”,那说明你还没有真正理解统计学。因为工作人员只是做了抽样调查,既然是抽样,就有可能存在误差。因为这家工厂排放的污染物的浓度有可能并没有达到上限,只是抽样的地方恰好浓度高而己。
要判断该工厂的排污浓度是否超标,就要利用假设检验思想,先设定原假设,即这家工厂的排污浓度没有超标,然后根据收集的数据进行统计推断,最后计算统计量和P值,做出统计学结论。结论只可能有两种:一是认为超标;二是认为没有超标。而事实也
有两种:一是实际上真的超标了;二是实际上并没有超标。这两个结论一组合,就会生成图7.4所示的样式。
从图7.4中不难看出,所谓I型错误,就是环保署冤枉了该厂,本来该厂的排污浓度并未超标,但环保署认为它超标了。在这种情况下,该厂吃亏了(无缘无故被勒令停工好几个月)。所谓II型错误,就是你放纵了该厂,本来该厂的排污浓度超标了,环保署却
以下为对购买帮助不大的评价