• 白话统计
  • 白话统计
21年品牌 40万+商家 超1.5亿件商品

白话统计

全新正版 极速发货

38.15 5.5折 69 全新

库存32件

广东广州
认证卖家担保交易快速发货售后保障

作者冯国双

出版社电子工业

ISBN9787121335181

出版时间2018-03

装帧其他

开本其他

定价69元

货号1201652369

上书时间2024-06-09

大智慧小美丽

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
导语摘要
 《白话统计》凝结了作者冯国双十多年来对统计学的理解,采用别具一格的编写理念和思路,对各种方法的介绍不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。本书对基本概念和方法的介绍没有采用教材中非常严谨的语言,而是尽可能用白话来解释说明。例如,在介绍累积分布和概率密度时,用到了《神雕侠侣》中的情节;在介绍假设检验思想时,用到了“女士品茶”的故事;在介绍中心极限定理时,采用了里约奥运会期间的一则虚拟故事。这不仅使得抽象理论形象化、复杂问题简单化,也增加了本书的趣味性和可读性,体现了作者深厚的理论功底和丰富的实践经验。
无论是初学者、统计学专业人士,还是统计学应用工作者,相信都能从中获益。

作者简介
冯国双,北京大学医学部博士,具有十多年的数据统计分析经验,知名统计学平台“小白学统计”的创始者与维护者。已主编多部统计学专著,出版《小白学SAS》,同时兼任多个与统计有关的学术委员会委员。
兴趣爱好:在热爱统计分析之余,还对古玩奇石、盆景制作和诗词鉴赏略有心得。

目录
第1篇 基础篇
  第1章 为什么要学统计
    1.1 统计学有什么用
    1.2 生活世事皆统计
    1.3 如何学统计
  第2章 变异――统计学存在的基础
    2.1 随机与变异
    2.2 特朗普与罗斯福的胜出――抽样调查到底可不可靠
    2.3 什么是抽样误差
  第3章 郭靖的内力能支撑多久――谈概率分布
    3.1 累积分布与概率密度的通俗理解
    3.2 是生存还是死亡?这是一个问题――用Weibull分布寻找生存规律
    3.3 2003年的那场SARS――用Logistic分布探索疾病流行规律
    3.4 “普通”的正态分布
    3.5 几个常用分布――t分布、χ2分布、F分布
  第4章 关于统计资料类型的思考
    4.1 计数资料等于分类资料吗
    4.2 计数资料可否采用连续资料的方法进行分析
    4.3 分类资料中的无序和有序是如何确定的
    4.4 连续资料什么时候需要转换为分类资料
    4.5 连续资料如何分组――寻找cut-off值的多种方法
    4.6 什么是虚拟变量/哑变量
  第5章 如何正确展示你的数据
    5.1 均数和中位数――你被平均了吗
    5.2 方差与标准差――变异的度量
    5.3 自由度――你有多少自由活动的范围
    5.4 百分位数――利用百分数度量相对位置
    5.5 如何比较苹果和橘子――利用Z值度量相对位置
    5.6 某百岁老人调查报告说:少运动才能活得久――谈一下比例和率
    5.7 在文章中如何正确展示百分比
  第6章 寻找失踪的运动员――中心极限定理
    6.1 中心极限定理针对的是样本统计量而非原始数据
    6.2 样本量大于30就可以认为是正态分布了吗
  第7章 从“女士品茶”中领会假设检验的思想
    7.1 女士品茶的故事
    7.2 零假设和备择假设
    7.3 假设检验中的两类错误
    7.4 P值的含义
    7.5 为什么P值小于0.05(而不是0.02)才算有统计学意义
    7.6 为什么零假设要设定两组相等而不是两组不等
  第8章 参数估计――一叶落而知秋
    8.1 点估计
    8.2 最小二乘估计
    8.3 最大似然估计
    8.4 贝叶斯估计
  第9章 置信区间估计――给估计留点余地
    9.1 置信区间的理论与实际含义
    9.2 置信区间与P值的关系
    9.3 利用标准误计算置信区间
    9.4 利用Bootstrap法估计置信区间
第2篇 实用篇
  第10章 常用统计方法大串讲
    10.1 一般线性模型――方差分析与线性回归的统一
    10.2 广义线性模型――线性回归与Logistic回归的统一
    10.3 广义可加模型――脱离“线性”束缚
    10.4 多水平模型――打破“独立”条件
    10.5 结构方程模型――从单因单果到多因多果
  第11章 正态性与方差齐性
    11.1 用统计检验方法判断正态性
    11.2 用描述的方法判断正态性
    11.3 方差分析中的方差齐性判断
    11.4 理解线性回归中的方差齐性
  第12章 t检验――不仅是两组比较
    12.1 从另一个角度来理解t检验
    12.2 如何正确应用t检验
    12.3 t检验用于回归系数的检验
    12.4 t检验的替代――Wilcoxon秩和检验
  第13章 方差分析与变异分解
    13.1 方差分析中变异分解的思想
    13.2 为什么回归分析中也有方差分析
    13.3 铁打的方差分析,流水的实验设计
    13.4 方差分析后为什么要进行两两比较
    13.5 多重比较方法的选择建议
    13.6 所有的多组都需要做两两比较吗――兼谈固定效应和随机效应
    13.7 重复测量方差分析详解
    13.8 方差分析的替代――Kruskal-Wallis秩和检验
    13.9 多组秩和检验后的两两比较方法
  第14章 卡方检验――有“卡”未必走遍天下
    14.1 卡方检验用于分类资料组间比较的思想
    14.2 卡方用于拟合优度评价――从Hardy-Weinberg定律谈起
    14.3 似然比χ2、M-Hχ2、校正χ2与Fisher精确检验
    14.4 等级资料到底可不可以用卡方检验
    14.5 卡方检验的两两比较
    14.6 Cochran-Armitage趋势检验
    14.7 分类变量的赋值是如何影响分析结果的
  第15章 相关分析与一致性检验
    15.1 从协方差到线性相关系数
    15.2 线性相关系数及其置信区间
    15.3 如何比较两个线性相关系数有无差异
    15.4 分类资料的相关系数
    15.5 基于秩次的相关系数
    15.6 相关分析中的几个陷阱
    15.7 用ICC和CCC指标判断一致性
    15.8 用Bland-Altman图判断一致性
    15.9 Kappa检验在一致性分析中的应用
  第16章 线性回归及其分析思路
    16.1 残差――识别回归模型好坏的关键
    16.2 回归系数的正确理解
    16.3 回归系数检验VS模型检验
    16.4 均值的置信区间VS个体的预测区间
    16.5 逐步回归筛选变量到底可不可靠――谈变量筛选策略
    16.6 如何评价模型是好还是坏――交叉验证思路
    16.7 线性回归的应用条件――你的数据能用线性回归吗
    16.8 如何处理非正态――Box-Cox变换
    16.9 如何处理非线性――Box-Tidwell变换
    16.10 方差不齐怎么办――加权最小二乘

内容摘要
 一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在本书中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。
《白话统计》凝结了作者冯国双十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(涵盖SAS、R、JMP、SPSS等)操作。

精彩内容
 7.3假设检验中的两类错误当我们根据假设检验思想最终计算出结果并做出结论时,谁也不敢保证结论一定是正确的,任何结论都有错误的可能。比如,你做出嫌疑人有罪的结论,就存在冤枉好人的风险;你做出嫌疑人无罪的结论,就存在纵容恶人的风险。这实际上就是假设检验中的两类错误,我们通常称之为I型错误和II型错误。下面通过一个例子来更详细地说明这两类错误。
有一家化工厂,一直在排放污染物。环保署接到举报,于是派调查人员前去展开调查。根据环保署的标准,排放浓度的上限是万分之三。所以调查人员就进行抽样调查,随机抽取了几个排放点,检测排放的污染物的浓度。经过调查人员的努力,调查结果出来了,排放浓度是万分之四,高于排放标准上限。那么现在问题来了:要不要让它关门整顿?
如果你直接说“当然让它关门了,都超出上限了,还等什么”,那说明你还没有真正理解统计学。因为工作人员只是做了抽样调查,既然是抽样,就有可能存在误差。因为这家工厂排放的污染物的浓度有可能并没有达到上限,只是抽样的地方恰好浓度高而己。
要判断该工厂的排污浓度是否超标,就要利用假设检验思想,先设定原假设,即这家工厂的排污浓度没有超标,然后根据收集的数据进行统计推断,最后计算统计量和P值,做出统计学结论。结论只可能有两种:一是认为超标;二是认为没有超标。而事实也
有两种:一是实际上真的超标了;二是实际上并没有超标。这两个结论一组合,就会生成图7.4所示的样式。
从图7.4中不难看出,所谓I型错误,就是环保署冤枉了该厂,本来该厂的排污浓度并未超标,但环保署认为它超标了。在这种情况下,该厂吃亏了(无缘无故被勒令停工好几个月)。所谓II型错误,就是你放纵了该厂,本来该厂的排污浓度超标了,环保署却认为它没有超标。在这种情况下,附近老百姓吃亏了(继续忍受污染)。
I型错误和II型错误通常又称为假阳性错误和假阴性错误,一般用α和β来表示。它们在不同领域有不同的含义。如在医学诊断中,I型错误就是误诊,即本来未患病却被错误地诊断为患病;II型错误就是漏诊,即本来患病了却没有被诊断出来。在质量控制领域,I型错误又称为生产者风险,相当于产品本来没有瑕疵,结果被错误地认为有瑕疵,这种风险由生
产者来承担;II型错误又称为消费者风险,相当于产品本来有问题,结果却没有发现,这种风险就由消费者来承担。
I型错误和II型错误是一种此消彼长的关系,I型错误增大,II型错误会减少;反之,I型错误减少,II型错误会增大。这一点可通过图7.5来说明。
图7.5显示的是一组高血压人群和一组非高血压人群的收缩压分布情况,黑色曲线下代表非高血压人群,蓝色曲线下代表高血压人群。可以看出,这两个人群有一定的交叉,换句话说,有一部分高血压人群会被误判为非高血压,有一部分非高血压人群会被误诊为高血压。
如果我们以红色线条(147mmHg)作为划分标准,即大于147mmHg认为是高血压,否则认为是非高血
压。此时误诊率较高,因为在非高血压人群中大于147mmHg的人还有不少(黑色曲线中红线右侧面积),这些人都被划分到高血压人群中,从而造成误诊。
如果我们以绿色线条(152mmHg)作为划分标准,即大于152mmHg认为是高血压,否则认为是非高血
压。此时漏诊率较高,因为在高血压人群中低于152mmHg的人还有不少(蓝色曲线中绿线左侧面积),这些人都被划分到非高血压人群中,从而造成漏诊。
因此,如果提高标准,让标准更为苛刻,则可以降低假阳性,但同时会提高假阴性。同样,如果降低标准,让标准更为宽松,则可以降低假阴性,但同时会提高假阳性。 那这两种错误到底哪个更严重?这取决于你站在哪一方。从环保署的角度来看,可能I型错误更严重,因为错误地控告该工厂,可能导致该工厂恶狠狠地反咬一口,环保署需要支付高额的赔偿金。从附近居民的角度来看,II型错误更严重,因为如果该工厂的排污浓度超标但环保署没有发现,那该工厂会继续排放污染物,危害居民健康。
在很多情况下,我们可能很难确定到底哪种错误严重,比如癌症的诊断,如果犯I型错误,把本来非癌症的误诊为癌症,则可能会导致他心理压力剧增,甚至真的得病;如果犯II型错误,把癌症患者漏诊为非癌症,则可能会丧失早期治疗的最佳时期,从而导
致病情的延误。所以有时我们不得不从专业角度综合考虑,到底把假阳性和假阴性设为多少合适。
目前一般习惯上把I型错误设为0.05,把II型错误设为0.1或0.2。但这并非固定的,如果你发现犯I型错误特别严重,那就可以降低I型错误的标准,如
设为0.01。这些只能根据自己的专业知识和研究目的来决定。
P73-75

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP