用Python动手学统计学
全新正版 极速发货
¥
48.02
6.0折
¥
79.8
全新
库存15件
作者(日)马场真哉
出版社人民邮电出版社
ISBN9787115560285
出版时间2021-06
装帧平装
开本32开
定价79.8元
货号1202382115
上书时间2024-09-04
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
[日]马场真哉(作者)
出生于日本神户市,毕业于北海道大学。经常在个人网站Logics of Blue分享统计学、数据分析与编程知识。著有《决策分析和预测的活用:从基础理论懂啊Python实现》《R语言编程和数据分析》《基于贝叶斯统计建模的数据分析入门:使用R和Stan》等。
吴昊天(译者)
2017年毕业于同济大学,研究方向是车载软件。目前在汽车行业从事代码迁移工作,业余参与一些游戏软件的靠前化工作。
目录
第1章 统计学基础
1.1 统计学 2
1.1.1 统计学的目标①:描述现有数据 2
1.1.2 统计学的目标②:估计未知数据 3
1.1.3 术语 样本与总体 3
1.1.4 1.2节及之后的内容 4
1.2 获取样本的过程 5
1.2.1 术语 随机变量 5
1.2.2 湖中钓鱼的例子 5
1.2.3 从总体中获取样本的过程 6
1.2.4 术语 样本值 7
1.2.5 术语 抽样 7
1.2.6 术语 简单随机抽样 7
1.2.7 术语 样本容量 7
1.2.8 术语 普查与抽样调查 8
1.3 抽样过程的抽象描述 9
1.3.1 符号 概率 9
1.3.2 术语 概率分布 9
1.3.3 术语 服从概率分布 10
1.3.4 术语 总体分布 10
1.3.5 作为抽样过程的总体分布 10
1.3.6 无限总体的含义与总体分布 11
1.3.7 总结:抽样过程 12
1.3.8 补充 瓮模型 13
1.4 描述统计基础 14
1.4.1 术语 定量变量 14
1.4.2 术语 离散变量与连续变量 14
1.4.3 术语 分类变量 15
1.4.4 术语 组、组中值 15
1.4.5 术语 频数、频数分布、频率 15
1.4.6 术语 累积频数、累积频率 16
1.4.7 术语 直方图 17
1.4.8 术语 统计量 19
1.4.9 术语 均值 19
1.4.10 术语 期望值 20
1.4.11 术语 方差 21
1.4.12 补充 均值、方差与数据范围 21
1.5 总体分布的推断 23
1.5.1 总体分布与总体的频率分布 23
1.5.2 更现实一些的湖中钓鱼 24
1.5.3 做假设 24
1.6 概率质量函数与概率密度函数 27
1.6.1 术语 概率质量函数 27
1.6.2 术语 概率密度 27
1.6.3 补充 积分与加法的关系 28
1.6.4 术语 概率密度函数 28
1.6.5 术语 正态分布 29
1.6.6 术语 参数(概率分布的参数) 30
1.6.7 补充 各种各样的概率分布 30
1.6.8 推断总体分布 =确定分布 +估计参数 31
1.6.9 把样本的统计量看作参数的估计值 32
1.6.10 补充 估计误差 32
1.6.11 总结:统计学基础 33
1.7 统计量的计算 35
1.7.1 为什么要使用数学式 35
1.7.2 符号 样本 35
1.7.3 符号 均值 36
1.7.4 符号 期望值 36
1.7.5 术语 总体均值与样本均值 37
1.7.6 符号 样本方差 37
1.7.7 术语 无偏方差 38
1.7.8 为什么样本方差会偏离 38
1.7.9 术语 标准差 39
1.8 概率论基础 41
1.8.1 术语 集合 41
1.8.2 术语 元素 41
1.8.3 集合的两种表示方法 42
1.8.4 术语 子集 42
1.8.5 术语 维恩图 43
1.8.6 术语 交集与并集 43
1.8.7 术语 差集 44
1.8.8 术语 空集 44
1.8.9 术语 全集 44
1.8.10 术语 补集 45
1.8.11 术语 样本点、样本空间、事件 45
1.8.12 术语 互斥事件 46
1.8.13 通过掷骰子可以联想到的各种概率分布 47
1.8.14 概率的公理化定义 47
1.8.15 用频率解释概率 48
1.8.16 主观概率 48
1.8.17 术语 概率的加法公式 49
1.8.18 术语 条件概率 49
1.8.19 术语 概率的乘法公式 50
1.8.20 术语 独立事件 50
1.9 随机变量与概率分布 51
1.9.1 随机变量与样本值 51
1.9.2 离散型概率分布与概率质量函数 52
1.9.3 概率密度 52
1.9.4 连续型概率分布与概率密度函数 53
1.9.5 概率的总和与概率密度的积分 53
1.9.6 补充 积分与面积的关系 54
1.9.7 正态分布的概率密度函数 56
1.9.8 符号 服从概率分布 56
1.9.9 独立同分布 57
1.9.10 使用正态分布的概率密度函数计算概率的方法 57
1.9.11 使用概率密度计算期望值的方法 57
第2章 Python与 Jupyter Notebook基础 59
2.1 环境搭建 60
2.1.1 什么是 Python 60
2.1.2 Python的版本 60
2.1.3 Python与 Anaconda 60
2.1.4 Jupyter Notebook 61
2.1.5 下载和安装 61
2.1.6 补充 Python编程术语 61
2.2 认识 Jupyter Notebook 63
2.2.1 启动 Jupyter Notebook 63
2.2.2 创建新文件 64
2.2.3 执行代码 65
2.2.4 保存执行结果 65
2.2.5 Markdown的用法 65
2.2.6 退出 Jupyter Notebook 66
2.3 Python编程基础 67
2.3.1 实现 四则运算 67
2.3.2 实现 编写注释 68
2.3.3 实现 数据类型 69
2.3.4 实现 比较运算符 70
2.3.5 实现 变量 71
2.3.6 实现 函数 71
2.3.7 实现 类与实例 73
2.3.8 实现 基于 if语句的程序分支 75
2.3.9 实现 基于 for语句的循环 76
2.3.10 编写易用程序的窍门 77
2.4 认识 numpy与 pandas 78
2.4.1 导入用于分析的功能 78
2.4.2 numpy与 pandas 79
2.4.3 实现 列表 79
2.4.4 术语 行与列 79
2.4.5 实现 数组 81
2.4.6 实现 生成等差数列的方法 82
2.4.7 实现 多种生成数组的方式 83
2.4.8 实现 切片 84
2.4.9 实现 数据帧 85
2.4.10 实现 读取文件中的数据 87
2.4.11 实现 连接数据帧 87
2.4.12 实现 数据帧的列操作 88
2.4.13 实现 数据帧的行操作 90
2.4.14 补充 序列 91
2.4.15 补充 函数文档 92
第3 章 使用Python 进行数据分析 95
3.1 使用Python 进行描述统计:单变量 96
3.1.1 统计分析与scipy 96
3.1.2 单变量数据的操作 96
3.1.3 实现 总和与样本容量 97
3.1.4 实现 均值(期望值) 98
3.1.5 实现 样本方差 98
3.1.6 实现 无偏方差 100
3.1.7 实现 标准差 101
3.1.8 补充 标准化 101
3.1.9 补充 其他统计量 103
3.1.10 实现 scipy.stats 与四分位数 104
3.2 使用 Python进行描述统计:多变量 106
3.2.1 术语 整洁数据 106
3.2.2 术语 杂乱数据 107
3.2.3 术语 列联表(交叉分类表) 108
3.2.4 多变量数据的管理 109
3.2.5 实现 求各分组的统计量 110
3.2.6 实现 列联表 111
3.2.7 术语 协方差 112
3.2.8 术语 协方差矩阵 114
3.2.9 实现 协方差 114
3.2.10 实现 协方差矩阵 115
3.2.11 术语 皮尔逊积矩相关系数 116
3.2.12 术语 相关矩阵 116
3.2.13 实现 皮尔逊积矩相关系数 117
3.2.14 补充 相关系数无效的情况 118
3.3 基于 matplotlib、seaborn的数据可视化 119
3.3.1 Python中的数据可视化 119
3.3.2 实现 数据可视化的环境准备 119
3.3.3 实现 用 pyplot绘制折线图 120
3.3.4 实现 用 seaborn和 pyplot绘制折线图 121
3.3.5 实现 用 seaborn绘制直方图 122
3.3.6 实现 通过核密度估计将直方图平滑化 123
3.3.7 实现 两个变量的直方图 125
3.3.8 将多变量可视化的代码 127
3.3.9 实现 箱形图 128
3.3.10 实现 小提琴图 129
3.3.11 实现 条形图 130
3.3.12 实现 散点图 131
3.3.13 实现 散点图矩阵 132
3.4 用 Python模拟抽样 135
3.4.1 环境准备 135
3.4.2 抽样过程 136
3.4.3 在只有 5条鱼的湖中抽样 136
3.4.4 术语 随机数 138
3.4.5 术语 放回抽样、不放回抽样 138
3.4.6 从鱼较多的湖中抽样 139
3.4.7 总体分布 140
3.4.8 对比总体分布和正态分布的概率密度函数 141
3.4.9 抽样过程的抽象描述 143
3.4.10 补充 有限总体校正 144
3.4.11 补充 假设总体服从正态分布是否恰当 145
3.5 样本统计量的性质 146
3.5.1 术语 试验 146
3.5.2 术语 样本分布 146
3.5.3 导入所需的库 147
3.5.4 多次计算样本均值 148
3.5.5 样本均值的均值与总体均值相近 149
3.5.6 样本容量越大,样本均值越接近总体均值 150
3.5.7 定义用来计算样本均值的函数 152
3.5.8 不同样本容量所得的样本均值的分布 153
3.5.9 样本均值的标准差小于总体标准差 154
3.5.10 术语 标准误差 156
3.5.11 标准误差的直观解释 158
3.5.12 样本方差的均值偏离总体方差 158
3.5.13 采用无偏方差消除偏离 159
3.5.14 样本容量越大,其无偏方差越接近总体方差 160
3.5.15 术语 无偏性 161
3.5.16 术语 一致性 161
3.5.17 较好的参数估计量 162
3.5.18 补充 大数定律 162
3.5.19 补充 中心极限定理 162
3.6 正态分布及其应用 165
3.6.1 导入函数库 165
3.6.2 实现 概率密度 166
3.6.3 样本小于等于某值的比例 168
3.6.4 术语 累积分布函数 168
3.6.5 实现 累积分布函数 169
3.6.6 术语 左侧概率与百分位数 170
3.6.7 实现 百分位数 170
3.6.8 术语 标准正态分布 171
3.6.9 术语 t值 171
3.6.10 t值的样本分布 172
3.6.11 术语 t分布 174
3.6.12 实现 t分布 175
3.7 参数估计 177
3.7.1 本节任务 177
3.7.2 环境准备 177
3.7.3 术语 点估计 178
3.7.4 实现 点估计 179
3.7.5 术语 区间估计 179
3.7.6 术语 置信水平、置信区间 180
3.7.7 术语 置信界限 180
3.7.8 置信区间的计算 180
3.7.9 实现 区间估计 180
3.7.10 补充 置信区间的求解细节 181
3.7.11 决定置信区间大小的因素 183
3.7.12 区间估计结果的解读 184
3.8 假设检验 187
3.8.1 术语 假设检验 187
3.8.2 单样本 t检验 187
3.8.3 显著性差异 188
3.8.4 t检验的直观解释 188
3.8.5 均值差异大不代表存在显著性差异 189
3.8.6 t值 189
3.8.7 假设检验的结构:零假设与备择假设 190
3.8.8 术语 p值 191
3.8.9 术语 显著性水平 191
3.8.10 t检验与 t分布的关系 191
3.8.11 术语 单侧检验与双侧检验 192
3.8.12 p值的计算 192
3.8.13 t检验的实现:环境准备 193
3.8.14 t检验的实现:计算 t值 194
3.8.15 t检验的实现:计算 p值 195
3.8.16 通过模拟实验计算 p值 196
3.9 均值差的检验 198
3.9.1 双样本 t检验 198
3.9.2 配对样本 t检验 198
3.9.3 环境准备 199
3.9.4 实现 配对样本 t检验 200
3.9.5 独立样本 t检验 201
3.9.6 实现 独立样本 t检验 202
3.9.7 补充 独立样本 t检验(同方差) 203
3.9.8 补充 p值操纵 203
3.10 列联表检验 205
3.10.1 使用列联表的好处 205
3.10.2 本节例题 206
3.10.3 计算期望频数 207
3.10.4 计算观测频数和期望频数的差 208
3.10.5 实现 计算 p值 209
3.10.6 实现 列联表检验 209
3.11 检验结果的解读 211
3.11.1 p值小于 0.05时的表述方法 211
3.11.2 p值大于 0.05时的表述方法 211
3.11.3 关于假设检验的常见误区 212
3.11.4 p值小不代表差异大 212
3.11.5 p值大于 0.05不代表没有差异 213
3.11.6 术语 类错误与第二类错误 213
3.11.7 术语 假设检验的非对称性 213
3.11.8 在检验之前确定显著性水平 214
3.11.9 补充 统计模型的选择 214
3.11.10 假设检验有什么用 214
3.11.11 假设是否正确 215
第4章 统计模型基础 217
4.1 统计模型 218
4.1.1 术语 模型 218
4.1.2 术语 建模 218
4.1.3 模型有什么用 218
4.1.4 简化复杂的世界 219
4.1.5 从某个角度观察复杂的现象 219
4.1.6 术语 数学模型 220
4.1.7 术语 概率模型 220
4.1.8 术语 统计模型 221
4.1.9 概率分布与统计模型 221
4.1.10 基于统计模型的预测 222
4.1.11 统计模型与经典数据分析的对比 222
4.1.12 统计模型应用 223
4.2 建模方法 224
4.2.1 本节例题 224
4.2.2 术语 响应变量和解释变量 224
4.2.3 术语 参数模型 224
4.2.4 术语 非参数模型 224
4.2.5 术语 线性模型 224
4.2.6 术语 系数与权重 226
4.2.7 建模 = 模型选择 + 参数估计 227
4.2.8 线性模型的建模方法 227
4.2.9 术语 变量选择 228
4.2.10 术语 空模型 228
4.2.11 通过假设检验选择变量 229
4.2.12 通过信息量准则选择变量 229
4.2.13 模型评估 230
4.2.14 补充 在建模之前确定分析目的 230
4.3 数据表示与模型名称 231
4.3.1 术语 正态线性模型 231
4.3.2 术语 回归分析(经典术语) 231
4.3.3 术语 多元回归分析(经典术语) 232
4.3.4 术语 方差分析(经典术语) 232
4.3.5 术语 广义线性模型 232
4.3.6 补充 机器学习中的叫法 232
4.4 参数估计:优选似然估计 234
4.4.1 为什么要学习参数估计 234
4.4.2 术语 似然 234
4.4.3 术语 似然函数 235
4.4.4 术语 对数似然 235
4.4.5 术语 对数的性质 235
4.4.6 术语 优选似然法 238
4.4.7 术语 优选似然估计量 238
4.4.8 术语 优选对数似然 239
4.4.9 服从正态分布的数据的似然 239
4.4.10 术语 多余参数 239
4.4.11 正态线性模型的似然 240
4.4.12 补充 优选似然法计算举例 241
4.4.13 补充 优选似然估计量的性质 243
4.5 参数估计:最小化损失 244
4.5.1 术语 损失函数 244
4.5.2 术语 残差 244
4.5.3 为什么不把残差之和作为损失指标 245
4.5.4 术语 残差平方和 246
4.5.5 术语 最小二乘法 247
4.5.6 补充 最小二乘法与优选似然法的关系 247
4.5.7 术语 误差函数 248
4.5.8 多种损失函数 248
4.6 预测精度的评估与变量选择 249
4.6.1 术语 拟合精度与预测精度 249
4.6.2 术语 过拟合 249
4.6.3 变量选择的意义 250
4.6.4 术语 泛化误差 250
4.6.5 术语 训练集与测试集 250
4.6.6 术语 交叉验证 250
4.6.7 术语 赤池信息量准则 251
4.6.8 术语 相对熵 252
4.6.9 最小化相对熵与平均对数似然 252
4.6.10 AIC与平均对数似然中的偏离 253
4.6.11 AIC与交叉验证 254
4.6.12 使用 AIC进行变量选择 254
4.6.13 用变量选择代替假设检验 254
4.6.14 使用假设检验还是 AIC 255
第5章 正态线性模型 257
5.1 含有单个连续型解释变量的模型(一元回归) 258
5.1.1 环境准备 258
5.1.2 实现 读入数据并绘制其图形 259
5.1.3 建模 260
5.1.4 实现 使用 statsmodels实现模型化 261
5.1.5 实现 打印估计结果并检验系数 261
5.1.6 关于 summary函数的输出的说明 263
5.1.7 实现 使用 AIC进行模型选择 264
5.1.8 术语 回归直线 266
5.1.9 实现 用 seaborn绘制回归直线 266
5.1.10 实现 使用模型进行预测 267
5.1.11 实现 获取残差 269
5.1.12 术语 决定系数 270
5.1.13 实现 决定系数 270
5
— 没有更多了 —
以下为对购买帮助不大的评价