机器学习全解(R语言版)
全新正版 急速发货
¥
39.12
5.6折
¥
69.8
全新
库存12件
作者黄天元
出版社人民邮电出版社
ISBN9787115641465
出版时间2024-07
装帧平装
开本16开
定价69.8元
货号1203306590
上书时间2024-10-30
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
黄天元,复旦大学博士,中国科学院博士后,现任浙江财经大学讲师。热爱数据科学与开源工具,致力于利用数据科学迅速积累行业经验和探索科学
发现。在 CRAN 上维护4个R 语言包(累计下载量破10万),著有《R语言数据高效处理指南》《文本数据挖掘:基于R语言》等图书,并开设知乎专栏《R 语言数据挖掘》。
目录
第 1章 机器学习概论1
1.1 机器学习的概念1
1.2 机器学习的意义2
1.3 机器学习的种类3
1.4 机器学习基本流程3
第 2章 R语言综合基础5
2.1 简易环境配置5
2.2 编程保留符号9
2.3 基本数据类型9
2.3.1 数值型10
2.3.2 逻辑型10
2.3.3 字符型11
2.3.4 因子型11
2.3.5 类型判断与转换12
2.4 常用数据结构12
2.4.1 向量12
2.4.2 矩阵13
2.4.3 列表14
2.4.4 数据框14
2.5 程序流程控制15
2.5.1 选择结构15
2.5.2 循环结构16
2.6 函数使用技巧18
第3章 高效数据操作19
3.1 R数据操作包简介19
3.2 数据读写19
3.3 管道操作符20
3.4 基本操作21
3.4.1 筛选列22
3.4.2 筛选行28
3.4.3 更新34
3.4.4 排序36
3.4.5 汇总40
3.4.6 分组计算41
3.4.7 列的重命名44
3.5 多表连接45
3.6 长宽转换50
3.7 集合运算53
3.8 缺失值处理55
3.9 列表列的运用56
第4章 tidyverse快速入门59
4.1 数据读取(readr)59
4.2 数据整理61
4.2.1 批处理(purrr)61
4.2.2 因子操作(forcats)64
4.2.3 时间操作(lubridate)67
4.2.4 字符串操作(stringr)68
4.2.5 数据框清洗(tibble/dplyr/tidyr)71
4.3 数据可视化(ggplot2)79
第5章 探索性数据分析82
5.1 基本概念介绍82
5.1.1 平均值82
5.1.2 标准差83
5.1.3 极值83
5.1.4 中位数84
5.1.5 相关系数84
5.2 探索工具实践86
5.2.1 vtree86
5.2.2 skimr88
5.2.3 naniar90
第6章 特征工程93
6.1 特征修饰93
6.1.1 归一化93
6.1.2 数据分箱94
6.1.3 缺失值填补101
6.2 特征构造107
6.2.1 构造交互项107
6.2.2 基于降维技术的特征构造108
6.2.3 One-Hot编码110
6.3 特征筛选111
6.3.1 过滤法111
6.3.2 封装法113
6.3.3 嵌入法114
第7章 重采样方法116
7.1 针对模型评估的重采样116
7.1.1 交叉验证116
7.1.2 自举法117
7.2 针对类失衡的重采样117
第8章 模型表现的衡量119
8.1 回归模型的表现衡量119
8.2 分类模型的表现衡量120
第9章 模型选择122
9.1 机器学习模型概览122
9.1.1 线性回归122
9.1.2 K近邻算法(KNN)123
9.1.3 朴素贝叶斯方法123
9.1.4 判别分析124
9.1.5 支持向量机124
9.1.6 人工神经网络125
9.1.7 决策树125
9.1.8 随机森林126
9.1.9 梯度下降法127
9.2 mlr3工作流简介127
9.2.1 环境配置127
9.2.2 任务定义128
9.2.3 学习器选择130
9.2.4 训练与预测131
9.3 基于mlr3的模型筛选134
第 10章 参数调节136
10.1 指定终止搜索条件136
10.2 设置指定参数组合138
10.3 范围内网格搜索139
10.4 范围内随机搜索140
第 11章 模型分析142
11.1 变量重要性评估142
11.2 变量影响作用分析146
11.3 基于个案的可加性归因方法149
第 12章 集成学习152
12.1 集成学习的三种策略152
12.1.1 装袋法简介152
12.1.2 提升法简介152
12.1.3 堆叠法简介153
12.2 基于caret与caretEnsemble框架的集成学习实现153
12.2.1 环境部署153
12.2.2 数据准备153
12.2.3 装袋法154
12.2.4 提升法155
12.2.5 堆叠156
第 13章 实践案例一:基于caret包对泰坦尼克号乘客存活率进行二分类预测161
13.1 工具简介161
13.2 问题背景162
13.3 数据审视162
13.4 特征工程163
13.5 数据划分164
13.6 模型训练165
13.7 模型的预测与评估165
13.8 超参数调节166
第 14章 实践案例二:基于mlr框架对波士顿房价进行回归预测169
14.1 工具简介169
14.2 问题背景169
14.3 数据审视与预处理170
14.4 任务定义174
14.5 建模与调参174
14.6 模型表现比较181
14.7 进一步的参数调节183
14.8 模型解释184
第 15章 实践案例三:基于mlr3框架对皮马印第安人糖尿病数据集进行特征筛选187
15.1 工具简介187
15.2 问题背景187
15.3 去除冗余特征188
15.4 特征重要性排序190
15.5 利用封装法对特征进行筛选191
第 16章 实践案例四:基于tidymodels框架对鸢尾花进行多分类预测193
16.1 工具简介193
16.2 问题背景193
16.3 数据集划分194
16.4 数据预处理195
16.5 指定重采样方法196
16.6 模型定义与调参197
16.7 观察模型在测试集的表现199
内容摘要
机器学习是近年来非常热门的学科,R语言经过一段时间的发展也逐渐成为主流的编程语言之一。本书结合机器学习和R语言,面向机器学习实践,不仅介绍了机器学习和R语言的基础知识,而且介绍了如何借助不同的算法来进行模型分析,以及这些算法在R语言中的实现方式。通过阅读本书,读者可以快速了解机器学习和R语言的推荐知识,掌握机器学习的实现流程。
本书适合程序员、数据分析人员、对算法感兴趣的读者、机器学习领域的从业人员及科研人员阅读。
主编推荐
1.本书系统性地剖析了机器学习的内涵,帮助读者掌握机器学习的核心要义。书中案例的可操作性、可模仿性极好,书中的代码示例易学易上手。
2.本书基于R语言讲解,书中介绍了一系列tidyverse的包,通过流行的R包帮助读者高效率实现机器学习,掌握典型的机器学习算法。
媒体评论
基于R语言讲解机器学习的书并不少见,但是这本书非常值得推荐!原因有三:第一,整本书的内容框架非常好,围绕项目实操讲解理论与实践;第二,可操作性、可模仿性极好,书中的代码示例易学易上手;第三,作者理论功底扎实,将特征工程、重采样、集成学习等前沿方法囊括其中。
——王汉生 北京大学光华管理学院教授,“狗熊会”(数据科学在线学习平台)创始人
这是一本实用的机器学习入门图书,它以 R 语言为工具,系统介绍了机器学习的基本概念、算法和模型应用。本书案例丰富、代码清晰易懂,适合对机器学习感兴趣的初学者和希望提高数据分析技能的专业人士阅读参考。
——范向伟 和鲸科技 CEO
本书通过R语言及其流行的扩展包深入浅出地展现了机器学习的基础知识和实践方法,还通过丰富的示例展现了机器学习的重要主题。推荐数据科学和科研领域的相关读者阅读本书,借此快速了解R语言机器学习的基本方法和框架。
——任坤 微软MVP,R开源社区的积极贡献者,《R语言编程指南》作者
本书基于 R 语言讲解机器学习,极大地简化了建模过程,降低了统计学专业知识的门槛。同时将机器学习中的模型选择、参数调优、模型可解释性、集成学习等重点结合丰富的示例及相应的代码进行生动的讲解,为初学者快速入门机器学习提供了指引。
——张丹 微软MVP,《R的极客理想》系列图书作者
本书在内容编排上不落窠臼,围绕机器学习任务流程进行了深入浅出的归纳演绎,并借助实践案例展示了当下流行的R语言机器学习框架,非常适合对机器学习及R语言编程感兴趣的读者阅读参考!
——张敬信 哈尔滨商业大学副教授,R 语言编程》作者
在人工智能时代,机器学习已成为各领域科学研究人员和数据分析从业者的核心竞争力。黄天元博士的这本作品恰逢其时。本书全面介绍了机器学习的基本知识、R 语言编程的相关技巧、机器学习的主流 R 语言工具包,并辅以多个实际案例,兼顾理论讲解和实践应用,非常值得一读!
——包寒吴霜 华东师范大学心理与认知科学学院助理教授,R包资深开发者
在众多厚重的学术著作中,这本书以其独特的轻薄姿态脱颖而出。黄博士以其精湛的笔触,将机器学习的深邃理论与R语言的实用操作巧妙融合,处处都体现了他的教学智慧和对知识的精准把握。这本书不仅适合初学者快速上手,也适合希望高效掌握机器学习精髓的读者阅读。作为黄天元博士的导师,我为拥有这样杰出的学生而感到骄傲!
——赵斌 复旦大学生命科学学院教授
本书为初学者和进阶者提供了深入了解机器学习的途径。作者以清晰易懂的方式介绍了机器学习的基本概念和常见算法,并结合R语言展开实践,帮助读者无缝衔接理论与实践。这不仅是一本学习机器学习的实用指南,也是一本掌握R语言数据分析技能的宝典。
——赖江山 南京林业大学教授,数量生态学研究中心主任
本书融合了作者对 R 语言的深厚学习经验,通过渐进式的学习路径,由浅入深地引导读者掌握R语言这一强大工具。本书结合学用相长的理念,通过精心设计的章节,辅以丰富的案例、数据和代码示例,使读者在实践中逐步领悟R语言编程和实现机器学习的方法,特此推荐给大家!
——付慧真 浙江大学信息资源管理系副教授
— 没有更多了 —
以下为对购买帮助不大的评价