• 数据分析实战
  • 数据分析实战
  • 数据分析实战
21年品牌 40万+商家 超1.5亿件商品

数据分析实战

40 5.1折 79 九品

仅1件

河北衡水
认证卖家担保交易快速发货售后保障

作者[美]托马兹·卓巴斯(Tomasz Drabas)

出版社机械工业出版社

出版时间2018-06

版次1

装帧其他

货号1-2-3-4A

上书时间2024-10-17

翻阅书库的书店

已实名 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 [美]托马兹·卓巴斯(Tomasz Drabas)
  • 出版社 机械工业出版社
  • 出版时间 2018-06
  • 版次 1
  • ISBN 9787111597797
  • 定价 79.00元
  • 装帧 其他
  • 开本 16开
  • 纸张 胶版纸
【内容简介】
本书分为三大部分。第 一部分会讲授一些实战技巧,用于读取、写入、清洗、格式化、探索与理解数据;第二部分由一些较深入的主题组成,比如分类、聚类和预测等;第三部分介绍更高深的主题,从图论到自然语言处理,到离散选择模型,再到模拟。
【作者简介】
作者简介

托马兹·卓巴斯(Tomasz Drabas)微软数据科学家,致力于解决高维特征空间的问题。他有超过13年的数据分析和数据科学经验:在欧洲、澳大利亚和北美洲三大洲期间,工作领域遍及高新技术、航空、电信、金融和咨询。他曾担任Beyond Analysis Australia的数据分析师和Vodafone Hutchison Australia的高级数据分析师/数据科学家等。
【目录】
Contents  目  录

推荐序

译者序

前言

致谢

关于作者

关于审稿人

第1章 准备数据1

1.1 导论1

1.2 使用Python读写CSV/TSV文件2

1.3 使用Python读写JSON文件6

1.4 使用Python读写Excel文件7

1.5 使用Python读写XML文件10

1.6 使用pandas检索HTML页面13

1.7 存储并检索关系数据库15

1.8 存储并检索MongoDB18

1.9 使用OpenRefine打开并转换数据20

1.10 使用OpenRefine探索数据23

1.11 排重25

1.12 使用正则表达式与GREL清理数据27

1.13 插补缺失值28

1.14 将特征规范化、标准化29

1.15 分级数据30

1.16 编码分类变量32

第2章 探索数据34

2.1 导论34

2.2 生成描述性的统计数据34

2.3 探索特征之间的相关性37

2.4 可视化特征之间的相互作用38

2.5 生成直方图43

2.6 创建多变量的图表46

2.7 数据取样49

2.8 将数据集拆分成训练集、交叉验证集和测试集51

第3章 分类技巧53

3.1 导论53

3.2 测试并比较模型53

3.3 朴素贝叶斯分类器56

3.4 将逻辑回归作为通用分类器使用58

3.5 将支持向量机用作分类引擎61

3.6 使用决策树进行分类65

3.7 使用随机森林预测订阅者69

3.8 使用神经网络对呼叫进行分类72

第4章 聚类技巧79

4.1 导论79

4.2 评估聚类方法的表现79

4.3 用k均值算法聚类数据82

4.4 为k均值算法找到最优的聚类数84

4.5 使用mean shift聚类模型发现聚类90

4.6 使用c均值构建模糊聚类模型91

4.7 使用层次模型聚类数据93

4.8 使用DBSCAN和BIRCH算法发现潜在的订阅者96

第5章 降维99

5.1 导论99

5.2 创建三维散点图,显示主成分99

5.3 使用核PCA降维102

5.4 用主成分分析找到关键因素105

5.5 使用随机PCA在数据中寻找主成分109

5.6 使用线性判别分析提取有用的维度114

5.7 用kNN分类模型给电话分类时使用多种降维技巧117

第6章 回归模型122

6.1 导论122

6.2 识别并解决数据中的多重共线性124

6.3 构建线性回归模型128

6.4 使用OLS预测生产的电量134

6.5 使用CART估算发电厂生产的电量138

6.6 将kNN模型用于回归问题141

6.7 将随机森林模型用于回归分析143

6.8 使用SVM预测发电厂生产的电量145

6.9 训练神经网络,预测发电厂生产的电量151

第7章 时间序列技术154

7.1 导论154

7.2 在Python中如何处理日期对象155

7.3 理解时间序列数据159

7.4 平滑并转换观测值163

7.5 过滤时间序列数据166

7.6 移除趋势和季节性169

7.7 使用ARMA和ARIMA模型预测未来173

第8章 图181

8.1 导论181

8.2 使用NetworkX在Python中处理图对象182

8.3 使用Gephi将图可视化190

8.4 识别信用卡信息被盗的用户200

8.5 识别谁盗窃了信用卡204

第9章 自然语言处理207

9.1 导论207

9.2 从网络读入原始文本208

9.3 标记化和标准化212

9.4 识别词类,处理n-gram,识别命名实体218

9.5 识别文章主题224

9.6 识别句子结构226

9.7 根据评论给影片归类229

第10章 离散选择模型233

10.1 导论233

10.2 准备数据集以估算离散选择模型235

10.3 估算知名的多项Logit模型239

10.4 测试来自无关选项的独立性冲突244

10.5 用巢式Logit模型处理IIA冲突249

10.6 用混合Logit模型处理复杂的替代模式251

第11章 模拟254

11.1 导论254

11.2 使用SimPy模拟加油站的加油过程255

11.3 模拟电动车耗尽电量的场景264

11.4 判断羊群面对群狼时是否有团灭的风险269
点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP