正版图书 当天发 带塑封 91003139075932160001
¥ 9.9 1.3折 ¥ 79 九五品
仅1件
作者杨旭 著
出版社电子工业出版社
出版时间2016-03
版次1
装帧平装
货号91003139075932160001
上书时间2024-12-01
随着大数据分析方法的发展、分析工具的改进,大数据分析的门槛降低了。基于大数据算法平台,数据分析师们已经不再被数据的“大”所困扰,他们可以轻松地探索大数据,挖掘大数据的价值。
《大数据是这样计算的:XLab实例入门》侧重介绍大数据分析方法和算法的应用,选取了10个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。《大数据是这样计算的:XLab实例入门》的实例都运行在大数据算法平台XLab上。
《大数据是这样计算的:XLab实例入门》适合对大数据分析感兴趣的读者阅读,也可供数据分析师、算法工程师等专业人员参考使用。
杨旭,吉林长春人,2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》。
第1章 入门1
1.1 打开大数据之门1
1.2 接触大数据2
1.3 数据初探索4
1.4 进一步分析10
1.5 训练和预测17
第2章 简介23
2.1 主界面介绍23
2.1.1 工具栏24
2.1.2 数据列表26
2.1.3 窗口管理器28
2.1.4 工作界面28
2.2 数据查看、运行29
2.2.1 文本显示31
2.2.2 复制部分数据31
2.2.3 显示/隐藏列32
2.3 脚本编辑、运行33
2.4 如何获得帮助信息37
2.4.1 查看帮助手册37
2.4.2 界面上的帮助信息38
2.4.3 脚本函数的帮助信息40
2.5 执行SQL语句44
第3章 全球机场信息46
3.1 数据可视化47
3.2 统计分析58
3.3 大中型机场的分析62
3.4 海拔高度排行64
3.5 数据的关联关系68
第4章 股票价格73
4.1 数据处理74
4.2 数据探索78
4.3 数据展开81
4.3.1 组合使用基本函数进行变换83
4.3.2 利用专门函数一步到位84
4.4 各股趋势比较85
4.5 总体趋势87
第5章 标准普尔500指数91
5.1 数据类型转换92
5.2 各指标间的线性关系93
5.3 按时间变化趋势96
5.4 数据对比100
第6章 鸢尾花数据集107
6.1 属性间的关系108
6.2 聚类110
6.2.1 K-Means聚类111
6.2.2 EM聚类120
6.3 二分类数据子集124
6.3.1 使用训练、预测窗体125
6.3.2 调用训练、预测脚本131
第7章 MovieLens数据集136
7.1 数据变换137
7.2 统计138
7.3 排行榜145
7.4 分类排行榜147
7.5 影片关联分析149
7.6 属性扩展157
第8章 汽车评价数据集161
8.1 数据图示化162
8.2 对比分析165
8.3 决策树169
第9章 Twitter数据174
9.1 用户信息分析175
9.2 用户粉丝数量的情况184
9.3 粉丝的情况192
9.4 “粉”与“被粉”197
9.5 信息传播速度204
9.6 哪些用户更重要208
9.6.1 粉丝最多的用户209
9.6.2 用户排名211
第10章 随机数据215
10.1 数据生成215
10.2 计算π值217
10.3 中心极限定理222
第11章 新浪网页数据230
11.1 分词232
11.2 有区分度的单词234
11.3 选择特征235
11.3.1 卡方检验236
11.3.2 信息增益238
11.4 主题模型242
11.4.1 潜在语义分析242
11.4.2 概率潜在语义分析253
11.4.3 LDA模型272
11.5 单词映射为向量289
第12章 2014年阿里巴巴大数据竞赛294
12.1 试题介绍294
12.2 数据296
12.3 思路298
12.3.1 用户和品牌的各种特征298
12.3.2 二分类模型训练300
12.3.3 比赛考核目标301
12.4 计算训练数据集302
12.4.1 原始数据划分303
12.4.2 计算特征304
12.4.3 数据预处理标识304
12.4.4 用户-品牌联合特征308
12.4.5 用户特征313
12.4.6 品牌特征317
12.4.7 整合训练数据的特征322
12.4.8 计算标签323
12.5 二分类模型训练324
12.5.1 正负样本配比324
12.5.2 朴素贝叶斯算法325
12.5.3 逻辑回归算法326
12.5.4 随机森林算法327
12.6 提交预测结果328
— 没有更多了 —
以下为对购买帮助不大的评价