白话大数据与机器学习
全新正版 极速发货
¥
40.59
5.9折
¥
69
全新
库存7件
作者高扬 等 著
出版社机械工业出版社
ISBN9787111538479
出版时间2016-06
装帧平装
开本16开
定价69元
货号1201319806
上书时间2024-06-17
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
高扬,金山软件西山居资历大数据架构师与大数据专家,有多年编程经验(多年日本和澳洲工作经验)和多年大数据架构设计与数据分析、处理经验,目前负责西山居大数据产品的市场战略。专注于大数据系统架构以及变现研究。擅长数据挖掘、数据建模、关系型数据库应用以及大数据框架HadooD、Spark、Cassandra、PrestoDB等的应用。负责西山居紫霞系统——大数据日志处理系统的系统架构与设计工作。
目录
第1章大数据产业
1.1大数据产业现状
1.2对大数据产业的理解
1.3大数据人才
1.3.1供需失衡
1.3.2人才方向
1.3.3环节和工具
1.3.4门槛障碍
1.4小结
第2章步入数据之门
2.1什么是数据
2.2什么是信息
2.3什么是算法
2.4统计、概率和数据挖掘
2.5什么是商业智能
2.6小结
第3章排列组合与古典概型
3.1排列组合的概念
3.1.1公平的决断——扔硬币
3.1.2非古典概型
3.2排列组合的应用示例
3.2.1双色球彩票
3.2.2购车摇号
3.2.3德州扑克
3.3小结
第4章统计与分布
4.1加和值、平均值和标准差
4.1.1加和值
4.1.2平均值
4.1.3标准差
4.2加权均值
4.2.1混合物定价
4.2.2决策权衡
4.3众数、中位数
4.3.1众数
4.3.2中位数
4.4欧氏距离
4.5曼哈顿距离
4.6同比和环比
4.7抽样
4.8高斯分布
4.9泊松分布
4.10伯努利分布
4.11小结
第5章指标
5.1什么是指标
5.2指标化运营
5.2.1指标的选择
5.2.2指标体系的构建
5.3小结
第6章信息论
6.1信息的定义
6.2信息量
6.2.1信息量的计算
6.2.2信息量的理解
6.3香农公式
6.4熵
6.4.1热力熵
6.4.2信息熵
6.5小结
第7章多维向量空间
7.1向量和维度
7.1.1信息冗余
7.1.2维度
7.2矩阵和矩阵计算
7.3数据立方体
7.4上卷和下钻
7.5小结
第8章回归
8.1线性回归
8.2拟合
8.3残差分析
8.4过拟合
8.5欠拟合
8.6曲线拟合转化为线性拟合
8.7小结
第9章聚类
第10章分类
第11章关联分析
第12章用户画像
第13章推荐算法
第14章文本挖掘
第15章人工神经网络
第16章大数据框架简介
第17章系统架构和调优
第18章数据解读与数据的价值
附录AVMwareWorkstation的安装
附录BCentOS虚拟机的安装方法
附录CPython语言简介
附录DScikit-learn库简介
附录EFANNforPython安装
附录F群众眼中的大数据
写作花絮
参考文献
内容摘要
本书将涵盖以下比较重要的挖掘和分析知识点:概率、统计和分布、多维向量空间、回归、聚类、分类、关联分析、协同过滤、文本挖掘、神经网络。同时,讲解了大数据相关的人才需求、行业情况、大数据变现与产品发布、系统调优等读者需要了解的内容。
精彩内容
Preface?前 言为什么要写这本书不知从何时开始我们已周身没入大数据时代的潮流,不知不觉被卷入了大数据时代。
无论是每天上网看网页、聊QQ、聊微信,或者登录银行、网购、买票,或者出行、投宿,甚至是出入任何公众场合、驾车、用水用电……我们无时无刻不在生产着各种数据。而同时我们也在消费着其他人生产的数据,我们使用的众多家电产品,每一个设计细节都融入了设计者对用户体验数据的调查与分析;我们使用的每一部手机、每一台电脑,每一个部件的产出都融入着多得无法想象的指标数据控制下的生产与监控;我们访问的每一个网页、每一个软件,每一次享受到的贴心的产品改动和服务的升级,无不浸透着无数的数据汇集与精细的分析和反馈。这是一场慢慢到来的、贯穿所有产业的革命,这是一次润物细无声的各行业精耕细作的开端。
不管我们是不是愿意,不管我们有没有意识到,我们现在已经身处大数据时代的奇点,而未来要迎接的是大数据奇点爆炸给我们带来的冲击力。我们需要力量来驾驭浪里的航船,我们需要乘风破浪前进的动力。
在这一次远航中,我们不必担心自己的能力水平无法感知数据这种磅礴之力的气魄,不必担心晦涩难懂的公式定理会让我们感到阻力。
请相信我,这是一本通俗易懂的大数据图书,这是一本轻松愉悦的数据挖掘和机器学习的读本,这是一本没有门槛的机器学习实战手册。让我们一起扬帆远航吧!
本书特色从行为脉络来看,本书基本上是从数据统计、数据指标理解、数据模型、聚类/分类与机器学习、数据应用、大数据框架补充知识,以及扩展讨论这样的角度来层层深入完成的。
这种方式会给读者比较好的带入感,让大家——尤其是不擅长数学的读者降低对大数据与机器学习算法的恐惧感。如果读者朋友对排列组合、统计分布这些基础知识比较了解,完全可以考虑跳过这些部分直接去读后面更感兴趣的内容。
为了调节阅读气氛,我们还尝试加入了一些漫画插图。为了让读者朋友能够更快地进行实践,我们几乎在每一个算法讲解后都配有Python或者SQL语言的实现部分。相信这些能够帮助大家更快、更轻松地阅读本书。
读者对象(1)对大数据感兴趣但是完全不了解的技术人员。
(2)对机器学习和数据挖掘比较感兴趣的技术人员。
(3)大数据初级从业人员。
如何阅读本书本书一共分为18章。
第1章~第5章为入门所需基础知识及对数据指标运营的阐述。
第6章~第10章是对数据挖掘基础知识与算法的介绍。
第11章~第18章为生产应用与高级扩展。
其中,第1章~第15章正文内容,以及第17章、第18章的正文内容由高扬编写。
全书所有的Python代码由卫峥编写与补充整理。
第16章、附录全部由尹会生编写。
全书所有的漫画插画由万娟创作完成。
勘误和支持由于水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你有更多的宝贵意见,欢迎扫描下方的二维码,关注“奇点大数据”微信公众号和我们进行互动讨论。关注大数据尖端技术发展,关注“奇点大数据”。
同时,你也可以通过邮箱77232517@qq.com联系到我,期待能够得到你的真挚反馈,在技术之路上互勉共进。
致谢特别感谢:万娟女士为本书做的漫画插画内容。
万娟女士现任深圳星盘科技有限公司UI设计师,是我在多年工作中遇到过的最敬业的UI设计师之一,在2013年一起合作的过程中给我留下了非常深刻的印象。
她多次参加全国和国际艺术比赛,曾获得全国青少年绘画大赛铜奖,中国–新加坡国际青少年绘画比赛优秀奖,以及全国大学生工业设计大赛三等奖。从小酷爱绘画,理想是开一个属于自己的画室。
她给我留下的最深刻的印象用两个词可以描述:一个词是“敬业”,不管是在过去共事期间的合作,还是在为本书创作插画的过程中,为了保证进度带病坚持创作,都让我非常感动;另一个词是“唯美”,不仅人长得美,作品设计风格也透出现代与时尚的气息。
此外还要对所有支持和关心本书成书的各界朋友表示由衷的感谢:
衷心感谢北京邮电大学软件学院杨谈老师对本书的审校工作。
衷心感谢腾讯公司数据分析师彭瑶女士对本书的审校工作。
衷心感谢重庆工商大学黄辉老师、杨艺老师对本书的大力支持。
衷心感谢机械工业出版社华章公司对本书的支持与帮助。
衷心感谢“奇点大数据”微信群友对本书的关注与支持。
高 扬
— 没有更多了 —
以下为对购买帮助不大的评价