数据科学与大数据技术导论

塑封消毒正版书套装书为一本

9.3 1.9折 49.8 九品

仅1件

北京丰台

认证卖家担保交易快速发货售后保障

作者杜小勇

出版社人民邮电出版社

出版时间2021-02

版次1

装帧平装

货号有2

上书时间2024-12-19

福宝书店

五年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

突发事件卫生应急培训教材·紧急医学救援 ¥8.00

电磁场与电磁波教学指导书 ¥8.00

工程地质 ¥8.00

信号与系统（第2版） ¥8.00

管理好情绪做一个内心强大的自己（32开平装） ¥8.00

耕读教育十讲 ¥8.00

运动控制系统 ¥8.00

全国普通高等教育师范类精编地理教材：地质与地貌学 ¥8.00

高等院校教材：大学物理（上）（新版） ¥8.00

商品详情

品相描述：九品

商品描述: 二手书不缺页不掉页不影响阅读，部分有笔记划线，没有光盘书签书腰等赠品，套装书为一本。拍下即代表接受该情况描述，不再另做通知，也不接受另外留言备注关于品相的要求。

图书标准信息

作者杜小勇
出版社人民邮电出版社
出版时间 2021-02
版次 1
ISBN 9787115532978
定价 49.80元
装帧平装
开本其他
纸张胶版纸
页数 234页
字数 334千字

【内容简介】: 本书是高校的大数据导论课程教材，清楚地介绍了大数据相关的概念、理论、术语与基础技术，并使用真实连贯的商业案例以及简单的图表，帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”“大数据道路”等课程的教材，也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。
【作者简介】: 杜小勇，中国人民大学信息学院教授，博士生导师。我国著名的数据库专家，曾担任过国家863计划数据库重大专项专家组组长，现为中国计算机学会数据库专业委员会主任。致力于数据库系统核心技术的研发与成果转化，科研成果先后获得过北京市科技进步一等奖，中国计算机学会科学技术一等奖，以及教育部科技进步一等奖等。
【目录】: 第1章数据科学概论　1

1.1　数据与大数据　1

1.2　大数据应用案例——从数据到知识，数据思维浅析　2

1.2.1　数据密集型科学发现　3

1.2.2　电子商务与推荐技术　5

1.2.3　网络舆情管理　6

1.2.4　数据思维　7

1.3　数据科学与数据科学家　7

1.4　数据科学与大数据技术课程的内容体系与具体内容　11

1.5　思考题　12

第2章　Python语言与数据科学　13

2.1　Python概述　13

2.2　Python开发环境配置　14

2.3　变量、常量和注释　16

2.4　数据类型　16

2.4.1　布尔型　17

2.4.2　整数　17

2.4.3　浮点数　17

2.4.4　字符串　17

2.4.5　列表　18

2.4.6　元组　19

2.4.7　字典　19

2.5　运算符及其优先级、表达式　20

2.6　程序的基本结构　21

2.6.1　顺序结构　21

2.6.2　分支结构　22

2.6.3　循环结构　22

2.6.4　编写完整的程序　23

2.6.5　程序实例：二分查找　24

2.7　函数以及库函数　24

2.8　面向对象编程　27

2.8.1　构造函数　28

2.8.2　对象的摧毁和垃圾回收　28

2.8.3　继承　28

2.8.4　重写　28

2.9　异常处理　29

2.10　第三方库和实例　29

2.10.1　机器学习库scikit-learn简介　30

2.10.2　深度学习库Keras简介　30

2.10.3　绘图库matplotlib简介　30

2.10.4　社交网络与图数据处理库networkX简介　31

2.10.5　自然语言处理库NLTK简介　31

2.10.6　pandas库入门　31

2.11　思考题　38

第3章　数据分析基础　39

3.1　数据模型　39

3.1.1　数组　39

3.1.2　图　42

3.1.3　关系模型　44

3.1.4　时序模型　45

3.2　数据分析流程与数据生命期　45

3.2.1　业务理解　45

3.2.2　数据理解　46

3.2.3　数据准备　46

3.2.4　建模　46

3.2.5　评估　47

3.2.6　部署　47

3.3　数据分析的基础方法　47

3.3.1　描述性分析　47

3.3.2　诊断性分析　48

3.3.3　预测性分析　48

3.3.4　规范分析　49

3.4　大数据平台　49

3.4.1　Hadoop　49

3.4.2　Hive　51

3.4.3　Mahout　52

3.4.4　Spark　52

3.4.5　Storm　53

3.4.6　Flink　53

3.4.7　Neo4j　54

3.5　思考题　54

第4章　数据可视化　55

4.1　可视化的定义　55

4.2　可视化发展历程　55

4.3　可视化的意义和价值　57

4.4　数据可视化的流程　59

4.5　常见可视化图表　59

4.5.1　柱状图　60

4.5.2　折线图　61

4.5.3　饼图　61

4.5.4　散点图　61

4.5.5　雷达图　61

4.6　可视化图表工具　62

4.7　思考题　64

第5章　数据分析与计算　65

5.1　机器学习简介　65

5.2　分类　67

5.2.1　支持向量机　67

5.2.2　决策树　70

5.2.3　朴素贝叶斯方法　72

5.2.4　K最近邻（KNN）算法　75

5.2.5　逻辑斯蒂回归　76

5.2.6　分类算法的实例　77

5.3　聚类　81

5.3.1　K-Means算法　81

5.3.2　DBSCAN算法　83

5.3.3　聚类实例　85

5.4　回归　88

5.4.1　线性回归与多元线性回归　88

5.4.2　回归实例　90

5.5　关联规则分析　92

5.5.1　关联规则分析　92

5.5.2　关联规则分析实例　95

5.6　推荐　97

5.6.1　基于用户的协同过滤推荐　98

5.6.2　基于项目的协同过滤推荐　100

5.7　神经网络与深度学习　101

5.7.1　神经网络　101

5.7.2　深度学习　104

5.7.3　神经网络与深度学习实例　112

5.8　云计算平台与主流大数据平台　119

5.8.1　云计算平台　119

5.8.2　Hadoop大数据处理平台与MapReduce计算模型　121

5.8.3　Spark大数据处理平台与DAG计算模型　128

5.9　思考题　134

第6章　文本分析　135

6.1　文本分析的背景和意义　135

6.2　文本表达　136

6.2.1　单词的局域性表示和分布式表示　136

6.2.2　基于话题模型的文本表示　139

6.2.3　基于词嵌入的文本表示　139

6.3　文本聚类　140

6.3.1　聚类分析问题描述　141

6.3.2　常用聚类算法　142

6.4　文本分类　144

6.4.1　分类问题定义　144

6.4.2　主要文本分类方法　144

6.5　思考题　149

第7章　数据存储与管理　150

7.1　数据管理的初级阶段——文件管理　150

7.2　层次数据库和网状数据库　151

7.3　关系数据库管理系统　153

7.3.1　关系数据模型　153

7.3.2　数据操作　154

7.3.3　事务处理、并发控制和恢复技术　155

7.3.4　SQL入门　156

7.4　NoSQL数据库　160

7.4.1　CAP理论与NoSQL数据库　160

7.4.2　Key Value数据库　161

7.4.3　Column Family数据库　164

7.4.4　Document数据库　165

7.4.5　Graph数据库　166

7.5　NewSQL及其代表VoltDB　167

7.5.1　事务的串行执行　167

7.5.2　通过存储过程存取数据库　167

7.5.3　数据分区策略考虑尽量避免跨节点数据通信　168

7.5.4　命令日志与恢复技术　168

7.6　思考题　168

第8章　数据采集与集成　170

8.1　数据采集　170

8.1.1　数据采集的重要因素　171

8.1.2　推-拉机制　171

8.1.3　发布-订阅机制　172

8.1.4　大数据收集系统　172

8.1.5　自定义连接器　173

8.2　信息抽取　173

8.2.1　信息抽取概述　174

8.2.2　半结构化数据和非结构化数据　174

8.2.3　信息抽取的关键技术　176

8.3　数据清洗　178

8.3.1　数据清洗的定义及对象　178

8.3.2　数据清洗原理　179

8.3.3　数据清洗方法　179

8.4　数据集成　181

8.4.1　数据集成概述　182

8.4.2　数据集成方法　183

8.4.3　数据集成的数据源异构问题　186

8.5　思考题　188

第9章　数据治理　189

9.1　数据治理的业务驱动力　189

9.2　数据治理的概念　190

9.3　数据治理的目标　191

9.3.1　实现价值　191

9.3.2　管控风险　192

9.4　数据治理的要素和框架　192

9.4.1　人员要素　194

9.4.2　技术要素　196

9.5　数据治理的实践　201

9.5.1　各个业务子系统的建设和数据治理同步推进　201

9.5.2　建立数据治理的组织机构，确定数据治理战略/政策和标准　201

9.5.3　规划具体的数据治理任务　201

9.5.4　开展数据治理工作　202

9.5.5　数据治理的评价　203

9.6　大数据时代数据治理的挑战　203

9.7　思考题　204

第10章　数据科学综合案例　205

10.1　利用现成分类器对Twitter数据集进行情感分类　206

10.2　如何自行构造一个文本分类器　209

10.3　综合实例　218

10.4　思考题　232

参考文献　233