数据科学与大数据技术导论
全新正版 极速发货
¥
29.62
5.9折
¥
49.8
全新
仅1件
作者杜小勇
出版社人民邮电出版社
ISBN9787115532978
出版时间2021-02
装帧平装
开本其他
定价49.8元
货号1202298462
上书时间2024-10-01
商品详情
- 品相描述:全新
- 商品描述
-
目录
章数据科学概论1
1.1数据与大数据1
1.2大数据应用案例——从数据到知识,数据思维浅析2
1.2.1数据密集型科学发现3
1.2.2电子商务与推荐技术5
1.2.3网络舆情管理6
1.2.4数据思维7
1.3数据科学与数据科学家7
1.4数据科学与大数据技术课程的内容体系与具体内容11
1.5思考题12
第2章Python语言与数据科学13
2.1Python概述13
2.2Python开发环境配置14
2.3变量、常量和注释16
2.4数据类型16
2.4.1布尔型17
2.4.2整数17
2.4.3浮点数17
2.4.4字符串17
2.4.5列表18
2.4.6元组19
2.4.7字典19
2.5运算符及其优先级、表达式20
2.6程序的基本结构21
2.6.1顺序结构21
2.6.2分支结构22
2.6.3循环结构22
2.6.4编写完整的程序23
2.6.5程序实例:二分查找24
2.7函数以及库函数24
2.8面向对象编程27
2.8.1构造函数28
2.8.2对象的摧毁和垃圾回收28
2.8.3继承28
2.8.4重写28
2.9异常处理29
2.10第三方库和实例29
2.10.1机器学习库scikit-learn简介30
2.10.2深度学习库Keras简介30
2.10.3绘图库matplotlib简介30
2.10.4社交网络与图数据处理库networkX简介31
2.10.5自然语言处理库NLTK简介31
2.10.6pandas库入门31
2.11思考题38
第3章数据分析基础39
3.1数据模型39
3.1.1数组39
3.1.2图42
3.1.3关系模型44
3.1.4时序模型45
3.2数据分析流程与数据生命期45
3.2.1业务理解45
3.2.2数据理解46
3.2.3数据准备46
3.2.4建模46
3.2.5评估47
3.2.6部署47
3.3数据分析的基础方法47
3.3.1描述性分析47
3.3.2诊断性分析48
3.3.3预测性分析48
3.3.4规范分析49
3.4大数据平台49
3.4.1Hadoop49
3.4.2Hive51
3.4.3Mahout52
3.4.4Spark52
3.4.5Storm53
3.4.6Flink53
3.4.7Neo4j54
3.5思考题54
第4章数据可视化55
4.1可视化的定义55
4.2可视化发展历程55
4.3可视化的意义和价值57
4.4数据可视化的流程59
4.5常见可视化图表59
4.5.1柱状图60
4.5.2折线图61
4.5.3饼图61
4.5.4散点图61
4.5.5雷达图61
4.6可视化图表工具62
4.7思考题64
第5章数据分析与计算65
5.1机器学习简介65
5.2分类67
5.2.1支持向量机67
5.2.2决策树70
5.2.3朴素贝叶斯方法72
5.2.4K最近邻(KNN)算法75
5.2.5逻辑斯蒂回归76
5.2.6分类算法的实例77
5.3聚类81
5.3.1K-Means算法81
5.3.2DBSCAN算法83
5.3.3聚类实例85
5.4回归88
5.4.1线性回归与多元线性回归88
5.4.2回归实例90
5.5关联规则分析92
5.5.1关联规则分析92
5.5.2关联规则分析实例95
5.6推荐97
5.6.1基于用户的协同过滤推荐98
5.6.2基于项目的协同过滤推荐100
5.7神经网络与深度学习101
5.7.1神经网络101
5.7.2深度学习104
5.7.3神经网络与深度学习实例112
5.8云计算平台与主流大数据平台119
5.8.1云计算平台119
5.8.2Hadoop大数据处理平台与MapReduce计算模型121
5.8.3Spark大数据处理平台与DAG计算模型128
5.9思考题134
第6章文本分析135
6.1文本分析的背景和意义135
6.2文本表达136
6.2.1单词的局域性表示和分布式表示136
6.2.2基于话题模型的文本表示139
6.2.3基于词嵌入的文本表示139
6.3文本聚类140
6.3.1聚类分析问题描述141
6.3.2常用聚类算法142
6.4文本分类144
6.4.1分类问题定义144
6.4.2主要文本分类方法144
6.5思考题149
第7章数据存储与管理150
7.1数据管理的初级阶段——文件管理150
7.2层次数据库和网状数据库151
7.3关系数据库管理系统153
7.3.1关系数据模型153
7.3.2数据操作154
7.3.3事务处理、并发控制和恢复技术155
7.3.4SQL入门156
7.4NoSQL数据库160
7.4.1CAP理论与NoSQL数据库160
7.4.2KeyValue数据库161
7.4.3ColumnFamily数据库164
7.4.4Document数据库165
7.4.5Graph数据库166
7.5NewSQL及其代表VoltDB167
7.5.1事务的串行执行167
7.5.2通过存储过程存取数据库167
7.5.3数据分区策略考虑尽量避免跨节点数据通信168
7.5.4命令日志与恢复技术168
7.6思考题168
第8章数据采集与集成170
8.1数据采集170
8.1.1数据采集的重要因素171
8.1.2推-拉机制171
8.1.3发布-订阅机制172
8.1.4大数据收集系统172
8.1.5自定义连接器173
8.2信息抽取173
8.2.1信息抽取概述174
8.2.2半结构化数据和非结构化数据174
8.2.3信息抽取的关键技术176
8.3数据清洗178
8.3.1数据清洗的定义及对象178
8.3.2数据清洗原理179
8.3.3数据清洗方法179
8.4数据集成181
8.4.1数据集成概述182
8.4.2数据集成方法183
8.4.3数据集成的数据源异构问题186
8.5思考题188
第9章数据治理189
9.1数据治理的业务驱动力189
9.2数据治理的概念190
9.3数据治理的目标191
9.3.1实现价值191
9.3.2管控风险192
9.4数据治理的要素和框架192
9.4.1人员要素194
9.4.2技术要素196
9.5数据治理的实践201
9.5.1各个业务子系统的建设和数据治理同步推进201
9.5.2建立数据治理的组织机构,确定数据治理战略/政策和标准201
9.5.3规划具体的数据治理任务201
9.5.4开展数据治理工作202
9.5.5数据治理的评价203
9.6大数据时代数据治理的挑战203
9.7思考题204
0章数据科学综合案例205
10.1利用现成分类器对Twitter数据集进行情感分类206
10.2如何自行构造一个文本分类器209
10.3综合实例218
10.4思考题232
参考文献233
内容摘要
本书从数据科学与大数据技术专业学生的门导论性课程的角度出发,全面系统地介绍了数据科学的基本概念和内涵、常见编程语言Python、数据分析方法、大数据技术的框架等知识。本书作为导论性质的教材,目的不在于对某个具体的技术平台进行细致的深入介绍,而是尽量让读者体会整个大数据处理的技术流程,使读者能够掌握大数据技术的整体框架,能够在未来的学习和工作中通过系统化的大数据思维能力为所遇到的问题提供解决思路和方案。本书可作为数据科学与大数据技术、软件工程、计算机科学与技术等专业的大数据导论课程的教材,也可供大数据工程技术人员参考使用。
主编推荐
1.详细介绍数据科学的基本概念和内涵
2.培养读者初步具备用开源工具进行数据分析的能力
3.培训读者了解大数据技术的框架,为今后系统学习打下基础
4.培养读者对大数据分析的兴趣,愿意为从事该领域的工作进一步学习
— 没有更多了 —
以下为对购买帮助不大的评价