全新正版 极速发货
¥ 42.15 6.1折 ¥ 69 全新
库存3件
作者王伟,刘垚
出版社华东师范大学出版社
ISBN9787576004045
出版时间2021-01
装帧平装
开本16开
定价69元
货号1202296218
上书时间2024-06-07
中国大陆首家迪士尼乐园已于2016年6月在上海盛大开园营业,乐园拥有七大主题园区:米奇大街、奇想花园、探险岛、宝藏湾、明日世界、梦幻世界、玩具总动员;两座主题酒店:上海迪士尼乐园酒店、玩具总动员酒店;一座地铁站:迪士尼站;并有许多全球首发游乐项目。
不太严谨地说,可以把一门导论类课程比之于游览迪士尼的导游。游客可能希望在入门之前,就有熟悉情况的人作一个总的介绍,特别是提醒他哪些是要紧之处,以便游览时心中有底。希望这本关于“数据科学与工程”的导论教材能对读者起到一点这种“导游”的作用。
更重要的是,我们希望通过该教材解决这门课程的知识结构以及核心问题。我们要回答的是:什么是数据科学?什么是数据工程?数据科学与大数据的关系又是什么?如何进行这门课程的实践?诸如此类。在这个大背景下,我们将用建设一门专业基础课程的方式来思考上面这些问题。无论你是老师还是学生,无论你是研究人员还是工程师,无论你是教育者还是实践者,只要你对数据感兴趣,相信都会在这门课程中学到很多你所不知道、同时又有趣的东西。
过去几十年,互联网、云计算和物联网得到了蓬勃发展,信息技术得到极大的普及与应用。未来若干年,数据科学与人工智能将迎来人类有史以来*美妙的春天,一个数据与智能复兴的时代!阿尔法狗围棋赛战胜了人类,这一事件不仅仅是一次人机之间的娱乐活动,它更是开启了一个新的数据科学时代。
本教材定位为数据专业的入门课程教材,为学生搭建起通向“数据科学与工程知识空间”的桥梁和纽带。教材将系统梳理总结数据科学与工程的相关原理、技术和实践案例,帮助学生形成对数据科学与工程知识体系及其应用领域的轮廓性认知,为学生在该领域“深耕细作”奠定基础、指明方向,*终形成数据思维。截至2019年3月,批准了477所高校设立“数据科学与大数据技术”专业,682所职校设立“大数据技术与应用”专业,这种前无古人的做法充满了挑战与机遇。无论如何,数据学科开始像当年的计算机学科一样生根发芽,作为人工智能时代的核心备受瞩目。
然而,作为一门年轻得不能再年轻的学科,数据科学与工程究竟是什么?会发展成为什么样子?它与计算机科学、软件工程、统计学等学科究竟有什么样的区别与联系?现阶段,对这些问题的回答无疑还是有些困难的,就像当年的计算机学科一样。只有在经历了一段长时间的沉淀,以及大量反复的实践后,一个新学科才能真正成为一个强学科。
这本教材以及与之对应课程的目标包括:
●了解数据专业全貌,建立数据思维的意识;
●掌握数据科学与工程的基本内涵和应用模式;
●培养以数据为中心的问题求解能力,系统性地学习数据科学与工程的核心原理与关键技术;
●培养开源开放的精神,建立基于开源工具的数据分析与处理意识,并完成初步的数据编程训练;
●让大家感受到数据与计算的美,数据与计算的愉悦;
●点燃大家对数据专业的热情与兴趣!
*后两点无疑是重要的,也是作为一门导论类课程的核心,是一门卓越课程的*追求。
数据专业作为一个新工科专业(也有少数学校将其归为理科或经管类),工程实训的重要性不言而喻。随着教育技术的发展,大规模的在线实训开始成为可能。为此,在在线实训平台的协助下(感谢KFCoding提供的支持!),本教材所配套的实训课将会贯穿到整个学习过程中。
作为一个交叉性学科,在计算机科学、信息管理、统计学等学科前辈的帮助下,数据学科的知识体系已经有了一个基本的轮廓,但还需要细化、发展和完善,这个是一个学科之所以能够成为一个学科的关键所在。
现阶段,仅从对应的课程来说,我们认为,数据科学与工程是以数据为中心,通过计算思维与数据思维的方法,来理解我们所处的世界(科学),以及对现实问题的求解(工程)。其*重要的思维方式是数据思维,简单来说就是以数据为中心的问题求解。这将是纵贯整本教材*重要的一条线。
教材的整体框架和概要如下所示,总共包括四大部分:数据科学与工程概述、数据与计算的基础设施、数据分析的原理与方法,以及数据应用与社会问题。
这些内容通过五条线贯穿起来:
1. 数据思维:第1章“绪论”介绍了信息文明与数据简史、数据科学与工程的基本内涵、第四范式,以及数据科学与工程的应用;第2章“数据思维与问题求解”介绍问题求解与思维方式、计算思维与数据思维以及相关实例。
2. 数据、计算与基础设施:第3章“数据的模型与结构”介绍了比特与数据、数据的二进制表示、数据的模型、数据的结构;第4章“数据的计算与程序表达”介绍了数据算法、算法分析与局限性、数据结构与算法的关系、计算机编程语言;第5章“计算基础设施”介绍了通用机器的思想、程序是如何执行的、计算机系统结构、云计算与数据中心;第6章“数据的全生命周期管理”介绍了数据采集、数据存储、数据管理、数据计算、数据分析、数据展示;第7章“数据库系统”介绍了数据库的起源与发展、关系数据库、数据仓库与OLAP、数据管理技术新格局、结构化查询语言SQL;第8章“大数据系统”介绍了大数据的基本概念、Hadoop和Spark生态、SQL与Hadoop的组合、大数据系统实例。
3. 分析方法:第9章“数据科学过程”介绍了数据科学过程基础、数据科学工作流;第10章“统计分析的原理”介绍了数据科学的数学基础、概率与统计基础、统计建模;第11章“机器学习方法”介绍了机器学习的发展历史、机器学习的方法、机器学习的*发展;第12章“深度学习”介绍了深度学习的基本概念、深度学习的拓展、深度学习的应用、深度学习的工具;第13章“数据挖掘基础”介绍了数据挖掘的概念、数据挖掘标准流程、数据挖掘的技术、大数据挖掘;第14章“非结构化数据挖掘”介绍了自然语言处理、语音信号处理、图像处理与理解。
4. 应用与社会规范:第15章“数据综合应用”介绍了数据科学与工程在搜索引擎、智能运维、开源数字年报中的综合应用;第16章“数据道德与职业行为准则”介绍了我们处于一个开放的世界、职业规划、数据隐私与社会问题。
5. 开源实践:每个章节中,我们均选取了主流的开源编程语言与软件工具,指导大家充分地在数据上进行实践,主要包括:Python语言、SQL语言、Hadoop、 KNIME工具等。
各个章节的实践内容、实践语言与实践工具如下表所示:
序号(章节)实践内容语言和工具
实践1以Git与Python为中心Git/Python
实践2Python问题求解Python
实践3Python数据结构Python
实践4Python算法Python
实践5基础设施数据采集与分析Python
实践6Python网络爬虫Python
实践7SQL数据处理与分析SQL/MySQL
实践8Hadoop与Spark大数据处理Hadoop/Spark
实践9KNIME数据科学工作流KNIME
实践10Python统计分析Python
实践11Python机器学习Python
实践12Python手写汉字识别Python
实践13Python图像分类Python
实践14Python文本数据挖掘Python
如果上面的某些点能够让你感兴趣,不要犹豫,加入我们,一起来探索数据科学与工程的美妙世界,一起来见证这个代表着未来时代发展的新专业的成长。
科技的源头就是科学,信息技术的发展造就了当下的大数据与数据科学。今天,我们都在义无反顾地拥抱数据,呼唤着数据的视野、数据的思维与数据的想象,这一次,我们将向数据科学与工程寻根究底、理清源流。
我们在每章内容后配套了丰富的习题材料帮助读者进行复习、思考和实践等活动,主要包括下面三个类型的习题材料:
●复习题:帮助读者复习本章的一些基本核心概念,有的从章节内容中基本上就可以找到对应答案,有的则需要读者查找一些课外资料,甚至包括一些开放问题。
●践习题:围绕本章内容,结合对应的编程语言或工具,开展动手实践的活动,动手实践已经成为新工科背景之下课程内容的必要组成部分。
●研习题:阅读所的学术论文,深度调研与本章内容相关的话题,培养读者学术论文阅读与理解的能力,从中也可以找到很多数据科学与工程领域的*前沿内容。
本书在编写过程中,参考和引用了大量国内外的著作、论文和研究报告。由于篇幅有限,本书仅仅列举了主要的参考文献。作者向所有被参考和引用相关文献的作者表示由衷的感谢,他们的辛勤劳动成果为本书提供了丰富的资料。如果有的资料没有查到出处或因疏忽而未列出,请原作者见谅,并请告知我们,以便再版时补上。
衷心感谢华东师范大学出版社和高等教育出版社的工作人员,从本书的策划开始,多次满足我们在书稿上的各种苛刻要求,正是在他们无数次的帮助下,才使本书顺利出版。特别感谢华东师范大学数据科学与工程学院的同仁,大家的帮助和指导使得该书能够按时出版;还要感谢Xlab开放实验室的所有成员,特别是周添一、苏斌、黄立波、范家宽、吴佳洁、杨尚辉、王皓月等同学,他们给本书的编写提供了极大的帮助;同时感谢钱卫宁、周烜、金澈清、高明、陈志云、白玥、朱晴婷和胡文心等老师为本书的审稿工作做出了巨大的贡献。
苏轼在《稼说》一文中提出学习的主张“博观而约取,厚积而薄发”,这是我们多年教育工作的共鸣,其精髓就是勤于积累和精于应用。一个好的教育,是一个灵魂对另一个灵魂的呼唤;一门好的课程,是一个生命对另一个生命的碰撞。
*后,欢迎读者关注我们的公众号(嘉数汇:微信公众号Datahui),获取配套的课件、扩展阅读材料以及实践资料等。
作者
2020年8月于上海
《数据科学与工程导论》围绕数据全生命周期介绍了数据科学与工程的基本理论,具体包括七部分内容:*部分绪论;第二部分大规模数据的采集、加工、管理和数据工程;第三部分数据可视化;第四部分数据分析;第五部分数据应用;第六部分数据科学伦理;第七部分数据科学的高级实现。
*部分 数据科学与工程概述
第1章
绪论
1.1 信息文明与数据简史
1.2 数据科学与工程的基本内涵
1.3 第四范式:数据密集型科学
1.4 数据科学与工程的应用
1.5 实践:以Git与Python为中心
1.6 本章小结
1.7 习题与实践
第2章
数据思维与问题求解
2.1 问题求解与思维方式
2.2 计算思维与数据思维
2.3 计算思维与数据思维实例
2.4 实践:Python问题求解
2.5 本章小结
2.6 习题与实践
第二部分 数据与计算的基础设施
第3章
数据的模型与结构
3.1 比特与数据
3.2 进制与数据表达
3.3 数据的编码与存储
3.4 数据的模型
3.5 数据的结构
3.6 实践:Python数据结构
3.7 本章小结
3.8 习题与实践
第4章
数据的计算与程序表达
4.1 数据的计算
4.2 算法分析
4.3 算法的实例
4.4 计算机编程语言
4.5 实践:Python算法
4.6 本章小结
4.7 习题与实践
第5章
计算基础设施
5.1 数据处理的通用机器
5.2 程序执行过程
5.3 计算机系统结构
5.4 基础设施软件
5.5 云计算与数据中心
5.6 实践:基础设施数据采集与分析
5.7 本章小结
5.8 习题与实践
第6章
数据的全生命周期管理
6.1 数据采集
6.2 数据存储
6.3 数据管理
6.4 数据计算
6.5 数据分析
6.6 数据展示
6.7 实践:Python网络爬虫
6.8 本章小结
6.9 习题与实践
第7章
数据库系统
7.1 数据库的起源与发展
7.2 关系数据库
7.3 数据仓库与OLAP
7.4 SQL语言
7.5 实践:SQL数据处理与分析
7.6 本章小结
7.7 习题与实践
第8章
大数据系统
8.1 大数据的基本概念
8.2 Hadoop和Spark生态
8.3 SQL与Hadoop的组合
8.4 大数据系统的发展与未来
8.5 实践:Hadoop与Spark大数据处理
8.6 本章小结
8.7 习题与实践
第三部分 数据分析的原理与方法
第9章
数据科学过程
9.1 数据科学过程基础
9.2 数据科学工作流
9.3 实践:KNIME数据科学工作流
9.4 本章小结
9.5 习题与实践
第10章
统计分析的原理
10.1 数据科学的数学基础
10.2 概率与统计基础
10.3 统计建模:线性回归模型
10.4 数据分析的工具
10.5 实践:Python统计分析
10.6 本章小结
10.7 习题与实践
第11章
机器学习方法
11.1 机器学习发展历史
11.2 机器学习方法
11.3 机器学习*发展
11.4 经典机器学习算法
11.5 实践:Python机器学习
11.6 本章小结
11.7 习题与实践
第12章
深度学习
12.1 深度学习介绍
12.2 深度学习价值
12.3 误差反向传播算法
12.4 卷积神经网络
12.5 深度学习工具
12.6 实践:Python深度学习——手写汉字识别
12.7 本章小结
12.8 习题与实践
第13章
数据挖掘基础
13.1 初识数据挖掘
13.2 数据挖掘技术
13.3 典型数据挖掘算法
13.4 实践:Python图像分类
13.5 本章小结
13.6 习题与实践
第14章
非结构化数据挖掘
14.1 自然语言处理
14.2 语音信号处理
14.3 图像处理与理解
14.4 实践:Python文本数据挖掘
14.5 本章小结
14.6 习题与实践
第四部分 数据应用与社会问题
第15章
数据综合应用
15.1 搜索引擎
15.2 智能运维
15.3 开源数字年报
15.4 本章小结
15.5 习题与实践
第16章
数据道德与职业行为准则
16.1 开放的世界
16.2 数据科学与工程职业规划
16.3 数据隐私与社会问题
16.4 数据与人工智能伦理
16.5 本章小结
16.6 习题与实践
文献阅读
参考文献
附录
算法 程序列表
第1章 绪论 3
程序1.1 *个Python数据科学程序 36
第2章 数据思维与问题求解 39
程序2.1 递归加法 52
程序2.2 *小值_循环 52
程序2.3 *小值_递归 53
程序2.4 *小值_分治 54
程序2.5 验证帕斯卡的分析 56
程序2.6 估计π值 58
程序2.7 开平方1 “笨办法” 62
程序2.8 开平方2 二分法 63
程序2.9 开平方3 牛顿法 64
程序2.10 开平方4 蒙特卡罗法 66
第3章 数据的模型与结构 71
程序3.1 变量的赋值 97
程序3.2 栈的实现 97
程序3.3 简单树的实现 99
程序3.4 用列表创建简单树 99
程序3.5 二叉树类的定义 99
程序3.6 二叉树中插入左子节点 100
程序3.7 二叉树中插入右子节点 100
程序3.8 获取和设置根值以及获得左右子树 100
第4章 数据的计算与程序表达 103
算法4.1 函数search for X 112
程序4.2 交换变量a和b的值 117
算法4.3 冒泡排序 118
算法4.4 汉诺塔问题的解 120
算法4.5 树排序 124
程序4.6 冒泡排序 130
程序4.7 选择排序 132
程序4.8 插入排序 133
程序4.9 快速排序 135
程序4.10 希尔排序 137
第5章 计算基础设施 138
程序5.1 替换函数1 167
程序5.2 替换函数2 167
程序5.3 替换函数3 167
程序5.4 替换函数4 167
程序5.5 程序性能测试 168
第6章 数据的全生命周期管理 171
程序6.1 散点图 191
程序6.2 网络爬虫 198
程序6.3 绘制散点图 200
程序6.4 绘制正弦、余弦曲线 200
程序6.5 绘制等高线图 201
第7章 数据库系统 204
程序7.1 查询客户总消费额 212
程序7.2 数据库事务 213
程序7.3 创建表 228
程序7.4 SQL查询1 228
程序7.5 SQL查询2 229
程序7.6 SQL查询3 229
程序7.7 SQL查询4 230
程序7.8 SQL查询5 230
程序7.9 SQL查询6 231
程序7.10 SQL分析1 231
程序7.11 SQL分析2 231
程序7.12 SQL分析3 232
程序7.13 SQL分析4 232
程序7.14 SQL分析5 232
第8章 大数据系统 235
程序8.1 map代码 258
程序8.2 reduce代码 258
程序8.3 用Spark进行WordCount 261
第10章 统计分析的原理 296
程序10.1 文本词频统计 323
程序10.2 线性回归模型 325
第11章 机器学习方法 329
程序11.1 损失函数 350
程序11.2 梯度计算函数 350
程序11.3 梯度下降算法 351
第12章 深度学习 359
程序12.1 基于VGG模型的手写汉字识别模型 384
第13章 数据挖掘基础 387
程序13.1 KNN算法模型 413
程序13.2 训练KNN 414
第14章 非结构化数据挖掘 417
程序14.1 词云制作 433
程序14.2 文本分类实践 434
第15章 数据综合应用 445
程序15.1 使用倒排索引的检索处理 455
程序15.2 基于文档和查询关联度的检索 456
程序15.3 基于查询单词的文档和查询关联度的检索 457
程序15.4 基于排序的索引构建 458
程序15.5 基于合并的索引构建 459
— 没有更多了 —
以下为对购买帮助不大的评价