前言
当前,数据已成为新型生产要素。发展大数据技术已成为国家战略。数据要素的专业化研究与应用的核心是高端人才。不可否认的是,目前大数据人才在世界范围内仍处于紧缺状态。大数据所具有的规模性、多样性、流动性和价值高等特征,决定了大数据人才必须是复合型人才,需要具备超强的综合能力。大数据的分析与应用,要求大数据人才是多学科交叉型人才,既有数据库和软件等计算机方面的知识,又有应用领域的学科专业知识能力。因此,各高等院校必须进一步改善人才培养模式,修订人才培养方案和课程体系,尝试用多种形式培养跨界型大数据人才。笔者基于国家大数据战略需求,在数据科学与技术的基础上,结合多学科交叉课程体系建设、“新工科”建设,在总结近年来教学、科研及人才培养实践的基础上,组织教学科研一线教师,合力完成了本书。本书为普通高等院校“新工科”创新教育精品课程系列教材、*高等学校机械类专业教学指导委员会推荐教材,是目前唯一的将深度学习与大数据技术相结合的教材。在教材的编写过程中,注重以企业对人才的需求为导向;教材内容兼顾本专业培养目标和学生就业岗位实际,在讲解理论知识的同时,精选了材料大数据、旅游大数据、交通大数据、工业大数据等方面具有代表性的案例进行分析展示。全书共7章。第1章概括介绍了大数据技术的基本概念,主要包括大数据驱动的商业模式、数据的类型、大数据的特点、大数据的获取方式等。第2章介绍了大数据的软硬件架构,主要包括大数据技术基础与软硬件设施、大数据存储与管理技术、大数据的分布式处理平台等。第3章讲解了Python的编程基础,主要包括基本数据类型、控制流程、Numpy/Scipy/Pandas/Matplotlib等相关的数据库介绍。第4章讲解了大数据分析技术,主要包括MapReduce编程基础、文本大数据分析与处理技术、大数据关联分析、相似项的发现、基于大数据的推荐系统、基于大数据的图与网络分析、大数据聚类分析、时空大数据分析、非结构化大数据分析与处理、基于Storm的流数据分析技术等。第5章介绍了基于Spark MLlib/Mahout的大数据机器学习,主要包括机器学习基础、机器学习要解决的问题及评价方法、并行机器学习算法、利用MLlib解决大数据并行分类问题实践、利用Mahout解决大数据推荐优化问题实践等。第6章介绍了基于大数据的深度学习技术与应用,主要包括深度学习基本原理、深度学习典型应用、Keras基础入门以及相应的应用案例等。第7章主要是经典案例的分析,包括材料大数据与材料热导率的预测、旅游大数据分析、交通大数据分析、工业大数据分析、产品创新大数据分析等。本书有如下几方面特色:(1)知识体系合理,语言通俗易懂。本书按照读者的接受度搭建知识体系,内容由浅入深、循序渐进,并尽*大可能地将学术语言转化为让读者容易理解的语言。(2)内容全面,应用性强。本书提供了从大数据概念到Python编程基础,再到机器学习、深度学习的整体架构,并在第7章通过几个经典的案例解析进行了展示。(3)提供了完整的源代码,并提供了训练数据集或其来源。如果数据集是作者制作的,则可通过扫描书中二维码直接获取。如果数据集来源于网站,则通过二维码提供了有效的下载链接。本书由贵州大学省部共建公共大数据国家重点实验室(筹)主任李少波教授、贵州大学杨静副教授编著。李少波、杨静担任本书编写委员会主任,张安思、秦永彬、杨观赐担任本书编写委员会副主任。胡杰、唐向红、陆丰、周鹏、陈艳平、魏宏静、白强、全华凤、李琴、李传江、张森、李想、张钧星等一线教学科研人员任本书编写委员会委员,他们均参与了本书的编写工作。本书既可作为本科生教学用书,又可作为研究生的主要教材,同时也可作为广大工程技术人员及对大数据感兴趣的研究人员的参考书。在本书编写过程中得到了省部共建公共大数据国家重点实验室(筹)学术委员会各位专家的指导,对此表示衷心的感谢。由于时间仓促,且编者水平有限,书中定有错讹和不足之处,恳请广大读者批评指正。
商品简介
本书将围绕大数据技术的基本原理与实践,介绍了大数据获取、存储、分析、数据挖掘和机器学习。内容涵盖以下主题:Hadoop、Mapreduce、关联规则、大规模监督机器学习、数据流、集群、NoSQL系统(Pig、Hive),以及包括推荐系统、Web和安全性的应用程序。第1章重点阐述了大数据驱动的商业模式、技术生态体系,大数据的类型、特点、获取技术。第2章概要介绍了大数据的软硬件架构,包括大数据技术基础与软硬件设施、大数据存储与管理技术、大数据的分布式处理技术平台等,包括MapReduce编程框架原理、Spark结构与原理、基于Storm的大规模数据流的分布式处理技术等。第3章介绍了Python编程基础,包括基本数据类型、基本控制流程、Numpy、Scipy、Pandas等。第4章介绍了大数据分析技术,包括基于MapReduce基础编程、文本大数据分析与处理技术、大数据关联分析、相似项的发现、基于大数据的推荐系统、基于大数据的图与网络分析、大数据聚类分析、时空大数据分析、非结构化大数据分析与处理、基于Storm的流数据分析技术等。第5章介绍了基于SparkMLlib/Mahout的大数据机器学习,包括机器学习基础、典型机器学习问题、机器学习评价方法、并行机器学习算法,并进行了利用MLlib解决大数据并行分类问题、利用Mahout解决大数据推荐优化问题实践。第6章介绍了基于大数据的深度学习技术,包括深度学习基本原理、深度学习典型应用、Keras 基础入门及应用案例。第7章介绍了材料大数据材料热导率预测、旅游大数据分析、交通大数据分析、工业大数据分析、产品创新大数据分析等带代码、数据的案例。本书内容深入浅出,具有很强的理论与实践指导作用,可作为数据科学与技术、人工智能、计算机科学、制造科学、机械工程等学科相关专业的本科生、研究生的教材或课程教学参考书,也是对工程技术人员、科研人员而言非常实用的工具书。
作者简介
贵州大学机械工程学院院长,博士生导师,教授,2005年入选“西部之光”优秀人才,2008年入选贵州省优秀青年科技人才,2009年入选教育部新世纪优秀人才、贵州省省管专家、享受政府特殊津贴专家,2014年评聘为三级教授,入选贵州省首批高层次创新型人才(百层次)。是贵州大学学术学科带头人,机械制造及其自动化、机械电子工程专业博士生导师,中国科学院大学兼职博士生导师。是“十二五”贵州省制造业信息化专家组组长,中国图学学会理事,贵州省装备行业协会常务理事,贵阳军民结合(装备制造)产业技术创新战略联盟副秘书长,贵州省智能电网产业技术创新战略联盟副理事长,贵州省计算机学会常务副理事长,《计算机集成制造系统—CIMS》理事会理事,《中国制造业信息化》、《机械设计与制造工程》理事会常务理事,贵州省服务决策专家智库专家,贵州省青年科技工作者协会常务理事、信息科学与机电工程专业委员会主任委员,贵阳市网络信息安全协会副会长,《计算机集成系统-CIMS》、《四川大学学报(工程科学版)》、《计算机应用》等期刊的审稿人等。已发表论文130余篇,SCI/EI/ISTP收录60余篇次,出版专著2部,译著1部,软件著作权登记8项、专利7件(其中发明3件)。被鉴定为国际优选、国内领先的成果8项。主持国家自然科学基金、国家863计划重点项目、国家科技支撑计划等科研项目30余项。获省部级科技进步二等奖2次、三等奖2次,贵阳市科技进步特等奖1次、二等奖2次、三等奖1次。
目录
第1章大数据技术概览(1)1.1数据发展历史(1)1.2什么是大数据(5)1.3大数据的生命周期(8)第2章Python编程基础(28)2.1基本数据类型(28)2.2基本控制流程(38)2.3Python的面向对象机制(43)2.4Numpy、Scipy和Pandas(47)2.5Matplotlib软件包(56)本章小结(60)习题(60)第3章大数据的软硬件架构(61)3.1大数据技术基础与软硬件设施概述(61)3.2大数据存储与管理技术(65)3.3大数据的分布式处理平台(72)本章小结(88)习题(90)第4章基于Spark MLlib/Mahout的大数据机器学习(91)4.1机器学习基础(91)4.2典型机器学习问题(92)4.3机器学习评价方法(99)4.4并行机器学习算法(102)4.5利用Mahout解决大数据推荐优化问题实践(104)本章小结(107)习题(108)第5章大数据分析技术(109)5.1MapReduce编程基础(109)5.2基于Storm的流数据分析(119)5.3文本大数据分析与处理(128)5.4大数据关联分析(131)5.5相似项的发现(134)5.6基于大数据的推荐技术(138)5.7基于大数据的图与网络分析(142)5.8大数据聚类分析(150)5.9时空大数据分析(158)5.10非结构化大数据分析与处理(164)5.11利用MLlib解决大数据并行分类问题实践(169)本章小结(173)习题(173)第6章大数据流式处理(175)6.1流式处理概述(175)6.2流式处理模型(183)6.3流式处理引擎Apache Spark(190)6.4新一代流式处理引擎 Apach Flink(200)6.5基于Flink的人体生命体征数据分析与告警(218)6.6本章小结(229)6.7习题(230)第7章基于大数据的深度学习技术与应用(231)7.1深度学习基本原理(231)7.2深度学习典型应用(233)7.3Keras基础入门(239)7.4应 用 案 例(241)本章小结(248)习题(248)第8章大数据安全与隐私保护关键技术(250)8.1大数据安全(250)8.1.2大数据时代的隐私安全挑战(251)8.2大数据安全隐私保护(252)8.3大数据安全与隐私保护的关键技术(254)8.3.1匿名化处理技术(255)8.3.2加密存储技术(257)8.3.4访问控制技术(260)8.4大数据安全与隐私保护展望(262)8.4.1网络态势感知:助力大数据发展(262)8.4.2人工智能:为大数据发展护航(263)8.5本章小结(263)习题(264)第9章带代码、数据的案例研究(265)9.1材料大数据与材料热导率预测(265)9.2旅游大数据分析(275)9.3交通大数据分析(284)9.4工业大数据分析(289)9.4.5模型部署及可视化(313)9.5产品创新大数据分析(322)9.6基于医药网站数据的医疗知识图谱(328)9.7车间生产安全监测(337)9.8人工智能安全案例(350)9.9司法大数据分析案例(355)本章小结(382)习题(382)参考文献(383)
内容摘要
本书将围绕大数据技术的基本原理与实践,介绍了大数据获取、存储、分析、数据挖掘和机器学习。内容涵盖以下主题:Hadoop、Mapreduce、关联规则、大规模监督机器学习、数据流、集群、NoSQL系统(Pig、Hive),以及包括推荐系统、Web和安全性的应用程序。第1章重点阐述了大数据驱动的商业模式、技术生态体系,大数据的类型、特点、获取技术。第2章概要介绍了大数据的软硬件架构,包括大数据技术基础与软硬件设施、大数据存储与管理技术、大数据的分布式处理技术平台等,包括MapReduce编程框架原理、Spark结构与原理、基于Storm的大规模数据流的分布式处理技术等。第3章介绍了Python编程基础,包括基本数据类型、基本控制流程、Numpy、Scipy、Pandas等。第4章介绍了大数据分析技术,包括基于MapReduce基础编程、文本大数据分析与处理技术、大数据关联分析、相似项的发现、基于大数据的推荐系统、基于大数据的图与网络分析、大数据聚类分析、时空大数据分析、非结构化大数据分析与处理、基于Storm的流数据分析技术等。第5章介绍了基于SparkMLlib/Mahout的大数据机器学习,包括机器学习基础、典型机器学习问题、机器学习评价方法、并行机器学习算法,并进行了利用MLlib解决大数据并行分类问题、利用Mahout解决大数据推荐优化问题实践。第6章介绍了基于大数据的深度学习技术,包括深度学习基本原理、深度学习典型应用、Keras 基础入门及应用案例。第7章介绍了材料大数据材料热导率预测、旅游大数据分析、交通大数据分析、工业大数据分析、产品创新大数据分析等带代码、数据的案例。本书内容深入浅出,具有很强的理论与实践指导作用,可作为数据科学与技术、人工智能、计算机科学、制造科学、机械工程等学科相关专业的本科生、研究生的教材或课程教学参考书,也是对工程技术人员、科研人员而言非常实用的工具书。
主编推荐
本书内容深入浅出,具有很强的理论与实践指导作用,可作为数据科学与技术、人工智能、计算机科学、制造科学、机械工程等学科相关专业的本科生、研究生的教材或课程教学参考书,也是对工程技术人员、科研人员而言非常实用的工具书。
精彩内容
本书将围绕大数据技术的基本原理与实践,介绍了大数据获取、存储、分析、数据挖掘和机器学习。内容涵盖以下主题:Hadoop、Mapreduce、关联规则、大规模监督机器学习、数据流、集群、NoSQL系统(Pig、Hive),以及包括推荐系统、Web和安全性的应用程序。第1章重点阐述了大数据驱动的商业模式、技术生态体系,大数据的类型、特点、获取技术。第2章概要介绍了大数据的软硬件架构,包括大数据技术基础与软硬件设施、大数据存储与管理技术、大数据的分布式处理技术平台等,包括MapReduce编程框架原理、Spark结构与原理、基于Storm的大规模数据流的分布式处理技术等。第3章介绍了Python编程基础,包括基本数据类型、基本控制流程、Numpy、Scipy、Pandas等。第4章介绍了大数据分析技术,包括基于MapReduce基础编程、文本大数据分析与处理技术、大数据关联分析、相似项的发现、基于大数据的推荐系统、基于大数据的图与网络分析、大数据聚类分析、时空大数据分析、非结构化大数据分析与处理、基于Storm的流数据分析技术等。第5章介绍了基于SparkMLlib/Mahout的大数据机器学习,包括机器学习基础、典型机器学习问题、机器学习评价方法、并行机器学习算法,并进行了利用MLlib解决大数据并行分类问题、利用Mahout解决大数据推荐优化问题实践。第6章介绍了基于大数据的深度学习技术,包括深度学习基本原理、深度学习典型应用、Keras 基础入门及应用案例。第7章介绍了材料大数据材料热导率预测、旅游大数据分析、交通大数据分析、工业大数据分析、产品创新大数据分析等带代码、数据的案例。本书内容深入浅出,具有很强的理论与实践指导作用,可作为数据科学与技术、人工智能、计算机科学、制造科学、机械工程等学科相关专业的本科生、研究生的教材或课程教学参考书,也是对工程技术人员、科研人员而言非常实用的工具书。
以下为对购买帮助不大的评价