大数据技术
¥
14.27
2.4折
¥
59
九五品
仅1件
作者曹洁,孙玉胜
出版社清华大学出版社
ISBN9787302553632
出版时间2020-08
版次1
装帧平装
开本16开
纸张胶版纸
定价59元
上书时间2024-05-08
商品详情
- 品相描述:九五品
- 商品描述
-
基本信息
书名:大数据技术
定价:59.00元
作者:曹洁,孙玉胜
出版社:清华大学出版社
出版日期:2020-08-01
ISBN:9787302553632
字数:
页码:
版次:
装帧:平装
开本:16开
商品重量:
编辑推荐
■ 从大数据处理相关技术基础入手,循序渐进讲解大数据处理相关技术。 ■ 注重原理与技术相结合,力求对大数据处理技术给出理论上的解释。 ■ 注重理论与实践相结合,对涉及的大数据处理理论给出对应的操作示例。
内容提要
本书系统地讲解了大数据处理常用技术,具体包括大数据处理架构Hadoop、分布式文件系统HDFS、MapReduce编程模型、分布式数据库Hbase、NoSQL数据库、Spark分布式内存计算、MapReduce应用开发、Spark SQL编程、数据可视化。本书编写特色理论与具体操作相结合,较低基础入门大数据技术。读者对象是本科、专科或研究生大数据技术课程教材,大数据技术爱好者,其他对大数据技术感兴趣的人员。
目录
章大数据概述11.1大数据的基本概念11.1.1大数据的定义11.1.2大数据的特征11.2大数据技术21.2.1数据采集技术21.2.2数据预处理技术31.2.3云计算技术31.2.4分布式处理技术61.2.5数据存储技术61.3大数据计算模式与典型系统71.3.1批处理计算模式与典型系统71.3.2流式计算模式与典型系统71.3.3迭代计算模式与典型系统81.3.4图计算模式与典型系统81.3.5内存计算模式与典型系统81.4习题8第2章大数据软件基础92.1Linux基础92.1.1命令格式92.1.2用户管理102.1.3文件操作122.1.4目录操作152.1.5文件压缩和解压缩命令172.1.6安装和卸载软件182.1.7主机名更改192.2Java语言基础202.2.1基本数据类型202.2.2主类结构212.2.3定义类242.2.4类的实例化262.2.5包282.2.6常用实用类312.3SQL基础332.4在VirtualBox上安装虚拟机342.4.1Master节点的安装342.4.2复制虚拟机412.5习题45大数据技术(微课版)目录第3章Hadoop大数据处理架构463.1Hadoop概述463.1.1Hadoop简介463.1.2Hadoop特性463.2Hadoop生态系统473.2.1Hadoop分布式文件系统473.2.2MapReduce分布式计算模型483.2.3Hive数据仓库493.2.4HBase分布式数据库493.2.5Zookeeper分布式协调服务493.2.6Sqoop数据导入导出工具503.2.7Pig数据分析503.2.8Mahout数据挖掘算法库503.2.9Flume日志收集工具513.2.10Oozie作业流调度系统513.2.11Spark分布式内存计算513.2.12Tez有向无环图计算523.2.13Storm流数据处理523.3Hadoop的安装与使用533.3.1安装Hadoop前的准备工作533.3.2下载Hadoop安装文件553.3.3Hadoop单机模式配置563.3.4Hadoop伪分布式模式配置563.3.5Hadoop分布式模式配置603.4习题69第4章Hadoop分布式文件系统704.1分布式文件系统的结构704.1.1主控服务器714.1.2数据服务器724.1.3客户端734.2HDFS的基本特征734.3HDFS存储架构及组件功能744.3.1HDFS存储架构744.3.2数据块744.3.3数据节点754.3.4名称节点764.3.5第二名称节点774.3.6心跳消息774.3.7客户端774.4HDFS文件读写流程774.4.1HDFS读文件流程784.4.2HDFS写文件流程794.5HDFS的Shell操作804.5.1查看命令使用方法804.5.2HDFS常用的Shell操作814.5.3HDFS管理员命令864.5.4HDFS的Java API操作864.5.5利用HDFS的Web管理页面874.6HDFS编程实践874.6.1安装eclipse884.6.2在eclipse中创建项目894.6.3为项目添加需要用到的JAR包904.6.4编写Java应用程序924.6.5编译运行程序944.6.6应用程序的部署954.7习题97第5章MapReduce分布式计算框架995.1MapReduce概述995.1.1并发、并行与分布式编程的概念995.1.2MapReduce并行编程模型1005.1.3Map函数和Reduce函数1005.2MapReduce的工作原理1015.2.1MapReduce的体系架构1015.2.2MapTask的工作原理1035.2.3ReduceTask的工作原理1045.3MapReduce编程类1055.3.1InputFormat输入格式类1055.3.2Mapper基类1105.3.3Combiner合并类1125.3.4Partitioner分区类1125.3.5Sort排序类1135.3.6Reducer类1135.3.7输出格式类OutputFormat1165.4MapReduce经典案例1175.4.1WordCount执行流程示例1175.4.2WordCount具体实现1195.4.3使用eclipse编译运行词频统计程序1245.5习题129第6章HBase分布式数据库1306.1HBase概述1306.1.1HBase的技术特点1306.1.2HBase与传统关系数据库的区别1306.1.3HBase与Hadoop中其他组件的关系1316.2HBase系统架构和访问接口1326.2.1HBase系统架构1326.2.2ROOT表和.META.表1356.2.3HBase访问接口1376.3HBase数据表1386.3.1HBase数据表逻辑视图1386.3.2HBase数据表物理视图1406.3.3HBase数据表面向列的存储1416.3.4HBase数据表的查询方式1426.3.5HBase表结构设计1436.4HBase安装1436.4.1下载安装文件1436.4.2配置环境变量1436.4.3添加用户权限1446.4.4查看HBase版本信息1446.5HBase配置1456.5.1单机运行模式配置1456.5.2伪分布式运行模式配置1466.6HBase常用Shell命令1486.6.1基本命令1496.6.2创建表1506.6.3插入与更新表中的数据1526.6.4查看表中的数据1526.6.5删除表中的数据1546.6.6表的启用/禁用1556.6.7修改表结构1556.6.8删除HBase表1566.7常用的Java API1566.7.1HBase数据库管理API1566.7.2HBase数据库表API1576.7.3HBase数据库表行列API1596.8HBase编程1616.8.1在eclipse中创建项目1616.8.2添加项目需要用到的JAR包1626.8.3编写Java应用程序1636.8.4编译运行程序1666.9习题167第7章NoSQL数据库1687.1NoSQL数据库概述1687.1.1NoSQL数据库兴起的原因1687.1.2NoSQL数据库的特点1697.2“键值”数据库1697.2.1Redis安装1707.2.2Redis数据库的特点1717.2.3Redis数据库的基本数据类型1717.3列族数据库1777.4文档数据库1777.4.1MongoDB简介1777.4.2MongoDB下载与安装1777.4.3MongoDB文档操作1817.4.4MongoDB集合操作1857.4.5MongoDB数据库操作1867.4.6MongoDB数据类型1877.5图数据库1887.5.1下载和安装Neo4j1897.5.2Neo4j的启动和停止1897.5.3Neo4j的CQL操作1917.5.4在Neo4j浏览器中创建节点和关系1947.6习题196第8章Scala基础编程1978.1Scala特性1978.2Scala安装1988.2.1用IntelliJ IDEA搭建Scala开发环境1988.2.2用scala.msi搭建Scala开发环境2028.3Scala数据类型2038.4Scala常量和变量2048.4.1常量2048.4.2变量2058.5Scala数组、列表、集合和映射2058.5.1定长数组2068.5.2变长数组2088.5.3列表2098.5.4集合2108.5.5映射2118.6Scala控制结构2128.6.1条件表达式2128.6.2if…else选择结构2138.6.3编写Scala脚本2138.6.4循环2148.7Scala函数2158.7.1函数定义2158.7.2匿名函数2168.7.3高阶函数2178.8Scala类2178.9Scala读写文件2188.10习题219第9章Python基础编程2209.1Python安装2209.2Python代码编写方式2219.2.1用带图形界面的Python Shell编写交互式代码2219.2.2用带图形界面的Python Shell编写程序代码2219.3Python对象和引用2229.3.1对象的身份2239.3.2对象的类型2239.3.3对象的值2239.3.4对象的引用2239.4Python基本数据类型2249.4.1数值数据类型2249.4.2字符串数据类型2259.4.3列表数据类型2319.4.4元组数据类型2369.4.5字典数据类型2389.4.6集合数据类型2429.4.7Python数据类型之间的转换2449.5Python中的数据输入2449.6Python中的数据输出2459.6.1表达式语句输出2459.6.2print函数输出2459.6.3字符串对象的format方法的格式化输出2479.7Python中文件的基本操作2489.8选择结构2499.8.1选择语句2499.8.2条件表达式2509.9循环结构2509.9.1while循环2509.9.2for循环2519.9.3循环中的break、continue和else2529.10函数2529.10.1定义函数2529.10.2函数调用2539.11类2559.11.1定义类2559.11.2创建类的对象2569.12习题2570章Spark分布式内存计算25810.1Spark概述25810.1.1Spark产生背景25810.1.2Spark的优点25910.1.3Spark应用场景25910.1.4Spark生态系统26110.2Spark的安装及配置26110.2.1Spark安装的基础环境26110.2.2下载安装文件26210.2.3单机模式配置26210.2.4伪分布式模式配置26310.3使用Spark Shell编写Scala代码26410.3.1启动Spark Shell26510.3.2退出Spark Shell26610.4Spark核心数据结构RDD26610.4.1RDD创建26610.4.2RDD操作26810.4.3RDD属性27510.4.4RDD持久化27710.5Spark运行机制27810.5.1Spark基本概念27810.5.2Spark运行架构28110.5.3Spark应用执行基本流程28210.6使用Scala语言编写Spark应用程序28310.6.1安装t28310.6.2编写词频统计Scala应用程序28410.6.3用t打包Scala应用程序28510.6.4通过sparksubmit运行程序28610.7使用Python语言编写Spark应用程序28610.7.1SparkContext28710.7.2pyspark对RDD的转换操作28910.7.3pyspark对RDD的行动操作29010.8习题2921章Spark SQL编程29311.1Spark SQL概述29311.2Spark SQL与Shell交互29311.3DataFrame对象的创建29411.3.1使用parquet格式文件创建DataFrame29411.3.2使用JSON数据文件创建DataFrame29511.3.3使用RDD创建DataFrame29611.4DataFrame对象上的常用操作29611.4.1内容查看29711.4.2过滤29911.4.3分组与聚合29911.4.4获取所有数据到数组29911.4.5获取所有数据到列表30011.4.6获取指定字段的统计信息30011.5习题3002章数据可视化30112.1Tableau绘图30112.1.1Tableau的主要特性30112.1.2Tableau工作表工作区30212.1.3Tableau仪表板工作区30712.1.4Tableau故事工作区30812.1.5Tableau菜单栏31012.1.6Tableau可视化与数据分析举例31112.2ECharts绘图31212.2.1ECharts的特点31212.2.2ECharts环境搭建31312.2.3使用Dreamweaver 8创建网页31312.2.4使用Echarts绘制折线图31412.2.5使用Echarts绘制柱状图31812.2.6使用Echarts绘制饼图32012.2.7使用Echarts绘制雷达图32212.3PyeCharts绘图32412.3.1绘制柱状图32512.3.2绘制折线图32712.3.3绘制饼图32912.3.4绘制雷达图33012.3.5绘制漏斗图33112.3.6绘制3D立体图33212.3.7绘制词云图33312.4习题334参考文献335
作者介绍
曹洁:男,郑州轻工业大学副教授,同济大学博士毕业。研究方向:数据分析、机器学习、并行分布式处理。近年在软件学报、电子学报、计算机研究与发展、通信学报等刊物上发表10余篇论文。
序言
— 没有更多了 —
以下为对购买帮助不大的评价