大数据分析与计算9787302485865
正版图书,可开发票,请放心购买。
¥
55.82
6.3折
¥
89
全新
库存4件
作者汤羽,林迪,范爱华,吴薇薇
出版社清华大学出版社
ISBN9787302485865
出版时间2017-09
装帧平装
开本16开
定价89元
货号9136872
上书时间2024-12-14
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
汤羽,博士/教授,上海交通大学工学学士,重庆大学工学硕士,美国Bowie State University计算机科学硕士,美国The George Washington University计算机科学博士。
目录
?目录
?
第1章绪论
?
1.1数据与数据科学
?
1.2大数据概念
?
1.3大数据技术特征
?
参考文献
?
习题
?
第2章大数据计算体系
?
2.1大数据计算架构
?
2.2数据存储系统
?
2.2.1数据清洗与建模
?
2.2.2分布式文件系统
?
2.2.3NoSQL数据库
?
2.2.4统一数据访问接口
?
2.3数据处理平台
?
2.3.1数据分析算法
?
2.3.2计算处理模型
?
2.3.3计算平台与引擎
?
2.4数据应用系统
?
2.4.1大数据应用领域
?
2.4.2大数据解决方案
?
参考文献
?
习题
?
第3章大数据标准与模式
?
3.1大数据标准体系
?
3.2大数据计算模式
?
参考文献
?
习题
?
第4章数据采集方法
?
4.1系统日志采集
?
4.1.1日志采集的目的
?
4.1.2日志采集过程
?
4.2网络数据采集
?
4.2.1网络爬虫工作原理
?
4.2.2网页搜索策略
?
4.2.3网页分析算法
?
4.2.4网络爬虫框架
?
4.3数据采集接口
?
参考文献
?
习题
?
?
?
?
?
?
?
?
第5章数据清洗与规约方法
?
5.1数据预处理研究现状
?
5.1.1数据清洗的研究现状
?
5.1.2数据规约的研究现状
?
5.2数据质量问题分类
?
5.2.1单数据源的问题
?
5.2.2多数据源的问题
?
5.3数据清洗技术
?
5.3.1重复记录清洗
?
5.3.2消除噪声数据
?
5.3.3缺失值清洗
?
5.4数据归约
?
5.4.1维归约
?
5.4.2属性选择
?
5.4.3离散化方法
?
5.5数据清洗工具
?
参考文献
?
习题
?
第6章数据分析算法
?
6.1C4.5算法
?
6.1.1算法描述
?
6.1.2属性选择度量
?
6.1.3其他特征
?
6.2k均值算法
?
6.3支持向量机
?
6.4Apriori算法
?
6.5EM算法
?
6.5.1案例: 估计k个高斯分布的均值
?
6.5.2EM算法步骤
?
6.6PageRank算法
?
6.6.1PageRank的核心思想
?
6.6.2PageRank的计算过程
?
6.7AdaBoost算法
?
6.7.1Boosting算法的发展历史
?
6.7.2AdaBoost算法及其分析
?
6.8k邻近算法
?
6.9朴素贝叶斯
?
6.9.1朴素贝叶斯分类器
?
6.9.2贝叶斯网络
?
6.10分类回归树算法
?
6.10.1建立回归树
?
6.10.2剪枝过程
?
参考文献
?
习题
?
第7章文本读写技术
?
7.1读取文本文件
?
7.1.1读取txt文件
?
7.1.2读取csv文件
?
7.2写入文本文件
?
7.3处理二进制数据
?
7.4数据库的使用
?
7.4.1数据库的连接
?
7.4.2执行SQL语句
?
7.4.3选择和打印
?
7.4.4动态插入
?
7.4.5update操作
?
参考文献
?
习题
?
第8章数据处理技术
?
8.1合并数据集
?
8.1.1索引上的合并
?
8.1.2轴向连接
?
8.1.3合并重叠数据
?
8.2数据转换
?
8.2.1移除重复数据
?
8.2.2利用函数进行数据转换
?
8.2.3替换值
?
8.2.4重命名轴索引
?
8.2.5离散化数据
?
8.2.6检测异常值
?
8.2.7排列和随机采样
?
8.2.8哑变量
?
8.3字符串操作
?
8.3.1内置字符串方法
?
8.3.2正则表达式
?
8.3.3Pandas中矢量化的字符串函数
?
参考文献
?
习题
?
第9章数据分析技术
?
9.1NumPy工具包
?
9.1.1创建数组
?
9.1.2打印数组
?
9.1.3基本运算
?
9.1.4索引、切片和迭代
?
9.1.5形状操作
?
9.1.6复制和视图
?
9.1.7NumPy实用技巧
?
9.2Pandas工具包
?
9.2.1Series
?
9.2.2DataFrame
?
9.3ScikitLearn工具包
?
9.3.1逻辑回归
?
9.3.2朴素贝叶斯
?
9.3.3k邻
?
9.3.4决策树
?
9.3.5支持向量机
?
9.3.6优化算法参数
?
参考文献
?
习题
?
第10章数据可视化技术
?
10.1Matplotlib绘图
?
10.1.1Matplotlib API入门
?
10.1.2Figure和Subplot的画图方法
?
10.1.3调整Subplot周围的间距
?
10.1.4颜色、标记和线型的设置
?
10.1.5刻度、标签和图例
?
10.2Mayavi2绘图
?
10.2.1使用mlab快速绘图
?
10.2.2Mayavi嵌入到界面中
?
10.3其他图形化工具
?
参考文献
?
习题
?
第11章Hadoop生态系统
?
11.1Hadoop系统架构
?
11.2HDFS分布式文件系统
?
11.2.1HDFS体系结构
?
11.2.2HDFS存储结构
?
11.2.3数据容错与恢复
?
11.2.4Hadoop/HDFS安装
?
11.3分布式存储架构
?
11.3.1HBase系统架构
?
11.3.2数据模型与存储模式
?
11.3.3HBase数据读写
?
11.3.4数据仓库工具Hive
?
11.3.5HBase安装与配置
?
11.4HBase索引与检索
?
11.4.1二次索引表机制
?
11.4.2二次索引技术方案
?
11.5资源管理与作业调度
?
11.5.1分布式协同管理组件ZooKeeper
?
11.5.2作业调度与工作流引擎Oozie
?
11.5.3集群资源管理框架YARN
?
参考文献
?
习题
?
第12章MapReduce计算模型
?
12.1分布式并行计算系统
?
12.2MapReduce计算架构
?
12.3键值对与输入格式
?
12.4映射与化简
?
12.5应用编程接口
?
参考文献
?
习题
?
第13章图并行计算框架
?
13.1图基本概念
?
13.2BSP模型
?
13.3Pregel图计算引擎
?
13.4Hama开源框架
?
13.5应用编程接口
?
参考文献
?
习题
?
第14章交互式计算模式
?
14.1数据模型
?
14.2存储结构
?
14.3并行查询
?
14.4开源实现
?
参考文献
?
习题
?
第15章流计算系统
?
15.1流计算模型
?
15.2Storm计算架构
?
15.3工作机制实现
?
15.4Storm编程接口
?
参考文献
?
习题
?
第16章内存计算模式
?
16.1分布式缓存体系
?
16.2内存数据库
?
16.3内存云MemCloud
?
16.4Spark内存计算
?
参考文献
?
习题
?
第17章基于医疗数据的临床决策分析应用
?
17.1国内外研究现状及发展动态分析
?
17.2技术路线和方案
?
参考文献
?
习题
?
第18章基于医保数据的预测分析应用
?
18.1数据准备阶段
?
18.2模型变量选择和转换
?
18.2.1模型变量的选择
?
18.2.2模型变量的转换
?
18.2.3筛选模型变量
?
18.3建模过程
?
18.4模型效果
?
参考文献
?
习题
?
第19章互联网电商数据的分析应用
?
19.1电商流程管理分析
?
19.1.1行业背景与业务问题
?
19.1.2分析方法与过程
?
19.2用户消费行为分析
?
19.2.1业务问题
?
19.2.2分析方法与过程
?
19.3送货速度相关性分析
?
19.3.1业务问题
?
19.3.2分析方法与过程
?
19.4总结
?
参考文献
?
习题
?
第20章金融和经济数据的分析应用
?
20.1企业对创新经济活动推动的影响分析
?
20.1.1案例背景
?
20.1.2分析方法与过程
?
20.2信贷风险模型评估
?
20.3中小能源型企业的信用评价分析
?
20.3.1案例背景
?
20.3.2分析方法与过程
?
20.3.3分析结果
?
参考文献
?
习题
?
内容摘要
大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是最新的前沿领域,其中,大数据计算分析提供了核心的技术支撑。本书从大数据计算系统的三个层次对数据模型、处理算法、计算模型与架构、开发技术标准等内容进行了综合性的介绍,重点阐述了各类数据分析算法和MapReduce,图并行计算,交互式处理,流计算,内存计算等计算架构。本书适合作为数据科学与大数据计算技术、计算机科学与技术、互联网应用系统、物联网工程等专业相关课程的教材。
主编推荐
1)对大数据计算的标准、模型、计算架构、开发技术体系做了一个较完整的论述和总结,适宜于作为计算机和软件工程专业课程或研究生课程的教材; 2)本书也对大数据计算架构和开发平台及技术进行了论述,给出了相关领域的工程案例,也可作为IT技术人士的专业参考书。
精彩内容
大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是*的前沿领域,其中,大数据计算分析提供了核心的技术支撑。本书从大数据计算系统的三个层次对数据模型、处理算法、计算模型与架构、开发技术标准等内容进行了综合性的介绍,重点阐述了各类数据分析算法和MapReduce,图并行计算,交互式处理,流计算,内存计算等计算架构。本书适合作为数据科学与大数据计算技术、计算机科学与技术、互联网应用系统、物联网工程等专业相关课程的教材。
— 没有更多了 —
以下为对购买帮助不大的评价