• 基于云计算的数据科学
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

基于云计算的数据科学

25.68 2.6折 98 九品

仅1件

北京昌平
认证卖家担保交易快速发货售后保障

作者瓦利阿帕·拉克什曼南 著

出版社中国电力出版社

出版时间2020-03

版次1

装帧平装

货号A23

上书时间2024-11-07

旧书香书城

十年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九品
图书标准信息
  • 作者 瓦利阿帕·拉克什曼南 著
  • 出版社 中国电力出版社
  • 出版时间 2020-03
  • 版次 1
  • ISBN 9787519840136
  • 定价 98.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 424页
  • 字数 505千字
【内容简介】

在本书中,你将学到:

 

·使用App Engine应用实现自动化定期数据摄取。

 

·在Google Data Studio中创建并生成数据仪表板。

 

·构建实时数据分析管道,实现流式数据分析。

 

·使用Google BigQuery实现可交互式数据探索。

 

·在Cloud Dataproc群集上创建贝叶斯模型。

 

·使用Spark构建逻辑回归机器学习模型。

 

·使用Cloud Dataflow数据管道计算时间聚合特征。

 

·使用TensorFlow构建高性能预测模型。

 

·将你的模型部署为微服务,并且从批处理和实时数据管道中使用它。

 

 

 


【作者简介】

Valliappa Lakshmanan是Google云计算平台专家服务部门的技术主管。他希望将机器学习普及化,让任何人、从任何地方,在无需深入了解统计学、编程知识,也无需购买大量硬件的情况下使用Google云平台提供的卓越架构。

 

 

 


【目录】

目录

 

前言 1 

 

第 1 章 用数据做出更好的决策 9 

 

许多相似的决策 11 

 

数据工程师的角色 12 

 

云计算让数据工程师成为可能 14 

 

云计算使数据科学能力得到倍增 18 

 

用案例研究揭示难解的真相 20 

 

基于概率的决策 21 

 

数据和工具 27 

 

代码入门 28 

 

本章总结 30 

 

第 2 章 将数据摄取到云端 31 

 

航空公司准点数据 31 

 

可知性 33 

 

训练 – 服务偏差 34 

 

下载程序 35 

 

数据集属性36 

 

为什么不就地存储数据? 38 

 

向上扩展 40

 

水平扩展 42 

 

使用 Colossus 和 Jupiter 让数据存放在原位 44 

 

摄取数据 47 

 

对 Web 表单进行反向工程 48 

 

下载数据集51 

 

数据探索和清理 53 

 

将数据上传到 Google 云端存储 55 

 

每月下载计划 58 

 

使用 Python 摄取数据 61 

 

Flask Web App 68 

 

在 App Engine 上运行 69 

 

确保 URL 的安全 70 

 

计划 Cron 任务 70 

 

本章总结 73 

 

代码实验 74 

 

第 3 章 创建引人注目的仪表板 76 

 

使用数据仪表板对模型进行解释 77 

 

为什么要先构建数据仪表板? 79 

 

准确、忠实于数据且良好的设计 80 

 

将数据加载到 Google Cloud SQL 83 

 

创建 Google Cloud SQL 实例 83 

 

与 Google 云计算平台交互84 

 

控制对 MySQL 的访问 86 

 

创建表 87 

 

向表中填充数据 89 

 

建立第一个模型 90 

 

应急表 91 

 

阈值优化 92 

 

机器学习 93 

 

构建数据仪表板 94 

 

Data Studio 入门 94 

 

创建图表 96   

 

为最终用户添加控件 98 

 

用饼图显示所占比例 100 

 

解释应急表105 

 

本章总结 107 

 

第 4 章 流数据:发布和摄取 109 

 

设计事件馈送 109 

 

时间校正 112 

 

Apache Beam/Cloud Dataflow 113 

 

解析机场数据 115 

 

添加时区信息 116 

 

将时间转换为 UTC 117 

 

修正日期 120 

 

创建事件 121 

 

在云中运行数据管道 122 

 

将事件流发布到 Cloud Pub/Sub 126 

 

获取要发布的数据记录 129 

 

对数据记录进行分页 130 

 

构建事件集合 130 

 

发布事件集合 131 

 

实时流式处理 132 

 

Java Dataflow 中的流式数据 133 

 

执行流数据处理 138 

 

使用 BigQuery 分析流式数据 140 

 

实时数据仪表板 141 

 

本章总结 144 

 

第 5 章 交互式数据探索 145 

 

探索性数据分析 146 

 

将航班数据加载到 BigQuery 中 148 

 

无服务器列式数据库的优点 148 

 

访问控制 151 

 

联合查询 156

 

摄取 CSV 文件 158 

 

Cloud Datalab 中的探索性数据分析 164 

 

Jupyter 笔记本 165 

 

Cloud Datalab 166 

 

在 Cloud Datalab 中安装软件包 169 

 

适用于 Google 云计算平台的 Jupyter 魔术命令 170 

 

质量控制 176 

 

反常的数值176 

 

清除异常数据:大数据是不同的 178 

 

不同出发延误条件下的抵达延误 182 

 

概率决策阈值的应用 184 

 

经验概率分布函数 185 

 

答案 187 

 

评估模型 188 

 

随机乱序分组 188 

 

按日期分割189 

 

训练和测试191 

 

本章总结 196 

 

第 6 章 Cloud Dataproc上的 贝叶斯分类器 197 

 

MapReduce 和 Hadoop 生态系统 197 

 

MapReduce 的工作原理 198 

 

Apache Hadoop 200 

 

Google Cloud Dataproc200 

 

需要更高级的工具 202 

 

关注任务,而不是集群 204 

 

初始化操作205 

 

使用 Spark SQL 进行量化 206 

 

Cloud Dataproc 上的 Google Cloud Datalab 208 

 

使用 BigQuery 进行独立检查 209 

 

Google Cloud Datalab 中的 Spark SQL 211

 

直方图均衡化 215 

 

动态调整群集大小 219 

 

使用 Pig 实现贝叶斯分类 222 

 

在 Cloud Dataproc 上运行 Pig 任务 224 

 

将日期限制在训练数据集中 225 

 

决策标准 226 

 

对贝叶斯模型进行评估 229 

 

本章总结 231 

 

第 7 章 机器学习:Spark上的逻辑回归 233 

 

逻辑回归 234

 

 Spark 机器学习库 237 

 

开始使用 Spark 机器学习 238 

 

Spark 逻辑回归 239 

 

创建训练数据集 241 

 

处理边界情况 243 

 

创建训练示例 245 

 

训练 246 

 

使用模型进行预测 249 

 

对模型进行评估 250 

 

特征工程 253 

 

实验框架 254 

 

创建保留数据集 257 

 

特性点的选择 258 

 

特征点的缩放和剪切 261 

 

特征转换 263 

 

变量分类 267 

 

可扩展、可重复和实时性 269 

 

本章总结 270 

 

第 8 章 时间窗化的聚合特征 272 

 

平均时间的需求 272

 

Java 中的 Dataflow 274 

 

建立开发环境 275 

 

使用 Beam 过滤数据 276 

 

数据管道的控制选项和文本 I/O 280 

 

在云端运行281 

 

解析为对象283 

 

计算平均时间 286 

 

分组及合并286 

 

并行执行和侧面输入 289 

 

调试 291 

 

BigQueryIO 292 

 

对航班对象进行转换 294 

 

批处理模式下的滑动窗口计算 295 

 

在云端运行297 

 

监控、故障排除和性能调整 299 

 

数据管道的故障排除 301 

 

侧面输入的限制 302 

 

重新设计数据管道 305 

 

删除重复项307 

 

本章总结 310 

 

第 9 章 使用TensorFlow的 机器学习分类器 312 

 

使用更复杂的模型 313 

 

将数据读入 TensorFlow 317 

 

建立实验 322 

 

线性分类器323 

 

训练和评估的输入函数 325 

 

服务输入函数 326 

 

创建实验 326 

 

执行训练 327 

 

云中的分布式训练 329

 

对 ML 模型进行改进 331 

 

深度神经网络模型 332 

 

嵌入 335 

 

宽深模型 337 

 

超参数调整341 

 

部署模型 349 

 

使用模型预测 350 

 

对该模型的解释 351 

 

本章总结 353 

 

第 10章 实时机器学习 355 

 

调用预测服务 356 

 

用于服务请求和响应的 Java 类357 

 

发送请求并解析响应 359 

 

预测服务的客户端 360 

 

将预测结果添加到航班信息 361 

 

批量输入和输出 361 

 

数据处理管道 363 

 

识别无效的服务响应 364 

 

批量处理服务请求 365 

 

流式数据管道 367 

 

扁平化 PCollections 368 

 

执行流式数据管道 369 

 

延迟的和无序的数据记录 371 

 

水印和触发器 376 

 

事务,吞吐量和延迟 378 

 

几种可选的流式接收器 379 

 

Cloud Bigtable 380 

 

设计表 382 

 

设计行键 383 

 

流式传输至 Cloud Bigtable 384 

 

查询 Cloud Bigtable 中的数据 386

 

评估模型的性能 387 

 

持续训练的必要性 388 

 

评估管道 389 

 

性能评估 391 

 

边际分布 391 

 

检查模型的行为 393 

 

识别行为变化 396 

 

本章总结 398 

 

全书总结 398 

 

附录 有关机器学习数据集中敏感数据的注意事项 401

 


点击展开 点击收起

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP