消息首页搜索举报

图书条目标准图

基于云计算的数据科学

正版品相完好，套书和多封面版本咨询客服后再下单

22.94 2.3折 98 九品

仅1件

北京东城

认证卖家担保交易快速发货售后保障

作者瓦利阿帕·拉克什曼南著

出版社中国电力出版社

出版时间2020-03

版次1

装帧平装

上书时间2024-05-26

图书-天下的书店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 25小时
好评率暂无

最新上架

多媒体数据库技术及应用 ¥37.79

PHP动态网站开发(第2版) ¥15.20

建筑工程英语（新时代行业英语系列教材） ¥30.61

烹饪、餐饮与接待英语/新时代行业英语系列教材 ¥37.35

国际贸易实务与案例分析（双语版） ¥15.10

磁电层状复合材料的理论建模及其在电流检测中的应用 ¥46.82

学前儿童艺术教育与活动指导 ¥17.22

社会语言学新发展研究 ¥86.98

风雨晴雪走胡同：一个媒体人的北京胡同行脚 ¥53.00

商品详情

品相描述：九品

图书标准信息

作者瓦利阿帕·拉克什曼南著
出版社中国电力出版社
出版时间 2020-03
版次 1
ISBN 9787519840136
定价 98.00元
装帧平装
开本 16开
纸张胶版纸
页数 424页

【内容简介】

在本书中，你将学到：

·使用App Engine应用实现自动化定期数据摄取。

·在Google Data Studio中创建并生成数据仪表板。

·构建实时数据分析管道，实现流式数据分析。

·使用Google BigQuery实现可交互式数据探索。

·在Cloud Dataproc群集上创建贝叶斯模型。

·使用Spark构建逻辑回归机器学习模型。

·使用Cloud Dataflow数据管道计算时间聚合特征。

·使用TensorFlow构建高性能预测模型。

·将你的模型部署为微服务，并且从批处理和实时数据管道中使用它。

【作者简介】

Valliappa Lakshmanan是Google云计算平台专家服务部门的技术主管。他希望将机器学习普及化，让任何人、从任何地方，在无需深入了解统计学、编程知识，也无需购买大量硬件的情况下使用Google云平台提供的卓越架构。

【目录】

前言 1

第 1 章用数据做出更好的决策 9

许多相似的决策 11

数据工程师的角色 12

云计算让数据工程师成为可能 14

云计算使数据科学能力得到倍增 18

用案例研究揭示难解的真相 20

基于概率的决策 21

数据和工具 27

代码入门 28

本章总结 30

第 2 章将数据摄取到云端 31

航空公司准点数据 31

可知性 33

训练 – 服务偏差 34

下载程序 35

数据集属性36

为什么不就地存储数据？ 38

向上扩展 40

水平扩展 42

使用 Colossus 和 Jupiter 让数据存放在原位 44

摄取数据 47

对 Web 表单进行反向工程 48

下载数据集51

数据探索和清理 53

将数据上传到 Google 云端存储 55

每月下载计划 58

使用 Python 摄取数据 61

Flask Web App 68

在 App Engine 上运行 69

确保 URL 的安全 70

计划 Cron 任务 70

本章总结 73

代码实验 74

第 3 章创建引人注目的仪表板 76

使用数据仪表板对模型进行解释 77

为什么要先构建数据仪表板？ 79

准确、忠实于数据且良好的设计 80

将数据加载到 Google Cloud SQL 83

创建 Google Cloud SQL 实例 83

与 Google 云计算平台交互84

控制对 MySQL 的访问 86

创建表 87

向表中填充数据 89

建立第一个模型 90

应急表 91

阈值优化 92

机器学习 93

构建数据仪表板 94

Data Studio 入门 94

创建图表 96

为最终用户添加控件 98

用饼图显示所占比例 100

解释应急表105

本章总结 107

第 4 章流数据：发布和摄取 109

设计事件馈送 109

时间校正 112

Apache Beam/Cloud Dataflow 113

解析机场数据 115

添加时区信息 116

将时间转换为 UTC 117

修正日期 120

创建事件 121

在云中运行数据管道 122

将事件流发布到 Cloud Pub/Sub 126

获取要发布的数据记录 129

对数据记录进行分页 130

构建事件集合 130

发布事件集合 131

实时流式处理 132

Java Dataflow 中的流式数据 133

执行流数据处理 138

使用 BigQuery 分析流式数据 140

实时数据仪表板 141

本章总结 144

第 5 章交互式数据探索 145

探索性数据分析 146

将航班数据加载到 BigQuery 中 148

无服务器列式数据库的优点 148

访问控制 151

联合查询 156

摄取 CSV 文件 158

Cloud Datalab 中的探索性数据分析 164

Jupyter 笔记本 165

Cloud Datalab 166

在 Cloud Datalab 中安装软件包 169

适用于 Google 云计算平台的 Jupyter 魔术命令 170

质量控制 176

反常的数值176

清除异常数据：大数据是不同的 178

不同出发延误条件下的抵达延误 182

概率决策阈值的应用 184

经验概率分布函数 185

答案 187

评估模型 188

随机乱序分组 188

按日期分割189

训练和测试191

本章总结 196

第 6 章 Cloud Dataproc上的贝叶斯分类器 197

MapReduce 和 Hadoop 生态系统 197

MapReduce 的工作原理 198

Apache Hadoop 200

Google Cloud Dataproc200

需要更高级的工具 202

关注任务，而不是集群 204

初始化操作205

使用 Spark SQL 进行量化 206

Cloud Dataproc 上的 Google Cloud Datalab 208

使用 BigQuery 进行独立检查 209

Google Cloud Datalab 中的 Spark SQL 211

直方图均衡化 215

动态调整群集大小 219

使用 Pig 实现贝叶斯分类 222

在 Cloud Dataproc 上运行 Pig 任务 224

将日期限制在训练数据集中 225

决策标准 226

对贝叶斯模型进行评估 229

本章总结 231

第 7 章机器学习：Spark上的逻辑回归 233

逻辑回归 234

Spark 机器学习库 237

开始使用 Spark 机器学习 238

Spark 逻辑回归 239

创建训练数据集 241

处理边界情况 243

创建训练示例 245

训练 246

使用模型进行预测 249

对模型进行评估 250

特征工程 253

实验框架 254

创建保留数据集 257

特性点的选择 258

特征点的缩放和剪切 261

特征转换 263

变量分类 267

可扩展、可重复和实时性 269

本章总结 270

第 8 章时间窗化的聚合特征 272

平均时间的需求 272

Java 中的 Dataflow 274

建立开发环境 275

使用 Beam 过滤数据 276

数据管道的控制选项和文本 I/O 280

在云端运行281

解析为对象283

计算平均时间 286

分组及合并286

并行执行和侧面输入 289

调试 291

BigQueryIO 292

对航班对象进行转换 294

批处理模式下的滑动窗口计算 295

在云端运行297

监控、故障排除和性能调整 299

数据管道的故障排除 301

侧面输入的限制 302

重新设计数据管道 305

删除重复项307

本章总结 310

第 9 章使用TensorFlow的机器学习分类器 312

使用更复杂的模型 313

将数据读入 TensorFlow 317

建立实验 322

线性分类器323

训练和评估的输入函数 325

服务输入函数 326

创建实验 326

执行训练 327

云中的分布式训练 329

对 ML 模型进行改进 331

深度神经网络模型 332

嵌入 335

宽深模型 337

超参数调整341

部署模型 349

使用模型预测 350

对该模型的解释 351

本章总结 353

第 10章实时机器学习 355

调用预测服务 356

用于服务请求和响应的 Java 类357

发送请求并解析响应 359

预测服务的客户端 360

将预测结果添加到航班信息 361

批量输入和输出 361

数据处理管道 363

识别无效的服务响应 364

批量处理服务请求 365

流式数据管道 367

扁平化 PCollections 368

执行流式数据管道 369

延迟的和无序的数据记录 371

水印和触发器 376

事务，吞吐量和延迟 378

几种可选的流式接收器 379

Cloud Bigtable 380

设计表 382

设计行键 383

流式传输至 Cloud Bigtable 384

查询 Cloud Bigtable 中的数据 386

评估模型的性能 387

持续训练的必要性 388

评估管道 389

性能评估 391

边际分布 391

检查模型的行为 393

识别行为变化 396

本章总结 398

全书总结 398

附录有关机器学习数据集中敏感数据的注意事项 401

点击展开点击收起

— 没有更多了 —

基于云计算的数据科学

图书-天下的书店

商品详情

图书标准信息

相关推荐