消息首页搜索举报

基于云算的据科学

22.54 2.3折 98 全新

库存20件

北京房山

认证卖家担保交易快速发货售后保障

作者Valliappa Lakshmanan著

出版社中国电力出版社

ISBN9787519840136

出版时间2020-01

装帧平装

开本其他

定价98元

货号9753085

上书时间2024-12-05

鸿运图书专营店

十年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 7小时
好评率暂无

最新上架

农民合作社功能实现途径研究 ¥13.34

柴金·微国学 ¥68.00

SAT阅读进阶攻略 ¥23.18

中华医学百科全书.临床医学-血液病学 ¥289.60

服务装备制造业“走出去”职业教育人才培养模式创新与实践 ¥34.30

外资对本土企业单位劳动成本影响研究:以中国制造业企业为例 ¥39.00

中国城市流通竞争力报告:2017-2018:2017-2018 ¥43.12

新手主管轻松带人 ¥20.65

秦声秦韵剧目诠释 ¥75.60

商品详情

品相描述：全新

商品描述: 目录

目录

前言 1

第 1 章用数据做出更好的决策 9

许多相似的决策 11

数据工程师的角色 12

云计算让数据工程师成为可能 14

云计算使数据科学能力得到倍增 18

用案例研究揭示难解的真相 20

基于概率的决策 21

数据和工具 27

代码入门 28

本章总结 30

第 2 章将数据摄取到云端 31

航空公司准点数据 31

可知性 33

训练 – 服务偏差 34

程序 35

数据集属性36

为什么不就地存储数据？ 38

向上扩展 40

水平扩展 42

使用 Colossus 和 Jupiter 让数据存放在原位 44

摄取数据 47

对 Web 表单进行反向工程 48

数据集51

数据探索和清理 53

将数据上传到 Google 云端存储 55

每月计划 58

使用 Python 摄取数据 61

Flask Web App 68

在 App Engine 上运行 69

确保 URL 的安全 70

计划 Cron 任务 70

本章总结 73

代码实验 74

第 3 章创建引人注目的仪表板 76

使用数据仪表板对模型进行解释 77

为什么要先构建数据仪表板？ 79

准确、忠实于数据且良好的设计 80

将数据加载到 Google Cloud SQL 83

创建 Google Cloud SQL 实例 83

与 Google 云计算平台交互84

控制对 MySQL 的访问 86

创建表 87

向表中填充数据 89

建立第一个模型 90

应急表 91

阈值优化 92

机器学习 93

构建数据仪表板 94

Data Studio 入门 94

创建图表 96

为用户添加控件 98

用饼图显示所占比例 100

解释应急表105

本章总结 107

第 4 章流数据：发布和摄取 109

设计事件馈送 109

时间校正 112

Apache Beam/Cloud Dataflow 113

解析机场数据 115

添加时区信息 116

将时间转换为 UTC 117

修正日期 120

创建事件 121

在云中运行数据管道 122

将事件流发布到 Cloud Pub/Sub 126

获取要发布的数据记录 129

对数据记录进行分页 130

构建事件集合 130

发布事件集合 131

实时流式处理 132

Java Dataflow 中的流式数据 133

执行流数据处理 138

使用 BigQuery 分析流式数据 140

实时数据仪表板 141

本章总结 144

第 5 章交互式数据探索 145

探索性数据分析 146

将航班数据加载到 BigQuery 中 148

无服务器列式数据库的优点 148

访问控制 151

联合查询 156

摄取 CSV 文件 158

Cloud Datalab 中的探索性数据分析 164

Jupyter 笔记本 165

Cloud Datalab 166

在 Cloud Datalab 中安装软件包 169

适用于 Google 云计算平台的 Jupyter 魔术命令 170

质量控制 176

反常的数值176

清除异常数据：大数据是不同的 178

不同出发延误条件下的抵达延误 182

概率决策阈值的应用 184

经验概率分布函数 185

答案 187

评估模型 188

随机乱序分组 188

按日期分割189

训练和测试191

本章总结 196

第 6 章 Cloud Dataproc上的贝叶斯分类器 197

MapReduce 和 Hadoop 生态系统 197

MapReduce 的工作原理 198

Apache Hadoop 200

Google Cloud Dataproc200

需要更的工具 202

关注任务，而不是集群 204

初始化操作205

使用 Spark SQL 进行量化 206

Cloud Dataproc 上的 Google Cloud Datalab 208

使用 BigQuery 进行独立检查 209

Google Cloud Datalab 中的 Spark SQL 211

直方图均衡化 215

动态调整群集大小 219

使用 Pig 实现贝叶斯分类 222

在 Cloud Dataproc 上运行 Pig 任务 224

将日期限制在训练数据集中 225

决策标准 226

对贝叶斯模型进行评估 229

本章总结 231

第 7 章机器学习：Spark上的逻辑回归 233

逻辑回归 234

Spark 机器学习库 237

开始使用 Spark 机器学习 238

Spark 逻辑回归 239

创建训练数据集 241

处理边界情况 243

创建训练示例 245

训练 246

使用模型进行预测 249

对模型进行评估 250

特征工程 253

实验框架 254

创建保留数据集 257

特性点的选择 258

特征点的缩放和剪切 261

特征转换 263

变量分类 267

可扩展、可重复和实时性 269

本章总结 270

第 8 章时间窗化的聚合特征 272

平均时间的需求 272

Java 中的 Dataflow 274

建立开发环境 275

使用 Beam 过滤数据 276

数据管道的控制选项和文本 I/O 280

在云端运行281

解析为对象283

计算平均时间 286

分组及合并286

并行执行和侧面输入 289

调试 291

BigQueryIO 292

对航班对象进行转换 294

批处理模式下的滑动窗口计算 295

在云端运行297

监控、故障排除和性能调整 299

数据管道的故障排除 301

侧面输入的限制 302

重新设计数据管道 305

删除重复项307

本章总结 310

第 9 章使用TensorFlow的机器学习分类器 312

使用更复杂的模型 313

将数据读入 TensorFlow 317

建立实验 322

线性分类器323

训练和评估的输入函数 325

服务输入函数 326

创建实验 326

执行训练 327

云中的分布式训练 329

对 ML 模型进行改进 331

深度神经网络模型 332

嵌入 335

宽深模型 337

超参数调整341

部署模型 349

使用模型预测 350

对该模型的解释 351

本章总结 353

第 10章实时机器学习 355

调用预测服务 356

用于服务请求和响应的 Java 类357

发送请求并解析响应 359

预测服务的客户端 360

将预测结果添加到航班信息 361

批量输入和输出 361

数据处理管道 363

识别无效的服务响应 364

批量处理服务请求 365

流式数据管道 367

扁平化 PCollections 368

执行流式数据管道 369

延迟的和无序的数据记录 371

水印和触发器 376

事务，吞吐量和延迟 378

几种可选的流式接收器 379

Cloud Bigtable 380

设计表 382

设计行键 383

流式传输至 Cloud Bigtable 384

查询 Cloud Bigtable 中的数据 386

评估模型的性能 387

持续训练的必要性 388

评估管道 389

性能评估 391

边际分布 391

检查模型的行为 393

识别行为变化 396

本章总结 398

全书总结 398

附录有关机器学习数据集中敏感数据的注意事项 401

内容摘要
在本书中，你将学到：
使用AppEngine应用实现自动化定期数据摄取。
在GoogleDataStudio中创建并生成数据仪表板。
构建实时数据分析管道，实现流式数据分析。
使用GoogleBigQuery实现可交互式数据探索。
在CloudDataproc群集上创建贝叶斯模型。
使用Spark构建逻辑回归机器学习模型。
使用CloudDataflow数据管道计算时间聚合特征。
使用TensorFlow构建高性能预测模型。
将你的模型部署为微服务，并且从批处理和实时数据管道中使用它。

精彩内容
在本书中，你将学到：·使用App Engine应用实现自动化定期数据摄取。
  ·在Google Data Studio中创建并生成数据仪表板。
  ·构建实时数据分析管道，实现流式数据分析。
  ·使用Google BigQuery实现可交互式数据探索。
  ·在Cloud Dataproc群集上创建贝叶斯模型。
  ·使用Spark构建逻辑回归机器学习模型。
  ·使用Cloud Dataflow数据管道计算时间聚合特征。
  ·使用TensorFlow构建高性能预测模型。
  ·将你的模型部署为微服务，并且从批处理和实时数据管道中使用它。

媒体评论

“Lak熟练地将现代数据科学的技术、工具和技巧提炼成了一份清晰而实用的指南，对于这一领域，我想不出比这更好的办法了。针对Google在数据科学领域的服务，Lak提供了Z佳指南，我认为这份指南可以让读者受益颇深，进而能够从数据中获取10倍的数据价值和洞察力。”

—— Miles Ward

Google 云计算平台解决方案主管

— 没有更多了 —