消息首页搜索举报

Google SRE工作手册

正版保障假一赔十可开发票

54.78 4.3折 128 全新

库存4件

广东广州

认证卖家担保交易快速发货售后保障

作者(美)贝特西(Betsy Beyer)[等]编著

出版社中国电力出版社

ISBN9787519845858

出版时间2020-09

装帧平装

开本16开

定价128元

货号9910365

上书时间2024-09-02

灵感书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

经典校园歌曲:续:Ⅱ ¥3.85

跨境电子商务背景下国际贸易实务研究 ¥10.02

管理学原理与实务 ¥8.24

伟大的中国古典小说家:曹雪芹 ¥6.74

中国注册会计师执业准则实务问题释疑 ¥4.82

中国电力供需分析报告:2021 ¥16.95

计算机会计实务问题释疑 ¥5.01

法律教学案例精选:总第2辑:2007年民事卷 ¥5.59

人员素质与能力测评 ¥7.51

商品详情

品相描述：全新

商品描述: 前言

商品简介

你将会学到：
如何在你无法完全掌控的云环境里运行可靠的服务。在你创建、监控和运行服务的过程中践行服务质量目标。如何将现有运维团队转型为SRE，包括发掘出运营的*价值。从绿地或者棕地上启动SRE的方法。

作者简介
Betsy Beyer,Niall Richard Murphy,David K. Rensin,Kent Kawahara和Stephen Thorne是Google网站可靠性工程组织里曾经和现任的成员，他们的职责是关怀和护理Google的生产系统。

目录
目录
序言 I 1
序言 II 3
前言 7
第1 章 SRE 与DevOps 的关系 17
SRE 是DevOps 的一种实现方式  17
关于DevOps 的背景情况  18
不再各自为政  18
意外乃兵家常事  19
变更要小步快跑  19
工具与文化休戚与共  20
准确的度量至关重要  20
关于SRE 的背景情况  20
运维痛点也是软件问题  21
以服务质量目标(SLO)为准绳  21
尽量减少琐事  21
生产的智慧 22
确定本年度要自动化的工作  22
故障解决得越快，进度就越快  22
与开发人员同舟共济(share ownership)  23
岗位虽不同，工具可统一  24
比较与对照  24
因地制宜才能事半功倍  25
片面、刻板的激励机制会阻碍成功  26
解铃还须系铃人，勿怨他人  26
维护可靠性是专业化角色  27
毋庸斟酌是否，只需推敲时机  28
尽量在职业发展和物质激励上一视同仁  28
小结  28
第I 部分基础篇
第2 章实施SLO 33
SRE 为何需要SLO  34
入门  34
可靠性目标和错误预算  35
面向SLI 的度量  36
范例系统分析  40
SLI 从规范到实现  42
度量SLI  44
使用SLI 计算初始的SLO  45
选择合适的时间窗口  46
获取利益干系者的认同  48
建立错误预算策略  48
SLO 和错误预算策略的文档  49
仪表板和报表  51
SLO 目标持续改进  52
改进SLO 质量  53
基于SLO 和错误预算的决策  55
进阶主题  57
用户旅程建模  57
系统互动重要性分级  58
依赖关系建模  59
SLO 松绑实验  60
小结  61
第3 章 SLO 工程案例研究 62
Evernote 的SLO 故事  62
Evernote 为何采用SRE 模型？  63
导入SLO 开始旅程  64
打穿客户与云提供商之间的SLO 墙  67
当前状态  68
Home Depot 的SLO 故事  69
SLO 文化项目  70
我们的第一套SLO  71
宣传SLO  73
自动化VALET 数据采集  75
SLO 的发扬光大  77
VALET 应用于批处理应用  77
VALET 应用于测试  78
未来的愿景 78
结论  80
小结  80
第4 章监控 81
监控策略必备特性  82
速度  82
计算  82
接口  83
告警  84
监控数据源  84
范例  85
管理监控系统  88
实现配置即代码(Configuration as Code)  88
鼓励一致性 88
倡导松散耦合  89
度量指标的意图  90
预期的变更 90
依赖关系  91
饱和度  92
服务流量状况  92
实施有意图的度量指标  93
测试告警逻辑  93
小结  94
第5 章基于SLO 的告警 96
告警设定考量  96
重大事件告警方法  97
1：目标错误率≥ SLO 阈值  98
2：延长告警时间窗口  99
3：延长告警触发前的持续时间  100
4：根据燃烧率发出告警  101
5：基于多个燃烧率的告警  104
6：基于多个窗口、多个燃烧率的告警  106
低流量服务和错误预算告警  108
生成人工流量  108
组合多个服务  109
改变服务和基础设施  109
降低SLO 或延长时间窗口  110
极端的可用性目标  111
扩大告警范围  111
小结  113
第6 章消除琐事  114
什么是琐事？  114
度量琐事  117
琐事分类法  119
业务流程  119
生产中断  120
产品发布  120
迁移  120
工程成本和容量规划  121
不透明架构的故障排查  121
琐事管理策略  122
识别和度量琐事  122
工程师撤出琐事系统  123
拒绝琐事  123
使用SLO 消减琐事  123
从半自动界面开始  123
提供各种自助服务方法  124
获得管理层和同事的支持  124
大力推广消减琐事  125
从小处着手和改善  125
增加一致性 125
评估自动化的风险  126
自动化响应琐事  126
使用开源和第三方工具  127
使用反馈进行改进  127
实例研究  128
案例研究1：利用自动化减少数据中心的琐事  129
背景  129
问题陈述  132
我们的决策 132
首个设计方案：修复Saturn 线卡  133
实施  133
第二个迭代的设计：Saturn 线卡修复vs Jupiter 线卡修复  135
实施  136
经验教训  140
案例研究2：退役文件服务器后端的主目录  143
背景  143
问题陈述  143
我们的决策 144
设计与实施 145
重要组件  147
经验教训  149
小结  152
第7 章简单性  153
度量复杂性  153
简单性是端到端的，适合由SRE 来负责  155
案例研究1：端到端API 的简单性  156
案例研究2：项目生命周期复杂性  156
回归简单性  157
案例研究3：简化广告展示系统的蜘蛛网  159
案例研究4：在共享平台上运行数百个微服务 161
案例研究5：pDNS 不再依赖于自身  163
背景  163
小结  164
第II 部分实践篇
第8 章 on-call 轮值  169
回顾第一本SRE 书中的“on-call 轮值”  170
Google 内外的on-call 部署模式案例  171
Google：组建一个新的团队  172
Evernote：在云端寻找我们的足迹  176
实战的实施细节  179
剖析告警压力  179
on-call 灵活性  191
on-call 团队士气  195
小结  198
第9 章事故响应  199
Google 的事故管理  200
事故指挥系统  200
事故响应中的主要角色  201
案例分析  201
案例1：软件bug——灯亮着，但家里没人  202
案例2：服务故障——尽可能多地进行缓存  205
案例3：停电——闪电不会两次击中同一个地方……吗？  211
案例4：PagerDuty 的事故响应  214
把最佳实践付诸实施  217
事故响应培训  217
前期准备  218
演习  219
小结  220
第10 章事后总结：从失败中学习  221
案例分析  222
糟糕的事后总结  223
为什么这是一份差劲的事后总结？  226
优秀的事后总结  229
这份事后总结好在哪？  241
组织激励  243
树立和加强对事不对人的模式  243
奖励事后总结的成果  244
公开分享事后总结  245
面对事后总结文化的淡化  247
工具和模板  248
事后总结模板  248
事后总结的工具  249
小结  252
第11 章管理负载  253
Google 云的负载均衡  253
Anycast  254
Maglev 256
全球负载均衡系统  257
Google 前端(GFE)  257
GCLB(Google 云负载均衡系统)：低延迟  258
GCLB：高可用性  259
案例研究1：应用GCLB 的Pokémon GO  260
自动缩放  264
处理不健康的机器  264
使用有状态系统  265
保守地配置 266
设置约束  266
准备终止开关和手动覆写功能  267
避免后端超载  267
避免流量不平衡  267
管理负载的多种策略  268
案例研究2：减载引发的攻击  268
小结  272
第12 章介绍非抽象大系统设计  273
什么是NALSD ？  273
为什么“非抽象”？  274
AdWords 示例  274
设计过程  274
初始需求  276
单机设计  277
分布式系统 280
小结  290
第13 章数据处理流水线  292
流水线应用  293
从事件处理/ 数据转置到有序或结构化数据  293
数据分析  294
机器学习  294
流水线最佳实践  297
定义和度量服务质量目标  297
为依赖性故障做好准备  299
创建和维护流水线文档  300
梳理开发生命周期  301
减少热点和工作负载模式  304
实施自动扩展和资源规划  305
遵循存取控制规则和安全策略  306
计划升级路径  307
流水线需求分析和设计  307
你需要什么功能？  307
幂等和两阶段突变  309
检查点  309
代码模式  310
流水线投产准备  311
流水线故障的预防和响应  314
潜在的故障模式  315
可能的原因 316
案例研究：Spotify  318
事件交付  318
事件交付系统的设计与架构  319
客户整合与支持  324
总结  330
小结  330
第14 章配置设计及最佳实践  331
什么是配置  331
配置和可靠性  332
分离原则和机制  333
配置原则  333
问用户配置问题  335
问题应该紧贴用户目标  335
必答和可选问题  336
逃避简单  338
配置机制  339
配置和生成的数据分离  339
工具的重要性  341
所有权和变更跟踪  342
安全的应用配置变更  343
小结  344
第15 章配置规范  345
配置带来的琐事  345
减少配置带来的琐事  346
配置系统的关键属性和陷阱  347
陷阱1：没有把配置作为一种编程语言  347
陷阱2：设计特殊的语言功能  348
陷阱3：在特定领域做了很多优化  349
陷阱4：将“配置评估”与“外部干扰”交织在一起  349
陷阱5：使用现有的通用脚本语言(如Python、Ruby 或Lua)  349
集成配置语言  351
以特定格式生成配置  351
驾驭多种应用  351
集成现有应用程序：Kubernetes  352
Kubernetes 提供了什么？  353
Kubernetes 配置示例  353
集成配置语言  354
集成定制应用程序(自开发软件)  357
有效地运行配置系统  360
版本控制  360
源代码控制 361
工具  361
测试  361
何时评估配置  362
早期：提交JSON 时  362
中期：在编译时进行评估  363
后期：在运行时评估  364
防止滥用配置  365
小结  366
第16 章金丝雀发布  367
发布工程原则  368
平衡发布速率和可靠性  369
什么是金丝雀发布？  370
发布工程和金丝雀发布  371
金丝雀流程的需求  371
我们的示例配置  372
用前滚部署还是简单的金丝雀部署  372
实施金丝雀  375
将SLO 和错误预算的风险降至最低  375
选择金丝雀群体和持续时间  376
规模和持续时间  377
选择和评估指标  378
指标应反映出问题  378
指标要代表性和归因性兼具  379
评估前后有风险  380
用渐进式金丝雀更好地选择指标  381
依赖关系和隔离  381
非交互式系统中的金丝雀  382
监控数据需求  383
相关概念  384
人工负载生成  384
流量准备  385
小结  385
第III 部分流程
第17 章发现运维超负荷并从中恢复  389
从正常负荷到超负荷  390
案例研究1：团队规模缩小一半后的工作超负荷  392
背景  392
问题描述  393
我们决定做什么  393
实践  393
经验教训  394
案例研究2：组织和工作负荷发生变化后的感知超负荷  395
背景  395
问题陈述  396
我们决定做什么  397
实践  398
成效  400
经验教训  400
缓解超负荷的策略  400
识别超负荷的症状  401
减少超负荷并恢复团队健康  402
小结  404
第 18 章 SRE 参与模式 405
服务的生命周期  406
阶段1：架构与设计 406
阶段2：积极开发  407
阶段3：有限可用性 407
阶段4：一般可用性(GA)  408
阶段5：退出  408
阶段6：放弃  408
阶段7：终止支持  409
建立关系  409
沟通业务和生产的优先级  409
识别风险  409
对齐目标  409
制定基本规则  414
规划与执行 414
维持有效的持续关系  415
花时间在更好的合作中  415
保持顺畅的沟通  415
进行定期服务审查  416
基本规则开始下滑时要追因  416
根据你的SLO 和错误预算调整优先级  417
合理处置错误  417
在更大的环境里规模化推行SRE  418
通过一个SRE 团队支持多个服务  418
构建多SRE 团队的环境  419
SRE 团队结构主动顺应变化的环境  420
运行团结的分布式SRE 团队  420
终止关系  421
案例研究1：Ares  421
案例研究2：数据分析流水线  423
小结  425
第19 章 SRE：跨越壁垒  426
不言而喻的事实  426
可靠性是最重要的特性  427
可靠性以用户为准绳，以监控系统为参考  427
可靠性是你运行一个平台的搭档  427
重要的东西终将成为平台  428
客户不满意时必须放缓脚步  428
实践SRE 要与客户共舞  429
实践SRE 怎样与客户共舞  429
步骤1：SLO 和SLI 是你的语言  430
步骤2：审核监控系统、构建共享仪表板  431
步骤3：度量并重新协商  432
步骤4：设计评审流程、进行风险分析  432
步骤5：实践、实践、再实践  433
有思想、有纪律  433
小结  434
第20 章 SRE 团队生命周期  435
没有SRE 的SRE 实践  435
引入SRE 角色  436
寻找第一位SRE  436
安排第一位SRE  437
启动第一位SRE 工程师  438
分布式SRE  439
第一个SRE 团队  439
组建期  440
激荡期  441
规范期  445
执行期  448
打造更多SRE 团队  450
服务复杂度 451
SRE 推广  452
地理分隔  452
多团队运作的建议实践  456
角色交换  456
SRE 交换(exchange)  457
培训  457
横向项目  457
SRE 流动性  458
出差  459
成立协调工程团队  459
卓越生产  459
SRE 预算和招聘  460
小结  460
第21 章管理SRE 的组织变革  461
SRE 拥抱变革  461
变革管理概述  462
Lewin 的三阶段模型  462
McKinsey 的7-S 模型  462
Kotter 的变革八步法  463
Prosci ADKAR 模型  464
基于情感的模型  464
戴明环  464
这些理论在SRE 中的应用  465
案例研究1：扩展Waze——从见机行事到计划性变革  465
背景  465
消息队列：在保持可靠性的同时更换系统  466
下一轮变革：改善部署过程  468
经验教训  469
案例研究2：在SRE 中采用通用工具  470
背景  470
问题描述  471
我们的决策 472
设计  473
实施：监控 474
经验教训  475
小结  477
结论  478
向前看  478
未来属于过去  478
SRE + < 其他学科>  479
涓涓细流、溪流和洪水  479
SRE 属于我们所有人  480
感激之情  480
附录A SLO 示例文档  481
附录 B 错误预算策略示例  486
附录 C 事后总结分析结果  489
作者介绍  491
封面介绍  491

主编推荐
在2016年，Google出版的*本站点可靠性工程（SRE）书籍引起了行业的大范围讨论，当今生产环境服务运营意味这什么？为何可靠性方面的考虑是服务设计的基础？现在，编写上一本SRE书的Google工程师们为我们隆重推出了本书，这是一本充满真实案例的实战参考手册，展示了如何在生产环境中运维SRE的原则和实践。在这本全新的SRE工作手册中，提供的实践案例并不但源于Google的经验，还来自那些经历过SRE旅程的Google公有云的用户。值得注意的是，本书还包括Evernote、The Home Depot、纽约时报和其他公司总结的来之不易的*手经验。无论你所在公司规模的大小，都可以深入研究这本工作手册，通过学习尝试完善你们自己的SRE实践。

精彩内容
在2016年，Google出版的第一本网站可靠性工程（SRE）书籍引起了行业的大范围讨论，当今生产环境服务运营意味这什么？为何可靠性方面的考虑是服务设计的基础？现在，编写上一本SRE畅销书的Google工程师们为我们隆重推出了本书，这是一本充满真实案例的实战参考手册，展示了如何在生产环境中运维SRE的原则和实践。在这本全新的SRE工作手册中，提供的实践案例不但源于Google的经验，还来自那些经历过SRE旅程的Google公有云的用户。值得注意的是，本书还包括Evernote、The Home Depot、纽约时报和其他公司总结的来之不易的手经验。无论你所在公司规模的大小，都可以深入研究这本工作手册，通过学习尝试完善你们

— 没有更多了 —