SRE:Google运维解密:how google runs production systems
正版保障 假一赔十 可开发票
¥
61.95
4.8折
¥
128
全新
库存2件
作者[美]贝齐·拜尔,[美]Chris Jones,[美]Jennifer Petoff 等
出版社电子工业出版社
ISBN9787121297267
出版时间2015-02
装帧平装
开本16开
定价128元
货号11035199
上书时间2024-11-21
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
Besty Beyer,是Google 纽约负责SRE 的一名技术文档作家。她之前曾为遍布全球的Google 数据中心与Mountain View 硬件运维团队编写文档。在搬到纽约之前,Betsy 是Stanford 技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford 和Tulane 获得学历。Chris Jones 是Google App Engine 的一名SRE。Google App Engine 是一个PaaS 服务,每天处理超过280 亿个请求。他的办公室在旧金山,他之前的工作包括Google 广告统计、数据仓库,以及用户支持系统的维护。在之前,Chris 曾经在学校IT 行业任职,同时参与过竞选数据分析,以及一些BSD 内核的修改。他有计算机工程、经济学,以及技术政策学的学位。同时他也是一名有执照的职业工程师。Jennifer Petoff 是Google SRE 团队的一名项目经理,工作地点在都柏林,爱尔兰。她曾经负责管理大型全球项目,包括:科学研究、工程、人力资源,以及广告等。Jennifer在加入Google 之前,曾在化工行业任职八年。她具有Stanford 大学的化学博士与学士学位,同时她还拥有Rochester 大学的心理学学位。Niall Murphy 是Google 爱尔兰团队广告SRE 的负责人。他拥有20 年互联网行业经验,目前是INEX(爱尔兰网络互联枢纽)的主席。他曾经写作以及参与写作很多科技文章与书籍,包括O Reilly 出版的IPv6 Network Administration,以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学,以及诗歌学的学历(他当时一定是想错了!)。他目前与妻子和两个儿子居住在都柏林。
孙宇聪,前Google SRE(2007-2015),山景城总部,曾参与构建运维Youtube 全球CDN网络,2008年奥运会直播项目,构建维护海量视频编码传输系统。后参与Google内部云平台运维工作,负责运维全球百万级别服务器集群,以及Borg、Omega等大规模集群理系统。2015年加入Coding,任CTO一职。回国后,积极推动国内容器化运维架构升级。目前是开放运维联盟之应用运维规范制定组,高可用运维规范制定者。
目录
目录
前言 ................ xxxi
序言 ............... xxxv
第Ⅰ部分 概览
第1 章 介绍..... 2
系统管理员模式 ... 2
Google 的解决之道:SRE ...................... 4
SRE 方法论 .......... 6
确保长期关注研发工作 ................... 6
在保障服务SLO 的前提下最大化迭代速度 ....................... 7
监控系统 ......................................... 8
应急事件处理 .................................. 8
变更管理 ...... 9
需求预测和容量规划 ....................... 9
资源部署 .... 10
效率与性能. 10
小结 ................... 10
第2 章 Google 生产环境:SRE 视角...... 11
硬件 ................... 11
管理物理服务器的系统管理软件 .......... 13
管理物理服务器 ............................ 13
存储 ............ 14
网络 ............ 15
其他系统软件 .... 16
分布式锁服务 ................................ 16
监控与警报系统 ............................ 16
软件基础设施 .... 17
研发环境 ............ 17
莎士比亚搜索:一个示范服务 ............. 18
用户请求的处理过程 ..................... 18
任务和数据的组织方式 ................. 19
第Ⅱ部分 指导思想
第3 章 拥抱风险................................ 23
管理风险 ............ 23
度量服务的风险 . 24
服务的风险容忍度 ................................ 25
辨别消费者服务的风险容忍度 ...... 26
基础设施服务的风险容忍度 ......... 28
使用错误预算的目的 ............................ 30
错误预算的构建过程 ..................... 31
好处 ............ 32
第4 章 服务质量目标........................... 34
服务质量术语 .... 34
指标 ............ 34
目标 ............ 35
协议 ............ 36
指标在实践中的应用 ............................ 37
运维人员和最终用户各关心什么 .. 37
指标的收集. 37
汇总 ............ 38
指标的标准化 ................................ 39
目标在实践中的应用 ............................ 39
目标的定义. 40
目标的选择. 40
控制手段 .... 42
SLO 可以建立用户预期 ................ 42
协议在实践中的应用 ............................ 43
第5 章 减少琐事................................ 44
琐事的定义 ........ 44
为什么琐事越少越好 ............................ 45
什么算作工程工作 ................................ 46
琐事繁多是不是一定不好 ..................... 47
小结 ................... 48
第6 章 分布式系统的监控..................... 49
术语定义 ............ 49
为什么要监控 .... 50
对监控系统设置合理预期 ..................... 51
现象与原因 ........ 52
黑盒监控与白盒监控 ............................ 53
4 个黄金指标 ..... 53
关于长尾问题 .... 54
度量指标时采用合适的精度 ................. 55
简化,直到不能再简化......................... 55
将上述理念整合起来 ............................ 56
监控系统的长期维护 ............................ 57
Bigtable SRE :警报过多的案例 ... 57
Gmail :可预知的、可脚本化的人工干预 ........................ 58
长跑 ............ 59
小结 ................... 59
第7 章 Google 的自动化系统的演进...... 60
自动化的价值 .... 60
一致性 ........ 60
平台性 ........ 61
修复速度更快 ................................ 61
行动速度更快 ................................ 62
节省时间 .... 62
自动化对Google SRE 的价值 .............. 62
自动化的应用案例 ................................ 63
Google SRE 的自动化使用案例 .... 63
自动化分类的层次结构 ................. 64
让自己脱离工作:自动化所有的东西 .. 66
舒缓疼痛:将自动化应用到集群上线中 ................................. 67
使用Prodtest 检测不一致情况 ...... 68
幂等地解决不一致情况 ................. 69
专业化倾向. 71
以服务为导向的集群上线流程 ...... 72
Borg :仓库规模计算机的诞生 ............. 73
可靠性是最基本的功能......................... 74
建议 ................... 75
第8 章 发布工程................................ 76
发布工程师的角色 ................................ 76
发布工程哲学 .... 77
自服务模型. 77
追求速度 .... 77
密闭性 ........ 77
强调策略和流程 ............................ 78
持续构建与部署 . 78
构建 ............ 78
分支 ............ 79
测试 ............ 79
打包 ............ 79
Rapid 系统 .. 80
部署 ............ 81
配置管理 ............ 81
小结 ................... 82
不仅仅只对Google 有用 ............... 83
一开始就进行发布工程 ................. 83
第9 章 简单化 85
系统的稳定性与灵活性......................... 85
乏味是一种美德 . 86
我绝对不放弃我的代码......................... 86
“负代码行”作为一个指标 ................... 87
最小 API ............ 87
模块化 ................ 87
发布的简单化 .... 88
小结 ................... 88
第Ⅲ部分 最佳实践
第10 章 基于时间序列数据进行有效报警.. 93
Borgmon 的起源 94
应用软件的监控埋点 ............................ 95
监控指标的收集 . 96
时间序列数据的存储 ............................ 97
标签与向量. 98
Borg 规则计算 ... 99
报警 ................. 104
监控系统的分片机制 .......................... 105
黑盒监控 .......... 106
配置文件的维护 .................................. 106
十年之后 .......... 108
第11 章 on-call 轮值....................... 109
介绍 ................. 109
on-call 工程师的一天 .......................... 110
on-call 工作平衡 ..................................111
数量上保持平衡 ...........................111
质量上保持平衡 ...........................111
补贴措施 .. 112
安全感 .............. 112
避免运维压力过大 .............................. 114
运维压力过大 .............................. 114
奸诈的敌人―运维压力不够 .... 115
小结 ................. 115
第12 章 有效的故障排查手段................ 116
理论 ................. 117
实践 ................. 119
故障报告 .. 119
定位 .......... 119
检查 .......... 120
诊断 .......... 122
测试和修复.................................. 124
神奇的负面结果 .................................. 125
治愈 .......... 126
案例分析 .......... 127
使故障排查更简单 .............................. 130
小结 ................. 130
第13 章 紧急事件响应........................ 131
当系统出现问题时怎么办 ................... 131
测试导致的紧急事故 .......................... 132
细节 .......... 132
响应 .......... 132
事后总结 .. 132
变更部署带来的紧急事故 ................... 133
细节 .......... 133
事故响应 .. 134
事后总结 .. 134
流程导致的严重事故 .......................... 135
细节 .......... 135
灾难响应 .. 136
事后总结 .. 136
所有的问题都有解决方案 ................... 137
向过去学习,而不是重复它 ............... 138
为事故保留记录 .......................... 138
提出那些大的,甚至不可能的问题:假如…… ............. 138
鼓励主动测试 .............................. 138
小结 ................. 138
第14 章 紧急事故管理....................... 140
无流程管理的紧急事故....................... 140
对这次无流程管理的事故的剖析 ........ 141
过于关注技术问题 ...................... 141
沟通不畅 .. 141
不请自来 .. 142
紧急事故的流程管理要素 ................... 142
嵌套式职责分离 .......................... 142
控制中心 .. 143
实时事故状态文档 ...................... 143
明确公开的职责交接 ................... 143
一次流程管理良好的事故 ................... 144
什么时候对外宣布事故....................... 144
小结 ................. 145
第15 章 事后总结:从失败中学习......... 146
Google 的事后总结哲学 ...................... 146
协作和知识共享 .................................. 148
建立事后总结文化 .............................. 149
小结以及不断优化 .............................. 151
第16 章 跟踪故障..............................152
Escalator .......... 152
Outalator .......... 153
聚合 .......... 154
加标签 ...... 155
分析 .......... 155
未预料到的好处 .......................... 156
第17 章 测试可靠性...........................157
软件测试的类型 .................................. 158
传统测试 .. 159
生产测试 .. 160
创造一个构建和测试环境 ................... 163
大规模测试 ...... 165
测试大规模使用的工具 ............... 166
针对灾难的测试 .......................... 167
对速度的渴求 .............................. 168
发布到生产环境 .......................... 170
允许测试失败 .............................. 170
集成 .......... 172
生产环境探针 .............................. 173
小结 ................. 175
第18 章 SRE 部门中的软件工程实践.....176
为什么软件工程项目对SRE 很重要 ... 176
Auxon 案例分析:项目背景和要解决的问题 ........................ 177
传统的容量规划方法 ................... 177
解决方案:基于意图的容量规划 179
基于意图的容量规划 .......................... 180
表达产品意图的先导条件 ........... 181
Auxon 简介 ................................. 182
需求和实现:成功和不足 ........... 183
提升了解程度,推进采用率 ....... 185
团队内部组成 .............................. 187
在SRE 团队中培养软件工程风气 ...... 187
在SRE 团队中建立起软件工程氛围:招聘与开发时间 188
做到这一点.................................. 189
小结 ................. 190
第19 章 前端服务器的负载均衡............. 191
有时候硬件并不能解决问题 ............... 191
使用DNS 进行负载均衡 ..................... 192
负载均衡:虚拟IP.............................. 194
第20 章 数据中心内部的负载均衡系统....197
理想情况 .......... 198
识别异常任务:流速控制和跛脚鸭任务 ............................... 199
异常任务的简单应对办法:流速控制............................ 199
一个可靠的识别异常任务的方法:跛脚鸭状态 ............. 200
利用划分子集限制连接池大小 ........... 201
选择合适的子集 .......................... 201
子集选择算法一:随机选择 ....... 202
子集选择算法二:确定性算法 .... 204
负载均衡策略 .. 206
简单轮询算法 .............................. 206
最闲轮询策略 .............................. 209
加权轮询策略 .............................. 210
第21 章 应对过载..............................212
QPS 陷阱 ......... 213
给每个用户设置限制 .......................... 213
客户端侧的节流机制 .......................... 214
重要性 .............. 216
资源利用率信号 .................................. 217
处理过载错误 .. 217
决定何时重试 ........................
— 没有更多了 —
以下为对购买帮助不大的评价