SRE实践手册:软件组织如何规模化实施站点可靠性工程9787302633082
正版图书,可开发票,请放心购买。
¥
86.02
6.7折
¥
128
全新
库存30件
作者[德]弗拉迪斯拉夫·乌基斯(Vladyslav Ukis)著 周靖 译 著
出版社清华大学出版社
ISBN9787302633082
出版时间2023-03
装帧平装
开本其他
定价128元
货号17697708
上书时间2024-12-18
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
"弗拉迪斯拉夫·乌基斯博士是西门子医疗Teamplay云平台的研发主管及SRE负责人。作为软件开发负责人,他先后推动了组织内部的持续交付、SRE和DevOps转型,参与了架构、部署、测试、运维和文化相关工作以及规模化实施新的工作流程。 乌基斯博士在德国埃尔朗根-纽伦堡大学获得计算机科学学士学位,后来在英国曼彻斯特大学获得硕士学位。在他的职业生涯中,先后从事软件架构、企业架构、创新管理、私有云和公有云计算、团队管理、工程管理、投资组合管理、合作伙伴管理以及数字化转型过程等工作。"
目录
简明目录 Ⅰ 基础知识 第1章 SRE概述 3 第2章 面临的挑战 18 第3章 SRE基本概念 36 第4章 评估现状 54 Ⅱ 启动转型 第5章 取得组织的认同 75 第6章 奠定基础 114 第7章 响应SLO违反警报 151 第8章 警报分派 183 第9章 实现事故响应 198 第10章 设置错误预算策略 265 第11章 实现基于错误预算的决策 284 第12章 实现组织结构 340 Ⅲ 度量和维持转型 第13章 度量SRE转型 405 第14章 持续推进SRE运动 411 第15章 未来之路 424 附录 主题快速参考 430 详细目录 第Ⅰ部分 基础知识 第1章 SRE概述 3 1.1 为什么要选择SRE 3 1.1.1 ITIL 3 1.1.2 COBIT 4 1.1.3 建模 5 1.1.4 DevOps 5 1.1.5 关于SRE 6 1.1.6 比较不同的方法 7 1.2 使用SRE进行协同 12 1.3 SRE为什么有用 15 1.4 小结 17 第2章 面临的挑战 18 2.1 种种不协同 18 2.2 集体所有权 20 2.3 SRE应用场景下的所有权 21 2.3.1 产品开发 21 2.3.2 产品运营 23 2.3.3 产品管理 27 2.3.4 效益和成本 30 2.4 挑战声明 32 2.5 教练 33 2.6 小结 35 第3章 SRE基本概念 36 3.1 服务水平指标 36 3.2 服务水平目标 37 3.3 错误预算 39 3.3.1 可用性错误预算的例子 40 3.3.2 错误预算为零 41 3.3.3 延迟错误预算的例子 43 3.4 错误预算策略 44 3.5 SRE概念金字塔 46 3.6 使用SRE概念金字塔进行协同 49 3.7 小结 53 第4章 评估现状 54 4.1 组织现状 54 4.1.1 组织结构 54 4.1.2 组织协同 56 4.1.3 正式和非正式领导 57 4.2 人员现状 58 4.3 技术现状 59 4.4 文化现状 63 4.4.1 是否高度合作 64 4.4.2 培训 64 4.4.3 是否共担风险 65 4.4.4 是否鼓励交流 65 4.4.5 失败后是否可以追根溯源 65 4.4.6 是否接纳新的想法 66 4.5 过程现状 66 4.6 SRE成熟度模型 68 4.7 提出假设 70 4.8 小结 72 第Ⅱ部分 启动转型 第5章 取得组织的认同 75 5.1 取得组织内部对SRE的认同 75 5.2 SRE营销漏斗 77 5.2.1 认识SRE 78 5.2.2 兴趣 79 5.2.3 理解 80 5.2.4 共识 80 5.2.5 参与 81 5.3 SRE教练 82 5.3.1 特质 82 5.3.2 责任 83 5.4 自上而下认同 84 5.4.1 利益相关者图表 85 5.4.2 与开发主管接触 87 5.4.3 与运营主管接触 92 5.4.4 和产品管理主管接触 93 5.4.5 实现联合认同 95 5.4.6 让SRE进入项目组合 97 5.5 自下而上认同 99 5.5.1 与运营团队接触 99 5.5.2 与开发团队接触 100 5.6 横向认同 103 5.7 交错认同 104 5.8 团队辅导 104 5.9 跨组织 106 5.9.1 组织的分组 106 5.9.2 组织穿越与SRE基础设施需求 108 5.9.3 接触各个团队的时机 108 5.10 组织辅导 111 5.11 小结 112 第6章 奠定基础 114 6.1 团队导入对话 114 6.2 传达基础知识 115 6.2.1 SLO作为契约 115 6.2.2 SLO作为客户满意度的代理度量 116 6.2.3 用户画像 117 6.2.4 用户故事地图 119 6.2.5 对SLO被违反情况进行修复的积极性 121 6.2.6 SLO和技术问题无关 123 6.2.7 SLO违反的原因 123 6.2.8 值班应对违反SLO的情况 125 6.3 SLI标准化 125 6.3.1 应用程序性能管理设施 127 6.3.2 可用性 128 6.3.3 延迟 129 6.3.4 优先级排序 130 6.4 启用日志记录 132 6.5 日志查询语言的培训 133 6.6 定义初始SLO 134 6.6.1 什么是好的SLO 135 6.6.2 SLO迭代过程 136 6.6.3 修订SLO 139 6.7 默认SLO 140 6.8 提供基本的基础设施 141 6.8.1 仪表盘 142 6.8.2 警报内容 143 6.9 与拥护者接触 144 6.10 和反对者打交道 144 6.10.1 人们为什么会反对 145 6.10.2 警报的问题 145 6.10.3 工具的问题 146 6.10.4 产品负责人的问题 147 6.10.5 团队激励的问题 147 6.11 创建文档 148 6.12 宣传成功 148 6.13 小结 150 第7章 响应SLO违反警报 151 7.1 环境选择 151 7.2 责任 153 7.2.1 开发责任与运营责任 153 7.2.2 运营责任 154 7.2.3 划分运营责任 154 7.3 工作模式 156 7.3.1 基于中断的工作模式 156 7.3.2 基于专注的工作模式 160 7.4 设置轮流值班 160 7.4.1 初始轮换周期 161 7.4.2 单人值班 161 7.4.3 双人值班 162 7.4.4 三人值班 162 7.5 值班管理工具 163 7.5.1 发布SLO违反 163 7.5.2 排班 165 7.5.3 专业值班管理工具 165 7.6 非工作时间进行值班 167 7.6.1 使用可用性目标和产品需求 168 7.6.2 取舍 168 7.7 系统化的知识共享 170 7.7.1 知识共享需求 172 7.7.2 知识共享金字塔 173 7.7.3 值班培训 175 7.7.4 运行手册 176 7.7.5 内部Stack Overflow工具 178 7.7.6 SRE实践社区 179 7.8 宣传成功 180 7.9 小结 182 第8章 警报分派 183 8.1 警报升级 184 8.2 定义警报升级策略 186 8.3 定义利益相关者分组 187 8.4 触发利益相关者通知 189 8.5 定义利益相关者环 190 8.6 定义有效的利益相关者通知 193 8.7 允许利益相关者订阅 195 8.7.1 使用值班管理工具订阅 196 8.7.2 使用其他方式订阅的可行性 196 8.8 宣传成功 196 8.9 小结 197 第9章 实现事故响应 198 9.1 事故响应基础 198 9.2 事故优先级 199 9.2.1 SLO违反与事故 200 9.2.2 在事故期间更改事故优先级 202 9.2.3 定义通用事故优先级 203 9.2.4 将SLO映射到事故优先级 205 9.2.5 将错误预算映射到事故优先级 207 9.2.6 将基于资源的警报映射到事故优先级 208 9.2.7 发现事故优先级的新用例 209 9.2.8 根据利益相关者的反馈来调整事故优先级 210 9.2.9 扩展SLO定义过程 211 9.2.10 基础设施 212 9.2.11 消除重复 213 9.3 协调复杂事故 215 9.3.1 什么是复杂事故 215 9.3.2 现有的事故协调系统 216 9.3.3 事故分类 217 9.3.4 定义通用事故严重性 217 9.3.5 事故分类的社会维度 219 9.3.6 事故优先级与事故严重性 220 9.3.7 定义角色 221 9.3.8 事故严重性分别对应哪些角色 223 9.3.9 值班角色 223 9.3.10 事故响应过程评估 224 9.3.11 事故响应过程动态 225 9.3.12 事故响应团队的幸福感 228 9.4 事后回顾 232 9.5 有效事后回顾的标准 233 9.5.1 发起事后回顾 234 9.5.2 事后回顾的生命周期 235 9.5.3 事后回顾之前 236 9.5.4 事后回顾会议 238 9.5.5 事后回顾之后 244 9.5.6 分析事后回顾过程 245 9.5.7 事后回顾模板 250 9.5.8 促进从事后回顾中学习 252 9.5.9 成功的事后回顾实践 252 9.5.10 事后回顾实例 253 9.6 工具整合 254 9.6.1 与值班管理工具连接 254 9.6.2 其他工具之间的连接 256 9.6.3 移动集成 257 9.6.4 示例工具搭配 258 9.7 服务状态广播 259 9.8 撰写事故响应过程文档 261 9.9 宣传成功 262 9.10 小结 263 第10章 设置错误预算策略 265 10.1 动机 265 10.2 术语 267 10.3 错误预算策略的结构 267 10.4 错误预算策略的条件 269 10.5 错误预算策略的后果 270 10.6 错误预算策略治理体系 271 10.7 扩展错误预算策略 273 10.8 签署错误预算策略 277 10.9 存储错误预算策略 278 10.10 实行错误预算策略 279 10.11 审查错误预算策略 280 10.12 相关概念 281 10.13 小结 282 第11章 实现基于错误预算的决策 284 11.1 可靠性决策的分类法 284 11.2 实现SRE指标 287 11.2.1 SRE指标的维度 287 11.2.2 “按服务划分的SLO”指标 288 11.2.3 “SLO遵守情况”指标 289 11.2.4 “SLO错误预算消耗”指标 290 11.2.5 “SLO错误预算过早耗尽”指标 295 11.2.6 “按服务划分的SLA”指标 299 11.2.7 “SLA错误预算消耗”指标 300 11.2.8 “SLA遵守情况”指标 303 11.2.9 “客户支持工单趋势”指标 304 11.2.10 “团队轮流值班”指标 308 11.2.11 “事故恢复时间趋势”指标 309 11.2.12 “最不可用服务端点”指标 311 11.2.13 “最慢服务端点”指标 312 11.3 过程指标(而非人员的KPI) 313 11.4 决策与指标 314 11.5 决策工作流 316 11.5.1 “使用API”决策工作流 316 11.5.2 “收紧依赖项的SLO”决策工作流 319 11.5.3 “功能与可靠性优先级排序”工作流 321 11.5.4 “设置SLO”决策工作流 325 11.5.5 “设置SLA”决策工作流 329 11.5.6 “为团队分配SRE能力”决策工作流 331 11.5.7 “选择混沌工程假设”工作流 334 11.6 小结 338 第12章 实现组织结构 340 12.1 SRE原则与组织结构 341 12.2 谁构建,谁运行 342 12.2.1 “谁构建,谁运行?”谱系 343 12.2.2 混合模式 344 12.2.3 改善可靠性的动力 344 12.2.4 模式比较标准 347 12.2.5 模式比较 349 12.3 “你构建,你运行” 350 12.4 “你构建,你和SRE运行” 352 12.4.1 开发组织内的SRE团队 352 12.4.2 运营组织内的SRE团队 354 12.4.3 专门的SRE组织内部的SRE团队 355 12.4.4 对比 357 12.4.5 SRE团队的激励、身份和自豪感 358 12.4.6 SRE团队的人数和预算 359 12.4.7 SRE团队成本核算 362 12.4.8 SRE团队KPI 363 12.5 你构建,SRE运行 365 12.5.1 开发组织内的SRE团队 366 12.5.2 运营组织内的SRE团队 367 12.5.3 专门的SRE组织内部的SRE团队 367 12.6 成本优化 368 12.7 团队拓扑结构 370 12.7.1 报告线 371 12.7.2 SRE身份三角 372 12.7.3 合弄制:无报告线 374 12.8 选择一个模式 375 12.8.1 模式转换选项 375 12.8.2 决策维度 376 12.8.3 报告选项 378 12.8.4 SRE组织的定位 379 12.8.5 将价值传达给管理层 381 12.9 一个新的角色:SRE 382 12.9.1 为什么需要一个新角色 382 12.9.2 角色定义 384 12.9.3 角色命名 387 12.9.4 角色分配 388 12.9.5 角色履行 390 12.10 SRE职业道路 391 12.10.1 SRE角色发展 392 12.10.2 SRE角色转换 394 12.10.3 文化的重要性 395 12.11 就所选模式进行沟通 396 12.12 导入所选的模式 397 12.12.1 组织变化 398 12.12.2 报告结构的变化 400 12.12.3 角色变化 401 12.13 小结 401 第Ⅲ部分 度量和维持转型 第13章 度量SRE转型 405 13.1 测试转型假设 405 13.2 内部未检测到的故障 406 13.3 过早耗尽错误预算的服务 407 13.4 管理层的看法 408 13.5 用户和合作伙伴对可靠性的看法 409 13.6 小结 410 第14章 持续推进SRE运动 411 14.1 建立成熟的SRE CoP 411 14.2 SRE时间 411 14.3 可用性新闻简报 412 14.4 工程博客中的SRE专栏 413 14.5 推广SRE维基页面长文 413 14.6 SRE的宣发 414 14.7 结合SRE和CD指标 415 14.7.1 对比CD与SRE指标 416 14.7.2 瓶颈分析 417 14.8 SRE反馈回路 418 14.9 新的假设 419 14.10 提供学习机会 420 14.11 为SRE教练提供支持 421 14.12 小结 423 第15章 未来之路 424 15.1 服务目录 425 15.2 SLA 426 15.3 监管合规 426 15.4 SRE基础设施 427 15.5 游戏日 428 附录 主题快速参考 430
精彩内容
《SRE实践手册:软件组织如何规模化实施站点可靠性工程》基于作者在西门子医疗的SRE转型经历,为读者提供了SRE落地实践过程,主题涉及如何从基础设施、组织文化和流程等层面,从全景的角度实际导入和实施SRE工程过程。《SRE实践手册:软件组织如何规模化实施站点可靠性工程》共15章,实用性强,可操作性强,指导性强,适合想要启动SRE实践的组织和团队阅读与参考。
— 没有更多了 —
以下为对购买帮助不大的评价