• SRE生存指南:系统中断响应与正常运行时间最大化
图书条目标准图
21年品牌 40万+商家 超1.5亿件商品

SRE生存指南:系统中断响应与正常运行时间最大化

36.3 4.6折 79 全新

仅1件

河北保定
认证卖家担保交易快速发货售后保障

作者[美]纳特韦尔奇(NatWelch) 著;冯文辉 译

出版社电子工业出版社

出版时间2019-09

装帧平装

货号9787121371769

上书时间2024-10-26

尚贤文化保定分店的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
图书标准信息
  • 作者 [美]纳特韦尔奇(NatWelch) 著;冯文辉 译
  • 出版社 电子工业出版社
  • 出版时间 2019-09
  • ISBN 9787121371769
  • 定价 79.00元
  • 装帧 平装
  • 开本 16开
  • 纸张 胶版纸
  • 页数 244页
【内容简介】

站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。

 

本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。

【作者简介】

Nat Welch是一名美国的软件开发人员。自2005年以来,他一直做着网站构建及运维的工作。他热爱网站的基础设施建设,因为这可以支持其他人的创造性努力。2012年,Nat成为谷歌的SRE(Site Reliability Engineering,站点可靠性工程)工程师,并爱上了这个职业。从那时起,他在各种规模的公司工作过,并一直致力于提高网站的可靠性,以帮助开发人员构建可靠的系统。

 


 

关于审查者

 

Pavlos Ratis是HolidayCheck的一名SRE工程师,负责自动化软件和基础设施的可靠性。随着时间的推移,他参与了大量的项目,并参与过从编写软件到自动化,管理基于云的多服务器基础设施,到开发Web应用程序等很多环节。

 


【目录】

1  简介  1

 

SRE简史  2

 

SRE是什么  3

 

关于这本书  7

 

以SRE作为新项目的框架  9

 

小结  12

 


 

2  监控  13

 

为什么要监控  13

 

检测应用程序  16

 

度量什么  23

 

SLI、SLO和错误预算简介  26

 

错误预算  27

 

收集和保存监控数据  29

 

轮询应用程序  29

 

推送应用程序  32

 

展示监控信息  35

 

任意查询  35

 

图表  36

 

仪表板  37

 

聊天机器人  38

 

管理和维护监控数据  38

 

沟通  39

 

他们知道有监控吗  39

 

小结  40

 

参考资料  40

 


 

3  事故响应  42

 

什么是事故  43

 

什么是事故响应  45

 

警报  47

 

什么时候发起警报  48

 

怎么发出警报  49

 

向谁发出警报  54

 

随时待命  55

 

沟通  57

 

事故指挥系统  59

 

在哪里沟通  61

 

恢复系统  61

 

警报解除  63

 

小结  64

 


 

4  事后回顾  65

 

什么是事后回顾  65

 

为什么写事后回顾报告  66

 

何时写事后回顾报告  68

 

开展事故分析  69

 

如何写事后回顾报告  71

 

总结  71

 

影响  72

 

时间  73

 

根本原因  74

 

行动项  75

 

附录  77

 

停止事后指责  77

 

举行事后回顾会议  79

 

分析以往的事后回顾报告  80

 

MTTR与MTBF  81

 

警报疲劳  81

 

讨论过去的服务中断  81

 

小结  82

 

参考资料  82

 


 

5  测试和发布  83

 

测试  84

 

测试内容  87

 

发布  100

 

何时发布  101

 

回滚  104

 

自动化  104

 

持续  105

 

小结  106

 


 

6  容量规划  107

 

企业财务简介  108

 

为什么需要规划  110

 

风险管理与期望管理  111

 

定义一个规划  112

 

当前的容量是多少  113

 

何时达到容量极限  115

 

应该如何更改容量  119

 

执行规划  125

 

架构——性能变化的根源  126

 

技术作为利润中心和采购  128

 

小结  128

 


 

7  构建工具  129

 

寻找项目  131

 

定义项目  133

 

RDD  133

 

设计文档  136

 

项目计划  138

 

例子  139

 

回顾会与站会  141

 

工作分配  142

 

构建项目  143

 

关于编写代码的建议  143

 

关注点分离  144

 

长期工作  145

 

笔记本  148

 

文档与维护项目  149

 

小结  150

 


 

8  用户体验  151

 

设计和用户体验简介  155

 

现实世界的交互设计  157

 

用户测试  160

 

挑选一种体验  161

 

设计测试  162

 

寻找要测试的人  162

 

开发者体验  163

 

工具经验  164

 

绩效预算  164

 

安全性  166

 

身份认证  167

 

授权  168

 

风险概况  168

 

网络钓鱼  169

 

ACM道德准则  170

 

小结  171

 

参考资料  172

 


 

9  网络基础  173

 

互联网  173

 

发送一个HTTP请求  175

 

DNS  175

 

以太网和TCP/IP  179

 

HTTP  186

 

curl与wget  189

 

网络监控工具  194

 

netstat  194

 

nc  195

 

tcpdump  196

 

小结  197

 

参考资料  197

 


 

10  Linux和云基础  198

 

Linux基础  198

 

一切皆是文件  199

 

进程是什么  206

 

syscalls  207

 

构建自己的工具  213

 

云基础  214

 

虚拟机  215

 

容器  216

 

负载均衡  218

 

自动伸缩  219

 

存储  219

 

队列与发布/订阅  220

 

伸缩单元  221

 

架构面试示例  222

 

小结  226

 

参考资料  226

点击展开 点击收起

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP