聊一聊SRE-一一网

我在刚毕业时，曾负责过部门的持续交付平台的建设，包括功能测试、持续集成、持续发布、监控系统等等，同时也对AWS、腾讯云等云服务生态有所研究。回想那段时间，我磕磕绊绊走了不少弯路，加上比较稚嫩的开发经验，很多事情做的比较蹩脚，不够完美。几年后观察当前行业现状，SRE，DevOps和云原生等概念已逐渐普及，也有了非常多的业内的最佳实践，我觉得有必要对过往的经历做一些总结、思考、与升华。

新开设了专栏《运维体系》，将分享我在DevOps，SRE，AIOps，容器化，云原生等领域的学习和实践心得。

这一次先来聊一聊SRE，文章中的很多内容参考自赵成老师的专栏《SRE实战手册》。

SRE是什么

这几年业界对 SRE 的关注越来越多，大家也几乎达成了共识，Google SRE 就是目前稳定性领域的最佳实践。也可以说，SRE 已经成为稳定性的代名词。

SRE 是一套体系化的方法，我们也只有用全局视角才能更透彻地理解它。

从业界稳定性通用的衡量标准看，有两个非常关键的指标：

MTBF，Mean Time Between Failure，平均故障时间间隔。
MTTR，Mean Time To Repair，故障平均修复时间。

通俗地说，MTBF 指示了系统正常运行的阶段，而 MTTR 则意味着系统故障状态的阶段。

另外，MTTR 可以细分为 4 个指标

MTTI，Mean Time To Identify，平均故障发现时间。也就是从故障实际发生，到我们真正开始响应的时间，这个过程可能使用户或客服反馈、舆情监控或者是监控告警等。
MTTK，Mean Time To Know，平均故障认知时间。可以理解为我们常说的平均故障定位时间。这个定位指的是root cause，也就是根因被定位出来。
MTTF，Mean Time To Fix，平均故障解决时间，也就是从知道了根因在哪里，到我们采取措施恢复业务为止，这里的手段可以是限流、降级、熔断，甚至是重启。
MTTV，Mean Time To Verify，平均故障修复验证时间，就是故障解决后，我们通过用户反馈、监控指标观察等手段，来确认业务是否真正恢复所用的时间。

读者可结合上面的稳定性保障图来理解每个指标的含义。

如果想提升稳定性，就会有两个方向：提升 MTBF，也就是减少故障发生次数，提升故障发生间隔时长；降低 MTTR，故障不可避免，那就提升故障处理效率，减少故障影响时长。

按照以终为始的思路，SRE 要实现的目标就是提升 MTBF、降低 MTTR，从这个角度出发，我们再次认识到一定要把 SRE 作为一个体系化的工程来建设，而不是单纯在某些技术点上发力。

从实践角度来看，SRE 的力量不能通过一个岗位、一个或几个技术就发挥出来。SRE 是一个体系化工程，它需要协同多个部门、多项技术。

SRE和DevOps的区别

DevOps主要是以驱动价值交付为主，搭建企业内部的功效平台。

SRE主要需要协调多团队合作来提高稳定性。

DevOps核心是做全栈交付，SRE的核心是稳定性保障，关注业务所有活动。

两者的共性是：都使用软件工程解决问题。

DevOps的诞生是由于互联网商业市场竞争加剧，企业为减少试错成本，往往仅推出最小可行产品，产品需要不断且高频的迭代来满足市场需求，抢占市场(产品的迭代是关乎一整条交付链的事)，高频的迭代则会促使研发团队使用敏捷模式，敏捷模式下对运维的全栈交付能力要求更严格，则运维必须开启DevOps来实现全栈交付。

因为不断的迭代交付(也就是俗称的变更)是触发故障，非稳定性根源，而互联网产品/服务稳定性缺失会造成用户流失，甚至流到竞争对手那里，因此关注业务稳定性也变得十分重要，SRE由此诞生。

什么是系统可用性

目前业界有两种衡量系统可用性的方式，一个是时间维度，一个是请求维度，这两个维度的计算公式如下：

时间维度：Availability = Uptime / (Uptime + Downtime)
请求维度：Availability = Successful request / Total request

时长维度，是从故障角度出发对系统稳定性进行评估。

请求维度，是从成功请求占比的角度出发，对系统的稳定性进行评估。

SLI和SLO

前面谈了系统可用性的两种计算方式，在SRE实践中，通常会选择请求维度来衡量稳定性。

SRE 强调的稳定性，一般不是看单次请求的成功与否，而是看整体情况，所以我们会把成功请求的占比设定为一个可以接受的目标，也就是我们常说的“3 个 9”或“4 个 9”这样的可量化的数字。

这个“确定成功请求条件，设定达成占比目标”的过程，在 SRE 中就是设定稳定性衡量标准的 SLI 和 SLO 的过程。

SLI，Service Level Indicator，服务等级指标，其实就是我们选择哪些指标来衡量我们的稳定性。

SLO，Service Level Objective，服务等级目标，指的就是我们设定的稳定性目标，比如“几个 9”这样的目标。

举个例子，“状态码为非 5xx 的比例”就是 SLI，“大于等于 99.95%”就是 SLO。说得更直接一点，SLO 是 SLI 要达成的目标。

VALET方法

关于如何选择合适的SLI，Google提出了VALET方法。

VALET 是 5 个单词的首字母，分别是 Volume、Availability、Latency、Error 和 Ticket。

Volume-容量。指服务承诺的最大容量是多少，比如QPS、TPS、吞吐量、会话数和连接数等等。
Availablity- 可用性。服务是否正常，也可以根据不同的任务状态码来归类。
Latency- 时延。指响应是否足够快。我们不会直接做所有请求时延的平均，因为整个时延的分布也符合正态分布，所以通常会以类似“90% 请求的时延 <= 80ms，或者 95% 请求的时延 <=120ms ”这样的方式来设定时延 SLO。
Errors- 错误率。这里除了 5xx 之外，我们还可以把 4xx 列进来，或者增加一些自定义的状态码。
Tickets- 人工介入。如果一项工作或任务需要人工介入，那说明一定是低效或有问题的。