言之无物

我说的一切都是错的

减少琐事

《减少琐事》

如果系统正常运转中需要人工干预,应该将此视为一种bug。
“正常”的定义会随系统的进步二不断改变。 –Carla Geisser,Google SRE

琐事,指琐碎的事情,生活中点点滴滴的小事情,很普遍,无关紧要。

系统运维工作,很多事情都是零星的、突发的、或者常规的重复性操作,看上去都是些琐事。运维工作让人提不起劲,运维人员每日就是处理这些所谓的“琐事”,没有成就感。 这就是一般人眼中的“运维”。

谷歌几百万台的服务器,数十条产品线,面向全球用户提供服务,靠这样的“运维”,行不?

不过,话说回来,我们不能跟谷歌去比,但是谷歌运维的一些思路,还是很有借鉴价值的,其中一条就是“减少琐事”

对于琐事,Google给出了定义:
琐事就是运维服务中手动性的、重复的、可以被自动化的、应对式,没有持久价值的工作。而且,琐事与服务呈线性关系的增长。并不是每件琐事都有以上全部的特征,但是,每件琐事都满足下列一个或多个属性:

1. 手动性
例如手动运行脚本以便自动执行一些任务。

2. 重复性
如果某件事是第一次做,甚至第二次做,都不应该算是琐事。琐事就是不停反复做的工作。

3. 可以被自动化的
如果计算机和人类一样可以很好的完成某项任务,或者通过某种设计彻底消除对某项任务的需求,这项任务就是琐事。

4. 应对式的
琐事是突然出现的,应对式的工作,而非策略驱动和主动安排的。处理紧急警报是琐事。我们可能永远无法消除这种类型的工作,但我们必须努力减少它。

5. 没有持久价值
如果完成某项工作后,服务状态没有改变,这项任务很可能是琐事。如果这项任务会给服务带来永久性的改进,就不是琐事。一些繁重的工作————比如挖掘遗留代码和配置并把它们清理出去也不是琐事。

6. 与服务同步线性增长
如果在工作中所涉及的任务与服务的大小、流量或用户数量呈线性增长关系,那这项任务可能是琐事。一个良好管理和设计的服务应该至少可以应对一个数量级的增长,而不需要某些一次性工作(例如增加资源)之外的额外工作。

琐事是无法避免的,但我们可以尽量的减少琐事,这才是运维人员的价值所在。谷歌要求处理琐事的时间不超过50%,如果运维团队大量的时间都是在处理以上所说的琐事,那是时候反思下了。

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注