TOP > クラウド > システム運用の信頼性向上の立役者、SREの役割(中)
関連カテゴリー: マネジメント
システム運用の信頼性向上の立役者、SREの役割(中)
2020/05/13
世の中がオンラインにシフトする中、Webサイト、クラウドアプリケーション、クラウドインフラの信頼性は、今やあらゆるビジネスにとって決定的に重要な意味を持つ。
(前回から続く)

SREの任務には、発生した事態へのレスポンスもある。アラート、オンコール、トラブルシューティング、緊急対応、インシデント対応、ポストモーテムなどの要素がある。
本質的に重要なのは、システムの監視やインシデント対応にとって最善の方法を把握しておき、対応手順書を絶えず書き直して、いざという時の復旧に要する時間を短縮することだ。またGoogleでは、ポストモーテムという形で、インシデントについて文書化し、根本原因を洗い出して、今後の予防策を講じている。
GoogleのJohn Lunney氏とSue Lueder氏が「Site Reliability Engineering」のポストモーテムの章で述べているように、ポストモーテムを書くことは処罰ではなく、会社全体の学びの機会である。
SREとDevOpsエンジニアの違い
SREはDevOpsとよく似ている印象だが、職種を表す言葉としては、SREの方がDevOpsエンジニアより5年ほど早い。
SREとDevOpsは、似たような考え方を土台としつつも、微妙にして重要な違いがある。両者で共通しているのは、開発者と運用担当者の壁を取り払おうとしている点や、開発チームのベロシティを高めながらサービスの中心的なレジリエンシーを維持することを目指している点だ。
一方、重要な違いとしては、一般にDevOpsエンジニアは継続的デリバリーや開発者のベロシティのサポートに照準を合わせるのに対し、SREはソフトウエアのライフサイクル全体を通じた信頼性と自動化に責任を負い、デプロイと監視の遂行や、ソフトウエア定義インフラを動かし続けることに重きを置く。SREは、エンジニアリングチーム全体の中で不可欠な役割を担い、安定したシステムの構築を目指す集団の中でスペシャリストとして力を発揮する。
DevOps InstituteのJayne Groll氏は次のように述べている。「DevOpsは、デプロイの段階に至るまでの継続的デリバリーのエンジニアリングに主眼がある。SREは、カスタマーが利用する段階での継続的オペレーションのエンジニアリングに主眼がある」