SRE NEXT から学べることは沢山ある。Vol.1
こんにちは。
いよいよ梅雨明けでいきなり夏!暑い!!ですね。中々遠出は叶わないけど、身近なところで工夫して夏を感じたいな。
本日は「SRE NEXTから学べることは沢山ある。」第一弾です。
- ことの経緯
- 1. パフォーマンスを最大化するための SRE のオンボーディング事例
- 2. freee のエンジニアは障害から何を学び、どう改善しているのか?
- 3. SLO Review
- 4. スクラムを1年回してSREと開発組織がどう変わったのか
- 5.日経電子版SREチーム立ち上げ中
- ここまでの所感や疑問
ことの経緯
今年1月に開催された SRE NEXT 2020。
イベントに参加した当時(当日スタッフとして)SREに興味がありつつも弊社サービスはリリース目前で「それどころじゃない」状態でした。
dombri-dev.hateblo.jp
リリースから数ヶ月。ようやく運用と開発のバランスの取り方とか、モニタリングとかインシデント対応とかSRE関連の悩みが湧いてきて「自分ゴト」になったこのタイミングで、当時の動画を改めて視聴することにしました。
悩むこと自体は必要ですが、SRE担当が現状自分一人なのでめちゃくちゃ心細い。他のチームメンバーを巻き込んで行かなきゃいけないけど、そもそも誰も「SRE」を知らない。関心が強いわけでもない。さあどうする?
SREの文化が根付いているチームで修行させてもらいたい
— don (@domb_ri) 2020年7月18日
知識として学んでいても、いまの仕事でどう取り入れていくべきなのか想像がついてないので、体感をしたい
社会人のインターン的な仕組みがあればいいのに…あるのか?
最終的には自分たちなりのやり方を見つけていくのがベストだけど、まずは色んな考え方や事例からヒントを得るのが狙いです。
パッと目に入ったセッションから順に見ていき、一言二言ずつコメントを記載します。最終的には公開動画は全て見たい(いつまでにとは言わない・・・) 。
1. パフォーマンスを最大化するための SRE のオンボーディング事例
スピーカー: tkuchikiさん(@tkuchiki)株式会社メルペイ
- 「一人前のSRE=オンコールに対応できる人」になってもらうために、中途採用者向けのオンボーディングを紹介
- 技術的な部分は充実していたが、コミュニケーションスキルの向上に課題があったため、ペアオペレーションやオンコールのシャドウイングについて、事例を交えた発表
新しいメンバーを招くことがあればこういうことしたいし、現在のチームでも互いにやるといいところや課題点がわかるかもしれない。Training Site Reliability Engineersが参考になりそう。
landing.google.com
2. freee のエンジニアは障害から何を学び、どう改善しているのか?
Speaker: 坂井 学 さん(@manabusakai) freee株式会社
- 障害にどう対応し、どう学びを生かしてきたかについてスタートアップあるあるな状態から現在に至るまで、失敗例を交えて紹介
- トリアージ、ポストモーテムの重要性
- 障害対応後の反省から行ったこと
- 対応手順のブラッシュアップ(まさにSRE本に載ってたあれ)、初動対応の省力化
やっぱり対応手順を決めるの大事だな。失敗.jsとか割窓を改善し隊、アラート振り返りとかやりたい。
3. SLO Review
Speaker: Takeshi Kondoさん(@chaspy_)Quipper Ltd.
- SLI SLOをしっかり決めて、レビューしながら改善していくのが大事だよね
- そこに至るまでには組織のプロセスとしてやって行かなきゃいけない、そのためにどんなことしたかという活動事例を交えた話
- SLOの浸透までのタイムライン参考になる
- ドキュメント大事、コミュニケーションも大事
それにしてもchaspyさん超絶早口・・・(倍速で再生しているのかと思ったら通常だった)頭の回転早いな・・・
4. スクラムを1年回してSREと開発組織がどう変わったのか
Speaker: HRMOS採用SRE 株式会社ビズリーチ
- SREの活動をスクラムで回した際の課題と対応について
- どこも同じような課題(俗人化してタスクが見えなくなるとか、それを解消しようとすると一時的に進捗が悪くなるとか)にぶち当たってるんだなとちょっと安心
ペアプロを用いて開発チームにスキル移譲しているのは真似したい。(逆も然り。私たちがアプリ改修してもいい。)
5.日経電子版SREチーム立ち上げ中
Speaker: Osamu Takayasu さん 日本経済新聞社
- 全員SRE未経験だったり兼務していたりする状況が共感
- できなかったこととしてSLI SLOの設定「とりあえずやってみる、ができたらよかった」と(現在は再挑戦中の様子)
できたこととしてのSREの啓蒙活動はやっぱり「発信する」ことなんだなぁ。障害対応フローをはっきりさせることとアーキテクチャのリファクタリングはしたいな。
ここまでの所感や疑問
- どうやってSREの考え方を浸透させたのか
現状、うちのチームでSREに興味が強くありそうな人がいない(同じ目線の人がいない)。これをどうやってメンバーを巻き込んで行ったのかが全体的にもっと知りたい。日経電子版は知りたかったそれに近いが、具体的な活動内容についてもっと聞きたいと思った。 - SREで課題になりがちなこと、「俗人化」と「コミュニケーション」
うわ・・・まさに今の弊社チームの課題でもある。みんな同じ道通ってきているんだと安心したのと、ちょっとずつヒントもらえたので試していきたい。技術面というよりかは「人」なんだな。ただし、うちのチームは技術面にも課題があるからな・・・ - インシデント対応のスキルつけるためには「ロールプレイング」「ペアオペ」
実際に起こりうるシチュエーションを定義して、定期的に訓練する。ありがたいことに弊社製品ではまだ大きなインシデントが発生したことがなく、逆にいうと初めて起きた時にどうなるか想像がつかない状態なのはまずい。絶対に焦る。何を題材にしてやろうか。
引き続き、動画見ていきます!今日はここまで。