連続でSRE系のイベントに参加してきたので、そのメモです。 (というより昼の Lunch LT で紹介されていて、面白そうだったので参加してみました。)
とても忙しかったのでリモート参加でしたが、これまで聞いたことがない概念や言葉が多くて、とても勉強になりました。
勉強会URL
Incident Response Meetup vol.1【増枠】 https://incident-response.connpass.com/event/304636/ #障害対応
メモ
雑多なメモです。
- システムの障害対応の教科書という本がある(改訂版も出るようで、Amazonでは2024/04/15発売予定となっていた)
- システム障害対応の課題としては、システムの障害はエンジニアのレベルや参加した時期に関わらず、誰でもいつでも起こりうるということ
- RPGの序盤の街で、序盤のモンスターが出てくることがあれば、ラスボスが出てくることもあるような予測が難しいもの
- システム障害対応の難しさは、教育が難しいということ
- インシデントコマンダーという考え方
- インシデントコマンダーを育てよう
- ポストモーテムも大事
- オンコール担当のオーナーシップがなかなか難しい問題
- 調査が早い人であれば的確に担当者に割り振ることができる、しかしそこでオーナーシップを手放してしまうケースがある
- 調査が遅い人の場合、根本原因にたどり着けず誰を頼るべきなのかもわからなくなってしまうケースがある
- ユーザーへの価値を下げずにみんなで対応し切るためには共通認識を持って、オーナーシップを持って対処する
- 問題が発生したらすぐ集まって同期コミュニケーションをしよう
- 集まる場所は決めておく
- 予めフローや役割の定義は決めておく
- 障害訓練的な練習もしておく
- Wantedlyの障害対応文化とインシデントコマンダー / Wantedly Incident Commander - Speaker Deck
- ただし本番で対応する緊張感や経験からすると薄いものになってしまう
- Wantedly Engineering Handbook - Wantedly Engineering Handbook
- 便利そう
感想
連続でSRE系のイベントに参加してきたことで、新たな概念や考え方に触れる機会があり、とても勉強になりました。 特にシステム障害対応の教育の難しさやインシデントコマンダーの重要性について学びました。 また、オーナーシップの重要性や同期コミュニケーションの必要性も再確認しました。 障害対応においては、事前の準備や練習が重要であり、それによってチーム全体の対応力を高めることができると感じました。
だいたい書きたいことは Copilot が書いてくれたので感想としてはこれで…。