株式会社リゾーム システム企画・開発部 第3グループの藤岡です。
読書会の第4回目のレポートです。 第3回目のレポートは、こちらになります。
読書会の題材
前回に引き続き 入門 監視 ―モダンなモニタリングのためのデザインパターン を題材としています。
4回目レポート
今回は4章「統計入門」で、参加者は4名でした。
それぞれの感想
システム運用における統計を学ぶ前に
- アラートが鳴りすぎるのは良くないので、フラッピング検出によるアラート制御が害悪か判断しかねる。
計算が救いの手を差し伸べる
- 過去のログも記録する、統計を見て何か掴む。
- AWSを使って過去ログを記録するのが当たり前になっていた。使いこなせてるかは別。
統計は魔法ではない
- 恣意的な統計の使い方をすれば、必然そういう数字が誇張されて出てくる。
- 計算方法の選択や実際の計算を間違えることも考えられる。統計を道具として使うなら、プログラミング同様、理解してから使わないといけないのだろうと思う。
移動平均
- スパイクを無くして傾向を見やすくするのはよい。
スパイクが見えなくなるという欠点はあるので、データの蓄積をしておくことが大事。 - 移動平均は全体のおおまかな値の変化を確認するのに便利そう。
- 多用している気がする。
中央値
- よくある例は年収、こういうケースだと平均は役に立たない。
- 他にどういう時に使えばいいかイメージがわかない。コア層の把握?
周期性
- パターンを見て、いつもと違う場合は何か気づくことがあるかも。
- 周期性を見て、対策するべき時間帯とか考えていくのも大事だなと思う。
- *1BOND GATEは日単位で見ると朝、(昼)、夕方にWebリクエスト多め。週単位だと金曜日が多めの環境もある。
- 毎日眺めて、初めて得られるものの気がする。
分位数
- あまり馴染みのない数値。
- Herokuのメトリクスページにレスポンスタイムの分位数が表示されている。
- 外れ値を無視して基本的な性能を表してくれるので、中央値の金持ちがいないケースにするって感じかな。
- データの大部分の傾向は分かるが、ある程度のデータは捨てられるので、平均値出すのは駄目。
標準偏差
- 正規分布している場合しか信用ならないので注意。
- 監視ではあまり使わないほうがいいということが分かった。
章のまとめ
- あまり実数ばかりを見ていても分からないことがあるので、ふんわり傾向を掴むことが大事だなと思った。
- データポイントに上限下限があるか確認しよう。閾値を考える時に意識したい。
- ディスク使用率・使用量、両方あるけど、どちらを監視すべきだろうか。
=> 両方監視するべきだと思う。
まとめ
実際に、Herokuのメトリクスを開いてレスポンスタイムの表示確認や利用シーンについて議論しました。
また、MackerelやNewRelicで各製品にどのような周期性があるか確認し、傾向を知ることが出来ました。
これらの統計値を上手く使って、改善出来ればと思います。
次回は「5章 ビジネスを監視する」です。
*1:直観的で使いやすい、店長支援のためのSC・専門店向けコミュニケーションウェアです。(ホームページ商品説明引用)