「入門 監視」読書会レポート vol.4

株式会社リゾーム システム企画・開発部 第3グループの藤岡です。

読書会の第4回目のレポートです。 第3回目のレポートは、こちらになります。

tech.rhizome-e.com

読書会の題材

前回に引き続き 入門 監視 ―モダンなモニタリングのためのデザインパターン を題材としています。

4回目レポート

今回は4章「統計入門」で、参加者は4名でした。

それぞれの感想

システム運用における統計を学ぶ前に
  • アラートが鳴りすぎるのは良くないので、フラッピング検出によるアラート制御が害悪か判断しかねる。
計算が救いの手を差し伸べる
  • 過去のログも記録する、統計を見て何か掴む。
  • AWSを使って過去ログを記録するのが当たり前になっていた。使いこなせてるかは別。
統計は魔法ではない
  • 恣意的な統計の使い方をすれば、必然そういう数字が誇張されて出てくる。
  • 計算方法の選択や実際の計算を間違えることも考えられる。統計を道具として使うなら、プログラミング同様、理解してから使わないといけないのだろうと思う。
移動平均
  • スパイクを無くして傾向を見やすくするのはよい。
    スパイクが見えなくなるという欠点はあるので、データの蓄積をしておくことが大事。
  • 移動平均は全体のおおまかな値の変化を確認するのに便利そう。
  • 多用している気がする。
中央値
  • よくある例は年収、こういうケースだと平均は役に立たない。
  • 他にどういう時に使えばいいかイメージがわかない。コア層の把握?
周期性
  • パターンを見て、いつもと違う場合は何か気づくことがあるかも。
  • 周期性を見て、対策するべき時間帯とか考えていくのも大事だなと思う。
  • *1BOND GATEは日単位で見ると朝、(昼)、夕方にWebリクエスト多め。週単位だと金曜日が多めの環境もある。
  • 毎日眺めて、初めて得られるものの気がする。
分位数
  • あまり馴染みのない数値。
  • Herokuのメトリクスページにレスポンスタイムの分位数が表示されている。
  • 外れ値を無視して基本的な性能を表してくれるので、中央値の金持ちがいないケースにするって感じかな。
  • データの大部分の傾向は分かるが、ある程度のデータは捨てられるので、平均値出すのは駄目。
標準偏差
  • 正規分布している場合しか信用ならないので注意。
  • 監視ではあまり使わないほうがいいということが分かった。
章のまとめ
  • あまり実数ばかりを見ていても分からないことがあるので、ふんわり傾向を掴むことが大事だなと思った。
  • データポイントに上限下限があるか確認しよう。閾値を考える時に意識したい。
  • ディスク使用率・使用量、両方あるけど、どちらを監視すべきだろうか。
    => 両方監視するべきだと思う。

まとめ

実際に、Herokuのメトリクスを開いてレスポンスタイムの表示確認や利用シーンについて議論しました。
また、MackerelやNewRelicで各製品にどのような周期性があるか確認し、傾向を知ることが出来ました。
これらの統計値を上手く使って、改善出来ればと思います。

次回は「5章 ビジネスを監視する」です。

*1:直観的で使いやすい、店長支援のためのSC・専門店向けコミュニケーションウェアです。(ホームページ商品説明引用)