安価で安定した自前運用の自社サービス向け監視システム
時雨堂では Sora Cloud という商用向け WebRTC SFU Sora というパッケージ製品のクラウド版サービスを提供してます。
このサービスは Akamai Connected Cloud を利用しているのですが、その監視システムを人に話をすると安価な事に驚かれるので、利用技術や構成を簡単に紹介していきます。
ただ、自分は技術選定を担当しただけで、実際に運用をしているわけではないので詳しい話はできないので、ざっくり紹介になります。
構成
難しい事はしておらず、VictoriaMetrics と Prometheus Exporter の構成で、それを Grafana を利用して監視しています。通信経路は全て Tailscale です。
HTTPS などは利用せず全て Tailscale 経由で利用しています。Grafana を確認する場合も Tailscale 経由です。
外形監視のため、Akamai 以外のクラウドサービスを利用して監視システムを構築しています。アラートは Slack による通知で、何かある場合はメンションが飛ぶようになってます。
そもそも Sora は Raft ベースの分散システムなので 全ノードのうち過半数以上に障害が発生し停止しない限りは Sora 自体は継続します。
今までの自社サービス障害は主に「自社が利用しているクラウドサービスの障害」でした。どうしようもないやつです ... 。
費用
- クラウドサービスが月 $30 未満
- インスタンス費用 + ストレージ費用
- 転送量は Akamai やクラウドサービスの無料枠で足りているので $0
- Tailscale はそもそも別の用途がメインなので費用には含んでいません
- 含んでも年 $500 未満です
月 $30 未満で、多くの種類の統計情報を取得して監視システムを維持しています。監視システム自体の障害はサービス運用開始してから全く問題無くとても安定稼働してくれています。VictoriaMetrics 本当にお勧めです。