大規模インフラの監視システム その2
こんにちは。グリーのmdoi(@m_doi)です。 今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られなかったので、気になっていた方も多いと思います。ということで、今回は、グリーのインフラにおける死活監視やログ監視、アラート通知システムを紹介したいと思います。 何を使っているの?...
View ArticleSQS、ElastiCache、Lambdaで作る高可用なアラート通知システム
インフラのいわほり(@egmc)です。 サーバ監視を構成するシステムは色々ありますが、今回はAWS環境上での監視に使われているアラート通知の仕組みについて紹介させて頂きます。...
View ArticlePrometheusによる数百台規模のモニタリングで直面した問題について
インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2年がたち、1台のPrometheusで数百台規模のインスタンスをモニタリングするなかで、さまざまな問題に直面しました。...
View ArticleStackdriver Monitoringの機能拡張
インフラの反田です。AWSやGCPのモニタリングまわりを担当しています。 GREEでは、大部分のサービスをAWSで運用していますが、一部の新しいサービスではGCPも利用しています。...
View Article6年くらい前に自作した metric がそこそこ有用だと思うので、OSSで公開します
こんにちわ。せじまです。 秋くらいから艦これ再開したので、ちょうどよいWindowsタブレットはないものかと物色しており、 Surface GO LTE Advanced(一般向け)の発売を待ちわびている今日この頃です。 はじめに はるか昔kernel 2.6 の頃、Load Average が低めに出てしまうというバグがありました。 当時、弊社では Load Average...
View ArticleSREcon19 Americasに参加してきました
開発本部インフラストラクチャ部の岩堀・反田です。 私達は部内のチームへの所属の他、Monitoring Unitというチームに属しており、サーバ監視システムの運用を担当しております。 今回Unitとして3/25-27にブルックリンにて開催されたSREcon19 Americasへ参加してきましたので、簡単にレポートさせて頂きたいと思います。 SREconについて...
View Article10年もののメトリクス収集機構をリプレースした話
インフラのいわほり(@egmc)です。 久々のエントリとなりますが、今回はインフラのMonitoring Unitとして長期的に取り組んでいた監視システムのリプレースについてのお話になります。 背景含めて長いエントリとなりますが、監視システムの長期的な運用の考え方、リプレースにあたって考慮した点などなにがしか参考になる点があれば幸いです。 何を移行したか?...
View ArticleManaged Prometheusを用いたGKE監視基盤の話
こんにちは、インフラの小林です。 GCP環境の監視基盤が一段落し実績も積めてきたので、アーキテクチャについて簡単に紹介します。この記事ではメトリックに焦点を当てています。Prometheusを用いたGCP監視基盤を検討している方や、Managed Prometheusを検討している方の参考になれば幸いです。 アーキテクチャ 比較のためにAWS EKS環境と合わせて紹介します。 AWS (EKS)...
View Article
More Pages to Explore .....