Health+ インテリジェントアラート

Health+ は、Confluent Platform サービスのパフォーマンスと構成をアクティブにモニタリングします。インテリジェントアラートを通じて、環境の潜在的な問題が重大になる前に、問題に関するアラートの通知を受け取ることができます。インテリジェントアラートを使用して、望ましくない動作状態について、コストのかかるダウンタイムやサービス停止に至る前に通知を行うよう設定します。

Health+ では、一般的に使用されるアラートは 無料枠 内で、アラートの拡張セットは 有料 で用意されています。

Confluent Platform デプロイについての通知は、Confluent Cloud Console の Intelligent alerts ページでセットアップします。

ちなみに

Health+ アラートで報告された問題の解決が難しい場合は、Confluent サポート にお問い合わせください。

アラートの深刻度レベル

以下の表に、サポートされている Health+ アラートの深刻度レベルを示します。モニタリング対象のメトリックによっては、すべてのアラートレベルがあるわけではありません。

ステート まとめ 説明
Critical 対応を強く推奨 問題が存在し、クラスター間のデータの移動が制限または妨げられている可能性があります。この問題に優先的に対応することをお勧めします。
Warning 今後の問題の可能性 該当するメトリクスは、正常な動作範囲を逸脱しつつあり、今後問題となる可能性があります。これらのメトリクスと推奨されるアクションを確認することをお勧めします。
情報 情報提供のイベント クラスターの通常の動作に関する情報提供のイベントです。確認することをお勧めします。

有料版のアラート

Disk Usage

ディスクボリュームの合計バイト数が、指定したしきい値のいずれかを超えたときにアラートで通知します。

深刻度レベル 深刻度のしきい値 説明
Critical ボリューム使用率> 90% 利用可能なディスクボリュームがなくなりかけています。
Warning ボリューム使用率> 70% ボリューム使用率が高くなっています。
情報 ボリューム使用率> 50% ボリューム使用率が 50% を超えていますが、まだ正常な動作範囲内と見なされます。

Fetch Request Latency

ブローカーでフェッチリクエストレイテンシが発生するのは正常ですが、レイテンシにかなり大きな増加がある場合は、コンシューマークライアントによるメッセージの取得に長い時間がかかっていることを示している可能性があります。

重要

フェッチリクエストレイテンシアラートは現在、早期アクセスプログラム の対象であり、ごく限られた早期導入者を対象に提供されています。早期アクセスプログラムの機能は、フィードバックを得るために導入されている Confluent Platform のコンポーネントです。この機能は、評価用、本稼働環境以外でのテスト用、あるいは Confluent にフィードバックを提供するためにのみ使用してください。早期アクセスプログラムの機能は、開発環境およびテスト環境のみでの評価用であり、本稼働環境での使用は想定されていません。Confluent との契約の保証およびサポートサービスの条項は、早期アクセスプログラムの機能には適用されません。Confluent は、Confluent 単独の裁量でいつでも早期アクセスプログラムの機能のプレビューリリースの提供を終了することができます。

深刻度レベル 深刻度のしきい値 説明
Warning 過去 15 分間のフェッチリクエストの平均レイテンシが、過去 24 時間のブローカーの平均レイテンシより 50% 超、大きい 1 つまたは複数のブローカーで、フェッチリクエストレイテンシが 50% 増加したことが検出されました。
情報 過去 15 分間のフェッチリクエストの平均レイテンシが、過去 24 時間のブローカーの平均レイテンシより 25% 超、大きい。 1 つまたは複数のブローカーで、フェッチリクエストレイテンシが 25% 増加したことが検出されました。

Fetch Follower Request Latency

重要

フェッチフォロワーリクエストレイテンシアラートは現在、早期アクセスプログラム の対象であり、ごく限られた早期導入者を対象に提供されています。早期アクセスプログラムの機能は、フィードバックを得るために導入されている Confluent Platform のコンポーネントです。この機能は、評価用、本稼働環境以外でのテスト用、あるいは Confluent にフィードバックを提供するためにのみ使用してください。早期アクセスプログラムの機能は、開発環境およびテスト環境のみでの評価用であり、本稼働環境での使用は想定されていません。Confluent との契約の保証およびサポートサービスの条項は、早期アクセスプログラムの機能には適用されません。Confluent は、Confluent 単独の裁量でいつでも早期アクセスプログラムの機能のプレビューリリースの提供を終了することができます。

深刻度レベル 深刻度のしきい値 説明
Warning 過去 15 分間のフェッチフォロワーリクエストの平均レイテンシが、過去 24 時間のブローカーの平均レイテンシより 50% 超、大きい 1 つまたは複数のブローカーで、フェッチフォロワーリクエストレイテンシが 50% 増加したことが検出されました。
情報 過去 15 分間のフェッチフォロワーリクエストの平均レイテンシが、過去 24 時間のブローカーの平均レイテンシより 25% 超、大きい。 1 つまたは複数のブローカーで、フェッチフォロワーリクエストレイテンシが 25% 増加したことが検出されました。

Network Processor Pool Usage

ネットワークプロセッサースレッドは、ネットワーク上のクライアント間でのデータの読み書きを行います。

深刻度レベル 深刻度のしきい値 説明
Critical プール使用率 > 90% 使用率が 90% を超えると、ネットワークプロセッサープールが過負荷になり、クライアントリクエストの完了までの時間が長くなる可能性があります。
Warning プール使用率 > 70% スレッドの計算負荷は高くなっていないため、使用率が 70% を超えても、ネットワークプロセッサープール使用率はまだ正常動作範囲内です。
情報 プール使用率 > 50% 使用率が 50% を超えても、ネットワークプロセッサープールはまだ正常な動作範囲内と見なされます。

Produce Request Latency

ブローカーで生成リクエストレイテンシが発生するのは正常ですが、レイテンシにかなり大きな増加がある場合は、コンシューマーによるメッセージの取得の待機時間が長くなる可能性があります。

重要

生成リクエストレイテンシアラートは現在、早期アクセスプログラム の対象であり、ごく限られた早期導入者を対象に提供されています。早期アクセスプログラムの機能は、フィードバックを得るために導入されている Confluent Platform のコンポーネントです。この機能は、評価用、本稼働環境以外でのテスト用、あるいは Confluent にフィードバックを提供するためにのみ使用してください。早期アクセスプログラムの機能は、開発環境およびテスト環境のみでの評価用であり、本稼働環境での使用は想定されていません。Confluent との契約の保証およびサポートサービスの条項は、早期アクセスプログラムの機能には適用されません。Confluent は、Confluent 単独の裁量でいつでも早期アクセスプログラムの機能のプレビューリリースの提供を終了することができます。

深刻度レベル 深刻度のしきい値 説明
Warning 過去 15 分間の生成リクエストの平均レイテンシが、過去 24 時間のブローカーの平均レイテンシより 50% 超、大きい。 1 つまたは複数のブローカーで、生成リクエストレイテンシが 50% 増加したことが検出されました。
情報 過去 15 分間の生成リクエストの平均レイテンシが、過去 24 時間のブローカーの平均レイテンシより 25% 超、大きい。 1 つまたは複数のブローカーで、生成リクエストレイテンシが 25% 増加したことが検出されました。

Request Handler Pool Usage

リクエストハンドラースレッドは、クライアント間のリクエストの処理(ディスクの読み書きを含む)を行います。

深刻度レベル 深刻度のしきい値 説明
Critical プール使用率 > 90% 使用率が 90% を超えると、リクエストハンドラーが過負荷になり、クライアントリクエストの完了までの時間が長くなる可能性があります。
Warning プール使用率 > 70% 使用率が 70% を超えると、リクエストハンドラーが該当のブローカーで過負荷の範囲に近づいています。
情報 プール使用率 > 50% 使用率が 50% を超えても、リクエストハンドラーはまだ正常な動作範囲内と見なされます。

無料枠のアラート

Active Controller Count

コントローラーは、パーティションリーダーのリストの維持とリーダーシップの譲渡の調整(トピックの作成)を行います。

通常の動作では、現在のコントローラーが利用できなくなった場合に新しいコントローラーが自動的に選択される必要があります。これが機能しないか複数のコントローラーがアクティブである場合は問題が発生します。

  • アクティブコントローラーの数が 1 未満の場合、プロデューサーとコンシューマーではパーティションリーダーを得られなくなります。
  • アクティブコントローラーの数が 1 より大きい場合は、スプリットブレインの状況になっており、データの整合性で深刻な問題が発生する可能性があります。
深刻度レベル 深刻度のしきい値 説明
Critical アクティブコントローラーの数が 1 以外の状態が 30 分を超えている このクラスターのアクティブコントローラーの数について、持続的な異常ステートが検出されました。
Warning アクティブコントローラーの数が 1 以外の状態が 15 分を超えている 現在のクラスターのアクティブコントローラーの数について、異常ステートが検出されました。

Connector Is Failed

すべてのコネクターとタスクが失敗しています。

特定のコネクターで、connector_failed_task_countconnector_total_task_count と等しくなっています。

深刻度レベル 深刻度のしきい値 説明
Critical コネクタータスクが失敗し、connector_failed_task_count > 0 になっている。 コネクターのステータスが失敗ステータスになっています。

Connector Is Degraded

1 つまたは複数のコネクタータスクが失敗しています。

特定のコネクターで、connector_failed_task_count が 0 を超えていますが、connector_total_task_count とは等しくありません。

深刻度レベル 深刻度のしきい値 説明
Warning 一部のコネクタータスクは失敗したが、connector_total_task_count より小さい。 コネクターは、タスクの失敗により機能低下ステートになっています。

ksqlDB Error Queries

特定の ksqlDB エンジンで、エラーを生成するクエリ数が 0 より大きい状態が 1 分間を超えています。

深刻度レベル 深刻度のしきい値 説明
Critical error_queries > 0 ksqlDB にエラーステートのクエリがあります。

Offline Partitions

"オフラインパーティション" は、アクティブなリーダーが存在しないために、書き込みも読み取りもできないパーティションです。オフラインパーティションがあると、クラスターのデータ可用性が損なわれます。

深刻度レベル 深刻度のしきい値 説明
Critical オフラインパーティション > 0 オフラインパーティションがあると、クラスターのデータ可用性が損なわれます。

Unclean Leader Elections

クリーンでないリーダー選出は、利用可能な同期レプリカがない特殊なケースです。各トピックにはリーダーが必要であるため、非同期レプリカ間でリーダー選出が行われ、リーダーが選出されます。これは、前のリーダーが失われる前に同期されていなかったメッセージが永久に失われることを意味します。実質的に、クリーンでないリーダー選出により、可用性に関する一貫性が犠牲にされます。

深刻度レベル 深刻度のしきい値 説明
Critical クリーンではないリーダー選出 > 0 クリーンでないリーダー選出により、可用性に関する一貫性が犠牲にされます。

Under Replicated Partitions

レプリケーション数が不足しているパーティションは、ブローカーが停止しているか、リーダーからのレプリケートが追い付いていない(レプリカフェッチャーラグ)場合に発生する可能性があります。

深刻度レベル 深刻度のしきい値 説明
Critical レプリケーション数が不足しているパーティションが調査期間の すべて のデータポイントで > 0 クラスターで、長時間レプリケーション数が不足しているパーティションが検出されました。
Warning レプリケーション数が不足しているパーティションが調査期間の 一部 のデータポイントで > 0 クラスターで、一定時間レプリケーション数が不足しているパーティションが検出されました。

Under Min In-Sync Replicas

パーティションの同期レプリカ数が min.insync.replicas より少ない場合は、NotEnoughReplicas 例外によりクライアントでの生成ができません。プロデューサーは、その構成に従って再試行する可能性があります。レプリカ数が最小 ISR(同期レプリカ)を下回るパーティションがある場合、データ生成がブロックされます。

深刻度レベル 深刻度のしきい値 説明
Critical 最小同期レプリカ数未満 > 0 最小 ISR を下回っているパーティションが検出されました。データ生成がブロックされています。