Health+ インテリジェントアラート¶
Health+ は、Confluent Platform サービスのパフォーマンスと構成をアクティブにモニタリングします。インテリジェントアラートを通じて、環境の潜在的な問題が重大になる前に、問題に関するアラートの通知を受け取ることができます。インテリジェントアラートを使用して、望ましくない動作状態について、コストのかかるダウンタイムやサービス停止に至る前に通知を行うよう設定します。
Health+ では、一般的に使用されるアラートは 無料枠 内で、アラートの拡張セットは 有料 で用意されています。
Confluent Platform デプロイについての通知は、Confluent Cloud Console の Intelligent alerts ページでセットアップします。
ちなみに
Health+ アラートで報告された問題の解決が難しい場合は、Confluent サポート にお問い合わせください。
アラートの深刻度レベル¶
以下の表に、サポートされている Health+ アラートの深刻度レベルを示します。モニタリング対象のメトリックによっては、すべてのアラートレベルがあるわけではありません。
ステート | まとめ | 説明 |
---|---|---|
Critical | 対応を強く推奨 | 問題が存在し、クラスター間のデータの移動が制限または妨げられている可能性があります。この問題に優先的に対応することをお勧めします。 |
Warning | 今後の問題の可能性 | 該当するメトリクスは、正常な動作範囲を逸脱しつつあり、今後問題となる可能性があります。これらのメトリクスと推奨されるアクションを確認することをお勧めします。 |
情報 | 情報提供のイベント | クラスターの通常の動作に関する情報提供のイベントです。確認することをお勧めします。 |
無料枠のアラート¶
Active Controller Count¶
コントローラーは、パーティションリーダーのリストの維持とリーダーシップの譲渡の調整(トピックの作成)を行います。
通常の動作では、現在のコントローラーが利用できなくなった場合に新しいコントローラーが自動的に選択される必要があります。これが機能しないか複数のコントローラーがアクティブである場合は問題が発生します。
- アクティブコントローラーの数が 1 未満の場合、プロデューサーとコンシューマーではパーティションリーダーを得られなくなります。
- アクティブコントローラーの数が 1 より大きい場合は、スプリットブレインの状況になっており、データの整合性で深刻な問題が発生する可能性があります。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Critical | アクティブコントローラーの数が 1 以外の状態が 30 分を超えている | このクラスターのアクティブコントローラーの数について、持続的な異常ステートが検出されました。 |
Warning | アクティブコントローラーの数が 1 以外の状態が 15 分を超えている | 現在のクラスターのアクティブコントローラーの数について、異常ステートが検出されました。 |
Connector Is Failed¶
すべてのコネクターとタスクが失敗しています。
特定のコネクターで、connector_failed_task_count
が connector_total_task_count
と等しくなっています。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Critical | コネクタータスクが失敗し、connector_failed_task_count > 0 になっている。 |
コネクターのステータスが失敗ステータスになっています。 |
Connector Is Degraded¶
1 つまたは複数のコネクタータスクが失敗しています。
特定のコネクターで、connector_failed_task_count
が 0 を超えていますが、connector_total_task_count
とは等しくありません。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Warning | 一部のコネクタータスクは失敗したが、connector_total_task_count より小さい。 |
コネクターは、タスクの失敗により機能低下ステートになっています。 |
ksqlDB Error Queries¶
特定の ksqlDB エンジンで、エラーを生成するクエリ数が 0 より大きい状態が 1 分間を超えています。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Critical | error_queries > 0 |
ksqlDB にエラーステートのクエリがあります。 |
Offline Partitions¶
"オフラインパーティション" は、アクティブなリーダーが存在しないために、書き込みも読み取りもできないパーティションです。オフラインパーティションがあると、クラスターのデータ可用性が損なわれます。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Critical | オフラインパーティション > 0 | オフラインパーティションがあると、クラスターのデータ可用性が損なわれます。 |
Unclean Leader Elections¶
クリーンでないリーダー選出は、利用可能な同期レプリカがない特殊なケースです。各トピックにはリーダーが必要であるため、非同期レプリカ間でリーダー選出が行われ、リーダーが選出されます。これは、前のリーダーが失われる前に同期されていなかったメッセージが永久に失われることを意味します。実質的に、クリーンでないリーダー選出により、可用性に関する一貫性が犠牲にされます。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Critical | クリーンではないリーダー選出 > 0 | クリーンでないリーダー選出により、可用性に関する一貫性が犠牲にされます。 |
Under Replicated Partitions¶
レプリケーション数が不足しているパーティションは、ブローカーが停止しているか、リーダーからのレプリケートが追い付いていない(レプリカフェッチャーラグ)場合に発生する可能性があります。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Critical | レプリケーション数が不足しているパーティションが調査期間の すべて のデータポイントで > 0 | クラスターで、長時間レプリケーション数が不足しているパーティションが検出されました。 |
Warning | レプリケーション数が不足しているパーティションが調査期間の 一部 のデータポイントで > 0 | クラスターで、一定時間レプリケーション数が不足しているパーティションが検出されました。 |
Under Min In-Sync Replicas¶
パーティションの同期レプリカ数が min.insync.replicas
より少ない場合は、NotEnoughReplicas
例外によりクライアントでの生成ができません。プロデューサーは、その構成に従って再試行する可能性があります。レプリカ数が最小 ISR(同期レプリカ)を下回るパーティションがある場合、データ生成がブロックされます。
深刻度レベル | 深刻度のしきい値 | 説明 |
---|---|---|
Critical | 最小同期レプリカ数未満 > 0 | 最小 ISR を下回っているパーティションが検出されました。データ生成がブロックされています。 |