重要
このページの日本語コンテンツは古くなっている可能性があります。最新の英語版コンテンツをご覧になるには、こちらをクリックしてください。
Google Cloud BigTable Sink Connector for Confluent Cloud¶
注釈
Confluent Platform 用にコネクターをローカルにインストールする場合は、「Google Cloud BigTable Sink Connector for Confluent Platform」を参照してください。
Kafka Connect Google Cloud BigTable Sink Connector for Confluent Cloud を使用すると、Apache Kafka® のデータを Google Cloud BigTable に移動できます。このコネクターにより、Kafka のトピックのデータが、指定された BigTable インスタンスのテーブルに書き込まれます。
機能¶
- 挿入とアップサートのサポート: Google Cloud BigTable で行の挿入と行のアップデートを実行できます。
- テーブルおよび列ファミリの自動作成: 不足しているテーブルと不足している列ファミリを作成できます。
- レコードフィールドからの行キーの作成: Kafka レコードキーフィールド名のコンマ区切りのリストを連結して行キーを形成できます。
- 少なくとも 1 回のデリバリー: レコードが少なくとも 1 回は配信されることが保証されます。
- 複数のタスクのサポート: 1 つまたは複数のタスクの実行をサポートしています。
- 入力データのフォーマット: Avro、JSON Schema、Protobuf 入力データをサポートします。スキーマレジストリ ベースのフォーマット(Avro、JSON_SR(JSON スキーマ)、Protobuf など)を使用するには、Schema Registry を有効にしておく必要があります。
Confluent Cloud API for Connect の詳細と使用例については、「Confluent Cloud API for Connect」セクションを参照してください。
制限¶
以下の情報を確認してください。
- コネクターの制限事項については、Google BigTable Sink Connector の制限事項を参照してください。
- 1 つ以上の Single Message Transforms(SMT)を使用する場合は、「SMT の制限」を参照してください。
- Confluent Cloud Schema Registry を使用する場合は、「スキーマレジストリ Enabled Environments」を参照してください。
クイックスタート¶
このクイックスタートを使用して、Google Cloud BigTable Sink Connector の利用を開始することができます。このクイックスタートでは、コネクターを選択し、BigTable インスタンスにイベントをストリーミングするようにコネクターを構成する基本的な方法について説明します。
- 前提条件
Google Cloud 上の BigTable インスタンスへのアクセスを許可されていること。
Google Cloud サービスアカウントの JSON キーファイル。サービスアカウントの作成時に、キーを作成してダウンロードします。キーは、JSON ファイルとしてダウンロードする必要があります。サービスアカウントに BigTable に対する書き込みアクセス許可 が必要です。最小限のアクセス許可は以下のとおりです。
bigtable.tables.create bigtable.tables.mutateRows bigtable.tables.get bigtable.tables.update bigtable.tables.readRows bigtable.tables.list bigtable.tables.delete
- Kafka クラスターの認証情報。次のいずれかの方法で認証情報を指定できます。
- 既存の サービスアカウント のリソース ID を入力する。
- コネクター用の Confluent Cloud サービスアカウント を作成する。サービスアカウントのドキュメント で、必要な ACL エントリを確認してください。一部のコネクターには固有の ACL 要件があります。
- Confluent Cloud の API キーとシークレットを作成する。キーとシークレットを作成するには、confluent api-key create を使用するか、コネクターのセットアップ時に Cloud Console で直接 API キーとシークレットを自動生成します。
- BigTable インスタンスと Kafka クラスターは同じリージョンに存在している必要があります。
- Confluent Cloud CLI がインストールされ、クラスター用に構成されていること。「Confluent Cloud CLI のインストール」を参照してください。
- スキーマレジストリ ベースのフォーマット(Avro、JSON_SR(JSON スキーマ)、Protobuf など)を使用するには、Schema Registry を有効にしておく必要があります。
Confluent Cloud Console を使用する場合¶
ステップ 1: Confluent Cloud クラスターを起動します。¶
インストール手順については、「Quick Start for Confluent Cloud」を参照してください。
ステップ 2: コネクターを追加します。¶
左のナビゲーションメニューの Data integration をクリックし、Connectors をクリックします。クラスター内に既にコネクターがある場合は、+ Add connector をクリックします。
ステップ 4: コネクターの詳細情報を入力します。¶
注釈
- すべての 前提条件 を満たしていることを確認してください。
- アスタリスク( * )は必須項目であることを示しています。
Add Google Cloud BigTable Sink Connector 画面で、以下を実行します。
既に Kafka トピックを用意している場合は、Topics リストから接続するトピックを選択します。
新しいトピックを作成するには、+Add new topic をクリックします。
- Kafka Cluster credentials で Kafka クラスターの認証情報の指定方法を選択します。以下のいずれかのオプションを選択できます。
- Global Access: コネクターは、ユーザーがアクセス権限を持つすべての対象にアクセスできます。グローバルアクセスの場合、コネクターのアクセス権限は、ユーザーのアカウントにリンクされます。このオプションは本稼働環境では推奨されません。
- Granular access: コネクターのアクセスが制限されます。コネクターのアクセス権限は サービスアカウント から制御できます。本稼働環境にはこのオプションをお勧めします。
- Use an existing API key: 保存済みの API キーおよびシークレット部分を入力できます。API キーとシークレットを入力するか Cloud Console でこれらを生成することもできます。
- Continue をクリックします。
- GCP 認証情報ファイル をアップロードします。これは、Cloud Bigtable の書き込みアクセス許可が設定された GCP サービスアカウントの JSON ファイルです。
- BigTable の プロジェクト ID を入力します。これは、接続先の Cloud Bigtable プロジェクトの ID です。
- BigTable の インスタンス ID を入力します。これは、接続先の Cloud Bigtable インスタンスの ID です。
注釈
Cloud Console に表示されない構成プロパティでは、デフォルト値が使用されます。すべてのプロパティの値と定義については、「構成プロパティ」を参照してください。
Input Kafka record value format で、Kafka 入力レコード値のフォーマット(Kafka トピックから送られるデータ)を AVRO、JSON_SR(JSON スキーマ)、PROTOBUF、JSON、BYTES から選択します。スキーマベースのメッセージフォーマット(Avro、JSON_SR(JSON スキーマ)、Protobuf など)を使用するには、有効なスキーマが Schema Registry に存在する必要があります。
insert mode で、使用する挿入モードを選択します。
INSERT
: 標準的なINSERT
行関数を使用します。該当する行が既にテーブルに存在する場合は、エラーが発生します。UPSERT
: このモードはINSERT
と似ています。ただし、該当する行が既に存在する場合、UPSERT
関数は、指定された値で列の値を上書きします。
Show advanced configurations
Input record key format: AVRO、JSON_SR(JSON スキーマ)、PROTOBUF、JSON、STRING、または BYTES。スキーマベースのメッセージフォーマットを使用するには、有効なスキーマが Schema Registry に存在する必要があります。
Max batch size: アップサートのバッチにまとめることができる最大レコード数。挿入の場合はバッチサイズ 1 のみがサポートされているので、
insert.mode
をINSERT
に設定する場合は、max.batch.size を必ず 1 にする必要があります。Table name format: 送信先テーブルの名前のフォーマット文字列。元のトピック名を表すプレースホルダーとして
${topic}
を含めることができます。たとえば、orders
という名前の Kafka トピックに基づいてkafka-orders
という名前のテーブルを作成するには、このフィールドにkafka-${topic}
と入力します。Roy key definition: Kafka レコードキーフィールド名のコンマ区切りのリスト。行キーを形成する際に、ここで指定した順に Kafka キーフィールドが連結されます。
注釈
行キー定義のプロパティが空のままで、Kafka レコードキーが構造体の場合、その構造体のすべてのフィールドが行キーの作成に使用されます。レコードキーがバイト配列の場合、行キーにはバイト配列がそのまま設定されます。レコードキーがプリミティブの場合、行キーにはプリミティブ(文字列化されたもの)が設定されます。
Row key delimiter: 行キーで Kafka キーフィールドの連結に使用される区切り文字。この構成を空白または未指定にした場合、キーフィールドは直接連結されます。
Auto create tables: 送信先テーブルが存在しない場合に、テーブルを自動的に作成するかどうかを指定します。
Auto create column families: 列ファミリが存在しない場合に自動的に作成するかどうかを指定します。
すべてのプロパティの値と定義については、「構成プロパティ」を参照してください。
Continue をクリックします。
選択するトピックのパーティション数に基づいて、推奨タスク数が表示されます。
- 推奨されたタスク数を変更するには、Tasks フィールドに、コネクターで使用する タスク の数を入力します。
- Continue をクリックします。
接続の詳細情報を確認します。
Launch をクリックします。
コネクターのステータスが Provisioning から Running に変わります。
ステップ 5: BigTable で結果を確認します。¶
BigTable インスタンスでテーブルにデータが入力されていることを確認します。
Confluent Cloud API for Connect の詳細と使用例については、「Confluent Cloud API for Connect」セクションを参照してください。
ちなみに
コネクターを起動すると、デッドレターキューのトピックが自動的に作成されます。詳細については、「Confluent Cloud デッドレターキュー」を参照してください。
参考
フルマネージド型の Confluent Cloud コネクターが Confluent Cloud ksqlDB でどのように動作するかを示す例については、「Cloud ETL のデモ」を参照してください。この例では、Confluent CLI を使用して Confluent Cloud のリソースを管理する方法についても説明しています。
Confluent Cloud CLI を使用する場合¶
Confluent Cloud CLI でコネクターをセットアップして実行するには、次の手順を実行します。
注釈
すべての 前提条件 を満たしていることを確認してください。
ステップ 2: コネクターの必須の構成プロパティを表示します。¶
以下のコマンドを実行して、コネクターの必須プロパティを表示します。
confluent connect plugin describe <connector-catalog-name>
例:
ccloud connector-catalog describe BigTableSink
出力例:
Following are the required configs:
connector.class: BigTableSink
input.data.format
name
kafka.api.key
kafka.api.secret
gcp.bigtable.credentials.json
gcp.bigtable.project.id
gcp.bigtable.instance.id
tasks.max
topics
ステップ 3: コネクターの構成ファイルを作成します。¶
コネクター構成プロパティを含む JSON ファイルを作成します。以下の例は、コネクターの必須プロパティを示しています。
{
"name": "BigTableSinkConnector_0",
"config": {
"topics": "pageviews",
"input.data.format": "AVRO",
"input.key.format": "STRING",
"connector.class": "BigTableSink",
"name": "BigTableSinkConnector_0",
"kafka.api.key": "****************",
"kafka.api.secret": "*************************************************",
"gcp.bigtable.credentials.json": "*",
"gcp.bigtable.project.id": "connect-123456789",
"gcp.bigtable.instance.id": "confluent",
"insert.mode": "INSERT",
"auto.create.tables": "true",
"auto.create.column.families": "true",
"tasks.max": "1"
}
}
以下のプロパティ定義に注意してください。
"name"
: 新しいコネクターの名前を設定します。"connector.class"
: コネクターのプラグイン名を指定します。"topics"
: 特定のトピック名を指定するか、複数のトピック名をコンマ区切りにしたリストを指定します。"input.data.format"
: Kafka 入力レコード値のフォーマット(Kafka トピックから送られるデータ)を設定します。指定可能なエントリは、AVRO、JSON_SR、または PROTOBUF です。スキーマベースのメッセージフォーマット(たとえば、Avro、JSON_SR(JSON スキーマ)、および Protobuf)を使用するには、Confluent Cloud Schema Registry を構成しておく必要があります。"input.key.format"
: 入力レコードキーフォーマット( Kafka トピックから送られるデータ)を設定します。指定可能なエントリは、AVRO、BYTES、JSON、JSON_SR (JSON スキーマ)、PROTOBUF、または STRING です。スキーマベースのメッセージフォーマットを使用する場合は、Confluent Cloud Schema Registry を構成しておく必要があります。"gcp.bigtable.credentials.json"
: このプロパティには、ダウンロードした JSON ファイルの内容が含まれます。ダウンロードした認証情報ファイルのフォーマットを変更して、その内容を使用する方法の詳細については、「キーファイル認証情報のフォーマットの変更」を参照してください。"insert.mode"
: 挿入モードを入力します。デフォルトのモードはUPSERT
です。"INSERT"
: 標準的な挿入行関数です。該当する行が既にテーブルに存在する場合は、エラーが発生します。"UPSERT"
: このモードはINSERT
と似ています。ただし、該当する行が既に存在する場合に、UPSERT
関数は、指定された値で列の値を上書きします。
max.batch.size
:(オプション)テーブルに対する 1 回の挿入またはアップサートの操作で、バッチにまとめることができる最大レコード数。insert.mode
がINSERT
の場合、最大バッチサイズを1
に設定する必要があります。デフォルト値は1000
です。"auto.create.tables"
: テーブルが存在しない場合に自動的に作成するかどうかを指定します。デフォルト値はfalse
です。"auto.create.column.families"
: 列ファミリが存在しない場合に自動的に作成するかどうかを指定します。デフォルト値はfalse
です。
すべてのプロパティの値と説明については、「構成プロパティ」を参照してください。
ステップ 4: 構成ファイルを読み込み、コネクターを作成します。¶
以下のコマンドを入力して、構成を読み込み、コネクターを起動します。
ccloud connector create --config <file-name>.json
例:
ccloud connector create --config bigtable-sink-config.json
出力例:
Created connector BigTableSinkConnector_0 lcc-ix4dl
ステップ 5: コネクターのステータスを確認します。¶
以下のコマンドを入力して、コネクターのステータスを確認します。
ccloud connector list
出力例:
ID | Name | Status | Type
+-----------+-------------------------+---------+------+
lcc-ix4dl | BigTableSinkConnector_0 | RUNNING | sink
ステップ 6: BigTable で結果を確認します。¶
BigTable インスタンスでテーブルにデータが入力されていることを確認します。
Confluent Cloud API for Connect の詳細と使用例については、「Confluent Cloud API for Connect」セクションを参照してください。
ちなみに
コネクターを起動すると、デッドレターキューのトピックが自動的に作成されます。詳細については、「Confluent Cloud デッドレターキュー」を参照してください。
参考
フルマネージド型の Confluent Cloud コネクターが Confluent Cloud ksqlDB でどのように動作するかを示す例については、「Cloud ETL のデモ」を参照してください。この例では、Confluent CLI を使用して Confluent Cloud のリソースを管理する方法についても説明しています。
キーファイル認証情報のフォーマットの変更¶
ダウンロードした認証情報ファイルの内容は、コネクター構成で使用する前に、文字列フォーマットに変換する必要があります。
JSON ファイルの内容を文字列フォーマットに変換します。これは、オンラインのコンバーターツールを使用して実行できます。たとえば、JSON to String Online Converter などがあります。
Private Key セクションの
\n
のすべての出現箇所の前にエスケープ文字\
を追加します。これで、各セクションの先頭が\\n
になります(以下の強調表示された行を参照してください)。以下の例は、\\n
の出現箇所がわかりすいようにフォーマットを整えています。認証情報キーの大部分は省略しています。ちなみに
認証情報を文字列に変換し、さらに必要に応じてエスケープ文字を追加するスクリプトも用意されています。『Stringify GCP Credentials』を参照してください。
{ "name" : "BigTableSinkConnector_0", "connector.class" : "BigTableSink", "kafka.api.key" : "<my-kafka-api-keyk>", "kafka.api.secret" : "<my-kafka-api-secret>", "input.data.format": "AVRO", "topics" : "pageviews", "gcp.bigtable.credentials.json" : "{\"type\":\"service_account\",\"project_id\":\"connect- 1234567\",\"private_key_id\":\"omitted\", \"private_key\":\"-----BEGIN PRIVATE KEY----- \\nMIIEvAIBADANBgkqhkiG9w0BA \\n6MhBA9TIXB4dPiYYNOYwbfy0Lki8zGn7T6wovGS5\opzsIh \\nOAQ8oRolFp\rdwc2cC5wyZ2+E+bhwn \\nPdCTW+oZoodY\\nOGB18cCKn5mJRzpiYsb5eGv2fN\/J \\n...rest of key omitted... \\n-----END PRIVATE KEY-----\\n\", \"client_email\":\"pub-sub@connect-123456789.iam.gserviceaccount.com\", \"client_id\":\"123456789\",\"auth_uri\":\"https:\/\/accounts.google.com\/o\/oauth2\/ auth\",\"token_uri\":\"https:\/\/oauth2.googleapis.com\/ token\",\"auth_provider_x509_cert_url\":\"https:\/\/ www.googleapis.com\/oauth2\/v1\/ certs\",\"client_x509_cert_url\":\"https:\/\/www.googleapis.com\/ robot\/v1\/metadata\/x509\/pub-sub%40connect- 123456789.iam.gserviceaccount.com\"}", "gcp.bigtable.project.id": "<project-id>", "gcp.bigtable.instance.id": "<instance-id", "insert.mode": "UPSERT", "auto.create.tables": "true", "auto.create.column.families": "true", "tasks.max": "1" }
変換したすべての文字列の内容を、前述の例のように構成ファイルの
"gcp.bigtable.credentials.json"
認証情報セクションに追加します。
構成プロパティ¶
このコネクターでは、以下のコネクター構成プロパティを使用します。
データの取得元とするトピック(Which topics do you want to get data from?)¶
topics
特定のトピック名を指定するか、複数のトピック名をコンマ区切りにしたリストを指定します。
- 型: list
- 重要度: 高
入力メッセージ(Input messages)¶
input.data.format
Kafka 入力レコード値のフォーマットを設定します。指定可能なエントリは、AVRO、JSON_SR、PROTOBUF、JSON、または BYTES です。スキーマベースのメッセージフォーマット(AVRO、JSON_SR、PROTOBUF など)を使用する場合は、Confluent Cloud Schema Registry を構成しておく必要がある点に注意してください。
- 型: string
- 重要度: 高
input.key.format
Sets the input Kafka record key format. Valid entries are AVRO, BYTES, JSON, JSON_SR, PROTOBUF, or STRING. Note that you need to have Confluent Cloud Schema Registry configured if using a schema-based message format like AVRO, JSON_SR, and PROTOBUF
- 型: string
- デフォルト: JSON
- 指定可能な値: AVRO、BYTES、JSON、JSON_SR、PROTOBUF、STRING
- 重要度: 高
データへの接続方法(How should we connect to your data?)¶
name
コネクターの名前を設定します。
- 型: string
- 指定可能な値: 最大 64 文字の文字列
- 重要度: 高
Kafka クラスターの認証情報(Kafka Cluster credentials)¶
kafka.auth.mode
Kafka の認証モード。KAFKA_API_KEY または SERVICE_ACCOUNT を指定できます。デフォルトは KAFKA_API_KEY モードです。
- 型: string
- デフォルト: KAFKA_API_KEY
- 指定可能な値: KAFKA_API_KEY、SERVICE_ACCOUNT
- 重要度: 高
kafka.api.key
- 型: password
- 重要度: 高
kafka.service.account.id
Kafka クラスターとの通信用の API キーを生成するために使用されるサービスアカウント。
- 型: string
- 重要度: 高
kafka.api.secret
- 型: password
- 重要度: 高
GCP 認証情報(GCP credentials)¶
gcp.bigtable.credentials.json
Cloud Bigtable への書き込みアクセス許可が設定された GCP サービスアカウントの JSON ファイル。
- 型: password
- 重要度: 高
Cloud Bigtable インスタンスへの接続方法(How should we connect to your Cloud BigTable instance?)¶
gcp.bigtable.project.id
接続先の Cloud Bigtable プロジェクトの ID。
- 型: string
- 重要度: 高
gcp.bigtable.instance.id
接続先の Cloud Bigtable インスタンスの ID。
- 型: string
- 重要度: 高
データベースの詳細(Database details)¶
insert.mode
使用する挿入モード。
- 型: string
- デフォルト: UPSERT
- 指定可能な値: INSERT、UPSERT
- 重要度: 高
接続の詳細(Connection details)¶
max.batch.size
アップサートのバッチにまとめることができる最大レコード数。挿入の場合はバッチサイズ 1 のみがサポートされているので、insert.mode を INSERT に設定する場合は、max.batch.size を 1 にする必要があります。
- 型: int
- デフォルト: 1000
- 指定可能な値: [1,...,5000]
- 重要度: 中
データマッピング¶
table.name.format
送信先テーブルの名前のフォーマット文字列。元のトピック名を表すプレースホルダーとして ${topic} を含めることができます。たとえば、トピック「orders」の場合、kafka_${topic} はテーブル名「kafka_orders」にマッピングされます。
- 型: string
- デフォルト: ${topic}
- 重要度: 中
bigtable.row.key.definition
Kafka レコードキーフィールド名のコンマ区切りのリスト。行キーを形成する際に、ここで指定した順に Kafka キーフィールドが連結されます。
たとえば、「username, post_id, time_stamp」 というリストが Kafka キーに適用される場合、{'username': 'bob','post_id': '213', 'time_stamp': '123123'} と区切り文字 # により、行キーは「bob#213#123123」となります。区切り文字として . を使用することでも、キー内のネスト化した項目にアクセスできます。この構成が空白または未指定で、Kafka メッセージキーが構造体の場合、その構造体のすべてのフィールドが行キーの作成に使用されます。バイト配列の場合、行キーにはバイト配列がそのまま設定されます。プリミティブの場合、行キーには、プリミティブ(文字列化されたもの)が設定されます。
行キーに、プレフィックス、より複雑な区切り文字、文字列定数が必要な場合は、SMT を構成して、関連するフィールドを Kafka レコードキーに追加することを検討してください。
- 型: list
- デフォルト: ""
- 重要度: 中
bigtable.row.key.delimiter
行キーで Kafka キーフィールドの連結に使用される区切り文字。この構成を空白または未指定にした場合、キーフィールドは直接連結されます。
- 型: string
- デフォルト: ""
- 重要度: 低
auto.create.tables
送信先テーブルが存在しない場合に、テーブルを自動的に作成するかどうかを指定します。
- 型: ブール値
- デフォルト: false
- 重要度: 中
auto.create.column.families
レコードスキーマに関連する列ファミリがテーブルに存在しない場合に、列ファミリを自動的に作成するかどうかを指定します。
- 型: ブール値
- デフォルト: false
- 重要度: 中
このコネクターのタスク数(Number of tasks for this connector)¶
tasks.max
- 型: int
- 指定可能な値: [1,...]
- 重要度: 高
次のステップ¶
参考
フルマネージド型の Confluent Cloud コネクターが Confluent Cloud ksqlDB でどのように動作するかを示す例については、「Cloud ETL のデモ」を参照してください。この例では、Confluent CLI を使用して Confluent Cloud のリソースを管理する方法についても説明しています。