重要
このページの日本語コンテンツは古くなっている可能性があります。最新の英語版コンテンツをご覧になるには、こちらをクリックしてください。
Google Cloud Spanner Sink Connector for Confluent Cloud¶
注釈
Confluent Platform 用にコネクターをローカルにインストールする場合は、「Google Cloud Spanner Sink Connector for Confluent Platform」を参照してください。
Kafka Connect Google Cloud Spanner Sink Connector for Confluent Cloud を使用すると、Apache Kafka® のデータを Google Cloud Spanner データベースに移動できます。このコネクターは、Kafka のトピックのデータを、指定された Spanner データベースのテーブルに書き込みます。テーブルの自動作成および制限付きの自動進化がサポートされます。
機能¶
Google Cloud Spanner Sink Connector には、以下の機能があります。
- コネクターは、Kafka レコードを Google Cloud Spanner データベースに挿入してアップサートします。
- このコネクターは、Avro、JSON スキーマ、Protobuf、または JSON(スキーマレス)の入力データフォーマットをサポートします。スキーマレジストリ ベースのフォーマット(Avro、JSON_SR(JSON スキーマ)、Protobuf など)を使用するには、Schema Registry を有効にしておく必要があります。
auto.create
およびauto-evolve
がサポートされます。テーブルまたは列がない場合に、自動的に作成することができます。- サポートされる PK モード は、
kafka
、none
、およびrecord_value
です。PK Fields プロパティと組み合わせて使用します。
Connect 用の Confluent Cloud API の使用に関する詳細とサンプルについては、「Confluent Cloud API for Connect」セクションを参照してください。
制限¶
以下の情報を確認してください。
- コネクターの制限事項については、Google Cloud Spanner Sink Connector の制限事項を参照してください。
- 1 つ以上の Single Message Transforms(SMT)を使用する場合は、「SMT の制限」を参照してください。
- Confluent Cloud Schema Registry を使用する場合は、「スキーマレジストリ Enabled Environments」を参照してください。
クイックスタート¶
このクイックスタートを使用して、Confluent Cloud Google Cloud Spanner Sink Connector の利用を開始することができます。このクイックスタートでは、コネクターを選択し、Spanner データベースにイベントをストリーミングするようにコネクターを構成するための基本的な方法について説明します。
- 前提条件
- GCP 上の Confluent Cloud クラスターへのアクセスを許可されていること。
- Confluent CLI がインストールされ、クラスター用に構成されていること。「Confluent CLI のインストール」を参照してください。
- スキーマレジストリ ベースのフォーマット(Avro、JSON_SR(JSON スキーマ)、Protobuf など)を使用するには、Schema Registry を有効にしておく必要があります。詳細については、「スキーマレジストリ Enabled Environments」を参照してください。
- 正常に機能する Google Cloud Spanner インスタンスおよびデータベース(テーブルは自動作成されます)。Google Cloud Console を使用してインスタンスを作成するために必要な手順については、『Console を使用したクイックスタート』を参照してください。
- GCP サービスアカウント。サービスアカウントの 認証情報を JSON ファイル 形式でダウンロードします。コネクター構成のセットアップ時にこれらの認証情報を使用します。
- Kafka クラスターの認証情報。次のいずれかの方法で認証情報を指定できます。
- 既存の サービスアカウント のリソース ID を入力する。
- コネクター用の Confluent Cloud サービスアカウント を作成します。「サービスアカウント」のドキュメントで、必要な ACL エントリを確認してください。一部のコネクターには固有の ACL 要件があります。
- Confluent Cloud の API キーとシークレットを作成する。キーとシークレットを作成するには、confluent api-key create を使用するか、コネクターのセットアップ時に Cloud Console で直接 API キーとシークレットを自動生成します。
Confluent Cloud Console の使用¶
ステップ 1: Confluent Cloud クラスターを起動します。¶
インストール手順については、「Quick Start for Confluent Cloud」を参照してください。
ステップ 2: コネクターを追加します。¶
左のナビゲーションメニューの Data integration をクリックし、Connectors をクリックします。クラスター内に既にコネクターがある場合は、+ Add connector をクリックします。
ステップ 4: コネクターの詳細情報を入力します。¶
注釈
- すべての 前提条件 を満たしていることを確認してください。
- アスタリスク ( * )は必須項目であることを示しています。
Add Google Cloud Spanner Sink Connector 画面で、以下を実行します。
既に Kafka トピックを用意している場合は、Topics リストから接続するトピックを選択します。
新しいトピックを作成するには、+Add new topic をクリックします。
- Kafka Cluster credentials で Kafka クラスターの認証情報の指定方法を選択します。以下のいずれかのオプションを選択できます。
- Global Access: コネクターは、ユーザーがアクセス権限を持つすべての対象にアクセスできます。グローバルアクセスの場合、コネクターのアクセス権限は、ユーザーのアカウントにリンクされます。このオプションは本稼働環境では推奨されません。
- Granular access: コネクターのアクセスが制限されます。コネクターのアクセス権限は サービスアカウント から制御できます。本稼働環境にはこのオプションをお勧めします。
- Use an existing API key: 保存済みの API キーおよびシークレット部分を入力できます。API キーとシークレットを入力するか Cloud Console でこれらを生成することもできます。
- Continue をクリックします。
- GCP 認証情報の JSON ファイルをアップロードします。
- Spanner instance ID フィールドに、接続先の Spanner インスタンスの ID を入力します。
- Spanner database ID フィールドに、テーブルが配置されているデータベース、またはテーブルが作成されるデータベースのデータベース ID を入力します。
- Continue をクリックします。
注釈
Cloud Console に表示されない構成プロパティでは、デフォルト値が使用されます。すべてのプロパティの値と定義については、「構成プロパティ」を参照してください。
Input Kafka record value で、Kafka 入力レコード値のフォーマット(Kafka トピックから送られるデータ)を AVRO、JSON_SR、または PROTOBUF から選択します。スキーマベースのメッセージフォーマット(Avro、JSON スキーマ、Protobuf など)を使用するには、有効なスキーマが Schema Registry に存在する必要があります。
挿入モード を選択します。
INSERT
: 標準的なINSERT
行関数を使用します。該当する行が既にテーブルに存在する場合は、エラーが発生します。UPSERT
: このモードはINSERT
と似ています。ただし、該当する行が既に存在する場合に、UPSERT
関数は、指定された値で列の値を上書きします。
Show advanced configurations
Table name format: 送信先テーブルの名前のフォーマット文字列。元のトピック名を表すプレースホルダーとして
${topic}
を含めることができます。たとえば、orders
という名前の Kafka トピックに基づいてkafka-orders
という名前のテーブルを作成するには、このフィールドにkafka-${topic}
と入力します。PK mode: プライマリキーモード。
PK Fields: プライマリキーのフィールド名をコンマ区切りにしたリスト。
Max batch size: Spanner に対する 1 回の挿入またはアップサートの操作でバッチにまとめることができる最大レコード数。
Auto create table: 送信先テーブルが存在しない場合に、テーブルを自動的に作成するかどうかを指定します。
Auto add columns: 列が存在しない場合に、テーブルに列を自動的に追加するかどうかを指定します。
Transforms and Predicates については、Single Message Transforms(SMT) のドキュメントを参照してください。
すべてのプロパティの値と定義については、「構成プロパティ」を参照してください。
Continue をクリックします。
選択するトピックのパーティション数に基づいて、推奨タスク数が表示されます。
- 推奨されたタスク数を変更するには、Tasks フィールドに、コネクターで使用する タスク の数を入力します。
- Continue をクリックします。
ステップ 5: Spanner で結果を確認します。¶
- Google Cloud Console で、Spanner プロジェクトに移動します。
- 新しいレコードが Spanner データベースに追加されていることを確認します。
Connect 用の Confluent Cloud API の使用に関する詳細とサンプルについては、「Confluent Cloud API for Connect」セクションを参照してください。
ちなみに
コネクターを起動すると、デッドレターキューのトピックが自動的に生成されます。詳細については、「Confluent Cloud デッドレターキュー」を参照してください。
参考
フルマネージド型の Confluent Cloud コネクターが Confluent Cloud ksqlDB でどのように動作するかを示す例については、「Cloud ETL のデモ」を参照してください。この例では、Confluent CLI を使用して Confluent Cloud のリソースを管理する方法についても説明しています。
Confluent CLI を使用する場合¶
以下の手順に従うと、Confluent CLI を使用してコネクターをセットアップし、実行できます。
注釈
- すべての 前提条件 を満たしていることを確認してください。
- コマンド例では Confluent CLI バージョン 2 を使用しています。詳細については、「Confluent CLI v2 への移行 <https://docs.confluent.io/confluent-cli/current/migrate.html#cli-migrate>`__」を参照してください。
ステップ 2: コネクターの必須の構成プロパティを表示します。¶
以下のコマンドを実行して、コネクターの必須プロパティを表示します。
confluent connect plugin describe <connector-catalog-name>
例:
confluent connect plugin describe SpannerSink
出力例:
Following are the required configs:
connector.class: SpannerSink
name
kafka.auth.mode
kafka.api.key
kafka.api.secret
topics
input.data.format
gcp.spanner.credentials.json
gcp.spanner.instance.id
gcp.spanner.database.id
tasks.max
ステップ 3: コネクターの構成ファイルを作成します。¶
コネクター構成プロパティを含む JSON ファイルを作成します。以下の例は、コネクターの必須プロパティとオプションのプロパティを示しています。
{
"connector.class": "SpannerSink",
"name": "spanner-sink-connector",
"kafka.auth.mode": "KAFKA_API_KEY",
"kafka.api.key": "<my-kafka-api-key?",
"kafka.api.secret": "<my-kafka-api-secret>",
"topics": "pageviews",
"input.data.format": "AVRO",
"gcp.spanner.credentials.json": "<my-gcp-credentials>",
"gcp.spanner.instance.id": "<my-spanner-instance-id>",
"gcp.spanner.database.id": "<my-spanner-dabase-id>",
"auto.create": "true",
"auto.evolve": "true",
"tasks.max": "1"
}
以下のプロパティ定義に注意してください。
"connector.class"
: コネクターのプラグイン名を指定します。"name"
: 新しいコネクターの名前を設定します。
"kafka.auth.mode"
: 使用するコネクターの認証モードを指定します。オプションはSERVICE_ACCOUNT
またはKAFKA_API_KEY
(デフォルト)です。API キーとシークレットを使用するには、構成プロパティkafka.api.key
とkafka.api.secret
を構成例(前述)のように指定します。サービスアカウント を使用するには、プロパティkafka.service.account.id=<service-account-resource-ID>
に リソース ID を指定します。使用できるサービスアカウントのリソース ID のリストを表示するには、次のコマンドを使用します。confluent iam service-account list
例:
confluent iam service-account list Id | Resource ID | Name | Description +---------+-------------+-------------------+------------------- 123456 | sa-l1r23m | sa-1 | Service account 1 789101 | sa-l4d56p | sa-2 | Service account 2
"topics"
: 特定のトピック名を指定するか、複数のトピック名をコンマ区切りにしたリストを指定します。"input.data.format"
: Kafka 入力レコード値のフォーマット(Kafka トピックから送られるデータ)を設定します。指定可能なエントリは、AVRO、JSON_SR、PROTOBUF、または JSON です。スキーマベースのメッセージフォーマット(たとえば、Avro、JSON_SR(JSON スキーマ)、および Protobuf)を使用するには、Confluent Cloud Schema Registry を構成しておく必要があります。"gcp.spanner.credentials.json"
: ダウンロードした JSON ファイルの内容が入ります。ダウンロードした認証情報ファイルの内容を、フォーマットを変更して使用する方法について詳しくは、「GCP 認証情報のフォーマットの変更」を参照してください。"tasks.max"
: このコネクターで実行できるタスクの最大数。タスクについて詳しくは、Confluent Cloud コネクターの制限事項 を参照してください。
オプション
"auto.create"
(テーブル)および"auto-evolve"
(列) : 入力レコードスキーマに定義されているテーブルまたは列が存在しない場合に、それらを自動的に作成するかどうかを設定します。構成に入力しない場合は、どちらもデフォルトのfalse
になります。"pk.mode"
:(オプション)サポートされるモードを以下に示します。kafka
: Kafka の座標をプライマリキーとして使用します。PK Fields プロパティと一緒に使用する必要があります。none
: プライマリキーを使用しません。record_value
: Kafka レコード値からのフィールドが使用されます。このレコード値は構造体型になっている必要があります。
"pk.fields"
: これは、プライマリキーのフィールド名をコンマ区切りにしたリストです。このプロパティの実行時の解釈は、選択したpk.mode
によって異なります。選択肢を以下に示します。kafka
: Kafka の座標を表す 3 つの値である必要があります。空にすると、座標__connect_topic__、connect_partition__、connect_offset
がデフォルトとして使用されます。none
: PK フィールドを使用しません。record_value
: レコード値からフィールドを抽出するために使用します。空にすると、値の構造体のすべてのフィールドが使用されます。
Single Message Transforms: CLI を使用した SMT の追加の詳細については、Single Message Transforms(SMT) のドキュメントを参照してください。このコネクターでサポートされていない SMT のリストについては、「サポートされない変換」を参照してください。
すべてのプロパティの値と定義については、「構成プロパティ」を参照してください。
GCP 認証情報のフォーマットの変更¶
ダウンロードした認証情報ファイルの内容は、コネクター構成で使用する前に、文字列フォーマットに変換する必要があります。
JSON ファイルの内容を文字列フォーマットに変換します。これは、オンラインのコンバーターツールを使用して実行できます。たとえば、JSON to String Online Converter などがあります。
Private Key セクションの
\n
のすべての出現箇所の前にエスケープ文字\
を追加します。これで、各セクションの先頭が\\n
になります(以下の強調表示された行を参照してください)。以下の例は、\\n
の出現箇所がわかりすいようにフォーマットを整えています。認証情報キーの大部分は省略しています。ちなみに
認証情報を文字列に変換し、さらに必要に応じてエスケープ文字
\
を追加するスクリプトも用意されています。Stringify GCP Credentials を参照してください。{ "connector.class": "SpannerSink", "name": "spanner-sink-connector", "kafka.api.key": "<my-kafka-api-key?", "kafka.api.secret": "<my-kafka-api-secret>", "topics": "pageviews", "input.data.format": "AVRO", "gcp.spanner.credentials.json": "{\"type\":\"service_account\",\"project_id\":\"connect- 1234567\",\"private_key_id\":\"omitted\", \"private_key\":\"-----BEGIN PRIVATE KEY----- \\nMIIEvAIBADANBgkqhkiG9w0BA \\n6MhBA9TIXB4dPiYYNOYwbfy0Lki8zGn7T6wovGS5pzsIh \\nOAQ8oRolFp\rdwc2cC5wyZ2+E+bhwn \\nPdCTW+oZoodY\\nOGB18cCKn5mJRzpiYsb5eGv2fN\/J \\n...rest of key omitted... \\n-----END PRIVATE KEY-----\\n\", \"client_email\":\"pub-sub@connect-123456789.iam.gserviceaccount.com\", \"client_id\":\"123456789\",\"auth_uri\":\"https:\/\/accounts.google.com\/o\/oauth2\/ auth\",\"token_uri\":\"https:\/\/oauth2.googleapis.com\/ token\",\"auth_provider_x509_cert_url\":\"https:\/\/ www.googleapis.com\/oauth2\/v1\/ certs\",\"client_x509_cert_url\":\"https:\/\/www.googleapis.com\/ robot\/v1\/metadata\/x509\/pub-sub%40connect- 123456789.iam.gserviceaccount.com\"}", "gcp.spanner.instance.id": "<my-spanner-instance-id>", "gcp.spanner.database.id": "<my-spanner-dabase-id>", "auto.create": "true", "auto.evolve": "true", "tasks.max": "1" }
変換したすべての文字列の内容を、上記の例のように構成ファイルの認証情報セクションに追加します。
ステップ 4: 構成ファイルを読み込み、コネクターを作成します。¶
以下のコマンドを入力して、構成を読み込み、コネクターを起動します。
confluent connect create --config <file-name>.json
例:
confluent connect create --config spanner-sink-config.json
出力例:
Created connector spanner-sink-connector lcc-ix4dl
ステップ 5: コネクターのステータスを確認します。¶
以下のコマンドを入力して、コネクターのステータスを確認します。
confluent connect list
出力例:
ID | Name | Status | Type
+-----------+-------------------------+---------+------+
lcc-ix4dl | spanner-sink-connector | RUNNING | sink
ステップ 6: Spanner で結果を確認します。¶
- Google Cloud Console で、Spanner プロジェクトに移動します。
- 新しいレコードが Spanner データベースに追加されていることを確認します。
Connect 用の Confluent Cloud API の使用に関する詳細とサンプルについては、「Confluent Cloud API for Connect」セクションを参照してください。
ちなみに
コネクターを起動すると、デッドレターキューのトピックが自動的に生成されます。詳細については、「Confluent Cloud デッドレターキュー」を参照してください。
構成プロパティ¶
このコネクターでは、以下のコネクター構成プロパティを使用します。
データの取得元とするトピック(Which topics do you want to get data from?)¶
topics
特定のトピック名を指定するか、複数のトピック名をコンマ区切りにしたリストを指定します。
- 型: list
- 重要度: 高
入力メッセージ(Input messages)¶
input.data.format
Kafka 入力レコード値のフォーマットを設定します。指定可能なエントリは、AVRO、JSON_SR、または PROTOBUF です。スキーマベースのメッセージフォーマット(AVRO、JSON_SR、PROTOBUF など)を使用する場合は、Confluent Cloud Schema Registry を構成しておく必要がある点に注意してください。
- 型: string
- 重要度: 高
データへの接続方法(How should we connect to your data?)¶
name
コネクターの名前を設定します。
- 型: string
- 指定可能な値: 最大 64 文字の文字列
- 重要度: 高
Kafka クラスターの認証情報(Kafka Cluster credentials)¶
kafka.auth.mode
Kafka の認証モード。KAFKA_API_KEY または SERVICE_ACCOUNT を指定できます。デフォルトは KAFKA_API_KEY モードです。
- 型: string
- デフォルト: KAFKA_API_KEY
- 指定可能な値: KAFKA_API_KEY、SERVICE_ACCOUNT
- 重要度: 高
kafka.api.key
- 型: password
- 重要度: 高
kafka.service.account.id
Kafka クラスターとの通信用の API キーを生成するために使用されるサービスアカウント。
- 型: string
- 重要度: 高
kafka.api.secret
- 型: password
- 重要度: 高
GCP 認証情報(GCP credentials)¶
gcp.spanner.credentials.json
Spanner への書き込みアクセス許可を持つ GCP サービスアカウントの JSON ファイル。
- 型: password
- 重要度: 高
Spanner への接続方法(How should we connect to your Spanner?)¶
gcp.spanner.instance.id
接続先の Spanner インスタンスの ID。
- 型: string
- 重要度: 高
gcp.spanner.database.id
テーブルが配置されているデータベース、またはテーブルが作成されるデータベースの ID。
- 型: string
- 重要度: 高
データベースの詳細(Database details)¶
insert.mode
使用する挿入モード。
- 型: string
- デフォルト: INSERT
- 重要度: 高
table.name.format
送信先テーブルの名前のフォーマット文字列。元のトピック名を表すプレースホルダーとして ${topic} を含めることができます。
たとえば、トピック「orders」の場合、kafka_${topic} はテーブル名「kafka_orders」にマッピングされます。
テーブル名についての Spanner の制約は {a—z|A—Z}[{a—z|A—Z|0—9|_}+] です。
- 型: string
- デフォルト: ${topic}
- 重要度: 中
プライマリキー(Primary Key)¶
pk.mode
プライマリキーモード。相互作用について pk.fields の説明も参照してください。サポートされるモードを以下に示します。
none: キーを使用しません。
kafka: Apache Kafka® 座標を PK として使用します。
record_value: レコード値のフィールドを使用します。これは構造体である必要があります。
- 型: string
- 重要度: 高
pk.fields
プライマリキーのフィールド名のコンマ区切りのリスト。この構成の実行時の解釈は、pk.mode によって異なります。
none: このモードでは、プライマリキーとして使用されるフィールドはないため、無視されます。kafka: Kafka 座標を表す 3 つの値である必要があります。空の場合はデフォルトで __connect_topic,__connect_partition,__connect_offset になります。
record_value: 空の場合は、値構造体のすべてのフィールドが使用されます。指定されている場合は、目的のフィールドの抽出に使用されます。
- 型: list
- 重要度: 高
SQL/DDL サポート(SQL/DDL Support)¶
auto.create
送信先テーブルが存在しない場合に、テーブルを自動的に作成するかどうかを指定します。
- 型: boolean
- デフォルト: false
- 重要度: 中
auto.evolve
列が存在しない場合に、テーブルに列を自動的に追加するかどうかを指定します。
- 型: boolean
- デフォルト: false
- 重要度: 中
接続の詳細(Connection details)¶
max.batch.size
Spanner に対する 1 回の挿入またはアップサートの操作で、バッチにまとめることができる最大レコード数。
- 型: int
- デフォルト: 1000
- 指定可能な値: [1,...,5000]
- 重要度: 中
このコネクターのタスク数(Number of tasks for this connector)¶
tasks.max
- 型: int
- 指定可能な値: [1、…]
- 重要度: 高
次のステップ¶
参考
フルマネージド型の Confluent Cloud コネクターが Confluent Cloud ksqlDB でどのように動作するかを示す例については、「Cloud ETL のデモ」を参照してください。この例では、Confluent CLI を使用して Confluent Cloud のリソースを管理する方法についても説明しています。