重要
このページの日本語コンテンツは古くなっている可能性があります。最新の英語版コンテンツをご覧になるには、こちらをクリックしてください。
Amazon S3 Source Connector for Confluent Cloud¶
注釈
Confluent Platform 用にコネクターをローカルにインストールする場合は、「Generalized Amazon S3 Source Connector for Confluent Platform」を参照してください。
フルマネージド型の Amazon S3 Source Connector は、S3 バケット内のファイルからデータを読み取ります。ファイル名を特定のフォーマットにする必要はありません。ファイルは、コネクターでの読み取りがサポートされているフォーマット(JSON、Avro、バイト配列など)である必要があります。
機能¶
Amazon S3 Source Connector には、以下の機能があります。
- 少なくとも 1 回のデリバリー: レコードが少なくとも 1 回は配信されることが保証されます。
- 複数のタスクのサポート: 1 つまたは複数のタスクの実行をサポートしています。
Confluent Cloud API for Connect の詳細と使用例については、「Confluent Cloud API for Connect」セクションを参照してください。
詳しくは、Confluent Cloud コネクターの制限事項 を参照してください。
S3 の IAM ポリシー¶
S3 バケットにアクセスする AWS ユーザーアカウントには、以下のアクセス許可が必要です。
- ListBucket
- GetObject
注釈
これは、バケットポリシーではなく、ユーザーアカウントの IAM ポリシーです。
詳細については、「ポリシーを作成して IAM ユーザーにアタッチする」を参照してください。
クイックスタート¶
このクイックスタートを使用して、Confluent Cloud Amazon S3 Source Connector の利用を開始することができます。このクイックスタートでは、コネクターを選択し、Amazon S3 バケットからファイルを取得するようにコネクターを構成するための基本的な方法について説明します。
- 前提条件
- アマゾンウェブサービス (AWS)、Microsoft Azure (Azure)、または Google Cloud Platform (GCP)上の Confluent Cloud クラスターへのアクセスを許可されていること。
- Confluent CLI がインストールされ、クラスター用に構成されていること。「Confluent CLI のインストール」を参照してください。
- スキーマレジストリ ベースのフォーマット(Avro、JSON_SR(JSON スキーマ)、Protobuf など)を使用するには、Schema Registry を有効にしておく必要があります。詳細については、「スキーマレジストリ Enabled Environments」を参照してください。
- Confluent Cloud クラスターと 同じリージョン にある Amazon S3 バケット。
- ネットワークに関する考慮事項については、「Networking and DNS Considerations」を参照してください。静的なエグレス IP を使用する方法については、「静的なエグレス IP アドレス」を参照してください。
- バケットにアクセスするために構成された AWS S3 の IAM ポリシー。
- アクセスキー を構成した AWS アカウント。コネクターを設定するときに、これらのアクセスキーを使用します。
- Kafka クラスターの認証情報。次のいずれかの方法で認証情報を指定できます。
- 既存の サービスアカウント のリソース ID を入力する。
- コネクター用の Confluent Cloud サービスアカウント を作成する。サービスアカウントのドキュメント で、必要な ACL エントリを確認してください。一部のコネクターには固有の ACL 要件があります。
- Confluent Cloud の API キーとシークレットを作成する。キーとシークレットを作成するには、confluent api-key create を使用するか、コネクターのセットアップ時に Cloud Console で直接 API キーとシークレットを自動生成します。
- メッセージングスキーマ(Apache Avro など)を使用する場合は、クラスター用に Confluent Cloud Schema Registry を有効にする必要があります。「スキーマの操作」を参照してください。
Confluent Cloud Console を使用する場合¶
ステップ 1: Confluent Cloud クラスターを起動します。¶
インストール手順については、「Quick Start for Confluent Cloud」を参照してください。
ステップ 2: コネクターを追加します。¶
左のナビゲーションメニューの Data integration をクリックし、Connectors をクリックします。クラスター内に既にコネクターがある場合は、+ Add connector をクリックします。
ステップ 4: コネクターの詳細情報を入力します。¶
注釈
- すべての 前提条件 を満たしていることを確認してください。
- アスタリスク(* )は必須項目であることを示しています。
At the Add Amazon S3 Source Connector screen, complete the following:
- Select the way you want to provide Kafka Cluster credentials. You can
choose one of the following options:
- Global Access: Allows your connector to access everything you have access to. With global access, connector access will be linked to your account. This option is not recommended for production.
- Granular access: Limits the access for your connector. You will be able to manage connector access through a service account. This option is recommended for production.
- Use an existing API key: Allows you to enter an API key and secret part you have stored. You can enter an API key and secret (or generate these in the Cloud Console).
- Click Continue.
- Configure the following:
- Select an input message format. Supports AVRO, BYTES, or JSON. A valid schema must be available in Schema Registry to use a schema-based message format, like Avro.
- Select an output message format. Defaults to the file format selected for the input message format. Supports AVRO, BYTES, JSON, JSON_SR, PROTOBUF, and STRING. A valid schema must be available in Schema Registry if using a schema-based format.
- Click Continue.
Based on the number of topic partitions you select, you will be provided with a recommended number of tasks.
- To change the number of tasks, use the Range Slider to select the desired number of tasks.
- Click Continue.
Verify the connection details by previewing the running configuration.
Once you've validated that the properties are configured to your satisfaction, click Launch.
コネクターのステータスが Provisioning から Running に変わります。
Step 5. Check the Kafka topic.¶
コネクターが実行中になったら、レコードが Kafka トピックに取り込まれていることを確認します。
注釈
S3 Source Connector では、レコードの取得を開始する前に、バケット内のすべてのオブジェクト名を読み込んでフィルタリングします。起動時に、コネクターは RUNNING
と表示されていてもスループットが表示されない場合があります。これは、バケットの読み込みが終わっていないためです。バケットに大量のオブジェクトがある場合、バケットの読み込みが完了するまで数分かかることがあります。
Confluent Cloud API for Connect の詳細と使用例については、「Confluent Cloud API for Connect」セクションを参照してください。
参考
フルマネージド型の Confluent Cloud コネクターが Confluent Cloud ksqlDB でどのように動作するかを示す例については、「Cloud ETL のデモ」を参照してください。この例では、Confluent CLI を使用して Confluent Cloud のリソースを管理する方法についても説明しています。
Confluent CLI の使用¶
以下の手順に従うと、Confluent CLI を使用してコネクターをセットアップし、実行できます。
注釈
- すべての 前提条件 を満たしていることを確認してください。
- コマンド例では Confluent CLI バージョン 2 を使用しています。詳細については、「Confluent CLI v2 への移行」を参照してください。
ステップ 2: コネクターの必須の構成プロパティを表示します。¶
以下のコマンドを実行して、コネクターの必須プロパティを表示します。
confluent connect plugin describe <connector-catalog-name>
例:
confluent connect plugin describe S3Source
出力例:
The following are required configs:
connector.class : S3Source
name
topic.regex.list
kafka.api.key : ["kafka.api.key" is required when "kafka.auth.mode==KAFKA_API_KEY"]
kafka.api.secret : ["kafka.api.secret" is required when "kafka.auth.mode==KAFKA_API_KEY" "kafka.api.secret" is required]
input.data.format
output.data.format
aws.access.key.id
aws.secret.access.key
s3.bucket.name
tasks.max
ステップ 3: コネクターの構成ファイルを作成します。¶
コネクター構成プロパティを含む JSON ファイルを作成します。以下の例は、コネクターの必須プロパティを示しています。
{
"connector.class": "S3Source",
"name": "S3SourceConnector_0",
"topic.regex.list": "topics",
"kafka.auth.mode": "SERVICE_ACCOUNT",
"kafka.service.account.id": "<service-account-resource-ID>",
"input.data.format": "JSON",
"output.data.format": "BYTES",
"aws.access.key.id": "<access-key>",
"aws.secret.access.id": "<secret-access-id>",
"s3.bucket.name": "<bucket-name>",
"tasks.max": "1",
}
以下の必須プロパティの定義にご注意ください。
"connector.class"
: コネクターのプラグイン名を指定します。"name"
: 新しいコネクターの名前を設定します。"topic.regex.list"
:
"kafka.auth.mode"
: 使用するコネクターの認証モードを指定します。オプションはSERVICE_ACCOUNT
またはKAFKA_API_KEY
(デフォルト)です。API キーとシークレットを使用するには、構成プロパティkafka.api.key
とkafka.api.secret
を構成例(前述)のように指定します。サービスアカウント を使用するには、プロパティkafka.service.account.id=<service-account-resource-ID>
に リソース ID を指定します。使用できるサービスアカウントのリソース ID のリストを表示するには、次のコマンドを使用します。confluent iam service-account list
例:
confluent iam service-account list Id | Resource ID | Name | Description +---------+-------------+-------------------+------------------- 123456 | sa-l1r23m | sa-1 | Service account 1 789101 | sa-l4d56p | sa-2 | Service account 2
"input.data.format"
: AVRO、JSON(スキーマレス)、BYTES がサポートされています。Avro などのスキーマベースのメッセージフォーマットを使用するには、有効なスキーマが Schema Registry に存在する必要があります。"output.data.format"
: デフォルトは、入力データフォーマットで選択されたファイルフォーマットです。AVRO、BYTES、JSON、JSON_SR、PROTOBUF、STRING を指定できます。スキーマベースのフォーマットを使用する場合は、有効なスキーマが Schema Registry に存在する必要があります。"tasks.max"
: 並列実行できるタスクの総数。タスクが多いほどパフォーマンスが向上する可能性があります。変換と述語: 詳細については、Single Message Transforms(SMT) のドキュメントを参照してください。
構成プロパティの値と説明については、「構成プロパティ」を参照してください。
ステップ 4: プロパティファイルを読み込み、コネクターを作成します。¶
以下のコマンドを入力して、構成を読み込み、コネクターを起動します。
confluent connect create --config <file-name>.json
例:
confluent connect create --config s3-source-config.json
出力例:
Created connector S3SourceConnector_0 lcc-ix4dl
ステップ 5: コネクターのステータスを確認します。¶
以下のコマンドを入力して、コネクターのステータスを確認します。
confluent connect list
出力例:
ID | Name | Status | Type
+-----------+-----------------------+---------+------+
lcc-ix4dl | S3SourceConnector_0 | RUNNING | source
ステップ 6: Kafka トピックを確認します。¶
コネクターが実行中になったら、レコードが Kafka トピックに取り込まれていることを確認します。
注釈
S3 Source Connector では、レコードの取得を開始する前に、バケット内のすべてのオブジェクト名を読み込んでフィルタリングします。起動時に、コネクターは RUNNING
と表示されていてもスループットが表示されない場合があります。これは、バケットの読み込みが終わっていないためです。バケットに大量のオブジェクトがある場合、バケットの読み込みが完了するまで数分かかることがあります。
Confluent Cloud API for Connect の詳細と使用例については、「Confluent Cloud API for Connect」セクションを参照してください。
構成プロパティ¶
このコネクターでは、以下のコネクター構成プロパティを使用します。
データへの接続方法(How should we connect to your data?)¶
name
コネクターの名前を設定します。
- 型: string
- 指定可能な値: 最大 64 文字の文字列
- 重要度: 高
データの送信先トピック(Which topic(s) do you want to send data to?)¶
topic.regex.list
ここで入力するのは、トピックと、そのトピックに送信されるファイルの正規表現を合わせたリストです。たとえば、"my-topic:.*" の場合、すべてのファイルが "my-topic" に送信されます。"special-topic:.*.json" という表現のみを含むリストの場合は、".json" で始まるファイルのみが "special-topic" に送信されます。パターンと一致しないそれ以外のすべてのファイルは無視され、取得されません。複数のマッピングと一致するファイルは、ファイルにマップするリストの 1 つ目のトピックに送信されます。
- 型: list
- 重要度: 高
Kafka クラスターの認証情報(Kafka Cluster credentials)¶
kafka.auth.mode
Kafka の認証モード。KAFKA_API_KEY または SERVICE_ACCOUNT を指定できます。デフォルトは KAFKA_API_KEY モードです。
- 型: string
- デフォルト: KAFKA_API_KEY
- 指定可能な値: KAFKA_API_KEY、SERVICE_ACCOUNT
- 重要度: 高
kafka.api.key
- 型: password
- 重要度: 高
kafka.service.account.id
Kafka クラスターとの通信用の API キーを生成するために使用されるサービスアカウント。
- 型: string
- 重要度: 高
kafka.api.secret
- 型: password
- 重要度: 高
入力および出力メッセージ(Input and output messages)¶
input.data.format
入力メッセージフォーマットを設定します。指定可能なエントリは、AVRO、JSON、または BYTES です。スキーマベースのメッセージフォーマット(AVRO など)を使用する場合は、Confluent Cloud Schema Registry を構成しておく必要がある点に注意してください。
- 型: string
- 指定可能な値: AVRO、BYTES、JSON
- 重要度: 高
output.data.format
値の出力メッセージフォーマットを設定します。指定可能なエントリは、AVRO、JSON、JSON_SR、PROTOBUF、STRING、BYTES です。スキーマベースのメッセージフォーマット(AVRO、JSON_SR、PROTOBUF など)を使用する場合は、Confluent Cloud Schema Registry を構成しておく必要がある点に注意してください。このプロパティの値が指定されていない場合、「input.data.format」プロパティに指定されている値が使用されます。
- 型: string
- 指定可能な値: AVRO、BYTES、JSON、JSON_SR、PROTOBUF、STRING
- 重要度: 高
AWS 認証情報(AWS credentials)¶
aws.access.key.id
Amazon S3 への接続に使用される AWS アクセスキー。
- 型: password
- 重要度: 高
aws.secret.access.key
Amazon S3 への接続に使用される AWS シークレットキー。
- 型: password
- 重要度: 高
S3 バケットへの接続方法(How should we connect to your S3 bucket?)¶
s3.bucket.name
- 型: string
- 重要度: 高
s3.region
S3 バケットがある AWS リージョンに設定します。
- 型: string
- 重要度: 高
s3.part.retries
The number of times a single S3 API call should be retried in the case that it fails with a "retriable" error (such as a throttling exception). Once this limit is exceeded, the Kafka Connect poll itself may retry (based upon the Kafka Connect-based retry configuration).
- 型: int
- デフォルト: 3
- 重要度: 中
s3.retry.backoff.ms
S3 リクエストの失敗から最初の再試行までの待ち時間(ミリ秒)。失敗すると、このコネクターは、前回の待機時の 2 倍の長さまで、かつ再試行の最大回数まで待機できます。これにより、失敗シナリオで短いループの再試行が回避されます。
- 型: int
- デフォルト: 200
- 重要度: 中
ui.s3.wan.mode
S3 の高速化エンドポイントを使用します。
- 型: string
- デフォルト: NO
- 指定可能な値: NO、YES
- 重要度: 中
ui.s3.path.style.access
S3 パススタイルのアクセスを使用するかどうかを指定します。
- 型: string
- デフォルト: NO
- 指定可能な値: NO、YES
- 重要度: 中
s3.http.send.expect.continue
マルチパートアップロード中の EXPECT: 100-CONTINUE を使用した HTTP/1.1 ハンドシェイクの使用を有効または無効にします。YES の場合は、クライアントは、リクエスト本文を送信する前に、応答として 100(CONTINUE)を受信するのを待ちます。NO の場合、クライアントは、サーバーがリクエストを受信できるかどうかを確認することなくリクエスト本文全体をアップロードします。
- 型: string
- デフォルト: YES
- 指定可能な値: NO、YES
- 重要度: 中
ui.s3.ssea.name
S3 サーバー側の暗号化アルゴリズム。
- 型: string
- デフォルト: NONE
- 指定可能な値: AES256、AWS:KMS、NONE
- 重要度: 中
s3.sse.customer.key
ユーザーが用意した S3 サーバー側の暗号化キー(SSE-C)。
- 型: password
- 重要度: 中
ストレージ(Storage)¶
topics.dir
取り込まれたデータが格納される(S3 バケットの)最上位ディレクトリ。
- 型: string
- デフォルト: topics
- 重要度: 高
task.batch.size
一度に各タスクに割り当てられるファイルの数。
- 型: int
- デフォルト: 10
- 指定可能な値: [1,...,2000]
- 重要度: 高
file.discovery.starting.timestamp
ファイルを処理する開始ポイントを示す UNIX のタイムスタンプ(1970 年 1 月 1 日(UTC)以降の秒数)。これより前の作成時間で検出されたファイルはすべて無視されます。
- 型: long
- デフォルト: 0
- 重要度: 高
directory.delim
ディレクトリ区切りパターン。
- 型: string
- デフォルト: /
- 重要度: 中
ui.behavior.on.error
ストレージコネクター用のエラー処理の動作の設定。IGNORE または FAIL に構成する必要があります。
- 型: string
- デフォルト: FAIL
- 指定可能な値: FAIL、IGNORE
- 重要度: 中
format.bytearray.separator
ByteArrayFormat でレコード間に挿入される文字列。デフォルトでは n が設定されます。n などのエスケープシーケンスを含めることができます。行区切り文字を含む入力レコードの見た目は、ストレージオブジェクトの入力に複数のレコードが含まれている場合と同様になります。
- 型: string
- 重要度: 中
データポーリングポリシー(Data polling policy)¶
s3.poll.interval.ms
Frequency in milliseconds to poll for new or removed folders. This may result in updated task configurations starting to poll for data in added folders or stopping polling for data in removed folders
- 型: long
- デフォルト: 60000(1 分)
- 指定可能な値: [1000,...]
- 重要度: 中
record.batch.max.size
ストレージに対するポーリングのたびに返されるレコードの最大数。
- 型: int
- デフォルト: 200
- 指定可能な値: [1,...,10000]
- 重要度: 中
このコネクターのタスク数(Number of tasks for this connector)¶
tasks.max
並列実行できるタスクの総数。
- 型: int
- 指定可能な値: [1,...,1000]
- 重要度: 高
次のステップ¶
参考
フルマネージド型の Confluent Cloud コネクターが Confluent Cloud ksqlDB でどのように動作するかを示す例については、「Cloud ETL のデモ」を参照してください。この例では、Confluent CLI を使用して Confluent Cloud のリソースを管理する方法についても説明しています。