Amazon Translate で実装する多言語対応 - リアルタイム翻訳とカスタム用語集
Translate によるリアルタイム翻訳、カスタム用語集による翻訳品質の向上、バッチ翻訳の活用を解説します。
Translate の概要
Translate はニューラル機械翻訳で 75 以上の言語間のテキスト翻訳を提供し、1 リクエストあたり最大 100 KB のテキストを処理するサービスです。リアルタイム翻訳 API で Web アプリケーションやチャットの多言語対応を実装し、バッチ翻訳で大量ドキュメントの一括翻訳を実行します。Google 翻訳や DeepL と同様のニューラル翻訳エンジンを AWS のインフラ上で利用できます。
カスタム用語集とバッチ翻訳
カスタム用語集は CSV または TMX 形式で用語のペアを定義し、翻訳時に指定した用語が必ず使用されます。製品名「Amazon Aurora」が「アマゾンオーロラ」と翻訳されるのを防ぎ、原語のまま保持するといった制御が可能です。バッチ翻訳は S3 バケットの入力フォルダにドキュメントを配置し、翻訳結果を出力フォルダに格納します。HTML、DOCX、XLIFF 形式に対応し、タグ構造を保持したまま翻訳します。
並列データと Active Custom Translation
並列データ (パラレルコーパス) は原文と翻訳文のペアを CSV または TMX 形式で提供し、翻訳モデルをドメイン固有の表現に適応させます。技術文書、法律文書、医療文書など、専門用語が多い分野で翻訳品質が大幅に向上します。 Active Custom Translation (ACT) は並列データを使ってリアルタイムにモデルを調整し、カスタム用語集よりも文脈に応じた自然な翻訳を生成します。 Profanity マスキングで不適切な表現を自動検出し、マスクまたは除外する機能も提供します。 Formality 設定で翻訳のフォーマリティ (敬語/カジュアル) を制御でき、ビジネス文書とカジュアルなチャットで適切なトーンを使い分けられます。 Translate の基礎から応用まで、書籍 (Amazon)で体系的に学べます。
Translate の料金
Translate の料金は翻訳した文字数で課金され、リアルタイム翻訳は 100 万文字あたり約 15 ドルです。バッチ翻訳も同じ文字単価ですが、大量のドキュメントを S3 経由で一括処理できます。最初の 12 か月は月間 200 万文字の無料枠があります。カスタム用語集の使用に追加料金は発生しません。Active Custom Translation は並列データのトレーニングに追加料金が発生し、トレーニング時間で課金されます。翻訳対象のテキストから HTML タグやメタデータを事前に除外し、翻訳不要な文字数を削減することでコストを最適化します。キャッシュ層を設けて同一テキストの再翻訳を避ける設計も有効です。
まとめ
Translate はニューラル機械翻訳で 75 以上の言語間の多言語対応を実現するサービスです。カスタム用語集で製品名や専門用語の翻訳を制御し、Active Custom Translation で並列データによるドメイン適応を行います。Formality 設定で敬語とカジュアルのトーンを使い分け、バッチ翻訳で大量コンテンツの多言語化を自動化します。