AIプロダクト

GoogleのGemini 3.5 Live Translateはどのように翻訳遅延を解消するのか

Googleはテキスト変換のパイプラインを排除し、リアルタイムで連続音声を翻訳する音声対音声モデル「Gemini 3.5 Live Translate」を発表しました。

投稿日 2026/6/28

合成された音声応答が出力される前に、翻訳者がテキストの書き起こしを解析するのを待つことこそが、グローバルなコミュニケーションにおける最大のボトルネックでした。2026年6月9日、GoogleはGemini 3.5 Live Translateの提供を開始することで、この制限を打破しました。従来の3段階の翻訳ループを単一の音声対音声(audio-to-audio)ネットワークに置き換えることで、このモデルは元のトーン、感情、ペーシングを維持したまま、連続する音声をリアルタイムで翻訳します。

What Is Gemini 3.5 Live Translate?

GoogleのGemini 3.5 Live Translateは、70以上の言語に対応し、ほぼリアルタイムで連続的な音声翻訳を行うために設計された、特化型の音声対音声(audio-to-audio)モデルです。従来の翻訳システムとは異なり、生の音声信号を直接処理し、ユーザーが話している最中であっても翻訳された音声出力を生成します。

数十年にわたり、機械翻訳は複数の異なるモデルを連結(カスケード)させる方法に依存してきました。ユーザーが話すと、音声文字起こし(STT)モデルが音声をテキストに変換し、機械翻訳(MT)モデルが言語を翻訳し、テキスト読み上げ(TTS)エンジンが音声出力を合成します。この処理パイプラインは大きな遅延を生み出し、自然で流暢な会話を不可能にしていました。この遅延により、ユーザーはぎこちない交互のやり取りを強いられていました。

Gemini 3.5 Live Translateは、このパイプラインを一本化します。単一のニューラルネットワークで音声を直接音声へと翻訳するように学習させることで、Googleは遅延を500ミリ秒未満に短縮しました。これにより、話者の元のイントネーション、感情のニュアンス、話すリズムといった**韻律(プロソディ)**を維持することが可能になります。具体的には、話者が文末のピッチを上げて質問した場合、翻訳された音声出力もターゲット言語でその声の抑揚を正確に再現します。

How Do Developers Access the Gemini Live Translate API?

開発者は、Google AI StudioおよびGemini Live APIを通じて、パブリックプレビュー版のGemini 3.5 Live Translateを利用できます。モデル識別子であるgemini-3.5-live-translate-previewを呼び出すことで、ソフトウェアエンジニアは低遅延でリアルタイムの音声翻訳機能をWebアプリケーションやモバイルアプリケーションに直接組み込むことができます。

Googleはこの技術をコアインフラ製品として位置づけています。一般ユーザー向けのアプリ内に囲い込むのではなく、開発者向けにパブリックプレビューを公開しました。Gemini Live APIは持続的なWebSockets接続をサポートしており、クライアントアプリケーションが音声入力をストリーミング送信し、翻訳された音声パッケージをリアルタイムで受け取ることを可能にします。

このモデルルーティング戦略は、テックエコシステムにおけるより広範な変化を示しています。ハードウェアインフラの競争に関する分析でも触れたように、開発者はもはや単一の巨大なモデルにすべてのタスクを割り振ることはしていません。代わりに、低遅延の音声解釈はGemini 3.5 Live Translateにオフロードされ、複雑な論理処理はGPT-5.5やClaude 4.8といった推理(reasoning)モデルに送られます。

Does Gemini Live Translate Work Offline?

Gemini 3.5 Live Translateは、Googleのクラウドベースのテンソルプロセッシングユニット(TPU)にアクセスするために、アクティブなインターネット接続を必要とします。Apple IntelligenceやAndroidシステムアーキテクチャを実行するPixelデバイス向けに圧縮されたオンデバイス版の開発が進められているものの、現在のライブAPIやGoogle Meetとの連携機能では、すべての翻訳パイプラインをクラウド上で処理しています。

ネイティブの音声対音声(audio-to-audio)ネットワークの実行には、膨大な計算リソースが必要です。リアルタイムで音声波形を生成するには、標準的なモバイル向けのニューラルプロセッシングユニット(NPU)の能力を超える、連続的なテンソル演算が必要となります。その結果、Google 翻訳アプリやGoogle Meetのエンタープライズ向けプレビュー版は、完全にGoogle Cloudのインフラに依存しています。

このクラウド依存は、AI生産性のパラドックスにおける重要な要因となっています。リアルタイム翻訳を企業ワークフローに組み込む企業は、継続的なAPIトークンコストを予算に組み込まなければなりません。従来のテキストAPIは安価である一方、連続する音声帯域幅のストリーミングは大きなネットワークオーバーヘッドをもたらします。国際的なコールセンターやリモートチームを運営する企業にとって、これらの継続的なクラウドコストは大きな支出項目となります。

How Does Audio-to-Audio Translation Differ From Speech-to-Text?

音声対音声(audio-to-audio)翻訳は、中間テキストへの変換を回避する点で、音声文字起こし(STT)のカスケード接続とは異なります。書かれた文字の解析、フォーマット、合成を行う代わりに、ネットワークが生のアコースティック(音響)特徴量を直接翻訳するため、処理ステップが削減され、言葉の聞き違いや句読点の問題によって生じるエラーが排除されます。

従来の音声文字起こしのカスケード処理では、たった一つの書き起こしエラーが出力全体を台無しにしてしまうことがあります。仮にSTTモデルが「can’t(〜できない)」を「can(〜できる)」と聞き違えた場合、翻訳エンジンは文の反対の意味を翻訳してしまいます。また、テキスト変換を行うことで、皮肉、緊急性、問いかけの抑揚といった音声のメタデータが削ぎ落とされてしまいます。

音響特徴量を直接翻訳することにより、Gemini 3.5 Live Translateは文脈(セマンティクス)の一貫性を維持します。このモデルは、元の音声の音素および発声特徴を高次元空間にマッピングし、それらをターゲット言語のパターンと照合して、合成音声を直接出力します。

システムの構成を比較してみましょう。

機能・特徴音声対音声 (Gemini 3.5 Live)カスケードパイプライン (従来型)
処理ステップ1 (音声 $\rightarrow$ 音声)3 (STT $\rightarrow$ MT $\rightarrow$ TTS)
平均遅延500ミリ秒未満2,000ミリ秒~4,000ミリ秒
韻律の維持あり(イントネーション、ピッチ、ペース)なし(抑揚のない合成TTS出力)
エラーの伝播低い(直接マッピング)高い(STTのエラーが連鎖する)
主なプラットフォームGoogle AI Studio (Live API)Google Translate App(レガシー)
対応言語数70言語以上130言語以上(遅延あり)

Key Takeaways

  • GoogleのGemini 3.5 Live Translateは、従来のテキスト書き起こしループを回避し、単一の音声対音声(audio-to-audio)ネットワークとして動作します。
  • このモデルは連続的な音声を500ミリ秒未満の遅延で翻訳し、自然で会話が重なり合うようなやり取りを可能にします。
  • イントネーション、ペース、ピッチを含む元の韻律(プロソディ)が維持され、ターゲット言語へ直接マッピングされます。
  • 開発者は、モデルID gemini-3.5-live-translate-previewを使用して、Gemini Live API経由でこの技術にアクセスできます。
  • Google Workspaceの顧客向けには、現在Google Meetのプライベートプレビュー版でシステムの試験運用が行われています。

FAQ

What is Gemini 3.5 Live Translate?

Gemini 3.5 Live Translateは、ほぼリアルタイムで連続的な音声を翻訳するためにGoogleが開発した、特化型の音声対音声(audio-to-audio)モデルです。従来の中間的なテキスト書き起こしステップを省くことで、500ミリ秒未満の遅延で70以上の言語に対応する翻訳ストリームを出力します。

How do developers access the Gemini Live Translate API?

開発者は、Google AI StudioおよびGemini Live APIを介して、モデルID gemini-3.5-live-translate-previewを呼び出すことで、このモデルにアクセスできます。APIは持続的なWebSockets接続をサポートしており、ライブ音声のストリーミング送信と、翻訳された音声の即時受信が可能です。

Does Gemini Live Translate work offline?

いいえ、Gemini 3.5 Live TranslateはGoogleのTPUアーキテクチャへのアクティブなクラウド接続を必要とします。Android向けにオンデバイスモデルの開発が進められているものの、現在のプレビュー版APIやエンタープライズ向けのGoogle Meet機能の利用には、インターネット接続が必須です。

How does audio-to-audio translation differ from speech-to-text?

音声対音声(audio-to-audio)翻訳は、言葉を最初にテキストに変換することなく、生の音響音声信号をターゲット言語の音声波形に直接マッピングします。これにより、書き起こしの問題による翻訳エラーを回避し、声のイントネーションやピッチを維持できます。

Is Gemini Live API free to use?

Google AI Studioでのパブリックプレビュー期間中、gemini-3.5-live-translate-previewモデルへのアクセスは、リクエスト率が制限された無料枠で提供されています。モデルが一般公開(GA)に移行した後は、音声の入力および出力ストリームに対して、トークンベースの課金が適用される予定です。

Sources

記事の続き

おすすめ記事