Gemini APIのTTS、驚きの表現力。複数話者もスタイルも自由自在

目次

Gemini APIでテキストを「声」に変える:TTS機能の徹底解説

近年、AI技術の進化により、テキストをまるで人間が話しているかのような自然な音声に変換する「Text-to-Speech (TTS)」技術への注目が高まっています。このTTSは、コンテンツ制作、アクセシビリティ向上、インタラクティブなサービス開発など、様々な分野で革新をもたらしています。

そして、Googleが提供する高性能なAIモデル「Gemini」も、そのAPIを通じて強力なTTS機能を提供しています。本記事では、Gemini APIのTTS機能に焦点を当て、その特徴、使い方、そして活用方法について、開発者だけでなく、AIによる音声合成に興味のあるすべての方に向けて詳しく解説します。

Gemini APIのTTS機能とは?

まず、Gemini APIが提供する「Speech generation」、つまり音声生成機能について見ていきましょう。これは、主に「TTS」を使用して、入力されたテキストを音声データに変換するものです。単一の話者だけでなく、複数の話者の音声を生成することも可能です。

この機能の大きな特徴は、単にテキストを読み上げるだけでなく、自然言語の指示によって、音声のスタイル、アクセント、ペース、トーンといった要素を細かく制御できる点にあります。これにより、より表現豊かで目的に合った音声を生成することが可能になります。

Live APIの音声生成との違い

ここで一点注意が必要なのは、Gemini APIのTTS機能は、インタラクティブな会話やマルチモーダルな入出力を目的とした「Live API」が提供する音声生成とは設計思想が異なるという点です。

  • Live API: 動的な会話コンテキストに優れており、リアルタイムでの応答性が求められるチャットボットや音声アシスタントなどに適しています。
  • Gemini API (TTS): スタイルやサウンドを細かく制御しながら正確なテキスト読み上げを行う必要があるシナリオ、例えばポッドキャスト、オーディオブック、ナレーション生成などに特に強みを発揮します。

したがって、用途に応じて最適なAPIを選択することが重要です。

利用可能なモデルと料金

現在、Gemini APIのTTS機能で利用できるモデルは以下の通りです(※提供時点でのプレビュー版です)。

  • gemini-2.5-pro-preview-tts
  • gemini-2.5-flash-preview-tts

これらのモデルは、性能や料金体系が異なる可能性があります。最新かつ正確な料金情報については、以下のGoogle公式ドキュメントを参照してください。

Gemini Developer API Pricing | Gemini API | Google AI for Developers

実際に使ってみよう:コード例で理解するTTS

提供されたテキストには、Gemini APIのTTS機能をPythonで利用する際の具体的なコード例が含まれています。これらを参考に、基本的な使い方を見ていきましょう。

前提として、Google AI Client Library for Pythonをインストールし、APIキーを取得しておく必要があります。

pip install google-generativeai

1. 単一話者による音声合成

最も基本的な使い方は、テキストを単一話者の音声に変換することです。APIレスポンスの形式を音声("AUDIO")に設定し、使用する音声(voice_name)を指定します。

以下のPythonコードは、指定したテキストを特定の音声で読み上げ、wavファイルとして保存する例です。

from google import genai
from google.genai import types
import wave # オーディオファイルを扱うための標準ライブラリ

# 出力を保存するためのwaveファイルを設定するヘルパー関数
def save_wave_file(filename, pcm_data, channels=1, rate=24000, sample_width=2):
   """PCMデータをWAVEファイルとして保存する"""
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsamplesize(sample_width) # サンプルサイズ (バイト数)
      wf.setframerate(rate)         # サンプルレート (Hz)
      wf.writeframes(pcm_data)      # フレームデータを書き込み

# クライアントの準備
client = genai.Client(api_key="YOUR_GEMINI_API_KEY") # YOUR_GEMINI_API_KEYを実際のAPIキーに置き換え

# 音声の生成リクエスト
response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts", # 使用するTTSモデルを指定
   contents="明るく言いましょう: 素敵な一日をお過ごしください!", # 音声化したいテキストコンテンツ
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"], # レスポンスタイプをオーディオに設定
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore', # 使用する音声の名前を指定 (後述のオプションから選択)
            )
         )
      ),
   )
)

# レスポンスから音声データを取得し、ファイルに保存
if response.candidates and response.candidates[0].content.parts:
    audio_data = response.candidates[0].content.parts[0].inline_data.data
    file_name = 'output_single_speaker.wav'
    save_wave_file(file_name, audio_data) # 生成された音声データをファイルに保存
    print(f"音声を {file_name} に保存しました。")
else:
    print("音声データの生成に失敗しました。")

補足: voice_nameには、後述する30種類の音声オプションの中から選択した名前を指定します。

2. 複数話者による音声合成

Gemini APIのTTSは、最大2人までの複数話者による音声合成もサポートしています。これは、対話形式のコンテンツ(例: ポッドキャスト、ドラマCDの一部)を作成する際に非常に便利です。

複数話者の音声合成を行うには、SpeechConfig内でmulti_speaker_voice_configを使用し、各話者に対してSpeakerVoiceConfigを設定します。それぞれのSpeakerVoiceConfigには、プロンプト内で使用する話者の名前と、その話者に割り当てる音声オプションを指定します。

以下のコードは、簡単な対話を2つの異なる音声で読み上げる例です。

from google import genai
from google.genai import types
import wave

# save_wave_file関数は単一話者の例と同じものを使用

# クライアントの準備 (上記と同じ)
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")

# プロンプト (対話形式のテキスト)
prompt = """ジョーとジェーンの間の次の会話をTTSで書きます。:
         ジョー: ジェーン、今日はどうですか?
         ジェーン: 悪くないわね、あなたはどう?"""

# 音声の生成リクエスト (複数話者設定)
response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents=prompt,
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
               # 1人目の話者設定
               types.SpeakerVoiceConfig(
                  speaker='ジョー', # プロンプト内の話者名と一致させる
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Kore', # ジョーに割り当てる音声
                     )
                  )
               ),
               # 2人目の話者設定
               types.SpeakerVoiceConfig(
                  speaker='ジェーン', # プロンプト内の話者名と一致させる
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Puck', # ジェーンに割り当てる音声
                     )
                  )
               ),
            ]
         )
      )
   )
)

# レスポンスから音声データを取得し、ファイルに保存 (上記と同じ方法でwaveファイルに保存)
if response.candidates and response.candidates[0].content.parts:
    audio_data = response.candidates[0].content.parts[0].inline_data.data
    file_name = 'output_multi_speaker.wav'
    save_wave_file(file_name, audio_data)
    print(f"音声を {file_name} に保存しました。")
else:
     print("音声データの生成に失敗しました。")

この例では、プロンプト内の話者名「ジョー」と「ジェーン」に対応するSpeakerVoiceConfigを設定しています。これにより、それぞれのセリフが異なる音声で生成されます。

3. ストリーミングによる再生

生成された音声をファイルに保存するだけでなく、ストリーミング形式でリアルタイムに受け取り、再生することも可能です。ストリーミングは、特に長いテキストを音声化する際に、応答が開始されると同時に再生を開始できるため、よりスムーズなユーザー体験を提供します。

提供テキストには再生部分のコード断片が含まれていますが、PyAudioライブラリが必要になります。

import pyaudio # pip install PyAudio が必要

# PyAudioストリームの準備 (再生デバイスの設定などに依存)
# pya = pyaudio.PyAudio()
# stream = pya.open(...) # 再生設定に応じて適切なパラメータを指定

# ストリーミングデータの再生
def play_audio_stream(audio_chunks):
   """オーディオデータのチャンクをストリーム再生する"""
   # streamオブジェクトは事前に開かれているものとする
   for chunk in audio_chunks:
      if chunk.data: # データが存在する場合のみ処理
         stream.write(chunk.data) # ストリームにデータを書き込み再生
   # stream.stop_stream()
   # stream.close()
   # pya.terminate()

# ... generate_content呼び出し ...
# レスポンスオブジェクト (上記単一/複数話者例のresponse) からオーディオチャンクを取得
# audio_chunks = response.candidates[0].content.parts # 例として。実際の構造は確認が必要

# play_audio_stream(audio_chunks) # 再生を実行

ストリーミング再生の実装は、使用するオーディオライブラリ(PyAudioなど)や再生環境に依存するため、上記はあくまで概念的な例です。しかし、この機能により、応答性の高いアプリケーションを構築できることが分かります。

プロンプトによる音声スタイルの制御

Gemini APIのTTS機能の強力な点の1つは、テキストプロンプトを通じて音声のスタイル、トーン、アクセント、ペースなどを制御できることです。これは単一話者、複数話者どちらのシナリオでも利用可能です。

例えば、単にテキストを渡すのではなく、以下のように話し方に関する指示をプロンプトに含めることができます。

  • 不気味なささやき声で言う。:
  • 明るく元気に話してください。:
  • ゆっくりとしたペースで、落ち着いたトーンで読み上げてください。:

複数話者の場合は、各話者ごとに異なる話し方を指示することも可能です。

  • [Speaker1]は疲れて退屈しているように、[Speaker2]は興奮して幸せそうに聞こえるようにしましょう。:

さらに、使用する音声オプション(voice_name)も、プロンプトによるスタイル制御と組み合わせることで、より意図したニュアンスを表現するのに役立ちます。例えば、「Breathy」な特徴を持つ音声(例: Enceladus)を疲れた話し方の指示と組み合わせると、より自然な疲労感を演出できるかもしれません。

他のモデルとの連携活用

Gemini APIは、テキスト生成など他の機能も提供しています。TTS機能は、これらの機能と組み合わせることで、さらに高度なアプリケーションを構築できます。

提供テキストの例では、gemini-2.0-flashのような別のモデルを使用して会話の「文字起こし」を生成し、その生成されたテキストをTTSモデルに渡して音声化しています。

from google import genai
from google.genai import types

# クライアントの準備 (上記と同じ)
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")

# 他のモデルで文字起こしを生成
transcript_response = client.models.generate_content(
   model="gemini-2.0-flash", # テキスト生成に特化したモデルを使用
   contents="""Generate a short transcript around 100 words that reads
            like it was clipped from a podcast by excited herpetologists.
            The hosts names are Dr. Anya and Liam."""
)
transcript = transcript_response.text # 生成されたテキストを取得

print("生成された文字起こし:\n", transcript)

# 生成された文字起こしをTTSモデルに渡し、音声化
response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts", # TTSモデルを使用
   contents=transcript, # 文字起こしテキストを入力
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=[
               types.SpeakerVoiceConfig(
                  speaker='Dr. Anya', # 文字起こし内の話者名と一致
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Kore', # Dr. Anyaに割り当てる音声
                     )
                  )
               ),
               types.SpeakerVoiceConfig(
                  speaker='Liam', # 文字起こし内の話者名と一致
                  voice_config=types.VoiceConfig(
                     prebuilt_voice_config=types.PrebuiltVoiceConfig(
                        voice_name='Puck', # Liamに割り当てる音声
                     )
                  )
               ),
            ]
         )
      )
   )
)

# ... 生成された音声をストリーミングまたはファイルに保存するコード ...

このように、Geminiの異なるモデルを組み合わせてワークフローを構築することで、アイデア次第で様々な音声コンテンツを自動生成するシステムを開発できます。

技術的な詳細と制約

Gemini APIのTTS機能を利用する上で、いくつかの技術的な詳細と制約を理解しておく必要があります。

  • コンテキストウィンドウ: TTSセッションのコンテキストウィンドウは、現在32,000トークンに制限されています。これは、一度に処理できるテキストの量に上限があることを意味します。長大なテキストを処理する場合は、分割してAPIに渡すなどの工夫が必要になる場合があります。
  • 音声オプション: サポートされる音声オプションは、現時点で30種類です。それぞれ異なる声質や特徴を持っています。以下にその一部を示します。
    • Zephyr — Bright (明るい)
    • Puck — Upbeat (元気の良い)
    • Charon — Informative (情報伝達に適した)
    • Kore — Firm (しっかりした)
    • Enceladus — Breathy (息っぽい)
    • … (全30種類)
      利用可能な音声の全リストは、APIドキュメントで確認できます。これらのオプションの中から、生成したい音声のイメージに最も近いものを選びましょう。
  • サポート言語: TTSモデルは入力言語を自動的に検出しますが、サポートされる言語は以下の24種類です。日本語(ja-JP)も含まれているため、日本語での高品質な音声合成が可能です。
    • Arabic (Egyptian) – ar-EG
    • German (Germany) – de-DE
    • English (US) – en-US
    • Spanish (US) – es-US
    • French (France) – fr-FR
    • Hindi (India) – hi-IN
    • Indonesian (Indonesia) – id-ID
    • Italian (Italy) – it-IT
    • Japanese (Japan) – ja-JP
    • Korean (Korea) – ko-KR
    • … (全24言語)

これらの技術的な詳細を把握しておくことで、より効果的にTTS機能を活用し、予期せぬ問題を防ぐことができます。

活用シーンと今後の展望

Gemini APIのTTS機能は、その高品質と柔軟性から、多岐にわたる活用が考えられます。

  • コンテンツ制作: ポッドキャストのエピソード生成、オーディオブックの制作、YouTube動画のナレーション、eラーニング教材の音声化など。プロンプトによるスタイル制御を活用すれば、コンテンツの雰囲気に合わせたナレーションを作成できます。
  • アクセシビリティ: Webサイトやアプリケーションのテキスト読み上げ機能として組み込み、視覚障碍のあるユーザーや、コンテンツを音声で聞きたいユーザーにとっての利便性を向上させます。
  • 顧客体験: AIチャットボットや音声アシスタントの応答音声を、より自然で親しみやすいものにすることで、ユーザーエンゲージメントを高めます。
  • エンターテイメント: ゲーム内のキャラクターボイス(簡易版)、アニメーションのセリフ読み上げなど、表現の幅を広げます。

今後の展望としては、TTS技術自体がさらに進化し、より人間の声に限りなく近い、感情や微細なニュアンスを正確に再現できる方向へと進むでしょう。また、Gemini APIにおいても、サポートされる音声オプションや言語の拡充、より高度なスタイル制御機能の追加などが期待されます。他のGeminiモデルとの連携もさらに強化され、音声を含むマルチモーダルなインタラクションの開発がより容易になる可能性もあります。

まとめ

本記事では、Gemini APIが提供する強力なTTS機能について掘り下げました。テキストを高品質な音声に変換する基本的な使い方から、複数話者対応、プロンプトによるスタイル制御、他のモデルとの連携、そして技術的な詳細に至るまでを解説しました。

Gemini APIのTTS機能は、単なるテキスト読み上げを超え、スタイルや感情を込めた表現力豊かな音声コンテンツを生成する新しい可能性を切り開きます。コンテンツクリエイター、開発者、教育関係者など、多くの人々にとって非常に有用なツールとなるでしょう。

ぜひ、Gemini APIのTTS機能を活用し、あなたのアイデアを「声」に変えてみてください。高品質な音声が、あなたのプロジェクトに新たな価値をもたらすはずです。

撮影に使用している機材【PR】

【無料】撮った写真でWEBページを作りませんか?

この記事が気に入ったら
フォローしてね!

よかったらシェアしてね!
  • URLをコピーしました!
目次