筆記目錄

Skip to content

使用 Google AI Studio 生成語音檔

TLDR

  • Google AI Studio 適合製作需要自然語氣、情感演繹的語音內容,而非逐字朗讀的嚴謹技術文件。
  • 若需確保資料隱私,請務必在 AI Studio 中設定計費專案(Set up billing),以避免輸入資料被用於模型訓練。
  • 建議將 Temperature 參數維持預設值 1,過低可能導致語音輸出異常或產生機器音。
  • 處理中英夾雜內容時,建議在兩者間加入半形空格,以提升發音精準度。
  • 若遇到 Failed to generate content: user has exceeded quota 錯誤,代表已達當日免費額度,需稍後再試。

工具定位與隱私建議

什麼情況下會遇到這個問題:當你需要選擇合適的 Google AI 工具,且對資料隱私有高度要求時。

  • Gemini:定位為個人數位助手,適合日常任務,整合了雲端硬碟與郵件服務。
  • AI Studio:定位為開發者工作站,提供專業參數控制與 Generate speech 等進階功能。
  • 隱私保護:Gemini 預設會使用對話資料訓練模型;AI Studio 在免費配額下同樣會用於訓練。若處理敏感內容,務必在 AI Studio 設定計費專案,此模式下輸入資料不會被用於訓練。

WARNING

若處理敏感內容或在意隱私,建議在 AI Studio 設定計費專案。

操作流程與注意事項

什麼情況下會遇到這個問題:當你準備開始使用 AI Studio 進行文字轉語音(TTS)作業時。

  1. 進入 Google AI Studio,點擊「Playground」並選擇「Audio」分類下的「Gemini 2.5 Pro Preview TTS」。
  2. 在 Text 輸入框貼上腳本,選擇 Voice 語音角色。
  3. 點擊「Run Ctrl + ↵」執行,產出後點擊右側三點圖示(⋮)下載 .wav 檔案。

ai studio navigation

WARNING

若短時間內大量生成,可能遇到 Failed to generate content: user has exceeded quota. Please try again later. 錯誤,代表額度用完,請稍後再試。

參數設定與踩雷紀錄

什麼情況下會遇到這個問題:當你希望透過調整參數來優化語音品質,卻發現輸出結果不穩定時。

Temperature 參數

  • 功能:控制語音生成的隨機性,範圍 0 ~ 2,預設 1
  • 踩雷紀錄:實測發現將數值調低(特別是低於 0.60.7)時,容易導致語音前段正常、後段突然靜音或產生無意義噪音,且語氣容易出現機器音。
  • 建議:除非有耐心反覆測試極限值,否則建議維持預設值 1

腳本內容優化

  • 中英夾雜:在中文與英文單字之間加入半形空格,能協助 AI 更精準地切換語系與發音。
  • 段落停頓:段落間的空行代表停頓,但請勿連續超過兩行,否則可能導致模型誤判而提前結束語音。
  • 時長限制:單次生成上限約 11 分鐘。若內容長度接近上限,可嘗試重新執行,因每次生成的語速略有差異,有機會完整產出。

TIP

由於訓練資料中大陸用語佔比較高,系統常自動將台灣用語替換成大陸用語(例如將「堆疊」換成「堆棧」)。目前無完美解法,建議在關鍵詞中間插入空格嘗試,但效果不一。

腳本範例

什麼情況下會遇到這個問題:當你需要參考如何撰寫 Style instructions 與腳本以獲得最佳語音效果時。

Style instructions

text
請用生動、熱情且自然的對話語氣。中文語調請保持柔和、親切,英文請用標準美式口音。

Text

text
歡迎收聽軟體工程師英語的第一集。今天我們的主題是 Git 版本控制。這是現代開發者每天賴以生存的工具。我們將從基礎指令到團隊協作的術語一一掃描。請放鬆心情,準備好你的耳朵,我們開始吧。

版本控制
Version Control
例句:Git is the most popular distributed version control system.
Git 是最受歡迎的分散式版本控制系統。

檔案庫
Repository
例句:Please clone the repository to your local machine.
請將檔案庫複製到你的本機。

初始化
Initialize
例句:Run git init to initialize a new repository here.
執行 git init 在這裡初始化一個新檔案庫。

Git 的指令雖然多,但只要掌握這 50 個最核心的動作,就能應對 90% 的工作場景。建議您反覆聆聽,特別是 Rebase 和 Merge 的區別。下一集,我們將進入 .NET 的開發世界。

結論

什麼情況下會遇到這個問題:當你需要評估 AI Studio 是否適合你的應用場景時。

  • 適合情境:製作 Podcast、有聲內容,或是需要練習報告、演繹劇本時,AI Studio 能提供自然且具情感的語音表達。
  • 不適合情境:需要完全忠於原文的逐字朗讀(如法律文件、技術規格文件),建議改用傳統 TTS 工具。

異動歷程

  • 2025-12-25 初版文件建立。