簡單測試使用 WhisperDesktop 將語音轉成文字
TLDR
- WhisperDesktop 是一款無需 Python 環境即可在 Windows 上運行 OpenAI Whisper 的離線工具。
- 建議優先使用
ggml-medium.bin模型,該模型在準確度與處理速度之間取得了最佳平衡。 - 獨立顯卡使用者建議選用
ggml-medium.bin;內顯使用者建議日常使用ggml-small.bin,重要內容則選用ggml-medium.bin。 - 轉換效能與模型大小及硬體規格(VRAM)高度相關,
ggml-large模型在特定硬體上可能出現轉換失敗或輸出空白的問題。 - 開發者已長期未更新 WhisperDesktop,建議改用維護更活躍且速度更快的 Subtitle Edit 整合 Faster-Whisper 方案。
WARNING
WhisperDesktop 開發者已許久未更新。目前建議改用 Subtitle Edit 整合 Faster-Whisper,維護相對活躍且速度更快。請參考:使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字。
軟體安裝與模型配置
WhisperDesktop 提供了圖形化介面,讓使用者無需建置 Python 環境即可運行 Whisper 模型。
- 下載方式:前往 WhisperDesktop GitHub 的 Releases 頁面,下載
WhisperDesktop.zip。 - 模型下載:從 Huggingface Whisper 下載對應的
.bin模型檔。 - 模型選擇建議:
tiny/base:適合硬體資源極度受限的環境,但準確率較低。small:內顯環境的日常使用基準。medium:推薦模型,準確度與速度表現最為均衡。large:準確度最高,但對 VRAM 需求大(約 10GB),且在部分硬體上可能發生轉換失敗。
效能與硬體需求分析
什麼情況下會遇到效能瓶頸?當處理長音訊檔案或使用過大的模型時,硬體規格(特別是 VRAM)將直接決定轉換速度與成功率。
測試數據對照
以下測試基於 5 分 16 秒的 mp3 檔案:
- 獨立顯卡 (RTX 4070 Ti Super 16GB):
- 使用
ggml-medium.bin:僅需 11 秒。 - 使用
ggml-large-v3.bin:耗時 22 分 01 秒,且實測可能產生空白檔案。
- 使用
- 內顯 (i7-12700H):
- 使用
ggml-tiny.bin:41 秒。 - 使用
ggml-small.bin:4 分 19 秒。 - 使用
ggml-medium.bin:13 分 5 秒。
- 使用
使用建議與結論
針對不同硬體配置,建議採取以下策略:
- 擁有獨立顯示卡者:直接選用
ggml-medium.bin模型,可兼顧效率與品質。 - 使用內顯或舊型顯示卡者:
- 日常轉錄:建議使用
ggml-small.bin,因ggml-tiny.bin的準確率通常不足以應付一般需求。 - 高精確度需求:可選用
ggml-medium.bin,並預留較長的處理時間。
- 日常轉錄:建議使用
異動歷程
- 2025-03-24 初版文件建立。
- 2026-01-31 新增推薦連結,引導至新版 Faster-Whisper 解決方案。
