筆記目錄

Skip to content

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

TLDR

  • Faster-Whisper 透過 CTranslate2 引擎與 8-bit 量化技術,效能較原始 Whisper 提升約 4 倍,且記憶體佔用更低。
  • 建議使用 Subtitle Edit 整合 Faster-Whisper-XXL,可避開直接安裝 Python 環境時常見的相依性衝突問題。
  • 模型選擇建議:追求準確度選 large-v3,追求速度與效率平衡則強烈建議使用 large-v3-turbo
  • 實測數據顯示,large-v3-turbo 在 5 分鐘音訊的轉錄僅需約 16 秒,效能表現極佳。

Faster-Whisper 的技術優勢

Faster-Whisper 是基於 CTranslate2(支援 Transformer 模型的快速推論引擎)所實作的 Whisper 版本。相較於原始的 OpenAI Whisper,其主要優勢在於:

  • 速度更快:效能提升約 4 倍以上。
  • 記憶體佔用更少:透過 8-bit 量化技術,大幅降低 VRAM 需求。

對於希望在本地端執行語音轉文字 (STT) 且不希望造成系統卡頓的使用者而言,這是目前效能較佳的選擇。

解決 Python 相依性安裝問題

什麼情況下會遇到這個問題:當使用者嘗試直接安裝 Faster-Whisper-XXL 等獨立執行檔,卻因 Python 影音相關套件的相依性衝突而無法執行時。

建議改用 Subtitle Edit 進行整合。Subtitle Edit 本身是一款強大的字幕編輯軟體,其內建的整合功能可自動處理環境配置,過程相對穩定且順利。

Subtitle Edit 整合步驟

  1. 開啟 Subtitle Edit,選擇選單的「視訊 (Video)」->「Audio to text (Whisper)...」。
  2. 若系統提示下載 ffmpeg,請點擊確認。
  3. 在 Engine 選項中選擇「Purfview's Faster-Whisper-XXL」。若未安裝組件,系統會自動跳出下載提示。
  4. 在 Choose model 下拉選單中下載模型。

TIP

模型差異說明

  • Large-v3:目前準確度最高的模型,參數最多,但推論速度較慢,需要較多記憶體。
  • Large-v3-Turbo:v3 的蒸餾版本,將解碼層 (Decoder Layers) 從 32 層減少到 4 層。參數減少約 48%,速度提升約 8 倍,且英文辨識準確度與完整版幾乎無異。
  1. 將影音檔案拖入視窗,點擊「Generate」即可開始辨識。若需轉換 mp3 等音訊檔,請記得調整檔案類型過濾器。

實測效能分析

什麼情況下會遇到這個問題:當需要評估不同模型在本地端的轉錄速度與準確度時。

測試環境:PNY RTX 4070 Ti Super 16GB Blower,測試素材為 5 分 16 秒的 mp3 檔案。

  • 測試結果
    • 使用 large-v3-turbo:約 16 秒。
    • 使用 large-v3:約 32 秒。

從數據觀察,large-v3 的執行速度已大幅超越舊版工具。雖然 large-v3 在處理歌曲等複雜音訊時,準確度提升幅度有限,但其執行效率已足以應付日常本地端語音轉文字的需求。

異動歷程

  • 2026-01-30 初版文件建立。