使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字
TLDR
- Faster-Whisper 優勢:基於 CTranslate2 引擎,效能較原始 Whisper 提升約 4 倍,並透過 8-bit 量化技術大幅降低 VRAM 需求。
- 推薦方案:使用 Subtitle Edit 整合
Purfview's Faster-Whisper-XXL,可避免直接安裝 Python 環境時常見的相依性衝突問題。 - 模型選擇建議:追求速度與準確度平衡首選
large-v3-turbo;追求最高準確度則選擇large-v3。 - 效能實測:在 RTX 4070 Ti Super 環境下,處理 5 分 16 秒的音訊,
large-v3-turbo僅需約 16 秒,large-v3約 32 秒,效能表現極佳。
Faster-Whisper 技術簡介
什麼情況下會需要 Faster-Whisper?當使用者希望在本地端執行語音轉文字(STT),但受限於硬體資源或希望提升處理速度時。
Faster-Whisper 是基於 CTranslate2(支援 Transformer 模型的快速推論引擎)所實作的 Whisper 版本。相較於原始的 OpenAI Whisper,其核心優勢包括:
- 速度更快:效能提升約 4 倍以上。
- 記憶體佔用更少:透過 8-bit 量化技術,大幅降低 VRAM 需求。
Subtitle Edit 整合實作
什麼情況下會遇到安裝困難?在嘗試直接安裝 Faster-Whisper-XXL 獨立套件時,常因 Python 影音相關套件的相依性問題導致無法執行。透過 Subtitle Edit 整合則可避開此類環境配置地雷。
整合步驟
- 開啟 Subtitle Edit,選擇選單 「視訊 (Video)」 -> 「Audio to text (Whisper)...」。
- 若系統提示下載 ffmpeg,請依指示完成安裝。
- 在 Engine 選項中選擇 「Purfview's Faster-Whisper-XXL」。
- 在 Choose model 下拉選單中下載模型。建議選擇
faster-whisper-large-v3或faster-whisper-large-v3-turbo。
模型差異說明
- Large-v3:目前準確度最高的模型,參數最多,推論速度較慢,需要較多的記憶體。
- Large-v3-Turbo:v3 的蒸餾版本,將解碼層從 32 層減少到 4 層。參數減少約 48%,但速度提升約 8 倍,且英文辨識準確度與完整版幾乎無異。
- 將影音檔案拖入視窗,點擊 「Generate (產生)」 即可開始辨識。
效能實測與分析
什麼情況下會感受到顯著差異?在處理長度較長的音訊或對辨識品質有高要求時。
以下使用 5 分 16 秒的 mp3 檔案,在 PNY RTX 4070 Ti Super 16GB 環境下進行測試:
- 測試結果:
large-v3-turbo:耗時約 16 秒。large-v3:耗時約 32 秒。
結論: 雖然 large-v3-turbo 的速度略慢於舊版 WhisperDesktop 使用 Medium 模型(11 秒),但 large-v3 能在 32 秒內完成轉錄,展現了極高的效能優勢。對於背景音樂干擾較大的音訊,large-v3 的辨識品質優於 Medium 模型,且執行速度已完全足以應付日常本地端轉錄需求。
異動歷程
- 初版文件建立。