使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

TLDR

Faster-Whisper 優勢：基於 CTranslate2 引擎，效能較原始 Whisper 提升約 4 倍，並透過 8-bit 量化技術大幅降低 VRAM 需求。
推薦方案：使用 Subtitle Edit 整合 Purfview's Faster-Whisper-XXL，可避免直接安裝 Python 環境時常見的相依性衝突問題。
模型選擇建議：追求速度與準確度平衡首選 large-v3-turbo；追求最高準確度則選擇 large-v3。
效能實測：在 RTX 4070 Ti Super 環境下，處理 5 分 16 秒的音訊，large-v3-turbo 僅需約 16 秒，large-v3 約 32 秒，效能表現極佳。

Faster-Whisper 技術簡介

什麼情況下會需要 Faster-Whisper？當使用者希望在本地端執行語音轉文字（STT），但受限於硬體資源或希望提升處理速度時。

Faster-Whisper 是基於 CTranslate2（支援 Transformer 模型的快速推論引擎）所實作的 Whisper 版本。相較於原始的 OpenAI Whisper，其核心優勢包括：

速度更快：效能提升約 4 倍以上。
記憶體佔用更少：透過 8-bit 量化技術，大幅降低 VRAM 需求。

Subtitle Edit 整合實作

什麼情況下會遇到安裝困難？在嘗試直接安裝 Faster-Whisper-XXL 獨立套件時，常因 Python 影音相關套件的相依性問題導致無法執行。透過 Subtitle Edit 整合則可避開此類環境配置地雷。

整合步驟

開啟 Subtitle Edit，選擇選單 「視訊 (Video)」 -> 「Audio to text (Whisper)...」。
若系統提示下載 ffmpeg，請依指示完成安裝。
在 Engine 選項中選擇 「Purfview's Faster-Whisper-XXL」。
在 Choose model 下拉選單中下載模型。建議選擇 faster-whisper-large-v3 或 faster-whisper-large-v3-turbo。

模型差異說明

Large-v3：目前準確度最高的模型，參數最多，推論速度較慢，需要較多的記憶體。
Large-v3-Turbo：v3 的蒸餾版本，將解碼層從 32 層減少到 4 層。參數減少約 48%，但速度提升約 8 倍，且英文辨識準確度與完整版幾乎無異。

將影音檔案拖入視窗，點擊 「Generate (產生)」 即可開始辨識。

效能實測與分析

什麼情況下會感受到顯著差異？在處理長度較長的音訊或對辨識品質有高要求時。

以下使用 5 分 16 秒的 mp3 檔案，在 PNY RTX 4070 Ti Super 16GB 環境下進行測試：

測試結果：
- large-v3-turbo：耗時約 16 秒。
- large-v3：耗時約 32 秒。

結論：雖然 large-v3-turbo 的速度略慢於舊版 WhisperDesktop 使用 Medium 模型（11 秒），但 large-v3 能在 32 秒內完成轉錄，展現了極高的效能優勢。對於背景音樂干擾較大的音訊，large-v3 的辨識品質優於 Medium 模型，且執行速度已完全足以應付日常本地端轉錄需求。

異動歷程

2026-01-30
- 初版文件建立。

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字 ​

TLDR ​

Faster-Whisper 技術簡介 ​

Subtitle Edit 整合實作 ​

整合步驟 ​

效能實測與分析 ​

異動歷程 ​