使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

TLDR

Faster-Whisper 透過 CTranslate2 引擎與 8-bit 量化技術，效能較原始 Whisper 提升約 4 倍，且記憶體佔用更低。
建議使用 Subtitle Edit 整合 Faster-Whisper-XXL，可避開直接安裝 Python 環境時常見的相依性衝突問題。
模型選擇建議：追求準確度選 large-v3，追求速度與效率平衡則強烈建議使用 large-v3-turbo。
實測數據顯示，large-v3-turbo 在 5 分鐘音訊的轉錄僅需約 16 秒，效能表現極佳。

Faster-Whisper 的技術優勢

Faster-Whisper 是基於 CTranslate2（支援 Transformer 模型的快速推論引擎）所實作的 Whisper 版本。相較於原始的 OpenAI Whisper，其主要優勢在於：

速度更快：效能提升約 4 倍以上。
記憶體佔用更少：透過 8-bit 量化技術，大幅降低 VRAM 需求。

對於希望在本地端執行語音轉文字 (STT) 且不希望造成系統卡頓的使用者而言，這是目前效能較佳的選擇。

解決 Python 相依性安裝問題

什麼情況下會遇到這個問題：當使用者嘗試直接安裝 Faster-Whisper-XXL 等獨立執行檔，卻因 Python 影音相關套件的相依性衝突而無法執行時。

建議改用 Subtitle Edit 進行整合。Subtitle Edit 本身是一款強大的字幕編輯軟體，其內建的整合功能可自動處理環境配置，過程相對穩定且順利。

Subtitle Edit 整合步驟

開啟 Subtitle Edit，選擇選單的「視訊 (Video)」->「Audio to text (Whisper)...」。
若系統提示下載 ffmpeg，請點擊確認。
在 Engine 選項中選擇「Purfview's Faster-Whisper-XXL」。若未安裝組件，系統會自動跳出下載提示。
在 Choose model 下拉選單中下載模型。

TIP

模型差異說明：

Large-v3：目前準確度最高的模型，參數最多，但推論速度較慢，需要較多記憶體。
Large-v3-Turbo：v3 的蒸餾版本，將解碼層 (Decoder Layers) 從 32 層減少到 4 層。參數減少約 48%，速度提升約 8 倍，且英文辨識準確度與完整版幾乎無異。

將影音檔案拖入視窗，點擊「Generate」即可開始辨識。若需轉換 mp3 等音訊檔，請記得調整檔案類型過濾器。

實測效能分析

什麼情況下會遇到這個問題：當需要評估不同模型在本地端的轉錄速度與準確度時。

測試環境：PNY RTX 4070 Ti Super 16GB Blower，測試素材為 5 分 16 秒的 mp3 檔案。

測試結果：
- 使用 large-v3-turbo：約 16 秒。
- 使用 large-v3：約 32 秒。

從數據觀察，large-v3 的執行速度已大幅超越舊版工具。雖然 large-v3 在處理歌曲等複雜音訊時，準確度提升幅度有限，但其執行效率已足以應付日常本地端語音轉文字的需求。

異動歷程

2026-01-30 初版文件建立。

筆記目錄

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

TLDR

Faster-Whisper 的技術優勢

解決 Python 相依性安裝問題

Subtitle Edit 整合步驟

實測效能分析

異動歷程

雲翼的技術隨筆

快速導航

聯絡方式

筆記目錄

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字 ​

TLDR ​

Faster-Whisper 的技術優勢 ​

解決 Python 相依性安裝問題 ​

Subtitle Edit 整合步驟 ​

實測效能分析 ​

異動歷程 ​

雲翼的技術隨筆

快速導航

聯絡方式

使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

TLDR

Faster-Whisper 的技術優勢

解決 Python 相依性安裝問題

Subtitle Edit 整合步驟

實測效能分析

異動歷程