筆記目錄

Skip to content

簡單測試使用 WhisperDesktop 將語音轉成文字

WARNING

這篇是之前的測試紀錄,雖然 WhisperDesktop 還是能用,但開發者已許久未更新。 目前我已改用 Subtitle Edit 整合 Faster-Whisper,維護相對活躍且速度更快。 建議直接參考新文章:使用 Subtitle Edit 整合 Faster-Whisper 進行本地語音轉文字

前段時間在看 ChatRTX 時,我看到 Whisper 這個名詞。經查詢後發現,OpenAI Whisper 是 OpenAI 於 2022 年 9 月發佈的語音轉錄和翻譯 AI 模型。如果想了解更多資訊可以參考 What is OpenAI Whisper? 這篇文章。

對於像我這樣的 AI 新手來說,要自己建立環境來運行這個模型有點困難。不過,有人開發出可以直接使用的離線版工具 WhisperDesktop

下載與安裝

  1. 從 GitHub 儲存庫首頁右側邊欄的 "Releases" 區域點擊最新版本,目前版本是 Version 1.12

    whisper desktop github release

  2. 在 Release 頁面的 "Assets" 區域下方,點擊紅框標示的 WhisperDesktop.zip 進行下載。

    whisper desktop assets zip

  3. 解壓縮後,會看到以下三個檔案:

    • WhisperDesktop.exe:實際執行檔案。
    • Whisper.dll:函式庫檔案。
    • lz4.txt:授權聲明。

下載模型

接著,需要從以下網站下載模型: Huggingface Whisper

模型大小與規格

模型有不同大小可供選擇,帶有 .en 後綴的是英文專用版本,除此之外還有其他延伸模型。WhisperDesktop 作者推薦使用 ggml-medium.bin,因為這是他主要用來測試軟體的模型。

大小參數數量英文專用模型多語言模型需求 VRAM相對速度
tiny39 Mtiny.entiny~1 GB~32x
base74 Mbase.enbase~1 GB~16x
small244 Msmall.ensmall~2 GB~6x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x

使用方法

  1. 執行 WhisperDesktop.exe。

  2. 在 Model Path 欄位指定已下載的模型位置。

  3. Model Implementation 選擇 GPU(其他選項我不知道用途,這邊就不說明了)。

    • 如果沒有正確偵測到顯示卡,可以點擊 advanced... 進行細節設定。

    whisper desktop advanced settings

  4. 點擊 ok

  5. Language 選擇影片主要語言(中文只有 Chinese 選項,程式會自動判斷繁簡體,不過我也不知道他的判斷依據)。

  6. 若要翻譯成英文,請勾選 Translate,不過我測試音樂常翻失敗。

  7. Transcribe File 選擇要轉成文字的音樂或影片檔案。

  8. Output Format 可以選擇以下格式:

    • None:不輸出檔案。
    • Text file (.txt):純文字檔案。
    • Text with timestamps:包含時間戳記的文字檔案。
    • SubRip subtitles (.srt):常見的字幕格式,包含時間碼和文字。
    • WebVTT subtitles (.vtt):網頁影片字幕格式。
  9. 指定輸出的檔案位置及檔名。

    whisper desktop output location

  10. 如果不想特別指定檔案輸出位置,可以勾選 Place that file to the input folder

    • 這樣會將輸出檔案儲存在與輸入檔案相同的位置。
    • 檔名會是原檔案名稱加上輸出格式對應的副檔名。

「Audio Capture」功能可以直接讀取麥克風輸入的語音,但我的電腦無法偵測到藍牙耳機,因此這部分暫不說明。

效能測試

使用 PNY RTX 4070 Ti Super 16GB Blower 顯示卡進行測試,轉換一個 5 分 16 秒的 mp3 檔案:

  • 使用 ggml-large-v3.bin 需要 22 分 01 秒,且不一定能成功轉換(實測時,檔案內容空白,可能需要使用其他版本的 large 模型才能正確轉出)。
  • 使用 ggml-medium.bin 僅需 11 秒即可完成。

使用 i7-12700H 內顯(無獨立顯示卡)進行測試,同樣是轉換 5 分 16 秒的 mp3 檔案:

  • 使用 ggml-tiny.bin 需要 41 秒。
  • 使用 ggml-small.bin 需要 4 分 19 秒。
  • 使用 ggml-medium.bin 需要 13 分 5 秒。

轉出來的文字正確率隨著模型大小增加而有明顯的提升。

結論

基於測試結果與速度考量,以下是我個人使用建議:

  • 對於有獨立顯示卡的使用者:建議使用 ggml-medium.bin 模型。
  • 對於使用內顯或早期顯示卡的使用者:
    • 日常使用:選擇 ggml-small.bin,這是可接受的最小模型,ggml-tiny.bin 模型的準確率太差了。
    • 重要內容轉錄:可以選擇 ggml-medium.bin 並接受較長的處理時間,以獲得更高的準確度。

異動歷程

  • 2025-03-24 初版文件建立。
  • 2026-01-31 新增推薦連結,引導至新版 Faster-Whisper 解決方案。