快轉到主要內容

Whisper AI Tutorial

·1 分鐘·
Tutorial AI Whisper 語音轉文字
目錄

嘗試voice to text的AI,消耗一個下午整理出以下資訊。

Whisper Desktop、Whisper官方開源。

電腦配備:

優劣比較
#

優點缺點
Whisper Desktop方便,簡易下載設定久沒更新、西文transcibe正確率很差
Whisper 官方開源下載難度高,無UI介面正確率高

Whisper Desktop
#

第一款下載較為容易,且有UI介面可使用,參考 YouTube AI 上字幕教學|如何使用免費自動字幕 (逐字稿) 生成軟體 WhisperDesktop|OpenAI Whisper 教學 的教學。

Github 下載Whisper Desktop最新版本的zip檔,解壓縮

再到 Hugging face 下載模型 (ggml-medium.bin 最穩定,q5_0 以及q8_0測試皆無法使用)

開啟應用程式,Model Path選取剛下載的模型bin檔案,按ok

Transcribe File 選擇要生成逐字稿的音檔 (mp3, m4a皆可)

Output Format 可選擇輸出檔案格式、是否要時間戳印

設定好後壓Transcribe即可。

Whisper Official
#

參考 OpenAI 免費開源語音辨識系統– Whisper 安裝簡介及原理 教學

  1. 設置基礎環境 (設置細節參考 上述網站,有詳盡的圖文教學):

    Python 3.12.7; git version 2.48.1.windows.1; Pytorch 2.6.0+cu118; Cuda 11.8

  2. ffmpeg 下載設置

  3. Whisper 的安裝:開啟 cmd 依序輸入以下指令

    pip install git+https://github.com/openai/whisper.git
    pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
    

    即完成安裝。過程中出任何問題把 warning 貼給 ChatGPT 多幾個步驟都能解決。

使用方式
#

  1. 在 cmd 中 cd 到音檔的資料夾

    cd desktop\example
    
  2. 輸入:

    whisper 音檔名.mp4 --device cuda
    
  3. 上述指令會使用 cuda 並讓它自動偵測 transcribe 語言,運算過程如下圖

  1. 其餘指令設定可參考下圖
  1. 最終輸出所有格式的逐字稿

總結
#

官方版好用,模型可用到最新版的。


Reference
#

【 YouTube AI 上字幕教學|如何使用免費自動字幕 (逐字稿) 生成軟體 WhisperDesktop|OpenAI Whisper 教學 】posted by 2025,1,23 ( https://notesstartup.com/youtube-ai-subtitle-tutorial/ )

【 OpenAI 免費開源語音辨識系統– Whisper 安裝簡介及原理 】posted by M.H. 2023,4,25 ( https://ithelp.ithome.com.tw/articles/10311957 )

David Chang
作者
David Chang