ai好好玩-3 讓你可以用更輕鬆的方式語音轉文字的工具 buzz

ai好好玩-3 讓你可以用更輕鬆的方式語音轉文字的工具 buzz

在上一篇文章中,我介紹了如何使用Anaconda的命令行搭配whisper來將語音轉文字,
但對於很多人來說,命令行的操作模式難度較高,使用也不是特別方便,
正好有網友看完我的文章,給我介紹了另一個也是使用whisper模型,並且有軟體介面可以直接操作的版本,
這個版本將會更加方便簡單,但卻有一些小缺點,
話不多說,馬上開始!

Anaconda、buzz跟whisper是什麼關係,我搞糊塗了

在上一篇文章,我介紹的是用Anaconda來調用whisper,
而這篇又出現了名為buzz的工具,你是不是已經搞不清楚他們誰是誰了呢?
那就讓我幫你梳理一下吧

  1. 首先,whisper跟buzz都是github平台上的開源項目
  2. whisper是語音轉文字的AI組件
  3. 想使用whisper有很多種方式,一種是用
    Anaconda
    這個軟體包管理器來安裝whisper,並在命令行中,用手打指令的方式調用whisper來將語音轉文字,
    另一種方式,就是使用本篇要介紹的工具
    buzz
    它已經被github上的大神包成了一個安裝包,按照平常安裝軟體的方式安裝完,打開就能用,
    且buzz不用打指令,它已經把幾乎所有的功能做到了軟體介面中,可操作的按鈕和選單。

在Anaconda中使用whisper,跟直接使用buzz工具的差異

有了buzz這個工具,是不是就不必再用Anaconda來調用whisper來語音轉文字了呢?
答案是,我仍然還是喜歡用Anaconda來轉文字,
或許在未來,buzz這個工具不斷完善後,我才會考慮拋棄用Anaconda,轉而用buzz來轉文字,
那麼,就讓我告訴你這兩者到底有何差異吧!

  1. Anaconda命令行使用whisper的優點
    • 轉換出的txt檔案會按照識別的狀況換行,閱讀較為方便
    • 一條指令即可更新whisper組件
    • 可以使用專用於識別英文的模型,對於英文的識別正確率會更高
    • 可以在部屬系統環境的時候安裝用獨顯加速的組件
  2. Anaconda使用whisper的缺點
    • 轉換速度較buzz慢
    • 需要用Anaconda自己打指令,且中文名檔案可能需要修改檔名成英文或數字,才較為方便打指令
    • 第一次使用時需要自己部屬環境,且大陸地區可能存在無法下載相關組件,必須使用vpn來下載的問題
  3. 使用buzz的優點
    • 轉換速度比Anaconda處理得快,原因還在探索中
    • 不需自己部屬系統環境,安裝之後打開就能用
    • 軟體介面操作簡單,無障礙也不錯
    • 可以批量處理大量檔案,並且可以直接選擇有中文名的檔案
    • 之前轉換過的檔案會顯示在列表裡,並且也能瀏覽識別結果
  4. buzz的缺點
    • 轉換出的txt檔常會把很多句話放在同一行,不會自動換行,閱讀十分不便,這點非常扣分
    • 除了最大的模型,其餘四種模型的識別正確率會略低於Anaconda識別出的結果
    • 沒有線上更新功能,有新版本需要到github上重新下載,而且也要buzz的擁有者有跟著whisper的最新動向來更新才行
    • 不確定buzz能不能自動判斷,當有獨顯的時候使用獨顯來加速
    • 在軟體介面中的模型選單中沒有英文專用模型,不確定是否語言選擇英文就會直接使用英文專用模型
  5. 結論
    如果你特別怕麻煩,想最輕鬆的使用whisper的語音轉文字功能,而且你趕時間,用buzz工具是最方便的選擇,
    如果你想用到最新的組件,也不害怕命令行操作,並且想有最好的識別結果,你可以用Anaconda來調用whisper,
    要特別注意的是,如果你的用途是為了轉換出字幕檔,那用buzz跟用Anaconda的效果是差不多的,
    但如果你只是想閱讀純文字,我會推薦你繼續用Anaconda的命令行版本

下載和github頁面

大陸地區可以下載buzz和模型包,這樣就能直接使用了,不用再連網下載模型,
gaga下載站的載點需要右鍵選另存,並在瀏覽器中選擇保存才能順利下載。

  1. 下載buzz
    點我下載buzz v0.7.2 小羔羊下載站
    點我下載buzz v0.7.1 小羔羊下載站
    • 0.7.2更新了什麼?
      增加对OpenAI Whisper API的支持
      完成后停止打开转录
      添加csv导出
      突出显示搜索文本
      更新加泰罗尼亚语翻译
      添加Swift应用程序
      修复Linux版本
      设置转录表为多选题
      修复录音窗口关闭的问题
      升级whisper.cpp
      升级稳定的ts
      取消转录任务
      修复当转录员工作线程在等待新任务时退出时的 "无Python框架 "崩溃问题
      更新加泰罗尼亚语翻译
      增加国际化的内容
      升级到0.7.2
      修复错误信息
      如果低语转录失败,退出代码为非零,则转录任务失败。
  2. 下載whisper模型
    點我下載whisper大模型 gaga下載站
    點我下載whisper四個模型,包括(微小、基礎、小、中)
  3. buzz的github頁面
    點我前往buzz的github頁面

安裝

  1. 下載buzz,並直接打開安裝包,
    在buzz的安裝視窗裡,tab找到這個勾選框,並按空格將其打勾
    Create a &desktop shortcut 核取方塊
  2. 打勾之後,按照步驟一路next、install、finish,就完成安裝buzz了。
  3. 下載whisper模型包,
    p.s 如果你身在大陸地區,推薦你從下面的載點直接下載模型包,會比你透過buzz線上下載模型包快
  4. 打開下載好的模型包,點安裝即可,
    這是我製作的自解壓縮包,它會將whisper模型放到這個路徑→
    C:\Users\Administrator.cache\whisper
    另外,如果你之前就已經使用過Anaconda調用whisper,它的模型也是放在這個位置,
    因此,無論你使用buzz還是Anaconda來調用whisper,它們用的模型都是同一個,也放在同個路徑下,
    如果你使用的是Anaconda來調用whisper,也可以下載上面的模型直接用
  5. 到此就可以打開buzz開始用了

使用

  1. 打開桌面上的
    buzz
  2. 加載要處理的檔案
    按alt往下,找
    Import Media File... Ctrl+O
    按enter,
    或是直接在buzz的視窗中,按
    ctrl+o
    都會打開選擇檔案的對話框,在這裡找你要處理的檔案按enter
  3. 接著軟體畫面會讓你選擇相關參數,你需要注意的只有這四個選項
    • Task: 下拉式方塊 Transcribe 折疊 Down
      這個是切換要不要翻譯的選項,如果要翻譯的話就選
      Translate
      識別出來的結果就會自動翻譯成英文,目前無法翻譯成其他語言
    • Language: 下拉式方塊 Detect Language 折疊 Down
      在這裡選擇語言,預設會自動偵測語言,但只會偵測檔案的前30秒,
      為了避免有些檔案前面沒有說話的聲音,建議選擇指定語言,例如選擇中文
      Chinese
      下拉式方塊 Tiny 折疊 Down
      這裡用來選擇模型,
      Tiny處理速度最快,但效果最差,
      而Large速度最慢,但效果最好,
      要特別注意的是,使用越大的模型需要占用的硬體資源越多,
      如果你想使用大模型,最好要有16g以上的ram(記憶體),根據官方github頁面,
      大模型會需要10g的ram,中模型會需要5g的ram,小模型會需要2g的ram,基礎和微小只需1g的ram,
    • Run 按鈕 Enter
      當上面兩個選項都選好之後,找到這個按鈕開心的按enter,就會開始處理了
  4. 接下來,軟體又會回到主介面,上下左右動一動,你可以聽到剛剛加載的檔名和處理進度,
    主介面主要分成兩個部分,左邊顯示檔名,右邊顯示處理狀態,
    你可以先按左,上下瀏覽所有已經加載的檔案,
    往右就能看到這個檔案的處理狀態,例如還在處理時會顯示
    In Progress (95%) 資料項目
    處理完會顯示
    Completed 資料項目
  5. 要保存結果,你需要先找到左邊的檔案,例如我找到
    123.mp3 資料項目
    然後使用滑鼠來點兩下
    • nvda的用戶,按nvda+小鍵盤斜線,將滑鼠移動過去,接著點兩下小鍵盤斜線
    • 爭渡讀屏的用戶,按小鍵盤0+小鍵盤減號,然後點兩下小鍵盤斜線
  6. tab找到
    Export 按鈕
    按空格
  7. tab可以看到有三種格式,找到你要的格式按enter
    • TXT 純文字
    • SRT 常用的影片字幕檔格式
    • VTT 瀏覽器的字幕檔格式
  8. 在彈出的對話框中選擇保存位置並保存,之後就能找到轉換出的檔案看看成果了。
    通常我會選擇txt或srt格式,
    srt是影片的字幕檔格式,只要把影片字幕檔跟影片放在同一目錄,兩者檔名相同,就能用
    poplayer
    來一邊看影片,一邊聽字幕了,
    關於poplayer如何讓nvda或爭渡讀屏能念字幕檔中的字幕,會在未來的文章中介紹

其他功能

還有一些其他功能,除了能用ocr直接找到這些功能外,也能用nvda的對象瀏覽找到。

  1. 在buzz視窗裡按兩下alt,讓軟體畫面捲動到最上面
  2. 按nvda+小鍵盤8,跳到視窗最上面
  3. 按nvda+小鍵盤2,往下一層
  4. 按nvda+小鍵盤4,找到
    工具列
    之後按nvda+小鍵盤2,再往下一層,進入工具列
  5. 再來按nvda+小鍵盤4、6,就能看到這四個選項,
    如果要點選,就用上面介紹過的方式,將滑鼠移動過來並點兩下左鍵
    • Record 按鈕 錄音直接轉文字
      錄音,可以直接設定語言、模型,並直接錄音你麥克風輸入的聲音轉文字
    • New Transcription 按鈕 打開要識別的檔案
      就跟我們一開始打開檔案一樣,點選後一樣是打開選擇檔案的對話框
    • Open Transcript 按鈕 打開識別結果
      會打開你最後所選檔案的結果,就跟我們在列表裡,找到檔案點兩下左鍵一樣
    • Clear History 按鈕 清除歷史
      點選後會將列表及識別結果清空

ok! 這次就介紹到這裡,我們下篇再見,玩得愉快!