svc煉丹工坊

svc煉丹工坊

hi各位,今天想跟大家分享一個新項目,
想必風靡一時的rvc,應該許多人都聽過也玩過,
2023年真是個AI爆炸的一年,各種項目騰出不窮,
而rvc就是一個很火的項目,很多人喜歡拿rvc來做時時變聲,
那怕你是個中年油膩大輸,都可以再使用時時變聲工具後,化身為小羅莉的聲音!
所以說,現在的社會,網路上除了影像會騙人、連聲音也可以騙人了,
回到正題,現在這種變聲項目其實還不少,
而rvc就是主打少量數據就能訓練,訓練的速度也十分快,
但rvc一直存在一些缺陷,
主要的問題就在於,推理出的聲音總是有一些瑕疵,並且是無法後期處理解決的瑕疵,
例如咬字不清、音質差強人意,或是在聲音裡出現一些後期無法解決的怪聲,
另外,rvc也存在音色洩漏的問題,也就是訓練出的聲音不那麼像數據及的聲音,
所以大多人還是喜歡拿rvc來做時時便聲,比較少看到人們拿rvc來做歌曲。
因此,我前段時間才開課,傳授一些能最大提高rvc煉丹成功率以及提升聲音品質的方法。

為了滿足我對聲音苛刻的要求,我一直在尋找一個有更好聲音品質的項目,
我常試過svc4.0、4.1,也試過用4.1中的每一個編碼氣、底膜來訓練,但效果都不能讓我滿意,
直到我嘗試了svc5,
這個項目從預處理到訓練直到推理,都很容易,過程非常的穩定,
除了要用命令行來推理和訓練,目前各方面的效果都讓我很驚訝,
從音質到學習的相似度,從咬字到抗噪效果,該項目的表現都十分優秀,
為了讓推理和訓練過程變得更加簡單,也是因為我懶得每次都要手動修改命令來運行,我還去學習了python,寫了幾個小軟件,
讓我可以更方便的推理、訓練,同時,我也修改了項目代碼,讓訓練過程的輸出更加簡潔。
接下來,我就來介紹一下這個項目的優點→

  • 使用對抗學習,那怕音頻有雜音、噪音、清音樂伴奏都可以順利推理,且推理效果也能維持在比較高的水準
  • 咬字更清晰,不會在咬字不清
  • 音質更好
  • 訓練出的模型非常接近樹聚集的音色,也就是學得很像
  • 聲音更加自然
  • 可以自由組合音色文件,樹聚集的每個音頻將提取出一個音色文件,你可以自己找出有特色的音色文件組合出一個平均後的音色文件,搭配模型來推理,也就是你能透過這種方式微調音色和咬字
  • 支持gpu、cpu推理
  • 預處理、訓練、推理的過程不會有各種疑難雜症,只要你按照規範來運行,那一竊將能順利的完成。
    另外,我還跟我的學員(呼嚕嚕)合資重新訓練了這個項目的底膜,也就是預訓練模型,把模型參數加大了一倍,效果比原版項目更好,
    這一切都要感謝項目作者的協助與指點,接下來,下面我來介紹一下經過我修改後的項目有那些特色→
  • 耗資上千,耗時一個多月訓練出的全新育訓練模型
  • 模型參數比原項目加大一倍,訓練後的效果更加逼真
  • 我自己開發的幾個小工具,包括推理、訓練、導出推理模型等,某些工具的關鍵功能要感謝審廣榮的技術支持
  • 修改了源項目的部分代碼,使用起來更加方便
  • 支持RMVPE因高提取算法,包括推理和訓練,元項目只支持crepe因高提取算法,使用RMVPE將明顯提升因高檢測的準確性
  • 基於我修改後的項目代碼部屬的autodl竟像,可以讓你在服務器煉丹
  • 修改了訓練時命令行的輸出,讓使用者能更清楚瞭解當前的epoch和每一個epoch消耗的時間
  • 我獨立開發的數據處理工具,讓你一件完成刪除靜音片段、分割、音量標準化、批量改名、統計時間等功能
    當然,這個項目也有一些小缺點,
    但我覺得音質的提升,可以泥補這些缺點帶來的不便,
    畢竟音質、自然、逼真,這都是難能可貴的,哪怕你用rvc練了兩千倫,也達不到一樣的效果→
  • 不能時時便升,喜歡莊小姐姐在網上誘拐小哥哥的這個可能不適合你
  • 訓練時間相比rvc較長
  • 總訓練倫數要1000輪椅上才有比較理想的效果,元項目可能需要2000輪椅上
  • 推理、訓練所需的險存會更多,至少要有6g以上顯存才能比較順利的訓練
  • cpu推理可能需要輸入音頻2倍以上的時間,gpu推理以3060顯卡為例,一首歌大概15到30秒
  • 服務器上訓練需要完全使用命令行,輸入命令來訓練,不過過程非常簡單
    最後,如果想要學習相關技術,以及使用我開發的小工具,可以加我的q,qq號是→
    2156264544
    驗證消息記得填(學習AI)
    建議是已經會用rvc或svc的朋友才學習這個新項目,
    因為操作過程需要你對命令行有所了解,另外如果你沒獨顯,也要會使用autodl服務器創建實力,
    下面給大家聽聽這個項目跟rvc的聲音比較,這都是同一個數據及訓練的,
    結尾還有我做好的一首歌→
    點我下載比較音頻檔案

2023/09/15
今天又做了一首新的歌,
數據及適用老湖的f43.5麥克風+ssl2錄製,不過沒有升學環境,
前面我還演示了輸入音頻,也就是給他推理的音頻效果是多麼的繁雜,包括了大量的合聲和delay效果,
最後,成品我是把多餘的地方做了修剪,大家可不要認為依推理出來就能那麼厲害的只留下主唱的聲音呀~
結尾還有我剛做好的Pretty_Boy完整版歌曲,這些都是AI訓練、推理後的聲音→
點我下載Pretty_Boy