F5-TTS Multi-Speech 完美實現仿真人情境的多角色多情感多人對話語音

發布時間： 12月 09, 2024

F5-TTS 中的多角色多情感多人對話語音除了能指定多角色對話外，還能指定同一角色使用不同的對話情境，如:高興、生氣...，使得整個對話更逼真

雖然 Hugging Face 的線上 F5-TTS 會有次數限制，但是可以透過註冊多個帳號來解決，所以還是建議使用線上的 F5-TTS ，因為線上的 F5-TTS 速度快，不消耗過多硬體資源，不需自行維護BUG、功能升級，但是有一點要注意的是，免費版通常是排在最後的，因此越晚越容易塞車

切換頁簽至做多角色多情感的多人語音【Multi-Speech】

1、【Speech Type Name】輸入劇本中用到的自訂角色名稱，前面必須是英文或數字，之後就可以中英混合
2、【Reference Audio】上傳一段不超過 15 秒乾淨的參考音頻，這個角色將模仿此音頻的語調、音色與情感
3、如果參考音頻過長，可以點擊這個剪刀ICON進行裁剪
4、【Reference Text (Regular)】的文字欄位，預設不需輸入，系統會自動擷取你在【Reference Audio】上傳的參考音頻內容，但是該音頻若有其他雜音，可能導致生成後的語音不理想，如果你不確定音頻乾淨，還是乖乖輸入參考音頻的文字內容，這樣生成後的語音會比較完美 5、【Insert Label】會將角色名稱插入到【Text to Generate】最後
6、如果角色不只一個，請按【Add Speech Type】新增一個角色欄位，並設定角色名稱、上傳參考音頻

【Text to Generate】裡是要生成語音的劇本內容，格式是:{自訂角色名稱}對話內容，這裡的自訂角色名稱必須已經存在【Speech Type Name】，否則將無法合成，內容可以一段一行或一句一行，簡體或繁體都可以，但要注意的是某些字兩岸的讀法是有出入的，例如此例的坎坷，如果不改成坎科就會讀成坎可，還有很多，另外，台灣人也不太習慣捲舌，如果你在意，應該先行修正，建議先在文字編輯器修改好再貼過來

點開【Advanced Settings】後，有個【Remove Silences】預設是選取的，因為語音生成時會產生靜音(交流聲)，特別是在較長的音訊上，如果勾選可以自動刪除靜音，不知道是否本機才有，至少到目前為止我沒遇過

剪裁上傳的參考音頻

有時候上傳的參考音頻過長，你可以參考下圖直接在 F5-TTS 進行剪裁

如果都設置正確，應該類似下圖一樣點擊【Generate Multi-Style Speech】(1)按鈕即可開始合成語音，在【Synthesized Audio】框中會顯示進度與結果，試聽(2)後如果滿意即可下載(3)至電腦儲存

如果設置不正確，就會類似下圖無法點擊【Generate Multi-Style Speech】來合成語音，遇到這種狀況，請先檢查【Text to Generate】裡的格式是否正確，如果正確請隨便按一個【Insert Label】就行了

老傢伙的學習記錄