F5-TTS Multi-Speech 完美實現仿真人情境的多角色多情感多人對話語音

F5-TTS 中的多角色多情感多人對話語音除了能指定多角色對話外,還能指定同一角色使用不同的對話情境,如:高興、生氣...,使得整個對話更逼真

新版整合包百度下載(10G)【解決語音底噪和吞字問題,優化推理穩定性】

F5TTS中文版本,最新升级整合包百度下載(13.82G)

雖然 Hugging Face 的線上 F5-TTS 會有次數限制,但是可以透過註冊多個帳號來解決,所以還是建議使用 線上的 F5-TTS ,因為 線上的 F5-TTS 速度快,不消耗過多硬體資源,不需自行維護BUG、功能升級,但是有一點要注意的是,免費版通常是排在最後的,因此越晚越容易塞車

切換頁簽至做多角色多情感的多人語音【Multi-Speech】

1、【Speech Type Name】輸入劇本中用到的自訂角色名稱,前面必須是英文或數字,之後就可以中英混合
2、【Reference Audio】上傳一段不超過 15 秒乾淨的參考音頻,這個角色將模仿此音頻的語調、音色與情感
3、如果參考音頻過長,可以點擊這個剪刀ICON進行裁剪
4、【Reference Text (Regular)】的文字欄位,預設不需輸入,系統會自動擷取你在【Reference Audio】上傳的參考音頻內容,但是該音頻若有其他雜音,可能導致生成後的語音不理想,如果你不確定音頻乾淨,還是乖乖輸入參考音頻的文字內容,這樣生成後的語音會比較完美 5、【Insert Label】會將角色名稱插入到【Text to Generate】最後
6、如果角色不只一個,請按【Add Speech Type】新增一個角色欄位,並設定角色名稱、上傳參考音頻

【Text to Generate】裡是要生成語音的劇本內容,格式是:{自訂角色名稱}對話內容,這裡的自訂角色名稱必須已經存在【Speech Type Name】,否則將無法合成,內容可以一段一行或一句一行,簡體或繁體都可以,但要注意的是某些字兩岸的讀法是有出入的,例如此例的坎坷,如果不改成坎科就會讀成坎可,還有很多,另外,台灣人也不太習慣捲舌,如果你在意,應該先行修正,建議先在文字編輯器修改好再貼過來

點開【Advanced Settings】後,有個【Remove Silences】預設是選取的,因為語音生成時會產生靜音(交流聲),特別是在較長的音訊上,如果勾選可以自動刪除靜音,不知道是否本機才有,至少到目前為止我沒遇過

剪裁上傳的參考音頻

有時候上傳的參考音頻過長,你可以參考下圖直接在 F5-TTS 進行剪裁

如果都設置正確,應該類似下圖一樣點擊【Generate Multi-Style Speech】(1)按鈕即可開始合成語音,在【Synthesized Audio】框中會顯示進度與結果,試聽(2)後如果滿意即可下載(3)至電腦儲存

如果設置不正確,就會類似下圖無法點擊【Generate Multi-Style Speech】來合成語音,遇到這種狀況,請先檢查【Text to Generate】裡的格式是否正確,如果正確請隨便按一個【Insert Label】就行了

生成過程錯誤

留言

這個網誌中的熱門文章

文字轉語音工具 F5 TTS 升級版免費免登入無限制使用極速克隆生成帶情感的真人語音

世界第一個 100% 免費 無需登入 無限制生成令人驚艷的 AI 圖片產生器 Raphael AI

10組各式場景美女圖提示詞

Gemini 2.5 Flash Image (Nano Banana ) 除了生圖之外圖像編輯的六大主要修圖功能 怎麼樣寫提示詞才能精準控制角色轉動的角度

OpenAI GPT-4O mini TTS 文字轉語音工具、台灣口音、超過 50+ 語言、流式推理、快速穩定、免費、免登錄、無限使用