只須給十秒鐘的聲音樣本，F5-TTS 完美實現仿真人情境的語音

發布時間： 12月 09, 2024

F5-TTS是上海交通大學推出的，一款高效能文字轉語音工具，F5-TTS 整合包適合電腦有裝N卡的人使用，沒有任何限制處理速度也很快，沒有裝顯示卡的人雖然也可以用，不過速度會慢很多

如果是使用整合包，F5-TTS 的位置建議直接放在 D 磁碟，如 D:\F5-TTS 以確保路徑沒有中文，首次啟動會先下載和載入模型，可能需要3-4分鐘，請耐心等待，啟動時開啟的 DOS 視窗在 TTS 執行中都不能關閉，啟動完成後複製網址 http://127.0.0.1:7860/ ，或直接在瀏覽器的網址列輸入 http://127.0.0.1:7860/

沒有裝顯示卡的人，建議使用Hugging Face提供的線上 F5-TTS，不需要註冊也可以使用，不過使用次數會比有註冊者少很多，註冊並登入後還可使用 Hugging Face 的其他 AI 功能

完整整合包百度下載(14.98G)

新版整合包百度下載(10G)【解決語音底噪和吞字問題,優化推理穩定性】

普通整合包MEGA下載(4.19G)(需要自行安裝 FFMPEG)(【FFmpeg 下載與安裝教學】

因為我的電腦只有 CPU，若使用整合包效率太低，所以這篇教學就以Hugging Face 的線上 F5-TTS 為例給大家介紹，這個工具支援 F5 和 E2 兩個 TTS 模型，主要區別在於 F5 產生語音的時間更短，但是聲音還原度沒那麼高，而 E2 產生的聲音更逼真，導致生成速度就更慢一點，雖有細微差別但不明顯，支援英文和中文兩種語言合成，並且支援中英兩種語言之間無縫切換，參考音頻不要超過 15 秒效果比較好， F5-TTS 較重要的功能有長文字合成語音和多情境語音的合成，其他如:語音對話、Podcast的播客功能，就不多作介紹了。

1、F5 和 E2 兩個 TTS 模型差別但不明顯，建議直接使用 F5 即可，當然你也可以試試 E2
2、【Basic-TTS】用來生成單人的語音，支援英文和中文兩種語言合成，並且支援中英兩種語言之間無縫切換，【Multi-Speech】用來做多角色多情感的多人對話
3、在【Reference Audio】上傳一段不超過 15 秒乾淨的參考音頻，F5-TTS 將模仿此音頻的語調、音色與情感
4、【Text to Generate】就是要生成語音的文字，可以一段一行或一句一行，簡體或繁體都可以，但要注意的是某些字兩岸的讀法是有出入的，例如:因為可能讀成因微，坐著可能讀成坐住，行(ㄏㄤˊ)可能讀成行(ㄒㄧㄥˊ)，還有很多，另外，台灣人也不太習慣捲舌，如果你在意，應該先行修正
5、【Synthesize】如果所有設定都沒問題，就按這裡開始合成語音
6、點開【Advanced Settings】後，有個【Reference Text】的文字欄位，預設不需輸入，系統會自動擷取你在【Reference Audio】上傳的參考音頻內容，但是該音頻若有其他雜音，可能導致生成後的語音不理想，除非你確定音頻乾淨，否則請輸入參考音頻的文字內容，這樣生成後的語音會比較完美，【Speed】可以調整說話速度，預設是1，數字越大速度越快，通常保持預設即可
7、【Synthesized Audio】合成的速度大約15~20秒，真的很快，完成後就可以試聽，不滿意就重來，根據這段時間的使用，只要參考音頻符合你的要求，口音也修正了，剩下的大概只是用【剪映】修正斷句問題了，最後記得點擊右側的【下載】圖示將語音匯出

剪裁上傳的參考音頻

有時候上傳的參考音頻過長，你可以參考下圖直接在 F5-TTS 進行剪裁

以上只是針對【Basic-TTS】生成單人語音的操作，至於【Multi-Speech】多角色多情感的多人對話使用方法，我認為需要多蒐集一些不同角色不同情境的參考語音...

參考語音

人的這一生很短，沒有必要和生活過於計較，有些事弄不懂就不去懂，有些人猜不透就不去猜，有些道理想不通就不去想

合成後語音

民國五十三年，九年國民教育尚未實施，當時的孩子國小畢業後，若想繼續升學，只能透過考試一途，碧玉、就是生長在這樣一個時代下的富家千金，乖巧、懂事的她，在校成績十分優異，考上初中絕對不成問題。沒想到，就在快要升上小六時，碧玉家裡突遭變故，從此陷入了貧困又坎科的生活裡。

老傢伙的學習記錄