只須給十秒鐘的聲音樣本,F5-TTS 完美實現仿真人情境的語音

F5-TTS是上海交通大學推出的,一款高效能文字轉語音工具,F5-TTS 整合包適合電腦有裝N卡的人使用,沒有任何限制處理速度也很快,沒有裝顯示卡的人雖然也可以用,不過速度會慢很多

如果是使用整合包,F5-TTS 的位置建議直接放在 D 磁碟,如 D:\F5-TTS 以確保路徑沒有中文,首次啟動會先下載和載入模型,可能需要3-4分鐘,請耐心等待,啟動時開啟的 DOS 視窗在 TTS 執行中都不能關閉,啟動完成後複製網址 http://127.0.0.1:7860/ ,或直接在瀏覽器的網址列輸入 http://127.0.0.1:7860/

沒有裝顯示卡的人,建議使用Hugging Face提供的線上 F5-TTS,不需要註冊也可以使用,不過使用次數會比有註冊者少很多,註冊 登入 後還可使用 Hugging Face 的其他 AI 功能

完整整合包百度下載(14.98G)

新版整合包百度下載(10G)【解決語音底噪和吞字問題,優化推理穩定性】

普通整合包MEGA下載(4.19G)(需要自行安裝 FFMPEG)(【FFmpeg 下載與安裝教學】

因為我的電腦只有 CPU,若使用整合包效率太低,所以這篇教學就以Hugging Face 的線上 F5-TTS 為例給大家介紹,這個工具支援 F5 和 E2 兩個 TTS 模型,主要區別在於 F5 產生語音的時間更短,但是聲音還原度沒那麼高,而 E2 產生的聲音更逼真,導致生成速度就更慢一點,雖有細微差別但不明顯,支援英文和中文兩種語言合成,並且支援中英兩種語言之間無縫切換,參考音頻不要超過 15 秒效果比較好, F5-TTS 較重要的功能有長文字合成語音和多情境語音的合成,其他如:語音對話、Podcast的播客功能,就不多作介紹了。

1、F5 和 E2 兩個 TTS 模型差別但不明顯,建議直接使用 F5 即可,當然你也可以試試 E2
2、【Basic-TTS】用來生成單人的語音,支援英文和中文兩種語言合成,並且支援中英兩種語言之間無縫切換,【Multi-Speech】用來做多角色多情感的多人對話
3、在【Reference Audio】上傳一段不超過 15 秒乾淨的參考音頻,F5-TTS 將模仿此音頻的語調、音色與情感
4、【Text to Generate】就是要生成語音的文字,可以一段一行或一句一行,簡體或繁體都可以,但要注意的是某些字兩岸的讀法是有出入的,例如:因為可能讀成因微,坐著可能讀成坐住,行(ㄏㄤˊ)可能讀成行(ㄒㄧㄥˊ),還有很多,另外,台灣人也不太習慣捲舌,如果你在意,應該先行修正
5、【Synthesize】如果所有設定都沒問題,就按這裡開始合成語音
6、點開【Advanced Settings】後,有個【Reference Text】的文字欄位,預設不需輸入,系統會自動擷取你在【Reference Audio】上傳的參考音頻內容,但是該音頻若有其他雜音,可能導致生成後的語音不理想,除非你確定音頻乾淨,否則請輸入參考音頻的文字內容,這樣生成後的語音會比較完美,【Speed】可以調整說話速度,預設是1,數字越大速度越快,通常保持預設即可
7、【Synthesized Audio】合成的速度大約15~20秒,真的很快,完成後就可以試聽,不滿意就重來,根據這段時間的使用,只要參考音頻符合你的要求,口音也修正了,剩下的大概只是用【剪映】修正斷句問題了,最後記得點擊右側的【下載】圖示將語音匯出

剪裁上傳的參考音頻

有時候上傳的參考音頻過長,你可以參考下圖直接在 F5-TTS 進行剪裁

以上只是針對【Basic-TTS】生成單人語音的操作,至於【Multi-Speech】多角色多情感的多人對話使用方法,我認為需要多蒐集一些不同角色不同情境的參考語音...

參考語音

人的這一生很短,沒有必要和生活過於計較,有些事弄不懂就不去懂,有些人猜不透就不去猜,有些道理想不通就不去想

合成後語音

民國五十三年,九年國民教育尚未實施,當時的孩子國小畢業後,若想繼續升學,只能透過考試一途,碧玉、就是生長在這樣一個時代下的富家千金,乖巧、懂事的她,在校成績十分優異,考上初中絕對不成問題。沒想到,就在快要升上小六時,碧玉家裡突遭變故,從此陷入了貧困又坎科的生活裡。

留言

這個網誌中的熱門文章

文字轉語音工具 F5 TTS 升級版免費免登入無限制使用極速克隆生成帶情感的真人語音

世界第一個 100% 免費 無需登入 無限制生成令人驚艷的 AI 圖片產生器 Raphael AI

10組各式場景美女圖提示詞

Gemini 2.5 Flash Image (Nano Banana ) 除了生圖之外圖像編輯的六大主要修圖功能 怎麼樣寫提示詞才能精準控制角色轉動的角度

OpenAI GPT-4O mini TTS 文字轉語音工具、台灣口音、超過 50+ 語言、流式推理、快速穩定、免費、免登錄、無限使用