只須給十秒鐘的聲音樣本,F5-TTS 完美實現仿真人情境的語音
F5-TTS是上海交通大學推出的,一款高效能文字轉語音工具,F5-TTS 整合包適合電腦有裝N卡的人使用,沒有任何限制處理速度也很快,沒有裝顯示卡的人雖然也可以用,不過速度會慢很多
如果是使用整合包,F5-TTS 的位置建議直接放在 D 磁碟,如 D:\F5-TTS 以確保路徑沒有中文,首次啟動會先下載和載入模型,可能需要3-4分鐘,請耐心等待,啟動時開啟的 DOS 視窗在 TTS 執行中都不能關閉,啟動完成後複製網址 http://127.0.0.1:7860/ ,或直接在瀏覽器的網址列輸入 http://127.0.0.1:7860/
沒有裝顯示卡的人,建議使用Hugging Face提供的線上 F5-TTS,不需要註冊也可以使用,不過使用次數會比有註冊者少很多,註冊 並 登入 後還可使用 Hugging Face 的其他 AI 功能
新版整合包百度下載(10G)【解決語音底噪和吞字問題,優化推理穩定性】
普通整合包MEGA下載(4.19G)(需要自行安裝 FFMPEG)(【FFmpeg 下載與安裝教學】
因為我的電腦只有 CPU,若使用整合包效率太低,所以這篇教學就以Hugging Face 的線上 F5-TTS 為例給大家介紹,這個工具支援 F5 和 E2 兩個 TTS 模型,主要區別在於 F5 產生語音的時間更短,但是聲音還原度沒那麼高,而 E2 產生的聲音更逼真,導致生成速度就更慢一點,雖有細微差別但不明顯,支援英文和中文兩種語言合成,並且支援中英兩種語言之間無縫切換,參考音頻不要超過 15 秒效果比較好, F5-TTS 較重要的功能有長文字合成語音和多情境語音的合成,其他如:語音對話、Podcast的播客功能,就不多作介紹了。
1、F5 和 E2 兩個 TTS 模型差別但不明顯,建議直接使用 F5 即可,當然你也可以試試 E2
2、【Basic-TTS】用來生成單人的語音,支援英文和中文兩種語言合成,並且支援中英兩種語言之間無縫切換,【Multi-Speech】用來做多角色多情感的多人對話
3、在【Reference Audio】上傳一段不超過 15 秒乾淨的參考音頻,F5-TTS 將模仿此音頻的語調、音色與情感
4、【Text to Generate】就是要生成語音的文字,可以一段一行或一句一行,簡體或繁體都可以,但要注意的是某些字兩岸的讀法是有出入的,例如:因為可能讀成因微,坐著可能讀成坐住,行(ㄏㄤˊ)可能讀成行(ㄒㄧㄥˊ),還有很多,另外,台灣人也不太習慣捲舌,如果你在意,應該先行修正
5、【Synthesize】如果所有設定都沒問題,就按這裡開始合成語音
6、點開【Advanced Settings】後,有個【Reference Text】的文字欄位,預設不需輸入,系統會自動擷取你在【Reference Audio】上傳的參考音頻內容,但是該音頻若有其他雜音,可能導致生成後的語音不理想,除非你確定音頻乾淨,否則請輸入參考音頻的文字內容,這樣生成後的語音會比較完美,【Speed】可以調整說話速度,預設是1,數字越大速度越快,通常保持預設即可
7、【Synthesized Audio】合成的速度大約15~20秒,真的很快,完成後就可以試聽,不滿意就重來,根據這段時間的使用,只要參考音頻符合你的要求,口音也修正了,剩下的大概只是用【剪映】修正斷句問題了,最後記得點擊右側的【下載】圖示將語音匯出
剪裁上傳的參考音頻
有時候上傳的參考音頻過長,你可以參考下圖直接在 F5-TTS 進行剪裁以上只是針對【Basic-TTS】生成單人語音的操作,至於【Multi-Speech】多角色多情感的多人對話使用方法,我認為需要多蒐集一些不同角色不同情境的參考語音...
參考語音
人的這一生很短,沒有必要和生活過於計較,有些事弄不懂就不去懂,有些人猜不透就不去猜,有些道理想不通就不去想
合成後語音
民國五十三年,九年國民教育尚未實施,當時的孩子國小畢業後,若想繼續升學,只能透過考試一途,碧玉、就是生長在這樣一個時代下的富家千金,乖巧、懂事的她,在校成績十分優異,考上初中絕對不成問題。沒想到,就在快要升上小六時,碧玉家裡突遭變故,從此陷入了貧困又坎科的生活裡。











留言
張貼留言
歡迎留言