ChatTTS 最像真人的文字轉語音 AI,詳細使用教學與下載(上)

這個文字轉語音的 AI ChatTTS 雖然開源專案在 GitHub 上已經許久了,但火爆程度依然未減,因為它合成的語音效果實在是太真實了,已經超越許多商用的TTS服務,ChatTTS 無論是語氣、停頓或是說話的節奏,如果沒有仔細聽,還真難分辨出是真人還是AI,這還只是用了4萬小時的聲音進行訓練開放出來的小模型合成的效果,而且是沒有經過特定任務微調的版本,另外還有個10萬小時素材訓練的模型,因為合成效果過於真實,開發者擔心存在安全和隱私風險,所以並沒有釋放出來...

今天要介紹如何在本機 Windows環境下使用 ChatTTS 整合包,ChatTTS 對硬體的要求不高,沒有獨立顯示卡使用 CPU 也能執行,但建議記憶體至少 8G 以上,如果擁有獨立顯示且視訊記憶體高於 4GB 就可以使用 GPU 來執行,前提是要安裝好 CUDA 驅動程式,推薦安裝CUDA 12.1這個版本,可以直接使用整合包內附的檔案進行安裝...

如何佈署

下載壓縮包之後解壓縮在此會得到 ChatTTS 目錄(建議放在D槽下,路徑不能有中文),進入 ChatTTS 目錄雙擊 0)check-gpu.bat,會開啟 DOS 視窗並測試能否使用 GPU 整合顯示卡,如果沒有獨立顯卡就不用測試了,因為只能使用 CPU ,執行測試結果如果是 true 代表可以使用顯示卡加速,如果是 False,然後按任意鍵關閉 DOS 視窗

接下來要安裝 CUDA 12.1 (雙擊執行 reinstall-cuda121.bat)這個2號指令碼,一樣會開啟 DOS 視窗,更新的過程會詢問四次都一樣的先輸入Y然後按 Enter,直到【請按任意鍵繼續...】,就會開始自動下載更新,中國大陸的朋友要提前開好 VPN 否則下載速度會很慢,如果中途更新中斷請關閉 DOS 視窗重新執行更新即可,更新完成後按任意鍵關閉 DOS 視窗

如何開始使用

go-webui.bat 和 go-webui-api.bat 是一般的操作介面,功能顯得陽春,因此建議雙擊 go-webui-mix.bat 來啟動 ChatTTS,啟動前會先開啟 DOS 視窗,用來顯示過程中所有進度與狀態,過程中請勿關閉,ChatTTS 啟動前也會先先載入必要檔案,最後才會開啟預設瀏覽器,所以載入時間會依照你的硬體而有所不同,像我沒有 GPU 大約需要一至兩分鐘,請耐心等待,部分文字是英文的,如有閱讀障礙,建議使用 Chrome 瀏覽器方便將英文介面翻譯為中文。

預設會進入【音色抽卡】頁籤(1),這是用來讓你挑選音色用的,你可以在【测试文本】(2)文字框中輸入或貼上要轉語音的文字,由於只是測試,建議文字不必太多,然後輸入【seed生成数量】(3),指定一次要生成幾個音色,最後按下【随机音色抽卡🎲】(4)開始生成
注意:要合成的內容可以是簡體中文和英文,如果是繁體中文的話要先用其他工具轉換成簡體

若要查看合成進度,可以切換到 DOS 視窗

看到如紅框中的字樣便表示完成,同時將合成後的語音檔按照日期時間存在 ChatTTS 的目錄中,你可以點擊操作介面中的按鈕(1)來試聽哪個音色比較喜歡,然後將喜歡的音色種子(2)編號存到左下角的表格中,方便後續查詢

為了避免儲存的種子編號過多,你還可以為編號過多取個易懂的名子(3)方便識別,最後要記得儲存(4)喔!

下一篇將說明如何使用長音頻與角色扮演的生成用法

留言

這個網誌中的熱門文章

文字轉語音工具 F5 TTS 升級版免費免登入無限制使用極速克隆生成帶情感的真人語音

AI 圖片提示詞產生器,生成電影級的超寫實圖片!

世界第一個 100% 免費 無需登入 無限制生成令人驚艷的 AI 圖片產生器 Raphael AI

10組各式場景美女圖提示詞

Gemini 2.5 Flash Image (Nano Banana ) 除了生圖之外圖像編輯的六大主要修圖功能 怎麼樣寫提示詞才能精準控制角色轉動的角度