ChatTTS 最像真人的文字轉語音 AI，詳細使用教學與下載(上)

發布時間： 12月 12, 2024

這個文字轉語音的 AI ChatTTS 雖然開源專案在 GitHub 上已經許久了，但火爆程度依然未減，因為它合成的語音效果實在是太真實了，已經超越許多商用的TTS服務，ChatTTS 無論是語氣、停頓或是說話的節奏，如果沒有仔細聽，還真難分辨出是真人還是AI，這還只是用了4萬小時的聲音進行訓練開放出來的小模型合成的效果，而且是沒有經過特定任務微調的版本，另外還有個10萬小時素材訓練的模型，因為合成效果過於真實，開發者擔心存在安全和隱私風險，所以並沒有釋放出來...

今天要介紹如何在本機 Windows環境下使用 ChatTTS 整合包，ChatTTS 對硬體的要求不高，沒有獨立顯示卡使用 CPU 也能執行，但建議記憶體至少 8G 以上，如果擁有獨立顯示且視訊記憶體高於 4GB 就可以使用 GPU 來執行，前提是要安裝好 CUDA 驅動程式，推薦安裝CUDA 12.1這個版本，可以直接使用整合包內附的檔案進行安裝...

如何佈署

下載壓縮包之後解壓縮在此會得到 ChatTTS 目錄(建議放在D槽下，路徑不能有中文)，進入 ChatTTS 目錄雙擊 0)check-gpu.bat，會開啟 DOS 視窗並測試能否使用 GPU 整合顯示卡，如果沒有獨立顯卡就不用測試了，因為只能使用 CPU ，執行測試結果如果是 true 代表可以使用顯示卡加速，如果是 False，然後按任意鍵關閉 DOS 視窗

接下來要安裝 CUDA 12.1 (雙擊執行 reinstall-cuda121.bat)這個2號指令碼，一樣會開啟 DOS 視窗，更新的過程會詢問四次都一樣的先輸入Y然後按 Enter，直到【請按任意鍵繼續...】，就會開始自動下載更新，中國大陸的朋友要提前開好 VPN 否則下載速度會很慢，如果中途更新中斷請關閉 DOS 視窗重新執行更新即可，更新完成後按任意鍵關閉 DOS 視窗

如何開始使用

go-webui.bat 和 go-webui-api.bat 是一般的操作介面，功能顯得陽春，因此建議雙擊 go-webui-mix.bat 來啟動 ChatTTS，啟動前會先開啟 DOS 視窗，用來顯示過程中所有進度與狀態，過程中請勿關閉，ChatTTS 啟動前也會先先載入必要檔案，最後才會開啟預設瀏覽器，所以載入時間會依照你的硬體而有所不同，像我沒有 GPU 大約需要一至兩分鐘，請耐心等待，部分文字是英文的，如有閱讀障礙，建議使用 Chrome 瀏覽器方便將英文介面翻譯為中文。

預設會進入【音色抽卡】頁籤(1)，這是用來讓你挑選音色用的，你可以在【测试文本】(2)文字框中輸入或貼上要轉語音的文字，由於只是測試，建議文字不必太多，然後輸入【seed生成数量】(3)，指定一次要生成幾個音色，最後按下【随机音色抽卡🎲】(4)開始生成
注意:要合成的內容可以是簡體中文和英文，如果是繁體中文的話要先用其他工具轉換成簡體

若要查看合成進度，可以切換到 DOS 視窗

看到如紅框中的字樣便表示完成，同時將合成後的語音檔按照日期時間存在 ChatTTS 的目錄中，你可以點擊操作介面中的按鈕(1)來試聽哪個音色比較喜歡，然後將喜歡的音色種子(2)編號存到左下角的表格中，方便後續查詢

為了避免儲存的種子編號過多，你還可以為編號過多取個易懂的名子(3)方便識別，最後要記得儲存(4)喔!

老傢伙的學習記錄