Soul App開源播客語音合成模型SoulX-Podcast,支持流暢自然多輪語音對話
近日,Soul App AI團隊(Soul AI Lab)正式開源播客語音合成模型SoulX-Podcast。該模型是一款專為多人、多輪對話場景打造的語音生成模型,支持中、英、川、粵等多語種/方言與副語言風格,能穩(wěn)定輸出超60分鐘、自然流暢、角色切換準確、韻律起伏豐富的多輪語音對話。
除了播客場景以外,SoulX-Podcast在通用語音合成或克隆場景下也表現出色,帶來更真實、更生動的語音體驗。
SoulX-Podcast表現
(相關資料圖)
Demo Page:
https://soul-ailab.github.io/soulx-podcast
Technical Report:
https://arxiv.org/pdf/2510.23541
Source Code: https://github.com/Soul-AILab/SoulX-Podcast
HuggingFace: https://huggingface.co/collections/Soul-AILab/soulx-podcast
SoulX-Podcast亮點:流暢自然多輪對話、多方言、超長播客生成
零樣本克隆的多輪對話能力
在零樣本克隆播客生成場景中,SoulX-Podcast 展現出卓越的語音生成能力。它不僅能高度還原參考語音的音色與風格,更能根據對話語境靈活調節(jié)韻律與節(jié)奏,讓每一段對話都自然流暢、富有節(jié)奏感。無論是多輪長時對話,還是情感層次豐富的交流,SoulX-Podcast 都能保持聲音的連貫與表達的真實。此外,SoulX-Podcast 還支持笑聲、清嗓等多種副語言元素的可控生成,讓合成語音更具臨場感與表現力。
多語種和跨方言的克隆能力
除中英文外,SoulX-Podcast 同樣支持四川話、河南話、粵語等多種主流方言。更值得關注的是,SoulX-Podcast 實現了跨方言音色克隆——即便僅提供普通話的參考語音,模型也能靈活生成帶有四川話、河南話、粵語等方言特征的自然語音。




