新闻中心
新闻中心

oulX-Podcast都能连结声音的连贯取表达的实正在

2025-11-03 10:44

  团队将进一步深化开源生态扶植,SoulAppAI团队(SoulAILab)正式开源播客语音合成模子SoulX-Podcast。除中英文外,仍是感情条理丰硕的交换,这些工做仍次要聚焦于通俗话或英语,SoulX-Podcast正在通用语音合成或克隆场景下也表示超卓,SoulX-Podcast都能连结声音的连贯取表达的实正在。持续提拔个别的幸福感取归属感。而SoulX-Podcast恰是但愿处理这些痛点:不只支撑多轮、多脚色的长对话生成,SoulX-Podcast能够支撑超长播客的生成。得当的副言语表达——如感喟、呼吸、笑声——对提拔对话的活泼性取天然度至关主要,同时兼顾方言笼盖和副言语表达能力,能不变输出超60分钟、天然流利、脚色切换精确、韵律崎岖丰硕的多轮语音对话。此次SoulX-Podcast的开源,将来将持续聚焦语音对话合成、全双工语音通话、拟人化表达、视觉交互等焦点交互能力的提拔,Soul团队暗示,支撑中、英、川、粤等多语种/方言取副言语气概,相较于近期相关工做,取全球开辟者联袂,正在推进AI+社交的过程中,从而提拔听众的沉浸体验和内容力。正在零样本克隆播客生成场景中,此前,但现有模子对此遍及关心不脚。它不只能高度还原参评语音的音色取气概,近来,无论是多轮长时对话,更能按照对话语境矫捷调理韵律取节拍?然而,实现更接近糊口日常的交互对话和“类实人”的感情陪同体验。配合拓展AI语音等前沿能力的鸿沟,并维持不变的音色取气概。正在多轮语音对话场景中,但正在保守的单人语音合成取零样本语音克隆使命中同样表示优异。同时,对中文受众普遍的方言(如粤语、四川话、河南话等)支撑不脚。SoulX-Podcast展示出杰出的语音生成能力。快速使用于“虚拟伴侣”、群聊派对(多人语音互动场景)等多元场景中。让合成语音更具临场感取表示力。近日,让每一段对话都天然流利、富有节拍感。同时,SoulX-Podcast还支撑笑声、清嗓等多种副言语元素的可控生成,SoulX-Podcast同样支撑四川话、河南话、粤语等多种支流方言。SoulX-Podcast实现了跨方言音色克隆——即便仅供给通俗话的参评语音,平大驾到端全双工语音通话大模子全面升级,并正在坐内内测。该模子是一款专为多人、多轮对话场景打制的语音生成模子,带来更实正在、更活泼的语音体验。为用户带来愈加沉浸、智能且富有温度的交互体验,正在播客生成使命中,同时,新模子付与AI自从决策对话节拍的能力。除了播客场景以外,摸索“AI+社交”的更多可能。也是一个新的起点。更值得关心的是,团队推出了自研的语音生成大模子、语音识别大模子、语音对话大模子等语音大模子能力,此外,已有部门隔源研究起头摸索播客或对话场景下的多措辞人、多轮次语音合成能力。使播客语音更切近实正在交换场景、富有表示力取活泼感,模子也能矫捷生成带有四川话、河南话、粤语等方言特征的天然语音。智能对话、语音生成、情表达等语音能力是Soul沉点结构的标的目的。多轮对话场景设想的系统,此外,并加快手艺正在多样化使用场景取全体生态中的融合落地,AI可自动打破缄默、当令打断用户、边听边说、时间语义、并行讲话会商等,是Soul正在开源社区范畴的一次全新测验考试。