TTS又上新,突出“多角色”与“风格化”
7月23日,昆仑万维旗下的音乐产品Mureka上线了最新的基座模型 Mureka V7,由于昆仑万维拥有全球 Top3 级别的 K 歌平台 Starmaker与相应的音乐创作者生态,所以它也是国内少数几家重点布局AI音乐方向的厂商之一,根据昆仑万维给出的主观听感测试中,Mureka V7 的综合能力已越了音乐赛道头部模型 Suno V4.5。

本次更新,昆仑万维还推出了 Mureka TTS V1 模型,并在 Mureka 平台中上线了“创作语音”板块,笔者也在第一时间对 Mureka 的音频合成功能进行了简单测试。
Mureka 最大的特点是声音“高度风格化”,追求特殊场景的适配,但由于没有精细调参且模型能力上可能也有所欠缺,相比于 MiniMax 追求稳定、真实、可控的语音输出的思路,Mureka 在声音的稳定度和自然度上的表现要差一些。
以下为产品观察及测试过程:


Mureka 创作语音主界面(上)、分角色对话语音生成(下)
从界面设计来看,Mureka 最大的特色在于其主要面向“分角色对话”场景。用户可以在同一段音频中,为不同句子分别选择不同的声音角色,适用于多人有声剧、角色互动等场景,但缺点是,与其他一些 AI音频工具相比,Mureka 尚未提供情绪标签或手动调整音色参数的功能,在控制音频生成结果的精细调整方面会差一些。

而从语音库来看,相比其他产品,Mureka 给出的声音都很贴近现实场景且拥有鲜明的风格,比如直播带货、乙女游戏、宗教风格等(如上图)。目前 Mureka 总共提供 100 种左右的音色,仅适配中英文,相比 MiniMax 等其他产品略少。
Mureka 使用的是“口红魔君”音色,MiniMax 语音时用的是“率真弟弟”音色+开心情绪标签+简单调整参数
因为 Mureka 有贴近场景的特点,所以笔者就在“直播带货”这个场景下对 Mureka 和 MiniMax 进行了对比测试。就个人听感而言,使用 Mureka“口红魔君”音色生成的音频确实会比 MiniMax 更像“带货”,但仍能听出较浓的 AI 味,而且其表现也不够稳定,当用同样的文字再次生成时,语音的节奏和情绪都出现了失真,如果真的实际应用,可能需要“抽卡”。

Mureka 文生音色功能界面
而如果用户没有找到满意的音色,也可以通过“文字生成音色”和“声音克隆”功能,自定义音色,“声音克隆”功能其实各语音合成产品都有,但是“文字生成音色”功能仅有 ElvenLabs 等少量产品才有。
Mureka 生成音色的提示词:“男声,35–45 岁,语气自信、简洁有力,不浮夸也不过分热情。适用于产品发布、企业介绍等场景,语音中应有逻辑停顿,表达清晰明确。”,MiniMax 采用沉稳高管音色+高兴的情感标签
笔者首先用 Mureka,按照图注中的 Prompt 生成了一个声音,但效果并不好,随后又优化了 Prompt,再次生成声音,重复该过程完成了三次迭代。但是从与 MiniMax 的对比测试结果来看,笔者个人感觉 Mureka 生成的音色略夸张,且 AI 感仍很重,一些停顿的处理也不太自然,整体表现不如 MiniMax。
【本篇文章属于白鲸出海原创,如需转载:需联系授权方可,未经授权严转载!】
友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!


闽公网安备35010402350923号