白鲸出海—让中国互联网服务世界

{{user_info.user_name}}
您当前是白鲸会员
开通VIP,享受更多服务
会员到期时间:{{user_info.expire_date*1000 | formatDatebyDay}}
合作查看次数: {{users_vip_equities.view_cooperation || 0}}次
合作发布次数: {{users_vip_equities.release_cooperation || 0}}次
公司查看次数: {{users_vip_equities.view_company || 0}}次
报告下载次数: {{users_vip_equities.download_book || 0}}次
鲸币数量:{{user_info.jingbi}}
发布
当前位置:白鲸出海 > 资讯 > 正文

TTS又上新,突出“多角色”与“风格化”

kevinzha  • 

7月23日,昆仑万维旗下的音乐产品Mureka上线了最新的基座模型 Mureka V7,由于昆仑万维拥有全球 Top3 级别的 K 歌平台 Starmaker与相应的音乐创作者生态,所以它也是国内少数几家重点布局AI音乐方向的厂商之一,根据昆仑万维给出的主观听感测试中,Mureka V7 的综合能力已越了音乐赛道头部模型 Suno V4.5。

1.png

本次更新,昆仑万维还推出了 Mureka TTS V1 模型,并在 Mureka 平台中上线了“创作语音”板块,笔者也在第一时间对 Mureka 的音频合成功能进行了简单测试。

Mureka 最大的特点是声音“高度风格化”,追求特殊场景的适配,但由于没有精细调参且模型能力上可能也有所欠缺,相比于 MiniMax 追求稳定、真实、可控的语音输出的思路,Mureka 在声音的稳定度和自然度上的表现要差一些。

以下为产品观察及测试过程:

2.png

3.png

Mureka 创作语音主界面(上)、分角色对话语音生成(下)

从界面设计来看,Mureka 最大的特色在于其主要面向“分角色对话”场景。用户可以在同一段音频中,为不同句子分别选择不同的声音角色,适用于多人有声剧、角色互动等场景,但缺点是,与其他一些 AI音频工具相比,Mureka 尚未提供情绪标签或手动调整音色参数的功能,在控制音频生成结果的精细调整方面会差一些。

4.png

而从语音库来看,相比其他产品,Mureka 给出的声音都很贴近现实场景且拥有鲜明的风格,比如直播带货、乙女游戏、宗教风格等(如上图)。目前 Mureka 总共提供 100 种左右的音色,仅适配中英文,相比 MiniMax 等其他产品略少。

Mureka 使用的是“口红魔君”音色,MiniMax 语音时用的是“率真弟弟”音色+开心情绪标签+简单调整参数

因为 Mureka 有贴近场景的特点,所以笔者就在“直播带货”这个场景下对 Mureka 和 MiniMax 进行了对比测试。就个人听感而言,使用 Mureka“口红魔君”音色生成的音频确实会比 MiniMax 更像“带货”,但仍能听出较浓的 AI 味,而且其表现也不够稳定,当用同样的文字再次生成时,语音的节奏和情绪都出现了失真,如果真的实际应用,可能需要“抽卡”。

5.png

Mureka 文生音色功能界面

而如果用户没有找到满意的音色,也可以通过“文字生成音色”和“声音克隆”功能,自定义音色,“声音克隆”功能其实各语音合成产品都有,但是“文字生成音色”功能仅有 ElvenLabs 等少量产品才有。

Mureka 生成音色的提示词:“男声,35–45 岁,语气自信、简洁有力,不浮夸也不过分热情。适用于产品发布、企业介绍等场景,语音中应有逻辑停顿,表达清晰明确。”,MiniMax 采用沉稳高管音色+高兴的情感标签

笔者首先用 Mureka,按照图注中的 Prompt 生成了一个声音,但效果并不好,随后又优化了 Prompt,再次生成声音,重复该过程完成了三次迭代。但是从与 MiniMax 的对比测试结果来看,笔者个人感觉 Mureka 生成的音色略夸张,且 AI 感仍很重,一些停顿的处理也不太自然,整体表现不如 MiniMax。


【本篇文章属于白鲸出海原创,如需转载:需联系授权方可,未经授权严转载!】

友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!


分享文章

扫一扫 在手机阅读、分享本文

51894
{{votes}}
分享文章

扫一扫 在手机阅读、分享本文

51894
{{votes}}

要回复文章请先登录注册

与CEO聊合作

(备注姓名、公司及职位)