白鲸出海—让中国互联网服务世界

{{user_info.user_name}}
您当前是白鲸会员
开通VIP,享受更多服务
会员到期时间:{{user_info.expire_date*1000 | formatDatebyDay}}
合作查看次数: {{users_vip_equities.view_cooperation || 0}}次
合作发布次数: {{users_vip_equities.release_cooperation || 0}}次
公司查看次数: {{users_vip_equities.view_company || 0}}次
报告下载次数: {{users_vip_equities.download_book || 0}}次
鲸币数量:{{user_info.jingbi}}
发布
当前位置:白鲸出海 > 资讯 > 正文

ElevenLabs的最强竞争对手,Sesame的语音模型真能媲美真人?

kevinzha  • 

总部所在地:美国硅谷

时间线:公司成立于 2023 年,2025 年 2 月上线语音助手 Maya&Miles,2025 年 3 月推出 CSM 语音生成模型,并开源1B版本。

融资情况:2023 年 11 月 1 日,完成由 a16z 领投的 4750 万美元A轮融资,新一轮融资仍在洽谈中。

产品概述:语音助手及语音生成模型

2 月 28 日,Sesame 推出了 AI 语音助手 Maya(女性声音)&Miles(男性声音),该语音助手最大的差异点是主打真实和感情饱和,The Verge 在体验之后表示,它做得比其他所有语音助手都要好。

在 3 月 13 日,Sesame 又发布了 2 个语音助手背后的基础模型 CSM,该模型能够处理文本和音频输入,实现文本转语音和实时对话的效果,其基本架构是在 Meta 的 Llama 开源模型的基础上叠加 Sesame 自研的音频生成模型。目前CSM模型有三种不同规格,目前开源的是 10 亿参数的 Tiny 模型,还有 30 亿参数的 Small 模型和 80 亿参数的 Medium 模型。

测试方法:给 Sesame 文字内容,生成双人语音对话的音频

根据我们的测试结果,Sesame 模型不仅在自然度和情感方面做得非常好,还支持生成多人对话的语音内容,其多人对话场景的情感表达,与真人对话几乎无异。除此之外 CSM 模型还具备克隆声音、上下文感知能力和 2 分钟的对话记忆功能,其端到端延迟为 380 毫秒。虽然模型整体质量不错,但在多语言支持上,CSM 做的仍不太好,生成其他语言内容时,其质量显著低于英语内容

图片 1.jpg

除了语音助手与模型外,Sesame 还在开发搭载语音助手 Maya&Miles 的眼镜,进军硬件产业。


【本篇文章属于白鲸出海原创,如需转载:需联系授权方可,未经授权严转载!】

友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!


分享文章

扫一扫 在手机阅读、分享本文

61172
{{votes}}
分享文章

扫一扫 在手机阅读、分享本文

61172
{{votes}}

要回复文章请先登录注册

与CEO聊合作

(备注姓名、公司及职位)