白鲸出海—让中国互联网服务世界
{{user_info.user_name}}
您当前是白鲸会员
开通VIP,享受更多服务
会员到期时间:{{user_info.expire_date*1000 | formatDatebyDay}}
合作查看次数: {{users_vip_equities.view_cooperation || 0}}次
合作发布次数: {{users_vip_equities.release_cooperation || 0}}次
公司查看次数: {{users_vip_equities.view_company || 0}}次
榜单下载次数: {{users_vip_equities.download_rank || 0}}次
报告下载次数: {{users_vip_equities.download_book || 0}}次
鲸币数量:{{user_info.jingbi}}
发布
当前位置:白鲸出海 > 资讯 > 正文

中国版Sora真的来了?

kevinzha  • 

以下文章来自硅星人GenAI,作者周一笑,丸丸柚贝

可媲美 Sora 的中国文生视频模型,就这么来了。

4 月 27 日上午,在 2024 中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu,它所展示的效果立刻刷屏。

据生数科技,Vidu 支持一键生成 16 秒、1080P 分辨率的视频内容。而从视频来看,Vidu 的一致性、运动幅度都达到了 Sora 水准,虽然时长还比不上 Sora 的最长 60 秒,但整体上已经可以对标 Sora。

生数的发布一如既往的低调,并没有什么发布会。但效果引发广泛关注,一时间“中国 Sora”的称谓四起。

但我们第一时间和生数做了交流,这家核心团队来自清华人工智能研究院、由清华人工智能研究院副院长朱军博士牵头的公司对我们表示:

Vidu 的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu 目前正在加速迭代提升,面向未来,Vidu 灵活的模型架构也将能够兼容更广泛的多模态能力。

言下之意,还说生数科技是“中国 Sora”,就有点太没想象力了。

生数的野心比这更大。

逐帧拆解对比 Vidu 与 Sora

在今年 3 月 12 日的一次交流中,生数科技联合创始人兼 CEO 唐家渝曾对我们表示:

“今年内一定能达到 Sora 目前版本的效果,但很难说是三个月还是半年”。

据我们了解,生数三月份就实现了 8 秒的视频生成,在四月份突破了 16 秒生成。今天的发布背后,短短两个月时间完成巨大进步。

这次的展示中,到底有哪些细节值得关注,我们第一时间逐帧对比了 Vidu 与 Sora,话不多说,先来一起看一下。

经典走路名场面

Sora 这个街头美女走路的视频也是刷爆的各大社交媒体,Vidu一出来就贴脸开大!不光生成街头美女走路,街头帅哥走路就连街头熊都给整出来了!

首先从人物、背景来看,Vidu 的生成效果真的和 Sora 不相上下,但是人物动作协调性与 Sora 相比还是稍弱一些。

640.gif

Vidu

640 (1).gif

Sora

行驶中的越野车

越野车在丛林小道中穿梭,Vidu 的丛林背景略有 3D 动画的效果,更像游戏中的一些场景,Sora 的背景更具真实性一些。

640 (2).gif

Vidu

640 (3).gif

Sora

中国龙

这一视频场景,二者生成的风格不太相同,Vidu 展示的是现实中虚拟龙的形象,Sora 是现实中舞龙舞狮真实存在的场景,但是二者对于龙的形象各种细节也都展现出了各自的特点。

另外,除了主体龙之外的背景两者都很真实,但是 Sora 的视频画面丰富度更高。

640 (4).gif

Vidu

640 (5).gif

Sora

人物眼睛特写

这谁能分得清是真实拍摄还是 AI 生成啊!这一局我感觉 Vidu 真的不输 Sora!

640 (6).gif

Vidu

640 (7).gif

Sora

电视合集

Vidu 确实是不怕对比的!这个画面丰富度和运镜真是一点不比 Sora 差。

640 (8).gif

Vidu

640 (9).gif

Sora

狗狗

Sora 生成的狗狗动态感、真实感更强一些,但是 Vidu 对狗狗游泳腿上的毛漂浮的细节处理的也相当不错。

640 (10).gif

Vidu

640 (11).gif

Sora

猫和人

Vidu 所展现是“带珍珠的猫”,虽然有点玄幻,但是镜头旋转之后,毛发细节感也是表现不错。

640 (12).gif

Vidu

640 (13).gif

Sora

船与“海”

Vidu 的波浪流动十分符合物理规则。可以说与 Sora 不相上下。

而且,这里两者都提供了 Prompt,可以直接对比,也能看到很多有趣的不同。

640 (14).gif

Vidu:“画室里的一艘船驶向镜头”

640 (15).gif

Sora:“逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。”

宇航员

Vidu 更突出的是宇航员在太空生活的状态,Sora 则更突出宇航员的人物脸部特写。

640 (16).gif

Vidu

640 (18).gif

Sora

Vidu 如何炼成:正确的技术路线+工程技术迁移

这次发布的视频,所有人肉眼可见的效果大幅进步,背后是如何做到的?

这看起来的突破其实是生数长期积累的结果。

OpenAI Sora 的 DiT 架构融合了 Diffusion 和 Transformer,不仅能够实现与 GAN 相媲美的图像生成质量,而且还具有更好的扩展性和计算效率。而通过使用 Transformer 结构代替传统 Diffusion 模型中常用的 U-Net 结构,DiT 能够以更高效的方式处理数据,尤其是在处理大规模数据时,能够显著减少所需的计算资源,同时在视觉任务下展现出卓越的涌现能力。

在技术路线上,Vidu 采用了和 Sora 完全一致的 Diffusion 和 Transformer 融合的架构。Vidu 的底层基于生数自研的 U-ViT 架构,该架构由团队在2022 年 9 月提出,实际上 U-ViT 是第一个融合了 Diffusion 和 Transformer 的架构,比 Sora 的 DiT 架构更早。

微信图片_20240428185816.png

图注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了网络架构 U-ViT,这是 Vidu 最重要的技术基础。

市面上的部分视频生成工具增加视频长度的思路是采用的是插帧技术,这种方法通过在原始视频帧之间插入额外的帧来提升视频的流畅度和长度。插帧技术可以基于不同的算法实现,包括传统的运动补偿(MEMC)、深度学习方法,或是结合编解码器进行智能补帧等。Nvidia 的 SuperSlomo 技术就是通过深度学习算法来预测并插入中间帧以实现视频的高帧率播放。

但同时插帧也会带来一些弊端。比如可能导致的画质下降,尤其是在快速运动或阴影处理上可能出现扭曲或模糊。

另外一些工具通过组合不同的模型和技术来生成看似较长的视频,例如,一些工具可能先使用 Stable Diffusion 或 Midjourney 等图像生成模型生成单张图像,然后通过图生视频的技术将这些图像转换成短视频,最后再将这些短视频进行拼接以形成更长的视频内容。

这些方法的确能够增加视频的长度,但它基本上还是依赖于“短视频生成”的工作流程。因此可能会在内容的流畅性和视觉表现上显得不够连贯,缺乏一些自然的过渡效果,而且在叙事和逻辑上可能也不如一个完整的长视频那样紧密。

Vidu 基于 U-ViT 架构,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。感官上更加“一镜到底”,视频从头到尾连续生成,没有插帧痕迹。

除了 U-ViT 底层架构的创新,Vidu 也离不开生数团队的工程化基础。

在2023年3月,基于 U-ViT 架构,生数在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型——UniDiffuser,并将其开源。UniDiffuser 主要擅长图文任务,支持图文模态间的任意生成和转换。

据了解,UniDiffuser 首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将 U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser 比最近才切换到 DiT 架构的 Stable Diffsion 3 早了一年。

此外,视频可以被看作是图像序列在时间轴上的扩展,因此处理图像的技术和经验可以迁移到视频处理中。例如 Sora 采用了 DALL·E 3 的重标注技术,对视觉训练数据进行精细地重标注和描述,使其生成视频时能够更准确地遵循用户的指令。

正是这些积累的工程经验,为生数从图文任务到视频任务的技术迁移打下了基础。

实际上,Vidu 在视频生成任务中就复用了生数科技在图文任务中积累的多项技术经验,包括训练加速、并行化训练和低显存训练等,从而优化了训练流程。通过视频数据压缩技术和自研的分布式训练框架,实现了计算精度保证下的通信效率提升、显存开销的大幅度降低,以及训练速度的提升。

从图任务的统一到融合视频能力,Vidu 可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。生数也透露,Vidu 目前正在加速迭代提升,面向未来,Vidu 灵活的模型架构也将能够兼容更广泛的多模态能力。

根据朱军的解释,Vidu 意味着 We do、We did、We do together。生数也顺势推出了“Vidu 大模型合作伙伴计划”。

“主要是希望吸引 AI 视频场景关注和感兴趣的产业应用伙伴,公司机构,包括一些个人创作者,包括上下游的产业伙伴,起探索应用场景。”

除了自研大模型,生数科技也研发垂类应用产品,旗下有视觉创意设计平台 PixWeaver、3D 资产创建工具 VoxCraft 等,按照订阅等形式收费。

至于 Vidu 的产品化,生数科技留了个悬念,回复了硅星人四个字:

敬请期待。


文章信息来自于硅星GenAI ,不代表白鲸出海官方立场,内容仅供网友参考学习。对于因本网站内容所引起的纠纷、损失等,白鲸出海均不承担侵权行为的连带责任。如若转载请联系原出处

友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!


分享文章

扫一扫 在手机阅读、分享本文

24933
{{votes}}
分享文章

扫一扫 在手机阅读、分享本文

24933
{{votes}}

要回复文章请先登录注册

与CEO聊合作

(备注姓名、公司及职位)