白鲸出海—让中国互联网服务世界

{{user_info.user_name}}
您当前是白鲸会员
开通VIP,享受更多服务
会员到期时间:{{user_info.expire_date*1000 | formatDatebyDay}}
合作查看次数: {{users_vip_equities.view_cooperation || 0}}次
合作发布次数: {{users_vip_equities.release_cooperation || 0}}次
公司查看次数: {{users_vip_equities.view_company || 0}}次
报告下载次数: {{users_vip_equities.download_book || 0}}次
鲸币数量:{{user_info.jingbi}}
发布
当前位置:白鲸出海 > 资讯 > 正文

万众期待实测翻车,谷歌Omni到底行不行?

江清月近人  • 

原标题:万众期待实测翻车,谷歌Omni到底行不行?

作者:格文

来源:短剧自习室

谷歌2.jpg

题图来源 | pexels

谷歌新发布的 Gemini Omni 模型,这两天可谓是口碑两极分化。

Omni AI 系列的首款产品为 Gemini Omni Flash。“Omni”源自拉丁语 Omne(全部),在谷歌的定义中,它是第一个真正原生的多模态模型——能够从任意输入生成任意内容(create anything from any input)。

与Veo、Seedance 等文本转视频的 AI 工具不同,Gemini Omni 在输入和输出两端都支持多模态。

这意味着用户可以将文本、音频、图像和视频输入模型,而 Omni 会借助 Gemini 的“现实世界知识”,生成一个独特的交互式世界。

相信这两天关于它的测评很多人都看过了。

一周前,有用户测评后发现表现力不错,让人颇为期待;但上线后,风评却来了个 180 度大反转——尤其是在与 Seedance 2.0 对比之后,大伙儿连连摇头 say no。

但作为中国 AI 公司长期对标学习的重要对象,谷歌的产品思维一直值得关注。

发4.png

在一众测评的拉踩声中,我们发现:谷歌对 Gemini Omni 的产品与功能定位,其实很难直接与 Seedance 2.0 作比较——因为它们面向的是不同的人群(至少目前来看),以及完全不同的应用场景。

而且,从 Omni 身上已经能看到关于“世界模型”的一种初步构想和雏形。更何况,目前推出的还只是 Flash 版本,未来还会上线 Pro 版。

那么,Gemini Omni Flash 的特别之处究竟在哪里?

Omni 的真实水平究竟如何?

Gemini Omni 首发能力就是视频生成。它也被称为“全模态”模型,因为:

任意输入:它可以接收文字、图片、音频、视频等多种形式的指令。

强大输出:它能根据这些指令生成完整的视频,并支持“对话式编辑”,你可以用聊天的方式让它修改视频。

在 Gemeni Omni 上线一周前,一名叫 Zachary 的用户,就提前收到过 Gemeni Omni 的使用邀请。

发5.png

为此他体验了一下,首先想到测试这款模型性能时,他借用威尔·史密斯吃意大利面的经典画面来考验这款新工具。

但是由于肖像权保护,他只能在提示词做了一些调整,生成两个男人在海边吃意面的画面。

8ee4b4d0-6f1b-4c86-a30d-f5862377bc0d.png

整体还算自然,但穿帮镜头不少:比如两人从见面到落座时,桌上根本没有意面,一坐下就凭空冒出两盘开始吃;另外意面的长度也不对,还没送到嘴边就突然消失了。

接着他又生成了一个视频,演示“一位教授在传统黑板上写出三角恒等式的数学证明,并解释他当前所处的证明步骤”这样的输入。

e5f45c8d-df37-4668-9a76-2642c860045b.png

我们看到,虽然粉笔划过黑板时文字闪现过程还存在一些明显的AI痕迹,但文字和数学公式都正常显示,呈现出相当逼真的效果。

这样的水平放到市场来看,只能说是无功无过吧,不够惊艳却也够用的程度。

然后就来到了谷歌发布会当天,很多人亲自去试了下,发现效果却是不尽如人意。

Omni 目前支持最高 10 秒视频生成,以打斗片段来测试时,效果如下:

啊.gif

同样的提示词,seedance2.0 的表现如下:

啊2.gif

虽然都说不上完美,但生成效果还是能够一眼高下立判的。

然而,也有声音指出,拿 Omni 和 Seedance 放在一起比较,就像问苹果和梨哪个更好吃——完全是鸡同鸭讲。

更何况,目前 Omni 还只是 Flash 版本,用 3-5 分钟生成一段 10 秒视频的速度,跟 Seedance 2.0 的生成时长根本不在一个量级上。

这俩压根不是同一个赛道的东西,目标场景也完全不同。

Omni 就像它的名字那样,主打轻量、高效,尤其在视频到视频(Video-to-Video) 这个方向表现其实值得期待。

谷歌重点介绍的案例也更多聚焦在视频编辑层面,用户可以编辑自己拍摄的视频或 AI 生成的视频,并调整片段的特定方面。

如果用户喜欢某个镜头但想更换背景,也可以使用 Omni 来实现。Omni 可以调整视频的风格、角度、场景,甚至是片段中的特定细节。

这些都是视频剪辑过程中非常普遍的调整需求,比起一次性生成不可修改,再反复抽卡重新生成这样令人头大的操作,这种精准定位、随处微调可能更实用。

比如下面这段视频,一个用户拍了自家庭院,然后直接语音告诉 Omni 让它变更季节和时间,Omni 的操作相当丝滑,而且原视频里的物品几乎保持了原样不动。

啊3.gif

再看官方展示的一个案例。AI 根据一张静态图片和一段视频,将它们天衣无缝地融合成一个崭新的视频。

啊4.gif

抛开对视觉识别和空间逻辑的探讨,Omni 展现的是一种基于现有素材的强加工能力。

而且在前面提到的数学课堂视频案例,教授在传统的黑板上写出三角恒等式的数学证明,并讲解证明步骤。

虽然最终输出结果中仍然存在一些明显的 AI 痕迹,但在文本生成和动作控制方面表现也还可以。

很多人都有这样体验,以前很多 AI 生成的内容是经不起细看的,大多数文字在背景里乍一看没问题,但是一放大才发现根本不是文字,而是一堆说不上符号还是乱码的东西。

这意味着 AI 已经能够克服“图像/视频中文字乱码”这个困扰行业多年的顽固技术难点。这在广告、电影字幕、产品包装设计等专业领域,是一个实用化里程碑。

所以,当大家还在忙着生成各种打斗场面来直接对标时,其实讨论的焦点已经跑偏了,甚至可能会对这款产品形成一种低估甚至误读。

与其说 Omni 是传统意义上的生成模型,不如说它更像是视频版Nano Banana。

最开始 Gemini 2.0 Flash 生成原生图像生成效果也谈不上惊艳,但所有人都能看见潜力,六个月之后,Nano Banana 横空出世了。

目前,借助 Gemini Omni Flash,用户还可以通过虚拟形象创建自己的虚拟数字人。不过,谷歌表示仍在测试这项功能,以确保其安全发布。

Gemini Omni Flash当前只面向 Gemini 应用和 Google Flow 的付费订阅用户,后续将接入YouTube Shorts 和 YouTube Create 应用,提供免费使用。

 “先抑后扬”的套路?Omni Flash 只是探路,Pro 才是重头戏 

发布会之前,很多人寄希望于谷歌会推出 Veo 4。

而且在上线新品之前,不少用户发现 Veo 3.1 出现了很多“降智”操作。

这种先抑后扬的操作,向来被认为是 AI 公司的一种营销把戏:让用户对老模型失望,从而转向订阅新模型。

目前,谷歌的 Veo 已经是业内公认唯一能勉强与 Seedance 2.0 抗衡的选项,也是许多 AI 短剧公司为数不多的选择。

Gemini Omni Flash 的表现略有差距,其实也在意料之中。

作为 Omni 家族的首款产品,这本身更像是一次探路,套路可能跟当时的Nano Banana一样,谷歌也已经明确表态,Omni Pro 很快就会登场。

Flash 目前只能渲染 10 秒的视频,这并非产品本身的能力限制,谷歌官方表示是基于两方面的考量:

一是希望让更多用户体验到这款产品;

二是预计大多数用户目前尚不需要制作更长的视频。不过,支持更长视频时长的功能正在开发中,预计不久后就会推出。

从实测来看,Omni Flash 的生成速度相当快,跑一个 10 秒的视频,一两分钟就能完成,非常适合用于推文、解说类的内容产品。

Omni Flash 更倾向于一款面向普通消费者的工具,例如,Shorts 已提供头像生成功能,谷歌希望内容创作者能充分利用这一能力。

啊6.png

官方给出的案例均与个人使用场景相关,比如制作自己获奖或登月的视频,或者将度假视频背景中的路人移除。“我们非常注重让消费者能够轻松使用这款产品。”

但简单易上手,也伴随一个问题:

提示词需要写得非常具体,否则 Omni 还是难以摆脱 AI 既有的毛病,比如过度编辑,或无意中更改了用户想要保留的元素。

谷歌将在未来几周内通过 API 提供 Omni 服务。

目前 Flash 刚刚上线,更多还停留在功能展示阶段,不同人的实测结果也带有或多或少的主观性,官方的演示视频也大多是理想状态下的效果。

B 端的应用,大概要等到后续 Pro 版上线、经过一轮真实测评之后,才能真正落地。

目前来看,Omni 在企业和创意领域的应用前景相对比较清晰。更广泛地说,这种端到端的多模态工作流程,很可能会对广告商和影视制作产生影响。

不过,商业化推广的前路并非一片坦途:成本问题可能是一个绕不开的障碍。

在一个聊天窗口中生成超逼真的视频,需要耗费巨大的算力。

正如前面提到那位 Zachary 用户发现,他仅仅生成了“两个男人吃面”和“数学教学课堂”这两个视频,账户里就出现了一个新的“用量”标签:两个视频,用掉了他 AI Pro 会员当天 86% 的可用额度。

啊5.jpg

这还只是个人消费者的使用场景。可以想见,如果放到 B 端,比如影视专业机构进行批量化生成,这得消耗多大的 token 量!

只能说,希望 Omni Pro 上线时能够惊艳一波吧。当然,价格最好也能亲民一些。


文章信息来自于短剧自习室,不代表白鲸出海官方立场,内容仅供网友参考学习。对于因本网站内容所引起的纠纷、损失等,白鲸出海均不承担侵权行为的连带责任。如若转载请联系原出处。

友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!

本文相关公司

谷歌认证


分享文章

扫一扫 在手机阅读、分享本文

22545
{{votes}}
分享文章

扫一扫 在手机阅读、分享本文

22545
{{votes}}

要回复文章请先登录注册

与CEO聊合作

(备注姓名、公司及职位)