淖涝网 > 社会 > 正文

​AI视频翻车频发,Luma与Stable Diffusion遭吐槽

2024-06-16 23:33 来源:网络 点击:

AI视频翻车频发,Luma与Stable Diffusion遭吐槽

新智元报道

编辑:编辑部

昨天诞生的 AI 视频新霸主—— Luma AI 的 Dream Machine,再次在整个互联网掀起高潮。

网友们昨天还集体表示,要舍弃 Pika 和 Runway 了,Dream Machine 最好!

借着每个月免生成三十次的羊毛,大家纷纷试用。但是,其中有不少翻!车!了!

AI 圈大佬奥特曼、老黄和 Greg 正一团和气地合影,下一秒 Greg 就突然变脸,一拳揍在奥特曼胸前。随后三人陷入缠斗模式,现场乱成一团。

以及下面这个 OpenAI 曾经一团和气的大合影——

经过 Luma 模型的妙手之后,又变成了大乱斗场面。

但其实 Dream Machine 并不是一个有「暴力倾向」的模型,它很少生成打架场面。

比如下面这个,通过奥斯卡颁奖礼的合照生成出的视频,气氛依旧温馨。

看来 OpenAI 的「宫斗」太明显,连模型都知道了照片背后的故事。(不会是 Sora 给 Dream Machine 传了八卦吧)

网友实测让 Luma 生成动画,发现画面极其诡异——

白色的狗头迅速出现在身体的各部位,随后白狗有丝分裂出第二只白狗,最后白狗直接和棕狗实现了换头。

果然,四年寒窗无人问,一朝翻车天下知。

而且,有推特网友发现,Luma 非常倾向于让图片中的人物转身离开,比如下面这张威利 · 旺卡。

把各种头像图片输入进去,得到也是类似的结果。

这虽然无伤大雅,但是这种单调且「我行我素」的生成结果有些令人恼火,好像是模型怕自己搞出「变脸」,所以干脆让人物转头了。

Luma AI 表情包

虽然翻车案例很多,但是创意无限的网友们还是发掘出 Dream Machine 一个非常有前途的应用——生成表情包动图。

比如这张非常著名的模因图片,经常被用于 p 成各种表情包:

把图片输入给 Luma 的模型,它会「脑补」出什么画面?

是正牌女友生气吵架?

还是干脆分手另觅新欢?

看出来 Dream Machine 的 drama 特质了,脑补出来的都是大型人性修罗场。

甚至,这个表情包还舞到了 Andrej Karpaty 大佬面前,他也表示自己受到了一些 AI 技术的震撼。

Luma AI 将图像扩展为视频的新模型确实是另一回事。我凭直觉知道这很快就会成为可能,但看到它并思考未来的迭代仍然是另一回事。

再输入一只表情倔强的柴犬照片,就得到了一张完美的动图。

但下面这个生成结果相对平淡,人物转头后,脸上的表情也消失了。

根据著名的「地铁老人看手机」生成动图后,痛苦的感觉似乎加剧了。

把图片生成模型和 Luma 放在一起用,还会碰撞出意想不到的效果。

有人突发奇想,用 Midjourney 生成一张教皇穿羽绒服的图片,再让他走几步,突然可爱了起来。

搭配 Stable Diffusiion 3 生成的诡异人体图片,输出的动图简直是「恐怖」效果加倍。

Luma 不仅没有把畸形的人体纠正过来,而且将错就错。拉近镜头后,人物原本正常的表情都变得令人发指了。

发出这些视频的帖子中,博主还很礼貌地附上了一句「I'm sorry…」,评论表示,看完就后悔了。

SD 3 翻车 ‍

说到刚放出的 Stable Diffusion 3 的「翻车」图片,这也是网友们最近的快乐源泉。

「我很久没这么开心过了。」

Stability AI 表示,这是他们「迄今为止最复杂的图像生成模型」,却引来了全网群嘲。生成的一堆「畸形」图片反而让人认为它大幅退步,落后于 Midjourney 和 DALL-E。

图片的「畸形」程度有多严重呢?

是看了可以做噩梦的地步。

比如,生成出的手指不仅数量不对,形状也十分离奇,根本不像人类的手指。

这张图让人突然想到《瞬息全宇宙》的「香肠手指」设定。

如果仅仅是手指也还说得过去,毕竟这一直是图像生成模型的「顽疾」。

然而,SD3 已经到了连人类四肢、躯干都不能好好生成的地步了。

下面这张草地上的人体图片,几乎已经成为 SD3 翻车的标志性象征了,全身上下没有一个地方是合理的。

在沙滩上的这两张,乍一看外形还不错,细看才能发现有许多恐怖之处。

更匪夷所思的还在下面——

在 Reddit 的帖子上,网友甚至发出嘲笑般的质疑「这应该是个笑话吧?」

「一段时间前,StableDiffusion 还在与 Midjourney 竞争,现在它看起来就像一个笑话。至少我们的数据集是安全和道德的!」

即使与 Stability 之前发布的模型相比,也能看出 SD3 的显著退步。

有网友用相同的 prompt 输入给 SD 1.5、SDXL Turbo 和 SD 3,并比较了这三个模型的输出结果。

最早的 SD 1.5 即使没办法做到百分百正确、逼真,至少不会错误到离谱和「恐怖」的程度。

上一代 SDXL Turbo 生成的图片在真实感之外还做到了构图和光影的美感。

下面的这个对比更加明显,SD3 和 SDXL 的能力仿佛不在一个世界。

这不禁让人怀疑,SD3 到底怎么了?

有 Reddit 用户认为,Stable Diffusion 3 的解剖学失败是由于 Stability 坚持从训练数据中过滤掉成人内容(即 NSFW 内容,not suitable for work)。

「信不信由你,严格审查模型也会去除人体解剖学内容,所以 …… 这就是发生的原因。」

这个说法虽然乍一听不符合直觉,却有迹可循。

当 prompt 涉及到训练数据集中未能很好代表的概念时,模型就会根据自己的理解进行最佳解释。

而 SD3 生成的恐怖结果,就是在没有足够训练数据时,它眼中的人体合理形态。

类似的问题在以前也曾出现过,比如 2022 年发布的 Stable Diffusion 2.0 也无法很好地表现人体。

当时,研究人员很快发现,审查包含裸体的成人内容会严重阻碍模型生成准确人体解剖学的能力。

因此,Stability AI 在 SD 2.1 和 SD XL 中迅速调整了策略,才让模型恢复了一些因坚决过滤 NSFW 内容而失去的能力。

在模型预训练期间可能发生的另一个问题是,用来从数据集中删除成人图像的 NSFW 过滤器有时太过挑剔,意外地删除了可能并不冒犯的图像,从而剥夺了模型在某些情况下对人类的描绘。

对此,有网友猜测「(SD3 ) 只要图片中没有人类就能正常工作,我认为他们改进的 NSFW 过滤器把所有类人形象都当成了 NSFW。」

Stability AI 深陷泥沼

Stability 在今年 2 月宣布了 Stable Diffusion 3,并计划推出多个版本。

最新发布这一版被称为「Medium」,有 2B 参数。模型的权重已经开源,既能从 Hugging Face 下载,也能通过 Stability Platform 进行实验。

论文地址:https://arxiv.org/abs/2112.10752

2 月官宣后不久,SD3 模型权重的发布却延迟了,这激起了 Stability 存在技术问题或管理不善的谣言。

事实上,Stability 这几个月在人事方面的确十分混乱,其创始人兼 CEO Emad Mostaque 于三月份辞职,随后是一系列裁员。

三位 Stable Diffusion 的灵魂人物—— Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 也——离开了公司。

此外,Stability 甚至还面临着资金方面的困难。2023 年以来,公司财务状况不佳的消息一直在流传。

对于一些 Stable Diffusion 的粉丝来说,SD 3 Medium 的失败是公司管理不善的外在结果——也是事态恶化的明显迹象。尽管公司尚未申请破产,但在看到新模型后,一些用户开始写下关于破产的黑色幽默段子:

「我猜现在他们能以一种安全且道德的方式破产了。」