模拟嘴(用嘴做视频真来了Meta 这个新应用太逆天了)
Posted
篇首语:前事不忘,后事之师。本文由小常识网(cha138.com)小编为大家整理,主要介绍了模拟嘴(用嘴做视频真来了Meta 这个新应用太逆天了)相关的知识,希望对你有一定的参考价值。
模拟嘴(用嘴做视频真来了Meta 这个新应用太逆天了)
今年,是 AI 在图像视频制作领域进步很大的一年。
有人拿着 AI 生成的图像拿走了数字艺术大奖,战胜了一众人类艺术家;有 Tiktok 这样的应用通过文字输入生成图片,变为短视频的绿幕背景;还有新的产品可以做到文字直接生成视频,直接实现「用嘴做视频」的效果。
这次的产品来自深耕人工智能多年,前段时间才因为元宇宙被疯狂嘲讽的 Meta。
只是这次,你不能嘲讽它了,因为它真的有了小突破。
文字转视频,能做成什么样
现在,你可以动嘴做视频了。
这话虽然有点夸张,但 Meta 这次推出的 Make-A-Video 恐怕真是朝着这个目标前进的。
目前 Make-A-Video 可以做到的是:
- 文字直接生成视频——将你的想象力变成真实的、独一无二的视频
- 图片直接转为视频——让单一图片或两张图片自然地动起来
- 视频生成延伸视频——输入一个视频创建视频变体
单说文字直接生成视频这个方面,Make-A-Video 就战胜了不少专业的动画设计专业的学生。至少它什么风格都能做,而且制作成本非常低。
虽然官网还不能让你直接生成视频体验,但你可以先提交个人资料,之后 Make-A-Video 有任何动向都会先和你分享。
目前可以看到的案例不多,官网展示的案例在细节上还有一些怪异的地方。但不管怎么说,文字可以直接变视频,本身就是一个进步了。
一只泰迪熊在画自画像,你可以看到小熊的手在纸面阴影部分的投影不太自然。
机器人在时代广场跳舞。
猫拿着电视遥控器换台,猫咪手部爪子和人手极为相似,某些时候看还觉得有点惊悚。
还有戴着橙色针织帽的毛茸茸树懒在摆弄一台笔记本电脑,电脑屏幕的光映在它的眼睛里。
上面这些属于超现实风格,和现实更相似的案例则更容易穿帮。
Make-A-Video 展示的案例如果只是专注局部表现都不错,例如艺术家在画布上画画的特写,马喝水,在珊瑚礁游泳的小鱼。
但是稍微写实一点的年轻夫妇在大雨中行走就很怪异,上半身还好,下半身的脚忽隐忽现,有时还会被拉长,如同鬼片。
还有一些绘画风格的视频,宇宙飞船登陆火星,穿着晚礼服的夫妇被困在倾盆大雨中,阳光洒在桌上,会动的熊猫玩偶。从细节上看,这些视频都不够完美,但仅仅从 AI 文字转视频的创新效果来看,还是让人惊叹的。
静态的油画也可以在 Make-A-Video 帮助下动起来——船在大浪中前进。
海龟在海中游动,最初的画面非常自然,后面变得更像绿幕抠图,不自然。
瑜伽训练者在朝阳中舒展身体,瑜伽垫也会随着视频的变化一起变化——这个 AI 就战胜不了学习影视制作的学生了,控制变量没做好。
最后输入一个视频模仿其风格创造视频变体也有 3 种案例。
其中一个变化相对来说没那么精致。宇航员在太空中飘舞的视频变为了美感稍弱版本的 4 个粗放版视频。
小熊跳舞的视频倒是有不少令人惊喜的变化,至少舞姿有变化了。
至于最后兔子吃草的视频就是最「安能辨我是雌雄」的类型了,5 个视频最后很难认出谁是初始视频,看着都蛮和谐。
文字转图片刚有进展,视频就来了
在《阿法狗之后,它再次彻底颠覆人类认知》中,我们曾经介绍过图像生成应用 DALL·E。曾有人用它制作出的图像去和人类艺术家 PK 并最终取胜。
现在我们看到的 Make-A-Video 可以说是一个视频版本的 DALL·E(初级版)——它就像 18 个月前的 DALL·E,有巨大突破,但现在的效果不一定能让人满意。
甚至可以说,它就是站在巨人 DALL·E 肩膀上做出成就的产品。相较于文字生成图片,Make-A-Video 并没有在后端进行太多全新变革。
研究人员在论文中也表示:「我们看到描述文本生成图片的模型在生成短视频方面也惊人地有效。」
目前 Make-A-Video 制作的视频有 3 个优点:
- 加速了 T2V 模型(文字转视频)的训练
- 不需要成对的文本转视频数据
- 转化的视频继承了原有图像/视频的风格
这些图像当然有缺点,前面提到的不自然都是真实存在的。而且它们不像这个年代诞生的视频,画质模糊,动作僵硬,不支持声音匹配,一段视频长度不超过 5 秒,解析度 64 x 64px 都是硬伤,它们的清晰度远远不够。
几个月前清华大学和智源研究院(BAAI)研究团队发布的第一个能根据文本直接合成视频的 CogVideo 模型也有这样的问题。它基于大规模预训练的 Transformer 架构,提出了一种多帧率分层训练策略,可以高效的对齐文本和视频片段,只是也经不起细看。
但谁能说 18 个月后,Make-A-Video 和 CogVideo 制作的视频不会比大部分人更好呢?
目前已经发布的文字转视频工具虽然不多,但在路上的却有不少。在 Make-A-Video 发布后,初创企业 StabilityAI 的开发者就公开表示:「我们的(文字转视频应用)会更快更好,适用于更多人。」
有竞争才会更好,越来越逼真的文字转图像功能就是最好的证明。
相关参考
模拟视频设备(Meta为Chrome和Edge带来WebXR模拟器,可模拟所有Quest头显)
(映维网Nweon2023年02月08日)WebXR正在扩展我们与网络交互的多种方式,允许开发者创建可在各种设备访问的体验。然而,WebXR开发者面临的最大痛点之一是缺乏一种稳定、方便的方法来测试和调试内容。在WebXR开发过程中,开发...
村里说的二妮子是什么意思(乡村野事:二栓子买的女人,关进地窖,出事了,后来,报应真来了)
二栓子从村口扛着铁耙吊儿当啷的一走一晃地往家里走,村口的小孩子拍着手,大声地对二栓子叫道:‘老二,你家又热闹了,你娘又给你弄了个新媳妇,赶紧的,快走,快走,别让新媳妇等急了……“二栓子把铁耙随手就扔给...
栗子剥皮机(电饭锅做的糖炒栗子,轻松脱壳,用嘴轻轻一“吸”就出来了)
...外面卖的还好,拿起来稍微拿两只手稍稍往外一掰,然后用嘴轻轻一“吸”就出来啦!电饭锅糖炒栗子需要的食材主料:1袋栗子。调味料:20克冰糖。电饭锅糖炒栗子的做法【第1步:如何让栗子更入味?】一
平时我们在看民国时期的影视中,总能看到这样一个片段,一个地主老财拿着银元猛的一吹,然后放到耳边,随后露出狡猾的笑容,这是要检验银元的真假,真银元能发出悦耳的回声,所以这种方法在民国时期常用来鉴别银元的...
德阳阳光天府首席合法不(德阳楼市11月数据报告:价在降,但利好也是真来了)
数据统计时间:2021年11月1日—30日数据来源:德阳市房产网、旌阳区房产网文中数据均指商品房网签数据(不包含经适房等特殊房源,排行榜内不包含别墅等特殊房源)统计范围:市本级指市主城区;旌阳区指德阳孝感、黄许等...
济南买跑步机的地方(一口气吃2斤肉串、买50支口红,报复性消费真来了?)
...本菜单的外卖,有人一口气买了50支口红……报复性消费真来了?↑资料图:居民戴口罩外出购物。中新社记者张浪摄不是网上买买买,就是在家憋大招2月末,杭州一家商场“小试牛刀”,恢复营业以后,5小时以内营业额达到11...
济南买跑步机的地方(一口气吃2斤肉串、买50支口红,报复性消费真来了?)
...本菜单的外卖,有人一口气买了50支口红……报复性消费真来了?↑资料图:居民戴口罩外出购物。中新社记者张浪摄不是网上买买买,就是在家憋大招2月末,杭州一家商场“小试牛刀”,恢复营业以后,5小时以内营业额达到11...
前几天,一则用嘴啃鸡爪去骨的视频在网上疯传,视频虽然煞有介事地说是泰国媒体爆料,却连加工厂的具体地点与名称都提供不出来。现如今,人们对食品安全问题异常敏感,一有风吹草动,便作风声鹤唳,网友们炸开了锅,...
模拟器模拟机(20本已完结模拟器流小说,推算未来,逆天改命,体验各种不同人生)
大家好,这里是宅胖看书,今天给大家介绍的是模拟器流小说。此类型小说作为新兴的流派,本来宅胖不想这么快就介绍的,毕竟里面有很多正在连载的,而且很多宅胖都没有看过或者看完。另外模拟器也可以分成人生模拟器、...
智能浴霸(万物皆可Pro?这次真来点不一样的 Yeelight 智能浴霸Pro体验)
...霸Pro只聊聊使用下来的体验,对于相关安装可以通过网上视频教