4006-998-758
新闻动态

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika

2023-12-22

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图1)

你敢信?大熊猫都会打牌了!

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图2)

看这毛茸茸的脑袋、抓牌的动作……

而这其实都是AI生成的,还是零样本那种。

这就是谷歌最新大语言模型VideoPoet

它不仅没有用视频领域常用的扩散模型,还零样本实现了SOTA。相较于此前一些模型,画面更加稳定、动作更加逼真,清晰度也直线up。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图3)

Bard再合作一下,轻松搞定1分钟长的视频小片,从脚本到画面全部不用人类插手。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图4)

这效果,让网友们直呼:视频生成进化速度也太快了吧。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图5)

不少人都表示想玩!

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图6)

有人还说,VideoPoet效果这么好,看来Runway和Pika要加速了!

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图7)

画面逼真动作稳定

具体来看VideoPoet的能力非常全面。包括:

  • 文本-视频

  • 图像-视频

  • 视频编辑

  • 风格化处理

  • 画面补充

文本到视频任务,视频输出长度可调整,而且可以基于文本内容应用一系列动作和风格。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图8)

图像到视频任务,则能让静态图片动起来。比如一些世界名画和照片,都可生成视频。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图9)

同时也能调整视频风格,需要额外输入一些文本,然后模型会预测视频的光照和深度信息。

比如输入“铁狮子在熔炉的火光中咆哮”,原本无厘头的太阳花狮子就变得凶猛威严起来。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图10)

当然也能进行视频编辑,比如让视频中的机器人随意运动、背景中加上烟雾等,都是输入文字指令即可实现。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图11)

或者是输入图像,然后修改它的动作。让蒙娜丽莎转动身体、打哈欠。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图12)

以及可调整镜头动作。基本的缩放、弧线、航拍镜头都可搞定。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图13)

如果想让扩充视频画面、增加视频元素,VideoPoet也能实现。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图14)

值得一提的是,VideoPoet还可以根据视频配乐。

这也是让不少网友感到惊讶的地方。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图15)

比如先让VideoPoet生成一段小熊打架子鼓的视频,然后不给它任何文本提示,VideoPoet根据画面内容自己生成了音频。

如果想要生成更长的视频,可以通过输入视频的最后一秒画面让VideoPoet预测下一段视频,反复多次即可实现。

如下案例时长约为10秒。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图16)

用LLM零样本生成视频

不仅是生成效果好,VideoPoet还有一个优势在于,以LLM为基础,它能更方便利用现有大模型进行改进。

比如VideoPoet就使用了T5的编码器。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图17)

不过由于大语言模型使用离散token,使得它生成视频具有一定挑战性。

与自然语言不同,人类对视觉世界尚未演化出最佳的词汇表达。

通过视频/音频tokenizer可以来克服这一问题。

它们能将视频和音频编码为离散token,也可将其转换为原始表示。

VideoPoet正是基于这一原理实现。

它利用MAGVIT V2来搞定视频图像表示,SoundStream搞定音频表示。

前者是谷歌CMU团队在今年10月提出的方法,该方法实现了语言模型首次在ImageNet基准上击败扩散模型。

后者是一个端到端神经音频解码器

具体来看VideoPoet的框架。它支持文本、视觉、音频输入,分别可利用t5、MAGVIT V2、SoundStream的编码器。

然后再自回归生成输出。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图18)

实验结果方面,在提示词与生成结果的吻合度方面,VideoPoet超过多个扩散模型。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图19)

生成动作方面的优势更加明显。

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图20)

这项工作由谷歌研究带来,作者是两位软件工程师Dan Kondratyuk和David Ross

据Dan透露,VideoPoet的论文也会马上上线。

参考链接:
[1]https://sites.research.google/videopoet/
[2]https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

以上内容来自公众号:量子位( QbitAI)




END



为助力更多企业在人工智能的浪潮中乘风破浪,“AI+研发数字峰会(AiDD)”应运而生,旨在帮助更多企业借助AI技术,使计算机能够更深入地认知现实世界,推动研发迈进数智化时代。AiDD峰会即将于2024年5月17-18日上海举办,围绕十五大前沿论坛内容,邀请60+行业大咖与会分享。现议题公开征集中,诚邀有志之士共同携手把AiDD峰会办成工业界和学术界的顶流盛会,欢迎扫码提交议题!

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图21)


谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图22)

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图23)

点这里↓↓↓记得关注标星哦~



人才培养的专属成长地图,数字化转型的方法 + 智库。" data-from="2" data-is_biz_ban="0" data-origin_num="106" data-isban="0" data-biz_account_status="0" data-index="0" data-filtered="filtered" style="color: initial; font: initial; font-palette: initial; font-synthesis: initial; forced-color-adjust: initial; text-orientation: initial; text-rendering: initial; -webkit-font-smoothing: initial; -webkit-locale: initial; -webkit-text-orientation: initial; -webkit-writing-mode: initial; writing-mode: initial; zoom: initial; accent-color: initial; place-content: initial; place-items: initial; place-self: initial; alignment-baseline: initial; animation: initial; app-region: initial; appearance: initial; aspect-ratio: initial; backdrop-filter: initial; backface-visibility: initial; background: initial; background-blend-mode: initial; baseline-shift: initial; block-size: initial; border-block: initial; border: initial; border-radius: initial; border-collapse: initial; border-end-end-radius: initial; border-end-start-radius: initial; border-inline: initial; border-start-end-radius: initial; border-start-start-radius: initial; inset: initial; box-shadow: initial; break-after: initial; break-before: initial; break-inside: initial; buffered-rendering: initial; caption-side: initial; caret-color: initial; clear: initial; clip: initial; clip-path: initial; clip-rule: initial; color-interpolation: initial; color-interpolation-filters: initial; color-rendering: initial; color-scheme: initial; columns: initial; column-fill: initial; gap: initial; column-rule: initial; column-span: initial; contain: initial; contain-intrinsic-block-size: initial; contain-intrinsic-size: initial; contain-intrinsic-inline-size: initial; container: initial; content: initial; content-visibility: initial; counter-increment: initial; counter-reset: initial; counter-set: initial; cursor: initial; cx: initial; cy: initial; d: initial; display: initial; dominant-baseline: initial; empty-cells: initial; fill: initial; fill-opacity: initial; fill-rule: initial; filter: initial; flex: initial; flex-flow: initial; float: initial; flood-color: initial; flood-opacity: initial; grid: initial; grid-area: initial; height: initial; hyphenate-character: initial; hyphens: initial; image-orientation: initial; image-rendering: initial; inline-size: initial; inset-block: initial; inset-inline: initial; isolation: initial; letter-spacing: initial; lighting-color: initial; line-break: initial; list-style: initial; margin-block: initial; margin: 0px; margin-inline: initial; marker: initial; mask: initial; mask-type: initial; max-block-size: initial; max-height: initial; max-inline-size: initial; max-width: 100%; min-block-size: initial; min-height: initial; min-inline-size: initial; min-width: initial; mix-blend-mode: initial; object-fit: initial; object-position: initial; object-view-box: initial; offset: initial; opacity: initial; order: initial; orphans: initial; outline: 0px; outline-offset: initial; overflow-anchor: initial; overflow-clip-margin: initial; overflow: initial; overscroll-behavior-block: initial; overscroll-behavior-inline: initial; overscroll-behavior: initial; padding-block: initial; padding: 0px; padding-inline: initial; page: initial; page-orientation: initial; paint-order: initial; perspective: initial; perspective-origin: initial; pointer-events: auto; position: initial; quotes: initial; r: initial; resize: initial; rotate: initial; ruby-position: initial; rx: initial; ry: initial; scale: initial; scroll-behavior: initial; scroll-margin-block: initial; scroll-margin: initial; scroll-margin-inline: initial; scroll-padding-block: initial; scroll-padding: initial; scroll-padding-inline: initial; scroll-snap-align: initial; scroll-snap-stop: initial; scroll-snap-type: initial; scrollbar-gutter: initial; shape-image-threshold: initial; shape-margin: initial; shape-outside: initial; shape-rendering: initial; size: initial; speak: initial; stop-color: initial; stop-opacity: initial; stroke: initial; stroke-dasharray: initial; stroke-dashoffset: initial; stroke-linecap: initial; stroke-linejoin: initial; stroke-miterlimit: initial; stroke-opacity: initial; stroke-width: initial; tab-size: initial; table-layout: initial; text-align: initial; text-align-last: initial; text-anchor: initial; text-combine-upright: initial; text-decoration-line: initial; text-decoration-skip-ink: initial; text-emphasis: initial; text-emphasis-position: initial; text-indent: initial; text-overflow: initial; text-shadow: initial; text-size-adjust: inherit; text-transform: initial; text-underline-offset: initial; text-underline-position: initial; touch-action: initial; transform: initial; transform-box: initial; transform-origin: initial; transform-style: initial; transition: initial; translate: initial; user-select: initial; vector-effect: initial; vertical-align: initial; visibility: initial; border-spacing: initial; -webkit-box-align: initial; -webkit-box-decoration-break: initial; -webkit-box-direction: initial; -webkit-box-flex: initial; -webkit-box-ordinal-group: initial; -webkit-box-orient: initial; -webkit-box-pack: initial; -webkit-box-reflect: initial; -webkit-highlight: initial; -webkit-line-break: initial; -webkit-line-clamp: initial; -webkit-mask-box-image: initial; -webkit-mask: initial; -webkit-mask-composite: initial; -webkit-print-color-adjust: initial; -webkit-rtl-ordering: initial; -webkit-ruby-position: initial; -webkit-tap-highlight-color: initial; -webkit-text-combine: initial; -webkit-text-decorations-in-effect: initial; -webkit-text-fill-color: initial; -webkit-text-security: initial; -webkit-text-stroke: initial; -webkit-user-drag: initial; -webkit-user-modify: initial; white-space: initial; widows: initial; width: initial; will-change: initial; word-break: initial; word-spacing: initial; x: initial; y: initial; z-index: initial; box-sizing: border-box !important; overflow-wrap: break-word !important;">


谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika(图25)


返回列表