Google推出AI新工具VideoPoet:文字图片皆可产生影片与音频
中国基金网
Google宣布推出一款名为 VideoPoet 的新人工智能工具,可根据文字输入产生视频。 这一新工具可以创建各种类型的视频,包括短片、音乐视频,甚至讲解视频。
VideoPoet 是一个在海量文字和视频数据集上训练的大型语言模型 。 模型能够理解文字和视频之间的关系,并可以产生连贯且具有视觉吸引力的视频。
与目前主流的扩散模型不同,VideoPoet 将这些视频生成功能整合在一个大型语言模型中,而不是依赖分别针对每个任务进行训练的元件。
VideoPoet 最令人印象深刻的事情之一,是它产生长影片的能力。 模型可以通过将视频链接在一起来,创建长达几分钟的视频。 这使得使用 VideoPoet 创建更复杂和细致的视频成为可能。
VideoPoet 也可用于编辑现有视频。 例如,用户可以使用该工具为静态图像新增动画,或变更影片的风格。 这使得 VideoPoet 成为一个强大的视频编辑工具,即使对于没有太多经验的人,也能便于使用。
据报导,这一模型通过多个分词器进行训练,以学习跨视频、图像、音频和文字模态的知识。 透过将模型生成的令牌转换为可视化表示,VideoPoet 能够输出动画、风格化视频,甚至生成音频。 模型支持文字输入,以指导文字到影片、图像到影片等任务的生成。
以下是 VideoPoet 可用来执行的一些特定任务:
文字转影片:根据文字描述产生影片。
图像到影片:将静态图像动画化。
影片风格化:对影片应用风格效果。
视频修复和修复:填充视频缺失的部分或将视频扩展到其原始边界之外。
影片转音频:从影片剪辑产生音频。