执游网

比AI视频换脸还可怕!DeepMind新AI可生成逼真视频

近日,DeepMind的研究人员研发了一个名叫Dual Video Discriminator GAN(DVD-GAN)的人工智能模型,该模型通过能够通过学习一系列的YouTube视频数据集,生成高度逼真且连贯的256 x 256像素视频,最长可达48帧。

  目前,DVD-GAN的研究成果已于美国时间2019年7月15日发表在arxiv上,名为《在复杂数据集上的高效视频生成(Efficient Video Generation on Complex Datasets)》。

  一、AI造假视频比造假图片更难

  最近,俄罗斯AI研究人员开发的FaceApp着实大火了一把,这款应用通过人工智能技术能够改变用户自拍照的年龄、外貌、发色和性别,甚至可以生成虚构的人物照片。这直接让人们近距离地感受了人工智能技术给我们的生活带来的乐趣。

  但是否有人想过,有朝一日这些技术也能应用在视频领域呢?

  如果说BigGAN是DeepMind在图像领域开发的能够生成高度逼真图像的图像生成器,那么DeepMind研究人员们开发的DVD-GAN,就是人工智能在视频剪辑生成领域的最新突破。

  研究人员在论文中表示,生成自然视频对生成式建模来说是一个较大的挑战,同时还会受到数据复杂性和计算需求增加的困扰。

  因此,之前业界的研究人员们在研究视频生成领域时,几乎都围绕着相对简单的数据集,或者采用有限的时间信息来降低任务的复杂程度。

  而这次,DeepMind的研究人员们主要针对视频合成和视频预测的任务,将生成图像模型的强大功能和逼真效果扩展到视频领域。

  二、DVD-GAN:基于BigGAN模型结构

  研究人员们基于BigGAN的模型结构,构建了DVD-GAN的系统,并引入了一系列用于视频生成的调整,使DVD-GAN能够在Kinetics-600上进行训练。

  Kinetics-600是一组由50万段10秒高分辨率的YouTube视频剪辑汇编而成的训练数据集,它最初是为识别人类动作而制作的,比目前其他常用的语料库还大一个数量级。

  同时,研究人员们表示,Kinetics-600具有多样化特征,能消除他们对过拟合(Overfitting)的担忧。过拟合主要是指机器学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

  另一方面,DeepMind的研究人员们利用生成对抗网络(GANs)来区分生成样本和真实世界样本,该网络主要由生成器和判别器两部分组成。

  GANs曾被应用在把文字转换成一幕幕的场景故事,或生成人造星系图像等任务中。而研究人员们这次使用的是名为BigGANs的生成对抗网络,该网络以大批量和数百万个参数而得名。

  值得一提的是,DVD-GAN包含两个判别器。一个是空间判别器(Spatial Discriminator:D_S),该判别器通过随机采样全分辨率帧并单独处理,以评估单个帧的内容和结构;另一个是时间判别器(Temporal Discriminator:D_T),它可以提供一个能生成动作的学习信号。

  此外,DVD-GAN还有一个单独的Transformer模块,它可以让学习信息在整合AI模型中传播。

  三、训练12至96小时即可生成视频

  研究论文表明,在经过Google第三代TPU训练了12至96个小时后,DVD-GAN可以成功地生成视频,这些视频内容包含了物体的组成和运动,以及各种复杂的纹理。

  不足的是,DVD-GAN生成的视频内容有时较为“诡异”,例如生成的物体和人形奇形怪状,甚至人体忽长忽短地变化。

  但研究人员指出,当把DVD-GAN放在UCF-101(一个包含13320个人类动作视频的较小数据集)上进行评估后,DVD-GAN生成的样本初始值最高为32.97。

  DeepMind的研究人员们希望能进一步强调在大型复杂视频数据集上训练生成模型的好处,例如Kinetics-600。

  “我们设想通过DVD-GAN在这个数据集上建立强大的基线,该基线将被用作未来建模生成领域的参考点。”研究人员表示,“尽管在不受约束的环境下持续生成逼真的视频还需要进行很多工作,但我们相信DVD-GAN是我们朝这个方向迈出的重要一步。”

  结语:用AI生成高度逼真视频的一次尝试

  不管是BigGAN还是FaceApp,以往的研究人员们在人工智能生成图像领域进行了许多具有突破性的研究,但在视频领域,除了AI换脸曾火了一把之外,并没有更多的突破性进展。

  而DeepMind的研究人员们基于BigGAN架构和Kinetics-600训练数据集开发的DVD-GAN,利用计算高效的判别器分解,扩展到时间更长、分辨率更高的视频。就目前来说,虽然这一成果还有些许不足,但这无疑是研究人员们利用AI生成高度逼真视频的一次重要尝试。

最热新游

中信证券:中国资产新叙事 科技制造大重估

  中国资产吸引力渐升,科技制造投资逻辑焕然一新。长期而言,中国前沿技术的关键突破有望重塑全球科技格局,以DeepSeek成功“出圈”为中国科技创新力量的缩影,国内投资者信心迎来重振,产业向高附加值加速转型。短期来看,恒生科技与纳指估值趋于收敛,全球资金因AI催化与美经济走弱,青睐高性价比的中国科技资产。投资逻辑从短期主题转向中长期产业深耕,科技研发从“负估值”成本转为“正估值”资产,继而引发系统性重估。DeepSeek以卓越性能、低成本和开源生态引领国内科技突破,改变全球对中国科技的预期。产业端,各行业加速AI与传统产业基础结合,解决实际问题并创造经济价值。市场端,科技制造板块春季尽显进攻性,推动资产价值重估。政策端,鼓励央国企科技制造并购,推动产业高质量发展。着眼未来,在新旧动能转换期,应把握中长期投资机遇,聚焦AI+、智能驾驶、人形机器人(20.000, 0.05, 0.25%)、低空经济、商业航天、生物制造、未来能源、半导体先进制程等科技制造领域。

  ▍中国资产吸引力提升,科技制造投资逻辑重塑。

  在外部科技封锁的严峻挑战下,中国前沿技术取得一系列关键突破,正重塑全球科技发展格局。DeepSeek成功“出圈”不仅极大提升了国内投资者的中长期风险偏好,更是对中国产业向高附加值转型升级的有力背书。伴随AI叙事持续催化叠加美国经济走弱,全球资金配置倾向正发生显著变化。中国科技资产凭借其高性价比、业绩预期上修潜力以及坚实的安全边际正成为全球资金青睐的新方向。随着AI等新技术成熟和新商业模式清晰,众多新兴产业迎来从导入期向成长期的关键跨越,推动中国科技投资逻辑从短期主题驱动向中长期产业深耕转型。在此过程中,科技研发支出也从以往的被视为“负估值”的成本项,转变为驱动增长的“正估值”资产。科技创新不仅将重构传统产业的底层运作逻辑,更有望引发组织形态、价值网络乃至社会契约的系统性变革,创造全新的产业发展机遇。

  ▍DeepSeek引领国内科技突破,推动市场风格及情绪积极转变。

  DeepSeek以优异的性能、显著下降的成本、开源生态引发“蝴蝶效应”,成为全球最热门的AI大模型,以一己之力,改变“美国AI断崖式领先”的预期,引发中国AI资产价值重估。我们认为,当前仍处于AI时代早期,以及中国科技资产重估的开端,DeepSeek将带来巨大产业影响:各行业纷纷加速垂类AI 应用探索,带来训练算力需求“脉冲式”增长,推理算力需求、大企业大模型本地部署需求亦高速成长。展望未来,预计美国仍将持续拉高AI的技术上限,中国更大的机遇在于将AI技术与传统产业基础结合,解决实际问题并创造经济价值。当前正值春季躁动窗口,科技板块以其卓越的高成长性与创新性,尽显极致进攻性。这种市场情绪与风格的转变,有望成为推动科技板块及中国底层资产价格重估的强劲动力,引领中国资产在科技制造领域开启价值重估的全新篇章。

  ▍政策赋能央国企科技并购,助力市值管理与科技强国。

  2024年以来,我国并购重组政策持续加码,各级政府纷纷加大支持力度,推动资本市场高质量发展。政策积极鼓励+产业高质量发展背景下,并购重组是满足当下政府、一级市场与二级市场利益的“最大公约数”。央国企凭借资源整合和资金优势积极参与并购重组,推动科技创新和产业升级。实证数据显示,并购重组对科技类央企市值提升具有显著正面效应,未来在政策支持和市场需求的驱动下,A股市场有望迎来新一轮并购潮,进一步推动科技强国战略的实施。

  ▍新质生产力发展提速,着眼中长期产业投资。

  我国正处于新旧动能转换期,产业升级换挡需求强烈,更应着眼于中长期维度的新兴产业突破。AI等新技术成熟和新商业模式清晰催化下,传统产业整合和新质生产力发展双双提速。结合当下国内外科技重点发展领域及我国国情,我们认为值得重点投资及关注的科技制造方向为:

  ①AI+:模型推理和成本不断优化,算力、应用及端侧发展趋势明朗;

  ②智能驾驶:预计2025年NOA加速渗透,比亚迪(396.410, 11.84, 3.08%)引领的智驾平权浪潮仍在继续;

  ③人形机器人:国内外共振的技术突破有望在2025年迎来产业奇点;

  ④低空经济:2025年政策基建加速落地,车链入局打造商业闭环;

  ⑤商业航天:2025卫星发射进入爆发期,中美星座建设竞速升级;

  ⑥生物制造:新质生产力重要一极,预计2025年迎来政策催化;

  ⑦未来能源:多种技术路径持续落地,有望多点开花;

  ⑧半导体先进制程:外部限制倒逼国内厂商积极扩产,自主可控及国产替代逻辑持续强化。

  ▍风险因素:

 

  宏观经济复苏不及预期风险;地缘政治摩擦加剧;产业政策不及预期;各行业内竞争加剧;中美冲突进一步激化;AI等核心技术发展不及预期风险;科技领域政策监管持续收紧风险;宏观经济波动导致企业IT支出不及预期风险;产业安全事故风险;企业AI应用进展不及预期等;国产替代进程不及预期;先进制程技术发展不及预期。