执游网

比AI视频换脸还可怕!DeepMind新AI可生成逼真视频

近日,DeepMind的研究人员研发了一个名叫Dual Video Discriminator GAN(DVD-GAN)的人工智能模型,该模型通过能够通过学习一系列的YouTube视频数据集,生成高度逼真且连贯的256 x 256像素视频,最长可达48帧。

  目前,DVD-GAN的研究成果已于美国时间2019年7月15日发表在arxiv上,名为《在复杂数据集上的高效视频生成(Efficient Video Generation on Complex Datasets)》。

  一、AI造假视频比造假图片更难

  最近,俄罗斯AI研究人员开发的FaceApp着实大火了一把,这款应用通过人工智能技术能够改变用户自拍照的年龄、外貌、发色和性别,甚至可以生成虚构的人物照片。这直接让人们近距离地感受了人工智能技术给我们的生活带来的乐趣。

  但是否有人想过,有朝一日这些技术也能应用在视频领域呢?

  如果说BigGAN是DeepMind在图像领域开发的能够生成高度逼真图像的图像生成器,那么DeepMind研究人员们开发的DVD-GAN,就是人工智能在视频剪辑生成领域的最新突破。

  研究人员在论文中表示,生成自然视频对生成式建模来说是一个较大的挑战,同时还会受到数据复杂性和计算需求增加的困扰。

  因此,之前业界的研究人员们在研究视频生成领域时,几乎都围绕着相对简单的数据集,或者采用有限的时间信息来降低任务的复杂程度。

  而这次,DeepMind的研究人员们主要针对视频合成和视频预测的任务,将生成图像模型的强大功能和逼真效果扩展到视频领域。

  二、DVD-GAN:基于BigGAN模型结构

  研究人员们基于BigGAN的模型结构,构建了DVD-GAN的系统,并引入了一系列用于视频生成的调整,使DVD-GAN能够在Kinetics-600上进行训练。

  Kinetics-600是一组由50万段10秒高分辨率的YouTube视频剪辑汇编而成的训练数据集,它最初是为识别人类动作而制作的,比目前其他常用的语料库还大一个数量级。

  同时,研究人员们表示,Kinetics-600具有多样化特征,能消除他们对过拟合(Overfitting)的担忧。过拟合主要是指机器学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

  另一方面,DeepMind的研究人员们利用生成对抗网络(GANs)来区分生成样本和真实世界样本,该网络主要由生成器和判别器两部分组成。

  GANs曾被应用在把文字转换成一幕幕的场景故事,或生成人造星系图像等任务中。而研究人员们这次使用的是名为BigGANs的生成对抗网络,该网络以大批量和数百万个参数而得名。

  值得一提的是,DVD-GAN包含两个判别器。一个是空间判别器(Spatial Discriminator:D_S),该判别器通过随机采样全分辨率帧并单独处理,以评估单个帧的内容和结构;另一个是时间判别器(Temporal Discriminator:D_T),它可以提供一个能生成动作的学习信号。

  此外,DVD-GAN还有一个单独的Transformer模块,它可以让学习信息在整合AI模型中传播。

  三、训练12至96小时即可生成视频

  研究论文表明,在经过Google第三代TPU训练了12至96个小时后,DVD-GAN可以成功地生成视频,这些视频内容包含了物体的组成和运动,以及各种复杂的纹理。

  不足的是,DVD-GAN生成的视频内容有时较为“诡异”,例如生成的物体和人形奇形怪状,甚至人体忽长忽短地变化。

  但研究人员指出,当把DVD-GAN放在UCF-101(一个包含13320个人类动作视频的较小数据集)上进行评估后,DVD-GAN生成的样本初始值最高为32.97。

  DeepMind的研究人员们希望能进一步强调在大型复杂视频数据集上训练生成模型的好处,例如Kinetics-600。

  “我们设想通过DVD-GAN在这个数据集上建立强大的基线,该基线将被用作未来建模生成领域的参考点。”研究人员表示,“尽管在不受约束的环境下持续生成逼真的视频还需要进行很多工作,但我们相信DVD-GAN是我们朝这个方向迈出的重要一步。”

  结语:用AI生成高度逼真视频的一次尝试

  不管是BigGAN还是FaceApp,以往的研究人员们在人工智能生成图像领域进行了许多具有突破性的研究,但在视频领域,除了AI换脸曾火了一把之外,并没有更多的突破性进展。

  而DeepMind的研究人员们基于BigGAN架构和Kinetics-600训练数据集开发的DVD-GAN,利用计算高效的判别器分解,扩展到时间更长、分辨率更高的视频。就目前来说,虽然这一成果还有些许不足,但这无疑是研究人员们利用AI生成高度逼真视频的一次重要尝试。

最热新游

黄仁勋最新表态:存储芯片供应紧张的局面将持续数年

  当地时间6月7日,英伟达CEO黄仁勋在韩国表示,存储芯片供应紧张的局面将持续数年。

  另据韩国媒体报道,黄仁勋与SK集团会长崔泰源将于周一(6月8日)宣布合作计划。黄仁勋说:“我们的合作覆盖多个领域,包括人工智能超级计算机、中央处理器、新型个人电脑以及机器人(15.870, 0.30, 1.93%)技术。此次会面就是为敲定相关规划。”

  黄仁勋:内存短缺将持续数年

  6月7日,黄仁勋时隔七个月举行“Kkanbu聚会”。他当天造访了首尔三成洞的Kkanbu炸鸡店,去年他曾在此与三星电子会长李在镕、现代汽车集团会长郑义宣共享炸鸡啤酒。此次,他与SK集团高管们共饮啤酒。

  据韩国媒体报道,黄仁勋一行与SK集团会长崔泰源、SK海力士社长郭鲁正、SK电讯社长郑载贤同席而坐。餐桌上摆放着炸鸡拼盘、凯利啤酒瓶和烧酒瓶。SK高管们手撕炸鸡,黄仁勋与他们碰杯共饮生啤。

  在店内交谈约30分钟后,黄仁勋向店外的记者分发炸鸡,崔泰源则分发SK海力士“HBM芯片”零食袋。崔泰源还为部分市民持有的半导体基板模型签名。

  黄仁勋对媒体记者表示:“我们的合作覆盖多个领域,包括人工智能超级计算机、中央处理器、新型个人电脑以及机器人技术。此次会面就是为敲定相关规划,明日或将公布具体内容。”他补充道,“托尼(崔泰源)和我是非常亲密的朋友。”

  谈及全球存储芯片短缺问题时,黄仁勋指出:“我预计这种情况还将持续数年。”他说,“整个行业供应链,从晶圆、封装到硅光模块等环节均供应不足,根源在于市场需求居高不下。这一紧缺状况还会持续数年。”

  黄仁勋与崔泰源会长并肩而坐的位置,正是去年11月他会见李在镕和郑义宣的同一地点,两人还进行了“交杯酒”仪式。

  与此同时,崔泰源将于当地时间6月8日上午8时30分在首尔钟路区瑞麟大楼与黄仁勋再次会面。SK集团相关人士透露:“这将是30分钟的会议,在私下会晤后说明英伟达与SK之间的合作方向。”

  另据NewSis报道,黄仁勋和崔泰源将于8日上午直接向媒体宣布“SK-NVIDIA”合作计划。

  谈及与李在镕的会面,黄仁勋表示:“他正在出差。”并补充道:“几周前他来加州看我,我们共进了愉快的晚餐。”黄仁勋还暗示将于8日与三星电子副会长全永铉会面,当被问及相关问题时回应:“我很期待与他见面。”

  英伟达将在韩国设立研发中心

  据外媒7日报道,英伟达将在韩国设立研发(R&D)中心,目前已开始招聘相关人才。该中心预计将成为英伟达加强与韩国人工智能(AI)技术合作的重要据点。

  据报道,英伟达未来计划与三星、SK、现代汽车、LG等韩国主要企业携手强化AI供应链,并在机器人(Robotics)和物理AI(Physical AI)领域展开合作。

  黄仁勋表示,他此行为韩国带来了“众多商业机会”这一惊喜礼物,同时首次公开了英伟达在韩国建设研发中心的计划。此前,业界曾预测,黄仁勋此次访韩可能推动英伟达在韩国建立AI相关研发中心,如今这一计划已被正式确认。

  黄仁勋表示:“我们已经开始招聘相关人才,并计划在新的园区持续扩大招聘规模。待人才储备达到一定规模后,我们将立即启动研发中心建设。”

  他指出,人工智能、机器人技术以及先进制造业环境,是英伟达决定在韩国设立研发中心的重要原因。

  6月5日,黄仁勋发布了芯片行业的重要消息:三大存储巨头——三星电子、SK海力士和美光科技均已获准供应英伟达下一代Vera Rubin平台所需的最尖端高带宽存储器。

  黄仁勋此次访问正值三星电子和SK海力士的存储芯片需求激增之际,这为韩国的经济增长提供了支撑。

  作为英伟达HBM产品的主要供应商,SK海力士上个月市值突破了1万亿美元,加入竞争对手三星电子和美国美光科技的行列。

  近日,英伟达首席财务官科莱特·克雷斯在美国银行全球技术会议上的发言中指出,随着新一代芯片的推出,英伟达认为其可触达市场(addressable market,即潜在市场规模 )有望翻倍。

  美国银行在克雷斯发表主题演讲后重申了对这家芯片制造商的“买入”评级及350美元的目标价,该目标价较周五(6月5日)收盘价有70%的上涨空间。

  美国银行的分析师维韦克·阿里亚在报告中写道,英伟达凭借其新创新获得的增长空间十分可观。他援引英伟达的预测称,每一代新系统都能显著扩大公司的可触达市场:从当前Blackwell Ultra的每吉瓦约400亿美元,到Vera Rubin和Rubin Ultra的每吉瓦600亿至800亿美元,再到Feynman的每吉瓦约1000亿美元。

 

  阿里亚指出,尽管具体数字可能存在差异,但英伟达每一代都在覆盖AI系统中更多的环节。阿里亚还将英伟达称为“多元化之王”,这得益于其同时为超大规模企业以及日益增长的AI云、工业和企业公司提供服务的混合业务结构。