MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?
发布时间:2016/11/30 14:54:14来源:本站原创字体: 大 中 小
与第一作者透露,这一算法能够实现人类活动的机器识别从而摆脱人工识别的高昂费用。“这些视频展现了电脑认为将会发生的场景,”Vondrick 表示,“如果你可以预测未来,那么你必须能够理解目前发生的事情。“Vondrick、MIT 教授 Antonio Torralba 还有 Hamed Pirsiavash 教授共同发表的这一成果。Pirsiavash 教授是 CSAIL 的博士后,现于马里兰大学担任教授。这项工作将于下周在巴塞罗那召开的神经信息处理系统大会(NIPS)上展出。
MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?
MIT人工智能实验室使用深度学习算法生成预测性视频。图为沙滩、运动、火车站及医院的预测结果
MIT人工智能算法披露:我们如何用 200 万张图片预见 1.5 秒后的世界?
此项目花费了近两年的时间让算法“学习”两百万幅未加标签的视频。
动态视觉
许多计算机视觉领域的研究工作都研究过类似的课题,包括 MIT 教授 Bill Freeman。Freeman 教授近期的关于“动态视觉”的课题同样是研究对一个场景主动生成未来几帧的图像,不过他所提出的问题模型集中在解决未来视频的推断上。这是先前研究成果中未出现过的。
以往的系统模型逐帧重建场景,通常会在边缘有较大误差。与此相反,这项研究攻克了“建立整个场景”的难题,算法从一开始就能产生帧率为 32 的视频。
“逐帧建立场景就像玩 Telephone Game 一样(Telephone Game 是什么?传送门:http://icebreakerideas.com/telephone-game/),在屋里转一圈后信息便已经大相径庭了。”Vondrick 说道,“一次性地处理一整个场景,就好比这个游戏中你能将消息传给所有人一样。”
当然,在同时生产所有场景时会有一些权衡,并且针对长视频,计算机模型也是非常复杂的,但这一结果在逐渐变得准确。这种精准的预测相对于增加的复杂度是非常值得的。为了建立多帧场景,研究工作者训练计算机来区分前景和背景。而后将提取的对象放回视频中再训练,哪个部分是静止的,哪个部分是运动的。
研究团队使用称作“adversarial learning”的深度学习算法,该方法训练两个竞争神经网络。其中一个神经网络生成视频,另一个作为检测器寻找生成视频与原视频的不同。
更多深圳网站维护,深圳网站托管,深圳
网站建设,深圳网站推广知识点击首页
返回