日报标题:计算机视觉进入瓶颈了?还大有搞头呢 周博磊,MIT博士在读, AI and Computer Vision 其实这个问题也是我近段时间一直在思考的问题. 昨天刚在组里做了个 ECCV'16 Recap, 整理一下思路, 来尝试抛砖引玉. 我的观点是:计算机视觉在人工智能和深度学习的大背景下方兴未艾. 这里进入瓶颈期的,可能是一些计算机视觉的经典问题,如物体识别和检测(人脸,行人,物体,场景 etc).但是如果能死磕这些经典问题,往往能带来质的突破,比如说对于 ImageNet 物体识别 GoogLeNet 之后,大部分人应该都不会想到还有 ResNet 这种牛逼网络的出现:).计算机视觉这个领域本身,我觉得是正在蓬勃发展, 经典问题得到了更好的解决, 新的问题也不断涌现. 如果把 Deep Learning 进入 CV 的 2012 年作为新时代的开始,我自己是从旧时代来的人.对于从旧时代过来的人,现在无疑是 CV 以及 AI 最好的时代.我自己当年是看着 Dahua Lin 的 blog,以及 @Filestorm 和 @田渊栋在 SJTU 饮水思源 AI 版的论战进入 CV 和 AI 研究圈子的(这里特别感谢三位师兄当年的分享),那时候大家讨论的东西都是 graphical model, sparse coding, bag of SIFT, spatial pyramid 啥的,也没有工作抢着放 arXiv 的传统,也没有满大街的 open source libraries. 每年 CVPR 接收的论文到现在的 1/2 都不到. 每次开会前 proceeding 放出来的时候都会沐浴更衣把大部分感兴趣的论文扫一遍. 现在的 CV 和 AI 研究其实是变得越来越扁平快了.随手可得的 open source libraries 和 pretrained models, 互联网上各种分享的学习资料和经, 便宜的 GPU 计算资源, 以及百花齐放的研究方向,都使得新入行的生猛年轻人能很快倒腾出新东西. 发表 CVPR, NIPS, AAAI 等顶会文章也不再是难事. 论文数量和研究方向也是繁多. 已经很难 follow. 现在很多时候, 我觉得做 CV 的研究更像是在拼工程能力, 而不是拼 insight 和积累了. 后来的人也许并没有多少动力和精力去学习和了解之前的经典. 这也是我担忧的地方. 但时代造人, 这些也是无可厚非的, 毕竟我们希望更多有闯劲的年轻人进入 CV 和 AI 圈子, 一起大炼钢. 争先放 arXiv, 开源 code 等无疑加速了研究的迭代速度, 有更大的可能性激发出新的研究方向和成果. 大公司们(Google, Facebook, Amazon)以及诸多 startup 们, 也都虎视眈眈地渴望着更多更好的研究工作出现. 另外, 如果硬要我说几个 CV 目前有肉容易啃的方向, 那我就大致提提(注:这些方向大致都偏纯学术,有什么商业价值我并不是怎么关心): 1. Robotics (or Simulation Graphics)+Vision. Robotics 那边的人普遍比较保守, 更执着于传统 template matching 之类的传统方法. 这里有个段子, 我们 MIT 机械工程系 robotics 方向的大牛教授 John Leonard 很久以前评论 Computer vision, 直接说你们'CVPR'里面的各种论文, 就是 Computer Vision and Precision Recall. 什么意思大家应该能理解. 不过在 deep learning 开始真正 work 的时代, 他这句话应该不太适用了(笑). 回到正题, Robitics 本身是块非常大的饼, 很多问题和方法都可以用 deep learning (CNN + Deep Reinforcement learning) 重新解决. 偏 Robotics 的话, 大家可以留意一下 Berkeley 的大红人 Sergey Levine 最近的工作(Sergey Levine). 偏 Vision 的话,可以看看 CMU 的大红人 Abinav Gupta 的 ECCV paper Curious Robot (https://arxiv.org/pdf/1604.01360v2.pdf). Jianxiong Xiao 之前主打的 3D deep learning (http://robots.princeton.edu/talks/2016_MIT/RobotPerception.pdf)也可以算在这个里面,他们团队和 MIT 团队最近搞了个 Amazon Pick challenge, 模型和方法还有点意思(MIT-Princeton Vision Dataset for the APC 2016). 不过 Xiao 已经下海经商, 不知道还会不会 actively publish. 现在各大公司和 startup 猛搞的 autonomous drive, 也可以放在这个方向之下. 最近我还留意到一个非常有潜力的方向 Simulation+Vision. 我觉得有两个具体方向,一个是利用 graphics 里面的 rendering 仿真技术,生成大量数据.这些数据因为是生成出来的,任何 ground-truth 都有,而且要多少有多少, 是获取训练数据的一个捷径.CVPR'16 有篇做 synthetic image dataset for semantic segmentation of urban scene(http://www.cv-foundation.org/openac...s/Ros_The_SYNTHIA_Dataset_CVPR_2016_paper.pdf).另外一个方向是结合 graphics 中的 simulation,利用 deep reinforcement learning 等 active learning 的算法可以无监督/弱监督训练出 agent model,这里就不仅限于纯 CV 了.DeepMind 和 OpenAI 在猛搞这个方向.偏 vision 的话大家可以参考下 Allen Institute 这篇(https://arxiv.org/pdf/1609.05143v1.pdf). 2. Generative visual models. 目前大部分的模型都是 discrminative model, 给定 input, 然后识别 label. 但这个故事的另外一半其实是 generative model, 给定 label, 然后生成图片. generative models 是一个很有潜力的大方向. 这里的最新进展一方面是基于 GAN (https://arxiv.org/pdf/1511.06434v2.pdf) 所带来的一种训练图片生成的新思路, 也包括一些基于传统 image model, 如 MRF 和 CRF 在 deep learning 的新思路下面进行重新理解. DeepMind 的这篇 PixelCNN(https://arxiv.org/pdf/1606.05328v2.pdf), 最近 Zhirong 和 Dahua 的挺不错的 ECCV 论文(http://dahua.me/papers/dhlin_deepmrf.pdf). 个人觉得 Varionational Autoencoder 也是个蛮漂亮的模型, 这里有篇关于 VAE 的最新的 tutorial 还不错(https://arxiv.org/pdf/1606.05908v2.pdf). 以后 deep learning 跟 bayesian model 的结合也会是个颇具潜力的方向. 3. Multimedia Computer Vision. 其实人的感知系统本身就是多模态的, 视频和声音共同结合.Video analysis 不再局限于 action recognition, 对内容本身有更深的理解. 比如说最近的 MoiveQA (MovieQA), Visual Anticipation prediction (http://web.mit.edu/vondrick/prediction.pdf ). 另外, sound 也是一个大家普遍忽略掉的一个东西. 大家可以看看我们组 Andrew Owen 的两个蛮有意思的工作 ECCV'16 Ambient Sound Provides Supervision for Visual Learning (https://arxiv.org/pdf/1608.07017.pdf), CVPR'16 Visually Indicated Sounds (Visually Indicated Sounds). 多模态来研究 vision 是个大趋势. 阅读原文