嗨 Yann,长久以来您一直是深度学习的领导者 谢谢你能过来和我一起来聊聊
谢谢你能邀请我过来
你已经在神经网络领域工作了很长时间了 我特别想听听你的故事, 关于你怎么开始从事人工智能 怎么开始研究神经网络?—
我一直对于 “智慧”,或者说哪里产生了人类的智慧很感兴趣 从小就对人类的演化很感兴趣
那时你应该在法国吧?
对, 是的, 当时在法国 当时我在上中学 我对科技,太空特别感兴趣 我最喜欢的电影是: 2001太空漫游 (2001 Space Odyssey) 在剧里面, 你可以看到智能机器, 空间旅行, 还有 人类演化等等这类东西, 这些都让我特别着迷 包括智能机器的概念, 我觉得真的特别吸引我 在那之后我开始学习电子工程 当我在上学的时候,在我读工程学院二年级的时候 我无意间看到了一本书, 其实是一本哲学方面的书 是关于MIT计算语言学者Noam Chomsky 和一位心理认知科学家 Jean Piaget, 来自瑞士儿童发展心理学家的辩论 这是一场关于先天和后天的争论 Chomsky 认为语言有很多先天的结构 但是Piaget认为这些很多事后天学习的 在Piaget这边他援引了一个人的说法 你知道,他们这两边的人都找了一堆人来为自己这边辩护 在Piaget这边的是来自MIT的Seymour Papert 他一直在研究第一个可以运行的感知模型 那是我还没有听过感知器, 然后我就读了那篇文章 文章中说这种感知模型是可以运转的, 这让我感觉太神奇了 所以之后我开始去几个大学的图书馆然后搜索 任何我能找到的关于感知器的文章,然后发现 大部分的文章是50年代的, 而且到60年代就中断了 找到一本由Seymour Papert一起合著的书 —
那是哪一年? —
那一年是1980年 差不多。 — 嗯, 对 — 所以我和我的数学老师做了几个项目 关于神经网络的 但是我却找不到在这个领域工作可以聊天的人 因为这个领域在那段时间已经消失了 从1980年开始, 没有人在这个领域工作
然后我做了一点探索 写了一些不同种类的模拟软件, 看了关于神经科学的书
当我完成工程学院的学习时, 我学的是芯片设计 我那时非常善于芯片设计, 所以这对我来说是很不同的体验 当我完成时,我真的想要从事这方面的研究 在那时我已经知道了最重要的问题是你怎样训练 多层的神经网络 在60年代的论文中很清楚的表明那些重要的 问题还没有被解决,也表明了他们的思想层次 我已经读多了Fukushima的neocognitron论文 是一种多层架构,与现在的很类似 我们称之为卷积神经网络,但没有真正的反向传播学习算法 在法国,我认识了一些人,他们来自一个小的独立俱乐部 他们对于他们当时称之为自动机网络的很感兴趣 他们给了我一些论文 一些功能网络的论文,现在已经不流行了 但是这是第一个有关于神经网络的记忆,而这份论文激起了 一些研究团体重新进入神经网络的兴趣在80年代早期 有大部分是物理学家和凝聚态物理学家 还有一些心理学家,但对于工程师 和电脑科学家还无法谈论神经网络 他们也让我看另一个刚刚传播出来的论文 作为预印本,标题是最佳知觉推论 这是第一份玻尔兹曼机的论文,作者是Geoff Hinton 和Terry Sejnowski 它是讨论隐藏单元的 也就是学习的一部分 多层神经网络比仅有的分类器更有效 所以我说 我必须见到这些人[笑] 因为他们只对 正确的问题感兴趣
在几年以后,在开始我的phd学习之后,我参加了 在Le Juch的一个研讨会 Terry是这个研讨会中的一位演讲者 我在那时遇见了他 —
那是80年代早期 —
是1985,1985年年初 所以我在1985年,在法国Le Juch的研讨会遇到了 Terry Sejnowski 很在那里的很多人,有早期神经网络的创始人,跳槽来的 和很多从事理论神经网络的人和相关领域的工作人员 那是个很棒的研讨会 我还遇到了一些来自贝尔实验室的人,他们最终雇佣了我 但这是我完成phD之前几年的时候 所以我告诉Terry Sejnowski 有关我从事的工作 有关一些反向传播的版本 这是正式反向传播论文提出之前 Terry那时正在做关于Net Talk的工作
这是在Rumelhart Hinton和Williams的关于反向传播论文发表之前 但它是Geoff的朋友,这样的信息传播着 所以他当时已经再尝试将这项工作用于Net Talk 但是他没有告诉我 然后他回到了US 并告诉了Geoff在法国有一些孩子也正在做着相同的事情 跟我们正在做的事情相同 [笑]几个月以后 六月,在法国有另一个会议,Geoff是主演讲者
他讲的主题是玻尔兹曼机模型 当然,他也正在进行反向传播论文
他讲完了主题 之后在他周围有50个人想与他讲话 而他对组织者讲的第一件事情是 你知道这个年轻人Yann LeCun吗? 因为他读过我正在进行的论文 用法语写的 它可以读懂法语,他也可以看那些数学 他知道什么是反向传播,所以我们一起吃了午饭 这就是我们怎么成为朋友的 —
了解 [笑]
那是因为很多团体 正在独立改造或发明类似的反向传播 对的,我们意识到 整个链式法则的想法或者最佳化控制,人们称之为连接状态 实际是反向传播发明的真正主旨 这种最佳化控制的主旨要回到60年代早期 这种观念,使用梯度下降,并且基本上使用在多个层次 是反向传播真正的特点,它出现在了不同的时间不同的场合 但是我认为 Rumelhart, Hinton, Williams的论文才是 让它普及的 —
是的,我知道了 然后几年之后,当您在贝尔实验室时 在那里您发明了众多项目之一的LeNet,也是我们在课程中讨论的 我记得之前,当我在贝尔实验室暑期实习的时候 在那里我跟 Michael Kerns和其他一些人一起工作 当时听说了您的有关工作 所以请您告诉我一些关于你AT&T的LeNet的工作
好的,实际上 我实际做的是关于卷积网络的工作,当我在博士后时, 在多伦多大学,跟着Geoffery Hinton
我开始了我的第一项实验,我在那里写代码 我做的第一项实验表明 如果你有一个非常小的数据集 我训练的数据集,几乎没有或者在当时有类似的东西 所以我用鼠标画了一些字 我有一台Amiga,一台私人电脑,那时当时最棒的电脑 我画了一些字,然后使用它们 我做了一些增强来扩充他们 后来用它们来做性能测试 我比较了全连接网络 没有共用权重的局部连接网络 然后是共享权重的网络 那基本上是ConvNet的雏形 而这对相对小的数据效果很好,可以显示你得到了 最佳的效果,没有在传统架构下有过度训练
当我在1988年10月去贝尔实验室时 我做的第一件事是放大网络 因为在我去贝尔实验室之前几个月,我们有了更快的电脑 那时我的老板 Larry Jackal,成为了部门领导 他说我们应该在你来之前,先订一台电脑 你想要什么样的电脑 我说在多伦多,这里有Sun 4 如果我能有一台,是最好的了 于是他们为我个人订了一台, 在多伦多大学整个系只有一台,对吧? 这里我可以自己用一台,对吗? 所以Larry告诉我,贝尔实验室不是以省钱出名的 [笑]
那真的很棒 他们已经在字元识别工作了一段时间了 他们有巨大的数据集叫做USDS,包含了5000个训练样本 [笑]我马上设计了一个卷积网络 然后在这个数据集上训练 得到了非常好的结果,比其他方法结果都好 他们曾经尝试过,其他人以前也尝试过 我们知道我们已经有了非常棒的东西 这是在我加入贝尔实验室三个月内发生的 所以这是第一版本的卷积网络 我们的卷积网络有跨步,但我们没有单独的降采样 和池化层 所以每个卷积实际上 很直接 这个的原因是 我们负担不起在每一个区域都做卷积 这包含了太多的计算 所以第二个版本是 有单独的卷积,池化层和降采样
我觉得这个才应该称为LeNet-1 所以我们在NIPS上发表了几篇论文 很有意思的事情是, 当我在NIPS上谈论这个论文时
当时Geoffrey Hinton就是听众之一,当我讲完回到座位上时 我就坐在他旁边, 他说:你的演讲说明了一点 那就是, 如果你做了所有明智的事情 事情就会成功 在那天之后不久 这篇论文改写了历史, 因为他被大量采纳 这个想法被广泛使用在 支票辨识上, —是的 在AT&T内部有很大使用价值, 当时 对其他外面的地方影响还没有那么大 我觉得理解这件事情的原因 对我来说有一点困难,简单的原因可能是 那时是在80年代晚期, 当时还没有互联网 我们有电邮, 有FTP, 但是却没有网络 没有两个实验室用相同的软件和硬件平台 有些人用Sun的工作站, 有些人用其他机器 有些人用个人电脑或者其他什么的 那时还没有Python, Matlab 人们写自己的代码 我花了一年半时间 我和Leon Bottou, 当他还是一个学生的时候 我们一起合作, 花了一年半时间 基本上做了一个简单的神经网络模拟器
在那个时间因为没有用Python 你需要写你自己的解释器 去控制他 我们想要我们自己的Lisp解释器 所以所有的网络模型都是用Lisp写的 用数值电脑做后端 和我们现在的很像, 可以有很多链接的单元 但是和现在我们熟悉的 像Torch, PyTorch, TensorFlow这些东西不同
我们开发了一些应用 我们和一群工程师合作
都是很聪明的人
其中有些人是理论 物理学家, 他们在贝尔实验室变成工程师
Chris Dodgers是其中一位, 他后来
在微软研究院做出了很棒的成果 还有Krieg Nolan 还有一些人, 我们共同合作 让这个技术变得实用。 —嗯 所以 我们一起开发了这个字母识别系统 这个系统整合了卷积网络和 类似我们现在说的CRF(Conditional Random Field)的技术 用来解释一串字母而不是单个 —
是的 那篇文章一部分在讲神经网络 一部分在讲原子机械 —
是的,把他们合在一起 是的,没错 所以论文的前半部分是关于卷积神经网络的 也是这个论文被最多引用的原因 但是论文的后半部分, 几乎没有人读 那部分有关于序列,判别运算 基本上是不使用正则化的结构预测 所以事实上和CRF真的很像 你知道, 就是PTCRFS的那些年 这是很成功的, 除了
我们庆祝这套系统在主流银行部署的那一天
我们和我刚才提到的那个组 一起做整个系统的工程部分 另外一部分产品组, 在另一个国家 隶属于AT&T的子部门, 叫NCR 所以 NCR就是National Cash Register公司 他们建立大型的ATM机器 大型的给银行读支票的系统 所以他们就是我们的客户 他们在使用我们的支票付款系统 然后他们把他部署到了一个银行 但是我不记得到底是哪家银行了 他们也部署了ATM机器到法国银行 这样机器就可以读你存款时的支票, 我们就在一个豪华的餐厅庆祝部署成功这件事情 就在当时公司宣布将AT&T拆散 这是在1995年发生的 AT&T宣布他会分拆成三家公司 AT&T,Lucent Technologies,和NCR 所以NCR被分拆出去,Lucent Technologies也被分出去 原来的工程团队在Lucent Technologies, 但是产品团队 当然跟着NCR
令人悲伤的事情是AT&T的律师们用他们无限的智慧 获得了专利,当时的卷积网络是有专利的 但是庆幸的是现在已经取消了 在2007年取消 [笑] 大概十年以前 他们将专利给了NCR,但是在NCR没有人真的懂得 什么是卷积网络 所以这个专利到了一群不知道他的价值的人手上 我们在不同的公司,所以我们不能开发这个技术 因为我们和工程团队在不同的公司 因为我们去了AT&T,而工程团队去了Lucent 产品团队去了NCR 所以有点令人悲伤 ,
—所以除了你的早期工作 现在的神经网络非常热门, 但是您一直持续坚持在神经网络领域 即使在神经网络很低谷的时候 那是一种什么样的感觉? —
嗯,是的 我坚持了一些,但在某些方面也没有坚持 我总是相信最终那些技术会回归到人们的视线之内 人们也会知道如何在实际中使用他们 它会是很有用的 我一直在脑子里这么想 但是在1996年,当AT&T分拆的时候 所有的在字母识别方面的工作成果 基本上也拆散了,因为部分的群组被拆开了 我被晋升为部门主管,我需要搞明白要做什么 那是因特网刚刚开始的时候,也就是1995年 我有一个想法,因特网兴起的一个大的结果是 会把我们纸质材料上的知识 带到数字世界中去 所以我开始了一个项目,叫DjVu 这个项目主要是想要压缩扫描的文档 这样一来他们就可以传播到全世界的各个地点 这个项目在一段时间都很有趣,也有了一点成功 尽管AT&T不知道这个可以用来做什么 —
是的,我记得这个 这帮助了线上论文的传播 —
是的,确实是这样 我们扫描了整个NIPS的文章,并把它们发布到网上 —我记得这件事 —为了展示这个技术如何使用 我们可以压缩高清图片到几kB的大小
所以,卷积网络 从您早期的工作开始, 到现在 几乎覆盖了计算机视觉的所有领域 并且甚至开始去进入其他领域 所以能告诉我你是如何看待整个过程的吗 —
[笑] 我可以告诉你为什么我早先就觉得这些会在未来发生 首先, 我一直相信这是会成功 深度学习这个方向需要快速的计算机 和大量的数据, 并且我一直相信 这会是以后会发生的事情 当我在贝尔实验室的时候, 我想这会是一个 持续进展的过程, 随着计算机越来越强大。 我们在贝尔实验室的时候,甚至自己设计芯片运行卷积神经网络 那时候实际上是在两个不同芯片上运行整个计算图 使得卷积网络更加高效 我当时想这应该会开始流行 而且会逐渐被重视, 然后能持续的发展下去 但是实际上, 因为大家对神经网络的兴趣 在90年代中期几乎中断, 这些并没有发生 这段6,7年的时间, 从大概1995到2002, 是神经网络的低潮期 当时,几乎没人对这个领域进行研究 事实上, 还是有一丢丢进展的 在2000年初, 有些微软的研究人员 用卷积神经网络去做汉字的识别
嗯, 就是这样的 还有些其他的少量工作, 像在法国有用这个技术做人脸识别 还有一些其他地方的,但都是很小的工作 我发现最近有一些团队 提出一些和卷积神经网络很像的想法 但是却没有发表出来, 像一些对医学图像的分析 那些人更多是在商业系统下进行 所以那些人没有把成果公之于众 我的意思是当我们有了第一个卷积神经网络的成果的时候 他们并没有意识到, 所以有一点大家在并行开发 所以这些人在这段时间内都有差不多的想法
但是我非常惊讶于从ImageNet开始 大家兴趣转变的速度之快 那是在2012年, 应该说是2012年底 在ECCV有一个很有趣的事件 在佛罗伦萨,有一个ImageNet的研讨会 大家都知道Geoffrey Hinton, Alex Krizhevsky和Ilya Sutskever大幅度领先 所以大家都在等着这个演讲 计算机视觉领域的绝大部分人完全不知道 卷积神经网络是什么东西 事实上他们听我谈过这个东西 我在2000年的CVPR上被邀请去做一个关于这个的演讲 但是大部分人没有给予很大的关注 资深的人员知道, 但是 这个领域的年轻人就不太知道这是什么了 所以当Alex Krizhevsky做演讲的时候, 他并没有解释什么是卷积网络 因为他认为每个人都知道 因为他从机器学习领域来, 所以当他说这些东西是如何连接 它是如何转换数据, 并且得到了什么结果的时候 它还是觉得每个人都知道这是什么 大量的人都觉得很震惊 并且你能看到当他在做演讲的时候,台下的人观念的转变 特别是资深的研究人员。 —
所以你觉得那场研讨会 对于计算机视觉领域是一个决定的时刻
是的 当然 是的 这就是它如何发生的
现在,你依然在纽约大学做教授 并且带领Facebook的人工智能研究院(FAIR) 我知道你一定对如何让学术研究和工业界合作 有独特的方法 你能跟我们分享下这方面的想法吗
是的, 这其中最美妙的事情在于 在我过去4年中领导Facebook人工智能研究院的过程中 我有很大的自由度,去把他建构成我觉得合适的样子 因为这是在Facebook内部第一个研究机构 Facebook是一个以工程为导向的公司 到现在为止, 他都在专注于生存和短期的事情 Facebook已经10岁了, 也有了成功的上市 并且正在思考未来的10年 我的意思是Mark在思考未来10年中 什么是最重要的事情 公司的生死已经不是一个问题了 所以这是一个转变发生的时候,一家大公司开始思考 应该说当时也不是特别大 Facebook那时候有5000人, 但是他们有这个资格去 思考未来10年, 思考什么对科技发展更加重要 Mark和他的团队觉得人工智能是 很重要的一环,对于Facebook要 “链接所有人”的这个使命来说 所有他们探索了很多方式, 去赋能人工智能 他们有一个小的内部工程团队 对卷积网络很有经验 也在人脸识别和其他方向得到了很好的结果, 这激起了他们的兴趣 所以他们探索着雇佣了一批年轻的研究人员, 也收购了公司,或者类似的事情 最终他们定下来要去雇佣在这个领域有资深经验的人 并且建立一个研究机构
刚开始确实有一点文化冲击 因为做研究的方法是与在公司中做工程完全不同的 你会思考更长的时间和更广的空间 研究人员倾向于 保守地选择所要研究的方向 我在开始就很明确的一点是,研究人员应该保持开放的态度 研究人员不仅需要鼓励将成果发表 更需要将发表作为一种要求 并且需要能被类似我们衡量学术研究的评估方式 去衡量研究成果 所以Mark和公司的CTO, Mike Schiroepfer, 也是我现在的上司 他们说,Facebook是一个开放的公司 我们贡献了很多的开源产品。
你知道,Mike Schiroepfer,我们的CTO 就是来自开源社区 他之前在Mozilla工作, 也有很多人都从那边过来。 所以这种开放是根植在公司的DNA中的,这也使得我 对于建立这个开放的研究院感到自信 另外事实上Facebook也不会 像其他公司一样对专利太过痴迷和强迫 这也使公司更利于和大学间进行合作 可以安排一些人一边身在工业界工作, 另一边也和学术界保持联系。 —你觉得这是很有价值的? 是的,当然 当你看我这4年的学术成果时 大部分的是我在纽约大学的学生的成果 嗯 因为在Facebook, 我要做很多实验室的管理,招聘, 确定研究方向,指导他们,或者其他的一些事情 但是我没有参与他们个人的研究项目, 文章上也不会有我的名字 你知道,我已经不在意文章是不是署我的名字。
所以你没有把这些琐事交给别人来干, 而是自己亲自把这些活都干了。
的确,你不再想把你自己放在前台 而是让自己隐藏在幕后 你不想让你自己和实验室的人产生竞争
我想您可能被问过很多次 但我还是希望可以让所有看到这段采访的人得到答案
你对那些想要进入人工智能这个领域的人有什么建议?
哈哈 现在和我当时刚开始的时候已经大不相同了 但是我觉得现在非常棒的事情是: 人们一定程度上可以更容易的参与进来 工具现在已经变得很容易使用,像TensorFlow,PyTorch 你可以用卧室的廉价电脑运行这些软件 并且可以训练你的卷积神经网络,循环神经网络等等 也有很多工具 你可以通过线上材料学到很多,这不会太繁重 所以你会看到高中学生现在开始学习这个 这真的很棒,我觉得这确实在 学生群体中引起了学习机器学习和人工智能的兴趣 对年轻人来说这很令人兴奋,我觉得很棒 所以我的建议是,如果你想进入这个领域, 就要让自己变得有用 比如,贡献自己的力量给开源社区 或者去实现一些网上找不到的标准算法 并把他们贡献出来让别人去使用 拿一篇你觉得很重要的文章 并去重新实现里面的算法,把他放到开源社区中去 或者去贡献某些开源项目 如果你写的东西很有趣,也有用,你就会被关注到 也许你会在一个你心仪的公司有一个好的工作 或者你会被你心水的PhD项目录取 我觉得这是一个好的开始
嗯 给开源社区做贡献是一个进入社区的好的方式, 把学到的知识回馈给别人
嗯,是这样的
多谢,Yann,这真的很棒 我已经认识你很多年了,但是当我听到你讲这些故事的细节时 我依然觉得非常吸引人
是的,有很多像这样的故事, 但当你回想时,你在当时不会意识到那一刻是多么的重要 只有当经过10年,20年后, 你才会意识到这些时刻有多么重要 嗯,谢谢 —谢谢
参考
https://www.coursera.org/learn/convolutional-neural-networks/lecture/4PnfT/yann-lecun-interview
https://en.wikipedia.org/wiki/Turing_Award
|