[人工智能] 论文被引上千次，GitHub 开源6000星，他们是首届字节跳动奖学金获奖者

是谁在学生时期就完成了被引次数上千的论文？

是谁的人生第一篇论文就能拿到顶会 Best Paper?

是谁在 gap year 里完成了 GitHub 6000+ star 的开源项目？

他们都来自首届「字节跳动奖学金计划」，是那些拿下 10 万奖学金的获奖者们。他们聚焦于 AI 攻防、推荐算法、存储系统、计算机图形学等多个领域，完成了具有实际应用价值的创新。

现在，第二届「字节跳动奖学金计划」报名已启动，我们在这里与大家分享此前 9 位获奖者的研究成果，希望更多同学能踊跃报名，与他们一起，通过技术创造更多价值。

??董胤蓬：

AI 攻防研究者，

单篇论文被引用超 1300 次?

清华博士董胤蓬今年正式毕业后，已经是一名博士后了。此前，他在 CVPR 2018 发表的一作论文 “Boosting Adversarial Attacks with Momentum”有超过 1300 次被引用。

董胤蓬主要做深度学习的对抗鲁棒性研究，也就是 AI 攻防，是人工智能领域黑客和安全工作者们斗智斗勇的工作。比如在图像识别领域，只要在被识别的图片上动动手脚、加加噪声，创造一些人眼难以分辨的对抗样本，识别模型就可能被欺骗。因此，模拟攻击者行为、对抗这类攻击的研究至关重要。

本科时期，董胤蓬就开始了在黑盒场景下进行 AI 攻防的研究。一般情况下，如果攻击者对被攻击的模型了如指掌，就是白盒场景，攻击就会更容易成功。但黑盒场景下，攻击者对模型一无所知，攻破难度也就更高。

董胤蓬用一种新的基于动量的攻击算法生成对抗样本，在知名 AI 顶会 NIPS 2017 的对抗攻防比赛中，带领团队拿下了两个攻击赛道的第一名，成功让攻击黑盒场景的成功率翻倍，也证实了现有的一些 AI 模型并非足够安全可靠。他所创造的新算法，也成为了日后学术界研究 AI 攻防的课题之一。后来，这篇论文也在 2019 年被选为了当年的 VALSE 年度杰出学生论文。

类似的成果还有很多，比如他的一篇 CVPR Oral 一作论文就实现了在黑盒攻击的场景下，对当时最好的 8 个防御模型 82% 的攻击成功率，也曾经拿到过 BMVC 2017 的最佳论文提名，还屡屡在各类攻防夺旗赛中夺得好成绩。

董胤蓬也希望把这套 AI 攻防技术进行落地：“对抗攻防领域在落地上也有非常多的场景，国内做攻防落地的人相对来说少一些。我希望能把我之前的研究工作真正地去做一些落地的应用，让它变得更加实际并在工业界取得一定成果。”

??陈冲：

聚焦提升神经网络推荐系统实用性，

让机器学习训练提速

清华大学博士生陈冲一直致力于大数据分析领域中智能信息获取技术的研究和应用，以提升神经网络推荐系统的准确度、高效性和可解释性等。

所谓「高效性」，就是如何让模型从数据中快速学习，更快的训练模型。陈冲说，他在读博二时发现，很多模型体积巨大，训练很慢，跟不上工业界落地应用的速度。这让他意识到：提升深度学习的高效性，才能让算法真正应用起来。

从只有正样例的数据（positive-only data）中学习是广泛意义上大多数机器学习模型的一个基本操作。然而常用的负样本采样策略由于其随机性和采样比例的影响，往往使得模型训练不够稳定。针对此基础问题，陈冲通过严谨的数学推理，对机器学习算法底层理论基础进行了创新，将从整体数据中学习的时间复杂度降低了一个数量级。提高了深度网络的学习效率和训练的容易程度，突破了长期以来依赖“采样”的方式训练神经网络推荐模型的瓶颈。成功使用“非采样”获得比传统“采样”方式更快更精准的模型参数学习，从而极大地提高了神经网络模型的实用性能。

罗格斯大学助理教授张永锋这样评价这个算法：“他的研究不是简单地跟随已有的工作，而是提出了一套新的研究框架，对之后深度学习和个性化推荐的研究起着引领和促进作用。”

另外，基于所设计的高效非采样学习算法，针对推荐系统不同应用场景的数据特点，陈冲也研究了如何高效且精细化建模结合异质交互行为（社交网络、多类型交互行为）与内容信息（特征信息、知识图谱）的神经网络推荐系统模型。所提出的模型在多个现实数据集上相比已有基准方法，在模型表现和训练效率上均取得了显著的提升效果。这一系列研究已经让他在 SIGIR、WWW、AAAI 等顶会上发表了多篇一作论文。

在此之外，陈冲也研究了深度学习的可解释性。陈冲以第一作者在 WWW 2018 上发表的关于可解释算法的论文是第一个提出将“评论级”解释应用到用户结果展示中的研究，成为可解释性推荐方法研究的里程碑，得到了研究学者们的广泛认可，在 Google 学术上有超过 350 个引用（入选 WWW 2018最有影响力论文列表），吸引了大量国内外研究者开展后续探索。

??王维埙：

用多智能体改变游戏与广告，

人生第一篇论文拿下 Best Paper

天津大学博士生王维埙研究的是多智能体强化学习，这类技术常常被应用在游戏 AI 中。游戏中的 AI 和人类玩家一样，需要彼此合作才能获得胜利，每个 AI 角色也就是一个智能体，可以使用强化学习的方式，让他们学会配合、提高游戏水平。

目前，王维埙已经在游戏产业落地了这一技术。根据多智能体之间会互相交互并产生影响的特点，他引入了动作交互的归纳偏置来设计神经网络的结构，并发表了一篇 ICLR 2020 论文。在一次实习中，王维埙正是使用这项技术让游戏 AI 提升了放技能的水平，能够把加血、攻击、控制这些技能释放到更合适的目标上。

除了游戏之外，多智能体强化学习也被王维埙用在了广告投放中。在一家电商公司实习时，王维埙受到了一个问题的困扰：在商品信息流中，有系统自动推荐给用户的商品，也有广告推荐给用户的商品，两类不同商品的出现次数和位置是固定的，用户体验并不好，平台收入也有影响。于是他将多智能体的技术用在了商品推荐上，用新的算法使两类商品的出现更灵活，并提升了平台的 GMV 。这项改进后来也被他发表在了 CIKM 2019 上。

本科时期，他作为较早学习深度强化学习的研究者，阅读了大量教材和资料，并把这些内容整理在了 GitHub 上，这一项目现已获得超过 1600 颗星。

当他在多智能体领域小有积累后，直接将这一前沿技术用在了自己的本科毕设里，研究多智能体在囚徒困境下的序列决策。后来，王维埙将这一课题不断拓展优化，写出了人生中第一篇学术论文“Achieving Cooperation Through Deep Multiagent Reinforcement Learning in Sequential Prisoner's Dilemmas”，并中选DAI 2019 最佳论文。

??廖晓坚：

存储系统创新者，

提升 MySQL 数据库应用性能最高达 80%

清华博士生廖晓坚研究的是存储系统。因为本科时尝试过开发 App，廖晓坚对这些移动应用的底层系统产生了浓厚的兴趣，决定进一步深入研究，选择了操作系统中的存储系统作为自己的博士研究方向。

他的主要成果是一种名为 HORAE 的 I/O 栈，解决的是存储系统中存储顺序维护这一经典难题。一般来说，传统I/O栈为了保证存储顺序需要付出高昂的性能代价，使得软件难以充分利用新型存储设备的高性能，并极大限制了应用存取数据的速率。HORAE 将存储顺序从传统 I/O 栈中分离，并使用单独的控制路径保证，这种数控分离的方法使得软件能充分利用硬件的高性能。

HORAE 使得数据能被并行地发送到设备上，提升了数据存取速率：在保证存储一致性的同时，利用单 CPU 核心能将 3 块英特尔的高性能 SSD 的带宽用满。HORAE 不仅能提升数据库应用 MySQL 高达 80% 的性能，还能将分布式存储引擎 BlueStore 的吞吐率提升至多 1 倍。

这种新型 I/O 栈已被操作系统领域顶会 OSDI 2020 高分录用，其中还有匿名审稿人给出了满分 5 分的评价，意味着认可这是操作系统领域该年度顶尖的研究成果。

HORAE 现在已经申请专利，并向工业界授权使用。廖晓坚说，如果该技术最终得到落地，可以让计算机系统的存储更流畅、更迅速，并能减少用户使用中的卡顿现象。

??任意：

主流语音合成模型 FastSpeech 系列提出者

浙江大学的硕士生任意是 FastSpeech 系列语音合成模型的提出者，他一直在研究语音合成、机器翻译、自动作曲等相关领域，硕士期间他发表顶会论文 30 余篇，其中一作就有 10 篇，总引用数过千。

FastSpeech 系列已有超过 700 次被引用，被应用在了多个知名开源项目中。相比经典的 Transformer TTS，2019 年在 NeurIPS 上发表的这个模型让语音合成的速度提高了 38 倍，而两年后发表在 ICLR 2021 上的 FastSpeech 2 则让训练流程变得更加简单和稳定，且让语音合成的质量更进一步。如今，FastSpeech 系列工作已成为目前业界和学界颇为流行的语音合成模型之一。他最新的工作 PortaSpeech 发表在 NeurIPS 2021 上，与该工作一同开源的语音框架 NATSpeech 也已经在 GitHub 上获得了 600+ 颗星。

在科研和开源贡献之外，任意还曾经在 4 家科技公司实习，这让他获得了非常高的工程能力：“软件工程就像搭建一座大桥，每一行代码的稳定性和可靠都至关重要。通过实习，我的工程能力和软件架构设计能力获得较大的提升，我相信工程方向的实习给我后面的科研带来了巨大的帮助。”

??倪星宇：

计算机&物理学交叉学科研究者，

大四高分发表 SIGGRAPH 一作

北京大学博士生倪星宇是一位拥有计算机和物理学交叉学科背景的研究者，专注于计算机图形学的物理模拟，近来研究了如何将磁现象在计算机虚拟环境中仿真出来。

早在大四时，他就已经针对这一课题在计算机图形学顶级会议 SIGGRAPH 上以五位审稿人一致高分的成绩发表了一篇一作论文。

物理仿真也就是如何让计算机虚拟环境中的物体和真实世界一样，受到真实世界中的重力、摩擦力等物理量的影响。这其中也包含对电磁力的模拟仿真，比如航天失重环境下的燃料运输、医疗领域的微型机器人等，都是靠电磁力驱动的，因为在真实环境中实验的成本高、代价大，所以仿真环境对这些领域的发明创造至关重要。

这一领域的研究者需要既懂计算机又懂物理学。倪星宇在高中时参加了这两个科目的竞赛，还是 NOI 2015 金牌得主，入选了当年的国家集训队，后来成为北京大学第一届图灵班的本科生。此外他也攻读了物理双学位，因此得以选择两者结合的计算机图形学物理模拟作为自己的科研方向。

从大三开始，倪星宇就投入了对铁磁流体模拟的研究，尝试用网格来模拟物质，随后拓展到模拟更多的磁性现象和磁性物质上。目前已经在这一方向发表了 3 篇顶会论文。

导师陈宝权教授说，倪星宇几乎独立地提出了一个新颖的研究问题并给出了解决问题的主要思路，做出了精美的代码实现，独立研究能力很强。

??覃立波：

任务型对话系统的探索者

覃立波是哈尔滨工业大学社会计算与信息检索研究中心的博士生，师从车万翔教授，研究方向为任务型对话系统。

我们常常在一些联系在线客服的过程中用到任务型对话系统，比如查询手机话费流量、咨询网购商品和订单信息等等。然而，借助深度学习创造这样的系统需要大量的、被专门标注过的语料数据，这往往在真实场景中难以获得，因此如何利用有限的数据提升任务型对话系统的性能成为一个重要的研究课题。

覃立波从博士一年级起开始研究这个问题，为了缓解数据集不足的问题，他的研究方向主要以迁移学习为主，系统地在任务型对话系统不同应用中探索了跨任务迁移、跨领域迁移和跨语言迁移。

在跨任务迁移探索中，他探索了口语语言理解任务，创新性地将意图识别输出信息进行指导槽位填充，并提出单词级别的意图识别框架，进一步提升了口语语言理解任务之间的跨任务迁移。

在跨语言迁移探索中，他提出基于编码转换的跨语言对齐框架，仅仅通过在生成编码转换数据微调就能大幅度提高跨语言预训练模型的性能，被 GEM Benchmark 社区邀请贡献核心代码。

在跨领域迁移探索中，他提出基于动态聚合网络的跨领域端到端任务型对话系统，可以极大缓解领域数据不足的问题。

??方浩树：

GitHub 6000 星人体姿态估计算法作者，

用不一样的思路研究机器人

AlphaPose 是学界都不陌生的人体姿态估计算法，奖学金获奖者方浩树和他的同学李杰锋正是这一开源算法的两位核心作者。

2017 年，当方浩树以第一作者的身份将一篇名为“RMPE: Regional Multi-person Pose Estimation”的论文发表在计算机视觉顶会 ICCV 上之后，与之相关的算法 AlphaPose 便被开源在了 GitHub 上。

时至今日，AlphaPose 已经收获了超过 6100 颗星，被 MXNet 的 GluonCV 纳入官方人体姿态估计库，已经应用在了许多家公司的产品上，而当年那篇 ICCV 的论文被引用量也超过了 1100。

这样的成就其实是方浩树在上海交通大学读本科期间 gap 两年的成果，他一边继续在学校的科研，一边去了 UCLA 访问，而后在国内许多家 AI 公司实习，做语义分割、物体抓取等方向的研究。

本科毕业后，方浩树拿到了 UCLA 和 CMU 的 offer，考虑到方向的匹配性，他留在了上海交大，成为了吴文俊人工智能荣誉博士班的首届学生。

现在，方浩树专注于机器人研究中的机器人通用物体抓取。

此前，如果想让机器人用一只夹子形状的「手」来夹取物品，主流的方法是采用视觉技术，先在空间离散采样，再每个分别判断。但方浩树觉得这种方法太慢了，“人类抓东西从来不需要这么复杂，应该把物品所在的整个空间，甚至整个时空作为一体来考虑这个问题。”

于是，他想到了「时空域连续」抓取算法，完成了 GraspNet 这个拥有超过 10 亿抓取标签的数据集。现在在他所在的实验室团队里，机器的夹取准确率已经超过了人类，达到了 95% 以上。

“有了这种新的方法，机器人不需要每次进入一个新环境就要做大量重复训练，能更方便地用在不同场景里。夹取这种通用能力是机器人迈向更智能化的工业的基础，也是实现我最终的目标——让机器人进入服务业、进入家庭的基础。”

??范智昊：

从数学系半路出家做 NLP，

研究视觉文本跨模态表征

来自复旦大学的范智昊专注于 NLP 领域，已经在 ACL、NAACL、COLING 和 IJCAI 等多个顶会上发表过一作论文。

他的主要研究方向是视觉和文本的跨模态表征——也就是如何自动匹配图片的的内容和文本的表达，可以是「看图说话」，根据图片生成匹配的文字；也可以是图片文本搜索，找到匹配特定文字的图片。

不过，这位 NLP 研究者最初的专业却是数学。在高中时，通过数学竞赛，他被复旦大学数学系录取。但因为本科时认识了研究计算机领域的好友，范智昊也开始对计算机相关领域燃起了热情。

2016 年，复旦大学成立了大数据学院，想要对学生在数学、统计和计算机的交叉方向上进行培养，正在读大三的他决定转到大数据学院。后来，范智昊在听了魏忠钰老师的讲座和课程之后，加入了他的课题组。本科毕业后也留在了大数据学院硕博连读，跟着魏老师继续学习。

范智昊也在微软亚洲研究院和香港中文大学进行了很多实践的研究。在亚研院，他跟随宫叶云老师参与了 Transformer 的改进，在各种生成任务上取得了不错的提升。

在经过这些积累之后，范智昊将研究方向转移到多模态和 Transformer 大模型的结合上，后续的研究成果也发表在各个会议上。

第二届「字节跳动奖学金计划」现已开启，项目申请将于 6 月 10 日截止。

奖学金计划为每位得主提供 10 万元人民币的科研资助基金，旨在帮助具有创新精神的科技人才用专业知识解决实际难题，用技术回馈社会、引领未来。