深度学习复兴：向人工智能迈进

2014年01月14日作者：张冬冬来源：中国科学报

利用海量数据识别图像和语音 深度学习复兴：向人工智能迈进

它是未来的一部分，我们才刚刚开始。

图片来源：BRUCE ROLFF

3年前，美国加利福尼亚州山景城神秘的谷歌X实验室的研究人员从YouTube视频中提取了1000万个静态图像，并将其输入“谷歌大脑”——由1000台计算机构成的网络，从而试图像一个蹒跚学步的孩子一样吸收这个世界的信息。经过3天寻找重复出现的模式后，谷歌大脑凭自身判断，它可以识别一些特定的重复类别：人类面孔和人类身体，甚至是猫。

谷歌大脑发现互联网上到处都是关于猫的视频，这还曾引起一连串的笑话。不过，谷歌大脑是深度学习复兴的一个里程碑。深度学习是一项有着30年历史的技术，其中大量数据和强大的处理能力帮助计算机破解那些人类几乎可以凭直觉就可解决的难题——从识别人脸到理解语言。

深度学习本身是对神经网络这个更老的想法的复兴。这些系统的灵感大多来自于大脑中紧密连接的神经元，通过改变模拟神经连接的强度来模拟人脑学习。谷歌大脑拥有约100万个模拟神经元和10亿个模拟连接，比之前任何深度神经网络强度都要高10倍。该项目建立者Andrew Ng目前是加州斯坦福大学人工智能实验室的负责人，他的开发已经使深度学习系统的强度又提高了10倍。

人工智能（AI）领域取得的这些激动人心的进步试图让电脑像人类一样思考。纽约大学数据科学中心主任、深度学习领域先驱Yann LeCun说：“人工智能已经失败了无数次，其间只有少许的进步。如今它实现了一次超越。”

“在未来几年，我们将看到一种疯狂的情况：很多人会跟随深度学习的潮流。”加州大学伯克利分校从事图像识别研究的Jitendra Malik表示同意。但是从长远看，深度学习并不占上风，一些研究人员正在寻求其他有前景的技术。“我是不可知论者。”Malik说，“随着时间的推移，人们会决定不同领域的最佳技术。”

初出茅庐

Malik称，初期的深度学习程序并不比其他更简单的系统有更好的表现。另外，它们还很难处理。“神经网络管理一直是一种精妙的艺术，其中有一些黑魔法。”该网络需要从丰富的事例来源中进行学习，就像一个婴儿从世界收集信息一样。在20世纪八九十年代，并没有太多可用的数字信息，而且计算机消化这些存在的信息需要很长时间。当时的相关应用很少，LeCun开发的技术是为数不多的应用之一，现在还被银行用于读取手写支票。

然而到了21世纪，像LeCun和其前任主管、加拿大多伦多大学计算机科学家Geoffrey Hinton这样的提倡者确信，计算能力的提高和数字数据的爆炸意味着是时候重新推动这一技术了。Hinton现在的学生George Dahl说：“我们想向世界展示，这些深度神经网络真的很有用，并能提供真正的帮助。”

在开始时，Hinton、Dahl和其他一些人解决了语音识别中对商业应用很重要的一些难题。2009年，研究人员报告称，通过典型数据集的练习，他们的深度学习神经网络已经打破了将口语转化为文本的精度纪录。

巨大飞跃

当谷歌在其安卓系统的智能手机操作系统中采用基于深度学习的语音识别技术时，它的文字错误率下降了25%。“人们本来期待在10年后才能达到这种下降程度。”Hinton表示，“这相当于实现了10项突破。”

同时，Ng说服谷歌，让自己使用其数据和计算机，谷歌大脑由此产生。该项目指认猫的能力是对无监督学习的有力证明，无监督学习是最困难的学习任务，因为其输入中不包含任何像名字、标题或者类别等解释性信息。不过Ng很快就遇到了麻烦，谷歌公司之外很少有研究人员拥有进行深度学习研究的设备。因此Ng在回到斯坦福大学后，开始使用图像处理单元（GPUs）研发更大、更便宜的深度学习网络。Ng说：“使用价值约10万美元的硬件，我们可以用64个GPUs建立一个有着110亿个连接的网络。”

胜利之后

不过，要想说服计算机视觉领域的科学家还需要更多努力：他们希望看到标准测试中的收获。Malik认为，在国际知名的ImageNet竞赛中取得胜利将会达到理想的结果。

在该竞赛中，各团队基于大约含有100万个图像、属于同类别的一个数据集开发计算机项目。2012年，Hinton的实验室成为首个使用深度学习的竞争者，其错误率只有15%。这一次的胜利使Hinton在谷歌获得了兼职工作，而2013年5月，谷歌公司使用该程序更新了其图像搜索软件。

Malik被说服了。他说：“在科学上，你必须接受经验证据，而这正是明显的证据。”之后，他使用该技术在另一个视觉识别比赛中打破了纪录。很多其他团队也跟随这一趋势，2013年，ImageNet比赛的参与团队都使用了深度学习技术。

随着深度学习技术在图像和语音识别方面取得胜利，人们越来越有兴趣将其应用于自然语言理解（例如，充分理解人类话语来改述或者回答问题）或者翻译语言。同样，这些工作目前可以通过使用手工编码规则和对已知文本的统计分析来实现，例如谷歌翻译。众包专家Luis von Ahn说：“深度学习技术将有机会比现在使用的技术做得更好。”他的公司Duolingo位于宾夕法尼亚州匹兹堡市，依赖于人，而不是计算机进行文本翻译。“每个人都认为，是时候尝试一些不同的东西了。”

与此同时，深度学习技术被证明可用于完成各种科学任务。2012年，默克制药公司为那些可以帮助预测有用候选药物的最佳项目提供了奖金。Dahl和同事使用深度学习系统赢得了2.2万美元。

尽管深度学习技术取得了不少成功，但它仍处于起步阶段。“它是未来的一部分。”Dahl称，“我们才刚刚开始。”（张冬冬）

《中国科学报》 (2014-01-14 第3版国际)

更多阅读

《自然》相关报道（英文）