《财富》近日撰文讲述深度学习的历史,探讨该技术为何能够被应用于越来越多的科技产品,忽然之间改变人们的日常生活。文章称,该领域数十年的研究成果如今正在刺激整个计算行业,不久之后将会改变美国的公司。
在过去的4年里,读者们毫无疑问都注意到了各类日常技术在质量上的巨大突破。最明显的就是,我们的智能手机上的语音识别功能比以往要出色得多。
事实上,我们正越来越多地通过语音来与我们的计算机进行交互,不管是亚马逊的Alexa、苹果的Siri、微软的Cortana还是谷歌的诸多语音响应功能。百度称,在过去的18个月里,用户在百度语音界面上的使用量增长了两倍之多。
机器翻译和其它形式的语言处理也变得有吸引力多了,谷歌、微软、Facebook和百度每个月都会发布这方面的新功能特性。谷歌翻译如今支持32对语言的句子语音翻译,以及103种语言的文本翻译,其中包括宿雾语、伊博语和祖鲁语。谷歌的Inbox邮件应用也提供三种针对诸多收到的电子邮件的现成回复。
图像识别也有不小的进展。谷歌、微软、Facebook和百度均拥有能够让你搜索或者制动整理没有识别标签的照片的技术。例如,你可以要求呈现所有有狗、雪甚至像拥有这样的抽象事物的照片。这些公司都在研发能够在很短的时间内为照片生成一句长的描述的原型产品。
试想一下,要收集狗的照片,应用必须要辨别诸如吉娃娃和德国牧羊犬的品种,在小狗颠倒过来或者有些模糊的情况下要鉴别出来,要辨别它处在照片的左侧还是右侧,还要识别各种天气状况下的小狗,如雾、大雪、晴天和阴天。与此同时,它需要排除掉与狗有点相似的狼和猫。
图像识别技术的进步远不局限于很酷的社交类应用。医疗创业公司们声称,它们不久之后将能够利用计算机阅览X光照片、MRI和CT照片,阅览的速度和准确度都将超过放射科医师;它们还将能够更早和更无创性地诊断出癌症,且能够加速救生药物的研发。更好的图像识别技术对于机器人、无人机以及无人驾驶汽车的改进至关重要。福特、特斯拉、Uber、百度和谷歌均已在上路测试无人驾驶汽车的原型。
不过,大多数人都不知道所有的这些突破从本质上说都是同一突破。它们均通过一种名为深度学习的人工智能技术来实现,不过不少科学家还是喜欢以其最初的学术名称来称呼它:深度神经网络。
神经网络最值得注意的地方是,没有人编制出计算机来执行上述的任何技术功能。事实上,没有人能够做到这一点。相反,编程人员给计算机引入学习算法,给它提供海量的数据,进而对其进行训练,让它自行理解如何去识别物体、单词或者句子。
简单来说,这种计算机有自学能力。“实质上,你是有软件自己编写软件。”图形处理领先厂商英伟达CEO黄仁勋指出。该公司于5年前开始大举押注深度学习技术。
神经网络并非新概念。该概念可追溯到1950年代,而许多重要的算法突破是出现在1980年代和1990年代。不同于当时,如今计算机科学家终于可以同时利用上强大的计算性能和海量的数据,这两点对于神经网络的良好运作必不可少。风险投资公司Andreessen Horowitz合伙人弗兰克·陈指出,“这是深度学习的寒武纪生命大爆发。”
那一巨大进展激发了大量的活动。根据市场研究公司CB Insights的数据,AI创业公司上一季度的股权融资额超过10亿美元,创下历史新高。CB Insights指出,2016年第二季度该类创业公司共计进行了121轮融资,远远高于2011年同期的21轮。2011年至2016年,该类创业公司的融资总额超过75亿美元,其中逾60亿美元来自2014年之后。
谷歌在2012年只有两项深度学习项目。但如今,据该公司的发言人称,该类项目数量已经超过1000个,覆盖谷歌旗下所有的主要产品,其中包括搜索、Android、Gmail、翻译、地图、YouTube和无人驾驶汽车。IBM的沃森系统2011年在智力竞赛节目”Jeopardy!”中击败两位人类冠军时使用的是AI技术,但不是深度学习。但现在,据沃森首席技术官罗伯·海伊称,沃森的30项成分服务几乎全都因为深度学习技术而得到了强化。
5年前还不懂深度学习为何物的风险投资者,如今会谨慎看待不具备该项技术的创业公司。弗兰克·陈说道,“我们正处在一个先进软件应用必须要开发的年代。”他说,不久后,人们会向你要求:“你的自然语音处理版本呢?我要怎么跟你的应用对话呢?因为我不想操作那些菜单。”
部分公司已经在将深度学习整合到日常的运营流程中。微软研究部门联席主管彼得·李说,“我们的销售团队正利用神经网络来建议接下来联系哪个潜在客户,以及建议推荐哪种产品。”
硬件行业正在感受到深度学习引发的震动。让这一切变得可行的计算性能提升,不仅仅因为摩尔定律,还因为2000年代末业界认识到英伟达打造的GPU比传统用于深度学习计算的CPU要高效20倍到50倍。今年8月,英伟达宣布,其数据中心业务的季度营收同比翻了一倍多,达到1.51亿美元。它的首席财务官向投资者们表示,“到目前为止,该增长大部分来自深度学习技术。”“深度学习”一词在为时83分钟的财报电话会议中共被提及81次。
芯片巨头英特尔当然也没有固步自封。在过去的两个月里,它先后收购了Nervana Systems(价格超过4亿美元)和Movidius(收购价未披露),这两家创业公司均致力于打造针对不同阶段的深度学习计算的技术。
5月,谷歌透露,一年多来它一直在秘密利用自主研发的芯片TPU来实施经过深度学习训练的应用程序。
的确,企业可能已经到了又一个拐点。百度研究首席科学家吴恩达说,“以前,很多标普500企业CEO都后悔没有早点开始思考他们的互联网战略。我想,5年后,将会有很多标普500企业CEO希望自己早早就已开始思考他们的AI战略。”
在吴恩达看来,该互联网隐喻还不足以充分表明带深度学习技术的AI将会意味着什么。“AI是新的电力。”他说,“100年前,电力改变了一个又一个的行业,AI也将如此。”
深度学习是AI子集中的一个子集。“人工智能”涵盖多种使得计算机和机器人至少看起来能够像人类那样思考和解决问题的技术,比如基于逻辑和规则的传统系统。在那一范畴内,有一名为机器学习的分类。机器学习指代一个含有各种使得计算机能够凭借经验提升任务执行能力的复杂数学技术的工具箱。最后,深度学习是机器学习下的一个小分类。
吴恩达说,可以将深度学习看作是“A到B的映射”。“你可以输入音频片段,然后输出文本记录。这就是语音识别。”他说,只要你有数据去训练软件,那什么都有可能实现。“你可以输入电子邮件,输出可能会是:这是不是垃圾邮件?”他称,输入贷款申请书,输出可能会是客户最终偿还贷款的概率。输入车队的使用模式,输出可能是建议接下来在哪里调派车辆。
从那一点来看,深度学习有可能会改变几乎任何一个行业。谷歌大脑项目负责人杰夫·迪恩指出,“随着计算机视觉变得真正可行,未来将会出现根本性的变革。”接着,他重新措辞说,“是随着计算机开眼了。”
那意味着是时候准备迎接“奇点”时刻吗?
还没有。神经网络善于识别模式——有时甚至比人类做得还要出色。但它们并不具备推理能力。
不断逼近的革命的苗头从2009年开始出现。那一年夏天,微软研究部门邀请多伦多大学的神经网络先驱杰弗里·辛顿造访。他的研究给微软留下了深刻印象,于是彼得·李领导的部门试验将神经网络应用于语音识别。“我们为试验结果感到非常震惊。”彼得·李说,“第一批的原型让我们在语音识别的准确度上取得了超过30%的提升。”
据彼得·李称,2011年,微软将深度学习技术引入商用的语音识别产品。谷歌也在2012年8月跟进。
然而,真正的转折点发生在2012年10月。在意大利佛罗伦萨举行的一个研讨会上,斯坦福AI实验室、知名的ImageNet计算机视觉比赛创办人李菲菲宣布,辛顿的两位学生发明了一种识别物体准确率几乎两倍于最接近的竞争产品的软件。辛顿回忆道,“那是令人惊叹的成绩,说服了很多很多原来持怀疑态度的人。”
攻克图像识别可谓起步抢