AI这个词是在1955年由达特茅斯大学的数学教授John McCarthy提出的,他在次年组织了这个主题的开创性会议。从那以后,或许是由于这个令人回味名字的原因,这个领域的发展远远超过了人们的想象。1957年,经济学家 Herbert Simon 预言计算机将在10年内击败人类(实际上花了40年)。1967年,认知科学家Marvin Minsky说,“在一代人的时间内,人工智能的问题将得到极大的解决。” Simon和Minsky都是智力巨人,但显然他们都错了。
我们先来看看AI已经在做什么,以及这个领域的进展有多快。最大的进展来自于两大领域:感知(perception)和认知(cognition)。在前一类中,最前沿的进展大部分是和语音相关的。语音识别还没有达到完美,但现在有数百万人已经在使用它们了——想想Siri、Alexa和Google Assistant。你现在正在阅读的这篇文章最初是由我们口述给计算机的,已经比我们自己打字更快了。斯坦福大学计算机科学家James Landay和他的同事进行的一项研究发现,语音识别的速度大约是手机上打字速度的三倍。语音识别的错误率已经从过去的8.5%,下降到4.9%了。令人惊讶的是,这种实质性的进步并非在过去10年,而是从2016年夏天开始。
图像识别领域的进展也让人惊叹。你可能已经注意到,Facebook和其他app现在已经能从你上传的图片中识别出你的朋友,并提示你用他们的名字来标记他们。在你的智能手机上运行的app可以识别任何野生鸟类。图像识别甚至取代了公司门禁卡。自动驾驶汽车中所使用的视觉系统,在识别一个行人的时候,通常会在30帧中出现一次错误(在这些系统中,相机记录大约每秒30帧);而现在,它们的错误频率要少于1千万帧。ImageNet这个大型数据库中识别图像的错误率,已经从2010年的30%下降到了2016年的4%。
近年来,随着大规模深度神经网络的使用,AI领域的进展日新月异。当然,目前基于机器学习的视觉系统还远远没有完美无缺——但即使是人也不是无所不能的嘛。
AI领域第二类的主要进步是集中在认知和问题解决方向。机器已经打败了最优秀的(人类)扑克玩家和围棋选手——虽然原来专家们预测至少还要再过十年。谷歌的DeepMind团队使用了机器学习系统来提高数据中心的冷却效率提升了15%。像Paypal这样注重网络安全的公司也正在用AI来检测恶意软件。由IBM技术支撑的系统使得新加坡一家保险公司的索赔过程进入了自动化。数十家公司正在使用机器学习来帮助进行金融交易决策,而且越来越多的信贷决定是在AI帮助下做出的。亚马逊采用机器学习来优化库存,并提升给客户的产品推荐。Infinite Analytics公司开发了一个机器学习系统来预测用户是否会点击某个特定的广告,为一家全球消费包装产品公司的在线广告位置进行了优化。另一个开发的系统帮助巴西的一家在线零售商改进客户的搜索和发现过程。第一个系统将广告的ROI提升了三倍,而第二个系统使得年收入增加了1.25亿美元。
机器学习系统不仅在许多应用中取代了旧有的算法,而且在许多曾经被人类做得最好的任务上也占尽先机。尽管这些系统并不完美,但它们的错误率已经表现比人类更好了。语音识别,即使在嘈杂的环境中,现在也几乎等同于人类的表现。这为改变人们的工作和经济带来了巨大的新可能性。一旦基于AI的系统在给定的任务中超过人类的表现,它们就更有可能迅速传播。例如,Aptonomy和Sanbot,这两家分别是无人机和机器人的制造商,他们正在使用改进的视觉系统来自动化大部分保安人员的工作。软件公司Affectiva使用它们来识别诸如快乐、惊讶和焦点小组的愤怒等情绪。Enlitic是几家利用AI来识别医疗影像,进而帮助诊断癌症的深度学习的初创公司之一。
这些成果都令人印象深刻,但是基于AI的系统的适用性仍然相当狭窄。例如,既然AI在拥有数百万图片的ImageNet数据库上表现出色,也并不总能在现实环境中取得同样的成功。因为在现实世界里,光线条件、角度、图像分辨率和背景可能会非常不同。更重要的是,如果人类完成了一项任务,我们会很自然地假设此人在相关任务中具有一定的能力。但是,机器学习系统是被训练来完成特定的任务,因此通常他们的知识不会泛化。我们离那些能在不同领域展现通用智力的机器还非常遥远。