人工沟通与法:算法如何生产社会智能
上QQ阅读APP看书,第一时间看更新

算法学到什么

如果与学习型算法的互动是沟通,我们正在处理一种人工沟通的形式。笔者在这里所说的“人工”不只是指由某人进行的沟通,因为从这个意义上说,所有沟通都是人工的。显然,许多沟通都涉及制造实体:行动者网络理论(ANT)的社会技术设备;CALLON M. The Role of Hybrid Communities and Socio-Technical Arrangements in the Participatory Design [J]. Journal of the Centre for Information Studies, 2004, 5(3): 3-10.当涉及一个实体(算法)时,该沟通就是人工的,该算法是由不参与沟通的人构建和编程来充当沟通伙伴的,这是与人工伙伴的沟通。所有社会对象都是建构的,因此不是自然的,但这并不意味着在使用它们时人们会进行沟通。人们不会通过了解开瓶器的工作原理来与开瓶器的制造者进行沟通,也不会与开瓶器本身进行沟通。ECO U. Ci sono delle cose che non si possono dire: Di un realismo negativo [J]. Alfabeta, 2012, 2(17): 22-25.人们可以通过对象进行沟通,例如艺术作品或设计作品,当然还有书籍——但随后是与作者沟通。对象是人工的,而不是沟通。

更认真地考虑人工沟通可以帮助我们探索算法学习的神秘能力。最近使用大数据的算法可以学习识别以前从未遇到过的图像,就未知话题进行对话,分析医疗数据并制定诊断,以及预测用户的行为、推理和意愿。基于这些能力,我们可以(或很快能够)自动驾驶汽车,将在线电话从一种语言实时翻译成另一种语言,并使用数字助理在任何特定时刻传递我们需要的信息。但是学习型算法学到了什么?又是谁教会了它们?

自学习算法显然可以自学习。无论是有监督的、半监督的还是无监督的,学习型算法都会自主决定如何学习和学习什么。它们能够使用数据来学习它们尚未经专门编程的功能。需要通过监督或强化来引导学习过程朝着有用的结果方向发展或选择有意义的结果。机器学习的方法非常普遍:算法可以用来解决广泛的问题,从下围棋到控制冷却系统的参数,以提高燃油效率。TAYLOR P. The Concept of Cat Face [J]. London Review of Books, 2016, 38(16): 30-32.它们的程序员只设计一组程序,应该允许机器以开发自己的方式来完成任务,甚至(在无监督学习的情况下)来确定自己的任务、在数据中查找结构,例如分组或集群。程序员不知道机器在学习什么,而是教它自主学习。

这不是一件容易的事,特别是如果它是一个明确的目标。卡内基梅隆大学训练有素的机器人研究员迈克尔·华纳声称,在许多情况下,你这样做是“因为你并不真正了解系统应该做什么。”最聪明、最可爱的人工智能机器人。程序员给出指示,学习者会按照自己的方式使用,然后看结果是否令人满意。例如,当一个学习型算法被期望去学习玩游戏时,程序员不会教它动作,甚至游戏规则,机器经过多次尝试后,程序员会告诉它游戏的结果是赢还是输。学习型算法使用这些“强化”,以自己的方式计算一个评估函数,该函数指示应采取哪些行动——无需做出预测、制定游戏策略、“思考”,也无需想象对手的观点。强化可以来自程序员,但最近在线运行的算法开始定期从网络直接接收参考用户参与的强化。在与用户的互动中,学习型算法可以从人们的行为中收集到很多强化信息——人们可能会如何反应,以及他们是否接受算法的提议或继续搜索。通过其在线拼写检查的自动更正功能,可以再次在谷歌中找到最清晰的示例之一。常见的问题例如你的意思是什么?该算法针对用户,并优先服务于生产强化。没有人知道什么机器学习了,或者它是如何学习的,但这些机器却有惊人的表现,例如击败了国际象棋或围棋冠军。正如谷歌为下围棋而构建的计算系统阿尔法狗的程序员所言:“我们的目标是击败最优秀的人类棋手,而不只是模仿他们。”SLIVER D., HASSABIS D. AlphaGo: Mastering the Ancient Game of Go with Machine Learning [EB/OL]. [2016-01-27]. https://research.googleblog.com/2016/01/alphago-mastering-ancient-game-of-go.htm.

阿尔法狗学会了成为一名出色的围棋选手,并击败了世界上最好的棋手。为此,它没有学会像人类玩家那样(或更好地)玩游戏。事实上,该算法并没有学习围棋——它学会了参与围棋,利用其他参与者的动作来开发和改进自己的动作。阿尔法狗最初是使用来自服务器的数据进行训练的,该服务器允许人们在互联网上相互对战。玩家都是业余爱好者,他们的技能相当粗糙,但程序通过与自己进行数百万场比赛极大地提升了这些技能。阿尔法狗和其他以游戏为导向的算法通过自我对弈来学习,通过反复试验的过程来完善它们的技能。SCHOLKOPF B. Learning to See and Act [J]. Nature, 2015(518): 486-487; Bellemare, Alex Graves, Martin Riedmiller, et al. Human——Level Control through Deep Reinforcement Learning [J]. Nature, 2015(518): 529-533.系统“不仅从人类的动作中学习,而且从自身的多个版本生成的动作中学习。”METZ C. How Googles AI Viewed the Move No Human Could Understand [EB/OL]. [2016-03-14]. https://www.wired.com/2016/03/googles-ai-viewed-move-no-human-understand.在这个自我监督学习的过程中,算法变得比它玩家好得多,玩家无法理解算法的动作。ETZIONI O., BANKO M., CAFARELLA M. J. Machine Reading [C/OL]. American Association for Artificial Intelligence, https://www.aaai.org/Papers/AAAI/2006/AAAI06-239.pd.最新版本甚至不需要人类玩家的起始数据:阿尔法狗——零(AlphaGo Zero)仅通过自我博弈强化学习进行训练。Guez, Thomas Hubert, et al. Mastering the Game of Go without Human Knowledge [J]. Nature, 2017(550): 354-359.

这些程序证实了“算法学习的不是思考而是参与沟通”这一假设,即(人为地)发展一种自主视角,使它们能够做出适当的反应,并在与其他参与者的互动中生成信息。阿尔法狗怎么想或不怎么想与它的表现无关。它是有能力的、反应性的和创造性的——也可能是令人惊讶的。它是一个完美的游戏伙伴,甚至正是因为它不像人类玩家那样思考。通过训练,算法不会变得更智能化,它们只是表现得更好。程序员自己并不理解算法的“推理”。当程序员指出算法“错误”时,他们只是发出错误信号,而不指出错误是什么。算法使用这些强化信号来指导自己的行为,这种行为变得越来越精细和有效——而且越来越难以理解。BURRELL J. How the Machine Thinks: Understanding Opacity in Machine Learning Algorithms [J]. Big Data & Society, 2016(1): 1-12; WEINBERGER D. Our Machines Now Have Knowledge Well Never Understand [EB/OL]. [2017-04-18]. https://www.wired.com/story/our-machines-now-have-knowledge-well-never-understand; GILPIN L. H., BAU D., YUAN B. Z., BAIWA A., SPECTER M., KAGEL L. Explaining Explanations: An Overview of Interpretability of Machine Learning [EB/OL]. [2018-05-31]. https://arxiv.org/abs/1806.0006.