谷歌化
算法在哪里找到它们反映的偶联性?它们如何访问其详细阐述并呈现给它们的沟通伙伴的外部观点?为了能够参与沟通,算法必须呈现在网络上。算法虽然智能且复杂,但如果没有网络,人工沟通就不可能实现——这种力量只有在算法上线后才能实现。“参与式网络”(Web 2.0,可能还有3.0)的开创性影响与其说是用户定制化,不如说是对虚拟偶联性的包容和利用。算法寄生地“食用”用户的贡献,并积极增加它们自己行为的复杂性以及沟通能力的复杂性。笔者断言,在与学习型算法的互动中,用户体验到了一种(人工)形式的不可预测性和反身性。这种互动人为地再现了沟通的条件。
这种方式的原型是谷歌,这也是它成功的原因。该项突破出现在1998年,万维网引入了链接分析。以前,信息检索是通过搜索有限的、未链接的、静态的文档集合来进行的。信息的组织和分类委托给专家,例如图书馆员、期刊编辑或各个领域的专家。相反,链接分析扩展到网络,并引入了一种信息检索形式,这种形式变得巨大、动态(与传统文档不同,网页不断更改其内容)、超链接,但最重要的是,它是自己组织的。结构不是由专家决定的,而是由网络的动态所决定的。它的效率无与伦比。
谷歌网页排名算法的设计标志着概念的转向,“发明”了我们今天所知的互联网。它的作者以及后来的公司所有者,将其描述为从利用网络链接结构作为大型超文本系统这一想法开始。关键的见解是确定哪些页面是重要的,以及对谁重要,而不考虑页面本身的内容。为了适当地决定回应用户请求页面的排名,其想法是使用网页本身之外的信息,而这些信息是指其他用户在他们之前的活动中所做的事情。换句话说,要确定哪些页面很重要,网页排名算法不会查看页面说什么或如何说,而是查看链接到的频率和由谁链接。排名基于页面的反向链接数量(其他网站指向它们的次数)和它们的重要性——反向链接的“重要性”取决于它们反过来有多少链接。“相关性”的定义是公开循环的:如果一个页面的反向链接的排名总和很高,则该页面的排名很高,包括具有许多不是特别权威的反向链接的页面情况,以及具有一些高度被链接的反向链接页面的情况。
网页排名算法创新的天才之处在于,其放弃了理解页面内容的目标,而仅依赖结构和沟通的动态。谷歌的创造者并没有像阿尔塔维斯塔(Altavista)和雅虎之类的竞争搜索引擎那样,试图根据经验丰富和称职的顾问,为网络提供一个伟大的组织方案。他们没有试图理解和构建一个有理解能力的算法;取而代之的是,通过上网和建立联系,“他们让其他人为其做这件事”。内容是后来才发挥作用的,它是结果而不是前提。谷歌使用这些链接不仅可以了解页面的重要性,而且可以了解它是关于什么内容的。如果指向给定页面的链接使用某个句子,系统会推断该句子准确地描述了该页面,并在以后的搜索中考虑到这一点。该算法旨在理解和反映用户所做的选择,激活一个递归循环,在该循环中,用户使用算法获取信息,他们搜索并修改了算法,于是该算法就影响了他们随后的信息搜索。程序员设计的只是算法的自我修改能力。算法选择什么以及如何选择,取决于用户如何使用它。
该系统经过进一步开发,考虑到了超出受欢迎程度的因素,例如用户的点击行为、阅读时间和查询重组模式。正如谷歌在其网站的内部搜索(Inside Search)页面中所声明的那样,今天的算法依赖于200多个信号和线索指的是“网站中的术语、内容的新鲜度、您所在的地区。”该公司制作了一个“知识图”,它提供了数十亿实体之间的语义联系,并允许更快速和适当地回应,也包括尚未由任何人想到的信息和结果。然而,该系统的“智能”源于它对先前用户活动的使用,以及网络上已有的信息来源,从维基百科到常识数据库。正如谷歌工程总监约翰·詹南德里亚所说:当人们在谷歌上搜索“爱因斯坦”时,“我们并不是要告诉你爱因斯坦的重要性——我们是要告诉你人类在搜索时正在寻找什么。”所谓系统的智能,其实是算法用来指导和组织自身行为的用户的智能。
谷歌已成为一种方法的象征,这种方法可以在网络上的其他成功项目中找到。自2003年以来,“谷歌化”一词已被用来描述在越来越多的应用程序和语境中沟通的一种模式,这种模式不依赖于编辑或专家等传统的地位制造者,而是“依靠”网络的动态来组织其运作,甚至是组织其自身。瓦德安纳森认为,网络是由“一切的谷歌化”引导的,它利用用户执行的操作来产生“谷歌为我们工作,因为它似乎能读懂我们的思想”的状况。实际上,谷歌不需要这样的权力。相反,谷歌只是使用我们已经想到的结果,来产生我们没有想到的结果。
谷歌与其他以相同方式工作的系统一起汲取用户提供的信息,以产生新信息,并将其引入沟通路线。用户从与算法的互动中获得的正是这些信息,并且只能归因于算法本身。当谈到与算法的互动时,仅参考输入数据的人的观点是没有意义的,因为他们无法准确地知道数据将如何被使用。同样,从算法本身含义的角度来看也没有意义,因为它没有任何意义。约束和方向不取决于意图,而是取决于通常无法访问的程序。
算法根据非随机的标准做出挑选和选择,而非反映和阐述参与者的不确定性。用户接收到其他用户的偶联性回应,这种偶联性回应是其他用户使用偶联性对作为接收者的用户自身偶联性的回应。虽然他们不直接与其他用户进行沟通,但这种互动的结果是对特定问题的特定回答,如果其他用户不参与沟通则不会存在该问题。谷歌和类似的模型似乎能与它们的用户沟通,并且能够这样做正是因为它们不试图理解内容。它们并不会人工地复制智能,而是直接进行沟通。鉴于此,我们是否正在处理一种新的沟通方式?