来源:《噪声:人类判断的缺陷》
出品:湛庐文化,新浪科技《科学大家》
撰文:[以色列]丹尼尔·卡尼曼(Daniel Kahneman),[法国]奥利维耶·西博尼(Olivier Sibony),[美国]卡斯·桑斯坦(Cass R。 Sunstein)
个体判断中存在噪声的结果已经很糟糕了,但群体决策中的噪声危害更甚。群体决策可能会由于一些无关因素而朝任何一个方向改变。谁先发言、谁后发言,谁说话更自信,谁穿着黑色衣服,谁和谁挨着坐,谁在某个时刻笑了 / 皱眉了 / 呈现出其他身体姿势……所有这些因素都会影响结果。相似的群体每一天都会做出各种不同的决策,如雇用、晋升、破产、沟通策略、环境保护条例、国家安全、大学录取或新产品发布等方面的决策。
我们在前文曾提到,对多个个体的判断进行汇总可以减少噪声, 而这里又强调群体会放大噪声,似乎显得很奇怪。然而,受群体动态 过程的影响,群体也会放大噪声。有做出的判断与正确答案接近的明 智的群体,但也有追随暴君的群体、增加市场泡沫的群体、相信奇迹或受共同幻想支配的群体。微小的差别可能导致一个群体坚定地说 “是”,而本质上相同的另一个群体却坚定地说“否”。群体成员之间的互动会导致数量巨大的噪声,这也正是我们此处强调的重点。无论是对于相似群体之间的噪声,还是对于单个群体中的噪声,上述假设都是成立的。因此,无论是单个群体还是多个群体,都是如此。我们应该把这些群体对某个重要问题的判断视作一系列可能性中的一个。
音乐中的噪声
为了寻找证据,我们从一个看似不太可能的地方开始:普林斯顿大学社会学教授马修·萨尔加尼克(Matthew Salganik)和他的合作者开展了一项关于音乐下载的大型研究。实验人员创建了一个由几千人组成的控制组(某流行音乐网站的访客)。控制组成员可以试听并下载 72 首新歌中的 1 首或多首。这些歌曲的名字都很生动:《深陷橘子皮》《啃》《眼罩》《棒球术士 v1》《粉红侵略》等。还有一些歌曲名字跟我们的问题看起来好像十分相关:《最好的错误》《我是个错误》《信念高于答案》《生活的神秘》《祝我好运》《走出困境》等。
在控制组中,被试未被告知其他人说了什么以及做了什么等额外的信息,这样一来,他们就可以独立判断自己喜欢哪一首歌或希望下载哪一首歌。但萨尔加尼克及其同事还创建了其他 8 个组,对应 8 种群体情境,并将成千上万的被试随机分配到这些情境中。这 8 组被试获知的所有其他信息都是相同的,但有一处不同:人们可以看到同组中的其他人先前下载过哪些歌曲。例如,如果《最好的错误》是该组中深受喜爱的歌曲,那么所有成员都可以看到;同样,如果一首歌完全没有人下载,他们也可以看到。
因为不同的群体在任何重要的维度上均无差别,这项研究看起来就像是重复了 8 次。你可能会推测,好听歌曲的排名会上升,而不好听歌曲的排名则会下降,如果是这样,这些不同群体中的歌曲排名应该相同,或至少相似,即不同群体之间没有噪声。事实上,这也是萨尔加尼克及其同事试图去探讨的问题,他们考察的是一种特定的噪声源:社会影响。
该研究的核心发现是:不同群体中的歌曲排名差异巨大,也就是说,在不同群体之间存在大量噪声。在某个群体中,《最好的错误》可能非常成功,而《我是个错误》则非常失败;在另一个群体中,《我是个错误》极其成功,但《最好的错误》的表现则一塌糊涂。如果一首歌一开始就备受欢迎,它随后也一定会表现得更好,而如果它一开始没有获得这种优势,那么结果就难说了。
可以肯定的是,最差的歌曲(在控制组中表现最差)排名不可能靠前,最好的歌也不太可能垫底,而对于其他歌曲而言,任何事情都有可能发生。正如作者所强调的那样:“相比于独立判断,人们在有社会影响的条件下,更难预测哪些歌曲会成功。”简而言之,社会影响在不同群体之间产生了明显的噪声。如果你仔细思考,你就会知道,单个群体内部也会存在噪声,因为他们很容易就喜欢一首歌或不喜欢一首歌,这取决于这首歌一开始是否受欢迎。
正如萨尔加尼克及其同事随后所展示的,群体的结果很容易被操纵,因为流行程度会自我强化。在后续实验中,他们动了点小心思,对控制组中的歌曲排名进行了反转。换句话说,他们谎报了这些歌曲的受欢迎程度,人们看到的最好的音乐其实是最差的音乐,反之亦然。研究人员随后观察了访客们的反应,结果是,最不受欢迎的歌曲深受喜爱,而原来最受欢迎的歌曲则表现非常差。即使研究人员误导了人们哪些歌曲是受欢迎的,但在人数非常大的群体中,受欢迎和不受欢迎程度受排名的影响是相同的。唯一的例外是,随着时间的推移,控制组中最好听的歌曲会逐渐变得更流行,这意味着反向排名也没有让它垫底。但是,对于绝大多数歌曲而言,反向排名决定了它们的最终排名。
我们很容易看出这项研究与一般性的群体判断的关系。假设有一个包含 10 名成员的小群体,他们要决定是否采用某项大胆的新举措。如果一两个支持者先发言,他们很容易使整个团队转向他们偏好的方向。如果最先发言的是持怀疑态度的人,情况也是如此,至少当人们能够互相影响时是如此。事实上,群体中的成员常常会互相影响,因此,仅仅是因为先发言的人不同,或者一开始下载某首歌的人更多, 类似的群体会做出非常不同的判断。《最好的错误》和《我是个错误》的流行现象在各种专业判断中也存在。如果群体没有收到类似歌曲排名的信息,比如对某一大胆举措的热烈支持,该举措可能仅由于其支持者未发言而无法推进下去。
不仅仅是音乐下载,其他领域也一样
如果你是一个多疑的人,你可能会认为音乐下载只是一个特例, 或者至少与其他的群体判断不同,然而,在其他领域也出现了类似的结果。我们来看一下在英国的公民投票(简称公投)中,人们对不同提案的支持情况。在公投中决定是否要投支持票时,人们自然要判断这是不是一个好的主意。这种模式类似于萨尔加尼克及其同事的研究:最初涌现的流行度会自我强化,如果某项提案在第一天没有受到关注,那么它很快就会沉寂。在政治领域就像在音乐实验中一样,支持与反对在很大程度上依赖于社会影响,具体而言,依赖于人们是否能看到其他人投的是支持票还是反对票。
美国康奈尔大学社会学家迈克尔·梅西(Michael Macy)及其合作者在音乐下载实验的基础上构建了另外一个实验,目的是弄清楚: 他人的观点是否会影响人们的判断,使得相应的政治观点受到民主党人的欢迎,而遭到共和党人的反对(或者相反)。答案简单明了:是的。在网络群体中,如果民主党人看到某一观点一开始就受到其他民主党人的支持,那么他们就会采纳这一观点,并最终导致大部分民主党人支持这一观点。但是,如果另一个网络群体中的民主党人看到, 某一观点一开始就受到共和党人的支持,那么这些民主党人就会拒绝接受这一观点,并最终导致大部分民主党人都拒绝接受该观点。简而言之,政治观点同歌曲一样,最终的命运取决于最初的受欢迎程度。正如梅西等研究人员指出的那样:“少数先行者的随机差异”会对整个群体产生颠覆性的影响——让共和党人和民主党人都欣然接受一系列与彼此的立场毫不相关的观点。
我们还可以思考一个一般性的群体决策问题:人们在网上如何对各种评论做出判断。耶路撒冷希伯来大学教授列夫·穆奇尼克(Lev Muchnik)及其同事在一个网站上开展了一项实验,他们向人们呈现不同的故事,并允许人们发表评论,以及对这些评论投赞成票或反对票。研究人员可以人为地、自动化地给一些评论投出第一张赞成票。你可能会想,在成百上千名访客中,使某条评论多出一张初始赞成票根本无足轻重,这个想法合情合理,却是错的。在看到第一张赞成票之后(别忘了这完全是人为操作的),下一个访客对该评论投赞成票的可能性增加了 32%。
令人惊讶的是,这一效应随着时间的推移一直在持续。5 个月后, 开始时人为投出的那张赞成票,使得该评论的平均赞成票得票率增加了 25%。最初的一张赞成票竟然产生了如此大的影响,这表明噪声确实存在。不管最初那一票是为何而投,它都使整体的受欢迎程度发生了巨大的改变。
这项研究为群体态度的转变以及群体内为何存在噪声提供了一条线索:相似的群体会做出非常不同的判断,而同一群体做出的判断也仅仅是一系列可能性中的一种。群体成员表达的赞成、中立、反对意见,其作用也类似于一开始投赞成票或反对票。如果群体中的一个成员立即表示赞同,那么其他成员也就有理由这么做。毫无疑问,当群体赞同某些产品、人、活动或思想时,可能并不是因为它们的内在优点,而是因为“提前投票”发挥了作用。当然,穆奇尼克的研究针对的是大规模群体,但同样的结果也会出现在小规模群体中,甚至更加富有戏剧性,因为最开始投下的赞同某个计划、产品或判决的赞成票经常会对他人产生更大的影响。
这里有一个相关的观点。我们曾经指出群体智慧效应指的是,如果你召集一大群人,问他们一个问题,他们的答案的平均值更有可能接近真实答案。对判断进行汇总是一种减少噪声,进而减少误差的非常好的方法,但是如果人们互相交流,那情况又会如何呢?你可能认为这样做是有好处的。毕竟人们可以互相学习的,从而找出正确答案。
在一些非常有利的条件下,互相分享知识、深思熟虑的群体确实会做得很好。然而,独立做出判断是发挥群体智慧的前提条件,如果人们不是自己做出判断,而是依赖于其他人,那么群体并不会更明智。
有些研究已经表明了这一点。在简单的评估任务——评估城市里的犯罪数量、一段时期内增长的人口、不同国家国界线的长度等任务中,只要群体成员独自做出判断,群体会更明智;如果他们知道了其他人的评估,比如一个 12 人小组的平均估计值,那么群体比个体的表现还要糟糕。正如研究者指出的那样,社会影响是有问题的,因为它们降低了群体多样性,但并没有减少群体的误差。具有讽刺意味的是,即便一点点社会影响都会降低群体智慧,但对多个独立判断进行适当的汇总则可以产生令人难以置信的准确结果。
信息级联,极易放大群体判断的噪声
我们描述的一些研究中包括“信息级联”(information cascades)。信息级联很常见,它可以解释为什么一些相似的商业群体、政治群体以及其他群体会做出完全不同的决策,以及为什么一些小的变化会产生如此不同的结果乃至噪声。只有历史真实发生了,我们才能看到, 而对于许多群体以及群体决策而言,存在着各种各样的可能性,而最终得以实现的只是其中的一种。
要想理解信息级联是如何发挥作用的,我们可以想象在一间大办公室中有 10 个人,他们在决定要雇用谁来担任一个重要职位。候选人有 3 位,分别是托马斯、山姆和朱莉。假设群体成员是按顺序发表自己的观点的,每一个人都会认真聆听其他人的判断。阿瑟第一个发言,他认为托马斯是最佳人选。芭芭拉现在知道了阿瑟的判断,如果她也认为托马斯是最佳人选,她肯定会认同阿瑟的意见。假如她不确定谁是最佳人选而她信任阿瑟,她可能也会认同托马斯是最佳人选。因为她足够信任阿瑟,所以她支持了阿瑟的判断。
现在轮到查尔斯发言。阿瑟和芭芭拉已经表明了他们想雇用托马斯,但查尔斯有自己的想法。基于他自己掌握的有限信息(他非常清楚自己的信息很有限),他认为最佳人选不是托马斯,而是朱莉。虽然查尔斯有自己的想法,但他也有可能会忽视自己已知的信息,而只是附和阿瑟和芭芭拉。如果此事发生,那并不是因为查尔斯懦弱,而是因为他是一个尊重他人的倾听者。他可能只是认为:阿瑟和芭芭拉都选托马斯,他们肯定有自己的理由。
第四位发言人是戴维,除非戴维认为他自己掌握的信息确实比前几人更有说服力,否则他也会附和前几个人的意见。如果戴维也这样了,那么戴维就处在一个“信息级联”中。事实上,如果戴维有非常充分的理由认为阿瑟、芭芭拉和查尔斯的选择是错误的,那么戴维可能会表示反对。但如果他缺乏充分的反对理由,那么他就会做出和前几个人同样的选择。
重要的是,查尔斯和戴维可能了解托马斯或其他候选人的一些信息,并且有自己独到的看法,而阿瑟和芭芭拉并不知道这些信息和独到的看法。如果这些信息得以分享,那么这些非公开的信息可能会改变阿瑟和芭芭拉的意见。如果查尔斯和戴维先发言,他们不仅能表达关于候选人的意见,而且可能提供对其他决策者产生影响的信息。但由于查尔斯和戴维是后发言的,所以他们的非公开信息就只有自己知道。
假设现在大家也想听听后续参与投票的人—— 埃丽卡、弗兰克和乔治的观点。如果阿瑟、芭芭拉、查尔斯和戴维都认为托马斯是最佳人选,即使埃丽卡等人有理由认为其他人选可能更合适,阿瑟等人也还是会做出相同的选择。当然,如果答案明显是错的,埃丽卡等人会反对这种越来越趋于一致的意见,但如果错误没有那么明显呢?这个例子的吊诡之处在于,阿瑟最初的判断启动了一个过程,其他人被引导进了信息级联中,即便有些支持托马斯的人实际上根本没有任何看法,甚至有人认为托马斯根本不是最佳人选,但最终结果依然是所有人都选择了托马斯。
当然,这个例子是人为设定的,然而在各种群体中,类似的事情经常发生。人们倾向于向他人学习,如果先发言的人似乎喜欢某个事物或者想去做某件事,人们会表示认同。如果人们不怀疑这些先发言的人,或缺少一个明确的理由认为后者是错误的,那么至少在这些情况下,人们会选择认同。
我们想重点强调的是:信息级联会导致噪声可能出现在多个群体之间,有时出现的可能性甚至非常大。在上面的例子中,是阿瑟先发言,并且他看好托马斯。假设是芭芭拉先发言,而她更看好山姆,或是假设阿瑟的感觉稍微有点不同——他更喜欢朱莉,那么,一个可能的结果是,群体最终会倾向于选择山姆或朱莉,但并不是因为他们更好,而是因为信息级联。这也是音乐下载实验及同类实验中的核心发现。
需要注意的是,人们进入信息级联并不意味着他们是非理性的。如果人们不确定要雇用谁,追随他人未必不是明智之举。随着持同一观点的人越来越多,认同他们的选择仍然是明智的。然而,这里有两个问题:首先,人们往往会忽视一种可能性,即大部分人也跟他们一样处于信息级联中,因此他们也没有做出自己独立的判断。当看到 3 个、10 个、20 个人都欣然接受某种结论,我们可能会低估他们受前面的人影响的程度。即使他们的一致性反映的只是最初几个人的观点,但我们可能会认为这种一致性反映了某种群体智慧。其次,信息级联可能会导致整体朝着完全错误的方向前进,毕竟,阿瑟对托马斯的判断可能是错的。
当然,信息不是导致群体成员互相影响的唯一原因,社会压力也是很重要的因素。在公司或政府机构中,人们可能会通过保持沉默来避免自己显得不友好、爱争吵、迟钝或愚蠢。人们希望成为团队中的一员,这就是为什么人们通常会追随他人的观点和行为。人们可能认为自己知道什么是对的或什么有可能是对的,但他们表面上仍然倾向于与群体或少数优先发言者保持一致,从而在团队中保持良好的风度。
刚刚讲到的招聘故事也如出一辙,人们选择托马斯并不是因为他们通过彼此分享的信息了解到了托马斯的优点和长处,而是因为他们不希望被看成愚蠢或不合群的人。阿瑟支持托马斯的这一最初判断可能会引发一种从众效应,最终对埃丽卡、弗兰克或乔治施加了强大的社会压力——仅仅因为其他人都喜欢托马斯,所以埃丽卡等人也选择了托马斯。就像信息级联一样,社会压力也会形成“信息级联”:人们可能放大了先发言者所持有的信念。如果人们支持托马斯,那么他们这样做可能不是因为他们真的喜欢托马斯,而是因为一个优先发言的人或一个有权势的人支持托马斯。这样一来,群体成员的一致性进一步增加,社会压力水平也增加了。这是一个在公司或政府机构中非常常见的现象,它可能会增加人们对错误判断的信心,并导致人们一致支持这个错误的判断。
社会压力会导致不同群体之间产生噪声。如果在公司中,某个人组织召开了一次会议,希望对公司发展方向做出重大改变。会议的发起者可能最先发表一番言论,进而导致人们一致支持这种改变。他们的一致性可能是社会压力的产物,而并不是自己的观点。同样,如果另一个人在会议一开始就表明了不同的观点,或者最初的发言者保持沉默,讨论可能会朝着一个不同的方向发展。总之,非常相似的群体可能会由于社会压力的影响而到达不同的终点。
群体极化,讨论往往会滋生更极端的结论
在美国和其他一些国家,刑事案件和一些民事案件通常是由陪审团参与审判的。人们希望陪审团成员经过互相商议,做出比个体更明智的决策。然而,针对陪审团的研究揭示了一种会产生噪声的社会影响:群体极化(group polarization)。这一概念指的是,人们在互相交流时,往往会提出比原有倾向更极端的观点。例如,在一个 7 人群体中,如果大部人都认为在巴黎设立一个新的办事处是一个好主意,讨论之后,群体的决定可能会变成:在巴黎设立一个新的办事处是一个极好的主意。内部讨论常常会导致群体更自信、更团结、更极端,三者通常以更大的热情展现出来。群体极化不仅发生在陪审团中,也发生在要做出专业判断的团队之中。
我们通过一系列实验研究了陪审团在“产品责任案”中做出的惩罚性损害赔偿的决策。每位陪审员的决策对应一笔赔偿金额,目的是惩罚公司的不合规行为,并对其他公司起到威慑作用。我们会在第15 章更加详细地讨论这项研究。为了说明群体极化问题,我们来看一个实验,该实验比较了现实世界中的陪审团和“统计中的陪审团”。首先,我们向 899 名被试呈现案件情境,并要求他们独立做出判断:
用具有 7 个等级的量表来表达他们的愤怒程度、惩罚倾向,以及给出相应的赔偿金额。随后,基于这些被试的反应,我们利用计算机模拟出数百万个“统计陪审团”,即随机匹配的虚拟的 6 人群体。在每一个统计陪审团中,我们采用 6 人的中位数作为最终的裁决结果。
我们发现,这些统计陪审团的裁决非常一致,也就是说,噪声大大减少了。噪声水平的降低是因为对裁决结果进行了机械性的汇总, 即对个体的独立判断进行平均会减少噪声。
然而,现实世界的陪审团不是“统计陪审团”,陪审员们会针对一起案件交流各自的观点。你有理由怀疑这些经过深思熟虑的陪审员是否真的会倾向于做出与评级为中位数的成员一致的判决。为了探明这一点,我们紧接着做了第二项研究。这项研究召集了 3000 多名有
陪审员资格的人,由他们组成 500 多个 6 人一组的陪审团。
答案简单明了:总是互相商议的陪审团比统计陪审团具有更多的噪声。这清楚地反映了由于社会影响带来的噪声,互相商议增加了噪声。
这项研究还有一个有趣的发现。如果 6 人中评级为中位数的成员只有中等程度的愤怒,并且倾向于对相关人员从轻处罚,那么陪审团商议后的判决通常会更宽容;相反,如果各项选择均为中位数的成员非常愤怒,并且倾向于进行严厉惩罚,那么经过交流之后,陪审团会更愤怒,他们做出的判决也更严厉。当用赔偿金额来表达这种愤怒时,陪审团商议后的赔偿金额要比金额的中位数高。实际上,27% 的陪审团选择的赔偿金额通常与陪审员选择的最高赔偿金额相等,甚至会比后者更高。能够相互交流的陪审团的噪声不仅比“统计陪审团”更高,而且加重了其成员原有的倾向。
回想一下关于群体极化的基本发现:人们彼此交流之后,明显变得比原来更加极端了,我们的实验证明了这一现象。陪审团成员在商议后要么变得更加宽容(当评级为中位数的成员倾向于宽容时),要么变得更加严厉(当评级为中位数的成员倾向于严厉时)。同样,倾向于实施金钱惩罚的陪审团在商议之后也会变得比评级为中位数的成员更加严厉。
对群体极化的解释类似于对信息级联的解释:信息发挥着重要作用。如果大部分人倾向于进行严厉惩罚,那么群体成员会听到很多认为有必要进行严厉惩罚的观点——反方的观点更少了。如果群体成员能够互相交流,那么他们会朝向处于主导地位的观点转变,导致群体更加团结一致、更加自信、更加极端。而且,如果人们在意自己在群体中的声誉,他们也会朝着占主导地位的观点转变,这样也会导致群体极化。
当然,群体极化会产生误差,并且经常如此,但我们的主要关注点在于变异性。正如我们所看到的那样,对判断进行汇总会减少噪声,也正因为如此,判断数量越多,判断的品质越好,这也是为什么“统计陪审团”比单个陪审团噪声更少。同时,我们发现能够相互交流的陪审团会比“统计陪审团”产生更多噪声。当处于相似情境中的群体最后表现出巨大的差异时,其原因往往在于群体极化,其结果是产生巨大的噪声。
在商业、政府以及其他机构中,信息级联和群体极化都会导致群体在应对同一问题时产生巨大差异,最终的判断结果取决于少数人——那些率先发言的人或有巨大影响力的人,这是一个值得注意的问题,因为个人的决策有很大的噪声。我们已经看到,水平噪声和模式噪声会使得群体成员的观点产生不应有的差异,而且该差异比我们预期的更大。我们已经看到疲劳、情绪、可以比较等情境噪声会影响率先发言的那个人的判断,群体互动则会放大这种噪声。结果,经过商议的群体会比仅仅对个体判断进行平均的统计群体产生更大的噪声。
由于企业或政府部门的一些重大决策都是在商议之后做出的,我们尤其要对这种风险保持警觉。组织及其领导应该采取一些方法来控制其成员在判断中的噪声,比如对群体商议进行管理,从而减少噪声而不是增加噪声,我们提出的减少噪声的策略,其目的就在于此。
文章作者[以色列]丹尼尔·卡尼曼(Daniel Kahneman)群体决策中的噪声
似乎任何事情都取决于它最初的受欢迎程度,因此,我们最好想尽一切办法来让自己发行的产品在第一个星期就获得巨大成功。
正如我一直怀疑的那样,政治或经济理念就像电影明星。如果人们认为其他人喜欢,那么这种理念就会大受欢迎。
我一直很担心,当我的团队聚在一起时,我们会更自信、更团结、对我们所选择的行动方针更加坚定。我认为,我们的内部流程可能存在一些问题。