逻辑思维：拥有智慧思考的工具：第12章放弃提问，做个实验_理查德·尼斯贝特

在你的一生当中，你会在报纸、杂志和商业报告中读到多少有关人的信仰、价值观和行为的调查问卷和研究成果呢？自然会有成千上万。很有可能，你自己也会设计一些这样的调查来获取信息，这对于你的事业、学业或是志愿工作十分重要。

我们中的大多数人都没有学会以批判性的眼光去看待那些调查结果。“嗯，亲爱的，我在《泰晤士报》上看到一篇报道，有56%的美国人支持提高税收，以修建更多的国家公园。”同样，在我们自己设计调查问题时也会得到类似的回答。

到目前为止，我讨论过的所有方法都几乎可用于任何事物——动物、蔬菜或是矿物。我们可以对老鼠做“A或B”测试，可以借助自然实验研究影响玉米地状况的因素，可以用多元回归分析研究影响水的纯度的因素。现在，我们要看一些在测量有关人类的变量时遇到的方法上的困难。不同于老鼠、玉米和水，人可以通过语言（口头或书面的）告知研究者他们的态度、情感、需要、目标和行为。人们还能告诉你，什么因素可以影响这些变量。在这一章中，你将会看到，这样的报告是怎样误导研究者的。而在本书的第一部分中你们已经了解到分析影响人类行为的因素时的限制，因此本章内容并不会让你惊讶。这一章会表明大量的行为测量方式如何为你提供有关人类性格和状态的可靠信息，对这些行为的测量要比人们的报告本身有说服力得多。

你还能得到一些进行实验的建议，这样可以让你在研究哪些因素会影响人的态度、行为、生理和情感健康时更有把握。对于你自身的相关性证据，像其他类型的相关性证据一样，有时也会产生误导作用。在研究你自己时，用实验的方法可以让结果准确、有说服力。

微妙变化的态度

下面这些例子可能会让你在相信自我报告的答案前停下来多想一下，会帮助你思考如何以最佳方式获得有关人类态度和信仰的有效信息。这些例子也可能会让你，在面对人们解释其判断和行为的原因时，多一些批判性的考量。

问题：假设我请你讲述三件你生活中积极的事，并谈谈你对生活的满意度；另一种情况是请你讲述三件你生活中消极的事，并谈谈你对生活的满意度。在哪种情况下你会表达出更高的生活满意度呢？

回答：无论你怎样猜测，我都要遗憾地告诉你，你的答案是错误的，这完全取决于我问你的那三件事是发生在最近还是5年或更久以前。如果你在想着最近发生的一些糟糕的事而不是最近发生的一些积极的事，那么你的生活看上去会更糟糕一些。这并不令人意外。但是如果那些糟糕的事发生在过去，而现在的生活顺利，那么你的感觉就会大不一样。而如果快乐的事发生在很久以前，那么你最近也不会有特别好的感觉。（这也能解释发生在美国“最伟大的一代”[1]成员身上的奇怪现象，他们在“大萧条”时期的生活满意度甚至比其他时候更高。）

问题：你在奥马哈市的表兄打电话来，问你最近过得怎么样。你的答案会受到当时你所处的环境影响吗？晴朗温暖的天气和阴冷的天气会让你的答案不同吗？

回答：结果的确会有不同。如果天气不错，你更有可能回答最近一切都好。然而，如果你的表兄先单独询问了你天气状况，然后又问你最近的情况，那么你的回答则不会受到影响。为什么呢？心理学家认为，当人们被潜在引导着去想有关天气的信息时，他们的情绪会因为相关天气状况而受到影响，可能相应地更快乐一点儿或是更伤感一点儿。实际上：“生活看上去是不错的，然而可能一部分原因是我觉得有70华氏度（约21摄氏度），阳光暴烈，因此我又觉得一切都马马虎虎吧。”

问题：你认为一个人对婚姻的满意度与他对整体生活的满意度之间的相关性是怎样的？

回答：这看上去像是个很容易回答的问题。我们可以先问人们对生活的满意度，然后再问他们对婚姻的满意度。这两者间的相关性越高，则我们认为婚姻满意度对生活满意度的影响可能越高。研究者真的做了检验，发现相关性为0.32，这表明其实婚姻满意度对生活满意度的影响是很有限的。但是，假设我们颠倒提问顺序，得到的相关性系数就变成了0.67，这表明婚姻质量对生活质量影响相当大。因此，乔告诉你他的生活是幸福的还是马马虎虎的是依赖于——在很大程度上——你是否先问过他对婚姻的满意度如何。这一现象和本章中讨论的其他现象都表明，提问语言的类型对人们表达其想法的影响，这在第1章中也讨论过。其他一些现象表明情境对于人们表达其想法的影响，这在第2章中讨论过。

提问顺序对人的影响是很大的，这一点在“先问关于婚姻的满意度就会让相关性相当明显”上就得到体现。如果你没有先提出婚姻这一点，那么人们对于生活的思考就会很宽泛，那么许多其他因素就会影响其对生活满意度的评判。那么，婚姻质量到底对生活质量有多重要呢？事实上，千万不要问这类问题。如果婚姻质量与生活质量的相关性变化的范围如此宽泛，那么我们并不能从中得到什么真实的情况。

实际上，我们总在揣测每一个关于态度和行为的问题的答案——通常通过一些看起来是偶然的或是愚蠢的事物来判断。

假设我问你，你对政治人物有多少好感。等一下，在这之前我会先指出其他人对于政治人物的平均支持分数为5分，这在以1—6分的评分体系里算是高支持度；或者我会说明其他人对政治人物的平均支持分数为2分。结果是，你会在前一种情况下给出较高分。其中一部分原因是纯粹一致性：你不想让自己看起来是个异类。而更有趣的是，告诉你他人的打分不仅会影响你对政治人物的判定，还会影响你对于我提及的这类政治人物的设想。如果我告诉你，大多数人对政治人物印象良好，那么我在暗示这里的“政治人物”是那种像丘吉尔或罗斯福一样的政治家。如果我告诉你，大多数人对政治人物的评价较低，那么我的潜台词是这里的“政治人物”是那种蝇营狗苟的政客。我在用语言左右你的判断。

有多少美国人支持死刑呢？宽泛而言，大多数人都支持。而对于某一个具体案例而言，则是少数人支持。针对一个案件、一个罪犯和犯罪现场给出的细节越多，人们越不倾向于处死犯罪者。甚至在那些极端罪恶的案件中仍是这样，例如奸杀女性。在法庭上呈现出的有关罪犯的人格特征和生命背景的细节越多，人们越不愿意支持死刑判决。哪怕是在所有信息都完全负面的情况下，人们依然会这么做。

有多少美国人支持堕胎？在此我得拉上窗帘，悄悄地问问人们：“你希望如何处置这个胎儿？”根据2009年的盖洛普民意调查，有42%的美国人支持有“选择权”，而不是“生命权”，即有42%的美国人支持合法堕胎。而一项同年进行的盖洛普调查显示，有23%的美国人认为堕胎在所有情况下都是合法的，有53%的美国人认为堕胎只是在特定的情况下合法。这样看来，有76%的美国人支持堕胎。我完全相信我们甚至能得到更高的支持率，如果我们给被调查者一些前提的话，比如当事女性因被强奸而怀孕，近亲性交而怀孕，或是为了保住母亲的生命。如果被调查者对上述任一个问题回答是的话，那么我们就说这个人是支持堕胎的。因此，究竟是少于一半的人支持堕胎还是相当多的人支持堕胎，这完全就是由提问方式决定的。

心理学家进行的大量研究表明，人们对于某一事物的态度不会始终保持一致。“我对堕胎的态度如何呢？嗯。我想想看。对了，堕胎，支持。是了，我的看法是这样的，我会有条件地反对。”

实际上，人们对于事物的态度会特别依赖于情境，因而会不断变化。改变了环境，你也会改变自己的态度。不幸的是，哪怕是极其微小的变化，例如提问的词句、使用的答案的类型和数量、前述问题的性质等，都会成为情境性的因素，进而深深地影响人们对自己观点的表达，即使是关于个人与社会重要问题的态度都是十分容易变化的。

什么会让你开心？

口头报告对某件事的态度会受到一系列不同方法的影响。人们会在一些事情上撒谎，比如性、金钱。人们希望给自己和他人留下好的形象。这种社会期望偏误常常会导致人们加强自己的正面形象而弱化负面形象。然而，说谎和想让自己看上去更好只是我们遇到的最容易的麻烦。在我们探寻人们态度和行为的真相，以及人们相信一些事物的原因和做一些事的原因时，会遇到许多麻烦。

至少，我们十分清楚什么会让我们开心或不开心。

请给下面一些会影响你某一天心情的元素排序。让我们看看你在评估什么会引起自己情绪波动这件事上的准确性如何。给下列元素的重要性评级，1代表影响非常小，5代表影响特别大。

1.你的工作进行得如何？

2.你前一天晚上的睡眠时间是？

3.你的健康状况如何？

4.天气怎样？

5.你是否有性行为？

6.这是一周中的哪一天？

7.如果你是女性——今天是你月经周期的哪个阶段？

无论你说什么，都没有理由相信这种评估是准确的。至少，我们知道这个调查是针对哈佛大学的女生的。心理学家让学生们在每天结束时报告自己对情绪的评估结果，持续了两个月。学生们被要求回答上述几个问题。两个月过去后，参与者被问及其中每个因素对其情绪的影响。

参与者的回答让我们发现了两件事：第一，参与者指出每个因素在多大程度上影响了他们的情绪；第二，每个因素能在多大程度上预测人们的情绪。这些自我陈述是否反映出了人们说出的因素与说出的情绪之间的真正相关性呢？

实际上，结果一点儿也不准确。那些因素对情绪（基于每日评分）的真实作用为零，参与者们相信的那些因素的变化程度影响情绪的变化情况也是无稽之谈。真的没有一点儿相关性。如果一个女人说今天是星期几这一点很重要，那么这天是星期几与其情绪之间的实际联系可能是很低的。如果一个女人说，性行为不是那么重要，那么性行为和情绪之间的实际关联可能会很高。

这里还有一个更加令人尴尬的发现。（参与者本身会很尴尬，对其他所有人也一样，因为没理由认为哈佛大学的女人是唯一对影响自己情绪的因素无法判断的一群人。）简关于影响自己情绪的因素的自我报告不会比她对哈佛大学的女人们就同样问题的猜测更准确。实际上，她对他人和对自己的猜测结果最终是差不多的。

很明显，我们是有一些情绪影响因素的理论的。（天知道这些理论都是怎么出现的。）当我们被问及不同的因素如何影响我们的情绪时，我们便会求助那些理论。我们没有努力发现事实，甚至在有可能发现的时候我们也没有去做。

我坚持认为我们不了解是什么因素让我们快乐。当然了，我们做出了许多努力。我们唯一能说的是，我们认识到的关于影响自身生活状态的因素大都没有我们想的那么重要。这个世界上当然不存在什么能影响情绪的特殊因素。正如你在第8章中读到的那样，发现事物间的关联并非我们擅长的事。

关于哈佛的这项研究就是一个例证。心理学家们发现，我们自己报告的影响自身情感、态度和行为的因素都不是那么可信的，正如我们在本书第一部分中讨论过的。

态度和信念的相关性

第一个人说：“你的妻子怎么样？”

第二个人说：“这要看和谁比？”

——古老的舞台规则

对你有关民族和国家的观点的效度进行检测，请回答下列问题：

哪国人更看重选择实现个人目标：中国人还是美国人？

哪国人处事更加认真：日本人还是意大利人？

哪国人更具有亲和力：以色列人还是阿根廷人？

哪国人更加外向：奥地利人还是巴西人？

我猜你肯定不会觉得中国人比美国人更看重实现个人目标，或是意大利人比日本人处事更加认真，以色列人比阿根廷人更具有亲和力，奥地利人比巴西人更加外向。

我们如何知道存在这些差异呢？从那些国家来的人们告诉了我们那个国家国人的面貌。

人们对于自身价值观和性格特征的想法为何会与大众观点相差甚远呢？（同样也可以思考，人们的想法为什么也与那些熟悉以上每种文化背景的学者专家的观点不同呢？）

人们在思考其自身的价值观、品性和态度时很容易受到大量“人为因素”（artifact）影响。（artifact这个词有两种模糊的相关意义。在考古学中，这个词指人造的物品，例如一件陶器。在科学方法论中，这个词指因为一些难以预料的测量错误而导致的错误发现，通常都是人为原因导致的。）

在上述有关文化差异的例子中，人们对于自身性格的汇报和我们对于不同国家的人的性格的判断之间的差异可归因于群体参照效应。当你问我对于自身价值观、人格特点和态度的看法时，我可能会有意识地把自己置于一个明显的群体中（比如我就是这个群体中的一员），而后再来回答你的问题。如果你问一个美国女人，她认为追求自己的目标有多重要，她可能会暗中把自己与其他美国人对比，可能与其他犹太裔美国人对比，也可能与她学校中的其他犹太裔美国女性对比。因此，当这样与其他美国人（或是犹太人，犹太裔女性，俄亥俄州的犹太裔女性）对比之后，选择她自己的目标就显得没有那么重要了。一个受访的中国人则可能把自己和其他中国人、其他中国男人或是其他在北京师范大学的中国男人做比较——可能对他而言，他更关心选择自己的目标，而不是他的参照群体中的其他人的选择。

有意利用参照群体比较是一个影响自我陈述（比如奥地利人比巴西人更外向等）的重要因素，我们知道这一点的一个原因是，当你让参照群体显而易见时，差异就会消失。加州大学伯克利分校的欧洲裔美国人会认为他们比伯克利的亚裔美国人更认真，然而，当你让这两组人都与一个更明显的参照群体——“典型的亚裔美籍伯克利学生”——做比较时，他们之间的差异就没有了。

当其他条件保持一致时，在大多数文化背景下的人们都相信他们自己要比同群体的其他人更优秀。这种自我拉抬偏差有时被称作“乌比冈湖效应”，这源自美国主持人盖瑞森·凯勒虚构出的一个神秘小镇，那里的“小孩都在平均水平之上”。在领导能力方面，有70%的美国大学生都认为自己要高于平均水平，只有2%的人认为自己低于平均水平。在评价“自己与他人的相处能力”时，几乎每个人都会认为自己高于均值。实际上，有60%的人会说自己在前10%的水平，而有25%的人会说自己在前1%的位置！

自我拉抬偏差在不同文化和亚文化群体中会有不同程度的差异。在谦虚偏差这个问题上，没人会认为美国人表现得很明显，而东亚人则会表现得很突出。所以在任何涉及价值因素（领导力、与他人的相处能力）的自我评定中，我们都会发现西方人的自我评价总是比东亚人的自我评价高。美国人比韩国人更可能评价自己是更好的领导者，意大利人比日本人更可能自我评价更认真。

还有许多其他人为因素也会影响自我陈述。这包括默许心向反应或者是赞同偏向。这是一种对所有事情都倾向于同意的态度。正如你预料的那样，礼貌的东亚人和拉丁美洲人比直率的欧洲人和欧洲裔美国人更经常说“是”。在同一种文化背景下，个体表示认同的情况也有差异。幸运的是，有办法可以消除这种偏误：研究者可以通过答案的类型来平衡，这样回答者就会有一半的时间在一些维度上得到较高的分数，例如内向和外向，他们会同意一种陈述，而在另一半时间中反对一种陈述。（“我喜欢参加大型派对”和“我不喜欢参加大型派对”）这就可以消除人们总是同意各种陈述造成的偏误。所有的社会科学家其实都深知这种维持平衡的方式，然而令人惊讶的是，他们常常选择忽略。

听言，还是观行？

依上所述，是否存在某种更好的方式能够比单纯询问当事者，进而可以比较不同的人、群体或是文化之间的差异呢？你确信一定有。测量行为，特别是在观察对象不曾察觉的情况下，那么这时候测量出来的结果便会比各种有人为因素介入的情况更有说服力。

你可以通过检测人们在一些指标上的得分（或者更好一点的情况是，控制了他们的认知能力得分之后的结果）来判断其认真程度，而不是直接询问，比如房间的整洁程度、他们在赴约或上课时的守时程度等。我们也可以测量某种文化整体所表现出的认真程度，测量的对象可以包括邮政服务的速度、时钟的精准度、公共汽车和火车的准点率、人们的寿命、人们在面对冗长无聊的问卷时回答的问题数。（顺便提一句，不同国家的人的数学测试得分与他们回答冗长问卷时的问题数之间有着很高的关联。）

令人惊讶的是，当我们测评不同国家人的认真程度时，我们发现，通过行为指标显示一个国家的国民认真程度越低，则通过自我报告得出他们的认真程度越高。

当我们在测量一些真正的心理学变量时，我遵循的原则是，相信行为（包括像心率、皮质醇的分泌量、不同脑区的活动情况等生理活动），而不是相信人在具体的情境中的反应（由自己或他人描述的他们希望或是倾向于某些变量将出现的情况）。不过，若是与关于信仰、态度、价值观或性格的口头报告相比，你更应该选择相信人在具体情境中的反应。

我当然不是希望你怀疑自己在媒体中看到的每一则新闻，或是怀疑自己设计一份行为调查问卷的能力。如果你想弄清楚你的职员究竟会在周六还是周日出去野餐，你不必太担心他们会糊弄你。

然而，即使是对于偏好的表述，你还是不能完全相信自我报告。正如史蒂夫·乔布斯所言：“不应该让顾客自己弄清楚他们需要什么。”亨利·福特曾评论道，如果他问人们在交通方面有什么需求，他们会说“跑得更快的马”。房产经纪人往往会说“消费者都是骗子”。那些向你保证自己会喜欢低矮房子的顾客，最终会爱上20世纪20年代都铎式的建筑。那些追求钢筋玻璃材质的现代高楼的顾客实际上却喜爱人造的土坯房屋。

了解人们的偏好对于生意人来说是一件麻烦事。即使是那些考虑最周全的人也会陷入困境。亨利先生在福特汽车公司的继任者喜欢组织焦点小组会议，参会的一组人相互提问，并回答法人代表的问题。组织者借助人们表达的偏好来判断哪种新产品或服务可以继续推出或保持。汽车界的传奇在20世纪50年代中期继续上演，福特先生有了一个新想法，他想把中柱从四门车上移除，看看这样轻便的外观是否能吸引更多的消费者。在组织焦点小组讨论时，人们都认为这个主意不好：“为什么要这样，车不能没有中柱”“看上去太奇怪了”“我认为这样不安全”。通用汽车公司则跳过了焦点小组讨论这一步，直接将无中柱车“奥尔兹莫尔比”投入生产，称其为四门活动硬顶小客车。该车在市场上获得了巨大的成功。这次无中柱车的经历显然并没有让福特公司反思自身焦点小组的问题。在20世纪50年代推出埃德塞尔汽车时，公司又一次在决策上受到了焦点小组的影响，但这次是惨痛的失败。

在此我们学到的教训是：在任何时候都不要太相信人们的说辞，而是要看他们的实际行动。

总结一下，这一部分主要讲述了我们如何找到最佳的测量变量，如何找到最佳方式检测这些我们关心的变量与其他变量的关联。在一系列研究策略的链条上，真实实验优于自然实验，自然实验优于相关性研究（包括多元回归分析），而相关性研究又胜过假设和“恰好是他”统计学。无论对于个人、机构，还是整个国家而言，如果不能采取最佳的科学方法论，就要付出惨重的代价。

自我实验

正如哈佛大学那项研究让女性评估影响她们情绪的因素一样，每当我们在日常生活中和其他领域里需要观察一些相关性现象时，总会遇到麻烦。幸运的是，我们可以以自己为实验对象，然后找出影响我们做决策的更多信息。

是什么因素让人们难以入眠？清晨喝一杯咖啡是否能让你一天都保持高效状态？如果你在午餐后小睡一会儿是否在下午工作时更有效率？如果不吃午饭，你是否更有效率？做瑜伽是否能改善身体状况？佛教教义中的“仁爱”之念（具体表现为对他人微笑，反省积极的品格和慷慨的行为，重复“仁爱”这一词汇）是否能给你带来内心的平和并减轻你对他人的怨怒之情呢？

对自己做实验存在的一个问题是样本量只有1。不过好处是，针对自己的实验天然就包括了“前后对比的设计”，这可以提高准确性，因为减少了误差方差。你同时还可以让复杂的变量达到最小值。如果你要观察某个变量对你的影响，那么在研究期间请保持其他所有因素持续不变，并对比在这个变量存在以及未存在两种情况下你的状态。这样你就能完成一个非常不错的实验了。不要同时在不同的房间里做瑜伽，或是在你和男朋友分手时做瑜伽。在一个恰当的“前后对比设计”的情形下开始做瑜伽。控制好你的身体和情绪状态，调整好你和他人的关系，在开始做瑜伽之前的几周保持良好的工作状态，并且在开始做瑜伽后连续几周都使用同样的测量变量。简单的三点量表就能提供充足的测量信息。在一天结束时你为自己的身体状况打分：不太好；还行；非常好。测量出在做瑜伽之前一段时间和之后一段时间的身体状况平均值。（希望在这段时间里你的生活中不要发生什么重大的事件影响这个计划。）

通常你都能比“前后对比”研究做得更好。你可以根据实际情况充分利用随机分配的设计。如果你想弄清楚清晨喝咖啡是否会让自己做事更高效，那就不要只是随意地在某些早晨喝咖啡。如果你这么做了，那么任何会混淆视听的变量都有可能影响测量结果。如果你只是在早晨感到无力时喝咖啡，或是只在你想保持工作状态最佳的那天喝咖啡，那么你得到的数据就会一团糟，任何你从中得到的信息都有可能是无效的。在你要走入厨房时抛一枚硬币——正面冲上喝咖啡，背面冲上就不喝，然后记录你那一天的工作效率。使用三点量表：并不十分有效率，差不多有效率，非常有效率。连续几周都做记录。计算出喝咖啡的日子的平均效率状况，以及不喝咖啡的日子的平均效率值。

在任何其他你想测量的影响身体状况或效率的因素的实验中，都可以采取相同的实验步骤。不要欺骗自己妄图不用系统性的随机实验就能得到良好的实验结果。

在类似上述的情况下做实验是十分明智的选择，因为对于不同个体而言，喝咖啡产生的效果大有不同，通过耐力训练和力量训练而获得的效果迥异，到底是在清晨、中午还是晚上达到工作效率高峰也是不同的。对吉尔或乔伊有效的事情对你而言则未必有效。

小结

口头报告十分容易引起大量的误读和错误。我们的头脑中没有放文件的抽屉可以把态度取出来一个一个观看。人对自身态度的报告会受到问题语句的影响，会被之前提出的问题影响，会被在提问时突然出现的情境性因素影响。换句话说，态度通常是在不断变化的过程中被建构的，并且会受到大量外部因素的影响。

我们在回答关于态度的问题时，会在潜意识里将所涉对象和某个参照群体对比，进而得出答案。如果你问我有多认真，我会告诉你我和其他（那些心不在焉的）人比起来有多认真，比如教授、我的妻子，或是那些刚好我在此刻想起来的人。

对于我们行为原因的报告，就像在第3章中和这一章中分析的一样，会很容易出现大量错误，受到各种偶然因素的影响。它们通常会被当作确定的理论，事实上它们只是未经过深思熟虑的所谓“事实”。

行胜于言。与语言上的回应相比，行动是理解人们态度和性格的更好的指南。

对你自己进行实验。心理学家用于研究人类行为的方法论同样可以用于对你自己进行实验。对于因果关系的观察很有可能会出现误区，比如误以为某些原因导致了某个特定结果。精心设计观察方法，进行随机实验，再加上系统性的记录，这样你就能得到一个关于行为归因的准确结果，这是单纯通过在生活中进行随意观察而无法得到的。

[1]“最伟大的一代”（the Greatest Generation）指生于1928年之前，从青少年时期开始接连经历了“大萧条”、“一战”、“二战”的那一代美国人。——译者注