没有信任也能合作——一场计算机锦标赛改变的三个直觉

一场计算机锦标赛表明,最简单的策略击败了所有复杂对手。合作不需要信任或善意,只需要重复博弈、可观察行为、即时回应和适度宽容

本页目录

一战西线,英德两军的任务是杀死对方。但在漫长的堑壕对峙中,前线士兵自发形成了默契——你不瞄准我,我也不瞄准你。没有谈判,没有协议,没有上级授权。指挥官多次试图打破这种默契,屡屡失败。

这种现象叫"活让活"(live and let live)。它让一个基础问题变得无法回避:合作到底是怎么在一群互相敌对、各自保命的人中间长出来的?

一场计算机锦标赛给出了反直觉的答案

阿克塞尔罗德在 1980 年代组织了两轮计算机锦标赛。参赛者来自博弈论、心理学、政治学、数学等领域,每人提交一个策略程序,在反复进行的囚徒困境中两两对抗、累计得分。

囚徒困境的规则很简单:两人同时选择合作或背叛。双方合作,各得 3 分;双方背叛,各得 1 分;一方合作一方背叛,背叛者得 5 分,合作者得 0 分。单次博弈的最优选择永远是背叛——不管对方怎么选,你背叛都比合作多拿分。但如果博弈要重复进行很多轮,情况会发生根本变化。

击败全部对手的不是某个精心设计的复杂策略,而是最短的一个程序——"一报还一报"(Tit for Tat)。规则只有两条:开局合作;之后对方上一步做什么,你这一步就做什么。

第二轮锦标赛,所有参赛者已经知道了第一轮结果,带着针对性策略重新参赛。一报还一报再次赢了。

赢的不是聪明,是四个可观察的性质

阿克塞尔罗德从两轮锦标赛的数据中逆向提炼出胜出策略的共同特征——不是一条规则,而是四个可观察的性质:

善良——从不主动背叛。排名前列的策略全部是"善良"策略;所有试图先发制人的策略排名都靠后。

可激怒——对方一背叛,立刻回击。容忍背叛的策略被反复利用,得分远低于迅速回应的策略。

宽容——回击之后,如果对方恢复合作,立刻跟着恢复。陷入无限报复循环的策略互相拖累,双双落败。

清晰——行为规则简单透明。对方能预测你的反应,才能据此调整自己的行为;过于复杂的策略让对方无法建立预期,反而减少了合作机会。

这四条不是道德倡议。它们是从实验数据中涌现出来的生存条件。

"未来的影子"比信任更可靠

维持合作的核心力量不是信任、友谊或道德感召,而是一个结构性参数:双方都预期以后还会再遇到。阿克塞尔罗德把它叫做"未来的影子"(the shadow of the future)。

当再次相遇的概率足够大,合作的长期回报就会超过背叛的短期收益。堑壕里的士兵之所以形成默契,正是因为他们日复一日面对同一批敌人。短期背叛(突然开枪)带来的好处远小于长期合作(双方都活着)的回报。

反过来,当关系是一次性的,合作的基础就会塌掉。陌生城市的出租车不太在乎回头客;一锤子买卖的网购需要平台评价系统充当替代结构。不是人性变了,是博弈结构变了。

这个发现把"为什么不合作"的答案从道德败坏推到了结构缺陷。想让合作发生,与其呼吁善意,不如改造结构——让交互变得重复、让行为变得可追溯、让回报变得对称。

三个常见直觉被推翻了

不需要中央权威。 合作可以在无政府状态下自发涌现。一报还一报在锦标赛中的成功完全不依赖裁判或规则执行者。

不需要互相信任。 一报还一报的前提不是"我相信你会合作",而是"你知道背叛会有后果"。信任是合作的结果,不是合作的前提。

不需要复杂策略。 过度精巧的程序在锦标赛中排名靠后。试图识别对手弱点并加以利用的"聪明"策略,最终被简单透明的对手击败。在重复博弈中,可预测性是一种优势,而不是弱点。

读完之后再面对合作困境,脑子里会多出一组不同的问题——不再是"我该不该信任对方",而是"这个关系是重复的吗?我的行为是可观察的吗?我的回应是及时和对称的吗?"

同分类继续看