本文是对Very Little Evolutionary Game Theory的翻译。
目录
小野田宽郎1922年出生在日本帝国。还是一个小男孩的时候,他曾经放过牛。1940年他加入军队。1944年,他接到命令来到菲律宾的一个小岛,目的是为了在这里抗击美军。日本帝国在次年投降了,但是没有人把这个不幸的消息告诉他。
29年之后他投降了。这29年的坚持对于战争的胜负没有任何影响。除了对他自己长期的监禁之外对他人没有任何影响。但是每人这么认为。当他回到日本时,他成为了一个英雄——专注(Dedication)、荣耀(Honor)和利他主义(Altruism)的象征。
人类社会会树立小野田宽郎这样的榜样人物,因为他们发现了个体利益和群体的冲突。群体当然并不总有日本这么大。个体也并不总有小野田宽郎这么励志。但是冲突总是伴随着合作发生。通常个体利益的增加并不会导致群体其他成员利益的增加。这就造成了个体以及他所在群体的冲突。
在本章,我们会讨论简单的合作博弈模型。我们会通过分析这些模型来理解怎么精确的表述个体和群体的冲突。然后我们会学习一种能够让合作进化的机制。后面的章节会考虑更复杂的合作问题。
完全的(pure)冲突:囚徒困境
个体的利益可能会损坏群体的利益。
合作是一个混乱的分类,因此有必要先研究一个最简单最极端的例子,然后再考虑更复杂和不那么极端的例子。
考虑共享领地的一对个体。每个个体可以选择是否对领地进行巡逻。不论谁进行巡逻,每个个体都会获得b的收益。如果只有一个个体巡逻,它需要消耗c的代价,如果两个个体一起巡逻,每个只需要消耗c/2的代价。下表是payoff矩阵:
休息 | 巡逻 | |
休息 | 0 | b |
巡逻 | b-c | b-c/2 |
下面来分析这个游戏的进化动力。如果大部分个体都巡逻,其平均fitness是b-c/2,而少量的休息者出现时,其fitness是b,因为c>0,所以休息策略者总是可以入侵。如果大部分个体都休息,其平均fitness是0,少量巡逻者的fitness是b-c。如果b>c,那么巡逻者是可以入侵的,否则不能。假设b>c,那么最后会达成类似老鹰和鸽子的均衡比例。假设巡逻的比例是p,我们下面计算一下:
\[p(b-c/2)+(1-p)(b-c) = pb + (1-p)0 \ p=\frac{b-c}{b-c/2}\]现在我们假设b<c。也就是巡逻的成本大于巡逻者自己的收益,这个时候就不会有人巡逻。但是从群体的角度来说巡逻是更好的策略。【译注:做一件事情有收益,顺便让他人搭便车,这可能会有人做;但是自己吃亏让别人占便宜,从个体的角度来说绝对不是好的策略】
这就是所谓的囚徒困境。在囚徒困境中,不管合作的人群比例多少,不合作的策略总是可以入侵。生物学家和社会科学家们对囚徒困境做了很多研究,也许太多了!他们想要研究这个问题是因为这还是合作的一个极端例子的难题:为什么会有人愿意自己吃亏而让他人受益?在囚徒困境里,个体的利益和群体(他人)完全相反。从个体的角度来说休息是更好的策略,但是从群体来说,巡逻(或者至少一个人巡逻)是更好的策略。
这个困境可能对你来说很明显,但是过去很多生物学家和社会学家并没有意识到这一点。在20世纪早期,很多生物学家认为动物被设计(被基因决定)它会考虑群体的利益而社会学家认为人们会合作只是因为合作会带来共同的利益。而囚徒困境这样的简单例子告诉我们事情没有这么简单。
部分冲突:合作
个体和群体的利益通常并不会完全冲突。但是风险(risk)和不协调(mis-coordination)可能会造成合作难以达成。
假设有一对动物,它们有两种策略,一种是安全的方法,每个个体各自行动并且获得确定的但是较少的收益;另一种是一起合作,如果合作能够达成就会获得较大的收益但是可能有风险——不能达合作导致无任何收益。单独行动的收益总是b,与另一方无关。冒险去合作如果能够达成的收益B>b,但是如果对方不配合,则冒险者的收益是0。下面是这个游戏的payoff矩阵:
安全 | 冒险 | |
安全 | b | b |
冒险 | 0 | B |
如果两者都选择冒险策略,那么总体(平均)的fitness是最大的。如果安全策略者占多数,少量的冒险者能否入侵呢?安全者的平均fitness是b,少量冒险者出现时,它们碰到的都是安全策略者,所以它们的收益是0,所以冒险者不能入侵。如果冒险者站多数,它们的平均fitness是B,少量安全者也是不能入侵的,因为它们的fitness是b,而b<B。这是和囚徒困境不一样的冲突情况,但是它也很严重。因为对于个体和群体来说最好的策略都是冒险,但是如果大家目前处于安全状态,那么很难进入到更好的状态。上面的例子也是一个经典的问题,通常叫做猎鹿问题(stag hunt)。在猎鹿问题里,两个人可以选择安全的策略,那就只能猎杀小兔子这类猎物。但是如果他们愿意合作,就有可能猎杀鹿这样的大型动物。
合作的另一个困境就是同步协调的问题。假设有两种可能行动,如果两方同步一致,那么可以获得收益,否则就无收益。
A | B | |
A | b | b |
B | 0 | B |
假设B>b。最重要的事情是保持和另一方的协调一致。如果双方一致,不管是A还是B都是稳定的策略。但是从个体和群体来看,大家都采取B是更好的策略。如果群体大部分都是策略A,那么少量的B是无法入侵的,也就是说没有办法能够让群体进入更好的策略B。这也是一种合作的冲突,也就是怎么让所有的人都协调一致的选择对于所有人来说都是更好的策略。
在上面的两个例子中,两种策略(冒险/安全,A/B)都是稳定的策略,因此种群最终只会全部是单一策略,这样老鹰和鸽子的混合策略不同。在老鹰和鸽子的游戏中,自然选择会推动两种的比例达到平衡的状态,而在上面的两个例子中,如果同时存在冒险/安全策略,他们当然也可以达成平衡——在某一个固定的比例时fitness是一样的。但是这个平衡是非常不稳定的,某一方稍微大一些,就会不断增大比例最终导致全部人口都是这个策略。所以在这两个游戏中,自然选择会推到人口往一个极度发展。
在这里,平衡的比例依然值得关注,因为这个平衡点定义了basin of attraction。这个平衡点把两种策略的比例p切分成了两个区间,平衡点稍微往某个区间倾斜,那么自然选择就会推动比例往这个策略发展。我们来分析猎鹿问题,它的平衡点是这样一个人口比例——两种策略人口的平均fitness是一样的。假设p是人口中选择冒险策略的比例,那么平衡的条件是两种策略的平均fitness一样:
\[pB+(1-p)0=b\]平衡的条件是$p=b/B$,当$p<b/B$时,自然选择青睐安全策略,而当$p>b/B$时,自然选择青睐冒险策略。当b(相对B)足够小的时候,可能因为某些其它因素导致$p>b/B$,这样就可能导向我们比较期望的群体策略。但是如果b较大的时候,比如$b/B=1/2$的时候,如果当前的多少策略是安全策略,那么靠一些其它因素导致一半以上的个体从安全策略变异到冒险策略,这是非常困难的事情。
正向吸引(Positive Assortment)
解决合作问题中囚徒困境的一种方案是合作策略的采纳者能够有办法找到彼此而不是其它策略者。
再次考虑巡逻问题。假设成对的双方总是采取相同的策略。所以总是休息者和休息者配对,巡逻者和巡逻者配对。所以休息者的fitness是0,巡逻者是$b-c/2$。合作总是会得以进化。所以如果进化能够找到一种方法使得合作的策略者可以正向吸引彼此(Positively assort),这会帮助合作的策略进化。
生物学家和社会学家认为有很多种机制可以实现合作策略者的正向吸引。后面的章节会讨论这些机制。目前,我们暂时不考虑何种机制可以实现正向吸引,而只是从统计学的角度来建模它。具体地,假设巡逻者遇到巡逻者的概率是:
\[Pr(Patrol | Patrol) = r + (1-r)p\]其中r是吸引的概率,p是巡逻者的人口比例。所以当r=1的时候,巡逻者遇到巡逻者的概率是1。当然r<1时,巡逻者遇到巡逻者首先是吸引概率r,如果没有吸引(1-r),那么还有随机的概率根据人口比例p遇到巡逻者。而巡逻者遇到休息者的概率是:
\[Pr(Rest | Patrol) = (1-r)(1-p)\]这个概率有两种计算方法,一种是用1减去巡逻者遇到巡逻者的概率,因为两个概率加起来必须等于1,读者可以自己验证一下这两个概率加起来是不是等于1。第二种方法可以这样理解:巡逻者要遇到休息者必须满足两个条件,第一个是巡逻者没有通过吸引概率碰到巡逻者,这个概率是(1-r),同时根据人口比例,它遇到休息者的概率是(1-p),这两个值乘起来就是上面的式子。
现在我们来重新考虑什么情况下巡逻者是稳定的。当群体主要是巡逻者时,其平均fitness是$b-c/2$。当少量休息者出现时,它们的fitness是:
\[(r + (1-r)(1-p))0 + (1-r)pb\]上式第一部分是休息者遇到休息者的概率,又可以分为两部分:休息者彼此吸引的概率是r,休息者没有彼此吸引但按照人口比例有(1-p)的概率随机相遇。上式的第二部分是休息者没有吸引到休息者(1-r),并且按照人口比例遇到巡逻者的概率p。
当巡逻者占据主要人口比例时,$p \approx 1$,因此上式可以化简为$(1-r)b$。巡逻者想要稳定,则需要满足:
\[b-c/2 > (1-r)b\]重新整理后就是:
\[r > \frac{c}{2b}\]这是可能满足的,即使c>b(囚徒困境),比如c=3,b=2,只要$r > \frac{3}{4}$。
吸引也可以改变巡逻者的入侵条件。当休息者在人群中占据主要人口时,它们的平均fitness是0。少量的巡逻者的fitness是:
\[(r+(1-r)p)(b-c/2) + (1-r)(1-p)(b-c)\]因为$p \approx 0$,所以上式可以化简为$r(b-c/2)+(1-r)(b-c)$。如果要求巡逻者可以入侵休息者,那么要求上式大于0,化简之后为:
\[r > 2(1-b/c)\]所以有了正向吸引后,巡逻者是有可能入侵休息者的,即使b<c(囚徒困境)。不过它可能要求r是一个很大的值(甚至大于1这种不可能的情况),所以先不要着急庆祝(正向吸引可以克服囚徒困境)。
吸引行为在不同的游戏中表现有所不同。它会改变稳定条件和basin of attraction。然后进化过程的细节,比如吸引的基因结构、或者这种吸引是先天遗传还是后天学习得到,都有可能影响合作策略长期来看能否去掉成功。
- 显示Disqus评论(需要科学上网)