1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

囚徒困境中的合作

本帖由 漂亮的石头2016-09-14 发布。版面名称:知乎日报

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    487,766
    赞:
    47
    日报标题:即使是很经典的囚徒困境,人们想到的解决方法还是不完美

    [​IMG] Manolo,经济学/历史学爱好者

    这是在问题 Prisoner's dilemma: 为什么理性的抉择不一定是利益最大化? - 经济学下的回答。

    这是个很重要也很有趣的问题,也许可以用来澄清博弈论中一些概念。下面这段文字可能比较杂乱,期待能够探讨三个问题。一是纳什均衡意味着什么,二是现实中的囚徒困境和教科书上的有何不同,三是“理性”可能导致合作的一些情形。我会着重介绍康德均衡这个概念。这个答案另外一个用处可能是用具体例子区别“理性”和“自私”,这个混淆实在太常见了。中间有很多分岔,可以跳过,对答主问题的直接回答,尤其是“理性”“最大化”“合作”的关系,放在结尾两段。

    [​IMG]

    首先,看上面这张图,我们第一反应可能就是求纳什均衡,但在此之前也许可以多想一步。纳什均衡本身不是定见,它也是一个模型。除了它,我们还可以定义许许多多不同的解的概念,或者说“均衡”。只要对于某些博弈,新办法可以给出一个解,那这就是属于我们自己(更多情况下是某个前辈)的均衡。像 Von Neumann 和 Morgenstern,他们给的定义就是最大最小。

    定义可以有很多,但不是每个都能流传下来。纳什的留下来了,前几天去世的 Selten,他的子博弈纳什均衡留下来了,还有 Cho 和 Kreps 的序贯均衡暂时也留下来了,剩下有很多解可能都逐渐被遗忘了。像 Von Damme 写过一本均衡精炼,每一种精炼其实都是一种新的解定义。什么正则、严格、神性、绝对神性均衡之类,如果不是专门做理论,恐怕都不会去花太多时间吧。

    为什么如此?如果我们自己定义了一个解概念,判定这个概念好不好,一般有三个准绳:一是它适用范围广不广,二是它给的解数目是不是足够少,最好只有一个,三是它和实际吻合程度怎么样。最好是对每个博弈,这个概念都只给出一个解,这个解还和人们实际行动一致。如果这个工具真有,估计大部分做理论的都要退休了。可惜暂时还没有,说不定永远也不会有。

    纳什均衡之所以存留下来,一大原因就是它把上面三点兼顾得比较好。进入中级课程以后可能都会接触纳什均衡存在性定理证明,很简单但很美,有限人有限策略里纳什均衡都存在。很多著名博弈纳什均衡都不止一个,但考虑前一点,似乎也没有什么概念能够做得更好了。第三点也不错,虽然完全吻合例子少,但大体上人们玩的还是和纳什均衡比较接近。最后,纳什均衡可以做很多很多精炼,比如序贯均衡,就常常可以在复杂博弈里筛出一个性质特好的解。

    不过,纳什均衡不完美。比如这篇仗义辈谁?负心人谁?——来自纳粹德国庭审记录的证据 - 辍耕录 - 知乎专栏,即使面对纳粹的集中营,还是有六分之一义士选择不招,他们也遭受了更长的刑期。即使是实验室里做,也总有一些人选择合作。不要说囚徒困境,即使是实验室里的公共品博弈、最后通牒博弈或者独裁者博弈,也总有十几二十个百分点,甚至更多参与者选择贡献,或者把钱分给别人,哪怕是双方加上实验者都完全匿名的独裁者博弈,善人也有接近百分之十。

    问题在哪?说纳什均衡大体上解决了问题当然可以,但解释能精致一些也是好的。改善方法无非以下三种:一是推倒纳什均衡,再搞一个概念。二是说我们没把理论用好。三实际上是二的一种,引入重复博弈。我们不在这里讨论三,只考虑什么因素会驱使个体在单次博弈中采取合作行为。如果希望了解三,请参考 Mailath 和 Samuelson。知乎上有一个不错的概括有限次博弈是否存在合作? - 博弈论。重复的思路没法解释一次的、匿名的实验里为啥还会有合作。

    [​IMG]

    一的话同样有不少解决方法,2010 年由 John Roemer 提出的康德均衡是其中不错的一种解决办法。Roemer 是马克思主义者,很有思想,他关于剥削的研究非常有名气。二主要侧重点在这里:上面这个表里的 payoff,已经把参与者效用概括干净了,再用纳什均衡当然可以得到满意结果。生活中我们没法看到这个表的。我们可以说给参与者钱,很多钱,但他 / 她心里会有公益心,会在乎自我形象,会有良心,甚至可能讨厌钱。也许有这些看不到的东西在作祟。

    [​IMG]

    先谈一。纳什均衡强调每个人理性,而且每个人知道对方理性,有时甚至需要知道知道知道理性,无穷嵌套。康德均衡强调换位思考,换位不是指站在别人的利益上思考,而是要假想如果别人都和自己一样行动,别无二致,自己该怎么做。来点讨厌数学。假设有 [​IMG] 个参与者,策略都在集合 [​IMG] 里选,如果分别采取 [​IMG] ,则拿到效用是 [​IMG] 。上式就定义了博弈里的康德均衡:假如我动,别人一定马上跟着动。考虑这个前提下最优就是康德均衡。

    [​IMG]

    把这张图第三次请出来。这不是囚徒困境,但如果我们假设 [​IMG][​IMG] ,那它就变成了囚徒困境。把合作概率(一定在 [​IMG] 范围内)记成两个人策略空间,对称,可以用康德均衡求解。Roemer 证明了如果 [​IMG] ,两人总是合作;如果不是,两人合作概率都是 [​IMG] ,明显大于 [​IMG] 。为什么有时大家会维护公共品,不过度使用?为什么明明多自己一票少自己一票,候选人该当选都会当选,自己还会去投票?康德均衡可以给一个解释。

    需要注意一点:这里没有说康德均衡是更优的概念,只是说存在另一种解的概念,定义良好,对特定情形有解释力,可以在单次博弈中导出合作结果。Roemer 在 2014 年的另一篇论文作了更深入探讨,发现满足特定条件,帕累托最优在康德均衡能实施的集合里,很有意思。检验有两种,一是实验室里做,二是建演化模型,看看用这种办法决策的个体能不能生存下来。关于这个新概念这两类研究都很少。大家比较喜欢的办法主要是前面讲的第二种处理办法:利他。

    利他在经济学上主要含义是效用函数里有别人,但具体怎么把别人往效用里加,方法很多。大问题有两个:一是怎么加,二是要解释为什么可以加,尤其是在意别人的个体是怎么在进化里存活下来的。Becker 是这方面先驱之一,他用的效用函数是 [​IMG] ,两项分别是自己和别人的适存度。Andreoni 有个很好批评:如果大家真的纯粹利他,对公共品贡献不会有我们观察到那么多的,均衡下不会有人向红会、儿童救助、动物保护组织大笔捐款,因为一点点就够了。

    Andreoni 自己提出了一个理论,叫 warm-glow,意思是我们不仅在意别人利益,也在乎自己行善这件事情。很多人捐钱图个心安,做了好事心里会亮堂许多,这就叫 warm-glow,写成效用函数就是 [​IMG],其中第一项是自己消费,第二项是公共品或者总的善业,第三项是自己的善业。这个理论可以解释很多现象,但有一点解释不了:Gneezy 和 Rustichini 发现给上货币激励,给募捐者发钱,对总的募捐不一定有正面效果。所以,还得往里塞东西。

    我在物质奖励对孩子到底是好是坏?会不会打消学习的积极性或者最原始的目的性,算是教育的失败吗? - Manolo 的回答里提到自我图景的概念,意思是人会在乎形象,希望有好名声,不被人戳脊梁骨。Brekke,Kverndokk 和 Nyborg 文章就是这个思路,效用函数变成 [​IMG] ,四项分别是消费、闲暇、公共品和道德形象,这个道德形象由对公共品贡献和社会定的道德标杆偏离程度决定。标杆就是那个能最大化个体权重相同的功利主义函数的贡献水平。Benabou 和 Tirole 的文章也考虑形象,但个体可能迷失,忘记自己本性,模型要复杂很多。

    这里的 [​IMG] 还可以做一种解释,就是身份。March 和 Olsen 在 1995 年提到治理有两种思路。一是晓之以利弊。告诉你这样做有什么好处,有什么坏处,然后告诉他们自己可以带给他们好处。二是让他们明白自己的身份,比如说,应该为祖国而献身。前面讲了很多利他的设定,如果合适,都可以在单次囚徒困境里做出合作的结果。这里,如果一个人在乎自己形象,或者有自我愿景,或者很在意自己的身份,那也有可能理性地合作,比如双百人物里,这里的例子就不少吧。

    这些假说并不虚妄,有很多实证,像 Levine 就用很一般的形式 [​IMG] 对公共品博弈、蜈蚣博弈等做过估计,Camerer 书里有不少相关结果。另外还有一些方法,恰当设定,也可导出囚徒困境中的理性合作,比如 Fehr 的互惠惩罚、Heifeit,Shannon 和 Spiegel 的“有意犯错误”,等等。Alger 和 Weibull 说明,如果定义两种人,杨朱(完全自私)和墨子(兼爱,爱人如爱己)。只要相遇分开符合一定条件,不完全自利,介于两者之间的道德人可以在演化中幸存下来。他们把这个叫做康德伦理,但概念和前面提到的康德均衡完全不同。

    写了这么多,似乎什么都没有说,确实如此,但问题总是要回答的。何谓“理性”,什么是“最大化”,严格追究下都不清晰。我们可以把两点统一起来,称作解的概念。解有很多,不止纳什均衡一种,有其它解概念可以导出合作结果。实际中,环境不如教材纯净,个人可能利他,可能在意羽毛,可能迷糊,这些都有可能在单次囚徒困境(生活中的)里导出合作。纷纷扰扰,我们也不知道哪个最好,追求既有演化基础(为啥能一直传到今天),又有生理基础(脑袋那里亮起来了),还符合实际(从实验室到田野所向披靡)的解释,说是经济学的圣杯也不过分吧。

    另一方面讲,暂时没有定解,或者说有其它解概念,或者还有其它解释,这也给了我们灵活发挥空间。拿到实际情况,或者实际做实验,想办法揣摩心理,在这么多解释里排除到只剩一种,都很考验人。另一问题是理性是否等于自私,如果真的从头到尾读下来,恐怕不应该再有这种想法了吧。经济学里有 homo economicus,也有 homo moralis,还有 homo economicus evolves。也许上面说这些还会随着社会前进而变化,都是非常有趣而吸引人的问题。

    参考文献:

    Alger I, Weibull J W. Homo moralis—preference evolution under incomplete information and assortative matching[J]. Econometrica, 2013, 81(6): 2269-2302.

    Alger I, Weibull J W. Evolution and Kantian morality[J]. Games and Economic Behavior, forthcoming.

    Andreoni J. Impure altruism and donations to public goods: A theory of warm-glow giving[J]. The Economic Journal, 1990, 100(401): 464-477.

    Becker G S. Altruism, egoism, and genetic fitness: Economics and sociobiology[J]. Journal of Economic Literature, 1976, 14(3): 817-826.

    Bénabou R, Tirole J. Incentives and prosocial behavior[J]. The American Economic Review, 2006, 96(5): 1652-1678.

    Brekke K A, Kverndokk S, Nyborg K. An economic model of moral motivation[J]. Journal of Public Economics, 2003, 87(9): 1967-1983.

    Camerer C. Behavioral game theory: Experiments in strategic interaction[M]. Princeton University Press, 2003.

    Fehr E, Gächter S. Cooperation and Punishment in Public Goods Experiments[J]. The American Economic Review, 2000, 90(4): 980-994.

    Fehr E, Gächter S. Altruistic punishment in humans[J]. Nature, 2002, 415(6868): 137-140.

    Gneezy U, Rustichini A. Pay enough or don't pay at all[J]. Quarterly Journal of Economics, 2000: 791-810.

    Heifetz A, Shannon C, Spiegel Y. What to maximize if you must[J]. Journal of Economic Theory, 2007, 133(1): 31-57.

    Levine D K. Modeling altruism and spitefulness in experiments[J]. Review of Economic Dynamics, 1998, 1(3): 593-622.

    Levitt S D, List J A. Homo economicus evolves[J]. Science, 2008, 319(5865): 909-910.

    Mailath G J, Samuelson L. Repeated games and reputations: long-run relationships[M]. Oxford University Press, 2006.

    March J G, Olsen J P. Democratic governance[M]. Free Press, 1995.

    Roemer J E. Kantian equilibrium[J]. The Scandinavian Journal of Economics, 2010, 112(1): 1-24.

    Roemer J E. Kantian optimization: A microfoundation for cooperation[J]. Journal of Public Economics, 2015, 127: 45-57.

    Van Damme E. Stability and perfection of Nash equilibria[M]. Berlin: Springer-Verlag, 1991.

    阅读原文
     
正在加载...