博弈论基本知识

一般来说提到博弈论就想到的是纳什均衡, 那就直接来看看纳什做了什么工作.

Nash, J. (1951). Non-Cooperative Games. Annals of Mathematics, 54(2), 286–295

纳什的博弈理论是基于缺乏联盟的非合作博弈形式, 即假设每个参与者的行动是独立的, 只关心自己利益的最大化. 考虑到每个人可以按照事先决定的概率分布在自己的策略空间混合, 对每个人来说, 对自己选取的每一种确定的行动, 就对应一个期望收益. 在非合作的前提下, 给定别人的策略, 每个人都希望自己的策略能够最大化自己的期望收益. 当每个人都不能通过仅仅改变自己的策略来提升自己的效益的时候, 就达到了一个纳什均衡点. 也就是说, 在一个均衡中, 某个人 ii 的策略 α\alpha 如果被以正的概率选择, 则给定其他人的策略时, 这个策略一定是可以最大化自己期望效用的策略中的某一个, 这也是纳什均衡的另一个充要条件.

以下是数学化的描述:

有限博弈:博弈中有 nn 个人, 每个人有有限个纯策略, 以及收益函数 pi:(π1,π2,πn)Rp_i: (\pi_1,\pi_2,\cdots \pi_n) \rightarrow \mathbb{R} 把所有人可能的纯策略映射到实数上.

混合策略 sis_i

玩家 ii 的混合策略是指在自己的纯策略空间上以非负的概率混合. 可以记 si=Σαciαπiαs_i = \Sigma_\alpha c_{i\alpha}\pi_{i\alpha}, 其中 ciα0c_{i\alpha} \ge 0Σαciα=1\Sigma_\alpha c_{i\alpha} = 1. 在这里, i,j,ki, j, k 表示不同的玩家, α,β,γ\alpha, \beta, \gamma 表示一个玩家的不同纯策略, si,ti,ris_i, t_i, r_i 表示不同的混合策略, πiα\pi_{i\alpha} 表示玩家 ii 的纯策略 α\alpha.

(完整的) 收益函数 pip_i

作为对上文收益函数的推广, 在混合策略是即是各个纯策略收益按照实现概率的线性组合, 用s\mathfrak{s} 来表示混合策略的 nn 元组, 这样的n元组 s\mathfrak{s} 也可以看做包含混合战略的积向量空间中的一点. 并且, 所有的n元组构成的集合是一个凸的多面体. 为了方便引入替代记号 (s;ti)(\mathfrak{s};t_i) 表示 s1,,si1,ti,st+1,,sn)s_1,\cdots , s_{i-1}, t_i, s_{t+1}, \cdots, s_n).

一个 nn 元组 s\mathfrak{s} 是均衡点当且仅当对于任意 ii, 满足

pi(s)=maxri[pi(s;ri)]p_i(\mathfrak{s}) = \max_{r_i}[p_i(\mathfrak{s};r_i)]

由线性性可得, 考虑最优时不用考虑所有的混合策略, 只要考虑玩家 ii 当前的混合策略能否实现自己采用任何纯策略的最大收益, 有 maxri[pi(s;ri)]=maxα[pi(s;πiα)]\max_{r_i}[p_i(\mathfrak{s};r_i)] = \max_\alpha[p_i(\mathfrak{s};\pi_{i\alpha})]. 所以另一个等价条件可以写作

pi(s)=maxαpi(s,πiα)p_i(\mathfrak{s}) = \max_\alpha p_i(\mathfrak{s}, \pi_{i\alpha})

由对每个人的以上等式可得, 均衡点可被表达为一个 nn 元组中 nn 个连续函数的等式同时满足, 因此均衡点形成了这个空间中的一个紧的子集. 事实上, 这个子集是由一些代数变元切割另一些代数变元形成的.

Since a criterion (3) for an eq. pt. can be expressed by the equating of n pairs of continuous functions on the space of n-tuples s\mathfrak{s}, the eq. pts. obviously form a closed subset of this space. Actually, this subset is formed from a number of pieces of algebbraic varieties, cut out by other algebraic varieties.

对于 nn 个人的有限博弈 (每个人的策略空间有限), 纳什证明了均衡点一定存在.

另外的一篇文章 (Proc. Nat. Acad. Sci. U.S.A.,36,pp.48-49) 基于角谷静夫不动点定理 (Kakutani’s generalized fixed point theorem) 证明了均衡点的存在性. 纳什的文章直接基于布劳威尔定理 (Brouwer theorem) 给出证明. 我们构造一个 nn 元组构成的策略空间上的满足若干性质的连续变换 TT, 使得 TT 的不动点就是博弈的均衡点.

定理1:任何一个有限博弈都存在均衡点.

证明: 记给定混合策略 s\mathfrak{s}, 而玩家 ii 采用纯策略 α\alpha 时对应玩家 ii 的收益为 piα(s)p_{i\alpha}(\mathfrak{s}). 定义关于 s\mathfrak{s} 的连续函数

φiα(s)=max(0,piα(s)pi(s))\varphi_{i\alpha} (\mathfrak{s}) = \max (0, p_{i\alpha}(\mathfrak{s}) - p_i(\mathfrak{s}))

并且, 对于每一个 s\mathfrak{s} 中的战略 sis_i, 我们定义其调整:

si=si+Σαφiα(s)πiα1+Σαφiα(s)s_i'=\frac{s_i + \Sigma_\alpha \varphi_{i\alpha}(\mathfrak{s}) \pi_{i\alpha}}{1 + \Sigma_\alpha \varphi_{i\alpha}(\mathfrak{s})}

s=(s1,,sn)\mathfrak{s}' = (s_1',\cdots , s_n')

接下来证明变换 T:(s)sT: (\mathfrak{s}) \rightarrow \mathfrak{s}' 的不动点就是均衡点.

对于任意的 nn 元组 s\mathfrak{s}, 考虑玩家 ii 的策略. 对于任意被赋予正的概率的策略 β\beta, 都应当满足 piβ(s)=pi(s)p_{i\beta}(\mathfrak{s}) = p_i(\mathfrak{s}), 所以 φiβ(s)=0\varphi_{i\beta} (\mathfrak{s}) = 0.

如果 s\mathfrak{s}TT 的不动点, 对于上述纯策略 β\beta 的概率应当不变, 考虑变换中 πiβ\pi_{i\beta} 策略的概率在变换前后相等, 则 Σαφiα(s)=0\Sigma_\alpha \varphi_{i\alpha}(\mathfrak{s}) = 0, 即对所有的 i,αi, \alpha, 都有 φiα(s)\varphi_{i\alpha}(\mathfrak{s}), 即没有人可以通过偏离自己的策略获得更高的收益.

布劳威尔定理证明了这样的变换 TT 一定存在不动点, 所以均衡点一定存在.

注意到这里的空间是凸且闭的, 并且函数连续

Existence of Equilibrium Points

博弈的对称性

一个在博弈上的自同构, 或者说变换, 是在它的纯战略集上进行的满足一定条件的置换.

如果某两个战略同属于一个玩家, 那么在这个变换下, 它们仍然属于同一个玩家

如果 ϕ\phi 是纯策略的一个置换, 它引导了玩家的置换 ψ\psi.

每个纯策略的 nn 元组因此可以被置换为另一个纯策略的 nn 元组. 我们称 χ\chi 为其诱导的 nn 元组上的置换;ξ\xi 为纯战略的 nn 元组, 那么我们要求:

j=iψthen pj(ξχ)=pi(ξ)j = i^\psi\quad \text{then } p_j(\xi^\chi) =p_i(\xi)

从置换 ϕ\phi 可以从 sis_i 线性拓展出混合策略

(si)ϕ=Σαciα(πiα)ϕ(s_i)^\phi = \Sigma_\alpha c_{i\alpha}(\pi_{i\alpha})^\phi

由此 χ\chi 也可以拓展到混合策略上, 我们定义对称 nn 元组

sχ=s,χ\mathfrak{s}^\chi = \mathfrak{s}, \forall \chi

定理2:任何一个有限博弈都存在一个对称均衡点.

证明: 首先我们注意到 si0=Σαπiα/Σα1s_{i0} = \Sigma_\alpha \pi_{i\alpha} / \Sigma_\alpha 1 具有性质 (si0)ϕ=sj0(s_{i0})^\phi = s_{j0}, 其中 j=iψj = i^\psi. 所以 s0=(s10,,sn0)\mathfrak{s}_0 = (s_{10}, \cdots, s_{n0}) 是一个对称n元组.

如果 s,t\mathfrak{s}, \mathfrak{t} 都是对称的, 则 s+t2\frac{\mathfrak{s} + \mathfrak{t}}{2} 也是对称 nn 元组, 满足以上性质, 因此

(s+t2)χ=s+t2(\frac{\mathfrak{s} + \mathfrak{t}}{2})^\chi = \frac{\mathfrak{s} + \mathfrak{t}}{2}

因此, 在 nn 元组构成的空间中, 对称 nn 元组构成的子空间仍然是凸空间.

现在考虑映射 T:ssT: \mathfrak{s} \rightarrow \mathfrak{s}',

如果

s2=Ts1\mathfrak{s}_2 = T\mathfrak{s}_1

χ\chi 来自博弈的自同构我们有 s2χ=Ts1χ\mathfrak{s}_2^\chi = T\mathfrak{s}_1^\chi.

如果 s1\mathfrak{s}_1 对称(即 sχ=s1\mathfrak{s}^\chi = \mathfrak{s}_1), s2χ=Ts1=s2\mathfrak{s}_2\chi = T\mathfrak{s}_1 = \mathfrak{s}_2.

因此, 在对称n元组空间中使用变换T的不动点定理, 同样可以得到一个不动点. 由此可见, 必定存在一个对称的均衡点.


布劳威尔定理与角谷静夫不动点定理

**布威劳尔不动点定理:**设 AARn\mathbb{R}^n 中的一紧致凸集, ff 为将 AA 映射到 AA 的一连续函数, 则 AA 中至少存在一点 xx 使得 x=f(x)x = f(x).

其后, 角谷静夫于1941年将此定理推广到点到集映射上. 函数是从点到点的映射, 而多值函数是从点到集合的映射, 所以角谷不动点定理可以看作布劳威尔不动点定理的一般化. 设对每一 xAx \in A, f(x)f(x)AA 的一子集. 若 f(x)f(x) 具有性质:对 AA 的任一收敛序列 xix0x_i \rightarrow x_0, 若 yif(xi)y_i \in f(x_i)yiy0y_i \rightarrow y_0, 则有 y0f(x0)y_0 \in f(x_0), 如此的 f(x)f(x) 称为在 AA 上半连续.

角谷静夫不动点定理:设 AARn\mathbb{R}^n 中的一个非空紧凸集, 对于任何 xAx \in A, 若 f(x)f(x)AA 的一非空凸集, 且 f(x)f(x)AA 上为上半连续, 则存在 x^\* \in A, 使得 x^* \in f(x^\*).