当前位置:首页 >> 其它考试 >> 03 混合策略纳什均衡

03 混合策略纳什均衡


3 混合策略纳什均衡
主要内容

一、案例分析:门卫与小偷 二、混合策略纳什均衡 三、多重纳什均衡博弈 四、多重纳什均衡博弈的分析

一、案例分析
门卫与小偷:有一家公司为了防止盗窃聘请了一名门卫, 门卫与小偷:有一家公司为了防止盗窃聘请了一名门卫,但 是长期以来却发现仍有盗窃案件发生,公司讨论了两种方案, 是长期以来却发现仍有盗窃案件发生,公司讨论了两种方案, 一是只要有失窃案件,则加重惩罚门卫,另一方案是, 一是只要有失窃案件,则加重惩罚门卫,另一方案是,只要 抓住小偷,则联合公安机关加重对小偷的惩罚。 抓住小偷,则联合公安机关加重对小偷的惩罚。请分析哪种 方法对降低盗窃率有长效作用? 方法对降低盗窃率有长效作用?
守卫 睡 小 偷 偷 不偷 V,-D 0,S 不睡 -P,0 0,0

猜硬币博弈
猜硬币方 正 面 盖 硬 币 方 正 面 反 面 -1, 1 1, -1 反 面 1, -1 -1, 1

(1)不存在前面定义的纳什均衡策略组合 (2)关键是不能让对方猜到自己策略 这类博弈很多,还有哪些例子呢? 这类博弈很多,还有哪些例子呢?

二、混合策略纳什均衡

列参与人

s
1 s1
11

2 1
11

s
12

2 2
12

行 参 与 人

s1 2

a ,b a ,b
21

21

a ,b a ,b
22

22

? ? ?
?

2 sn

a ,b a ,b
1n 21

1n

21

?
s1 m

?

?
m1

?

a ,b
m1
i 1

a ,b
m2
i m

m2

?

a ,b
mn

mn

混合策略:在博弈 G = {S1 ,?Sn ; u1 ,?un } 中,博弈方 i 的策 混合策略 略空间为 S i = {s , ? s } ,则博弈方 i 以概率分布 Pi = ( p1 ,? pm)
i i

随机在其m个可选策略中选择的“策略”,称为一个“混合 策略”,其中 p ij 0≤
≤1

j 对,?, m =1

p 1i 都成立,且 + ? + p im = 1

混合策略扩展博弈:博弈方在混合策略的策略空 混合策略扩展博弈 间(概率分布空间)的选择看作一个博弈,就是原 博弈的“混合策略扩展博弈。
设行参与人的策略选择概率为 P = ( p1 , p2 ,? , pm ) ,列参与人的 策略选择概率为 Q = (q1 , q2 ,?, qn )
则参与人1的期望支付为 则参与人 的期望支付为

π π

1

( p, q ) = ∑∑ pi q j aij
i =1 j =1 m n

m

n

则参与人2的期望支付为 则参与人 的期望支付为

2

( p, q ) = ∑∑ pi q j bij
i =1 j =1

混合策略纳什均衡 设 P * = ( P * , ?, Pi* , ?, Pn* ) 是 n 人战略式博弈 G = {S1 ,?Sn ; u1 ,?un } 1 的一个混合策略组合,如果对于所有的

i = 1, ? , n ,

π i ( Pi* , P?*i ) ≥ π i ( Pi , P?*i ) 对于每一个 Pi ∈ ∑i 都成立,则称
混合策略组合 P * = ( P * , ? , Pi * , ? , Pn* ) 是这个博弈的一个纳什 1 均衡。 注意:在纳什均衡下, 注意:在纳什均衡下,没有参与人有积极性单独偏离或改 变该策略或策略组合。 变该策略或策略组合。

例1 流浪汉 找工作 游荡 政府 救济 不救济

3,2 -1 , 1

-1 , 3 0,0

假设政府救济的概率为θ ;流浪汉找工作的概率为 γ ; 则

max u1 = θ [3γ ? (1 ? γ )] + (1 ? θ )(?γ )
θ

max u 2 = γ [2θ + (1 ? θ )] + 3(1 ? γ )θ
γ

则θ = 0.5, γ = 0.2

例2
博 弈 方 1 A B

博弈方2 博弈方 C D 2, 3 3, 1 5, 2 1, 5

p1 × 3 + (1 ? p1 ) ×1 = p1 × 2 + (1 ? p1 ) × 5
p2 × 2 + (1 ? p2 ) × 5 = p2 × 3 + (1 ? p2 ) ×1
策略 得益 博弈方1 (0.8,0.2) 2.6 博弈方2 (0.8,0.2) 2.6

博弈方1的混合策略

博弈方2的混合策略

例3 扑克牌对色游戏

B 红 黑

A

红 黑

-1 , 1 1 , -1

1 , -1 -1 , 1

假设A出红牌的概率为 p;B出红牌的概率为 q ;则

U A ( p, q) = 2 p (1 ? 2q ) + (2q ? 1)
因此A的最佳反应函数为

? 0, 当q > 1 / 2 ? p = ?[0,1], 当q = 1 / 2 ? 1, 当q < 1 / 2 ?

同理

U B ( p, q ) = 2q (2 p ? 1) ? (2 p ? 1)
因此A的最佳反应函数为

? 1, 当p > 1 / 2 ? q = ?[0,1], 当p = 1 / 2 ? 0, 当p < 1 / 2 ?
p 1 1/2 0

p 1

1/2 0 1

q

( P * , q * ) = (1 / 2,1 / 2)
纳什均衡是: 和 出红牌还 纳什均衡是:A和B出红牌还 是出黑牌的概率都是1/2. 是出黑牌的概率都是
1/2 1 q

反应函数法

练习1: 练习 :利用反应函数法找出政府与流浪汉博弈的纳什均衡

流浪汉 找工作 游荡 政府 救济 不救济

3,2 -1 , 1

-1 , 3 0,0

假设政府救济的概率为θ ;流浪汉找工作的概率为 γ ; 则

u

1

= θ (5γ ? 1) ? γ , u 2 = γ [1 ? 2θ ] + 3θ

? 0, 当r < 1 / 5 ? θ = ?[0,1], 当r = 1 / 5 ? 1, 当r > 1 / 5 ?

? 1, 当θ < 1 / 2 ? r = ?[0,1], 当θ = 1 / 2 ? 0, 当θ > 1 / 2 ?

θ

(θ , r ) = (1 / 2,1 / 5)
* *

纳什均衡是:政府以 的概 纳什均衡是:政府以1/2的概 率选择救助,流浪汉以1/5的 率选择救助,流浪汉以 的 概率选择找工作。 概率选择找工作。

练习2: 练习 :利用反应函数法找出情侣博弈的所有纳什均衡 丽娟 足球 足球 2 , 1 大海 芭蕾 0 , 0
p 1

芭蕾 0,0 1,2

2/3

0

1/3

1

q

激励的悖论) 例4 (激励的悖论)有一家公司为了防止盗窃聘请了一名门 但是长期以来却发现仍有盗窃案件发生, 卫,但是长期以来却发现仍有盗窃案件发生,公司讨论了两 种方案,一是只要有失窃案件,则加重惩罚门卫, 种方案,一是只要有失窃案件,则加重惩罚门卫,另一方案 只要抓住小偷,则联合公安机关加重对小偷的惩罚。 是,只要抓住小偷,则联合公安机关加重对小偷的惩罚。请 分析哪种方法对降低盗窃率有长效作用? 分析哪种方法对降低盗窃率有长效作用?
守卫 睡 小 偷 偷 不偷 V,-D V -D 0,S 不睡 -P,0 -P 0 0,0

假设小偷选择偷的概率为θ ;守卫选择睡觉的概率 为 r ;则

U 2 (θ , r ) = [? Dθ + S (1 ? θ )]r

U1 (θ , r ) = [Vr ? P (1 ? r )]θ

分析得到纳什均衡

S P (θ , r ) = ( , ) D+S V +P
* *
守卫 得益((睡)

守卫 睡 小 偷 偷不偷 V,-D 0,S 不睡 -P,0 0,0

S

0

1 -D - D’

小偷 偷的概率

加重对守卫的处罚: 加重对守卫的处罚:短期中的效果是使守卫尽职 在长期中并不能使守卫更尽职, 在长期中并不能使守卫更尽职,但会降低盗窃发生的概率

S P (θ , r ) = ( , ) D+S V +P
* *

守卫 睡 小 偷 偷 不偷 V,-D 0,S 不睡 -P,0 0,0

小偷 得益(偷)

V

0 -P

1

守卫 睡的概率

- P’

加重对小偷的处罚: 加重对小偷的处罚:短期内能抑制盗窃发生率 长期并不能降低盗窃发生率, 长期并不能降低盗窃发生率,但会使得守卫更多的偷懒睡觉

监督博弈的纳税检查
? A 为应纳税款,C为检查成本, F是偷税罚款。 假定 C<A+F。不存在纯战略纳什均衡。请问: 如何才能降低纳税人逃税的可能性
纳税人 逃税 税收机关 检查 不逃税

A-C+F,-A-F

A-C, -A A,-A

不检查 0,0

课后作业: 课后作业:以“监督博弈”为关键词在学术期刊网上查找文献, 监督博弈”为关键词在学术期刊网上查找文献, 浏览至少三篇论文并精读一篇,写下笔记。 浏览至少三篇论文并精读一篇,写下笔记。

三、多重纳什均衡博弈
1)夫妻之争的混合策略纳什均衡
丽娟 足球 足球 2 , 1 大海 芭蕾 0 , 0 芭蕾 0,0 1,2
妻子的混合策略

pw(F)×2+ pw(B)×0= pw(F)×0+ pw(B)×1
丈夫的混合策略

ph (F) ×1+ ph (B) ×0 = ph (F) ×0 + ph (B)×2
夫妻之争博弈的混合策略纳什均衡
丈夫 妻子 策略 (2/3,1/3) (1/3,2/3) 得益 2/3 2/3

2)制式问题

厂商2 厂商 A 厂 商 1 A B 1, 3 0, 0 B 0, 0 2, 2

制式问题

制式问题混合策略纳什均衡
A 厂商1: 0.4 厂商2: 0.67 B 0.6 0.33 得益 0.664 1.296

3)市场机会博弈

厂商2 厂商 进 厂 商 1 进 不进 不进

-50,-50 100,0 0,100 0,0


市场机会

不进 1/3 1/3

得益 0 0

厂商1: 2/3 厂商2: 2/3

四、多重纳什均衡博弈的分析
? ? ? ? ? 帕累托上策均衡 风险上策均衡 聚点均衡 相关均衡 抗共谋均衡

1)帕累托上策均衡
(鹰鸽博弈)
这个博弈中有两个纯策略纳什均衡,(战争,战争)和 (和平,和平),显然后者帕累托优于前者,所以, (和平,和平)是本博弈的一个帕累托上策均衡。
国家2 国家 战争 国 家 战争 1 和平 -5, -5 -10, 8 和平 8, -10 10, 10 猎 人 鹿 1 兔子 鹿 10, 10 4, 0 猎人2 猎人 兔子 0, 4 4, 4

战争与和平

猎鹿博弈 帕累托上策均衡( 帕累托上策均衡(鹿,鹿)

2)风险上策均衡
考虑、顾忌博弈方、其他博弈方可能发生错误等时,帕 累托上策均衡并不一定是最优选择,需要考虑:风险上策均 衡。下面就是两个例子。
博弈方2 博弈方 博 弈 U 方 D 1 L 9, 9 8, 0 R 0, 8 7, 7 猎 人 鹿 1 兔子 鹿 5, 5 3, 0 猎人2 猎人 兔子 0, 3 3, 3

风险上策均衡( , ) 风险上策均衡(D,R)

猎鹿博弈 风险上策均衡(兔子,兔子) 风险上策均衡(兔子,兔子)

帕累托标准与风险优势的判断
猎人2 猎人 鹿 猎 人 鹿 1 兔子 10, 10 4, 0 兔子 0, 4 4, 4 猎 人 鹿 1 兔子 鹿 5, 5 3, 0 猎人2 猎人 兔子 0, 3 3, 3

猎鹿博弈 帕累托上策均衡( 帕累托上策均衡(鹿,鹿)

猎鹿博弈 风险上策均衡(兔子,兔子) 风险上策均衡(兔子,兔子)

设定均衡( 纳什均衡,( 设定均衡(鹿,鹿)为A纳什均衡,(兔,兔)为B纳什均衡 纳什均衡,(兔 纳什均衡
对于第一个博弈, 对于第一个博弈,

甲离A损失×乙离 损失 损失= 甲离B损失 损失=16 甲离 损失×乙离A损失=36 >甲离 损失×乙离 损失 损失 甲离 损失×乙离B损失
对于第二个博弈, 对于第二个博弈,

甲离A损失×乙离 损失 损失= 甲离 损失×乙离B损失 甲离B损失 损失=9 甲离 损失×乙离A损失=4 <甲离 损失×乙离 损失 损失

3)聚点均衡 ? 利用博弈设定以外的信息和依据进行选择 的均衡 ? 文化、习惯或者其他各种特征都可能是聚 点均衡的依据 ? 城市博弈(城市分组相同)、时间博弈 (报出相同的时间)是聚点均衡的典型例 子

4)相关均衡
博弈方2 博弈方 博 弈 U 方 D 1 L 5, 1 4, 4 R 0, 0 1, 5 可利用聚点均衡(天气,抛硬 天气, 天气 币),但仍不理想。 相关装置: 相关装置: 1、各1/3概率 、B、C 、 概率A、 、 概率 2、博弈方1看到是否 ,博弈方 看 、博弈方 看到是否 看到是否A,博弈方2看 到是否C 到是否 3、博弈方1见A采用 ,否则 ;博 、博弈方 见 采用 采用U,否则D; 弈方2见 采用 采用R,否则L。 弈方 见C采用 ,否则 。 相关均衡要点: 1、构成纳什均衡 2、有人忽略不造成问题

相关均衡例子 三个纳什均衡: 三个纳什均衡 (U,L)、(D,R) 和混合策略均衡[(1/2,1/2), (1/2,1/2)] 结果都不理想,不如(D,L)。

5)防联盟均衡 ) 博弈中若有三个及三个以上的局中人,就有可能部分人结 成“联盟”,在极大化联盟成员利益的同时损害了其他局 中人的利益。
甲 乙

L 0,0,10 -5,-5,0 A

R -5,-5,0 1,1,-5

乙 甲

L -2,-2,0 -5,-5,0 B

R -5,-5,0 -1,-1,5

U D

U D 丙

)、(D, , ) (U,L,A)、( ,R,B)——纯策略纳什均衡 , , )、( 纯策略纳什均衡 优于( , , ) (U,L,A) Pareto优于(D,R,B) , , ) 优于

设(U,L,A)是博弈的预测解,让丙固定于 ,则甲、 , , )是博弈的预测解,让丙固定于A,则甲、 乙两人之间的条件赢得矩阵为
甲 乙

L 0, 0,0 -5,-5

R -5,-5 1,1 1,

U D

(U,L)、( ,R)纳什均衡 , )、(D, ) )、( (D,R) Pareto 最优均衡 , )

甲与乙组成一个联盟与丙博弈,联盟的一方互相协调, 甲与乙组成一个联盟与丙博弈,联盟的一方互相协调,尽可能地 极大化联盟各个成员的赢利。 极大化联盟各个成员的赢利。 这时甲乙两人条件博弈的最优均衡仍是( , ) 这时甲乙两人条件博弈的最优均衡仍是(D,R)

(D,R,B)有效地防止了甲乙二人可能的联盟,避免了 有效地防止了甲乙二人可能的联盟, 丙的损失。在防联盟均衡这一层意义上,( ,(D 丙的损失。在防联盟均衡这一层意义上,(D,R,B)优 于(U,L,A)。





A 0, 0,10 -5,0

B -2,0 -5,0

L R

从甲 的角度看,不管乙与丙是 否结盟,条件博弈的均衡仍为 (L,A),不违背原博弈的均 衡(U,L,A)。

?对博弈的预测需要从整体出发,防联盟均衡应全面考虑。 ? 固定任何一个局中人的策略选择,其他局中人将协调在 条件博弈的最优均衡上。 ? 如果协调的结果偏离了原纳什均衡,则该纳什均衡不能 成为合理预测。

多人博弈中,如果存在多重纯策略均衡,任何k人 联盟都不会发生背离现象的均衡是一个合理预测, 符合这种推理的预测结局称为防联盟均衡。


赞助商链接
更多相关文档:

混合策略

混合策略和混合策略纳什... 4页 1下载券 混合策略纳什均衡 暂无评价 8页 1下载...混合策略(mixed strategy) : 表示采用每个纯策略的概率。 (注: 混合策略可以...

用非线性规划模型求解有限博弈的混合策略纳什均衡

用非线性规划模型求解有限博弈的混合策略纳什均衡 博弈方2 策略 博弈方1 策略 U L 混合策略 X1 X2 A Y1 3,5 4,3 B Y2 1,4 2,5 C Y3 5,7 0,3...

博弈论复习题及答案

在本题中不存在混合策略的纳什均衡解,因此,最终的纯策略纳什均衡就是 A、B 两厂商都做广告。 15、求出下面博弈的纳什均衡(含纯策略和混合策略)。乙 L 甲 U...

博弈论复习题及答案

子博弈完美纳什均衡路径: 两阶段都 采用原博弈同一个纯战略纳什均衡,或者轮流采用不同纯战略纳什均衡,或者两 次都采用混合战略纳什均衡,或者混合战略和纯战略轮流...

北邮信息经济学作业答案3

理由:代数求导——寻找纳什均衡的方法,只能求导混合策略纳什均衡,而囚徒困境只有纯 策略纳什均衡,不存在混合策略纳什均衡,故不能用代数求导方法求解。 10.解: 优点...

博弈论习题

博弈论习题一、判断题 1、纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。 2、若一博弈有两个纯战略纳什均衡则一定还存在一个混合战略纳什均衡...

博弈论复习题及答案

(2)如果参与者以 1/3 的概率选择每一个数字,证明该混合策略存在一个 纳什均衡,它为多少? 答: (1)此博弈的收益矩阵如下表。该博弈是零和博弈,无纳什均衡。...

...课后习题详解(第11讲 广延型博弈与反向归纳策略)

表 11-2 策略型博弈的支付矩阵 (1)纯策略纳什均衡为: ( L , l )和( R , r )。(2)混合策略就是一个概率分布,表明参与人实行每个纯策略的概率。比如在...

博弈论期末复习题

试给出下述战略式表述博弈的纳什均衡 B L A U D 1,3 4,1 R 2,5 6,2 解:由划线解得知有一个纯战略均衡( D, R ) 再看看它是否有混合战略均衡 设 ...

博弈论复习题及答案

子博弈完美纳什均衡路径:两阶 段都采用原博弈同一个纯战略纳什均衡,或者轮流采用不同纯战略纳什均衡,或 者两次都采用混合战略纳什均衡,或者混合战略和纯战略轮流...

更多相关标签:
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com