德州扑克博弈论

2019-01-25 09:58:23

扑克和石头剪刀布游戏,以及经济学活动等一切博弈一样,是人与人之间的决策博弈,假设参与博弈的

所有人都是完完全全理性的,那么整个博弈就存在最优解,这个最优解叫GTo(Game Theory optimal,博弈

最优解)。


    4.1扑克的博弈论


    所调GT0就相当于玩石头剪刀布的两个玩家都是绝顶高手,为了不让对手找到漏洞,采取理想的无漏洞

打法,也就是33.3%的石头、33.3%的剪刀、33.3%的布。同理,扑克中的GTO打法,和石头剪刀布游戏里

各1/3的策略一样,都是无漏洞策略,虽然无法被对手找到弱点,但是也无法赢对手,属于最佳防守策略

。截止到2017年,全球的人工智能在德州扑克领域也一直按照扑克GTO策略制作机器人,2017年来自卡

内基梅隆大学的目前世界第一德州扑克人工智 MELibratus能,已经在少量手牌交战中战胜了4位人类高

手。之所以能赢人类高手,也是因为短期的波动比较大,人工智能刚好短期走运而已,当然 LIBratus的

GTO策略只能保证不输,类似于石头剪刀布各1/3的GT0策略。


    下面我们通过计算石头剪刀布游戏的GTO策略,来直观地看看GT0策略的=4.1.1GTO策略的特征。


    在石头剪刀布中要想赢对手,就必须看到对手策略中的漏洞,我们采取偏离GTO策略的克制对手策略

来盈利。


    例如,一个玩家采取GTO策略(石头剪刀布各1/)和我们玩石头剪刀布游戏,我们是无法获利的。


    (1)如果我们改变策略,36%出石头、32出剪刀、32%出布,下注量为100,对手策略不变,情况如下:


    我们36%的概率出石头的时候,对手有13的概率出石头,平局;1/3的概率出剪刀,我们赢100;1/3的概率出

布,我们输100。

    我们32%的概率出剪刀的时候,对手有1/3的概率出石头,我们输100;1/3的概率出剪刀,平局:1/3的概率出

布,我们赢100。

    我们32%的概率出布的时候,对手有1/3的概率出石头,我们赢1001/3的概率出剪刀,我们输100;1/3的概率

出布,平局。


    可以发现,我们和对手都没有盈利。


    无论我们怎么调整策略,“石头:剪刀:=32:36:32”也好,“石头:剪刀:布=32:32:36也好,甚至“石头:剪刀布=100:0:0”,
我们最终的盈利都为0,也就是说当对手采取GTO策略的时候,我们是无法获利的,当然对

手也无法获利。


    (2)如果对手不采取GTO策略,也就是说对手有漏洞,比如“石头剪刀:布=35:33:32,我们就可以采取更多

布的策略,完整克制对手的多石头策略。


    1如果我们的策略是“石头:剪刀:布=0:0100,也就是最大化地利用对手的漏洞,此时我们100%出布,对手35%出石头,
我们最终得到200(两个人各下注100,彩池为200),对手33%出剪刀我们得到0,对手32%出布我们平局,拿回100那么:

        EV(100%剪刀)=200×0.35+0×0.33+0.32×100-100=+2EV为正,说明我们的做法是盈利的。


    EV公式解释:我们最终拿回的102(200×0.35+00.33+0.32×100)减去我们之前下注的100,就是我们最终

的盈利EV


    另外需要说明的是,当我们采取最大化利用对手的漏洞时,对手很容易发现我们的策略(毕竟100%出布很明显,
对手也不是傻子)而采取反制策略,所以一般我们不会采取最大化利用策略,而采取平衡的混合

利用策略。


    100%出布的策略虽然是+EV,但是容易被对手发觉,然后对手调整石头剪刀布的比例,我们的策略就会

失效。

    如果我们应用混合策略“石头:剪刀:布32:33:35,因为对手剪刀没有偏向,33%差不多1/3,我们剪刀也

33%,对手的石头有2%偏多的倾向,我们布对应也应该有2%偏多,对手的布有1%的偏少倾向,我们的石头

也应该有1%的偏少倾向。假设彩池里面有200,我们和对手都投入了00,赢者拿下彩池。上面策略的量

化计算如下:

    ●我们出石头概率为32%,有35%概率碰到对手的石头而平局拿回100,有33%概率碰到对手的剪刀而赢

拿回200,有32%概率碰到对手的布而输拿回,计算石头的输赢分布,即0.32×(0.35×100+.33×200+0.32×0德州扑克高阶策略实战笔记


    ●我们出剪刀概率为33%,有35%概率碰到对手的石头而输拿回0,有33%概率碰到对手的剪刀而平局拿

回100,有32%概率碰到对手的布而赢200,计算=32.320

剪刀的输赢分布,即0.33×(0.35×0+0.33×10+0.32×200)=32.01


    ●我们出布概率为35%,有35%概率碰到对手的石头而赢拿回200,有33%概率碰到对手的剪刀而输拿回0,有32%概率碰到对手的布而平局拿回100,计算布的输赢分布,即0.35×(0.35×200+0.330+0.32×100)=35.07


    综合起来,32.32+32.01+35.07=100.03,扣除开始投入的100,EV=+0.03,也就是如果对手的“石头:剪刀:布=35:33:32”,
我们用石头:剪刀布=32:33:35”的策略对抗,那么我们的EV=+0.03,长期是可以盈利的,这种

混合策略不容易让对手当然,上面只是一个混合策略,我们也可以采取“石头:剪刀:布=20:33:47°发现

而改变其最初的比例。

 

    或者“石头:剪刀:布=20:20:60”等,只要我们的布占3%以上,石头占33%以下,就是可以获利的。

布越多,石头越少,EV值就越高,也就是越利用对手的漏洞,最极端的针对是“石头:剪刀:布=0:0:100”,这

样的极端策略针对初级玩家是可以的,比如在《德州扑克从新手到高手)一书的2.1节中我们学习了静

态博弈,也就是说对手是新手不会改变策略,或者说改变策略的概率很低,因为他不知道怎么调整打法。


    目前100个大盲以及以下筹码量的德州扑克GTO策略已经被完全解决,而筹码特别深比如300个大盲以

上的筹码深度的GTO策略依然没有解决。所以人工智能想要在深筹码的情况下战胜人类还是非常困

难的。


100-000-0000

工作时间: 周一9:00~周五18:00

在线留言