GTO的目标是实现什么?
最优博弈论(GTO) 这个术语,是一个在最近十年中在扑克界备受关注的概念。 GTO指的是不被剥削的固定策略。 它通常被人们视为扑克的圣经。
那么GTO策略到底是什么? 是什么让它“无法被剥削”? 它试图实现什么目标? 要理解这一点,我们首先需要了解纳什均衡的概念。
纳什均衡的定义
纳什均衡是一种状态,任何玩家都无法通过单方面改变策略来取得更高收益。 这意味着,在纳什均衡状态下,如果每个玩家都公布各自的策略,则没有玩家会去改变他们的策略,因为处于纳什均衡下,他们改变自己的策略都无法取得更大的收益。 纳什均衡在经济、商业谈判、战争以及大多数有限的非合作游戏(如扑克)中都有应用。
扑克中的“GTO”就是指这种平衡状态。 这是一个固定的、不可剥削的策略,不需要调整。
在这种情况下,“公开你的策略”意味着你的对手知道你在任何牌面下如何你会如何游戏你的范围。

注意 – “单方面”一词在多方博弈中会产生一些有趣的结果。 如果两个或更多对手同时改变策略来共谋对抗你,纳什均衡(以及任何其他策略)就可以被利用。 我们将在后面的文章中更多地探讨多人情况下的均衡策略。
GTO 策略的主要好处之一是它是固定的——你不需要依靠模糊不准确的“读牌”来做出好的决策。
“固定策略”是指不会改变的策略。 固定策略可能会改变其对不同牌面和不同下注大小的反应,但它总是会在同一位置以相同的方式游戏范围里的手牌。
另一方面,“动态策略”可以随时调整和改变。 剥削性策略是动态的,因为它会根据对手的漏洞进行调整。 当然,这需要读出对手的范围并不断调整你的策略。
固定策略与动态策略
假设你正在进行单挑。 你必须选择一个固定的策略并坚持下去。 你的策略将是公开的; 你的对手会准确地知道你在任何牌面、任何下注大小下如何游戏你的范围里的手牌。 打的好的对手会调整以利用你策略中的任何弱点。 他们会知道你什么时候过度诈唬。 他们会知道你什么时候价值下注偏多。 他们会知道你何时过度诈唬以及何时你的过牌范围比较薄弱。他们是有洞察力的。
这里的最佳策略是最大程度地减少所有漏洞,以增强自己抵御对手针对你的反制策略的能力。 你需要一些可以打败那些价值偏多的大紧逼和咋呼过度的疯鱼的策略。 GTO 是对抗动态的、洞察力强的对手的最强固定策略。 此外,它比任何人类水平的游戏都强,尽管它是一个固定策略。

GTO策略是如何计算的?
GTO 策略是通过称为GTO扑克解算器的强大软件来计算的。 解算器只是利润最大化的算法。 如果你强迫一名玩家采取糟糕的策略,算法将找到最好的(最大限度地利用)反制策略来利用这些错误。
如果你强迫这些剥削算法相互对抗,它们最终将迭代到一个平衡,即双方都无法利用对方漏洞来剥削对方。
* 从两名玩家 A 和 B 开始,使用完全随机的策略。
* 现在修复玩家 A 的策略,并让玩家 B 利用它们。
* 现在修复玩家 B 的新策略,并让玩家 A 利用它们。
* 现在修复玩家 A 的新策略,并让玩家 B 利用它们。
* 重复直到平衡。
请注意,还存在其他实现,但迭代利用算法的概念是每个求解器的核心。
达到平衡的进展以 dEV(增量期望值)来衡量,有时称为“纳什距离”。 该指标告诉您当前解决方案的可利用性如何; “delta”是最具剥削性的策略与当前策略之间的距离。 该数字越低,解决方案的可利用性越低,并且解决方案越接近平衡。
实际上,您很少会看到 0 dEV。 那是因为当你接近平衡时,取得进展就会变得更加困难。 GTO 向导解决方案的求解精度约为底池的 0.2% 至 0.3%。 这被认为远远超出了人类的准确性水平。
GTO VS 剥削打法
GTO 和剥削打法是相辅相成的。 GTO的目标是平衡; 剥削性游戏的目的是利用错误。
你不能在不知道某人如何偏离的情况下剥削他们。 如果没有某种共同的参考点,你不能说某人“太激进”、“太被动”或“太实牌”。 与什么相比太被动? GTO 建立了一个基准视角。 它将主观术语与客观事实分开。 一旦您了解了默认策略应该是什么样子,您就可以更准确地发现竞争对手的错误。
反之亦然。 如果不了解利用的基本原理,你怎么能期望理解最不可剥削策略背后的根本原因呢? 平衡是脆弱的。 GTO 是建立在一系列微妙的、完美平衡的开发潜力之上的。 如果一名玩家过于被动,另一名玩家可以停止引诱诈唬。 如果一名玩家跟注过多,另一名玩家可以停止诈唬。 如果一名玩家弃牌过多,另一名玩家可能会开始过度诈唬。 这一原则对于理解 GTO 解决方案背后的“原因”至关重要。
两种风格都是有利可图的。 每当对手采取 GTO 策略中不应该采取的行动时,GTO 风格都会被动获利(无需调整)。 剥削性玩家有可能通过利用错误获得比 GTO 更多的收入,但也面临着被反剥削的风险。
GTO的目标是什么?

GTO 的最终目标是创建一个无法被剥削的策略。 它的设计初衷是为了摆脱手牌思维浓重的思维层级战(leveling wars)、形象思维调整(metagame)和现场读人(reads)等旧观念。 它旨在通过应对最佳的策略来实现利润最大化(即不被剥削)。 这是玩家可以用来对抗动态的、不断调整的、剥削性的对手的最优固定策略。
简而言之,GTO旨在实现平衡。
翻译:金継
