周末想圍觀人機德撲大賽?這有10條觀(zhuang)戰(bi)指南
關於德撲AI有兩個核心問題: "它是如何工作的?" 和" 為什麼這麼玩能贏?" 對於第一個問題的答案是一些算法的名字(i.e. Counterfactual Regret Minimization)。對於第二個問題的答案是博弈論中的一些概念(i.e. Nash Equilibrium)。網上已經有很多好的文章,有興趣的同學可以看看。
但如果你跟我一樣,同時對AI和德撲都非常感興趣,除此之外肯定還有一大堆跟進問題。出於好奇,我最近看了不少相關資料。以下是我認為一些比較有趣的問題:
1. 網上都說AI太厲害了,人基本上沒有希望贏
這個比賽還有什麼看點嗎?
我認為還有好幾個有趣的觀察點。其中我最感興趣的一個問題是: “中國隊的最終結果是否能夠接近於美國隊的結果?”
美國的4個選手最終的結果是-14BB/100。也就是說,平均每跟AI打100手牌,就會輸掉14個大盲注。中國戰隊是否可以超越這個成績,還是很有懸念的。
2. BB/100是什麼? 我隻聽說AI上次贏了好幾百萬
錢數是個虛榮數據,完全沒有意義的。其實第一次比賽並沒有用真錢,所以"幾百萬"隻是一個為了傳媒效應而隨機選出來的倍數。如果當時他們玩的是1分/2分,結果也是一模一樣的。隻不過標題如果是“AI贏了人類73.2塊錢”,聽上去就沒有那麼厲害了。
真正評價一個選手的實力,也就是幾個基本指標。比賽玩家最終看ROI(投資回報率),現金玩家最終看BB/100。
BB/100就是每打100手牌,你平均會贏或會輸多少個大盲注。例如,如果你平常跟朋友打5塊/10塊的局,每次buyin1000,每周打200手牌,打一年(~50周),然後最後水上5000塊錢,那麼你的勝率就是 5BB/100。
AI德撲讓我最興奮的一點,是我們終於可以去客觀衡量一個牌手的實力。
國際象棋有ELO,圍棋有段級,但德州撲克一直以來都沒有級別標準。我們今天討論某某德州高手,都還用一些大型比賽成績來代表實力。這是非常不科學的。 如果我們願意承認AI已經接完美戰略,那麼每個人的對戰結果其實就是一個可對比的實力分數。
3. 中國隊和美國隊的實力比起來如何?
首先這裏有一個需要解釋的關鍵點: 不同類型的德州撲克玩法是很不一樣的。錦標賽和現金局不一樣;1v1,6人桌,9人桌不一樣;線上和線下比賽也很不一樣。當然這些遊戲之間有很多基礎理論是相同的。十幾年前,因為整體水平低,一個懂的基本理論的玩家無論玩什麼遊戲類別都有很大優勢的。但如今因為競爭壓力,很多職業選手都選擇專研一兩個垂直領域。
拿遊泳做比喻: 一個優秀的遊泳運動員在所有項目中都會比普通人快很多。但在奧林匹克級別競爭中,400m的自由泳世界冠軍也很難在50m蛙泳中拿到好成績。
國外的德州撲克生態環境近年來並不好,能賺錢的地方越來越少,競爭也越來越激烈。美國比賽的4位選手都是線上1v1專家。
中國土豪多,可以支持良好的線下現金局和線下多桌錦標賽。在這兩種形式中,中國也有世界級高手。但跟AI玩的是1v1。
我跟這次戰隊中一半的選手認識,並一起打過牌。毫無疑問的是他們都有超強的學習能力。不管是打德撲,做企業,做投資,他們都可以在很短時間內成為行業專家。聽說杜悅老師在帶隊急訓1v1打法,希望他們可以創造奇跡!
4. 這次比賽有多少運氣成分?
美國比賽打了12萬手牌,這次中國比賽“隻”打3萬手牌,雖然如此,運氣成分還是是非常少的。
3萬手的概念大概是這樣的:假設你每天晚上都跟一幫朋友打4個小時牌,一周5次,一年也打不了3萬手。
另外Libratus的比賽環境還有一些降低隨機性的功能。
5.AI的打法跟人有很大差別嗎?
我們大概可以把德州撲克玩家分為三類:
Group 1: 初學者 - 懂得基本遊戲規則,賠率。
Group 2: 業餘玩家 - 懂得EV,和一些其它的基本遊戲元素(比如籌碼量,位置,和牌力等因素的運用)。
Group 3: 高手/專業玩家
Group 2 與 Group 1的最大差別是學會怎樣用期望價值(EV)來做決策。Group 3與 Group 2的最大區別是意識到不能隻考慮當下手牌,而要考慮整個範圍(range),並達到戰略上的平衡。
有趣的是,AI的思維方式跟頂級高手是相似的。區別是AI可以做到更精準的範圍推測與計算。
6. AI會詐唬 (bluff) 嗎?
當然。這個問題背後有個錯誤假設,就是詐唬的關鍵在於心理與勇氣。其實詐唬更多是一道數學題: “對於我的範圍與對手的範圍,如果這手牌重現10次,我詐唬 0次,3次,或10次,哪個期望價值最高?”
7. AI可以讀牌嗎?
同樣與上,這個問題的假設是讀牌主要靠觀察肢體語言或眼神。但其實讀牌本質上就是在做範圍預估。
如果你能搞懂AI的算法為什麼work,你已經是個德州高手了。
8. 用一些“奇詭”的戰略有沒有可能把AI搞煳塗?
不可能。這個AI的原理就是試圖去玩一種防守型完美戰略,等著你來犯錯誤。從博弈論角度上,胡亂打法隻是做到了“失去平衡”。
比如起手raise的數量很多都是在2-3個大盲之間。這個數字不是個慣例,是可以用數學原理證明的。如果你20個bb起raise,那麼你就失去平衡了。"20bb 起raise"僅是一個很容易被AI利用的漏洞。
詐唬太多,下注太大,隨機推all in,這些都是典型的“不平衡”戰略。如果有選手試圖用這些套路來擾亂AI,會輸的很慘。
9. 這個AI機器人放到網上打牌豈不是賺爆了?
拋開技術問題(硬件成本,軟件對接)不說,真的想靠一個1v1機器人賺大錢還是有難度的。線上高額1v1是個非常小的盤子,大部分玩家也會避開明顯比自己厲害的對手。
前幾年兩個頂級高手Doug Polk 和 Ben Sulsky 對決了一次。最後Doug大勝(+25BB/100)。結果是什麼呢?之後再也沒有人願意跟Doug打1v1比賽了,所以他就隻能退休了。
另外,5-6年前網上就有很多可以打敗90%的選手,並可以持續賺錢的機器人了。想靠德州撲克賺錢,最重要的其實不是打遍天下無敵手,而是選桌。
10. AI具體用什麼手段打敗人類
GTO打法雖然是“防守型”打法。但並不是說不進攻,而是找到平衡點。很多場景下,人類的打法才是過於保守的,所以為了達到真正平衡,AI會比人選擇更狠,更大膽的套路。
美國參賽選手賽後的采訪中,提到了一些AI戰術上的特點,包括經常超池下注(overbet),給對手造成極大的壓力,並能做出人類(因為心裏素質缺陷)做不到的(但是正確的)bluff。
我之前看過一個美國隊牌手的采訪,他們說AI跟Tom Duan, Doug Polk這類牌手有很多相似之處。但AI比他們更冷血,更可怕。
如果你不熟悉以上牌手的風格,可以看一個例子:
(Sammy: 我手持兩對,在1v1中是非常強的一手牌。對手的範圍有很多bluff,我bet也沒有價值,不如check做一個陷阱,準備check call)
(Tom: 這裏bluff1/2pot-2/3pot是賠錢的。相對來說fold可能是個更好的選擇...
...但是還有一個選擇是平常牌手不會考慮的。對手的範圍裏麵有很多A,因此有同花或更強牌的可能性不大。這是一個capped range的情況。如果我這裏打一個超pot的bluff,也許可以達到80%以上的棄牌率,EV更高...
All In!)
(Sammy: 呃... ... 雖然我有2對,其實我隻能贏一個bluff。真的有人敢在這麼危險的牌麵上推出來一個超pot all in嗎? 看來我隻能good fold了)
(Tom: )
(Sammy: )
無論結果如何,這場比賽一定很精彩!
原文發布時間為:2017-04-07
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-19 13:33:34