Tuesday, 24 May 2022

人工智能是如何征服扑克游戏的

 划重点:

AI 工具从根本上改变了玩扑克游戏的方式

冯·诺依曼认为,现实生活就像打扑克

通过以数学上精确的频率去诈唬和跟注,玩家的长期表现不会亏

美妙感觉

去年 11 月,拉斯维加斯的里奥(Rio)赌场,在巨大的亚马逊房(Amazon Room)里有二十几个男人,他们主要穿着运动衫戴着棒球帽,一起围坐在三张破旧的扑克桌旁玩德州扑克。偶尔会有几个路人驻足下来观看比赛,但除此以外,就剩下玩家们默不作声地反复翻弄手中的筹码。除了在牌局中保持着紧绷的、电击般的静止外,既没有任何外在迹象表明这帮人是全世界最伟大的扑克玩家,他们也没有像玩牌的老话所说的那样,是“为了房子而玩”,或者至少是为了高额首付而玩。这是为期三天的锦标赛的第一天,其官方名称是世界扑克超级豪客系列赛(World Series of Poker Super High Roller),不过参赛者在每人交了 250000 美元后,就干脆把它叫做 “250K”了。

在一张牌桌上,职业玩家 Seth Davies 偷偷地掀开手上纸牌的一角,开始琢磨自己刚刚拿到的这手牌:方块六跟方块七。经过几个小时的比赛之后,Davies 已经设法将自己的筹码从 150 万增加到 200 万以上,并且把其中一部分推出来作为加注。曾经是大学棒球运动员的 Davies 现年 33 岁,留着修剪整齐的浅棕色胡须的他身子直挺挺地坐着,一边密切地关注着别人的叫注。在 Dan Smith 之前已经有 2 人跟注,这位圆脸、长着小胡子、戴着一顶古怪的牛仔帽的职业选手选择了加注,而且是大额的加注。这次只有 Davies 跟了。

庄家开出了一张 K,一张四和一张五,都是梅花,给了 Davies 一手顺子听牌。Smith 选择过牌(不下注)。Davies 下注。Smith 跟注。转牌是方块二,Davies 的顺子没成。Smith 再次选择过牌。Davies 还是下注。Smith 再次跟注。最后一张牌是梅花二,这是 Davies 提高自己这手牌实力的最后希望。截止到目前,在那褪色的绿色毛毡覆盖的桌子中央,底池已经增加到超过一百万的筹码。最后一个二使得牌面出现了四张梅花,这意味着如果 Smith 手上只有一张梅花,他就能得到同花。

一直在下注的 Davies 需要一张八或者一张三才能将自己的这手牌变成顺子,但现在,这两样牌他都没拿到。Smith 第三次选择过牌,Davies 思考了将近一分钟,然后宣布自己全押,把剩下的 170 万筹码都推了出去。如果 Smith 跟注的话,Davies 将会被淘汰出局,他的那 25 万美元的报名费,则会在一次不合时宜的虚张声势中化为乌有。

Smith 从牛仔帽的檐下打量着 Davies,因为对 Davies,或者,也许是对运气本身的恼羞成怒,面孔已经扭曲到变形。最后,Smith 的表情定在了怒眉睁目,无奈弃牌,庄家把五颜六色的一堆筹码推向 Davies 的方向。按照 Davies 的说法,打完这手牌时,他的感受与其说是胜利了,不如说是解脱了。

他后来说:“玩的这个底池其实价值是 50 万美元。压力实在是太大了。”

最终的确认其实要等到那天的凌晨 2:30 左右,在第一天比赛结束之后,Davies 从里奥赌场酒店驱车,用了 15 分钟的时间回到自己位于拉斯维加斯郊外的家中。在他家车库附近的一间办公室里,他打开了一个计算机程序,这款名为 PioSOLVER 的程序是少数人工智能型扑克辅助工具之一,在过去几年的时间里,这些工具也已经从根本上改变了玩扑克游戏的方式,尤其是顶级扑克的游戏方式。Davies 将这手牌的所有细节输入进去,然后开始让程序跑起来。这个求解程序一下子就生成出一个最优策略。程序给出结论说,Davies 大多数情况下都做对了。在转牌圈发了方块二时,他的下注应该是底池的 80% 而不是 50%,但河牌圈诈唬的 170 万筹码是正确的玩法。

Davies 说:“那种感觉真妙。甚至比赢下一个大底池还要妙。真正令人满足的地方是当你赢下像这样一场比赛的时候。” 在确信自己这手牌下出了近乎完美的水平之后,Davies 那晚睡得很安稳。

完美扑克

对完美扑克的追求至少可以追溯到 1944 年。那一年数学家约翰·冯·诺伊曼以及经济学家奥斯卡·摩根斯坦(Oskar Morgenstern)发表了《博弈论与经济行为》。这两个人想要纠正一个东西,他们认为,在经济学领域根本上存在着不精确性。他们写道: “我们希望能找到具备数学严谨性的原则,去为社会经济参与者定义‘理性行为’,并从中推导出该行为的一般特征。”他们认为,经济生活应该被视为一系列的最大化问题,在这些问题中,个体参与者会竞相从每日的辛劳中获取尽可能多的效用。如果冯诺依曼和摩根斯坦能够对做出正确决策的方式进行量化的话,那么他们就能够在坚实的基础上建立起一门经济学科学。

正是这种要为经济决策建模的渴望,导致了他们要玩玩游戏。冯·诺依曼拒绝了大多数不适合这项任务的游戏,尤其是像跳棋或国际象棋这样的游戏。这种游戏玩家双方都可以看到棋盘上的所有棋子,并共享相同的信息。他向同为数学家的雅各布·布朗劳斯基(Jacob Bronowski)解释道:“现实生活不是这样的。现实生活会有虚张声势、还会有欺骗的小花招、会自问别人会认为自己打算做什么。这才是我的理论里面想要的游戏。”冯·诺依曼认为,现实生活就像打扑克。

冯·诺依曼使用的扑克游戏是简化版。在这种游戏里面,会给其中的两名玩家随机“发放”对方看不见的数字,然后要求双方按照预定大小下注,赌谁的数字更大。冯诺依曼推导出了最佳策略的基础。玩家既应该在拿到最好的牌的时候下重注,也应该在拿到最糟糕的牌的时候,按照一定的次数比例下重注,作为诈唬。(这个比例的变化取决于下注的大小相对于底池的大小。)冯·诺依曼证明,通过以数学上精确的频率去诈唬和跟注,从长远来看,玩家的表现不会低于收支平衡,而且就算他们把自己的策略一五一十告诉对手也不会亏。更好的是,如果他们的对手不采用冯·诺依曼描述的完美策略,那么只要样本足够大,这些对手采取其他任何策略肯定都会输。

“博弈论”指明了通往未来之路。在这个未来里,各种竞争性的互动都可以用数学的方式建模:比方说拍卖、潜艇战,甚至是物种将基因传递给后代的竞争方式都可用这种方式建模。但在策略方面,扑克本身在响应冯·诺依曼的证明方面几乎没有进步,直到 50 多年后,阿尔伯塔大学(University of Alberta)计算机科学系的人才接过了这项任务。该系游戏研究的早期明星是一位叫做 Jonathan Schaeffer 的教授,经过 18 年的攻关,他终于发现了跳棋的解决方案。阿尔伯塔大学的师生在围棋、黑白棋、《星际争霸》以及加拿大人的消遣运动冰壶等多种游戏方面也取得了重大进展。不过,扑克仍然属于特别棘手的问题,这正是冯·诺依曼当初被它吸引的原因:这种游戏里面的隐藏信息阻碍了好决策的制定。

像国际象棋或西洋双陆棋这样的游戏,在棋盘上双方玩家的动作都清晰可辨,但扑克不同,尽管计算机永远都没法确定对方拿的是什么牌,但仍必须解读对手的下注。 Neil Burch 是一名计算机科学家,在加入人工智能公司 DeepMind 之前,他曾在阿尔伯塔大学以研究生和研究员的身份研究了 20 年扑克,但他认为自己的团队早期的尝试非常不成功。他说:“我们发现,如果你找个见过世面的扑克玩家来跟电脑比赛”,程序就会“被碾压,彻底被击败”。

从某种程度来说,这只是建模难度的函数而已。所谓的建模,是指对玩扑克时牵涉到的所有决定进行建模。博弈论学者使用分枝树状图来表示游戏不同的玩法。如果是像剪刀石头布这种简单的游戏,这张分枝树状图就很小:就三个分支,分别表示出石头、剪刀以及布,然后每个分支的又可以引出三个分支,分别对应对手可以出的石头、剪刀以及布。游戏越复杂,这棵树就越庞大。即便是简化版的德州扑克,玩“单挑”(即只有两个玩家玩)而且赌注固定在预定大小,一棵完整的游戏树也会包含有 316,000,000,000,000,000 个分支。如果是玩下注金额不限的无限德州(no-limit hold ’em)的话,树的规模甚至更加庞大。Burch 说: “确实会变得非常庞大,大到什么程度?比宇宙中的原子数量还要多。”

一开始,阿尔伯塔大学研究小组的做法是尝试把游戏规模缩小到更易于管理的范围——简单粗暴地将多多少少有点相似的牌归到一起,比方说,把一对九跟一对十看作是相同的。但是,随着人工智能这个领域发展得更加强大,并且随着团队的算法能更好地适应了扑克的复杂性,它的程序也开始得到改进。这一发展的关键是一种叫做虚拟遗憾最小化(counterfactual regret minimization)的算法。计算机科学家给机器布置任务,让它们识别出扑克的最佳策略,方法是让程序跟自己对战数十亿次,并记录游戏树里面哪些决策的利润最低(那些就属于“遗憾”,人工智能就能通过做出其他更好的选择,从而学会在未来的迭代中将遗憾最小化)。 2015 年,Alberta 团队在《科学》杂志上发表了一篇文章,标题叫做 “双人限注德州扑克已被攻克”(Heads-Up Limit Hold'em Poker Is Solved),宣布 AI 取得成功。

对于某些玩家,尤其是那些靠玩在线扑克为生的玩家来说,阿尔伯塔大学研究小组的胜利对他们的生计构成了严重威胁。曾经是职业玩家的 Terrence Chan 说: “我记得当我们读到这篇文章时,大家的感觉就好像,‘噢,这下子比赛精彩了,这一次一定会很有趣。’”

情况很快就很清楚了,对计算机能发现最优策略的能力感兴趣的不仅仅是学者。阿尔伯塔大学团队的一位前成员,因为跟目前雇用他的软件公司签有保密协议,所以要求本文不要透露他的姓名,但他告诉我,自己已经拿到了数十万美元的报酬,条件是帮助扑克玩家开发能够识别完美玩法的软件,以及为开发能够在在线游戏中击败人类的机器人的程序员提供咨询。付不起那么多钱的玩家不需要等待很长的时间就可以获得更实惠的,由 AI 提供的策略。《科学》杂志发表攻克双人限注德州扑克文章的同一年,一位叫做 Piotrek 的波兰计算机程序员与前在线扑克玩家 Lopusiewicz 一起,开始售卖他的应用 PioSOLVER 的第一个版本。只需 249 美元,玩家就可以下载一个近似于更复杂的无限制版德州扑克游戏的解决方案。到了 2015 年,任何拥有足够强大的个人计算机的人,都可以用得起冯·诺依曼数学证明的实际实现了。

Friday, 13 May 2022

民主的本质又是什么?

作者:那时花开
链接:https://www.zhihu.com/question/444966369/answer/2067570068
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

绝大多数在这个问题下瞎起哄的人其实根本不了解民主是什么,以为民主就是一人一票,就是乱哄哄的政客狗咬狗,就是面对疫情无能为力的不负责任的政府。卡尔波普对民主的定义是:一种与独裁或暴政相对立的政体,其重点是人民有机会控制他们的领导人,并且无需发动革命即可将他们赶下台(democracy... in contrast to dictatorship or tyranny, focusing on opportunities for the people to control their leaders and to oust them without the need for a revolution)。从这个定义里我看不出民主这种价值观有什么问题。

美国在建国之初并未实行民主,恰恰相反,美国建国者们对民主并不信任。那时候他们理解的民主是古希腊式的直接民主。之所以美国选择了今天这个制度,是各方妥协的产物,发现只有这样做才能充分考虑到各方的利益诉求。直到今天,美国的宪政体制对民主也充满了警惕和制约,比如选举总统采用的是选举人票制度,而不是一人一票直选总统。

之所以对民主制度加以制约,是因为美国人深信不受制约的民主一定会导致多数人的暴政。制约多数人暴政要靠法律,更要靠自由的精神。

打个比方,两只狼和一只羊投票表决今晚吃什么,这就是民主。而羊有权利武装起来反抗这次投票,这就是自由。在羊武装反抗之前,可以向最高法院提诉保护自己,这就是法制。在投票之前,狼和羊首先坐下来,商定规矩,凡是涉及到吃饭的话题一律不适用于投票,这就是宪政。

--------------------------------------------------------------

更新(2022-4-18):

评论区有人质问我,民主到底有什么好处?其实答案很简单,民主可以避免暴政。这在20世纪民主国家与非民主国家的对比中可以看得非常明显,20世纪最骇人听闻的国家级的暴政全部发生在非民主国家,如前苏联处死40万人的“去哥萨克化”红色恐怖屠杀,叶若夫时期处决70万人的大清洗、1932年饿死300万人的乌克兰大饥荒、1937年在蒙古制造的大清洗、柬埔寨死了200万人的“红色高棉”大屠杀、保加利亚/前东德/罗马尼亚在农业集体化运动中的政治迫害、米洛舍维奇在前南斯拉夫制造的种族屠杀、北朝鲜迫害100万人致死的劳改营、埃塞俄比亚在1977年制造的红色恐怖,等等。这些暴政全部发生在非民主国家,是政府利用手中的军队警察等暴力机器对自己国家民众的迫害。

说到暴政,一定会有人想到美国对印第安人的所谓屠杀。这也难怪,印第安人在中国人缘特别好,每次美国受到肯定,或者国内受到批评时,总会有人把北美印第安人拉出来打抱不平一番。

首先得说,咱们讨论的是20世纪,不是古代。人类是不断进步的,古罗马有斗兽场,逼活人和牲口斗,相当残忍,您不会据此认为意大利的人权状况比北朝鲜还操蛋吧?

事实层面,印第安人在17世纪的人口大量减少的主要原因是白人带去的霍乱、伤寒等传染病,并不是什么屠杀,屠杀也有,但主要是西班牙人干的,而西班牙那时算什么民主国家?至于美国,那时候连国家都不是,是英国的殖民地。19世纪美国西进运动倒是杀了一些印第安原住民,但满打满算也就1万人出头,和20世纪任何一场非民主国家的暴政相比连零头的零头都算不上。

--------------------------------------------------------------

更新(2022-4-19):

昨天说了民主,今天再说说自由。

在中文语境里,“自由”仅仅在字典里是褒义词,在实际语境里相当大比例都是贬义,如资产阶级自由化,自由散漫,自由放纵,等等,全是贬义。古代文献里对自由的贬义化就更明显了,《东周列国志》载:“怠弃朕命,行止自由,如此不忠之臣,要他何用”,晋武帝司马炎下诏指责王浚:“忽弃明制,专擅自由”,也都是贬义。中国人自古以来就认为自由是与秩序对立的,自由多了秩序就会失败,建立秩序就要限制人们的自由。

所以,也就难怪911之后小布什的演讲多数中国人是听不懂的。小布什一开始就提到:Tonight, we are a country awakened to danger and called to defend freedom(今夜,我们是一个被危险唤醒并致力于捍卫自由的国家)。中国人一定听得云里雾里:捍卫自由?恐怖分子炸了美国大楼,怎么就威胁到美国人的自由了?

然而美国人里即使是没受过什么教育的人也立即能听懂小布什的意思,因为“自由”在美国语境里是非常具体而确切的,专门指言论自由、信仰自由、免于匮乏的自由和免于恐惧的自由这四项内容。在美国这是家喻户晓的。

因此,通常为中国人所诟病的一些美国社会问题,如枪击案、校园暴力、吸毒、种族歧视等,中国人通常都认为出现这些问题是因为美国人太自由了,其实这些与美国式自由毫无关系。美国人并不认为胡作非为也是自由。

之所以中国人对“自由”出现误解,很大程度上是因为翻译的失败。英语里的"free"有双重含义,其一是不受某种限制地做某件事,如freedom of speeach(言论自由)、freedom of belief(信仰自由),另一重含义是没有某种东西,或摆脱了某种东西,最常见的例子是健怡可乐上的标签:sugar free(无糖)。因此,freedom from want(免于匮乏的自由)和freedom from fear(免于恐惧的自由)也就好理解了。

因此,在意识形态上,自由在美国是指公民的四项最基本的权利。除非宪法允许的某些特例,政府在任何情况下不应剥夺公民的这四项权利。我们也就不难理解为什么美国新冠疫情死了100万人,美国没有一个官员因此被追责,没有一起民众上街抗议政府失职的示威事件,也没有任何一个议员跳出来呼吁政府学习中国封城、封路、封小区、断航、停工、家门口贴封条、单元门用铁条焊死。上海式封城在美国是不可想象的,因为免于匮乏的自由和免于恐惧的自由属于宪法保护的公民基本权利,享有极高的优先级。

--------------------------------------------------------------

更新(2022-4-20):

说完了民主、自由,今天再来说一个更基本的概念:权利。

逛简中网有时很令人沮丧,一些最基本的概念居然也需要普及。“权利”就是一个例子。

很多人说,美国人在新冠疫情中死了100万人,美国人的生存权受到极大威胁。这简直是概念上混乱之极的说法,对生存权、权利这些概念的理解完全是错误的。可悲的是这样的低级错误在官媒上也屡屡出现。

所谓权利,是指人们有某种选择的机会,可以这样,也可以那样。允许你选择,你就是有某种权利;不让你选择,只能接受某种安排,你就是被剥夺了权利。这和你的生存状况毫无关系。

举个简单的例子,养猪场的猪个个养得白白胖胖,有很好的生存状况,但是猪没有生存权,因为猪无法决定下一时刻是否还能继续白白胖胖健康地活着,这个权利是属于人的。

同样道理,古代王侯将相才子佳人后宫粉黛,生存状况一般都差不了,但是除了皇帝一人之外其他人都没有生存权。哪怕如杨贵妃,三千宠爱在一身,一生享尽荣华富贵,皇帝需要她死的时候在七尺白绫面前还是不得不死。所以杨贵妃自然谈不上有什么生存权。

生存权是纯粹的法律概念,公民生存权唯一保障是法律,不是什么GDP增长率或者脱贫数字。人民吃饱饭了不一定就是有了生存权。一些无耻文人故意混淆概念,用生存状况的讨论代替生存权的讨论,是为了掩盖法治的缺失和民生状况的不堪。

--------------------------------------------------------------

更新(2022-5-7):

先吐槽一下评论区里部分国人对待历史的实用主义心态。

当年美国人杀了印第安人,今天的美国人忏悔了;康熙在四川等地举起屠刀进行血腥的“平定三番”,我们作为后代中国人该不该忏悔?

这个问题我是这么看:如果你认为今天的中国是地缝里冒出的全新的国家,与1949年之前的历史是割裂的,当然不用忏悔;如果你认可清朝皇帝打下来的江山,中国对历史形成的统治疆域的继承是合理合法的,并且经常用“自古以来”论证我们对很多地方(比如某岛)主权的合法性,那么应该忏悔。祖上造的福和祖上造的孽是一体两面,你享受了清朝皇帝留下的资产,当然就应该背负他们留下的道义上的陈债。造福时康熙是中国人,造孽时却是满族人,这就没意思了。

所以,如果谁再提华盛顿驱赶杀戮印第安人,请想一想大致同时期的康熙杀了多少人。偌大的四川省,杀的人口不及平日一个县,今天的四川人都是当年屠刀下幸存者的后代,如此惨烈的历史却见不到国人正视。部分国人从来不去向今天的四川同胞表达悔意,却动不动就为北美印第安人打抱不平,不知他们拿的是哪国护照?

好,吐槽完毕。

今天聊一个更耳熟能详的概念:本质。

中国人喜欢谈论本质,如题主问到:民主的本质是什么。在中国,我们一定非常熟悉这样的句式:

  • 美国和西方所说的“人权”看似温情脉脉,本质上是干涉别国内政的工具。
  • 资本家和工人之间的雇佣关系表面上是公平交易,本质上是剥削关系。
  • 他的言论貌似无害,却含沙射影指桑骂槐攻击中国,本质上是反华的。

……

一提到“本质”,潜台词就是要宣布一个重大的定论,这个定论是要强行否定其他看似合理的论断,把其他论断当做表象推翻掉,代之以更为“本质”的描述进而盖棺定论。卡尔波普把这样的认知方式称作“本质主义”,Essentialism。对本质主义的批判也许是卡尔波普最重要的贡献。

本质主义在自然科学研究中有广泛的应用,例如爱因斯坦根据实验数据认定光在本质上既是一种波,又是一种粒子,具有波粒二象性。然而在社会学、心理学、政治学、文化人类学、美学等人文学科领域,本质主义经常被滥用,人们习惯于强行规定本质,用粗暴、蛮横、大而无当的论断为一个非常复杂、难以简单概括的事物或系统进行过于简单的描述,通常带有这样的特点:

* 终极性:凡是“本质”如何如何,都是最终的定论,终极的解释,不允许再有其他解释。其他解释都不是本质,因而是多余的。

* 主观性:“本质”经常是一种居高临下、主观性十足的观念灌输,并非实证研究。你能说清女性的本质是什么吗?

* 任意性:例如,有人认为女性主义的本质是女性本位的利益主义,另有人认为女性主义的本质不过是颂扬女性的优越感,甚至,更令人瞠目的还有人认为女性主义的本质是反女性的,最终目标是为了解放男性,等等。同样一个事物在不同人的嘴里有不同的本质,可见本质这个东西经常不是那么“本质”的,具有很大的任意性。

正是由于上述这些特点,本质主义特别适合服务于思想专制,是宣传的得力工具,洗脑的利器

回到题主的问题,民主的本质是什么?

现在应该清楚了,这样的提问方式本身就是反民主的。不管这个问题的答案是什么,都是企图用一个简单粗暴的句子给民主贴标签,霸占民主的解释权,让其他人统统闭嘴。

文明而理性的人们,应该自觉对那些满嘴“本质”的人们充满警惕,并自觉远离。不一定是因为他们满口胡说,而是这种陈腐的论断方式本身就非常low逼。