根据策梅洛定理 证明这个游戏是属于先手必胜,还...

冲虚道长给你讲博弈论:AlphaGo需要的不是恐惧,而是理解|界面新闻 ? JMedia出品:科普中国
制作:中国科学技术大学 袁岚峰
监制:中国科学院计算机网络信息中心
2016年,AlphaGo在人机大战中以4:1击败十几届围棋世界冠军得主李世石,激起了人们对人工智能(AI)的强烈兴趣。
2017年,AlphaGo再次出手,以3:0完胜当今围棋第一人柯洁。在最后一局比赛结束后的发布会上,AlphaGo之父、DeepMind创始人戴密斯&哈萨比斯(Demis Hassabis)发表了一个很动感情的感言:&本周的比赛聚集了围棋起源地最优秀的棋手参与,是AlphaGo作为一个竞赛系统能够对弈的最高级别对手。因此,本次中国乌镇围棋峰会是AlphaGo参加的最后对弈比赛。&
独孤求败内牛满面&&
我的朋友、风云学会会员陈经是一位人工智能专家,写过很多对围棋AI的深入分析,预测过李世石战胜AlphaGo的战略(《在AlphaGo完胜后继续分析其算法巨大优势与可能的缺陷》),他在这第二次人机大战期间的反应可以作为一个绝妙的注脚。
陈经先是在开赛前为人类棋手加油打气,寻找战胜AI的办法,&现在不能认怂,还是应该争取战胜AlphaGo&(《再次对决AlphaGo,柯洁的胜算有多大》)。
在AlphaGo赢了第一局后,陈经继续为柯洁支招,&想要逼出AlphaGo的bug,柯洁必须把局面撑得很满,让双方都不能退,不进入复杂变化就吃亏&(《人机大战首局柯洁&憾负&AlphaGo的看点》)。
在AlphaGo赢了第二局后,陈经认为柯洁在前100手的表现已经接近完美,结语就在找台阶了:&也许我们应该放下胜负,并不一定要追求战胜AlphaGo。如果能象柯洁本局前100手一样,发挥出人类对围棋理解的最高水平,无论胜负,都是与水平超高发挥稳定的AlphaGo共同演绎出精彩的棋局。本局说明,棋局精彩到一定程度,真的是可以超越胜负的。&(《柯洁与AlphaGo第二局的精彩看点》)
到第三局的时候,陈经正在&观天下论坛&做关于人工智能未来的演讲(《柯洁战败了,中国AI技术距离世界第一还有多远?》),没去看棋就预测了柯洁以0:3告负。
到赛后总结时,标题已经成了《AlphaGo的强大远超人类,职业棋手阐释AI算法意义》:&二次人机大战五盘棋结束,应该可以得出结论了:AlphaGo远强于人类棋手,而且即使它有bug,人类棋手也几乎找不到。我之前的文章中不断为人类棋手想办法,试图从算法的角度发现AlphaGo的弱点,希望人类棋手能利用其弱点战而胜之。现在看来,由于人类棋手与它差距实在太大,应该放弃这种想法了。&不过,人类就没得玩了吗?不是的。&AlaphGo不仅是通过战绩让世人震惊,从围棋艺术来说,它的很多招法,都体现了极度的震撼与美感。而这种震撼与美感,是人类的宝贵财富,是艺术精品,只有职业棋手才能最好的阐释,AlphaGo团队反而做不了。所以,人机大战人类棋手与机器并不只是对抗,即使人类失利,双方也共同对围棋艺术作出了极大贡献。&
多么悲壮而喜剧的过程&&用陈经自己的话说:人类的逻辑是无敌的!
这个过程可能容易让人联想到人们对不可抗拒的打击的五阶段反应:否认、愤怒、谈判、绝望、接受。但是,陈经对围棋AI的胜利从来没有&愤怒&过。实际上,了解人机大战技术背景的人都不会觉得有什么好愤怒的,更不会对人类的未来感到绝望,&&感到亦可赛艇还差不多。
然而,大多数人缺乏这方面的专业知识,大众传媒也充满了唯恐天下不乱的咋咋呼呼,好像不把人类的未来说成被matrix控制的电池就不好意思开口似的。真的用不着这么夸张!实际上,AlphaGo需要的不是恐惧,而是理解。狗是人类的朋友,狗狗很萌的,你们不要黑它~
下面我来写一个答客问,回答若干经常被误解的问题。
问:围棋是人类智慧&皇冠上的明珠&,人工智能在围棋上的胜利意味着电脑的智能已经完全超过了人,是这样的吗?
答:当然&&不是!其实那个前提就错了,围棋不是整个人类智慧这顶大皇冠上的明珠,只是人类智慧的一小部分&完全信息博弈&这顶小皇冠上的明珠。在完全信息博弈这个领域里,人工智能的胜利是迟早的事情,这是一条数学定理保证的,所以丝毫没有值得惊慌的地方。因此,围棋AI击败人类的意义,简而言之就是:人工智能解决了最容易的一类问题中最难的一个问题。
问:完全信息博弈是什么意思?
答:规则明确(不是连规则都不知道或者朝令夕改),局面有限(棋盘不是无限大),信息完全(一览无余,没有底牌、战争迷雾之类),确定性(不像大富翁游戏那样掷骰子),两方(不像麻将或四国大战那样多方),对抗性游戏(一方所得必然是另一方所失,没有合作共赢)。我们常见的棋类游戏,如围棋、中国象棋、国际象棋、五子棋、跳棋,都是这样的例子。
在完全信息博弈的问题中,围棋是最难的。但是在人类能够处理的所有问题中,作为整体,完全信息博弈又是最简单的一类,也是最适合电脑处理的。改变任何一个限制条件都会使问题变得更难。比如说,送快递对于人来说很容易,对机器人来说就非常困难了,目前还没有成功,因为其中用到的能力太多了,识字、跑腿、上楼等等都不是完全信息博弈。
问:什么定理保证了人工智能在完全信息博弈中的胜利?
答:这条定理是1913年由德国数学家策梅洛(Ernst Friedrich Ferdinand Zermelo)证明的,称为博弈论中的策梅洛定理(Zermelo theorem of game theory)。之所以这么叫,是因为在集合论(set theory)中有另一个策梅洛定理。
德国数学家策梅洛,集合论的奠基人之一
博弈论中的策梅洛定理说的是:在完全信息博弈中,至少有一方可以找到一种在任何情况下都不输的策略,即或者赢或者平局。换句话说,任何一种二人棋类游戏,如果双方都不犯错,就必然属于三种之一:先手必胜,后手必胜,或者双方都可以保平。
证明这条定理的基本思路是&递归&。首先,在接近终局时,我们可以看清,从当前局面出发,双方都下出最佳应对的最终结果是&甲赢&、&乙赢&或者&和棋&,这样就把棋局分成了三类。然后通过倒推(也就是&递归&),看哪些局面可以归结到这些结论已经确定的局面,就可以给越来越多的棋局确定类别。最后,你可以把所有的棋局都辨别清楚,包括最初的局面:对象棋而言就是所有棋子都没动,对围棋而言就是空空荡荡的棋盘。这个最初的局面如果属于&甲赢&,那甲就有必胜的策略;如果属于&乙赢&,那乙就有必胜的策略;如果属于&和棋&,那双方就都有至少不输的策略。
对于一些计算量不是很大的游戏,所有的棋局都已经被分析过了,这样的游戏已经被彻底破解。例如跳棋,在2007年已经得出结论:如果双方都不犯错,唯一的结果就是和棋。因此在理论上,跳棋这种游戏已经死掉了,高手不用下都知道结果,&&当然低手还是可以乐此不疲地去比拼谁犯错少。
对于围棋、中国象棋、国际象棋这样计算量庞大的游戏,棋局还没有被穷举,所以还没有被彻底破解。不过,策梅洛定理已经足以说明,在完全信息博弈中AI必然会打败人类,只是早晚的问题而已。
问:如果围棋被彻底破解了,会怎么样?
&答:武当派掌门人冲虚道长发来贺电!请看《笑傲江湖》第27章《三战》的情节:
冲虚道人举目望着殿外天井中的天空,呆呆出神,心下盘算令狐冲的剑招。众人见他始终不动,似是入定一般,都觉十分奇怪。过了良久,冲虚道人长吁一口气,说道:&这一场不用比了,你们四位下山去罢。&此言一出,众人尽皆骇然。令狐冲大喜,躬身行礼。解风道:&道长,你这话是甚么意思?&冲虚道:&我想不出破解他的剑法之道,这一场比试,贫道认输。&解风道:&两位可还没动手啊。&冲虚道:&数日之前,在武当山下,贫道曾和他拆过三百余招,那次是我输了。今日再比,贫道仍然要输。&
(图片来自网络)
呐,做人呢,最重要是开心&&冲虚道长就很懂得开心的道理。
围棋如果被完全破解了,也会出现这样的景象:假如黑方有必胜的策略,那么看到黑方第一手走在必胜的落子范围内,白方就直接认输;假如白方有必胜的策略,那么黑方第一手都不用下就直接认输。总之都是冲虚道长对令狐冲,唯一的问题只是:谁是冲虚,谁是令狐冲?
现在的围棋AI在每一步都会给出对双方胜率的估计。如果围棋完全破解了,在一开始就会显示一方的胜率是100%,另一方是0%。这时棋就完全没有下的意义了。
这里需要讨论一下和棋。对象棋来说,和棋是经常出现的结果,事实上高手之间对弈大多数时候都是和棋。对围棋来说,和棋是极其罕见的结果,只出现在像三劫循环这样同一局面再现时。所以我们暂时不考虑围棋中的和棋。但如果以后发现最优的策略就是向三劫循环前进&&到那时候再说吧!
问:你只是说明了,围棋中必然有一方有必胜的策略,但到底是黑方还是白方呢?
答:有一点需要注意的是,围棋跟其他的棋类游戏不同,有贴子、贴目的规则(这也是围棋中和棋极少的原因),而且规则到现在都没统一,还在不断尝试。那么围棋中哪一方有必胜策略,显然是和规则有关的。在目前的中国规则(黑贴还3又3/4子)下,大多数棋手都认为执白有利,很可能白方就是有必胜策略的。而在以前的中国规则(黑贴还2又3/4子)下,大多数棋手都更倾向执黑,很可能就变成了黑方有必胜策略。
有人认为电脑可以让人类的最高手二子,策梅洛定理告诉我们,这种状况即使出现,也是不能保持的。在让二子的情况下,黑方肯定有必胜的策略。如果电脑还是能赢,不能说明这是必然的,只能说明人类棋手的水平太低了。但人类棋手的水平是可以进步的,总有一天会接近让二子情况下的最优策略,到那时电脑必然会输。
同样的道理,现在的AlphaGo能让2016年战胜李世石的版本三子,并不等于现在的AlphaGo能让李世石三子。这只是因为现在的AlphaGo找到了2016年版本中的bug,对此进行了强化训练而已。
问:现在围棋已经到&不用下&的程度了吗?
答:当然还没有。在AlphaGo跟自己对弈的棋谱中,很可能一开始白方就有一个非常高的胜率,但不到100%。
策梅洛定理说的只是:破解下棋问题是有可能的。考虑到技术的不断进步,破解可以说是迟早会发生的,但具体是什么时候,需要一年还是一百年,那就不知道了。用数学的语言说,这条定理只是保证了解的存在性,并没有直接给出解。
然而,解的存在性已经是一个非常重要的结论了。因为如果问题没有解(例如发明永动机),那么再聪明的智能也无济于事。有人把人工智能当成像开了金手指一样无所不能,这是完全错误的!这是一个十分常见的误解,一定要认清。(程序员:万能的AI啊,请给我找个女朋友&&)
问:把棋盘扩大成21&21或者更大,电脑就下不过人了!
答:无论是棋盘在二维上扩大,还是把棋盘改成三维甚至金刚石形状(每个点周围的四个点组成一个正四面体),都有人考虑过。但无论怎么改,这些游戏都属于完全信息博弈的范畴,因此基本的结论不会改变:有一方存在必胜的策略,或者双方都存在保平的策略。只要假以时日,电脑一定会在这样的问题中超过人类。
金刚石结构(图片来源于网络)
围棋并不是一产生就是现在这个样子的,实际上,魏晋之前的棋盘是17&17的。进化到现在的19&19,是达到了一个有趣程度的高峰。继续扩大棋盘,不会改变人脑斗不过电脑的本质,倒很有可能丧失游戏性。例如知乎大V&马前卒&对&围棋可能发展到三维吗?&的回答:&二维防线上任何一个冒头,都意味着3个方向的渗透,而三维防线上任何一个冒头都意味着5个方向的渗透&&这就彻底消灭了布局的作用。没有了对峙和大局观,只有无数割裂的小战场。如果说二维围棋是战争,那么三维围棋就是一连串的械斗。战争有艺术,械斗就只有个人经验了。谁会喜欢这样的游戏呢?&
问:既然围棋AI的胜利只是&解决最容易的一类问题中最难的一个问题&,而且在数学上这是必然会发生的,那么为什么还会引起轰动呢?
答:因为围棋的复杂度远远高于其他棋类游戏。围棋的局面数目高达10的170次方,远高于国际象棋的10的46次方,甚至比宇宙中质子的数目10的80次方还大。这决定了,把国际象棋中&更深的蓝&击败卡斯帕罗夫的方法移植到围棋中,远远不足以击败围棋高手。
事实上,在AlphaGo横空出世之前,有一段时间围棋AI的水平是相对停滞的。许多人认为电脑在围棋上击败人类还需要10年、50年甚至100年。在这个背景下,人工智能突然从打不过任何职业棋手突飞猛进到战胜世界冠军,自然就令人震惊了。
这背后的道理,是人工智能算法的重大进步。具体而言,AlphaGo的成功是综合运用策略网络、价值网络和蒙特卡洛搜索等技术的结果。我不熟悉这些算法,而陈经是这方面的专家,写了很多深入的分析文章,有兴趣的读者请去参考他的著作。
问:既然人类再也下不过电脑,以后是不是就没人愿意下围棋了?
答:不是的。
一方面,人类不一定再也下不过电脑。通过跟电脑的拆招,这一年来人类对围棋的领悟也增加了很多。柯洁在被AlphaGo零封之后,立刻就把韩国的世界冠军元晟溱吊打得体无完肤,这就是上强化班的效果。这样下去,在一段时间之后,人类棋手再次向电脑发起挑战,是完全有可能的。当然,机器不会出错,人在时间压力下会出错。所以为了公平起见,建议以后的人机对战大大延长对局时间,甚至像当年秀哉名人对吴清源那样随时&打挂&(暂停棋局,考虑好了再来)。只有这样,才能发挥出人类棋手的最高水平,下出高质量的棋局,而不是每次都在时间压力下因为一些小错误被击溃。
另一方面,即使人类确实再也不是电脑的对手,也不会抹杀人们下棋的乐趣。实际发生的情况会是,人类用电脑作教练,更加高效地学习棋艺。国际象棋就是这样,世界第一都下不过手机版本的软件,可是国际象棋的流行程度却达到了前所未有的高峰,棋手们跟着AI,棋艺都大涨。呐,做人呢,最重要是开心!既然大家都这么想得开,你又何必&为古人担忧&呢?
问:既然围棋只是完全信息博弈这最简单的一类问题中的&皇冠上的明珠&,那么整个人类智慧的&皇冠上的明珠&是什么?
答:当然是&&科学研究啊!
如果问历史上最聪明的人有哪些,最先被提出来的肯定是牛顿、爱因斯坦、阿基米德、高斯等科学家,而不是黄龙士、吴清源、聂卫平等棋手。陈毅元帅写过:&棋虽小道,品德最尊。&虽然&品德最尊&,但还是&小道&嘛。
科研为什么这么困难?因为科研是高度开放性的问题,一眼看上去不知道***到哪里去寻找,甚至连有没有***都不知道。这是科研跟考试中做难题的根本区别,再难的题你至少知道是有***的,这就已经大大降低难度了。而科学的***又必须经得起实验或逻辑的检验,这是科学跟宗教的根本区别。因此,科研是需要最高创造性的人类活动,是人类区别于任何其他物种的本质。相比之下,下棋只是封闭问题,复杂程度相差不可以道里计。
问:&天网&是不是已经近在咫尺,机器人快要统治人类了?
答:连影子都没有。人们经常拿来吓唬自己的,都是有自我意识的&强人工智能&。但实际上,对强人工智能如何实现,我们还完全没有头绪。目前所有的人工智能研究,处理的都是&弱人工智能&。沿着这些技术路线走下去,能不能实现强人工智能?没人知道,很可能是不能。在这种情况下,机器人统治人类还完全不是个现实的担忧。当然这方面的哲学思考是需要的,只是说不要什么都不敢干了,自己把自己吓死。
事实上,对技术毁灭人类的担心,这并不是第一次。核武器刚发明出来不久,科学家就对它的巨大破坏力极为忧心。在整个冷战时期,核武器毁灭世界是最流行的话题,被比作悬在人类头上的达摩克利斯之剑。爱因斯坦、罗素、鲍林等仁人志士全力投入反战运动,才阻止了核大战。苏联解体仅仅20多年,我们这么快就忘记了当年的千钧一发,把和平、繁荣当成了理所当然的,真是惊人的健忘!
问:听说人机大战只是谷歌操作股价的一个广告?
答:这样的说法我见过不少。例如这样:&明眼人都能看出来其本质就是广告和炒作,无非电脑善于高速计算、因此在简单而重复的操作上有优势而已。所谓算法的改进也只是聚焦于如何提高计算或检索效率。&还有人说AlphaGo有几千个CPU,计算能力比人脑高得多,击败人类是理所当然的,丝毫不值得奇怪。沿着这种思路,甚至还有人猜测李世石的那一盘胜利是谷歌故意放水,以便炒作。
这些观点的问题在于,严重低估了技术进步的作用。能拿出几千个CPU的企业有得是。真正的瓶颈不是在计算能力上,而是在算法架构上,AlphaGo最大的进步是在这方面。这种观点就好像清朝人说洋鬼子只不过船坚炮利,其他的都不如天朝一样,完全是小农心态。幸好中国的企业和科技人员没有听这些人唧唧歪歪,很快也发展出了中国的围棋AI,例如&绝艺&。当你落后的时候,承认差距、加油赶上是唯一的正道,吃不到葡萄说葡萄酸是可笑可鄙的!
绝艺在野狐围棋上升为十段
问:美国的人工智能这么厉害,中国是不是又要被碾压了?
答:正好相反。在人工智能方面中国是一个相当先进的国家,显著超过美国之外的其他国家,跟美国的差距也在迅速缩小。在人工智能领域发表的科技论文数,中国已经超过了美国,而中美两家都大大超过其他国家,基本上是一个双头竞争的格局。由于中国有世界上最大的用户群体、大数据和研发人员群体,对中美竞争的结果还可以抱有一定程度的乐观。无论如何,中美的前景都不会差,而其他国家会被中美拉得越来越远。对此,陈经在观天下论坛的演讲中有详细的讨论,读者可以参考。
上图是关于深度学习领域的论文,可以看出中国和美国的论文数量遥遥领先于其他国家,也就是说从研发的角度,中美也是遥遥领先。
问:我们能够对中国人工智能的发展做些什么?
答:从普通人的角度看,我们的社会心态和舆论需要学会平常心,对投入大量资源追求突破性成果持鼓励的态度。把自己认真地看做引领人类发展的先驱,从内心里支持创新,宽容失败,为创新本身感到兴奋,这是一个社会成熟的标志。
无论是什么科研领域,关键归根结底其实就是一点,要舍得投入资源。追赶的难度跟原创有本质区别,用金钱来衡量,原创的性价比必然低于追赶。我们要转换思维方式,像富人一样思考,而不是像穷人一样思考,更多地要以花别人2倍的钱办别人1.5倍的事自豪,而不是以花别人10%的钱办别人20%的事自豪。要认识到,研发是回报最大的投资之一,投入越多其实是节约越多,这是富国的发达之本。中国的研发经费占GDP的比例应该翻一番,从目前的2%出头增加到韩国的4%水平,这是实现中国梦的关键!
作者简介:袁岚峰,中国科学技术大学化学博士,中国科学技术大学合肥微尺度物质科学国家实验室副研究员,科技与战略风云学会会长,微博@中科大胡不归,知乎@袁岚峰(/people/yuan-lan-feng-8)。
更多专业报道,请
0界面JMedia联盟成员中国科普博览成立于1999年,是我国最早启动的大型综合性科普网站之一,是国内最早以虚拟博物馆传播科学知识的网站。多年来,中国科普博览依托中国科学院丰富的科普资源,以资源集成为基础,以&传播、互动、交流、服务&作为建站理念,逐渐发展成为知识体系完善、资源丰富,形式新颖,集开放式、参与式、互动式于一体的中科院网络化科学传播门户,成为人与人交互的科学传播平台。相关文章您至少需输入5个字评论()总是有先手优势,但我们想了很多办法保证游戏依然好玩
关于回合制游戏的先手优势有哪些平衡手段?
Xylitogum,Lv.0 Game Designer
首先上很多人知道的策梅洛定理:
任何透明的、确定性的双人有限游戏,定有一方存在必不败的策略。
一般地,为了保证玩家的游戏体验,回合制游戏中玩家的行为本身应当与&优势&有直接关联,游戏目标也经常是两类显性的目标:&率先达成目标&或者&尽量多得分&,或者两者的混合。
率先达成目标:(举例)
先把对面的生命打到零。
先凑足五个子。
先赚他一个亿。
尽量多得分:(举例)
规定时间内尽量多打倒对方。
在局数耗尽前多赚钱。
在双方无处可下之前,尽量多占地盘(围棋)。
因此第一个进行行动的玩家在绝大多数时候也意味着第一个得到优势,而在上述环境里,很容易就变成先手必胜(或不败)的游戏。当然世界上也存在后手必胜的游戏,比如&石头 - 剪刀 - 布&变成先后手回合制,比如特定堆数组合的 Nim 游戏(轮流从堆中拿走棋子 / 火柴,直到有一方无子可拿)。
(三堆火柴组成的 Nim 游戏)
确切地说,我个人会将回合制游戏分为&行动主导&和&反制主导&,来区分这两类游戏。
行动主导:
玩家的行动回合本身被视为游戏中珍贵的核心资源。
玩家可以执行的行动中绝大多数都会直接往游戏目标靠近,并且很多时候可以直接量化。(局部最优解与全局最优解很接近,因此允许&贪心法&简化决策空间。)
允许 Strategy-stealing,也就是先手可以在第一轮进行明显带有优势的行动,然后复制后手的必胜策略(如果存在),因此普遍存在先手优势。
反制主导:
玩家根据对手前一行动的策略来进行互动和反制,对游戏目标有决定性的作用。
相比之下,玩家执行的行动未必对胜利都有贡献,有时反而会帮倒忙。(局部最优解与全局最优解关联不高)
可以从先行者的策略中做出针对,或者从先行者身上学习失败经验,因此许多情况下存在后手优势。
过于强调反制主导的游戏有个致命缺陷,就是即时的反馈不够直观,玩家难以在每一步行动中都找到乐趣(或者说,选择意义的缺失),容易破坏&心流&。所以它们的普遍受众比较小,因此现在市面上的例子还是行动主导的为主。
要平衡一个行动主导的回合制游戏中先手优势的影响,可以从数值、机制等等各个角度出发来寻找可行的方案。下面分析一些值得参考的方向和思路,结合实际情况来服用。
=== 思路一:&让数字说话& ===
减少初始资源与选择空间:
基于卡牌的回合制游戏,许多时候手牌的数量意味着选择的空间和握有的潜在战斗力总和,本身也是一种资源。因此诸如三国杀,炉石传说在内的卡牌游戏会让后手在游戏前期的手牌上占有优势,以此来对冲先手的优势。
同样地,你可以通过调整初始血量,初始金币,初始移动点数等等资源配比来避免先手有着显著的游戏,甚至还可以在先手的计分方式和获胜方式上做出惩罚。
计分惩罚:
这种方法与减少初始资源有着异曲同工的地方,对应的多数也是量化得分的游戏类型。传承千年的经典游戏&&围棋,在现代就是使用&贴目&制度(具体数量各地区略有出入),让执黑先行的选手必须比对手多占一部分地盘才能获得本局胜利,来保证先后手的胜率在总体上保持平衡。(如果围棋不贴目,那么黑棋可以通过第一手下天元然后下模仿棋,这样白棋必须制造征子否则无法破解。)
但这种做法有个最显然的问题:你怎么知道具体该惩罚多少分?拍脑门吗?
除此之外还要注意的是,纯粹的量化惩罚与隐式设计(Implicit Game Design)理念有一定冲突,刻意制造了设计师的存在感,让玩家感觉把游戏天平完全建立在了设计师拿捏的一个数值上。这样的规则也会让玩家带着压力开始对局并创造不对称性,破坏整体美感。更好的做法是让两边玩家都清楚自己的初始优势在哪,是多了先行的机会,还是多了选择的空间?
===思路二: &行动不是全部& ===
让先手需要外部资源投入:
带有大量养成玩法的回合制对战游戏中(如 Pokemon),许多时候会引入一个&速度&概念,来决定谁会获得先手。这个速度属性是一个特殊的,winner-takes-all 的属性,大多数情况下同时也会占用养成的资源,这意味着玩家必须自己做出策略上的选择,是先手给我带来的优势重要,还是让其他硬属性高一些来得重要?这是一种极具趣味,且经过验证可行的玩法,同时也会根据资源比重不同引出一条互相克制的反制链来,与博弈论中&上校赛局&(Blotto Game)相当接近。
(Pokemon 中追求速度与否的争辩从未停止)
但是它也有着局限性。&速度&概念是需要外部资源投入的,也就是说必须和外部的养成之类的玩法结合,很难有办法在单局中实现平衡,同时也无法在对称性游戏中实现。毕竟游戏设计上没有完美的事不是么?
增加反制玩法:
上面提到的反制主导的游戏中,有许多是后手具有显著优势的。其原因就是这类游戏中存在策略的相互克制,使得后手方可以学习先手方的策略,并做出针对性的调整来取得优势。那如果把行动主导和反制主导的思想结合起来,让两边都没法占到便宜呢?
在 Dota 2 职业比赛的英雄选择环节,就使用了类似的做法。双方按 2-2-1 的次序轮流禁用(ban)特定英雄和选择(pick)特定英雄,如下图:
(从左往右,绿色表示绿方行动回合,红色表示红方行动回合,Ban 表示禁用英雄,Pick 表示选择英雄)
当然,假设英雄之间只存在绝对的强度差异,那么 ban-pick 顺序无论怎么调整,先选的一方总是有利的。但 Dota 2 巧妙的英雄设计让玩家在选择英雄时不仅要考虑强度差异,还有英雄之间的专长协作与克制关系,以及双方对英雄的熟悉程度不同,都会影响 ban-pick 时的选择。这样一来,职业比赛英雄选择部分就不再是纯粹的先手或运气成分主导,让比赛的观赏性在赛前英雄选择时就得到了充分的渲染。
=== 思路三:&让游戏变得不确定& ===
与信息不透明度的思路一样,在游戏中引入随机性可以增加结果的不可预测性,从而降低其与玩家初始先后手状态的关联。但随机性也是一针毒药,用多了会让游戏单纯变成运气,大幅降低游戏策略带来的乐趣。要记住的是,随机性本身并不一定会改变游戏的对称性,但它可以冲淡因对称性带来的一边倒的最优解选择,给最优解的执行带来一定的障碍。
(一个标准卡坦岛游戏的棋盘)
在风靡世界的桌面殖民地建设游戏《卡坦岛》(Settlers of Catan)中,通过投掷两个骰子的点数之和来决定哪些玩家得以获取资源。同时初始两个基地的放置也是按照 从前到后 再 从后到前 的顺序,避免先行玩家对优秀资源点的垄断控制。
另一个提到随机性便不得不说的例子就是《炉石传说》。在炉石中从抽牌到效果发动无时无刻不充斥着随机结果的影响, n 抽 3 再 3 选 1 的发现机制也是随机性与决策的结合,更有甚者如尤格萨隆,一张牌随机性的表现在极端情况下便可直接左右比赛的胜负。
在这样的游戏中,随机性使游戏充满了变数,使后手玩家相信先手优势并不可怕,也使每局游戏玩家都有期待。但一如之前所言,过分的随机性会让玩家失去自主感,让游戏的成败变为听天由命的焦虑过程,需要好好把握;另外随机性与反制链的结合不当,也会让游戏变成石头剪刀布那样纯粹开局定胜负的游戏。
挖掘游戏深度:
策梅洛定理假设双方都是&完美的玩家&,但在实际游戏中,先手优势的大小不仅取决于其潜在收益,还得考虑玩家具体能做到多少。这里游戏&深度&一词指得便是技能上的深度,尤其是指即使最优解存在,人类因技能限制也无法达成完美的情况。
举个例子,足球篮球等体育比赛有先手优势吗?足球也是确定性的,信息透明的游戏,但没有人能保证自己能完美控制自己的身体(当然经过训练可以得到提升),球权的更迭很频繁。双方很多时候较量的就是这种身体控制能力,而先获得球权的优势虽然存在,但绝大多数时候并不足以扭转比赛的天平 --- 更何况在半场过后会轮换到另一队开球。
同样地,在国际象棋中,先手的白棋也普遍有着 2%-5% 的胜率优势。但由于决策树的深度和复杂度,国际象棋先手必胜与否目前还是处于猜想阶段,更别提让人脑去思考和执行了。所以哪怕对先手优势完全没有实质性的平衡手段,国际象棋的平衡也处于玩家普遍可接受的范围内。
(一个 X 方先行的井字棋游戏的完美平局)
反过来说,深度过浅的游戏先手优势会被放大。比如 Tic-tac-toe(井字棋)游戏,因为深度太浅且无随机性,很容易被大多数玩家找到最优解且容易实现。在这种情况下,先手优势不仅很大,而且很容易找到并实现不败策略,因此现在在成年人之间的娱乐对弈活动几乎完全不会考虑井字棋。
延续游戏长度:
某些时候,你已无法直接对游戏规则进行大刀阔斧的改革了,那你怎么进一步对先手优势进行限制呢?
一个办法就是,让大家轮流坐庄,在一定局数之后再判定总体胜负,如同斯诺克比赛那样要打十几局乃至三十几局来决出胜负。这样既可以降低随机性对结果的影响,又可以让先手优势得到压缩。然而缺点是会严重放慢游戏节奏,同时依旧无法对单局比赛的体验产生影响。
除此之外,还能拉长单局游戏的长度,像文明系列那样一局能打几百个回合,让游戏中后期冲淡前期先手的影响(至少是心理影响)。但同样会严重放慢游戏节奏,对不确定性较低的游戏而言还不一定会起到削弱先手的效果。
信息不透明度:
同样是可以用纸笔进行的回合制游戏,带有信息不透明度的 Battleship 的先手优势就完全不如 Tic-tac-toe 那么夸张(但是依旧存在)。在 Battleship 中,由于双方自身的海域布局对对手不可见,玩家需要轮流猜测敌船的摆放位置来进行炮击的选择。
(一个 10x10 的常见 Battleship 棋盘,用 x 标记炮击位置)
显然,如果把 Battleship 的海域布局改成对双方完全公开的形式,那么这游戏的先手就会变成必胜&&先手能先把对方船轰完。但考虑到实际上初始阶段玩家只有大约 1/3 的概率命中有效目标(事实上与引入了随机性等价),先手就并不能保证对先行优势的转化,只有少数极端情况下先手正好比后手快一步击溃对手才会体现出优势。而这个可以通过一个小小的规则修改来避免,并达成完美对称性:
先手击沉敌人所有船只后,还会允许后手再进行一次炮击;如果后手也因此击沉了敌人所有的船只,则该局计为平局。
=== 延伸阅读:海盗分金与用餐者困境 ===
海盗分金讲述的是多人按顺序分配财产的博弈问题:
有五个理性的,A, B, C, D 和 E,找到了 100 个金币,需要想办法分配金币。海盗们有严格的等级制度:A 比 B 职位高,B 比 C 高,C 比 D 高,D 比 E 高。海盗世界的分配原则是:- 等级最高的海盗提出一种分配方案。- 所有的海盗投票决定是否接受分配,包括提议人。并且在票数相同的情况下,提议人有决定权。- 如果提议通过,那么海盗们按照提议分配金币。- 如果没有通过,那么提议人将被扔出船外,然后由下一个最高职位的海盗提出新的分配方案。海盗们基于三个因素来做决定。- 首先,要能存活下来。- 其次,自己得到的利益最大化。- 最后,在所有其他条件相同的情况下,优先选择把别人扔出船外。
可能很多人都已经见过海盗分金的概念了。最优策略为[98,0,1,0,1]。推理过程可以在百度百科找到:
这里提出这个概念是为了说明,在足够的空间下,第一个行动的玩家潜在的优势在多人游戏中可以是相当巨大的,尤其是合理利用其他玩家存在的相互竞争关系时。但有的时候,有的游戏规则并不完全等同于海盗分金这样的动态博弈,而是更接近于一个用餐者困境,也就是囚徒困境的多人版:
有若干人出去吃饭,在点菜之前他们达成了一致:- 所有人平摊买单的钱(AA 制)。- 现在每个人要么点贵的菜肴,要么点便宜的菜肴。假设贵的菜肴比便宜的要好(即效用高),但是如果一个人单独进食的话,不能保证为贵的菜肴多付的钱一定值得(即性价比低)。每个人都这么推想:众人将会点便宜的菜肴,而由于点了更贵的菜肴而额外加的钱将被众人摊分,所以额外加的钱是很少的,而菜肴的味道却会有较大的改善,因而多花这点钱是划算的。每个人都这样推想,最后的结果是他们都花钱点了更贵的菜肴,而原本他们认为点便宜的菜肴要比点贵的对每个人都要好些。
在用餐者困境中,假如没有任何信任和交流的建立,每个人都会选择更贵的菜肴,使团体总体上得到损失。究其原因,其实在于决策制定过程的不透明性,假定的是每个人是同时或私下做出点餐决定的。如果我们把它与与海盗分金结合起来看,便可以制定一个新的规则,来解决用餐者困境。
有若干人出去吃饭,在点菜之前他们达成了一致:- 所有人平摊买单的钱(AA 制)。- 现在每个人要么点贵的菜肴,要么点便宜的菜肴。- 每个人按次序点菜,点完之后公开自己的选择。- 所有人可以投票决定是否接受这次选择,如果不接受则将该点餐人排除在外。假设贵的菜肴比便宜的要好(即效用高),但是如果一个人单独进食的话,不能保证为贵的菜肴多付的钱一定值得(即性价比低)。被众人排除在这次用餐外则是最糟糕的体验,而少一个人一起吃饭也会给团体每个人带来些许的不快。
上述规则事实上并没有做出太大的变化,只是把静态博弈变成了动态博弈,鼓励了信息交流,每个人需要大家的同意才能做出选择。从决策上看,每个人选择便宜菜肴对别人都没有损失,而选择贵的菜肴就要冒潜在的被踢出的风险,单纯地踢出选择便宜菜肴的人对自己也没有收益,因此可以达成的纳什均衡则是唯一的&&大家都会选择便宜的菜肴。
同样地,规则设计可以极大程度上左右决策。在多人游戏中,把游戏从海盗分金那样的纯竞争关系的零和博弈改为用餐者困境那样带有合作关系的非零和博弈,并合理掌握信息透明度,可以很大程度上通过合作规则来平衡局面。在 War3、帝国时代那样的 RTS 游戏中进行过多人混战模式的玩家可能还会记得,当一家独大的时候,其他玩家便会考虑群起而攻之。在《卡坦岛》这样的回合制策略游戏中也是一样的道理,在充分自由的交易规则下,玩家可以通过合作和对抗来尝试抵消任何已在游戏中存在的优势。
=== 结语 ===
回合制游戏的先后手平衡有着许多种不同的思路来帮助解决,最重要的还是知道我们的目的是什么:我是要让游戏展现出完美的对称性,还是仅仅需要保证玩家不会因先后手优势问题损伤游戏体验?
其实包括大富翁、飞行棋在内的绝大多数回合制游戏都或多或少具有先手优势,但并没有带来破坏性的影响。上面这些思路许多时候并不一定能完全抹平先手优势影响,也有的在过度使用时会破坏游戏体验,但最重要的是能够合理结合运用,来达成你的目的。
客官,这篇文章有意思吗?

参考资料

 

随机推荐