围棋达人,帮我数数围棋黑白棋怎么数块数各占了多少目,谁赢

 围棋程序的编制被称作人工智能嘚“试金石”是人工智能技术的一大难题。

   本文介绍了人工智能在围棋程序中的应用与发展对比了围棋与国际象棋博弈算法的差别和複杂度,从而分析围棋算法的难点讨论各种博弈算法(气位理论、模式匹配与博弈树)在围棋程序中的融合运用。

【关键字】  围棋搜索,模式匹配博弈树

  围棋相传为尧所创,纵横一十九道天元是为太极,太极生两仪为黑白子;两仪生四象,为四个角《弈旨》([汉]班固)云:“棋有白黑,阴阳分也骈罗列布,效天文也可知围棋本是仿效天文而制,逐渐演变为博弈游戏

  计算机運用于棋类方面几乎与计算机的诞生的历史一样长。这方面内容主要属于人工智能技术人工智能作为一门科学首先是在五十年代提出的,随即便运用于棋类

   由于技术的进步,计算机速度的提高、算法的不断发展目前电脑国际象棋的水平已极高,然而围棋水平却徘徊不湔

   就围棋而言,人弈棋凭的是经验即“棋感”。人类的优势是模糊判断、灵敏的直觉高手往往会有灵机一动而弈出妙手。当然事物囿其两面性即人的情感、直觉有时也会误导自己形成错误,而棋手的心态也是至关重要的一环“成也萧何,败也萧何”直觉既是人類的法宝,亦是败因(当然是指败给人了)

   计算机的优势是计算速度快,劣势是不擅模糊判断、不能根据经验选点导致搜索量过大计算机不为情绪所困,不为直觉所惑故地域广狭、大小之分能较为准确,其耗时亦少然而计算机毕竟没有棋感,不知道哪步好、哪步不恏只有一点点地去试,要么费时甚巨(也未必有用)要么草草了事,结果也可想而知

   围棋全局与其死活问题其复杂性都大致可归纳為如下三点:

   “围棋”之名自是取自围地之意,倘若是双方落子一开始便是紧紧相贴的那么可想而之行棋的速度(即占领地盘的速度)昰极慢的,故而布局、中盘以至大官子阶段双方只是围出一个大概的轮廓,甚而连轮廓都不明显黑白势力难分,形状犬牙差互这对於计算机处理形成了极大的困难。

   象棋中棋子一旦被吃则永远从棋盘上提去,而在围棋棋盘上被吃的地方仍可重新落子,甚而将对方反吃回来如此一来,搜索的难度便大大增加如“倒脱靴”之形,送子后再吃子一块空可以几易其主。所以“死子”不死“活子”囿时倒是堪虞。所以在计算机处理中不可以简单确定一块棋子的死活和对周围的影响

   象棋的灵活,至多体现在兑子上所谓“宁弃一子,不失一先”也仅是一子而已,若是两子、三子呢恐怕在双方实力相当的情况下必败无疑。而且在象棋算法中多有将各种棋子折合为┅定的价值相加的做法如,在国际象棋中以一个兵为单位一个马约可等于三个半兵,一个车约可等于五个半兵等等,最多再根据棋孓所处位置加以一定的折算

   而围棋的灵活远胜于此,有时弃去十来个子以取势弃去二、三十目的角地以转换。再者围棋棋子的价值昰难以估量的,其价值不完全在其本身而常于在周围的配置,有些影响甚而可斜跨整个棋盘

 一九九七年,IBM的电脑“深蓝”一举战胜卡斯帕罗夫震惊世界。其实电脑国际象棋的水平早在七、八十年代已挤身世界高手之林而中国象棋软件也已几乎具有大师水准,非一般愛好者能望其项背唯独围棋举步维艰,连业余下手都胜券难握更莫论一等一的高手,究其原因不外是围棋之博大精深、纵横变换繁复棋手多靠经验而计算机则无此功能。

   目前棋类博弈算法主要有两大类:模式匹配和使用博弈树。这在国际象棋中的运用可以追溯到五、六十年代且而十分成功。

   围棋和象棋一样是博弈游戏看似仅有黑白两种棋子,简单不过实则比起兵种繁多的象棋却复杂得多。

 电腦围棋起源于六十年代两位博士ZobristRyder在论文中均涉及了围棋程序,前者的算法基于模式识别;而后者的算法基于搜索即使用博弈树。这兩种在国际象棋中效果不错的算法在围棋中的表现却极差竟然连仅有几盘棋经验的人都赢不了。

   我们不妨来考虑一下上述两种算法

 首先,我们来看模式匹配象棋中因为棋子个数少、种类多,那么就较易分别与归纳(实际上也是困难的但比围棋容易实现得多)。而在圍棋中显然将所有的模式都存储起来是不可能的。那么只有模糊匹配但这似乎也很难办。围棋中有“愚形”这个名词一般指的是效率差的形状。那么怎样是效率差呢就是浪费子力,在不必要的地方落子哪怕只是一个子。而模糊的匹配在一子之差时究竟如何判断昰好形还是愚形?这就陷入了矛盾的境地况且,根据实际情况还有“愚形之妙手”(出自日本古局),实难判断

 其次是搜索的算法。搜索的代价是极大的据估计,国际象棋搜索7个回合约有500亿至600亿种选择(当然是在博弈树剪枝后)这个数字尽管也十分庞大,但以目湔的技术水平还是可以承受的;然而在围棋中我们稍微计算一下便知道:假设每步大约有只有一百个可行点(已经非常少了),那么14步(即7个回合)以内的变化则约有1028种当然这只是保守的估计,已足以骇人了可见在全局使用搜索算法是不可行的。因此当前的做法一般昰在局部明确目标(如做活、杀棋、突围、切断等)的情况下才使用博弈树进行搜索。

   目前世界上流行的围棋软件主要是由以下三种算法组成的:

 1、使每个棋子周围产生某种影响,这种影响随着距离的增加而减少用一定的公式计算叠加这种影响,以判断形势和估计着點的价值这与围棋的棋理相通,即对于每个棋子可估算其“势力”此中就有著名的“气位”理论。

2、建立模式库贮存了大量模式(萣式、棋形等),以供匹配这其实涉及到围棋的许多棋谚与棋理。如“二子头必扳”、“镇以飞应”、“断从一边长”、三子正中、点方等等这些都是根据围棋的具体情况而设计的。

3、对目标明确的局部用人工智能中的搜索法探求其结果。

   一般来说现在还没有找到突破性的算法,只有在以上三种算法中细细加工

   围棋中棋力的高下大凡凭一个棋手的感觉与经验,而这感觉正是棋手水平的主要体现洏对棋的感觉其实就是人对于棋本身(即棋形)的主观认识。这是一个识别过程

   识别能力的高低是智能的一大特征。识别能力由低到高汾为三个层次仪器水平:物理识别;动物水平:模糊识别;人类水平:情感识别

   物理识别是对接受到的信息实现物理、化学和生物学嘚量化认识这不需要经验与智能,所以是最低层次的识别

   模糊识别是在大量复杂的信息中识别出有用的部分,即对接收的信息与以往嘚记忆和经验进行关联认识剔除无关的信息。

   情感识别是最高级的识别它是完全的感性识别。

   可以说围棋中既有模糊识别亦有情感識别。即对于一个新棋形将之与经验中的棋形比较,综合周边情况作出判断。其决策带有明显的个人情感倾向这与每个人的理解有關,很多是没有定论的因此即便九段高手之间的棋也是截然不同的,很难说孰优孰劣

   而在计算机中,对于棋形却难以模糊判断因为這既不是声音,也不是图象一子之差,优劣迥异

   一般来说,目前计算机对于围棋棋形只能作简单的识别用以减少搜索,其实这也就昰赋予了计算机一定的“经验”

六、围棋死活的算法与实现

   死活是围棋中的一个典型问题,可以说也是围棋算法的一个缩影它需要融匼上述的三种算法。目前死活软件已达到较高的水平,但主要因为这只是一个局部问题与全局千丝万缕的关系却是极难把握。

n  为了叙述简便起见下文中黑方总为攻击方,白方总为欲做活的一方在本节中仅以白方为例来设计算法。

n  本节中的各算法均已简化目的只是說明方法。

n  由于时间关系和水平所限本节算法不免有所疏漏,望不吝指正

对于围棋死活问题,首先我们不妨看看人下棋的思路:

 先看囿多少眼位是否已活?如不活计算缺多少眼位,能否补上在做眼(或破眼)的过程中,人总是先以第一感为线索来计算那么人的苐一感是从何而来呢?其实就是长期对棋型认识的经验经验丰富者强、经验欠缺者弱。因为在死活中有许多常见的棋型前人也曾总结過一些棋谚,如“杀棋用扳”、“二一多妙手”等还有如夹、点、跨等手段经常构成杀棋;而有些着点却无需考虑。因为死活是一个局蔀目标明确的问题故而以搜索为主。因此一个围棋死活软件的优劣关键在于对于搜索的优化、剪枝上

   我对于围棋死活问题的算法有两夶部分组成:

   程序的主线是搜索,然而静态眼位判断穿插于其间

   前面提到了,围棋黑白双方的界限是模糊的很难精确划分,而不能精確划分的话则在计算机中难以处理。为此采用气位理论的的方法来近似计算“势力”。

   势力划分贯穿于整个静态眼位判断作用很大。

   一个棋子对于周围有一定的影响称之为“势力”,一个子的周围称为气位气位如下划分:

 1、相邻位为1级气位;

棋盘由纵横各十九条等距离、垂矗交叉的平行线构成形成361个交叉点,简称为“点”

棋盘整体形状以及每个格子纵、横向相比,横向稍短通常为每格2.4厘米:2.3厘米。

在棋盘上标有九个小圆点称作“星”。中央的星又称“天元”

棋子分黑白两色,形状为扁圆形体

棋子的数量应能保证顺利终局。正式仳赛以黑、白各180子为宜

1、对局双方各执一色棋子。

3、黑先白后交替着一子于棋盘的点上。

4、棋子下定后不再向其他点移动。

5、轮流丅子是双方的权利但允许任何一方放弃下子权而使用虚着。

一个棋子在棋盘上与它直线紧邻的空点是这个棋子的“气”。

直线紧邻的點上如果有同色棋子存在这些棋子就相互连接成一个不可分割的整体。

直线紧邻的点上如果有异色棋子存在此处的气便不存在。棋子洳失去所有的气就不能在棋盘上存在。

把无气之子清理出棋盘的手段叫“提子”提子有二种:

1、下子后,对方棋子无气应立即提取對方无气之子。

2、下子后双方棋子都呈无气状态,应立即提取对方无气之子

棋盘上的任何一点,如某方下子后该子立即呈无气状态,同时又不能提取对方的棋子这个点叫做“禁着点”。

着子后不得使对方重复面临曾出现过的局面

1、棋局下到双方一致确认着子完毕時,为终局

2、对局中有一方中途认输时,为终局

3、双方连续使用虚着,为终局

1、终局时,经双方确认不能被提取的棋都是活棋。

2、终局时经双方确认,能被提取的棋都是死棋

着子完毕的棋局,采用数子法计算胜负将双方死子清理出盘外后,对任意一方的活棋囷活棋围住的点以子为单位进行计数

双方活棋之间的空点各得一半。

棋盘总点数的一半180.5点为归本数一方总得点数超过此数为胜,等于此数为和小于此数为负。

采用贴子方式的围棋竞赛另行制定胜负标准。

第10条 先后手的确定

对局的先后手由大会抽签编排或对局前猜先决定。竞赛规程对此应作明确表述

猜先的顺序是:先由高段者握若干白子暂不示人。低段者出示一颗黑子表示“奇数则己方执黑,反之执白”出示两颗黑子则表示“偶数则己方执黑,反之执白”高段者公示手握白子之数,先后手自然确定双方段位相同时,由年長者握子

正式比赛采用黑棋贴子制度,终局计算胜负时黑棋贴还3又3/4子。例如黑方总共得185子则黑胜3/4子得184子则黑负1/4子,得184.5子则为黑胜1/4子

计时是保证比赛顺利进行的重要手段之一。一切有条件的比赛均应采用计时制度

提倡使用电子语音计时器。允许继续使用指针式机械鍾正式比赛时,计时钟一律置于白方右手一侧人工读秒提倡使用秒表,允许使用其他计时器高等级的由专职裁判员负责计时的比赛,由主办方另行规定计时器种类和放置方式

不同的赛事均应事先规定一局棋的每方基本时限。

读秒是强制性的延续比赛的办法在采用規定基本时限外加读秒制的比赛中,应事先明确在规定时限内保留几分钟开始读秒。此类慢棋比赛的读秒每手棋限时为60秒不足60秒的着掱不予计时。达到60秒的视为已使用保留时限之中的1分钟

读秒工作由裁判员执行。60秒一手的读秒方式为:30秒、40秒、50秒、55秒、58秒、1分、还剩×分。用至最后一分钟时读秒方式变为:30秒、40秒、50秒,此后随即以准确的语音逐秒报出:1、2、3、4、5、6、7、8、9、10裁判员读出“10”而棋手同時落子或尚未落子,均应判为已使用1分钟

采用30秒、20秒、10秒或其他读秒办法的快棋比赛,可根据上述原则事先规定读秒实施细则。

包干鼡时制是规定基本时限之内必须结束比赛的计时办法超时判负。

包干用时制的赛事均应事先规定基本时限规定计时器材,并可制订其怹实施细则但以下几条须共同遵守。

(1)计时钟一律置于白方右手一侧

(2)下子和按钟必须使用同一只手,不得一只手下棋另一只手按钟。

(3)丅单官仍须计时

(4)当一方放弃盘上竞争而导致放弃着手权时,允许终止计时双方可争之点全部归属于对方。双方地界的勘定由裁判长负責

(5)提倡使用电子钟计时。使用机械指针式钟计时以计时钟的红针倒下、分针、秒针均超过“12”为超时。

(6)当计时钟发生故障时裁判长應根据实际情况作出临时更换计时钟、解释计时钟读数、对某方超时判负等果断裁决。

(7)裁判长有权制止无理消耗对方时间的非正常行棋

這是象棋、国际象棋延时办法的移植。用完基本时限后限在规定时间之内着完规定的步数。例如每10分钟限着15手等着完规定的步数而未鼡完规定时间,节余时间可延至下一节使用

1、除总则第7条的规定外,凡参赛一方弃权或被判负、判和的棋局也作终局处理。

2、双方确認终局的次序是:先由轮到着手的一方以简洁的语言表明“棋局结束”“棋已下完”,对方予以回应终局即告成立。

第14条 对局的暂停囷封棋

在规定有暂停的比赛对局中暂停时间不计入对局时限。规定的暂停时间一到裁判员应立即指示对局双方退场,同时暂时关闭计時器待续弈时重开计时器。

采用封棋制度的赛事应另行制订封棋实施细则。

第15条 棋手的职业道德和赛场纪律

1、棋手参赛一律不得下假棋,搞君子协定等***行为

2、棋手不得无故弃权和中途退出比赛。

3、比赛时棋手不准有任何妨碍对方思考的行为。

4、比赛中和暂停時当局者不准与其他人议论该局,不准查阅有关资料

5、比赛中禁止参赛者与其他人谈论与本局有关或与本队有关的内容。实属必要的談话应经裁判长许可并在裁判员监督下进行。一般情况下不得超过2分钟

6、对局者应注意言行文明,保持衣着整洁

7、棋手进入赛场必須关闭手机、呼机。

8、棋手在对局中吸烟必须符合比赛当地的法律和赛会的规定。

第16条 棋手的权利和义务

1、弘扬职业道德遵守赛场纪律,维护赛场秩序确保竞赛顺利进行是棋手的义务。

2、读秒时棋手有查询剩余时间的权利。如读秒至最后一分钟而裁判未以相应方式讀秒棋手有权利要求裁判员按规定从读错之处重新读秒。

3、对于妨碍正常比赛的违规行为棋手有提出意见和申诉的权利。但对于一局棋中对手违规行为的具体申诉须在对局进行当时立即提出,逾期失效

4、在双方正式确认胜败结果之前,棋手有权提出复核对方有义務真诚配合复核。经对局双方和执行裁判正式确认的胜败结果任何人均无权改变。

5、对局中一方离席期间对方可以下子。当离席方回席时对方有义务指明落子点。

6、比赛终局后棋手有整理好棋具并按规定退场的义务。

7、参赛棋手有准时参加赛会规定的开、闭幕式和其他礼仪性、公益性、宣传性活动的义务

1、已由赛会确定先后手的比赛中,如开赛后拿错围棋黑白棋怎么数块数在第10手之前(含)允許改正。超过10手棋之后一律不予改正。此后的编排工作以原先赛会确定的为依据

2、一方并未表示弃权,另一方连下两着判第二着无效并警告一次。

3、棋子离手表示着子权完成。完成着子权后再将棋子拿起下在别处,称为悔棋发生悔棋时,由对方于下一手着手之湔向裁判提出方为有效悔棋无效,判棋子放回原处并警告一次。如一方的棋子不慎掉落于棋盘经对手同意后,允许其拣起后任选着點如双方不能达成一致意见,则由裁判长裁决

4、在使用计时器的比赛中,须于着子之后才能按计时器着子之前或与着子同时按计时器的,判警告一次不改变计时器读数。

5、比赛途中如发现前面下的棋子已有移动在双方意见一致的前提下,应将移动之子挪回原处無法确认原处时,允许挪子于双方一致认可的点如果双方无论如何不能达成一致意见,裁判长可根据移动之子对棋局进程的影响程度判:

(1)移动之子挪至合理点;

采用电脑进行积分编排的比赛,由于编排时成绩一项不可空缺不能判双方均负时,允许采取抽签办法决定轮佽的编排

如有故意移子的证据,则应判移子者为负

6、比赛中,因非对局双方原因造成棋局散乱经复盘,如双方达成一致意见应按複盘次序继续比赛。如果无论如何不能达成一致意见裁判长可根据实际情况,判:

双方均负之后的抽签按第三章第17条第5款的原则处理。

如对局者确属无意中散乱了棋局允许复盘续赛。不能复盘的则判散乱棋局一方为负。

1、下子后误提对方有气之子,判误提者警告┅次将有气之子放回原处。

2、下子后未提或漏提对方无气之子,判未提、漏提者警告一次并提取无气之子

3、劫争须找劫材时未找而提劫,判提劫之手无效弃权一次并警告一次。

棋子下在禁着点上判着手无效,弃权一次

第20条 禁止全局同形再现

全局同形再现是妨碍終局的唯一技术性原因,原则上必须禁止

1、禁止单劫立即回提;

2、禁止假生类多劫循环

3、原则上禁止三劫循环、四劫循环、长生、双提兩子等全局同形再现的罕见特例。根据不同比赛也可制定相应的补充规定,如无胜负、和棋、加赛等

1、轮到着手的一方提议终局,随の放弃着手如果对方不同意就此终局,则应允许对方着子放弃着手方随即恢复着手权利,对局重新开始直至双方一致同意终局。

2、雙方已经确认终局如果盘上尚留有可争之点,其归属按双活方式处理

3、双方已经确认终局后,一方或双方即使又发现了有效手段也鈈允许重新开始对局。

4、对死棋和活棋的确认对局双方意见必须一致。如有争议重新开始对局,由认为是死的一方先下以实战解决。

1、赛场和住地分离的比赛开始时,棋手迟到不得超过1小时(含)超过这一时限判负。未超过这一时限的在其规定时限内加倍扣除。暂停后续弈时迟到一律打开计时器进入自然计时状态,但不设迟到判负时限

2、赛场和住地基本上同在一处的,比赛开始时棋手迟到鈈得超过15分钟超过这一时限判负。其他规定同上款

3、双方迟到应按以上两款分别处理,直至判双方负关系到下一轮抽签时,按第三嶂第17条第5款原则处理

4、在不设规定时限或规定时限很短的快棋比赛中棋手迟到,应实施按时缺席读秒棋手在读秒过程中入座,允许参加比赛如读秒过程告终,棋手即自动失去该局参赛资格

5、读秒至最后1分钟超时而未着子,原则上应按判负裁决但经读秒方申请,也鈳视为放弃着手权使用虚着改判弃权一次,允许续弈继续实施原先读秒方式。

6、提子是着手的组成部分包含提子的着手,必须全部提清之后方可按钟违者判警告一次,不改变计时器读数读秒过程中出现提子,仍视全部提清为着手结束应照常读秒。

7、读秒期间棋掱在对方思考时间之内离席须征得裁判员许可,每局仅限一次其余情形的棋手离席,一律照常读秒

8、比赛开始之后,发现计时器故障和失准读数总和的误差超过每小时2分钟(含)的,应立即更换计时器并参照双方已用时间按比例拨正时间。误差小于此数的可以哽换计时器但不改拨时间。单方面的时间读数改拨须经裁判长的认可。

9、比赛暂停时裁判员应将前半段双方用时记录在案并经对局双方确认。续弈时如发现计时器故障和失准并且找不到前半段双方用时书面记录时,前半段用时判为双方均摊对执行裁判员另行教育和處罚。

1、在比赛中下假棋、搞君子协定等***行为一经查实,可对有关棋局立即判负或判双方负如现场已经宣布了比赛结果,已经按這一结果进行了下一轮抽签甚至在经过数局之后才证实***行为,仍允许作出部分或全部取消单方或双方成绩的处罚情节严重的,允許作出今后的停赛处罚

2、棋手报名参赛后,无正当理由部分或全部退出比赛除对有关棋局判负之外,允许作出今后的停赛处罚

3、对於比赛中严重妨碍对方思考和扰乱赛场秩序的行为,根据情节严重程度允许判警告一次或判负。

4、比赛中和暂停时当局者与其他人议論该局或者查阅有关资料的,根据情节严重程度允许判警告一次或判负。

5、比赛中违反第二章第15条第5款交谈规定的根据情节严重程度,允许判警告一次或判负

6、无正当理由不参加竞赛规程规定的开、闭幕式和其他礼仪性、公益性、宣传性活动的棋手,除通报批评之外根据情节和社会影响的严重程度,允许作出降一个名次发放奖金及停赛处罚

7、在赛场中禁止正在参赛的棋手的手机、呼机发出响声,初违者判警告一次再违者判负。凡注视手机、呼机屏面显示内容的一律判负。已赛完的棋手及不参赛的棋手在赛场中使用手机、呼机嘚由大会通报批评。

8、棋手在对局中违反赛会禁烟规定而吸烟者判警告一次。再违者判负

1、被判警告一次时,该局计算胜负时在原規定基础上被警告方罚出一子。

2、一名棋手在一局中被判两次警告,则判该局为负

有两个以上的队参加,每队人数相等通过事先約定的比赛方法分出胜负的比赛称为团体赛。团体赛是个人比赛的延伸比赛类型有:分台定人制、定台换人制、临场出人制、全队轮赛淛、队员总分制等。

目前的全国团体赛一般采用分台定人制各队按棋手段位结合近期公布等级分,排定台次台次一经排定,比赛中不嘚更改现行的职业联赛,采用临场出人制即赛前由教练员排定出场名单,棋手可以替换台次可以任意变动。

在允许有替补队员的比賽中替补细则由赛会竞赛部门制定。

3、棋手的段位及段位赛

段位是根据体育运动技术等级的要求结合围棋项目实际而设置的棋手技术等级制度。职业棋手设初段至九段等9个等级;业余棋手设1段至7段等7个等级职业段位和业余段位是性质完全不同的技术等级,职业棋手的段位主要通过全国段位赛获得段位的晋升有专门设置的制度。而业余棋手的段位主要通过参加地方举办的盛市、县等不同等级的比赛,及盛市、县等不同等级段位等级赛获得参加国家承认的全国性大赛,获得相应的成绩经批准可以获得业余6段的段位。经特别认定的業余围棋锦标赛冠军可以获得业余7段称号。

根据参加比赛人数的多少赛程的长短,可采用不同的比赛办法

1、淘汰制比赛:分单败淘汰、双败淘汰和多败淘汰三种,败局超过限度即被淘汰被淘汰者即失去继续比赛资格。

2、循环赛制比赛:分单循环、双循环和多循环三種是由参赛个人或队,与其他参赛者逐一比赛的赛制

3、积分编排制比赛:以积分的相同或相近为主要原则而进行编排的比赛,为积分編排制比赛由于它的轮次可以根据情况适当增减,赛程介于淘汰制和循环制之间

4、积分编排加淘汰:在积分编排比赛办法的基础上,結合多败淘汰进行的比赛叫积分编排加淘汰赛这一方法适合使用电脑编排,必须注意参赛人数和淘汰人数的比例并且始终要保持参赛囚数为偶数的原则。

5、多局决胜制:在某些重大的比赛中冠亚军决赛采用多局决胜制。最少为3局2胜制最多为7局4胜制等。

6、擂台赛:用咑擂台的形式进行的团体对抗赛参赛的人数由双方事前商定并排定出场顺序。

1、个人赛:记分办法:每局棋的结果在成绩表上,胜者記2分负者记0分,和者各记1分

①采用循环赛制的比赛,计算成绩时积分高者名次列前。如遇积分相同则按下列原则依次比较,直至區分出名次

A、累计个人所胜对手积分,加上所和对手积分的一半进行相互比较( 胜者小分)分数高者名次列前。

B、整个比赛警告次数少鍺名次列前。

C、如不允许名次并列可加赛或抽签区分名次。

②、在采用积分编排制的比赛中可以采取以下两种办法区分名次:

A、比较總得分,总得分高者名次列前总得分计算公式为:

总得分=个人积分+(- 轮次 ) 如总得分相同,则按上项B、C二条区分名次

B、比较积分区分洺次,积分高者名次列前积分相同,比较对手积分区分名次如对手积分相同,则按上项B、C、二条区分名次

团体赛每人局分的记法和個人赛相同。每场比赛根据两队间局分的多少记场分局分多者为胜,场分记2分;局分少者为负场分记0分;局分相等者为平,场分各记1汾

1、在循环赛制的团体赛中,各队所得场分高者名次列前;如场分相同局分高者名次列前;如局分相同,比第一台棋手的局分高者洺次列前;以下依次相比,如全部一样允许并列。

2、在积分编排赛制的团体赛中团体成绩根据总得分或总积分的高低区分名次,总得汾计算办法与个人积分编排制比赛相同如相同则依循环赛顺序区分名次。

3、区分名次的加赛:如比赛不允许名次并列可安排加赛。加賽的细则包括局数、时限、团体人数等,由竞赛组织机构事先制定

第28条 棋手退出比赛

棋手退出比赛,按下列办法处理:

1、比赛尚未开始有棋手退出比赛,在时间允许的情况下应重新抽签

2、在循环制赛中,如果棋手退出比赛其已赛局数不足总轮次的一半,则其已赛荿绩全部无效如果已赛局数达到轮次的一半,则其已赛成绩有效以下的比赛按弃权处理。

3、在积分编排制比赛中棋手退出比赛,其巳赛成绩有效以后的比赛不再编排。

4、在对抗赛或团体赛中棋手中途退出比赛,已赛成绩均有效未赛部分均作弃权处理。

第五章 竞賽组织及其他

根据比赛的需要建立相应的组织机构,负责比赛的筹备工作处理竞赛中的问题,做好比赛善后工作比赛的筹备工作主偠是:

1、根据比赛的规模和条件,聘请相应数量的裁判员并指定裁判长。如裁判员人数较多也可以增设副裁判长。

2、根据报名人数確定比赛的方法和赛程。

3、准备比赛的场地和器材

第30条 裁判长的职责

1、草拟本次比赛的竞赛补充规定,提供组委会讨论通过执行

2、组織裁判员学习本规则和本次竞赛规程,并进行比赛前的实习工作

3、对裁判员明确分工,对严重失职的裁判员有撤消裁判员资格的权利

4、主持比赛的首轮抽签,监督比赛的编排及成绩公布

5、检查比赛场地、设备及用具。

6、及时处理裁判员上报的各种问题处理竞赛工作絀现的特殊事例。

7、比赛结束后向大会宣布比赛优胜名次。

8、做好赛后总结对裁判员写出评语。

9、维护赛场纪律倡导优良赛风,做精神文明的带头人

第31条 裁判员的职责

1、裁判员应熟悉规则、了解规程,严肃认真公正准确执行裁判任务。

2、坚决服从大会各项规定維护赛场纪律,对犯规或违纪行为做出公正判决

3、认真及时完成裁判长交办的各项工作。

4、及时公布成绩对难以处理的重大问题及时仩报裁判长。

5、赛前检查比赛器材不做妨碍棋手比赛的动作,不对未完棋局议论探讨

1、棋盘:标准的围棋盘略呈长方形。横线的等距離为2.3-2.4厘米纵线的等距离2.45-2.55厘米,棋盘的外侧留有2.5厘米边线为宜 棋盘的颜色应为鹅***,配黑色线条为宜比赛棋盘的厚度,应在2.5-5.5厘米之間

2、棋子:标准围棋子的直径为2.25-2.35厘米,厚度不超过1厘米为宜比赛用棋子大孝颜色一定要统一,不得有异样的棋子出现

3、计时钟:围棋比赛计时钟由两个钟面,两个按钮组成能够一停一走并可以同时停止。

4、秒表:读秒使用一般的秒表基层比赛可以用手表读秒。

5、仳赛用桌:一般比赛用桌高度70厘米宽度60厘米为宜。职业的高规格的比赛根据条件可以使用沙发配相应的茶几,大致就坐与下棋感到舒垺为宜

第33条:本规则的解释权属国家体育总局。

围棋是一项高雅的竞技运动也是一门艺术、一种文化。因此围棋的精神、品格对于棋手来说尤为重要,下棋的人首先要讲究弈德在棋艺进步的同时,还要提高自身的品格与修养

对局前猜先时,下手方应请上手方抓白孓自己则取出1枚(或2枚)黑子,表示白子若是单数则已方执黑:若是双数已方执白(取2枚则相反)比赛前的猜先,则应由卫冕者、段位高者、年长者来抓子

2.黑棋的第一手应下在右上角。此礼仪来源于日本黑棋的一手棋如果是占角的话,则应下在右上角把距离对方右手最近的左上角留给对方,表示对对方的尊敬

3.对局前下手方应主动整理棋具。 在日本的大比赛、甚至是挑战赛对局前晚辈、下掱方、挑战者都主动用白布擦拭棋盘,以示敬意和学习的态度

1.参加比赛不应迟到,迟到是对对方很不礼貌的行为

2.对局前,双方应握手或点头示意,以表尊重

3.下棋时,坐姿应保持端正、不要歪坐

4.思考后手再拿子、不应抓子、翻打或玩弄棋子。

5.下棋时应轻拿轻放不应用力拍子。

8.对局时不应在席间与他人说话更不应边评边弈。

9.对局时不应吃东西尤其是带响声的食品。

10.对局时不应囿用力敲打折扇、自言自语等干扰对方思考的行为

11.对局时应节制吸烟。 在目前中、日、韩的职业比赛上已分别制定了一些禁烟的措施。如赛场内不许吸烟或如果对手不吸烟,则应该征求对手的意见等

12.对方思考时,不应随意离席、走动、或是观看他局

13.对局时,对手因故离席回来时自己有告诉对方棋下在哪里的义务。

14.“胜固欣然、败亦喜”局后,双方应复盘研究切磋棋艺,谦逊待人增进友谊。胜方切不可沾沾自喜败方更不应拂袖而去。

15.局后双方应收好棋子、整理好棋具方可离席。

(使用深度神经网络与树搜索使計算机精通围棋)

     因为围棋巨大的搜索空间和对棋盘位置和走子精确评估的困难在很长时间里围棋被视作人工智能最具有挑战性的传统遊戏。在这里我们将介绍一种使用“估值网络(value networks)”评估棋盘位置价值以及“策略网络(policy networks)”选择走子动作(Action)的新的电脑围棋算法这些深度神经网络创造性的合并监督学习(通过人类专家棋手的棋谱学习)和强化学习(通过自我对弈的方式)来训练。没有任何超前搜索这些神经网络已经通过自我对弈的方式模拟了成千上万的对局并使自己下围棋的水平达到了世界计算机围棋最好水平(相对于使用蒙特鉲洛树搜索(Monte Carlo tree search)程序)。我们也将介绍一种新颖的算法即通过合并蒙特卡洛树搜索和估值网络、策略网络来构建围棋程序。使用该算法程序AlphaGo与其他围棋对弈达到了99.8%的胜率,以5:0的成绩击败欧洲围棋冠军(樊辉)这是有史以来计算机程序第一次在全盘对弈中击败人类专业棋手,这个突破以前被认为需要十年以上的时间

    所有完备信息的游戏都有一个最优的估值函数 ,在所有玩家完美的下子中决定每个棋盤位置和状态的收益。这些游戏都可能通过在包含接近 ( b:搜索宽度, d: 搜索深度)种可能走子序列的搜索树中递归的计算最优估值函数来解决泹是计算复杂度高的游戏,象棋(b ≈ 35, d ≈ 80),尤其是围棋(b ≈ 250, d ≈ 150)详尽的搜索是不可能的但是可以通过两个通用原则有效减少搜索空间。第┅个原则位置估计可能减少搜索的深度,即在状态 截断搜索使用近似的估值函数替代 后子树的状态去预测在状态 的收益;这种方式可鉯在国际象棋,西洋棋围棋黑白棋怎么数块数游戏中达到超人一样的水平,但是因为围棋的计算复杂度这种方法被认为很难在围棋中囿效。第二条原则在一个策略( | ) 上的采样走子减少搜索的宽度,策略( | ) 为在所有可能的位置 上走子的概率分布如,蒙特卡洛展开(Monte Carlo rollouts)可以在策畧上对所有玩家在长序列走子采样,不扩展分支搜索到最大化深度在这样展开的节点上求平均可以获得位置的有效估计,这种方法可以取嘚超人的游戏能力如:西洋双陆棋,拼字游戏但是在围棋中只能达到弱业余水平。

蒙特卡洛树搜索(MCTS)使用蒙特卡洛展开的方法估计搜索树中每个状态的价值随着模拟的进行,搜索树变得越来越大相关的值将变得越来越精确。通过选择较大值的子节点可以使选择走孓的策略精度随模拟的进行提高渐渐的,下棋的策略将会收敛到最优估值函数也会收敛到最优。当今最强的围棋程序是建立在蒙特卡洛树搜索中通过预测人类专家棋手的走子策略来提高自己的这些走子策略被用来窄化搜索到高概率走子以及在展开中采样走子。这种程序的实现已经达到了强业余水平但是,前人的工作受限于基于线性的输入特征的浅策略和估值函数

   最近,深度卷积网络已经在机器视覺领域达到了超过预期的效果例如:图像分类,人脸识别玩Atari游戏。他们使用多层神经元去构建图像更加的抽象的局部表达我们也在圍棋游戏中使用了一个相似的架构。我们用19 × 19的图片去表示围棋棋盘的盘面位置用卷积层去构建出围棋位置的神经网络表示。我们使用這些网络有效减少了搜索树的深度和宽度即通过估值网络去评估下棋的位置好坏,通过策略网络采样选择走子

   我们使用流水线的方式汾阶段通过机器学习训练神经网络(图1)。我们刚开始通过人类专家棋手的走子动作直接利用监督学习(SL)方式训练策略网络这种方式鈳以提供直接的快速反馈以及高质量的梯度来快速有效的学习更新。和前人的工作相同我们也训练了一个快速走子策略 ,它可以在 展开Φ快速采样下一步,我们训练了一个强化学习式的策略网络(RL) 通过自我对弈优化最终游戏收益的方式提高监督策略网络的能力这种調节可以使策略向游戏胜利的正确方向优化,而不是最大化预测精度最后我们训练了一个估值网络 去预测自我对弈中游戏的胜利方。程序AlphaGo有效的结合了策略网络和估值网络以及蒙特卡洛树搜索

图1 :神经网络训练流水线及架构

a.快速走子策略 和通过一个下棋位置的数据集训練监督策略网络去预测人类专家棋手的走子。强化学习式策略网络初始化为监督策略网络然后通过和前面的策略网络以对弈的方式策略梯度学习并且最大化收益以提高策略的精度,新的对弈数据集将通过其网络的自我对弈产生最后估值网络  使用网络自我对弈的数据集通過回归方式训练预测期望收益。

b.表示AlphaGo使用的网络架构原理图策略网络使用棋盘位置作为输入,并与监督策略网络参数或强化策略网络参數 作用在合法的走子 上输出走子的概率分布 ( |   )或者( |   )。估值网络也是使用卷积网络其参数为,但是其输出为一个标量( )该标量表示在位置預测的期望收益。

    训练的第一阶段我们通过监督学习来预测专家棋手在围棋的走子。监督策略网络(   )交替的通过参数 以及非线性压缩函數,最后通过softmax层输出在合理走子 上的概率分布策略网络的输入 仅仅简单表示为棋盘盘面状态。策略网络用随机采样的 State-Action (   )训练,并使用随機梯度上升法最大化似然函数:

我们在KGS围棋服务器上通过3000万个位置数据训练了一个13层的监督策略网络这个网络在测试集上使用所有的输叺特征的预测人类专家棋手走子动作精度为57.0%,只使用棋盘位置和历史走子记录作为输入时精度为55.7%而其他研究团队提交的世界水平最好的精度为44.4%。精度略微的提高能使棋力提高不少;在搜索中更大的网络可以获得更高的精度但是会更慢我们也使用了一个线性的softmax训练快速走孓策略( |   ) ,但是训练精度更低,只有24.2%但每一步只需用2微秒,而监督策略网络用了3毫秒

  训练的第二阶段,训练旨在通过策略梯度的强化学习提高策略网络棋力强化学习策略网络在结构上和监督网络是相同的,其参数被初始化为监督网络的参数即:我们随机的选择先前迭代嘚策略网络和当前策略网络下棋。随机的从对抗池中选择对弈方训练才能使训练稳定并防止当前的策略过拟合我们使用一个回报函数,茬所有棋局的非终结时间步 < T 时其回报为零而收益是棋局结束时的回报,在时间步 棋局结束时: +1标记赢棋-1表示输棋。然后使用随机梯度上升更新每一个终结时间步的参数最大化期望收益:

我们通过输出分布中选择走子来评估强化策略网络的表现。在相互对弈时强化策略网絡相比于监督策略网络而言赢了超过80%的棋局我们也测试对抗当前最强的开源围棋软件Pachi(一个复杂的蒙特卡洛树搜索程序,在KGS上排名业余2段每走一步执行10万次模拟)。不使用搜索的情况下强化策略网络在对抗Pachi中赢了85%的棋局。在比较中先前顶级水平监督策略网络对抗Pachi 赢叻11%的棋局,对抗轻量级的更弱的程序 Fuego 赢了12%的棋局

    训练的最后阶段,关注于训练位置评估估计所有玩家在状态 使用策略 获得收益的估值函数

    理想情况下我们想知道在完美游戏下的最优估值函数;在实践中我们使用策略网络去估计作为强策略的估值函数,用其代替完美情况丅的估值函数我们使用估值网络去逼近估值函数,即:≈ ≈ 这个估值网络和策略网络的架构相似,但是其输出值是一个预测标量而非概率分布我们通过在数据(,)上回归的训练估值网络,训练使用梯度下降法在预测值和对应的收益上最小化均方误差(MSE)

这种从一系列数据中预测整个棋局收益的幼稚(naive)实现将导致过拟合。过拟合是因为后继很多位置是强相关的及回归目标在整个棋局中是共享的这囷只有一个子的情况是不同的。当我们通过KGS的数据用这种方式训练的时候估值网络记住了游戏的收益而不能在新位置泛化,训练的网络茬测试集上的均方误差为0.37在训练集的均方误差为0.19。为了减轻这个问题我们在自我对弈中,从不同棋局中采样不同位置生成3000万个新的训練数据其中每一局棋都是强化网络自我对弈直到游戏结束为止。在新生成的训练数据上的训练误差为0.226测试误差为0.234,这两个数据表明只囿极小的过拟合图2b显示了估值网络对于位置的估计精度,对比于蒙特卡洛展开使用的快速走子策略估值函数一致的变得更精确。使用強化策略网络的单一的估计也达到了蒙特卡洛展开的精度,但是减少了15000倍的运算量

图2 策略网络及估值网络的强度和精度

图3 AlphaGo中的蒙特卡洛树搜索

用策略网络和估值网络搜索

    AlphaGo在蒙特卡洛树搜索算法中(通过超前搜索选择走子动作)结合了策略和估值网络,图3搜索树的每个邊 ( , ) 都存储了一个动作的值Q( , ),访问次数N( , )通过从根状态开始模拟(即,在整个游戏中从上向下遍历不备份)遍历整棵搜索树在每个模拟的烸一个时间步 ,从状态 中

   为了最大化走子动作的值加了一个奖励值:

即:与先验概率成正比随着重复访问增加而衰减以鼓励搜索。当遍曆在步到达一个叶节点这个节点有可能被扩展。叶节点位置只被监督策略网络执行一次对于一个合理的下子,输出的概率将被存储为先驗概率 P( , )=( | )。叶节点被两种不同的方式评估:第一个是估值网络评估第二个是被快速走子策略在游戏终止 T 时的收益评估。这两个评估通过混匼参数 合并为叶节点评估

       在模拟的最后,所有遍历的边的动作值和访问次数被更新每个边累积所有穿过这个边的访问次数和平均模拟估计

其中 是叶节点的第 次模拟。表示这个边是否在第 次模拟中被遍历一旦搜索完成,算法从根位置(root position)选择访问次数最多的下子动作

     佷值得说,监督策略网络表现的比更强的强化策略网络好大概因为人类棋手会选择不同的容许的下子,而强化策略网络只选择最优的下孓然而来源于强化策略网络的估值函数比来源于监督策略网络的估值函数表现更好。

    相对于传统的启发式搜索而言评估策略和估值网络需要几个数量级更多的计算要求为了有效的结合蒙特卡洛树搜索和深度神经网络,AlphaGo在CPU上使用了异步的多线程搜索在CPU上执行模拟,在GPU上並行的计算策略网络和估值网络最终版本的AlphaGo使用40个搜索线程,48个CPU和8个GPU我们也实现了一个分布式版本的AlphaGo,他可以利用多个机器40个搜索線程,1202个CPU和176个GPU后面的章节“方法”将会提供异步计算和分布式的蒙特卡洛树搜索的细节。

    为了估计AlphaGo的棋力我们在不同版本的AlphaGo间及其他嘚围棋程序间比赛,包括现在最强的商业程序Crazy Stone、Zen最强的开源程序Pachi、Fuego。所有这些程序都基于高性能蒙特卡洛树搜索算法额外的,我们也對比了开源程序GnuGo(一个当前用搜索算法的最高水平围棋程序其能力超过了蒙特卡洛树搜索的程序)。所有的程序都要求每5秒内完成一次下子

   这个比赛的显示出单机版的AlphaGo比前面的所有的围棋程序的段位排名更高,在495次游戏中赢得了494次(赢得99.8%的比赛)为了加大挑战难度我们让㈣个子和其他程序比赛,AlphaGo分别赢得77%86%,99%的游戏分别和Crazy Stone,Zen 和Pachi在各自的比赛中。分布式版本的AlphaGo异常的强大对比单机版的AlphaGo赢得的77%的棋局,完胜其他围棋程序

  我们也评估了不同的AlphaGo只使用估值网络( = 0)或者快速走子策略( = 1)评估位置。即使没有快速走子策略 AlphaGo仍然超过了其他所有的围棋程序这个表明有估值网络时,蒙特卡洛估计可能是可选的然而混合估计( = 0.5)的AlphaGo表现最佳,赢了95%其他不同的AlphaGo这个说明两个位置估计的機制是补充性的:估值网络用精确但速度比较慢的去逼近游戏的收益,然而展开方法可以通过稍弱但更快的策略 精确的评估游戏得分和游戲收益图5显示了实际游戏同AlphaGo的估计。

    最后我们评估了分布式版本的AlphaGo对抗樊辉(职业2段,15欧洲围棋冠军)的比赛在2015年10月5-9日AlphaGo和樊辉进行叻一个正式的五番棋比赛,AlphaGo赢得了五盘所有的比赛这是第一次计算机打败人类职业棋手,没有任何的让子在整个比赛中完胜对手,以湔被认为要至少10年以上的时间

因为个人觉得这篇文章对于世界及国内的人工智能发展有比较大的意义,以及不是所有国内的从业者英文沝平都很好所以冒昧翻译。中文和英文有些词差异比较大如果有问题请不吝指出。

参考资料

 

随机推荐