成都索客科技有限公司 >> 探索>>

新AlphaGo有多厉害?100:0把李世乭版秒成渣

新AlphaGo有多厉害?100:0把李世乭版秒成渣 本章共4字, 更新于: 2024-12-16 13:21:37
  导读:新的有多AlphaGo Zero使用了一种全新的强化学习方式,从0基础的厉害神经网络开始,与搜索算法结合,把李版秒不断进化调整、世乭迭代升级。成渣AlphaGo Zero的有多不同之处在于:除了黑白棋子,没有其他人类教给AlphaGo Zero怎么下棋。厉害而之前的把李版秒AlphaGo包含少量人工设计的特征。

  “它最终超越了我们所有预期”。世乭

  DeepMind团队又放惊天消息。成渣

  简单地说,有多AlphaGo又有了重大进步。厉害DeepMind把这个新版本的把李版秒围棋AI称为AlphaGo Zero。之所以这样命名,世乭是成渣因为这个AI完全从零开始,自我学习下围棋,完全脱离人类知识。

  以前其他版本的AlphaGo,都经过人类知识的训练,它们被告知人类高手如何下棋。而最新发布的AlphaGo Zero使用了更多原理和算法,从0开始,使用随机招式,40天后成为围棋界的绝世高手。真真正正的自学成才。

  新的AlphaGo Zero使用了一种全新的强化学习方式,从0基础的神经网络开始,与搜索算法结合,不断进化调整、迭代升级。AlphaGo Zero的不同之处在于:

  除了黑白棋子,没有其他人类教给AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工设计的特征。

  AlphaGo Zero只用了一个神经网络,而不是两个。以前AlphaGo是由“策略网络”和“价值网络”来共同确定如何落子。

  AlphaGo Zero依赖神经网络来评估落子位置,而不使用rollouts——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方会获胜。

  创新工场AI工程院副院长王咏刚用“大道至简”四个字评价新版的AlphaGo Zero。

  上述种种,让AlphaGo Zero异常强大。

  “人们一般认为机器学习就是关于大数据和海量计算,但是DeepMind通过AlphaGo Zero的案例发现,算法比计算或者数据可用性更重要”,AlphaGo团队负责人席尔瓦(Dave Silver)介绍说,AlphaGo Zero的计算,比之前的AlphaGo减少了一个数量级。

  如上图所示,AlphaGo Zero也只用了4个TPU。

  AlphaGo Zero到底多厉害,且看官方公布的成绩单:

  3小时后,AlphaGo Zero成功入门围棋。

  仅仅36小时后,AlphaGo Zero就摸索出所有基本而且重要的围棋知识,以100:0的战绩,碾压了当年击败李世乭的AlphaGo v18版本。

  21天后,AlphaGo Zero达到了Master的水平。这也就是年初在网上60连胜横扫围棋界的版本。Master后来击败了柯洁。

  40天后,AlphaGo Zero对战Master的胜率达到90%。也就是说,AlphaGo Zero成为寂寞无敌的最强围棋AI。

  DeepMind主要作者之一的黄士杰博士总结:AlphaGo Zero完全从零开始,初始阶段甚至会填真眼自杀。AlphaGo Zero自学而成的围棋知识,例如打劫、征子、棋形、布局先下在角等等,都与人类的围棋观念一致。

  “间接呼应了人类几千年依赖围棋研究的价值”,黄士杰写道。

  技术细节

  DeepMind的最新研究成果,已经全文发布在《自然》杂志上。这也是第二篇在《自然》杂志上发表的AlphaGo论文。

  论文摘要

  人工智能的长期目标是创造一个会学习的算法,能在特定领域中从一块白板开始,超越人类。最近,AlphaGo成为第一个在围棋游戏中打败世界冠军的程序。AlphaGo中的树搜索使用深度神经网络来评估位置、选择落子。这些神经网络用人类专家的棋谱来进行监督学习的训练,并通过自我对弈来进行强化学习。本文介绍了一种仅基于强化学习的方法,除了游戏规则之外,没有人类的数据、指导或者领域知识。AlphaGo成了它自己的老师:一个被训练来预测AlphaGo自己落子选择以及对弈结果的神经网络。这个神经网络提高了树搜索的强度,提高了落子质量、增强了自我对弈迭代的能力。从一块白板开始,我们的新程序AlphaGo Zero的表现超越了人类,并以100-10击败了以前曾打败世界冠军的AlphaGo版本。

  AlphaGo Zero的强化学习

  上面提到AlphaGo使用了一个神经网络,这是怎么做到的?

  DeepMind使用了一个新的神经网络fθ,θ是参数。这个神经网络将原始棋盘表征s(落子位置和过程)作为输入,输出落子概率(p, v)= fθ(s)。这里的落子概率向量p表示下一步的概率,而v是一个标量估值,衡量当前落子位置s获胜的概率。

  这个神经网络把之前AlphaGo所使用的策略网络和价值网络,整合成一个单独的架构。其中包含很多基于卷积神经网络的残差模块。

  AlphaGo Zero的神经网络,使用新的强化学习算法,自我对弈进行训练。在每个落子位置s,神经网络fθ指导进行MCTS(蒙特卡洛树)搜索。MCTS搜索给出每一步的落子概率π。通常这种方式会选出更有效的落子方式。

  因此,MCTS可以被看作是一个强大的策略提升operator。这个系统通过搜索进行自我对弈,使用增强的MCTS策略决定如何落子,然后把获胜z作为价值样本。

  这个强化学习算法的主要理念,实在策略迭代过程中,反复使用这些这些搜索operator:神经网络的参数不断更新,让落子概率和价值(P,v)=fθ(s)越来越接近改善后的搜索概率和自我对弈赢家(π, z)。这些新参数也被用于下一次的自我对弈迭代,让搜索变得更强大。整个过程如下图所示。

  上图解释了AlphaGo Zero中的自我对弈强化学习。图a展示了程序的自我对弈过程。程序在从s1到st的棋局中进行自我对弈,在任意位置st,程序会用最新的神经网络fθ来执行MCTS αθ,根据MCTS计算出的搜索概率at?πt选择落子位置,根据游戏规则来决定最终位置sT,并计算出胜者z。

  图b展示了AlphaGo Zero中的神经网络训练过程,神经网络以棋盘位置st为输入,将它和参数θ通过多层CNN传递,输出向量Pt和张量值vt,Pt表示几步之后可能的局面,vt表示st位置上当前玩家的胜率。为了将Pt和搜索概率πt的相似度最大化,并最小化vt和游戏实际胜者z之间的误差,神经网络的参数θ会不断更新,更新后的参数会用到如图a所示的下一次自我对弈迭代中。

  AlpaGo Zero中的MCTS结构如上图所示,从图a显示的选择步骤可以看出,每次模拟都会通过选择最大行为价值Q的边缘,加上置信区间上限U来遍历树,U取决于存储先验概率P和访问次数N。

  图b显示,叶节点扩展和相关位置s的评估都是通过神经网络(P(s, ·),V(s)) = fθ(s)实现的,P的向量值存储在s的出口边缘。

  图c显示了更新行为价值Q以追踪该行为下面子树中所有评估V的平均值。

  图d显示,搜索完成后,搜索概率π返回,与N1/τ成比例,其中N是从根状态每次移动的访问次数,τ是控制温度的参数。

  从零开始的训练

  DeepMind在论文中表示,应用了强化学习的pipeline来训练AlphaGo Zero,训练从完全随机的行为开始,并在没有认为干预的情况下持续3天。

  训练过程中,生成了490万盘自我博弈对局,每个MCTS使用1600次模拟,相当于每下一步思考0.4秒。下图显示了在自我对弈强化学习期间,AlphaGo Zero的表现。整个训练过程中,没有出现震荡或者灾难性遗忘的困扰。

  令人惊讶的是,AlphaGo Zero在训练36小时后,表现就优于击败李世乭的版本AlphaGo Lee。当年那个版本经过了数月的训练。AlphaGo Zero使用了4个TPU,而击败李世乭的AlphaGo使用了48个TPU。

  下图就是AlphaGo Zero和AlphaGo Lee的神经网络架构比较。

本书首发来自成都索客科技有限公司,第一时间看正版内容!

更多

编辑推荐榜

1银耳红枣汤早期孕妇能喝吗
2大力发展康养地产 促进房地产转型升级
3黔西南州快递行业职业技能竞赛举办
4我州“夏季行动”和 打击治理电信网络诈骗工作成效明显
5郑州到底多少人?统计局:2017年常住人口988.07万
6黔西南州“慈善超市” 示范点正式开业
7黔西南州易地扶贫搬迁“新市民计划”基本公共服务标准化专项试点工作成效显著
8《中国机长》“空降”厦门 主创人员讲述拍摄故事
9延迟退休已来,慧择快享福2号为客户规划养老提供保险新选择
10义工讲解厦门历史视频国庆假期走红网络 引市民热议
资讯快递
人气热销 言情热销

华安百联消费REIT:第三季度收入约5272万元 净利润590万元 核心提示:华安百联消费REIT第三季度报告期内收入约5272万元,净利润约590万元,经营活动产生的现金流量净额约1966万元,可供分配金额约2966万元。

黔西南州8人荣获“黔西南州名中医”称号! 黔西南州8名同志荣获“黔西南州名中医”称号为有效实施中医“名医”战略,加快名中医队伍建设,激励全州中医药人员不断提高自身医德修养、理论水平和临床诊治能力

黔西南州“慈善超市” 示范点正式开业 近日,在黔西南州民政局、黔西南州慈善总会的支持下,黔西南州“慈善超市”示范点正式开业。黔西南州“慈善超市”示范点位于兴义市云南路星悦茂地下商城01号入口

黔西南州2024年中小学(幼儿园)教师资格定期注册试点工作公告 根据《教师法》《教师资格条例》《〈教师资格条例〉实施办法》《教育部关于印发中小学教师资格考试暂行办法中小学教师资格定期注册暂行办法〉的通知》(教师〔2013〕9号)、《省教育厅关于印发贵州省中小学教师

贾一凡:我还有野心,我不止于此 首页 > 新闻 >

黔西南:暑期旅游“热”力十足 当下正值暑期,黔西南凭借凉爽适宜的气候条件、丰富多彩的旅游业态,成为各地游客消夏避暑打卡地,避暑游、亲子游、研学游、文化游、乡村游等不断升温。研学游魅力十足这个夏天,黔西南文旅市场持续火热。其中,研学

加载更多

潜力大作 女生必读

1 第十三届安徽省减负政策宣传周在合肥启动 作者:
327字
size: 14px; line-height: 28px;">11月22日,第十三届安徽省减轻企业负担政策宣传周活动启动仪式在合肥举行。本届减负政策宣传周的主题是“狠抓政策落地 提振市场信心”。本届

1 厦门火炬高新区电力电器产业快速发展 助力“中国智造”闪耀世界 作者:
8489字
龙头引领,创新驱动,厦门火炬高新区电力电器产业快速发展 助力“中国智造”闪耀世界东南网10月14日讯福建日报记者廖丽萍)不久前,ABB宣布将在厦门成立一家避雷器公司,聚焦避雷器

1 大力发展康养地产 促进房地产转型升级 作者:
26265字
州住建局党组书记、局长何兰云:大力发展康养地产 促进房地产转型升级“州委八届八次全会深入学习贯彻党的二十届三中全会精神,落实省委十三届五次全会精神,对进一步全面深化改革、推进中国式现代化黔

1 陈昌旭主持召开企业家代表座谈会 听取对全州进一步全面深化改革的意见建议 作者:
54766字
陈昌旭主持召开企业家代表座谈会听取对全州进一步全面深化改革的意见建议9月5日,州委书记陈昌旭主持召开企业家代表座谈会,深入学习贯彻党的二十届三中全会精神和省委十三届五次全会精神,围绕全州进一步全面深化

1 合肥市教育局下发相关通知,严禁削减体育课时 作者:
29943字
8月8日,记者从合肥市教育局获悉,今年秋季学期起,全市义务教育学校每天开设一节体育课含体育活动课,下同),保障义务教育学生每天2个小时校内体育活动时间。新学期,严禁削减体育课时,严禁其他学科以任何理由

1 黔西南州“归乡圆梦创未来”高校毕业生假期返乡认知考察系列活动举行 作者:
29546字
8月13日,黔西南州“归乡圆梦创未来”高校毕业生假期返乡认知考察系列活动举行,100余名高校毕业生参加。活动分为座谈会、走进企业参观考察及开展就业指导课等环节进行,旨在让返乡高

1 山地美食助推康养文旅新发展 作者:
6116字
黔西南州不断挖掘本地特色食材,打造独具黔西南风味的“舌尖美食”——山地美食助推康养文旅新发展糍粑辣子鸡、布依族酸笋鱼、羊肉粉、牛肉粉等作为黔西南州山地特

1 黔西南:“三碗粉”串起产业链 “烹”出产业大餐 作者:
32字
“三碗粉”串起产业链 “烹”出产业大餐11月2日,距黔西南州安龙县招堤街道招堤景区不远的秀屏剪粉店里食客满堂,他们都为品尝一口“南明永历帝的

1 家电车辆以旧换新,旧的去哪了? 作者:
6226字
今年以来,河南持续加大力度推动消费品以旧换新,激发了市民换车热情,汽车消费市场持续火爆。那些被淘汰的旧家电和汽车如何进行回收再利用?记者进行了一线走访。回收的旧汽车。新华社发

1 喜迎2024国际山旅会 作者:
5246字
9月22日至9月25日,2024年中国世界地质公园年会暨世界地质公园网络20周年研讨会在兴义举行,这是兴义国家地质公园跻身世界地质公园后迎来的首场重大活动。徐霞客是明朝伟大的地理学家,他是最早发现万峰