×

Loading...
Ad by
  • 推荐 OXIO 加拿大高速网络,最低月费仅$40. 使用推荐码 RCR37MB 可获得一个月的免费服务
Ad by
  • 推荐 OXIO 加拿大高速网络,最低月费仅$40. 使用推荐码 RCR37MB 可获得一个月的免费服务

聊聊AlphaGo和机器学习

Google的AlphaGo创新的东西并不多,更多的是机器学习领域的技术应用水到渠成了。神经网络系统问世半个多世纪了,只是计算机速度快了,能处理的数据多了,调试的技术也相对成熟了,应用才越来越多了。

很多人觉得电脑可以通过成百上千台机器自己和自己下棋学习提高,那岂不是每个月实力都会突飞猛进。其实不会的。当模型接近一个优化解之后,大量的数据输入也不会在有明显提高了。在对樊麾的时候,AlphaGo应该已经接近一个优化解了,之后的进步并不大。

为什么AlphaGo盘面领先的时候经常出臭棋?因为AlphaGo的目标是赢棋的几率,不是去寻找最优解。可为什么局部在计算量不大的情况下,它反而会下出既吃亏也不算简化局面的棋呢?因为AlphaGo很可能也动态的优化计算的时间。就是说,赢面大的时候,它大大减少了搜寻博弈树的广度和深度来节约时间,这样就可能很快找到一步过得去的棋,只要没有怎么降低胜率,它就不再继续找更好的招法了。

有人说李世石在明处,AlphaGo可能进行了针对性的学习。这是很不可能的。因为在机器学习里,为了让结果有意义,要尽量用不同的技术避免过拟合(overfitting)。否则,它面对实战中新的局面的应对能力只会变差。

据说,谷歌团队要把过去人类的棋从系统里删掉,全部依赖机器自己下棋来重新学习。这是怎么回事?了解一点机器学习的人都知道,学习过程很可能会停止在一个局部优化解上。AlphaGo从人类棋局开始学习,现在的棋也有很多人类棋的影子,即使它能打败所有人类棋手,有没有可能只是找到一个局部的优化解,就像下图里的local minimum?还有没有更好的全局最优解?这是非常有意思的事。到时,我们可能看到全然不同的围棋理念。

Sign in and Reply Report

Replies, comments and Discussions:

  • 工作学习 / 科技杂谈 / 聊聊AlphaGo和机器学习 +3
    Google的AlphaGo创新的东西并不多,更多的是机器学习领域的技术应用水到渠成了。神经网络系统问世半个多世纪了,只是计算机速度快了,能处理的数据多了,调试的技术也相对成熟了,应用才越来越多了。

    很多人觉得电脑可以通过成百上千台机器自己和自己下棋学习提高,那岂不是每个月实力都会突飞猛进。其实不会的。当模型接近一个优化解之后,大量的数据输入也不会在有明显提高了。在对樊麾的时候,AlphaGo应该已经接近一个优化解了,之后的进步并不大。

    为什么AlphaGo盘面领先的时候经常出臭棋?因为AlphaGo的目标是赢棋的几率,不是去寻找最优解。可为什么局部在计算量不大的情况下,它反而会下出既吃亏也不算简化局面的棋呢?因为AlphaGo很可能也动态的优化计算的时间。就是说,赢面大的时候,它大大减少了搜寻博弈树的广度和深度来节约时间,这样就可能很快找到一步过得去的棋,只要没有怎么降低胜率,它就不再继续找更好的招法了。

    有人说李世石在明处,AlphaGo可能进行了针对性的学习。这是很不可能的。因为在机器学习里,为了让结果有意义,要尽量用不同的技术避免过拟合(overfitting)。否则,它面对实战中新的局面的应对能力只会变差。

    据说,谷歌团队要把过去人类的棋从系统里删掉,全部依赖机器自己下棋来重新学习。这是怎么回事?了解一点机器学习的人都知道,学习过程很可能会停止在一个局部优化解上。AlphaGo从人类棋局开始学习,现在的棋也有很多人类棋的影子,即使它能打败所有人类棋手,有没有可能只是找到一个局部的优化解,就像下图里的local minimum?还有没有更好的全局最优解?这是非常有意思的事。到时,我们可能看到全然不同的围棋理念。

    • 把 LEISURE 的东西偏偏妥妥刚刚地变成了 DATA COMPUTATION。也不知道这是个进步还是毁灭的节奏,还挺快。 +1
      • 这是数据化时代啊!
        • PK 棋,不是 PK ALGORITHM 和 DATA 嘛。
    • 谈的不错,言简意赅。现在机器还是在执行命令(去赢棋!),虽然方法不那么笨了(暴力穷举法-》蒙特卡洛法)。如果哪天机器对人类的命令说,我偏不!人类可就要小心了。
    • 我的理解是古狗团队比较好的剖析了围棋的数学表达,过去和人下棋无非是采样,获得一些比较好的样本,现在他们比较自信,认为他们那套体系已经比较完善,那么就可以用机器产生一些样本,来确认这套体系从人工采样和随机采样都能达到效果
      • 这种问题的数学表达也是通过采样来拟合的。
    • 对于这种基本是无穷解的问题现在其实还基本是束手无策。Monte Carlo的随机采样可以逃离局部极点,但是离真正的全局优化还差的远。只是现在的计算速度进步的快,可以在允许的时间内探索更大的空间。
      • 量变导致质变?LOL。
    • 我是围棋爱好者。从具体来看,前几盘尤其是第三盘go表现出惊人的计算力和局面控制能力。而第四盘,在并不复杂的局部计算中却连连失误。让人不可理解。是什么原因导致它不能计算了?
      • 神经网络并不是精准的计算。它是从已有的范例中学习寻找模式,再用模式推演结果,准确性很高,但不是100%。第四局的变化可能未在它的范例中,甚至和它的学习范例相差很大,或者建立模型的参数还需要调整,从而它的模式作出了错误的判断。
        • 我觉得不像是这样。这样的话,人工智能岂不是可靠性极差?关键是你无法知道它是否可靠。即使你测试了一百万盘,下一盘还可能出低级错误。
          • that is so true.
          • 这不就是很人很像了。不可能有常胜将军。关键是能否学习到,而不会在下次犯错误。
      • 神经网络的应用其实是很广的,比如语音识别,图像识别等等。目前用它建立的模型的拟合度比其它方法要好,但也不可能是100%。
    • 还有,人跟机器比赛不应该沿用时间方面的老规则,这对人太不公平了,顶多规定每一步不能超过20分钟or so。。
    • 一张图解AlphaGo原理及弱点
    • 战胜围棋算什么,这些量化基金正在使用人工智能赚取真正的阿尔法