蘇偑偞 3星
共回答了376个问题采纳率:95.5% 评论
阿尔法狗二代,结合了监督学习和强化学习的优势。它通过训练形成一个策略网络(policynetwork),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络(valuenetwork)对自我对弈进行预测,以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,预测所有可行落子位置的结果。这两个网络自身都十分强大,而阿尔法围棋将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。新版的阿尔法围棋产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
在获取棋局信息后,阿尔法围棋会根据策略网络(policynetwork)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为阿尔法围棋的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,阿尔法围棋的搜索算法就能在其计算能力之上加入近似人类的直觉判断。
1小时前
猜你喜欢的问题
5个月前1个回答
5个月前1个回答
5个月前1个回答
5个月前1个回答
5个月前2个回答
狗狗脊椎缝隙比较大能自愈吗 大夫说后面第二节 拍片子了 大夫看着
5个月前1个回答
热门问题推荐
1个月前1个回答
2个月前1个回答
尚未在计算机的系统驱动器上创建还原点 要创建还原点 请打开系统
1个月前1个回答
4个月前8个回答
3个月前1个回答
2个月前7个回答
3个月前2个回答
3个月前4个回答
3个月前3个回答