使用类似于西洋跳棋问题的算法,实现一个更简单的 tic-tac-toe 游戏。把学习到的函数 表示为自选的棋局参数的线性组合。在训练这个程序时,让它和它的另一个拷贝反复比赛,后者使用一个手工建立的固定评估函数。绘制出你的程序的获胜率随训练次数的变化情况。
使用类似于西洋跳棋问题的算法,实现一个更简单的 tic-tac-toe 游戏。把学习到的函数 表示为自选的棋局参数的线性组合。在训练这个程序时,让它和它的另一个拷贝反复比赛,后者使用一个手工建立的固定评估函数。绘制出你的程序的获胜率随训练次数的变化情况。