强化学习 Basic Concepts-Today2bwin体育官方网站

　　如何去定义强化学习的结果是好还是坏呢?如果是我们学习高数，可以用成绩来判断，那么强化学习呢?引入以下概念：

　　①state：状态，就是我们所观察到的东西，如五子棋在棋盘的位置

　　②action：行动，即五子棋的移动，即可以前后左右移动

　　③state transition：即采用一个行动，五子棋就从一个状态到另一个状态

　　④policy：目标在一个状态下做出的行动，就是在一个位置下是怎样走可以赢得比赛所对应行走方向

　　⑤reward：即从一个state选择action所对应的奖励，如果走到禁止forbidden区域，则reward=-1

　　⑥trajectory：state-action-reward chain，即三者的结合路线

　　⑦discounted return(可以评估policy的好坏)：设置变量为0到1之间的数字，防止五子棋走到终点之后仍移动，使整个学习过程是收敛的即

　　当趋于0时，则函数结果着眼于最近的reward，反之趋于1时，则趋于较远的reward

　　Markov decission process:

　　分为三个部分：

　　（1）sets：state 、action 、 reward

　　（2）probablily distrbuation：state transition probability and reward probablity

　　（3）policy

　　以上为学习赵老师的第二节课，个人认为先搞懂概念，运用到五子棋或者阿尔法狗或者游戏当中带入基本概念更容易，加油加油。

强化学习 Basic Concepts-Today2