强化学习(二):基础概念介绍

在强化学习中，有些基础的概念需要介绍：

环境

环境(environment)提供给智能体(agent，这个翻译很奇怪，因此接下来都直接使用agent)所面临的情况，即观测(observation)，在agent做出action后，环境返还给agent新的observation与奖励，以此实现agent和环境的交互。

奖励

之前已经提到，奖励用于引导agent实现目标。

奖励可以通过多方面来反馈。

例如，在2048游戏中，奖励既可以是所达到的最大数值，也可以是所有数字之和，亦可以是各个数块中间的平滑度。

在证券交易中，如果无法接受过大亏损，那么可以让其出现亏损时给予一个较大的惩罚(即一个负的奖励)。当然，如果惩罚太大，那么可能导致agent为了避免亏损而不进行交易，导致不亏不盈。

通常，采用什么作为奖励只能由经验决定，具体哪种好需要进行测试。

在很多情况下，奖励并不会立即反映出来。如在证券交易时，T日的交易，可能在T+15日时才会获得较大的盈利，而在此之前都是亏损。或者在围棋中，一步棋需要在5步后才能发挥作用。因此，在强化学习中，权衡短期奖励和长期奖励非常重要，这也是强化学习研究的一个重点。由于这一原因，很多时候强化学习无法取得良好的效果。

观测

观测(observation)是环境与agent沟通的桥梁。观测包含了全部或部分状态与奖励等。与状态相比。

在2048中游戏，agent可以获得当前整个局面，因此这个环境是完全可观测(full observed)的，这种情况下强化学习通常被描述为一个马尔可夫决策过程(Markov Decision Process, abbreviation: MDP)

动作

动作(action)由agent所要返回的，我们的目的就是要让agent能在一个观测下返回最合适的动作。

动作空间

动作空间(Action Space)包含了agent所能执行的全部操作。每当获得一个观察后，agent会在动作空间中选择一个action，环境执行这个action，接着返回新的观测。

还有数学的一些概念，单列在下一章写。