在强化学习中,有些基础的概念需要介绍:
环境
环境(environment)提供给智能体(agent,这个翻译很奇怪,因此接下来都直接使用agent)所面临的情况,即观测(observation),在agent做出action后,环境返还给agent新的observation与奖励,以此实现agent和环境的交互。
奖励
之前已经提到,奖励用于引导agent实现目标。
奖励可以通过多方面来反馈。
例如,在2048游戏中,奖励既可以是所达到的最大数值,也可以是所有数字之和,亦可以是各个数块中间的平滑度。
在证券交易中,如果无法接受过大亏损,那么可以让其出现亏损时给予一个较大的惩罚(即一个负的奖励)。当然,如果惩罚太大,那么可能导致agent为了避免亏损而不进行交易,导致不亏不盈。
通常,采用什么作为奖励只能由经验决定,具体哪种好需要进行测试。
在很多情况下,奖励并不会立即反映出来。如在证券交易时,T日的交易,可能在T+15日时才会获得较大的盈利,而在此之前都是亏损。或者在围棋中,一步棋需要在5步后才能发挥作用。因此,在强化学习中,权衡短期奖励和长期奖励非常重要,这也是强化学习研究的一个重点。由于这一原因,很多时候强化学习无法取得良好的效果。
观测
观测(observation)是环境与agent沟通的桥梁。观测包含了全部或部分状态与奖励等。与状态相比。
在2048中游戏,agent可以获得当前整个局面,因此这个环境是完全可观测(full observed)的,这种情况下强化学习通常被描述为一个马尔可夫决策过程(Markov Decision Process, abbreviation: MDP)
动作
动作(action)由agent所要返回的,我们的目的就是要让agent能在一个观测下返回最合适的动作。
动作空间
动作空间(Action Space)包含了agent所能执行的全部操作。每当获得一个观察后,agent会在动作空间中选择一个action,环境执行这个action,接着返回新的观测。
还有数学的一些概念,单列在下一章写。