Part 1:RL中的核心概念

欢迎来到强化学习!在这里,我们的目标是让您熟悉

  • 用于讨论该主题的语言和符号
  • 从宏观层面上解释RL算法是做什么的(虽然我们尽可能的避免了它们是 如何 做到的这一问题)
  • 以及一点点属于算法基础的数学知识

简而言之,RL是对agent的研究以及它们如何通过反复试错来学习。它正式确定了以下想法:针对agent的行为对其奖励或者惩罚,会使得agent在未来更有可能重复或者放弃该行为。