我们用表示在时刻状态下采取动作后在时刻变为状态的概率,其中和分别表示和在时刻的一个取值。我们用和分别表示和所有可能取值的集合,即。通常,被称为转移概率函数(transition probability function),和分别为状态空间和动作空间。类似地,我们用表示在时刻状态下采取动作的概率,我们称其为策略(policy)。接着,我们假定符合马尔可夫性质(Markov property),即状态的转移只取决于最近的状态和动作,与历史无关,则对用全概率公式展开并通过马尔可夫性质化简可得,其中为环境初始状态概率,一般为某个未知常量。在(2)中,与对整个环境进行了描述,而则表征了智能体与环境的交互。如果我们能够设法给出前者的定义,则可用(2)计算每条轨迹的概率,然后对(1)进行优化。我们称这类方法为基于模型的(model-based)强化学习(如AlphaGo)。但是在大多数情况下,由于环境过于复杂或是未知,我们很难对和进行建模,因而无法计算。在这些情况下,我们只能将重点放在如何使智能体与环境更好地交互上,即尝试给出的定义并对其进行优化。譬如,假定符合某种概率分布,并不断调整它的参数使得智能体采取的动作能够最大化平均收益其中表示基于的轨迹概率分布函数,而则表示含有某种参数的策略。通常,这类方法被称为模型无关(model-free)的强化学习。后面要介绍的策略梯度(policy gradient)算法就属于此类方法。由图2可知,时刻的收益取决于当前时刻的状态、采取的动作以及时刻的状态,即其中为收益函数。在实际中,为了简化计算,通常认为只与当前时刻的状态和动作有关,因而只需给出的定义即可。譬如,在打砖块游戏中,我们可用下式计算每步的收益知道了如何计算之后,每条轨迹的最终收益便很容易由得到。
由(7)可知,本质是一个数学期望。对于一个随机变量而言,为了估计它的数学期望,通常的做法是根据它的概率分布,随机独立地生成大量的样本并计算样本均值。由大数定律(the law of large numbers)可知,当样本足够多时,样本均值接近于数学期望。在数值计算中,这类通过大量随机采样对某些值进行估计的方法被称为蒙特卡洛(Monte Carlo)方法。由此,我们便可重复下面步骤对(3)进行优化:
在公司的不少业务中,都有对图片中的文字进行识别的需求,比如招牌上的电话号码、图片中的违规文字等。多样的业务场景导致图像的背景复杂,字体多样,且可能含有几何形变或遮挡。传统的OCR技术无法处理这些图像,所以在这些业务中我们就需要用到自然场景下的文字识别(scene text recognition,简称STR)技术。目前主流的STR算法大体都基于图5所示的序列到序列(sequence to sequence,简称Seq2Seq)的学习框架。具体地,图片首先经过编码器的处理产生图像特征,而后将该特征送入解码器中(迭代)产生识别结果。通常,编码器(encoder)由某个卷积神经网络实现,而解码器(decoder)由某个循环神经网络(如LSTM[6]或GRU[4]等)实现。由于该方法考虑了图像及文本的语义信息,因而可以直接输出识别的文字序列且无需后处理,所以结果也较其它方法(如单字符检测等)更为准确。此外,该方法的训练样本较易标注,仅需辨识出图片中的文字即可。必要的时候,亦可通过人工合成产生训练样本。基于上述优点,该方法被广泛引用于各种自然场景下的文字识别。
[3]Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. In Yoshua Bengio and Yann LeCun, editors, Proceedings of International Conference on Learning Representations, 2015.
[4]Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using RNN encoder–decoder for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, pages 1724–1734, 2014.
[5]TuomasHaarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In Jennifer Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, volume 80, pages 1861–1870, 2018.
[6]Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735–1780, 1997.
[8]Volodymyr Mnih, Adria Puigdomenech Badia, Mehdi Mirza, Alex Graves, Timothy Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In Maria Florina Balcan and Kilian Q.Weinberger, editors, Proceedings of The 33rd International Conference on Machine Learning, volume 48, pages 1928–1937, 2016.
[9]Greg Surma. Atari - solving games with AI (part 1: reinforcement learning).
[10]Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction. A Bradford Book, Cambridge, MA, USA, 2018.
[11]LexWeaver and Nigel Tao. The optimal reward baseline for gradient-based reinforcement learning. In Proceedings of the Seventeenth Conference on Uncertainty in Artificial Intelligence, page 538–545, 2001.
[12]Ronald J. Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8(3–4):229–256, 1992.
[13]Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio. Show, attend and tell: Neural image caption generation with visual attention. In Proceedings of the International Conference on Machine Learning, pages 2048–2057, 2015.