《环境技术》
导读:目前,强化学习技术在游戏、围棋等任务中得到了广泛应用,并在一些复杂场景下取得了优于人类的效果。
南京大学机器学习与数据挖掘研究所教授俞扬近期在北京智源大会上发表了题为《环境模型学习——让强化学习走出游戏》的主题演讲。俞扬认为,在强化学习场景下,智能体会与环境进行交互,我们需要让智能体学到最好的交互策略。
整理:熊宇轩
校对:李梦佳
俞扬,博士,南京大学副教授,博士生导师。主要研究领域为人工智能、机器学习、强化学习。分别于2004年和2011年获得南京大学计算机科学与技术系学士学位和博士学位。2011年8月加入南京大学计算机科学与技术系、机器学习与数据挖掘研究所(LAMDA)从事教学与科研工作。
入选2018年IEEE Intelligent Systems杂志评选的AI's 10 to Watch,获2018 PAKDD Early Career Award、2017年江苏省计算机学会青年科技奖。
1 多步决策与强化学习
图 1:强化学习的优势
目前,强化学习技术在游戏、围棋等任务中得到了广泛应用,并在一些复杂场景下取得了优于人类的效果。我们试图将强化学习技术推广到更多的应用场景下。在这里,我们重点关注多步决策问题。传统的识别、预测任务假设过去收集的训练数据和未来在应用场景下测试的数据符合相同的分布。
然而,在多步决策强化学习问题中,在每一步做出决策时,智能系统将面临的未来的状态是不一样的。我们需要收集一些数据(即探索),训练智能体做出较好的决策,而此时我们收集的数据可能与过去的数据存在一定的差异。为此,我们需要在决策环境中更好地进行试错和探索,从而找到更好的策略。
图 2:序列化的决策
举例而言,多步决策强化学习可以被用于生产控制领域,在「控制-反馈」迭代过程中进行强化学习。此外,在研发、服务、营销等场景下,我们也可以通过多步决策强化学习技术实现收益的最大化。
图 3:强化学习的不足
强化学习算法需要对环境进行探索,通过试错得到好的策略。然而,在真实场景下,有时试错的成本会非常高,带来严重的后果。例如,在尝试控制锅炉时,可能会引发爆炸。此外,时下兴起的深度强化学习技术需要进行数百万次的试错,计算量十分巨大。我们在期望尽量降低试错成本和次数的条件下,得到较好的决策。
2 离线强化学习
图 4:离线强化学习
近期,研究人员提出了离线强化学习,此时智能体不需要通过试错对环境进行探索,转而利用历史记录中的决策数据帮助我们进行决策。在无需与仿真环境进行交互的条件下学习策略,这种部署方式与传统的机器学习算法进行识别和预测相类似。
为了实现离线强化学习,研究人员提出了两条技术路线:(1)直接根据数据学习策略(2)首先从数据中将环境还原出来,构建类似于模拟仿真的环境,进而在这个环境中学习如何做出决策。
图 5:直接利用数据学习策略
在直接利用数据学习策略的情况下,通常我们不太可能完整获取包含所有决策的数据。我们通常会设置一些规则,基于人类的经验得到一些决策数据,而这些决策的性能并不一定是最优的。由于我们无法获取所有的数据,为了找到最优的决策,我们往往会将学习的范围限定在数据点的附近。这大大限制了我们的搜索空间,也限制了我们能够提升的空间。通过这种方式学习出来的策略较为保守,往往并不一定是最优的。
图 6:DeepMind 的对比基准
2020 年 6 月 25 日,DeepMind 与谷歌发布了一个离线强化学习的对比基准。这个对比基准的测试场景仍然是游戏,要求我们仅仅使用从游戏中收集到的数据学习如何做出决策,而不能与游戏的环境进行交互。实验结果表明,目前测评的大部分方法与最简单的一种对比基线差别并不大。
图 7:验证的重要性
我们认为这个对比基准测试有两大不足之处。首先,对比基线较弱。此外,测试过程中并未包含验证的步骤。而验证环节对于将算法部署到真实应用中是十分必要的,我们需要将学习出的模型拿到验证数据上进行评测,保证该模型在使用场景下具有稳定的性能。我们学习出的决策模型一旦上线后,就需要面临真实的生产环境,如果那时模型的性能出现了较大的问题,就会造成很大的风险。