Commit aa41777a by Ruizhi Chen

Update README.md

parent e44c4db0
# RL算法分类参考
- [Key Papers in Deep RL](https://spinningup.openai.com/en/latest/spinningup/keypapers.html#model-based-rl)
- [Deep Reinforcement Learning A brief survey](https://ieeexplore.ieee.org/abstract/document/8103164)
# Exploration vs Exploitation
## Intrinsic Motivation
### [Curiosity-driven Exploration by Self-supervised Prediction](https://arxiv.org/abs/1705.05363)
- 解决的问题:Sparse extrinsic reward, or absent reward
- 实验环境:
- VizDoom(DoomMyWayHome-v0) : 一个3D navigation task,4个离散动作:向前、向右、向左、不动;地图中包含由走廊联通的9个房间,某些房间中分布着一些goal location,最后达到vest获得+1 reward。
- Super Mario Bros:在第一关预训练,第2-4关测试generalization,不包含reward。
- ICML2017 引用1053
- 代码开源链接https://github.com/pathak22/noreward-rl
## Unsupervised RL
### [Diversity is All You Need: Learning Skills without a Reward Function](https://arxiv.org/abs/1802.06070)
- 解决的问题:探索环境并且在没有reward function的情况下学习有效的skill; 无监督的技能发现可以作为一种用于解决exploration挑战以及data efficiency的有效的预训练机制。
- 实验环境:
- 2D Navigation,不同的skill运行到地图的不同区域
- MuJoCo: Cheetah Hurdle以及Ant Navigation
- ArXiv 2018 被引290
- 代码开源链接https://github.com/ben-eysenbach/sac/blob/master/DIAYN.md
# Tansfer and Multitask RL
## [PathNet: Evolution Channels Gradient Descent in Super Neural Networks](https://arxiv.org/abs/1701.08734)
- 解决的问题:将一个任务的知识应用到另一个任务;权值参数可复用的giant神经网络,同时避免catastrophic forgetting是通向AGI的重要路径。
- 实验环境:
- Atari: 先玩Pong、River-Raid、Seaquest,Transfer效果测试玩Alien、Asterix、Boxing、Centipede、Gopher、Hero、JamesBond、Krull、RoadRunner、StarGunner、WizardofWor
- Labyrinth Maze:3D第一视角迷宫游戏,包括3个小游戏。其中,lt_chasm在一个房间里,有四个对手,agent需要进行躲避;seekavoid_arena是一个包含有苹果和柠檬的房间,需要采苹果同时不能采柠檬;stairway_to_melon中agent可以选择收集小的reward的苹果或者为了收集到大reward的melon之前采集一些小的惩罚柠檬。
- ArXiv 2017 被引403
# Hierarchy
## [Data-Efficient Hierarchical Reinforcement Learning](https://arxiv.org/abs/1805.08296)
- 解决的问题:解决更复杂的task,现有的RL算法可以解决包含inherently atomic特征的任务,该特性指的是这样的任务:agent需要使用一些简单的skill,包括episodically或cyclically,很少考虑复杂的multi-level reasoning。Hierarachy RL可以在上层策略上做更长时间的规划。
- 实验环境:
- Ant Maze:控制MuJoCo中的Ant机器人进行Ant Gather task但是需要Ant Maze、Ant Push以及Ant Fall
- NIPS 2018 被引272
- 代码开源链接https://github.com/tensorflow/models/tree/master/research/efficient-hrl
# Memory/Relational RL
## [Relational Recurrent Neural Networks](https://arxiv.org/abs/1806.01822)
- 解决的问题:涉及到relational reasoning的任务;现有的神经网络已经可以记忆大量的时空信息,agent是否能够根据这些信息进行复杂的relational reasoning planning。
- 实验环境:
- Mini Pacman with viewport:agent需要在迷宫中收集食物,同时躲避鬼;视野部分可见(5x5);agent需要记录鬼的位置,同时在memory中推理鬼的位置变化,根据该变化来plan自己的行为;同时需要记录食物的位置。
- viewport BoxWorld:14x14的地图:灰色代表背景,lone colored代表钥匙,duples of colored代表锁和钥匙(左边的颜色代表锁、右边的颜色代表可以打开锁的钥匙的颜色)。agent为深灰色,可以上下左右移动,视野范围为5x5。
- ArXiv 2018 被引215
- 代码开源链接https://github.com/deepmind/sonnet/blob/master/sonnet/python/modules/relational_memory.py
# Model-Based RL
## Model is Learned
## Model is Given
## Multi-Agent
# Multi-Objective RL
## [A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation](https://arxiv.org/abs/1908.08342)
- 解决的问题:在agent不知道relative importance(preference)的情况下,学习multiple competing objectives。难点在于agent的preference变化的过程中保持一个对于objective的optimal policy。
- 实验环境:
- Deep Sea Treasure: 一个经典的MORL的benchmark;agent控制一个潜水艇在10x11环境的查找宝藏,需要在time-cost和treasure-value之间做trade-off。环境中包含有10个宝藏,价值与agent的初始点到宝藏的距离正相关。
- Fruit Tree Navigation: 一个深度为d的二叉树,叶子节点上的reward为6维向量,表示果树的6中不同的营养,包括Protein; Carbs; Fats; Vitamins; Minerals; Water。
- Multi-Objective SuperMario Game: 5维reward向量:x-pos 两个时间步之间的未知value的差;time 一个小惩罚;deaths 一个大惩罚;coin 收集硬币的奖励;enemy 消灭敌人的奖励
- 设计环境需要保证Pareto frontier是convex的。
- NIPS 2019 引用次数24
- 代码开源链接https://github.com/RunzheYang/MORL
# Meta-RL/Lifelong Learning
## [Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks](https://arxiv.org/abs/1703.03400)
- The goal of meta-learning is to train a model on a variety of learning tasks, such that it can solve new learning tasks using only a small number of training samples
- 解决的问题:加速policy-based DRL的Fine-tuning
- 实验环境:
- 2D Navigation
- Locomotion: 在MuJoCo环境上进行high-dimensional locomotion tasks,agent为ant以及cheetah
- ICML 2017 引用次数3510
- 代码开源链接https://github.com/cbfinn/maml_rl
# Imitation Learning and Inverse RL
# Scaling RL
# Reproducibility, Analysis, and Critique
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment