Update README.md

aa41777a · Ruizhi Chen · e44c4db0 · aa41777a
Commit aa41777a authored May 20, 2021 by Ruizhi Chen
Hide whitespace changes
Inline Side-by-side

Showing with 106 additions and 0 deletions

README.md
+106 -0

No files found.
--- a/README.md
+++ b/README.md
+# RL算法分类参考
+
+- [Key Papers in Deep RL](https://spinningup.openai.com/en/latest/spinningup/keypapers.html#model-based-rl)
+- [Deep Reinforcement Learning A brief survey](https://ieeexplore.ieee.org/abstract/document/8103164)
+
+# Exploration vs Exploitation
+
+## Intrinsic Motivation
+
+### [Curiosity-driven Exploration by Self-supervised Prediction](https://arxiv.org/abs/1705.05363)
+
+- 解决的问题：Sparse extrinsic reward, or absent reward
+
+- 实验环境：
+  - VizDoom(DoomMyWayHome-v0) : 一个3D navigation task，4个离散动作：向前、向右、向左、不动；地图中包含由走廊联通的9个房间，某些房间中分布着一些goal location，最后达到vest获得+1 reward。
+  - Super Mario Bros：在第一关预训练，第2-4关测试generalization，不包含reward。
+- ICML2017 引用1053
+- 代码开源链接https://github.com/pathak22/noreward-rl
+
+## Unsupervised RL
+
+### [Diversity is All You Need: Learning Skills without a Reward Function](https://arxiv.org/abs/1802.06070)
+
+- 解决的问题：探索环境并且在没有reward function的情况下学习有效的skill; 无监督的技能发现可以作为一种用于解决exploration挑战以及data efficiency的有效的预训练机制。
+- 实验环境：
+  - 2D Navigation，不同的skill运行到地图的不同区域
+  - MuJoCo: Cheetah Hurdle以及Ant Navigation
+
+- ArXiv 2018 被引290
+- 代码开源链接https://github.com/ben-eysenbach/sac/blob/master/DIAYN.md
+
+# Tansfer and Multitask RL
+
+## [PathNet: Evolution Channels Gradient Descent in Super Neural Networks](https://arxiv.org/abs/1701.08734)
+
+- 解决的问题：将一个任务的知识应用到另一个任务；权值参数可复用的giant神经网络，同时避免catastrophic forgetting是通向AGI的重要路径。
+- 实验环境：
+  - Atari: 先玩Pong、River-Raid、Seaquest，Transfer效果测试玩Alien、Asterix、Boxing、Centipede、Gopher、Hero、JamesBond、Krull、RoadRunner、StarGunner、WizardofWor
+  - Labyrinth Maze：3D第一视角迷宫游戏，包括3个小游戏。其中，lt_chasm在一个房间里，有四个对手，agent需要进行躲避；seekavoid_arena是一个包含有苹果和柠檬的房间，需要采苹果同时不能采柠檬；stairway_to_melon中agent可以选择收集小的reward的苹果或者为了收集到大reward的melon之前采集一些小的惩罚柠檬。
+
+- ArXiv 2017 被引403
+
+# Hierarchy
+
+## [Data-Efficient Hierarchical Reinforcement Learning](https://arxiv.org/abs/1805.08296)
+
+- 解决的问题：解决更复杂的task，现有的RL算法可以解决包含inherently atomic特征的任务，该特性指的是这样的任务：agent需要使用一些简单的skill，包括episodically或cyclically，很少考虑复杂的multi-level reasoning。Hierarachy RL可以在上层策略上做更长时间的规划。
+- 实验环境：
+  - Ant Maze：控制MuJoCo中的Ant机器人进行Ant Gather task但是需要Ant Maze、Ant Push以及Ant Fall
+
+- NIPS 2018 被引272
+- 代码开源链接https://github.com/tensorflow/models/tree/master/research/efficient-hrl
+
+# Memory/Relational RL
+
+## [Relational Recurrent Neural Networks](https://arxiv.org/abs/1806.01822)
+
+- 解决的问题：涉及到relational reasoning的任务；现有的神经网络已经可以记忆大量的时空信息，agent是否能够根据这些信息进行复杂的relational reasoning planning。
+- 实验环境：
+  - Mini Pacman with viewport：agent需要在迷宫中收集食物，同时躲避鬼；视野部分可见(5x5)；agent需要记录鬼的位置，同时在memory中推理鬼的位置变化，根据该变化来plan自己的行为；同时需要记录食物的位置。
+  - viewport BoxWorld：14x14的地图：灰色代表背景，lone colored代表钥匙，duples of colored代表锁和钥匙(左边的颜色代表锁、右边的颜色代表可以打开锁的钥匙的颜色)。agent为深灰色，可以上下左右移动，视野范围为5x5。
+- ArXiv 2018 被引215
+- 代码开源链接https://github.com/deepmind/sonnet/blob/master/sonnet/python/modules/relational_memory.py
+
+# Model-Based RL
+
+## Model is Learned
+
+## Model is Given
+
+## Multi-Agent
+
+# Multi-Objective RL
+
+## [A Generalized Algorithm for Multi-Objective Reinforcement Learning and Policy Adaptation](https://arxiv.org/abs/1908.08342)
+
+- 解决的问题：在agent不知道relative importance(preference)的情况下，学习multiple competing objectives。难点在于agent的preference变化的过程中保持一个对于objective的optimal policy。
+- 实验环境：
+  - Deep Sea Treasure: 一个经典的MORL的benchmark；agent控制一个潜水艇在10x11环境的查找宝藏，需要在time-cost和treasure-value之间做trade-off。环境中包含有10个宝藏，价值与agent的初始点到宝藏的距离正相关。
+  - Fruit Tree Navigation: 一个深度为d的二叉树，叶子节点上的reward为6维向量，表示果树的6中不同的营养，包括Protein; Carbs; Fats; Vitamins; Minerals; Water。
+  - Multi-Objective SuperMario Game: 5维reward向量：x-pos 两个时间步之间的未知value的差；time 一个小惩罚；deaths 一个大惩罚；coin 收集硬币的奖励；enemy 消灭敌人的奖励
+- 设计环境需要保证Pareto frontier是convex的。
+- NIPS 2019 引用次数24
+- 代码开源链接https://github.com/RunzheYang/MORL
+
+# Meta-RL/Lifelong Learning
+
+## [Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks](https://arxiv.org/abs/1703.03400)
+
+- The goal of meta-learning is to train a model on a variety of learning tasks, such that it can solve new learning tasks using only a small number of training samples  
+
+- 解决的问题：加速policy-based DRL的Fine-tuning
+- 实验环境：
+  - 2D Navigation
+  - Locomotion: 在MuJoCo环境上进行high-dimensional locomotion tasks，agent为ant以及cheetah
+- ICML 2017 引用次数3510
+- 代码开源链接https://github.com/cbfinn/maml_rl
+
+# Imitation Learning and Inverse RL
+
+# Scaling RL
+
+# Reproducibility, Analysis, and Critique
+
+
+