深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现

不同算法的理论比较部分参考CSDN博客 - 专业IT技术发表平台，代码实现在python完成。用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现部分在谷歌全家桶(Colab,tensorflow2,wandb)中完成

1.朴素DQN

原论文：

[DQN] Playing Atari with Deep Reinforcement Learning [1]

Off-policy，Discrete action space，model free，2015

算法：

python实现：

2.DDPG

原论文：

Model free， off policy， continuous action， 2015

算法：

python实现：

3.A3C

原论文：

算法：

python实现：

4.PPO

PPO， on policy, actor critic, Both discrete continuous action space, 2017

算法：

python实现：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行