推广 热搜: 行业  机械  设备    系统  教师  经纪  参数    蒸汽 

深度强化学习算法(朴素DQN,DDQN,PPO,A3C等)比较与实现

   日期:2024-12-19     移动:http://gzhdwind.xhstdz.com/mobile/quote/84924.html

不同算法的理论比较部分参考CSDN博客 - 专业IT技术发表平台,代码实现在python完成。用的算例是OpenAI官网gym提供的算例环境"CartPole-v1"游戏,代码实现部分在谷歌全家桶(Colab,tensorflow2,wandb)中完成

1.朴素DQN

原论文

[DQN] Playing Atari with Deep Reinforcement Learning [1]

 Off-policy,Discrete action space,model free,2015

算法

python实现

 

2.DDPG

原论文

Model free, off policy, continuous action, 2015

算法

python实现

 

 

 3.A3C

原论文

算法

python实现

 

 4.PPO

PPO, on policy, actor critic, Both discrete continuous action space, 2017

算法

python实现: 

本文地址:http://gzhdwind.xhstdz.com/quote/84924.html    物流园资讯网 http://gzhdwind.xhstdz.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号