书目信息 |
题名: |
深入浅出强化学习
|
|
作者: | 郭宪 , 宋俊潇 , 方勇纯 著 | |
分册: | 编程实战 | |
出版信息: | 北京 电子工业出版社 2020 |
|
页数: | 264页 | |
开本: | 24cm | |
丛书名: | ||
单 册: | ||
中图分类: | TP18 | |
科图分类: | ||
主题词: | 人工智能 , 人工智能--程序设计 | |
电子资源: | ||
ISBN: | 978-7-121-36746-5 |
000 | 01173nam0 2200265 450 | |
001 | 2044330534 | |
005 | 20201022121918.53 | |
010 | @a978-7-121-36746-5@dCNY89.00 | |
049 | @aA441900DGL@bUCS01009910843@c3624671 | |
100 | @a20200325d2020 em y0chiy0110 ea | |
101 | 0 | @achi |
102 | @aCN@b110000 | |
105 | @aa z 000yy | |
200 | 1 | @a深入浅出强化学习@9shen ru qian chu qiang hua xue xi@i编程实战@b专著@f郭宪,宋俊潇,方勇纯著 |
210 | @a北京@c电子工业出版社@d2020 | |
215 | @a264页@c图@d24cm | |
330 | @a本书分3篇介绍了目前强化学习算法中最基本的算法。第1篇讲解基于值函数的强化学习算法,介绍了基于两种策略评估方法(蒙特卡洛策略评估和时间差分策略评估)的强化学习算法,以及如何将函数逼近的方法引入强化学习算法中。第2篇讲解直接策略搜索方法,介绍了基本的策略梯度方法、AC方法、PPO方法和DDPG算法。第3篇讲解基于模型的强化学习方法,介绍了基于MPC的方法、AlphaZero算法基本原理及在五子棋上的具体实现细节。 | |
606 | 0 | @a人工智能 |
606 | 0 | @a人工智能@x程序设计 |
690 | @aTP18@v5 | |
701 | 0 | @a郭宪@9guo xian@4著 |
701 | 0 | @a宋俊潇@9song jun xiao@4著 |
701 | 0 | @a方勇纯@9fang yong chun@4著 |
801 | 2 | @aCN@bA441900DGL@c20200424 |
905 | @a241250@dTP18@e157:1 | |
深入浅出强化学习.编程实战/郭宪,宋俊潇,方勇纯著.-北京:电子工业出版社,2020 |
264页:图;24cm |
ISBN 978-7-121-36746-5:CNY89.00 |
本书分3篇介绍了目前强化学习算法中最基本的算法。第1篇讲解基于值函数的强化学习算法,介绍了基于两种策略评估方法(蒙特卡洛策略评估和时间差分策略评估)的强化学习算法,以及如何将函数逼近的方法引入强化学习算法中。第2篇讲解直接策略搜索方法,介绍了基本的策略梯度方法、AC方法、PPO方法和DDPG算法。第3篇讲解基于模型的强化学习方法,介绍了基于MPC的方法、AlphaZero算法基本原理及在五子棋上的具体实现细节。 |
● |
相关链接 |
正题名:深入浅出强化学习
索取号:TP18/157:1
 
预约/预借
序号 | 登录号 | 条形码 | 馆藏地/架位号 | 状态 | 备注 |
1 | 1852153 | 218521534 | 样本书库/4110520106/ [索取号:TP18/157:1] | 在馆 | |
2 | 1852154 | 218521543 | 新区/1060300406/ [索取号:TP18/157:1] | 在馆 | |
3 | 1852155 | 218521552 | 新区/5100080402/ [索取号:TP18/157:1] | 在馆 |