值分布强化学习 —— C51 - 心愿游戏

位置：首页 > 新闻资讯 > 值分布强化学习 —— C51

值分布强化学习 —— C51

时间：2025-07-21 | 作者： | 阅读：0

值分布强化学习是基于价值的强化学习算法，不同于传统方法仅建模累积回报期望值，它对整个分布Z(s,a)建模以保留分布信息。C51是其代表算法，将分布离散为51个支点，输出支点概率，通过投影贝尔曼更新处理分布范围问题，损失函数用KL散度，框架与DQN类似但输出和更新方式不同。

值分布强化学习简介

首先需要声明的是，值分布强化学习（Distributional Reinforcement Learning）是一类基于价值的强化学习算法（value-based Reinforcement Learning）

经典的基于价值的强化学习方法使用期望值对累积回报进行建模，表示为价值函数 V(s) 或动作价值函数 Q(s,a)

而在这个建模过程中，完整的分布信息在很大程度上被丢失了

提出值分布强化学习就是想要解决分布信息丢失这个问题，对累积回报随机变量的整个分布 Z(s,a) 进行建模，而非只建模其期望

? ? ? ?

如果用公式表示:

$Q (s_{t}, a_{t}) = E Z (s_{t}, a_{t}) = E [\sum_{i = 1}^{\infty} γ_{t + i} R (s_{t + i}, a_{t + i})]$ Q(st,at)=EZ(st,at)=E[i=1∑∞γt+iR(st+i,at+i)]

值分布强化学习——C51算法

C51 简介

C51 算法来自 DeepMind 的?A Distributional Perspective on Reinforcement Learning?一文。在这篇文章中，作者首先说明传统 DQN 算法希望学习的 Q 是一个数值，其含义是未来奖励和的期望。而在值分布强化学习系列算法中，目标则由数值变为一个分布。在值分布强化学习中，目标也由数值 Q 变为随机变量 Z，这种改变可以使学到的内容是除了数值以外的更多信息，即整个分布。而模型返回的损失也转变为两个分布之间相似度的度量（metric）。

? ? ? ?

算法关键

参数化分布

简而言之，若分布取值范围为 $V_{m i n}$ Vmin到 $V_{m a x}$ Vmax，并均分为离散的N个点，每个等分支集为

${z_{i} = V_{m i n} + i Δ z : 0 \leq i N,Δz=\frac{V_{m a x} ? V_{m i n}}{N ? 1}}$ {zi=Vmin+iΔz:0≤i

模型输出的每个值对应取当前支点的概率

投影贝尔曼更新

来源:https://www.php.cn/faq/1419350.html
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

nef 格式图片降噪处理用什么工具效果如何

时间：2025-07-29
邮箱长时间未登录被注销了能恢复吗？

时间：2025-07-29
Outlook收件箱邮件不同步怎么办？

时间：2025-07-29
为什么客户端收邮件总是延迟？

时间：2025-07-29
一英寸在磁带宽度中是多少老式设备规格

时间：2025-07-29
大卡和年龄的关系不同年龄段热量需求

时间：2025-07-29
jif 格式是 gif 的变体吗现在还常用吗

时间：2025-07-29
hdr 格式图片在显示器上能完全显示吗普通显示器有局限吗

时间：2025-07-29

精选合集

更多

狙击之神幻界传说建模路由 ce修改器 ps插件 YY语音社区十字绣补丁 EasyRecovery 超市

大家都在玩

热门话题

大家都在看

更多

UltraEdit怎么设置自动转换到DOS格式

时间：2025-10-13
UltraEdit怎么关闭整字匹配

时间：2025-10-13
三角洲行动简单又好听游戏网名

时间：2025-10-13
抖音定时发布怎么取消？发布作品正确方法是什么？

时间：2025-10-13
小红书怎么注册新的账号？它起号运营怎么做？

时间：2025-10-13
快手评论被删除的原因怎么查？评论被删除有哪些原因？

时间：2025-10-13
不让别人看抖音收藏的音乐怎么弄？收藏的音乐在哪里找到？

时间：2025-10-13
小红书企业号认证流程是什么？企业号认证的条件是什么？

时间：2025-10-13