值分布强化学习 —— C51
时间:2025-07-21 | 作者: | 阅读:0值分布强化学习是基于价值的强化学习算法,不同于传统方法仅建模累积回报期望值,它对整个分布Z(s,a)建模以保留分布信息。C51是其代表算法,将分布离散为51个支点,输出支点概率,通过投影贝尔曼更新处理分布范围问题,损失函数用KL散度,框架与DQN类似但输出和更新方式不同。
值分布强化学习简介
首先需要声明的是,值分布强化学习(Distributional Reinforcement Learning)是一类基于价值的强化学习算法(value-based Reinforcement Learning)
经典的基于价值的强化学习方法使用期望值对累积回报进行建模,表示为价值函数 V(s) 或动作价值函数 Q(s,a)
而在这个建模过程中,完整的分布信息在很大程度上被丢失了
提出值分布强化学习就是想要解决分布信息丢失这个问题,对累积回报随机变量的整个分布 Z(s,a) 进行建模,而非只建模其期望
如果用公式表示:
Q(st,at)=EZ(st,at)=E[i=1∑∞γt+iR(st+i,at+i)]
值分布强化学习——C51算法
C51 简介
C51 算法来自 DeepMind 的?A Distributional Perspective on Reinforcement Learning?一文。在这篇文章中,作者首先说明传统 DQN 算法希望学习的 Q 是一个数值,其含义是未来奖励和的期望。而在值分布强化学习系列算法中,目标则由数值变为一个分布。在值分布强化学习中,目标也由数值 Q 变为随机变量 Z,这种改变可以使学到的内容是除了数值以外的更多信息,即整个分布。而模型返回的损失也转变为两个分布之间相似度的度量(metric)。
? ? ? ?算法关键
参数化分布
简而言之,若分布取值范围为Vmin到Vmax,并均分为离散的N个点,每个等分支集为
{zi=Vmin+iΔz:0≤i 模型输出的每个值对应取当前支点的概率投影贝尔曼更新
福利游戏
相关文章
更多-
- 逸剑风云决平阳堡支线怎么玩 平阳堡任务流程详细攻略
- 时间:2025-07-21
-
- 用飞桨框架2.0造一个会下五子棋的AI模型
- 时间:2025-07-21
-
- deepseek图片生成实例演示 deepseek入门操作全攻略
- 时间:2025-07-21
-
- 点云处理:基于Paddle2.0实现Kd-Networks对点云进行分类处理
- 时间:2025-07-21
-
- Paddle2.0案例: 人体姿态关键点检测
- 时间:2025-07-21
-
- Paddle2.0:使用动转静完成模型部署
- 时间:2025-07-21
-
- 钉钉再造AI新生态:平台跑出准确率超90%的妇科专业大模型
- 时间:2025-07-21
-
- 剑星爱丽丝服装怎么获取 爱丽丝服装获取方式分享
- 时间:2025-07-21
大家都在玩
大家都在看
更多-
- 比特币交易平台:火币、币安、OKEx等领航者
- 时间:2025-07-21
-
- REDMI K90系列参数曝光:全系标配长焦镜头 看齐小米
- 时间:2025-07-21
-
- 高铁一次性座椅套热销 12306回应座椅消毒情况
- 时间:2025-07-21
-
- AI潜力币爆发!掘金未来AI龙头
- 时间:2025-07-21
-
- 树木砸中路边违停车辆 损失该由谁买单 法院判了
- 时间:2025-07-21
-
- OPPO K13 Turbo首发疾风散热引擎:史上最强风冷散热技术
- 时间:2025-07-21
-
- 矿机算力计算:区块链核心动力揭秘
- 时间:2025-07-21
-
- ZEC投资潜力:2025隐私币崛起?
- 时间:2025-07-21