跳至主要內容
EkkoSonya's Blog
主页
学术
代码
随笔
工具
ChatGPT SC
open in new window
IMGPrompt
open in new window
多语言处理
open in new window
工具收藏
open in new window
搜索
Ctrl
K
Academic
约 1 字
小于 1 分钟
目录
#
UAV
#
Reinforcement Learning in Multiple-UAV Networks:Deployment and Movement Design
#
强化学习
#
RL1 - 基本概念
#
RL10 - Actor-Critic 方法
#
RL2 - 贝尔曼公式
#
RL3 - 贝尔曼最优公式
#
RL4 - 值迭代和策略迭代(动态规划)
#
RL5 - 蒙特卡洛方法 (Monte Carlo) model-free
#
RL6 - 随机近似理论与随机梯度下降算法
#
RL7 - Temporal-Difference Learning
#
RL8 - 值函数近似(Value Function Approximation)
#
RL9 - 策略梯度法(Policy gradient)