what-is-rl

强化学习

多臂老虎机问题(MAB) 符号&问题定义 大写斜体表示随机变量,例如$A, R, A_t, R_t$ 小写字母表示这些随机变量的实现,例如$a, r, a_t, r_t, Pr${$A_t=a_t$} 花体,区间等表示集合,例如$\mathcal{A}, [0, 1], \mathbb{N}$ Given: a set of k actions, $\mathcal{A}$, number of rounds T. Repeat for t in T rounds: ...

Created: 2025-02-01 · Updated: 2025-05-01 · 14 分钟 · Martin