Proximal Policy Optimization๋ฅผ ์ด์ฉํ ํ์ต
ML-Agents๋ Proximal Policy Optimization (PPO) ๋ผ๋ ๊ฐํํ์ต ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. PPO๋ ์์ด์ ํธ์ ๊ด์ธก (Observation)์ ํตํด ์์ด์ ํธ๊ฐ ์ฃผ์ด์ง ์ํ์์ ์ต์ ์ ํ๋์ ์ ํํ ์ ์๋๋ก ํ๋ ์ด์์ ์ธ ํจ์๋ฅผ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ด์ฉํ์ฌ ๊ทผ์ฌํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ML-agents์ PPO ์๊ณ ๋ฆฌ์ฆ์ ํ ์ํ๋ก์ฐ๋ก ๊ตฌํ๋์์ผ๋ฉฐ ๋ณ๋์ ํ์ด์ฌ ํ๋ก์ธ์ค (์์ผ ํต์ ์ ํตํด ์คํ์ค์ธ ์ ๋ํฐ ํ๋ก๊ทธ๋จ๊ณผ ํต์ )์์ ์คํ๋ฉ๋๋ค.
์์ด์ ํธ๋ฅผ ํ์ตํ๊ธฐ ์ํด์ ์ฌ์ฉ์๋ ์์ด์ ํธ๊ฐ ์ต๋ํํ๋๋ก ์๋ํ๋ ๋ณด์ ์๊ทธ๋์ ํ๋ ํน์ ๊ทธ ์ด์ ์ค์ ํด์ผํฉ๋๋ค. ์ฌ์ฉ ๊ฐ๋ฅํ ๋ณด์ ์๊ทธ๋๋ค๊ณผ ๊ด๋ จ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํด์๋ ๋ณด์ ์๊ทธ๋ ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค.
learn.py
๋ฅผ ์ด์ฉํ์ฌ ํ์ต ํ๋ก๊ทธ๋จ์ ์คํํ๋ ๋ฐฉ๋ฒ์ ML-Agents ํ์ต ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค.
๋ง์ฝ ์์ด์ ํธ์๊ฒ ๊ธฐ์ต๋ ฅ์ ๋ถ์ฌํ๊ธฐ ์ํด ์ํ ์ ๊ฒฝ๋ง (Recurrent Neural Network, RNN)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ์ํ ์ ๊ฒฝ๋ง์ ๋ํ ๊ตฌ์ฒด์ ์ธ ํ์ต ๋ฐฉ๋ฒ์ ์ค๋ช ํ๋ ์ํ ์ ๊ฒฝ๋ง ์ฌ์ฉํ๊ธฐ ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค.
๋ง์ฝ ์์ด์ ํธ์๊ฒ ์ ์๋ ๋ฌธ์ ์ ๋์ด๋๋ฅผ ์ ์ฐจ์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ฉฐ ํ์ตํ๋ ์ปค๋ฆฌํ๋ผ ํ์ต (Curriculum Learning)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ปค๋ฆฌํ๋ผ ํ์ต์ ํตํ ์์ด์ ํธ ํ์ต ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ๋์ค.
๋ชจ๋ฐฉ ํ์ต (Imitation Learning)์ ๋ํ ์ ๋ณด๋ฅผ ์ป๊ณ ์ถ์ผ์๋ค๋ฉด ๋ชจ๋ฐฉ ํ์ต์ ํตํ ์์ด์ ํธ ํ์ต ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค.
PPO ํ์ต์ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ
๊ฐํํ์ต ๋ชจ๋ธ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด์๋ ํ์ต๊ณผ ๊ด๋ จ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ํ์ํฉ๋๋ค. ์ด ๊ฐ์ด๋๋ ๊ธฐ๋ณธ์ ์ธ ํ๋ผ๋ฏธํฐ๋ค์ ์ด์ฉํ์ฌ ํ์ตํ์ ๋ ์ฌ์ฉ์๊ฐ ์ํ๋ ์ฑ๋ฅ์ ๋ง์กฑํ์ง ๋ชปํ ๊ฒฝ์ฐ ํ๋ผ๋ฏธํฐ ํ๋์ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํฉ๋๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ
Reward Signals
๊ฐํํ์ต์์ ๋ชฉํ๋ ๋ณด์์ ์ต๋๋ก ํ๋ ์ ์ฑ (Policy)์ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ๋ณด์์ ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ฃผ์ด์ง๋๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ๋ค์ํ ๋ค๋ฅธ ํ๋์ ํตํด ์์ด์ ํธ์๊ฒ ๋ณด์์ ์ฃผ๋ ๊ฒ์ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์์ด์ ํธ๊ฐ ์๋ก์ด ์ํ๋ฅผ ํํํ์ ๋ ์์ด์ ํธ์๊ฒ ๋ณด์์ ์ค ์ ์์ต๋๋ค. ์ด๋ฐ ๋ณด์ ์๊ทธ๋์ ์ถ๊ฐํ์ฌ ํ์ต ๊ณผ์ ์ ๋์์ ์ค ์๋ ์์ต๋๋ค.
reward_signals
๋ ๋ณด์ ์๊ทธ๋์ ์ ์ํฉ๋๋ค. ML-Agents๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋๊ฐ์ ๋ณด์ ์๊ทธ๋์ ์ ๊ณตํฉ๋๋ค. ํ๋๋ ์ธ๋ถ (ํ๊ฒฝ) ๋ณด์์ด๋ฉฐ ๋ค๋ฅธ ํ๋๋ ํธ๊ธฐ์ฌ (Curiosity) ๋ณด์์
๋๋ค. ์ด ํธ๊ธฐ์ฌ ๋ณด์์ ์ธ๋ถ ๋ณด์์ด ํฌ์์ฑ์ ๊ฐ์ง๋ ํ๊ฒฝ (Sparse Extrinsic Reward Environment)์์ ๋ ๋ค์ํ ํํ์ ์ํํ ์ ์๋๋ก ๋์์ค๋๋ค.
Lambda
lambd
๋ ๋๋ค(lambda)
ํ๋ผ๋ฏธํฐ๋ฅผ ์๋ฏธํ๋ฉฐ ์ผ๋ฐํ๋ ์ด๋ ์ถ์ (Generalized Advantage Estimate, GAE) ๊ณ์ฐ์ ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ์
๋ฐ์ดํธ๋ ๊ฐ์น๋ฅผ ์์ธกํ ๋ ํ์ฌ ์์ธก๋ ๊ฐ์น์ ์ผ๋ง๋ ์์กดํ ์ง ๊ฒฐ์ ํ๋ ๊ฐ์
๋๋ค. ์ด ๊ฐ์ด ๋ฎ์ผ๋ฉด ํ์ฌ ์์ธก๋ ๊ฐ์น์ ๋ ์์กดํ๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ (๋์ ํธํฅ (bias) ๋ฐ์ ๊ฐ๋ฅ), ๊ฐ์ด ๋์ผ๋ฉด ํ๊ฒฝ์ ํตํด ์ป์ ์ค์ ๋ณด์์ ๋ ์์กดํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค (๋์ ๋ถ์ฐ (variance) ๋ฐ์ ๊ฐ๋ฅ). ์ฆ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๋ป๊ฒ ์ ํํ๋์ ๋ฐ๋ผ ๋ ํน์ฑ๊ฐ์ ํธ๋ ์ด๋์คํ (trade-off)๊ฐ ์กด์ฌํฉ๋๋ค. ๋ํ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ ํ๊ฒ ์ ํํ๋ฉด ๋ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 0.9
- 0.95
Buffer Size
buffer_size
๋ ๋ชจ๋ธ ํ์ต์ ์์ํ๊ธฐ ์ ์ผ๋ง๋ ๋ง์ ๊ฒฝํ๋ค(๊ด์ธก, ํ๋, ๋ณด์ ๋ฑ)์ ์ ์ฅํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ์ด ๊ฐ์ batch_size
์ ๋ฐฐ์๋ก ์ค์ ๋์ด์ผ ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ํฐ buffer_size
๋ ๋ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 2048
- 409600
Batch Size
batch_size
๋ ํ๋ฒ์ ๊ฒฝ์ฌํ๊ฐ(Gradient Descent) ์
๋ฐ์ดํธ๋ฅผ ์ํํ ๋ ์ฌ์ฉํ ๊ฒฝํ๋ค์ ์๋ฅผ ์๋ฏธํฉ๋๋ค. ์ด ๊ฐ์ ํญ์ buffer_size
์ ์ฝ์๋ก ์ค์ ๋์ด์ผ ํฉ๋๋ค. ๋ง์ฝ ์ฐ์์ ์ธ ํ๋ ๊ณต๊ฐ (Continuous Action Space) ํ๊ฒฝ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ด ๊ฐ์ ํฌ๊ฒ ์ค์ ๋์ด์ผ ํฉ๋๋ค (1000์ ๋จ์). ๋ง์ฝ ์ด์ฐ์ ์ธ ํ๋ ๊ณต๊ฐ (Discrete Action Space) ํ๊ฒฝ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ด ๊ฐ์ ๋ ์๊ฒ ์ค์ ๋์ด์ผ ํฉ๋๋ค. (10์ ๋จ์).
์ผ๋ฐ์ ์ธ ๋ฒ์ (์ฐ์์ ์ธ ํ๋): 512
- 5120
์ผ๋ฐ์ ์ธ ๋ฒ์ (์ด์ฐ์ ์ธ ํ๋): 32
- 512
Number of Epochs
num_epoch
๋ ๊ฒฝ์ฌ ํ๊ฐ (Gradient Descent) ํ์ต ๋์ ๊ฒฝํ ๋ฒํผ (Experience Buffer) ๋ฐ์ดํฐ์ ๋ํด ํ์ต์ ๋ช๋ฒ ์ํํ ์ง ๊ฒฐ์ ํฉ๋๋ค. batch_size
๊ฐ ํด์๋ก ์ด ๊ฐ๋ ์ปค์ ธ์ผํฉ๋๋ค. ์ด ๊ฐ์ ์ค์ด๋ฉด ๋ ์์ ์ ์ธ ์
๋ฐ์ดํธ๊ฐ ๋ณด์ฅ๋์ง๋ง ํ์ต ์๋๊ฐ ๋๋ ค์ง๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 3
- 10
Learning Rate
learning_rate
๋ ๊ฒฝ์ฌ ํ๊ฐ (Gradient Descent) ํ์ต์ ์ ๋๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ํ์ต์ด ๋ถ์์ ํ๊ณ ์์ด์ ํธ๊ฐ ์ป๋ ๋ณด์์ด ์ฆ๊ฐํ์ง ์๋ ๊ฒฝ์ฐ ์ผ๋ฐ์ ์ผ๋ก ํ์ต๋ฅ ์ ๊ฐ์์ํต๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 1e-5
- 1e-3
Time Horizon
time_horizon
์ ๊ฒฝํ ๋ฒํผ (Experience Buffer)์ ์ ์ฅํ๊ธฐ ์ ์์ด์ ํธ๋น ์์งํ ๊ฒฝํ์ ์คํ
์๋ฅผ ์๋ฏธํฉ๋๋ค. ์ํผ์๋๊ฐ ๋๋๊ธฐ ์ ์ ์ด ํ๋์ ๋๋ฌํ๋ฉด ๊ฐ์น ํ๊ฐ๋ฅผ ํตํด ์์ด์ ํธ์ ํ์ฌ ์ํ๋ก๋ถํฐ ๊ธฐ๋๋๋ ์ ์ฒด ๋ณด์์ ์์ธกํฉ๋๋ค. ๋ฐ๋ผ์ ์ด ๊ฐ์ ์ค์ ์ ๋ฐ๋ผ ๋ ํธํฅ๋์ง๋ง ๋ถ์ฐ์ด ์ปค์ง์๋ ์๊ณ (๊ธด time horizon), ๋ ํธํฅ (bias)๋์ง๋ง ๋ถ์ฐ (variance)์ด ์์์ง ์๋ ์์ต๋๋ค (์งง์ time horizon). ํ ์ํผ์๋ ๋์ ๋ณด์์ด ๋น๋ฒํ๊ฒ ๋ฐ์ํ๋ ๊ฒฝ์ฐ๋ ์ํผ์๋๊ฐ ์์ฒญ๋๊ฒ ๊ธด ๊ฒฝ์ฐ์๋ time horizon ๊ฐ์ ์๊ฒ ์ค์ ํ๋ ๊ฒ์ด ์ด์์ ์
๋๋ค. ์ด ๊ฐ์ ์์ด์ ํธ๊ฐ ์ทจํ๋ ์ผ๋ จ์ ํ๋ ๋ด์์ ์ค์ํ ํ๋์ ๋ชจ๋ ํฌ์ฐฉํ ์ ์์ ๋งํผ ํฐ ๊ฐ์ ๊ฐ์ ธ์ผ ํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 32
- 2048
Max Steps
max_steps
์ ํ์ต ๊ณผ์ ๋์ ์ผ๋ง๋ ๋ง์ ์๋ฎฌ๋ ์ด์
์คํ
(ํ๋ ์ ์คํต์ ๊ณฑํ๋งํผ) ์ ์คํํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ์ด ๊ฐ์ ๋ณต์กํ ๋ฌธ์ ์ผ์๋ก ํฌ๊ฒ ์ค์ ํด์ผํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 5e5
- 1e7
Beta
beta
๋ ์ํธ๋กํผ ์ ๊ทํ (Entropy Regularization)์ ์ ๋๋ฅผ ๊ฒฐ์ ํ๋ฉฐ ์ด๋ฅผ ํตํด ์ ์ฑ
์ ๋ ๋๋คํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค. ์ด ๊ฐ์ ํตํด ์์ด์ ํธ๋ ํ์ต ๋์ ์ก์
๊ณต๊ฐ์ ์ ์ ํ๊ฒ ํํํ ์ ์์ต๋๋ค. ์ด ๊ฐ์ ์ฆ๊ฐ์ํค๋ฉด ์์ด์ ํธ๊ฐ ๋ ๋ง์ด ๋๋ค ํ๋์ ์ทจํ๊ฒ ๋ฉ๋๋ค. ์ํธ๋กํผ (ํ
์๋ณด๋๋ฅผ ํตํด ์ธก์ ๊ฐ๋ฅ)๋ ๋ณด์์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์์ํ ํฌ๊ธฐ๋ฅผ ๊ฐ์์์ผ์ผํฉ๋๋ค. ๋ง์ฝ ์ํธ๋กํผ๊ฐ ๋๋ฌด ๋น ๋ฅด๊ฒ ๋จ์ด์ง๋ฉด beta
๋ฅผ ์ฆ๊ฐ์์ผ์ผํฉ๋๋ค. ๋ง์ฝ ์ํธ๋กํผ๊ฐ ๋๋ฌด ๋๋ฆฌ๊ฒ ๋จ์ด์ง๋ฉด beta
๋ฅผ ๊ฐ์์์ผ์ผ ํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 1e-4 - 1e-2
Epsilon
epsilon
์ ๊ฒฝ์ฌ ํ๊ฐ ์
๋ฐ์ดํธ ๋์ ์ฌ์ฉํ๋ ์ด์ ์ ์ฑ
๊ณผ ์๋ก์ด ์ ์ฑ
์ฌ์ด์ ๋น์จ์ ์ผ์ ๋ฒ์์ ํฌ๊ธฐ๋ก ์ ํํ๋ ๊ฐ์
๋๋ค. ์ด ๊ฐ์ด ์๊ฒ ์ค์ ๋๋ฉด ๋ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ์ง๋ง ํ์ต์ด ๋๋ฆฌ๊ฒ ์งํ๋ ๊ฒ์
๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 0.1
- 0.3
Normalize
normalize
๋ ๋ฒกํฐ ๊ด์ธก (Vector Observation) ์
๋ ฅ์ ์ ๊ทํ (Normalization)ํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ์ด ์ ๊ทํ๋ ๋ฒกํฐ ๊ด์ธก์ ์ด๋ ํ๊ท ๋ฐ ๋ถ์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์ํํฉ๋๋ค. ์ ๊ทํ๋ ๋ณต์กํ๊ณ ์ฐ์์ ์ธ ์ ์ด ๋ฌธ์ ์์ ๋์์ด ๋ ์ ์์ง๋ง ๋จ์ํ๊ณ ์ด์ฐ์ ์ธ ์ ์ด ๋ฌธ์ ์์๋ ์ ๊ทํ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ง ์์ ์ ์์ต๋๋ค.
Number of Layers
num_layers
๋ ๊ด์ธก ์
๋ ฅ ํ ํน์ ์๊ฐ์ ๊ด์ธก (Visual Observation)์ CNN ์ธ์ฝ๋ฉ ์ดํ ๋ช๊ฐ์ ์๋์ธต (Hidden Layer)์ ์ฌ์ฉํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ๊ฐ๋จํ ๋ฌธ์ ์์๋ ์ ์ ์์ ์ธต์ ์ฌ์ฉํ์ฌ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ํ์ตํด์ผํฉ๋๋ค. ๋ณต์กํ ์ ์ด ๋ฌธ์ ์์๋ ๋ง์ ์ธต์ ์ฌ์ฉํ ํ์๊ฐ ์์ต๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 1
- 3
Hidden Units
hidden_units
์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ๊ฐ ์์ ์ฐ๊ฒฐ์ธต (Fully Connected Layer)์ ๋ช๊ฐ์ ์ ๋์ ์ฌ์ฉํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ์ต์ ์ ํ๋์ด ๊ด์ธก ์
๋ ฅ์ ๊ฐ๋จํ ์กฐํฉ์ผ๋ก ๊ฒฐ์ ๋๋ ๋จ์ํ ๋ฌธ์ ์ ๋ํด์๋ ์ด ๊ฐ์ ์๊ฒ ์ค์ ํฉ๋๋ค. ์ต์ ์ ํ๋์ด ๊ด์ธก ์
๋ ฅ์ ๋ณต์กํ ๊ด๊ณ์ ์ํด ๊ฒฐ์ ๋๋ ์ด๋ ค์ด ๋ฌธ์ ์ ๋ํด์๋ ์ด ๊ฐ์ ํฌ๊ฒ ์ค์ ํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 32
- 512
(์ ํ์ ) ์ํ์ ๊ฒฝ๋ง์ ํ์ดํผํ๋ผ๋ฏธํฐ
์๋์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ use_recurrent
์ด ์ฐธ(True)์ผ๋ก ๊ฒฐ์ ๋ ๊ฒฝ์ฐ์๋ง ์ฌ์ฉํฉ๋๋ค.
Sequence Length
sequence_length
๋ ํ์ต ๋์ ๋คํธ์ํฌ๋ฅผ ํต๊ณผํ๋ ์ฐ์์ ์ธ ๊ฒฝํ๋ค์ ๊ธธ์ด๋ฅผ ์๋ฏธํฉ๋๋ค. ์์ด์ ํธ๊ฐ ๊ธด ์๊ฐ์ ๋ํด ๊ธฐ์ตํด์ผํ๋ ์ ๋ณด๊ฐ ์๋ค๋ฉด ์ด ๊ฐ์ ์ถฉ๋ถํ ๊ธธ๊ฒ ์ค์ ํด์ผํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์์ด์ ํธ๊ฐ ๋ฌผ์ฒด์ ์๋๋ฅผ ๊ธฐ์ตํด์ผํ๋ ๊ฒฝ์ฐ ์ด ๊ฐ์ ์๊ฒ ์ค์ ํด๋ ๊ด์ฐฎ์ต๋๋ค. ๋ง์ฝ ์์ด์ ํธ๊ฐ ์ํผ์๋ ์ด๋ฐ์ ํ๋ฒ ์ฃผ์ด์ง ์ ๋ณด๋ฅผ ๊ณ์ ๊ธฐ์ตํด์ผํ๋ค๋ฉด ์ด ๊ฐ์ ํฌ๊ฒ ์ค์ ํด์ผ ํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 4
- 128
Memory Size
memory_size
๋ ์ํ์ ๊ฒฝ๋ง์ ์๋ ์ํ(hidden state)๋ฅผ ์ ์ฅํ๋๋ฐ ์ฌ์ฉ๋๋ ๋ฐฐ์ด์ ํฌ๊ธฐ๋ฅผ ์๋ฏธํฉ๋๋ค. ์ด ๊ฐ์ ๋ฐ๋์ 4์ ๋ฐฐ์๋ก ์ค์ ๋์ด์ผ ํ๋ฉฐ ์์ด์ ํธ๊ฐ ์๋ฌด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์์ํ๊ธฐ ์ํด์ ๊ธฐ์ตํด์ผํ๋ ์ ๋ณด์ ์์ ๋ฐ๋ผ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํด์ผํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ๋ฒ์: 64
- 512
Training Statistics
ํ์ต์ ์ํ๋ฅผ ํ์ธํ๋ ค๋ฉด ํ ์๋ณด๋ (TensorBoard)๋ฅผ ์ฌ์ฉํด์ผํฉ๋๋ค. ํ ์๋ณด๋๋ฅผ ์คํํ๊ณ ์ฌ์ฉํ๋ ๊ฒ์ ๋ํ ์ ๋ณด๋ฅผ ์๊ณ ์ถ์ผ์ ๊ฒฝ์ฐ ์ด ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค.
Cumulative Reward
๋ณด์์ ์ผ๋ฐ์ ์ผ๋ก ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ ๊ฐ์ ธ์ผํฉ๋๋ค. ์์ ๊ธฐ๋ณต์ด ๋ฐ์ํ ์๋ ์์ต๋๋ค. ๋ฌธ์ ์ ๋ณต์ก๋์ ๋ฐ๋ผ ์๋ฐฑ๋ง ์คํ ์ ํ์ต์ด ์งํ๋์ด๋ ๋ณด์์ด ์ฆ๊ฐํ์ง ์์์๋ ์์ต๋๋ค.
Entropy
์ด ๊ฐ์ ๋ธ๋ ์ธ์ด ๊ฒฐ์ ์ด ์ผ๋ง๋ ๋ฌด์์์ธ์ง ๋ํ๋
๋๋ค. ์ด ๊ฐ์ ํ์ต์ด ์งํ๋๋ ๋์ ์ง์์ ์ผ๋ก ๊ฐ์ํด์ผํฉ๋๋ค. ๋ง์ฝ ์ด ๊ฐ์ด ๋๋ฌด ๋น ๋ฅด๊ฒ ๊ฐ์ํ๊ฑฐ๋ ์์ ๊ฐ์ํ์ง ์๋ ๊ฒฝ์ฐ beta
์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํด์ผํฉ๋๋ค. (์ด์ฐ์ ์ธ ํ๋ ๊ณต๊ฐ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ)
Learning Rate
์ด ๊ฐ์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ๊ฐ์ํฉ๋๋ค.
Policy Loss
์ด ๊ฐ๋ค์ ํ์ต์ด ์งํ๋๋ ๋์ ์ง๋ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ด ๊ฐ๋ค์ 1๋ณด๋ค ์์์ผํฉ๋๋ค.
Value Estimate
์ด ๊ฐ๋ค์ ๋์ ๋ณด์์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ปค์ ธ์ผํฉ๋๋ค. ์ด ๊ฐ๋ค์ ์ฃผ์ด์ง ์์ ์์ ์์ด์ ํธ๊ฐ ์ค์ค๋ก ๋ฐ์ ๊ฒ์ด๋ผ ์์ธกํ๋ ๋ฏธ๋์ ๋ณด์์ด ์ผ๋ง๋ ๋ ๊ฒ์ธ์ง๋ฅผ ๋ํ๋ ๋๋ค.
Value Loss
์ด ๊ฐ๋ค์ ๋ณด์์ด ์ฆ๊ฐํ๋ฉด ์ฆ๊ฐํ๊ณ ๋ณด์์ด ์์ ๋๋ฉด ๊ฐ์ํฉ๋๋ค.
ํ๊ธ ๋ฒ์ญ
ํด๋น ๋ฌธ์์ ํ๊ธ ๋ฒ์ญ์ ๋ฏผ๊ท์ (Kyushik Min)์ ์ํด ์งํ๋์์ต๋๋ค. ๋ด์ฉ์ ์ค๋ฅ๋ ์คํ์๊ฐ ์๋ ๊ฒฝ์ฐ kyushikmin@gmail.com ์ผ๋ก ์ฐ๋ฝ์ฃผ์๋ฉด ๊ฐ์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.