|
# Proximal Policy Optimization๋ฅผ ์ด์ฉํ ํ์ต |
|
|
|
ML-Agents๋ [Proximal Policy Optimization (PPO)](https://blog.openai.com/openai-baselines-ppo/) ๋ผ๋ ๊ฐํํ์ต ๊ธฐ๋ฒ์ ์ฌ์ฉํฉ๋๋ค. |
|
PPO๋ ์์ด์ ํธ์ ๊ด์ธก (Observation)์ ํตํด ์์ด์ ํธ๊ฐ ์ฃผ์ด์ง ์ํ์์ ์ต์ ์ ํ๋์ ์ ํํ ์ ์๋๋ก ํ๋ ์ด์์ ์ธ ํจ์๋ฅผ ์ธ๊ณต์ ๊ฒฝ๋ง์ ์ด์ฉํ์ฌ ๊ทผ์ฌํ๋ ๊ธฐ๋ฒ์
๋๋ค. ML-agents์ PPO ์๊ณ ๋ฆฌ์ฆ์ ํ
์ํ๋ก์ฐ๋ก ๊ตฌํ๋์์ผ๋ฉฐ ๋ณ๋์ ํ์ด์ฌ ํ๋ก์ธ์ค (์์ผ ํต์ ์ ํตํด ์คํ์ค์ธ ์ ๋ํฐ ํ๋ก๊ทธ๋จ๊ณผ ํต์ )์์ ์คํ๋ฉ๋๋ค. |
|
|
|
์์ด์ ํธ๋ฅผ ํ์ตํ๊ธฐ ์ํด์ ์ฌ์ฉ์๋ ์์ด์ ํธ๊ฐ ์ต๋ํํ๋๋ก ์๋ํ๋ ๋ณด์ ์๊ทธ๋์ ํ๋ ํน์ ๊ทธ ์ด์ ์ค์ ํด์ผํฉ๋๋ค. ์ฌ์ฉ ๊ฐ๋ฅํ ๋ณด์ ์๊ทธ๋๋ค๊ณผ ๊ด๋ จ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ํด์๋ [๋ณด์ ์๊ทธ๋](Reward-Signals.md) ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค. |
|
|
|
`learn.py`๋ฅผ ์ด์ฉํ์ฌ ํ์ต ํ๋ก๊ทธ๋จ์ ์คํํ๋ ๋ฐฉ๋ฒ์ [ML-Agents ํ์ต](Training-ML-Agents.md) ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค. |
|
|
|
๋ง์ฝ ์์ด์ ํธ์๊ฒ ๊ธฐ์ต๋ ฅ์ ๋ถ์ฌํ๊ธฐ ์ํด ์ํ ์ ๊ฒฝ๋ง (Recurrent Neural Network, RNN)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ์ํ ์ ๊ฒฝ๋ง์ ๋ํ ๊ตฌ์ฒด์ ์ธ ํ์ต ๋ฐฉ๋ฒ์ ์ค๋ช
ํ๋ [์ํ ์ ๊ฒฝ๋ง ์ฌ์ฉํ๊ธฐ](Feature-Memory.md) ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค. |
|
|
|
|
|
๋ง์ฝ ์์ด์ ํธ์๊ฒ ์ ์๋ ๋ฌธ์ ์ ๋์ด๋๋ฅผ ์ ์ฐจ์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ฉฐ ํ์ตํ๋ ์ปค๋ฆฌํ๋ผ ํ์ต (Curriculum Learning)์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ [์ปค๋ฆฌํ๋ผ ํ์ต์ ํตํ ์์ด์ ํธ ํ์ต](Training-Curriculum-Learning.md) ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ๋์ค. |
|
|
|
๋ชจ๋ฐฉ ํ์ต (Imitation Learning)์ ๋ํ ์ ๋ณด๋ฅผ ์ป๊ณ ์ถ์ผ์๋ค๋ฉด [๋ชจ๋ฐฉ ํ์ต์ ํตํ ์์ด์ ํธ ํ์ต](Training-Imitation-Learning.md) ๋ฌธ์๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค. |
|
|
|
|
|
|
|
## PPO ํ์ต์ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ |
|
|
|
๊ฐํํ์ต ๋ชจ๋ธ์ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด์๋ ํ์ต๊ณผ ๊ด๋ จ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ํ์ํฉ๋๋ค. ์ด ๊ฐ์ด๋๋ ๊ธฐ๋ณธ์ ์ธ ํ๋ผ๋ฏธํฐ๋ค์ ์ด์ฉํ์ฌ ํ์ตํ์ ๋ ์ฌ์ฉ์๊ฐ ์ํ๋ ์ฑ๋ฅ์ ๋ง์กฑํ์ง ๋ชปํ ๊ฒฝ์ฐ ํ๋ผ๋ฏธํฐ ํ๋์ ์ํํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช
ํฉ๋๋ค. |
|
|
|
## ํ์ดํผํ๋ผ๋ฏธํฐ |
|
|
|
### Reward Signals |
|
|
|
๊ฐํํ์ต์์ ๋ชฉํ๋ ๋ณด์์ ์ต๋๋ก ํ๋ ์ ์ฑ
(Policy)์ ํ์ตํ๋ ๊ฒ์
๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ๋ณด์์ ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ฃผ์ด์ง๋๋ค. ๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ ๋ค์ํ ๋ค๋ฅธ ํ๋์ ํตํด ์์ด์ ํธ์๊ฒ ๋ณด์์ ์ฃผ๋ ๊ฒ์ ์๊ฐํด๋ณผ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด ์์ด์ ํธ๊ฐ ์๋ก์ด ์ํ๋ฅผ ํํํ์ ๋ ์์ด์ ํธ์๊ฒ ๋ณด์์ ์ค ์ ์์ต๋๋ค. ์ด๋ฐ ๋ณด์ ์๊ทธ๋์ ์ถ๊ฐํ์ฌ ํ์ต ๊ณผ์ ์ ๋์์ ์ค ์๋ ์์ต๋๋ค. |
|
|
|
`reward_signals`๋ [๋ณด์ ์๊ทธ๋](Reward-Signals.md)์ ์ ์ํฉ๋๋ค. ML-Agents๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋๊ฐ์ ๋ณด์ ์๊ทธ๋์ ์ ๊ณตํฉ๋๋ค. ํ๋๋ ์ธ๋ถ (ํ๊ฒฝ) ๋ณด์์ด๋ฉฐ ๋ค๋ฅธ ํ๋๋ ํธ๊ธฐ์ฌ (Curiosity) ๋ณด์์
๋๋ค. ์ด ํธ๊ธฐ์ฌ ๋ณด์์ ์ธ๋ถ ๋ณด์์ด ํฌ์์ฑ์ ๊ฐ์ง๋ ํ๊ฒฝ (Sparse Extrinsic Reward Environment)์์ ๋ ๋ค์ํ ํํ์ ์ํํ ์ ์๋๋ก ๋์์ค๋๋ค. |
|
|
|
### Lambda |
|
|
|
`lambd` ๋ `๋๋ค(lambda)` ํ๋ผ๋ฏธํฐ๋ฅผ ์๋ฏธํ๋ฉฐ ์ผ๋ฐํ๋ ์ด๋ ์ถ์ (Generalized Advantage Estimate, [GAE]((https://arxiv.org/abs/1506.02438))) ๊ณ์ฐ์ ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ ์
๋ฐ์ดํธ๋ ๊ฐ์น๋ฅผ ์์ธกํ ๋ ํ์ฌ ์์ธก๋ ๊ฐ์น์ ์ผ๋ง๋ ์์กดํ ์ง ๊ฒฐ์ ํ๋ ๊ฐ์
๋๋ค. ์ด ๊ฐ์ด ๋ฎ์ผ๋ฉด ํ์ฌ ์์ธก๋ ๊ฐ์น์ ๋ ์์กดํ๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ (๋์ ํธํฅ (bias) ๋ฐ์ ๊ฐ๋ฅ), ๊ฐ์ด ๋์ผ๋ฉด ํ๊ฒฝ์ ํตํด ์ป์ ์ค์ ๋ณด์์ ๋ ์์กดํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค (๋์ ๋ถ์ฐ (variance) ๋ฐ์ ๊ฐ๋ฅ). ์ฆ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๋ป๊ฒ ์ ํํ๋์ ๋ฐ๋ผ ๋ ํน์ฑ๊ฐ์ ํธ๋ ์ด๋์คํ (trade-off)๊ฐ ์กด์ฌํฉ๋๋ค. ๋ํ ์ด ํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ ํ๊ฒ ์ ํํ๋ฉด ๋ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `0.9` - `0.95` |
|
|
|
### Buffer Size |
|
|
|
`buffer_size` ๋ ๋ชจ๋ธ ํ์ต์ ์์ํ๊ธฐ ์ ์ผ๋ง๋ ๋ง์ ๊ฒฝํ๋ค(๊ด์ธก, ํ๋, ๋ณด์ ๋ฑ)์ ์ ์ฅํ ์ง ๊ฒฐ์ ํฉ๋๋ค. **์ด ๊ฐ์ `batch_size`์ ๋ฐฐ์๋ก ์ค์ ๋์ด์ผ ํฉ๋๋ค.** ์ผ๋ฐ์ ์ผ๋ก ํฐ `buffer_size`๋ ๋ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `2048` - `409600` |
|
|
|
### Batch Size |
|
|
|
`batch_size` ๋ ํ๋ฒ์ ๊ฒฝ์ฌํ๊ฐ(Gradient Descent) ์
๋ฐ์ดํธ๋ฅผ ์ํํ ๋ ์ฌ์ฉํ ๊ฒฝํ๋ค์ ์๋ฅผ ์๋ฏธํฉ๋๋ค. **์ด ๊ฐ์ ํญ์ `buffer_size`์ ์ฝ์๋ก ์ค์ ๋์ด์ผ ํฉ๋๋ค.** ๋ง์ฝ ์ฐ์์ ์ธ ํ๋ ๊ณต๊ฐ (Continuous Action Space) ํ๊ฒฝ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ด ๊ฐ์ ํฌ๊ฒ ์ค์ ๋์ด์ผ ํฉ๋๋ค (1000์ ๋จ์). ๋ง์ฝ ์ด์ฐ์ ์ธ ํ๋ ๊ณต๊ฐ (Discrete Action Space) ํ๊ฒฝ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์ด ๊ฐ์ ๋ ์๊ฒ ์ค์ ๋์ด์ผ ํฉ๋๋ค. (10์ ๋จ์). |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์ (์ฐ์์ ์ธ ํ๋): `512` - `5120` |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์ (์ด์ฐ์ ์ธ ํ๋): `32` - `512` |
|
|
|
### Number of Epochs |
|
|
|
`num_epoch` ๋ ๊ฒฝ์ฌ ํ๊ฐ (Gradient Descent) ํ์ต ๋์ ๊ฒฝํ ๋ฒํผ (Experience Buffer) ๋ฐ์ดํฐ์ ๋ํด ํ์ต์ ๋ช๋ฒ ์ํํ ์ง ๊ฒฐ์ ํฉ๋๋ค. `batch_size`๊ฐ ํด์๋ก ์ด ๊ฐ๋ ์ปค์ ธ์ผํฉ๋๋ค. ์ด ๊ฐ์ ์ค์ด๋ฉด ๋ ์์ ์ ์ธ ์
๋ฐ์ดํธ๊ฐ ๋ณด์ฅ๋์ง๋ง ํ์ต ์๋๊ฐ ๋๋ ค์ง๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `3` - `10` |
|
|
|
### Learning Rate |
|
|
|
`learning_rate` ๋ ๊ฒฝ์ฌ ํ๊ฐ (Gradient Descent) ํ์ต์ ์ ๋๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ํ์ต์ด ๋ถ์์ ํ๊ณ ์์ด์ ํธ๊ฐ ์ป๋ ๋ณด์์ด ์ฆ๊ฐํ์ง ์๋ ๊ฒฝ์ฐ ์ผ๋ฐ์ ์ผ๋ก ํ์ต๋ฅ ์ ๊ฐ์์ํต๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `1e-5` - `1e-3` |
|
|
|
### Time Horizon |
|
|
|
`time_horizon` ์ ๊ฒฝํ ๋ฒํผ (Experience Buffer)์ ์ ์ฅํ๊ธฐ ์ ์์ด์ ํธ๋น ์์งํ ๊ฒฝํ์ ์คํ
์๋ฅผ ์๋ฏธํฉ๋๋ค. ์ํผ์๋๊ฐ ๋๋๊ธฐ ์ ์ ์ด ํ๋์ ๋๋ฌํ๋ฉด ๊ฐ์น ํ๊ฐ๋ฅผ ํตํด ์์ด์ ํธ์ ํ์ฌ ์ํ๋ก๋ถํฐ ๊ธฐ๋๋๋ ์ ์ฒด ๋ณด์์ ์์ธกํฉ๋๋ค. ๋ฐ๋ผ์ ์ด ๊ฐ์ ์ค์ ์ ๋ฐ๋ผ ๋ ํธํฅ๋์ง๋ง ๋ถ์ฐ์ด ์ปค์ง์๋ ์๊ณ (๊ธด time horizon), ๋ ํธํฅ (bias)๋์ง๋ง ๋ถ์ฐ (variance)์ด ์์์ง ์๋ ์์ต๋๋ค (์งง์ time horizon). ํ ์ํผ์๋ ๋์ ๋ณด์์ด ๋น๋ฒํ๊ฒ ๋ฐ์ํ๋ ๊ฒฝ์ฐ๋ ์ํผ์๋๊ฐ ์์ฒญ๋๊ฒ ๊ธด ๊ฒฝ์ฐ์๋ time horizon ๊ฐ์ ์๊ฒ ์ค์ ํ๋ ๊ฒ์ด ์ด์์ ์
๋๋ค. ์ด ๊ฐ์ ์์ด์ ํธ๊ฐ ์ทจํ๋ ์ผ๋ จ์ ํ๋ ๋ด์์ ์ค์ํ ํ๋์ ๋ชจ๋ ํฌ์ฐฉํ ์ ์์ ๋งํผ ํฐ ๊ฐ์ ๊ฐ์ ธ์ผ ํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `32` - `2048` |
|
|
|
### Max Steps |
|
|
|
`max_steps` ์ ํ์ต ๊ณผ์ ๋์ ์ผ๋ง๋ ๋ง์ ์๋ฎฌ๋ ์ด์
์คํ
(ํ๋ ์ ์คํต์ ๊ณฑํ๋งํผ) ์ ์คํํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ์ด ๊ฐ์ ๋ณต์กํ ๋ฌธ์ ์ผ์๋ก ํฌ๊ฒ ์ค์ ํด์ผํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `5e5` - `1e7` |
|
|
|
### Beta |
|
|
|
`beta` ๋ ์ํธ๋กํผ ์ ๊ทํ (Entropy Regularization)์ ์ ๋๋ฅผ ๊ฒฐ์ ํ๋ฉฐ ์ด๋ฅผ ํตํด ์ ์ฑ
์ ๋ ๋๋คํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค. ์ด ๊ฐ์ ํตํด ์์ด์ ํธ๋ ํ์ต ๋์ ์ก์
๊ณต๊ฐ์ ์ ์ ํ๊ฒ ํํํ ์ ์์ต๋๋ค. ์ด ๊ฐ์ ์ฆ๊ฐ์ํค๋ฉด ์์ด์ ํธ๊ฐ ๋ ๋ง์ด ๋๋ค ํ๋์ ์ทจํ๊ฒ ๋ฉ๋๋ค. ์ํธ๋กํผ (ํ
์๋ณด๋๋ฅผ ํตํด ์ธก์ ๊ฐ๋ฅ)๋ ๋ณด์์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์์ํ ํฌ๊ธฐ๋ฅผ ๊ฐ์์์ผ์ผํฉ๋๋ค. ๋ง์ฝ ์ํธ๋กํผ๊ฐ ๋๋ฌด ๋น ๋ฅด๊ฒ ๋จ์ด์ง๋ฉด `beta`๋ฅผ ์ฆ๊ฐ์์ผ์ผํฉ๋๋ค. ๋ง์ฝ ์ํธ๋กํผ๊ฐ ๋๋ฌด ๋๋ฆฌ๊ฒ ๋จ์ด์ง๋ฉด `beta`๋ฅผ ๊ฐ์์์ผ์ผ ํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: 1e-4 - 1e-2 |
|
|
|
### Epsilon |
|
|
|
`epsilon` ์ ๊ฒฝ์ฌ ํ๊ฐ ์
๋ฐ์ดํธ ๋์ ์ฌ์ฉํ๋ ์ด์ ์ ์ฑ
๊ณผ ์๋ก์ด ์ ์ฑ
์ฌ์ด์ ๋น์จ์ ์ผ์ ๋ฒ์์ ํฌ๊ธฐ๋ก ์ ํํ๋ ๊ฐ์
๋๋ค. ์ด ๊ฐ์ด ์๊ฒ ์ค์ ๋๋ฉด ๋ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํ์ง๋ง ํ์ต์ด ๋๋ฆฌ๊ฒ ์งํ๋ ๊ฒ์
๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `0.1` - `0.3` |
|
|
|
### Normalize |
|
|
|
`normalize`๋ ๋ฒกํฐ ๊ด์ธก (Vector Observation) ์
๋ ฅ์ ์ ๊ทํ (Normalization)ํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ์ด ์ ๊ทํ๋ ๋ฒกํฐ ๊ด์ธก์ ์ด๋ ํ๊ท ๋ฐ ๋ถ์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์ํํฉ๋๋ค. ์ ๊ทํ๋ ๋ณต์กํ๊ณ ์ฐ์์ ์ธ ์ ์ด ๋ฌธ์ ์์ ๋์์ด ๋ ์ ์์ง๋ง ๋จ์ํ๊ณ ์ด์ฐ์ ์ธ ์ ์ด ๋ฌธ์ ์์๋ ์ ๊ทํ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ง ์์ ์ ์์ต๋๋ค. |
|
|
|
### Number of Layers |
|
|
|
`num_layers` ๋ ๊ด์ธก ์
๋ ฅ ํ ํน์ ์๊ฐ์ ๊ด์ธก (Visual Observation)์ CNN ์ธ์ฝ๋ฉ ์ดํ ๋ช๊ฐ์ ์๋์ธต (Hidden Layer)์ ์ฌ์ฉํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ๊ฐ๋จํ ๋ฌธ์ ์์๋ ์ ์ ์์ ์ธต์ ์ฌ์ฉํ์ฌ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ํ์ตํด์ผํฉ๋๋ค. ๋ณต์กํ ์ ์ด ๋ฌธ์ ์์๋ ๋ง์ ์ธต์ ์ฌ์ฉํ ํ์๊ฐ ์์ต๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `1` - `3` |
|
|
|
### Hidden Units |
|
|
|
`hidden_units` ์ ์ธ๊ณต์ ๊ฒฝ๋ง์ ๊ฐ ์์ ์ฐ๊ฒฐ์ธต (Fully Connected Layer)์ ๋ช๊ฐ์ ์ ๋์ ์ฌ์ฉํ ์ง ๊ฒฐ์ ํฉ๋๋ค. ์ต์ ์ ํ๋์ด ๊ด์ธก ์
๋ ฅ์ ๊ฐ๋จํ ์กฐํฉ์ผ๋ก ๊ฒฐ์ ๋๋ ๋จ์ํ ๋ฌธ์ ์ ๋ํด์๋ ์ด ๊ฐ์ ์๊ฒ ์ค์ ํฉ๋๋ค. ์ต์ ์ ํ๋์ด ๊ด์ธก ์
๋ ฅ์ ๋ณต์กํ ๊ด๊ณ์ ์ํด ๊ฒฐ์ ๋๋ ์ด๋ ค์ด ๋ฌธ์ ์ ๋ํด์๋ ์ด ๊ฐ์ ํฌ๊ฒ ์ค์ ํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `32` - `512` |
|
|
|
## (์ ํ์ ) ์ํ์ ๊ฒฝ๋ง์ ํ์ดํผํ๋ผ๋ฏธํฐ |
|
|
|
์๋์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ `use_recurrent` ์ด ์ฐธ(True)์ผ๋ก ๊ฒฐ์ ๋ ๊ฒฝ์ฐ์๋ง ์ฌ์ฉํฉ๋๋ค. |
|
|
|
### Sequence Length |
|
|
|
`sequence_length` ๋ ํ์ต ๋์ ๋คํธ์ํฌ๋ฅผ ํต๊ณผํ๋ ์ฐ์์ ์ธ ๊ฒฝํ๋ค์ ๊ธธ์ด๋ฅผ ์๋ฏธํฉ๋๋ค. ์์ด์ ํธ๊ฐ ๊ธด ์๊ฐ์ ๋ํด ๊ธฐ์ตํด์ผํ๋ ์ ๋ณด๊ฐ ์๋ค๋ฉด ์ด ๊ฐ์ ์ถฉ๋ถํ ๊ธธ๊ฒ ์ค์ ํด์ผํฉ๋๋ค. ์๋ฅผ ๋ค์ด ์์ด์ ํธ๊ฐ ๋ฌผ์ฒด์ ์๋๋ฅผ ๊ธฐ์ตํด์ผํ๋ ๊ฒฝ์ฐ ์ด ๊ฐ์ ์๊ฒ ์ค์ ํด๋ ๊ด์ฐฎ์ต๋๋ค. ๋ง์ฝ ์์ด์ ํธ๊ฐ ์ํผ์๋ ์ด๋ฐ์ ํ๋ฒ ์ฃผ์ด์ง ์ ๋ณด๋ฅผ ๊ณ์ ๊ธฐ์ตํด์ผํ๋ค๋ฉด ์ด ๊ฐ์ ํฌ๊ฒ ์ค์ ํด์ผ ํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `4` - `128` |
|
|
|
### Memory Size |
|
|
|
`memory_size` ๋ ์ํ์ ๊ฒฝ๋ง์ ์๋ ์ํ(hidden state)๋ฅผ ์ ์ฅํ๋๋ฐ ์ฌ์ฉ๋๋ ๋ฐฐ์ด์ ํฌ๊ธฐ๋ฅผ ์๋ฏธํฉ๋๋ค. ์ด ๊ฐ์ ๋ฐ๋์ 4์ ๋ฐฐ์๋ก ์ค์ ๋์ด์ผ ํ๋ฉฐ ์์ด์ ํธ๊ฐ ์๋ฌด๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์์ํ๊ธฐ ์ํด์ ๊ธฐ์ตํด์ผํ๋ ์ ๋ณด์ ์์ ๋ฐ๋ผ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํด์ผํฉ๋๋ค. |
|
|
|
์ผ๋ฐ์ ์ธ ๋ฒ์: `64` - `512` |
|
|
|
## Training Statistics |
|
|
|
ํ์ต์ ์ํ๋ฅผ ํ์ธํ๋ ค๋ฉด ํ
์๋ณด๋ (TensorBoard)๋ฅผ ์ฌ์ฉํด์ผํฉ๋๋ค. ํ
์๋ณด๋๋ฅผ ์คํํ๊ณ ์ฌ์ฉํ๋ ๊ฒ์ ๋ํ ์ ๋ณด๋ฅผ ์๊ณ ์ถ์ผ์ ๊ฒฝ์ฐ ์ด [๋ฌธ์](./Getting-Started-with-Balance-Ball.md#observing-training-progress)๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ญ์์ค. |
|
|
|
### Cumulative Reward |
|
|
|
๋ณด์์ ์ผ๋ฐ์ ์ผ๋ก ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ ๊ฐ์ ธ์ผํฉ๋๋ค. ์์ ๊ธฐ๋ณต์ด ๋ฐ์ํ ์๋ ์์ต๋๋ค. ๋ฌธ์ ์ ๋ณต์ก๋์ ๋ฐ๋ผ ์๋ฐฑ๋ง ์คํ
์ ํ์ต์ด ์งํ๋์ด๋ ๋ณด์์ด ์ฆ๊ฐํ์ง ์์์๋ ์์ต๋๋ค. |
|
|
|
### Entropy |
|
|
|
์ด ๊ฐ์ ๋ธ๋ ์ธ์ด ๊ฒฐ์ ์ด ์ผ๋ง๋ ๋ฌด์์์ธ์ง ๋ํ๋
๋๋ค. ์ด ๊ฐ์ ํ์ต์ด ์งํ๋๋ ๋์ ์ง์์ ์ผ๋ก ๊ฐ์ํด์ผํฉ๋๋ค. ๋ง์ฝ ์ด ๊ฐ์ด ๋๋ฌด ๋น ๋ฅด๊ฒ ๊ฐ์ํ๊ฑฐ๋ ์์ ๊ฐ์ํ์ง ์๋ ๊ฒฝ์ฐ `beta`์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํด์ผํฉ๋๋ค. (์ด์ฐ์ ์ธ ํ๋ ๊ณต๊ฐ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ) |
|
|
|
### Learning Rate |
|
|
|
์ด ๊ฐ์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ๊ฐ์ํฉ๋๋ค. |
|
|
|
### Policy Loss |
|
|
|
์ด ๊ฐ๋ค์ ํ์ต์ด ์งํ๋๋ ๋์ ์ง๋ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ด ๊ฐ๋ค์ 1๋ณด๋ค ์์์ผํฉ๋๋ค. |
|
|
|
### Value Estimate |
|
|
|
์ด ๊ฐ๋ค์ ๋์ ๋ณด์์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ปค์ ธ์ผํฉ๋๋ค. ์ด ๊ฐ๋ค์ ์ฃผ์ด์ง ์์ ์์ ์์ด์ ํธ๊ฐ ์ค์ค๋ก ๋ฐ์ ๊ฒ์ด๋ผ ์์ธกํ๋ ๋ฏธ๋์ ๋ณด์์ด ์ผ๋ง๋ ๋ ๊ฒ์ธ์ง๋ฅผ ๋ํ๋
๋๋ค. |
|
|
|
### Value Loss |
|
|
|
์ด ๊ฐ๋ค์ ๋ณด์์ด ์ฆ๊ฐํ๋ฉด ์ฆ๊ฐํ๊ณ ๋ณด์์ด ์์ ๋๋ฉด ๊ฐ์ํฉ๋๋ค. |
|
|
|
|
|
|
|
## ํ๊ธ ๋ฒ์ญ |
|
|
|
ํด๋น ๋ฌธ์์ ํ๊ธ ๋ฒ์ญ์ [๋ฏผ๊ท์ (Kyushik Min)]([https://github.com/Kyushik](https://github.com/Kyushik))์ ์ํด ์งํ๋์์ต๋๋ค. ๋ด์ฉ์ ์ค๋ฅ๋ ์คํ์๊ฐ ์๋ ๊ฒฝ์ฐ kyushikmin@gmail.com ์ผ๋ก ์ฐ๋ฝ์ฃผ์๋ฉด ๊ฐ์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค. |
|
|