File size: 34,732 Bytes
be5548b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
# no exploration bonus

# phase 1
# lr [1e-4, 1e-5]
# recurrence [5, 10, 20, 80]

# vs rnd ride reference

# # rec 5
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
# # rec 10
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
# # rec 20
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64

# reference
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --*custom-ppo-ride-reference --test-set-name SocialAIGSTestSet
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --*custom-ppo-ride-reference --test-set-name SocialAIGSTestSet

# best from phase 1, with expl bonuses
# --slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64

## CB
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1.5 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1.5 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CB --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.8
#
## CBL
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  1.5 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  1.5 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.8
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  5 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  10 50 --*exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_CBL --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type lang --*exploration-bonus-params  50 50 --*exploration-bonus-tanh 0.6
#
## RND
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 1.0
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.1
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.05
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.01
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.005
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RND --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus --*exploration-bonus-type rnd --*intrinsic-reward-coef 0.001
#
# RIDE
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus  --*exploration-bonus-type ride --*intrinsic-reward-coef 1.0
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus  --*exploration-bonus-type ride --*intrinsic-reward-coef 0.5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus  --*exploration-bonus-type ride --*intrinsic-reward-coef 0.1
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus  --*exploration-bonus-type ride --*intrinsic-reward-coef 0.05
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus  --*exploration-bonus-type ride --*intrinsic-reward-coef 0.01
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus  --*exploration-bonus-type ride --*intrinsic-reward-coef 0.005
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_GS_PPO_RIDE --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-GridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAIGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64 --exploration-bonus  --*exploration-bonus-type ride --*intrinsic-reward-coef 0.001
#
# other envs -> with more problems and with emulation

# best: lr 1e-5, rec 10

# vs rnd ride reference

## rec 5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 10
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 20
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --test-set-name SocialAICuesGSTestSet --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
##  reference
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_CGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --test-interval 1000 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-CuesGridSearchParamEnv-v1 --*custom-ppo-ride-reference --test-set-name SocialAICuesGSTestSet


# Emulation
# vs rnd ride reference

# rec 5
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100  --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100  --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 10
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 10 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
## rec 20
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-4 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --*recurrence 20 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --*lr 1e-5 --entropy-coef 0.00001 --env-args see_through_walls False --arch bow_endpool_res --bAI-lang-model attgru --memory-dim 2048 --procs 64
#
##  reference
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --cpu_cores_per_seed 32 --gpus_per_seed 0.5 --seeds_per_launch 2 --frames 100000000 --model SAI_EGS_PPO --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --*env SocialAI-EmulationGridSearchParamEnv-v1 --*custom-ppo-ride-reference