File size: 66,199 Bytes
be5548b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
# we selected the parameters
# PPO: 5 0.0001 0.001 -> (543)
# PPO: 543, 544,555,843,844
# CB: 1,2,5,10,20,50,100 # should be 1-10 ?
# 35 combinations
#
### Emulation Marble
## 543
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 544
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 555
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 843
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 844
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
#
### Language Switches
## 543
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 544
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 555
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 843
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6
## 844
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  5 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  20 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  50 50 --exploration-bonus-tanh 0.6
#--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  100 50 --exploration-bonus-tanh 0.6


# CB grid search
# Ask pointing boxes

# 545
# 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  0.5 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  4 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  8 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --*exploration-bonus-tanh 0.6
# 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  0.5 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  4 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  8 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --*exploration-bonus-tanh 0.8

# 845
# 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  0.5 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  4 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  8 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --*exploration-bonus-tanh 0.6
# 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  0.5 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  4 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  8 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --*exploration-bonus-tanh 0.8

# 544
# 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  0.5 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  4 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  8 50 --*exploration-bonus-tanh 0.6
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --*exploration-bonus-tanh 0.6
# 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  0.5 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  1 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  2 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  4 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  8 50 --*exploration-bonus-tanh 0.8
--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus  --*exploration-bonus-type cell --*exploration-bonus-params  10 50 --*exploration-bonus-tanh 0.8