Spaces:
Running
Running
File size: 66,199 Bytes
be5548b |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 |
# we selected the parameters # PPO: 5 0.0001 0.001 -> (543) # PPO: 543, 544,555,843,844 # CB: 1,2,5,10,20,50,100 # should be 1-10 ? # 35 combinations # ### Emulation Marble ## 543 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 544 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 555 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 843 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 844 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_emu_marble --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactEmulationMarbleInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 # ### Language Switches ## 543 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 544 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 555 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.00001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 843 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 ## 844 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 5 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 20 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 50 50 --exploration-bonus-tanh 0.6 #--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 50000000 --model PPO_cb_cell_grid_search_ask_eye_lang_switches --algo pcs --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskEyeContactLanguageSwitchesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 100 50 --exploration-bonus-tanh 0.6 # CB grid search # Ask pointing boxes # 545 # 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 # 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8 # 845 # 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 # 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-08 --*lr 0.0001 --*entropy-coef 0.00001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8 # 544 # 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.6 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.6 # 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 0.5 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 1 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 2 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 4 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 8 50 --*exploration-bonus-tanh 0.8 --slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_cb_cell_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --*optim-eps 1e-05 --*lr 0.0001 --*entropy-coef 0.0001 --exploration-bonus --episodic-exploration-bonus --*exploration-bonus-type cell --*exploration-bonus-params 10 50 --*exploration-bonus-tanh 0.8 |