Spaces:

flowers-team
/

SocialAISchool

Running

App Files Files Community

SocialAISchool / run_ppo_rnd_gs.txt

grg

Cleaned old git history

be5548b about 1 year ago

raw

history blame

11.7 kB

	# we selected the parameters
	# PPO: 543, 845, 544

	# Ask pointing boxes

	# take a look at custom ppo-rnd reference (clipped rewards etc?)
	# --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd

	# 545
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001

	# 845
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001

	# 544
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001

	# we selected the parameters
	# PPO: 543, 845, 544

	# Ask pointing boxes

	# take a look at custom ppo-rnd reference (clipped rewards etc?)
	# --custom-ppo-rnd-reference --exploration-bonus --exploration-bonus-type rnd

	# 545
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001

	# 845
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-08 --lr 0.0001 --entropy-coef 0.00001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001

	# 544
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 1.0
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.5
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.1
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.05
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.01
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.005
	--slurm_conf jz_short_gpu_chained --nb_seeds 4 --frames 60000000 --model PPO_rnd_grid_search_ask_point_boxes --algo ppo --dialogue --save-interval 100 --log-interval 100 --frames-per-proc 40 --multi-modal-babyai11-agent --arch original_endpool_res --env SocialAI-AskPointingBoxesInformationSeekingParamEnv-v1 --clipped-rewards --batch-size 640 --clip-eps 0.2 --recurrence 5 --max-grad-norm 0.5 --epochs 4 --optim-eps 1e-05 --lr 0.0001 --entropy-coef 0.0001 --exploration-bonus --exploration-bonus-type rnd --*intrinsic-reward-loss-coef 0.001