Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

.summary/0/events.out.tfevents.1725614538.4ed841473a2d +3 -0
README.md +1 -1
checkpoint_p0/best_000001877_7688192_reward_32.833.pth +3 -0
checkpoint_p0/checkpoint_000002369_9703424.pth +3 -0
checkpoint_p0/checkpoint_000002443_10006528.pth +3 -0
config.json +1 -1
replay.mp4 +2 -2
sf_log.txt +1055 -0

.summary/0/events.out.tfevents.1725614538.4ed841473a2d ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:121fa67a0979acb434a0ddd33af384a01f7f9fc66661865a4b56ff1269baf428
+size 439940

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
-      value: 10.63 +/- 6.83
       name: mean_reward
       verified: false
 ---

       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
+      value: 10.94 +/- 5.09
       name: mean_reward
       verified: false
 ---

checkpoint_p0/best_000001877_7688192_reward_32.833.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e71c48acc753ddbc8ea9cf3b803375143d14871a05497b1a618c47f7493accd
+size 34929243

checkpoint_p0/checkpoint_000002369_9703424.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbead7acfb60c8f94f705d9c84be57632bd36ccf62e720fa3fe5889a436b817c
+size 34929669

checkpoint_p0/checkpoint_000002443_10006528.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c450c1532323f29ce4650608fa3c8c278b49cabc3f34136904a214ace6b6020f
+size 34929669

config.json CHANGED Viewed

@@ -65,7 +65,7 @@
   "summaries_use_frameskip": true,
   "heartbeat_interval": 20,
   "heartbeat_reporting_interval": 600,
-  "train_for_env_steps": 7500000,
   "train_for_seconds": 10000000000,
   "save_every_sec": 120,
   "keep_checkpoints": 2,

   "summaries_use_frameskip": true,
   "heartbeat_interval": 20,
   "heartbeat_reporting_interval": 600,
+  "train_for_env_steps": 10000000,
   "train_for_seconds": 10000000000,
   "save_every_sec": 120,
   "keep_checkpoints": 2,

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69c2e0d51b9dbf8963d4319ec5837c494a3bc0eb9889b1dbc46d480404b78135
-size 20775831

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ecb1b56568acf55e8bfc29a0bd773fc02497b82450c0461b20408cf111136ca
+size 20676826

sf_log.txt CHANGED Viewed

@@ -2946,3 +2946,1058 @@ main_loop: 690.9829
 [2024-09-06 09:19:52,177][01070] Avg episode rewards: #0: 26.327, true rewards: #0: 10.627
 [2024-09-06 09:19:52,179][01070] Avg episode reward: 26.327, avg true_objective: 10.627
 [2024-09-06 09:20:57,694][01070] Replay video saved to /content/train_dir/default_experiment/replay.mp4!

 [2024-09-06 09:19:52,177][01070] Avg episode rewards: #0: 26.327, true rewards: #0: 10.627
 [2024-09-06 09:19:52,179][01070] Avg episode reward: 26.327, avg true_objective: 10.627
 [2024-09-06 09:20:57,694][01070] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
+[2024-09-06 09:21:03,134][01070] The model has been pushed to https://huggingface.co/Re-Re/rl_course_vizdoom_health_gathering_supreme
+[2024-09-06 09:22:18,448][01070] Environment doom_basic already registered, overwriting...
+[2024-09-06 09:22:18,451][01070] Environment doom_two_colors_easy already registered, overwriting...
+[2024-09-06 09:22:18,453][01070] Environment doom_two_colors_hard already registered, overwriting...
+[2024-09-06 09:22:18,454][01070] Environment doom_dm already registered, overwriting...
+[2024-09-06 09:22:18,459][01070] Environment doom_dwango5 already registered, overwriting...
+[2024-09-06 09:22:18,460][01070] Environment doom_my_way_home_flat_actions already registered, overwriting...
+[2024-09-06 09:22:18,461][01070] Environment doom_defend_the_center_flat_actions already registered, overwriting...
+[2024-09-06 09:22:18,463][01070] Environment doom_my_way_home already registered, overwriting...
+[2024-09-06 09:22:18,465][01070] Environment doom_deadly_corridor already registered, overwriting...
+[2024-09-06 09:22:18,468][01070] Environment doom_defend_the_center already registered, overwriting...
+[2024-09-06 09:22:18,470][01070] Environment doom_defend_the_line already registered, overwriting...
+[2024-09-06 09:22:18,471][01070] Environment doom_health_gathering already registered, overwriting...
+[2024-09-06 09:22:18,472][01070] Environment doom_health_gathering_supreme already registered, overwriting...
+[2024-09-06 09:22:18,474][01070] Environment doom_battle already registered, overwriting...
+[2024-09-06 09:22:18,476][01070] Environment doom_battle2 already registered, overwriting...
+[2024-09-06 09:22:18,477][01070] Environment doom_duel_bots already registered, overwriting...
+[2024-09-06 09:22:18,480][01070] Environment doom_deathmatch_bots already registered, overwriting...
+[2024-09-06 09:22:18,481][01070] Environment doom_duel already registered, overwriting...
+[2024-09-06 09:22:18,482][01070] Environment doom_deathmatch_full already registered, overwriting...
+[2024-09-06 09:22:18,484][01070] Environment doom_benchmark already registered, overwriting...
+[2024-09-06 09:22:18,487][01070] register_encoder_factory: <function make_vizdoom_encoder at 0x78dc5537e170>
+[2024-09-06 09:22:18,527][01070] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2024-09-06 09:22:18,530][01070] Overriding arg 'train_for_env_steps' with value 10000000 passed from command line
+[2024-09-06 09:22:18,537][01070] Experiment dir /content/train_dir/default_experiment already exists!
+[2024-09-06 09:22:18,542][01070] Resuming existing experiment from /content/train_dir/default_experiment...
+[2024-09-06 09:22:18,544][01070] Weights and Biases integration disabled
+[2024-09-06 09:22:18,549][01070] Environment var CUDA_VISIBLE_DEVICES is 0
+[2024-09-06 09:22:21,018][01070] Starting experiment with the following configuration:
+help=False
+algo=APPO
+env=doom_health_gathering_supreme
+experiment=default_experiment
+train_dir=/content/train_dir
+restart_behavior=resume
+device=gpu
+seed=None
+num_policies=1
+async_rl=True
+serial_mode=False
+batched_sampling=False
+num_batches_to_accumulate=2
+worker_num_splits=2
+policy_workers_per_policy=1
+max_policy_lag=1000
+num_workers=8
+num_envs_per_worker=4
+batch_size=1024
+num_batches_per_epoch=1
+num_epochs=1
+rollout=32
+recurrence=32
+shuffle_minibatches=False
+gamma=0.99
+reward_scale=1.0
+reward_clip=1000.0
+value_bootstrap=False
+normalize_returns=True
+exploration_loss_coeff=0.001
+value_loss_coeff=0.5
+kl_loss_coeff=0.0
+exploration_loss=symmetric_kl
+gae_lambda=0.95
+ppo_clip_ratio=0.1
+ppo_clip_value=0.2
+with_vtrace=False
+vtrace_rho=1.0
+vtrace_c=1.0
+optimizer=adam
+adam_eps=1e-06
+adam_beta1=0.9
+adam_beta2=0.999
+max_grad_norm=4.0
+learning_rate=0.0001
+lr_schedule=constant
+lr_schedule_kl_threshold=0.008
+lr_adaptive_min=1e-06
+lr_adaptive_max=0.01
+obs_subtract_mean=0.0
+obs_scale=255.0
+normalize_input=True
+normalize_input_keys=None
+decorrelate_experience_max_seconds=0
+decorrelate_envs_on_one_worker=True
+actor_worker_gpus=[]
+set_workers_cpu_affinity=True
+force_envs_single_thread=False
+default_niceness=0
+log_to_file=True
+experiment_summaries_interval=10
+flush_summaries_interval=30
+stats_avg=100
+summaries_use_frameskip=True
+heartbeat_interval=20
+heartbeat_reporting_interval=600
+train_for_env_steps=10000000
+train_for_seconds=10000000000
+save_every_sec=120
+keep_checkpoints=2
+load_checkpoint_kind=latest
+save_milestones_sec=-1
+save_best_every_sec=5
+save_best_metric=reward
+save_best_after=100000
+benchmark=False
+encoder_mlp_layers=[512, 512]
+encoder_conv_architecture=convnet_simple
+encoder_conv_mlp_layers=[512]
+use_rnn=True
+rnn_size=512
+rnn_type=gru
+rnn_num_layers=1
+decoder_mlp_layers=[]
+nonlinearity=elu
+policy_initialization=orthogonal
+policy_init_gain=1.0
+actor_critic_share_weights=True
+adaptive_stddev=True
+continuous_tanh_scale=0.0
+initial_stddev=1.0
+use_env_info_cache=False
+env_gpu_actions=False
+env_gpu_observations=True
+env_frameskip=4
+env_framestack=1
+pixel_format=CHW
+use_record_episode_statistics=False
+with_wandb=False
+wandb_user=None
+wandb_project=sample_factory
+wandb_group=None
+wandb_job_type=SF
+wandb_tags=[]
+with_pbt=False
+pbt_mix_policies_in_one_env=True
+pbt_period_env_steps=5000000
+pbt_start_mutation=20000000
+pbt_replace_fraction=0.3
+pbt_mutation_rate=0.15
+pbt_replace_reward_gap=0.1
+pbt_replace_reward_gap_absolute=1e-06
+pbt_optimize_gamma=False
+pbt_target_objective=true_objective
+pbt_perturb_min=1.1
+pbt_perturb_max=1.5
+num_agents=-1
+num_humans=0
+num_bots=-1
+start_bot_difficulty=None
+timelimit=None
+res_w=128
+res_h=72
+wide_aspect_ratio=False
+eval_env_frameskip=1
+fps=35
+command_line=--env=doom_health_gathering_supreme --num_workers=8 --num_envs_per_worker=4 --train_for_env_steps=4000000
+cli_args={'env': 'doom_health_gathering_supreme', 'num_workers': 8, 'num_envs_per_worker': 4, 'train_for_env_steps': 4000000}
+git_hash=unknown
+git_repo_name=not a git repository
+[2024-09-06 09:22:21,020][01070] Saving configuration to /content/train_dir/default_experiment/config.json...
+[2024-09-06 09:22:21,025][01070] Rollout worker 0 uses device cpu
+[2024-09-06 09:22:21,026][01070] Rollout worker 1 uses device cpu
+[2024-09-06 09:22:21,028][01070] Rollout worker 2 uses device cpu
+[2024-09-06 09:22:21,030][01070] Rollout worker 3 uses device cpu
+[2024-09-06 09:22:21,032][01070] Rollout worker 4 uses device cpu
+[2024-09-06 09:22:21,033][01070] Rollout worker 5 uses device cpu
+[2024-09-06 09:22:21,034][01070] Rollout worker 6 uses device cpu
+[2024-09-06 09:22:21,035][01070] Rollout worker 7 uses device cpu
+[2024-09-06 09:22:21,108][01070] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-09-06 09:22:21,110][01070] InferenceWorker_p0-w0: min num requests: 2
+[2024-09-06 09:22:21,142][01070] Starting all processes...
+[2024-09-06 09:22:21,144][01070] Starting process learner_proc0
+[2024-09-06 09:22:21,192][01070] Starting all processes...
+[2024-09-06 09:22:21,199][01070] Starting process inference_proc0-0
+[2024-09-06 09:22:21,199][01070] Starting process rollout_proc0
+[2024-09-06 09:22:21,202][01070] Starting process rollout_proc1
+[2024-09-06 09:22:21,202][01070] Starting process rollout_proc2
+[2024-09-06 09:22:21,202][01070] Starting process rollout_proc3
+[2024-09-06 09:22:21,202][01070] Starting process rollout_proc4
+[2024-09-06 09:22:21,202][01070] Starting process rollout_proc5
+[2024-09-06 09:22:21,202][01070] Starting process rollout_proc6
+[2024-09-06 09:22:21,202][01070] Starting process rollout_proc7
+[2024-09-06 09:22:36,030][31321] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-09-06 09:22:36,032][31321] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2024-09-06 09:22:36,093][31321] Num visible devices: 1
+[2024-09-06 09:22:36,128][31321] Starting seed is not provided
+[2024-09-06 09:22:36,129][31321] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-09-06 09:22:36,129][31321] Initializing actor-critic model on device cuda:0
+[2024-09-06 09:22:36,130][31321] RunningMeanStd input shape: (3, 72, 128)
+[2024-09-06 09:22:36,131][31321] RunningMeanStd input shape: (1,)
+[2024-09-06 09:22:36,216][31321] ConvEncoder: input_channels=3
+[2024-09-06 09:22:36,685][31338] Worker 3 uses CPU cores [1]
+[2024-09-06 09:22:36,789][31339] Worker 4 uses CPU cores [0]
+[2024-09-06 09:22:36,944][31335] Worker 0 uses CPU cores [0]
+[2024-09-06 09:22:37,005][31321] Conv encoder output size: 512
+[2024-09-06 09:22:37,007][31321] Policy head output size: 512
+[2024-09-06 09:22:37,042][31321] Created Actor Critic model with architecture:
+[2024-09-06 09:22:37,044][31321] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): VizdoomEncoder(
+    (basic_encoder): ConvEncoder(
+      (enc): RecursiveScriptModule(
+        original_name=ConvEncoderImpl
+        (conv_head): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Conv2d)
+          (1): RecursiveScriptModule(original_name=ELU)
+          (2): RecursiveScriptModule(original_name=Conv2d)
+          (3): RecursiveScriptModule(original_name=ELU)
+          (4): RecursiveScriptModule(original_name=Conv2d)
+          (5): RecursiveScriptModule(original_name=ELU)
+        )
+        (mlp_layers): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Linear)
+          (1): RecursiveScriptModule(original_name=ELU)
+        )
+      )
+    )
+  )
+  (core): ModelCoreRNN(
+    (core): GRU(512, 512)
+  )
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=512, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationDefault(
+    (distribution_linear): Linear(in_features=512, out_features=5, bias=True)
+  )
+)
+[2024-09-06 09:22:37,147][31341] Worker 7 uses CPU cores [1]
+[2024-09-06 09:22:37,225][31342] Worker 6 uses CPU cores [0]
+[2024-09-06 09:22:37,277][31337] Worker 2 uses CPU cores [0]
+[2024-09-06 09:22:37,291][31334] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-09-06 09:22:37,292][31334] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2024-09-06 09:22:37,329][31321] Using optimizer <class 'torch.optim.adam.Adam'>
+[2024-09-06 09:22:37,352][31334] Num visible devices: 1
+[2024-09-06 09:22:37,367][31340] Worker 5 uses CPU cores [1]
+[2024-09-06 09:22:37,377][31336] Worker 1 uses CPU cores [1]
+[2024-09-06 09:22:37,959][31321] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001833_7507968.pth...
+[2024-09-06 09:22:38,004][31321] Loading model from checkpoint
+[2024-09-06 09:22:38,005][31321] Loaded experiment state at self.train_step=1833, self.env_steps=7507968
+[2024-09-06 09:22:38,006][31321] Initialized policy 0 weights for model version 1833
+[2024-09-06 09:22:38,010][31321] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2024-09-06 09:22:38,016][31321] LearnerWorker_p0 finished initialization!
+[2024-09-06 09:22:38,102][31334] RunningMeanStd input shape: (3, 72, 128)
+[2024-09-06 09:22:38,103][31334] RunningMeanStd input shape: (1,)
+[2024-09-06 09:22:38,115][31334] ConvEncoder: input_channels=3
+[2024-09-06 09:22:38,216][31334] Conv encoder output size: 512
+[2024-09-06 09:22:38,216][31334] Policy head output size: 512
+[2024-09-06 09:22:38,268][01070] Inference worker 0-0 is ready!
+[2024-09-06 09:22:38,269][01070] All inference workers are ready! Signal rollout workers to start!
+[2024-09-06 09:22:38,464][31338] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,472][31341] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,478][31340] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,479][31337] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,480][31336] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,484][31339] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,477][31342] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,494][31335] Doom resolution: 160x120, resize resolution: (128, 72)
+[2024-09-06 09:22:38,550][01070] Fps is (10 sec: nan, 60 sec: nan, 300 sec: nan). Total num frames: 7507968. Throughput: 0: nan. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2024-09-06 09:22:40,039][31338] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:40,046][31341] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:40,050][31340] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:40,067][31335] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:40,071][31339] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:40,073][31342] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:40,457][31342] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:41,103][01070] Heartbeat connected on Batcher_0
+[2024-09-06 09:22:41,108][01070] Heartbeat connected on LearnerWorker_p0
+[2024-09-06 09:22:41,149][31341] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:41,152][31338] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:41,156][01070] Heartbeat connected on InferenceWorker_p0-w0
+[2024-09-06 09:22:41,155][31336] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:41,251][31340] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:41,935][31339] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:41,990][31342] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:42,475][31336] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:42,759][31338] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:42,770][31341] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:42,938][31337] Decorrelating experience for 0 frames...
+[2024-09-06 09:22:43,009][31342] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:43,190][01070] Heartbeat connected on RolloutWorker_w6
+[2024-09-06 09:22:43,550][01070] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 7507968. Throughput: 0: 0.0. Samples: 0. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2024-09-06 09:22:43,730][31341] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:44,157][01070] Heartbeat connected on RolloutWorker_w7
+[2024-09-06 09:22:44,451][31339] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:44,856][31336] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:44,864][31335] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:46,558][31337] Decorrelating experience for 32 frames...
+[2024-09-06 09:22:47,472][31340] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:47,615][31339] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:47,884][31336] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:48,559][01070] Fps is (10 sec: 0.0, 60 sec: 0.0, 300 sec: 0.0). Total num frames: 7507968. Throughput: 0: 107.7. Samples: 1078. Policy #0 lag: (min: -1.0, avg: -1.0, max: -1.0)
+[2024-09-06 09:22:48,565][01070] Avg episode reward: [(0, '4.944')]
+[2024-09-06 09:22:48,624][01070] Heartbeat connected on RolloutWorker_w4
+[2024-09-06 09:22:48,733][01070] Heartbeat connected on RolloutWorker_w1
+[2024-09-06 09:22:49,622][31335] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:51,819][31321] Signal inference workers to stop experience collection...
+[2024-09-06 09:22:51,828][31338] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:51,835][31334] InferenceWorker_p0-w0: stopping experience collection
+[2024-09-06 09:22:52,119][31340] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:52,209][01070] Heartbeat connected on RolloutWorker_w3
+[2024-09-06 09:22:52,262][01070] Heartbeat connected on RolloutWorker_w5
+[2024-09-06 09:22:52,408][31337] Decorrelating experience for 64 frames...
+[2024-09-06 09:22:52,497][31335] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:52,617][01070] Heartbeat connected on RolloutWorker_w0
+[2024-09-06 09:22:52,947][31337] Decorrelating experience for 96 frames...
+[2024-09-06 09:22:53,040][01070] Heartbeat connected on RolloutWorker_w2
+[2024-09-06 09:22:53,160][31321] Signal inference workers to resume experience collection...
+[2024-09-06 09:22:53,160][31334] InferenceWorker_p0-w0: resuming experience collection
+[2024-09-06 09:22:53,550][01070] Fps is (10 sec: 409.6, 60 sec: 273.1, 300 sec: 273.1). Total num frames: 7512064. Throughput: 0: 155.3. Samples: 2330. Policy #0 lag: (min: 0.0, avg: 0.0, max: 0.0)
+[2024-09-06 09:22:53,554][01070] Avg episode reward: [(0, '6.489')]
+[2024-09-06 09:22:58,550][01070] Fps is (10 sec: 2870.0, 60 sec: 1433.6, 300 sec: 1433.6). Total num frames: 7536640. Throughput: 0: 280.7. Samples: 5614. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2024-09-06 09:22:58,553][01070] Avg episode reward: [(0, '9.260')]
+[2024-09-06 09:23:00,818][31334] Updated weights for policy 0, policy_version 1843 (0.0158)
+[2024-09-06 09:23:03,550][01070] Fps is (10 sec: 4096.0, 60 sec: 1802.2, 300 sec: 1802.2). Total num frames: 7553024. Throughput: 0: 476.4. Samples: 11910. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2024-09-06 09:23:03,552][01070] Avg episode reward: [(0, '15.401')]
+[2024-09-06 09:23:08,550][01070] Fps is (10 sec: 3276.7, 60 sec: 2048.0, 300 sec: 2048.0). Total num frames: 7569408. Throughput: 0: 542.8. Samples: 16284. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2024-09-06 09:23:08,552][01070] Avg episode reward: [(0, '17.480')]
+[2024-09-06 09:23:13,081][31334] Updated weights for policy 0, policy_version 1853 (0.0030)
+[2024-09-06 09:23:13,550][01070] Fps is (10 sec: 3686.4, 60 sec: 2340.6, 300 sec: 2340.6). Total num frames: 7589888. Throughput: 0: 541.2. Samples: 18942. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:23:13,555][01070] Avg episode reward: [(0, '23.472')]
+[2024-09-06 09:23:18,550][01070] Fps is (10 sec: 4505.7, 60 sec: 2662.4, 300 sec: 2662.4). Total num frames: 7614464. Throughput: 0: 651.7. Samples: 26066. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:23:18,556][01070] Avg episode reward: [(0, '24.891')]
+[2024-09-06 09:23:23,550][01070] Fps is (10 sec: 3686.4, 60 sec: 2639.6, 300 sec: 2639.6). Total num frames: 7626752. Throughput: 0: 685.1. Samples: 30830. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:23:23,554][01070] Avg episode reward: [(0, '25.069')]
+[2024-09-06 09:23:24,047][31334] Updated weights for policy 0, policy_version 1863 (0.0031)
+[2024-09-06 09:23:28,550][01070] Fps is (10 sec: 3276.8, 60 sec: 2785.3, 300 sec: 2785.3). Total num frames: 7647232. Throughput: 0: 741.2. Samples: 33354. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:23:28,551][01070] Avg episode reward: [(0, '27.639')]
+[2024-09-06 09:23:33,156][31334] Updated weights for policy 0, policy_version 1873 (0.0025)
+[2024-09-06 09:23:33,550][01070] Fps is (10 sec: 4505.6, 60 sec: 2978.9, 300 sec: 2978.9). Total num frames: 7671808. Throughput: 0: 875.4. Samples: 40464. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:23:33,552][01070] Avg episode reward: [(0, '30.649')]
+[2024-09-06 09:23:33,557][31321] Saving new best policy, reward=30.649!
+[2024-09-06 09:23:38,550][01070] Fps is (10 sec: 4095.7, 60 sec: 3003.7, 300 sec: 3003.7). Total num frames: 7688192. Throughput: 0: 974.7. Samples: 46194. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
+[2024-09-06 09:23:38,553][01070] Avg episode reward: [(0, '32.833')]
+[2024-09-06 09:23:38,574][31321] Saving new best policy, reward=32.833!
+[2024-09-06 09:23:43,550][01070] Fps is (10 sec: 3276.7, 60 sec: 3276.8, 300 sec: 3024.7). Total num frames: 7704576. Throughput: 0: 947.1. Samples: 48236. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2024-09-06 09:23:43,556][01070] Avg episode reward: [(0, '31.634')]
+[2024-09-06 09:23:45,051][31334] Updated weights for policy 0, policy_version 1883 (0.0024)
+[2024-09-06 09:23:48,550][01070] Fps is (10 sec: 4096.3, 60 sec: 3687.0, 300 sec: 3159.8). Total num frames: 7729152. Throughput: 0: 945.8. Samples: 54472. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:23:48,555][01070] Avg episode reward: [(0, '30.545')]
+[2024-09-06 09:23:53,550][01070] Fps is (10 sec: 4505.8, 60 sec: 3959.5, 300 sec: 3222.2). Total num frames: 7749632. Throughput: 0: 1005.1. Samples: 61512. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:23:53,555][01070] Avg episode reward: [(0, '29.693')]
+[2024-09-06 09:23:53,894][31334] Updated weights for policy 0, policy_version 1893 (0.0023)
+[2024-09-06 09:23:58,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3822.9, 300 sec: 3225.6). Total num frames: 7766016. Throughput: 0: 993.6. Samples: 63654. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:23:58,552][01070] Avg episode reward: [(0, '29.410')]
+[2024-09-06 09:24:03,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.2, 300 sec: 3276.8). Total num frames: 7786496. Throughput: 0: 953.6. Samples: 68980. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:24:03,553][01070] Avg episode reward: [(0, '29.158')]
+[2024-09-06 09:24:04,972][31334] Updated weights for policy 0, policy_version 1903 (0.0015)
+[2024-09-06 09:24:08,550][01070] Fps is (10 sec: 4505.5, 60 sec: 4027.7, 300 sec: 3367.8). Total num frames: 7811072. Throughput: 0: 1005.6. Samples: 76080. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:24:08,552][01070] Avg episode reward: [(0, '26.234')]
+[2024-09-06 09:24:13,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3959.5, 300 sec: 3363.0). Total num frames: 7827456. Throughput: 0: 1019.1. Samples: 79212. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:24:13,554][01070] Avg episode reward: [(0, '26.548')]
+[2024-09-06 09:24:15,998][31334] Updated weights for policy 0, policy_version 1913 (0.0045)
+[2024-09-06 09:24:18,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3358.7). Total num frames: 7843840. Throughput: 0: 955.4. Samples: 83456. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:24:18,555][01070] Avg episode reward: [(0, '26.397')]
+[2024-09-06 09:24:18,565][31321] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001915_7843840.pth...
+[2024-09-06 09:24:18,702][31321] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001755_7188480.pth
+[2024-09-06 09:24:23,550][01070] Fps is (10 sec: 3686.3, 60 sec: 3959.4, 300 sec: 3393.8). Total num frames: 7864320. Throughput: 0: 976.5. Samples: 90134. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:24:23,555][01070] Avg episode reward: [(0, '27.525')]
+[2024-09-06 09:24:25,519][31334] Updated weights for policy 0, policy_version 1923 (0.0026)
+[2024-09-06 09:24:28,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.7, 300 sec: 3463.0). Total num frames: 7888896. Throughput: 0: 1010.0. Samples: 93684. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:24:28,557][01070] Avg episode reward: [(0, '27.802')]
+[2024-09-06 09:24:33,550][01070] Fps is (10 sec: 3686.5, 60 sec: 3822.9, 300 sec: 3419.3). Total num frames: 7901184. Throughput: 0: 983.9. Samples: 98746. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:24:33,552][01070] Avg episode reward: [(0, '28.191')]
+[2024-09-06 09:24:36,946][31334] Updated weights for policy 0, policy_version 1933 (0.0021)
+[2024-09-06 09:24:38,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3891.2, 300 sec: 3447.5). Total num frames: 7921664. Throughput: 0: 955.6. Samples: 104512. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:24:38,555][01070] Avg episode reward: [(0, '28.196')]
+[2024-09-06 09:24:43,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.8, 300 sec: 3506.2). Total num frames: 7946240. Throughput: 0: 986.7. Samples: 108056. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:24:43,552][01070] Avg episode reward: [(0, '28.823')]
+[2024-09-06 09:24:45,998][31334] Updated weights for policy 0, policy_version 1943 (0.0024)
+[2024-09-06 09:24:48,552][01070] Fps is (10 sec: 4095.3, 60 sec: 3891.1, 300 sec: 3497.3). Total num frames: 7962624. Throughput: 0: 1001.7. Samples: 114060. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:24:48,558][01070] Avg episode reward: [(0, '30.975')]
+[2024-09-06 09:24:53,550][01070] Fps is (10 sec: 2867.2, 60 sec: 3754.7, 300 sec: 3458.8). Total num frames: 7974912. Throughput: 0: 927.9. Samples: 117836. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:24:53,552][01070] Avg episode reward: [(0, '30.576')]
+[2024-09-06 09:24:58,550][01070] Fps is (10 sec: 2867.7, 60 sec: 3754.7, 300 sec: 3452.3). Total num frames: 7991296. Throughput: 0: 904.0. Samples: 119892. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:24:58,553][01070] Avg episode reward: [(0, '29.362')]
+[2024-09-06 09:25:00,366][31334] Updated weights for policy 0, policy_version 1953 (0.0019)
+[2024-09-06 09:25:03,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3474.5). Total num frames: 8011776. Throughput: 0: 940.5. Samples: 125780. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:25:03,552][01070] Avg episode reward: [(0, '27.933')]
+[2024-09-06 09:25:08,551][01070] Fps is (10 sec: 3685.8, 60 sec: 3618.0, 300 sec: 3467.9). Total num frames: 8028160. Throughput: 0: 905.1. Samples: 130864. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:25:08,557][01070] Avg episode reward: [(0, '27.199')]
+[2024-09-06 09:25:11,902][31334] Updated weights for policy 0, policy_version 1963 (0.0032)
+[2024-09-06 09:25:13,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3618.1, 300 sec: 3461.8). Total num frames: 8044544. Throughput: 0: 874.2. Samples: 133024. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:25:13,552][01070] Avg episode reward: [(0, '26.753')]
+[2024-09-06 09:25:18,550][01070] Fps is (10 sec: 4096.7, 60 sec: 3754.7, 300 sec: 3507.2). Total num frames: 8069120. Throughput: 0: 914.2. Samples: 139886. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:25:18,556][01070] Avg episode reward: [(0, '22.844')]
+[2024-09-06 09:25:20,756][31334] Updated weights for policy 0, policy_version 1973 (0.0025)
+[2024-09-06 09:25:23,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3525.0). Total num frames: 8089600. Throughput: 0: 923.9. Samples: 146086. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:25:23,552][01070] Avg episode reward: [(0, '23.151')]
+[2024-09-06 09:25:28,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3549.9, 300 sec: 3493.6). Total num frames: 8101888. Throughput: 0: 891.0. Samples: 148150. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:25:28,555][01070] Avg episode reward: [(0, '22.191')]
+[2024-09-06 09:25:32,254][31334] Updated weights for policy 0, policy_version 1983 (0.0018)
+[2024-09-06 09:25:33,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3754.7, 300 sec: 3534.3). Total num frames: 8126464. Throughput: 0: 892.6. Samples: 154226. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:25:33,553][01070] Avg episode reward: [(0, '21.268')]
+[2024-09-06 09:25:38,550][01070] Fps is (10 sec: 4915.2, 60 sec: 3822.9, 300 sec: 3572.6). Total num frames: 8151040. Throughput: 0: 966.9. Samples: 161348. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2024-09-06 09:25:38,553][01070] Avg episode reward: [(0, '23.448')]
+[2024-09-06 09:25:42,015][31334] Updated weights for policy 0, policy_version 1993 (0.0023)
+[2024-09-06 09:25:43,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3618.1, 300 sec: 3542.5). Total num frames: 8163328. Throughput: 0: 973.9. Samples: 163716. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2024-09-06 09:25:43,566][01070] Avg episode reward: [(0, '23.931')]
+[2024-09-06 09:25:48,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3686.5, 300 sec: 3557.1). Total num frames: 8183808. Throughput: 0: 950.0. Samples: 168532. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:25:48,554][01070] Avg episode reward: [(0, '24.324')]
+[2024-09-06 09:25:52,316][31334] Updated weights for policy 0, policy_version 2003 (0.0041)
+[2024-09-06 09:25:53,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3891.2, 300 sec: 3591.9). Total num frames: 8208384. Throughput: 0: 994.5. Samples: 175614. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:25:53,557][01070] Avg episode reward: [(0, '24.519')]
+[2024-09-06 09:25:58,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3959.5, 300 sec: 3604.5). Total num frames: 8228864. Throughput: 0: 1026.0. Samples: 179196. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:25:58,554][01070] Avg episode reward: [(0, '26.480')]
+[2024-09-06 09:26:03,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3576.5). Total num frames: 8241152. Throughput: 0: 967.9. Samples: 183442. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:26:03,557][01070] Avg episode reward: [(0, '27.819')]
+[2024-09-06 09:26:03,999][31334] Updated weights for policy 0, policy_version 2013 (0.0022)
+[2024-09-06 09:26:08,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3959.6, 300 sec: 3608.4). Total num frames: 8265728. Throughput: 0: 975.7. Samples: 189992. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:26:08,553][01070] Avg episode reward: [(0, '26.706')]
+[2024-09-06 09:26:12,456][31334] Updated weights for policy 0, policy_version 2023 (0.0028)
+[2024-09-06 09:26:13,550][01070] Fps is (10 sec: 4915.2, 60 sec: 4096.0, 300 sec: 3638.8). Total num frames: 8290304. Throughput: 0: 1009.5. Samples: 193576. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:26:13,552][01070] Avg episode reward: [(0, '27.588')]
+[2024-09-06 09:26:18,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.2, 300 sec: 3611.9). Total num frames: 8302592. Throughput: 0: 990.3. Samples: 198790. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2024-09-06 09:26:18,552][01070] Avg episode reward: [(0, '27.201')]
+[2024-09-06 09:26:18,571][31321] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002027_8302592.pth...
+[2024-09-06 09:26:18,738][31321] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001833_7507968.pth
+[2024-09-06 09:26:23,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3891.2, 300 sec: 3622.7). Total num frames: 8323072. Throughput: 0: 964.0. Samples: 204726. Policy #0 lag: (min: 0.0, avg: 0.3, max: 1.0)
+[2024-09-06 09:26:23,552][01070] Avg episode reward: [(0, '28.094')]
+[2024-09-06 09:26:23,905][31334] Updated weights for policy 0, policy_version 2033 (0.0024)
+[2024-09-06 09:26:28,550][01070] Fps is (10 sec: 4505.5, 60 sec: 4096.0, 300 sec: 3650.8). Total num frames: 8347648. Throughput: 0: 990.6. Samples: 208294. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:26:28,553][01070] Avg episode reward: [(0, '27.199')]
+[2024-09-06 09:26:33,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3959.5, 300 sec: 3642.8). Total num frames: 8364032. Throughput: 0: 1014.7. Samples: 214192. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:26:33,555][01070] Avg episode reward: [(0, '26.943')]
+[2024-09-06 09:26:34,200][31334] Updated weights for policy 0, policy_version 2043 (0.0015)
+[2024-09-06 09:26:38,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3635.2). Total num frames: 8380416. Throughput: 0: 965.6. Samples: 219068. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:26:38,555][01070] Avg episode reward: [(0, '25.237')]
+[2024-09-06 09:26:43,550][01070] Fps is (10 sec: 4096.0, 60 sec: 4027.7, 300 sec: 3661.3). Total num frames: 8404992. Throughput: 0: 965.8. Samples: 222658. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:26:43,557][01070] Avg episode reward: [(0, '26.134')]
+[2024-09-06 09:26:43,951][31334] Updated weights for policy 0, policy_version 2053 (0.0019)
+[2024-09-06 09:26:48,554][01070] Fps is (10 sec: 4503.9, 60 sec: 4027.5, 300 sec: 3670.0). Total num frames: 8425472. Throughput: 0: 1024.3. Samples: 229538. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:26:48,558][01070] Avg episode reward: [(0, '26.531')]
+[2024-09-06 09:26:53,551][01070] Fps is (10 sec: 3685.9, 60 sec: 3891.1, 300 sec: 3662.3). Total num frames: 8441856. Throughput: 0: 973.3. Samples: 233794. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:26:53,557][01070] Avg episode reward: [(0, '26.496')]
+[2024-09-06 09:26:55,624][31334] Updated weights for policy 0, policy_version 2063 (0.0027)
+[2024-09-06 09:26:58,550][01070] Fps is (10 sec: 3687.8, 60 sec: 3891.2, 300 sec: 3670.6). Total num frames: 8462336. Throughput: 0: 961.7. Samples: 236854. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:26:58,558][01070] Avg episode reward: [(0, '26.453')]
+[2024-09-06 09:27:03,550][01070] Fps is (10 sec: 4506.3, 60 sec: 4096.0, 300 sec: 3694.1). Total num frames: 8486912. Throughput: 0: 1003.4. Samples: 243944. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:27:03,558][01070] Avg episode reward: [(0, '27.902')]
+[2024-09-06 09:27:04,386][31334] Updated weights for policy 0, policy_version 2073 (0.0021)
+[2024-09-06 09:27:08,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.2, 300 sec: 3671.2). Total num frames: 8499200. Throughput: 0: 988.0. Samples: 249184. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:08,552][01070] Avg episode reward: [(0, '29.399')]
+[2024-09-06 09:27:13,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3679.0). Total num frames: 8519680. Throughput: 0: 957.6. Samples: 251386. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:13,552][01070] Avg episode reward: [(0, '30.254')]
+[2024-09-06 09:27:15,982][31334] Updated weights for policy 0, policy_version 2083 (0.0032)
+[2024-09-06 09:27:18,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.7, 300 sec: 3701.0). Total num frames: 8544256. Throughput: 0: 977.0. Samples: 258158. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:18,552][01070] Avg episode reward: [(0, '30.973')]
+[2024-09-06 09:27:23,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.7, 300 sec: 3708.0). Total num frames: 8564736. Throughput: 0: 1010.3. Samples: 264532. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:23,555][01070] Avg episode reward: [(0, '31.711')]
+[2024-09-06 09:27:26,470][31334] Updated weights for policy 0, policy_version 2093 (0.0036)
+[2024-09-06 09:27:28,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3686.4). Total num frames: 8577024. Throughput: 0: 976.8. Samples: 266614. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:27:28,552][01070] Avg episode reward: [(0, '32.002')]
+[2024-09-06 09:27:33,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3891.2, 300 sec: 3693.3). Total num frames: 8597504. Throughput: 0: 951.4. Samples: 272346. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:27:33,557][01070] Avg episode reward: [(0, '32.432')]
+[2024-09-06 09:27:36,269][31334] Updated weights for policy 0, policy_version 2103 (0.0040)
+[2024-09-06 09:27:38,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.7, 300 sec: 3776.7). Total num frames: 8622080. Throughput: 0: 1013.1. Samples: 279382. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:38,556][01070] Avg episode reward: [(0, '30.337')]
+[2024-09-06 09:27:43,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3891.2, 300 sec: 3832.3). Total num frames: 8638464. Throughput: 0: 1001.7. Samples: 281930. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:27:43,552][01070] Avg episode reward: [(0, '30.111')]
+[2024-09-06 09:27:48,104][31334] Updated weights for policy 0, policy_version 2113 (0.0024)
+[2024-09-06 09:27:48,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3823.2, 300 sec: 3873.8). Total num frames: 8654848. Throughput: 0: 943.9. Samples: 286418. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:48,552][01070] Avg episode reward: [(0, '28.878')]
+[2024-09-06 09:27:53,550][01070] Fps is (10 sec: 4095.9, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 8679424. Throughput: 0: 983.7. Samples: 293450. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:53,556][01070] Avg episode reward: [(0, '28.257')]
+[2024-09-06 09:27:56,774][31334] Updated weights for policy 0, policy_version 2123 (0.0031)
+[2024-09-06 09:27:58,552][01070] Fps is (10 sec: 4504.7, 60 sec: 3959.3, 300 sec: 3887.7). Total num frames: 8699904. Throughput: 0: 1012.7. Samples: 296960. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:27:58,554][01070] Avg episode reward: [(0, '28.838')]
+[2024-09-06 09:28:03,550][01070] Fps is (10 sec: 3276.9, 60 sec: 3754.7, 300 sec: 3873.8). Total num frames: 8712192. Throughput: 0: 961.9. Samples: 301442. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:28:03,553][01070] Avg episode reward: [(0, '28.745')]
+[2024-09-06 09:28:08,412][31334] Updated weights for policy 0, policy_version 2133 (0.0013)
+[2024-09-06 09:28:08,550][01070] Fps is (10 sec: 3687.1, 60 sec: 3959.5, 300 sec: 3887.7). Total num frames: 8736768. Throughput: 0: 957.9. Samples: 307636. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:28:08,552][01070] Avg episode reward: [(0, '29.904')]
+[2024-09-06 09:28:13,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 8757248. Throughput: 0: 989.8. Samples: 311156. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:28:13,552][01070] Avg episode reward: [(0, '29.493')]
+[2024-09-06 09:28:18,552][01070] Fps is (10 sec: 3685.4, 60 sec: 3822.8, 300 sec: 3887.7). Total num frames: 8773632. Throughput: 0: 984.0. Samples: 316628. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:28:18,556][01070] Avg episode reward: [(0, '27.888')]
+[2024-09-06 09:28:18,569][31321] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002142_8773632.pth...
+[2024-09-06 09:28:18,718][31321] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000001915_7843840.pth
+[2024-09-06 09:28:19,217][31334] Updated weights for policy 0, policy_version 2143 (0.0036)
+[2024-09-06 09:28:23,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3754.7, 300 sec: 3873.8). Total num frames: 8790016. Throughput: 0: 940.9. Samples: 321724. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:28:23,552][01070] Avg episode reward: [(0, '28.035')]
+[2024-09-06 09:28:28,550][01070] Fps is (10 sec: 4097.0, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 8814592. Throughput: 0: 962.2. Samples: 325230. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:28:28,554][01070] Avg episode reward: [(0, '25.924')]
+[2024-09-06 09:28:28,713][31334] Updated weights for policy 0, policy_version 2153 (0.0035)
+[2024-09-06 09:28:33,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3959.5, 300 sec: 3887.7). Total num frames: 8835072. Throughput: 0: 1014.2. Samples: 332058. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:28:33,559][01070] Avg episode reward: [(0, '26.391')]
+[2024-09-06 09:28:38,550][01070] Fps is (10 sec: 3686.3, 60 sec: 3822.9, 300 sec: 3887.7). Total num frames: 8851456. Throughput: 0: 955.3. Samples: 336440. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:28:38,554][01070] Avg episode reward: [(0, '26.390')]
+[2024-09-06 09:28:40,330][31334] Updated weights for policy 0, policy_version 2163 (0.0015)
+[2024-09-06 09:28:43,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.2, 300 sec: 3873.8). Total num frames: 8871936. Throughput: 0: 948.3. Samples: 339630. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:28:43,552][01070] Avg episode reward: [(0, '25.753')]
+[2024-09-06 09:28:48,550][01070] Fps is (10 sec: 4505.7, 60 sec: 4027.7, 300 sec: 3887.7). Total num frames: 8896512. Throughput: 0: 1000.0. Samples: 346442. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:28:48,557][01070] Avg episode reward: [(0, '25.859')]
+[2024-09-06 09:28:49,169][31334] Updated weights for policy 0, policy_version 2173 (0.0034)
+[2024-09-06 09:28:53,552][01070] Fps is (10 sec: 3685.7, 60 sec: 3822.8, 300 sec: 3873.8). Total num frames: 8908800. Throughput: 0: 974.6. Samples: 351494. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:28:53,558][01070] Avg episode reward: [(0, '25.517')]
+[2024-09-06 09:28:58,550][01070] Fps is (10 sec: 3276.7, 60 sec: 3823.0, 300 sec: 3873.8). Total num frames: 8929280. Throughput: 0: 943.7. Samples: 353622. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:28:58,553][01070] Avg episode reward: [(0, '26.407')]
+[2024-09-06 09:29:00,954][31334] Updated weights for policy 0, policy_version 2183 (0.0026)
+[2024-09-06 09:29:03,555][01070] Fps is (10 sec: 4094.8, 60 sec: 3959.1, 300 sec: 3859.9). Total num frames: 8949760. Throughput: 0: 970.5. Samples: 360304. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2024-09-06 09:29:03,557][01070] Avg episode reward: [(0, '25.470')]
+[2024-09-06 09:29:08,550][01070] Fps is (10 sec: 3276.9, 60 sec: 3754.7, 300 sec: 3846.1). Total num frames: 8962048. Throughput: 0: 944.0. Samples: 364206. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:29:08,555][01070] Avg episode reward: [(0, '25.993')]
+[2024-09-06 09:29:13,555][01070] Fps is (10 sec: 2457.4, 60 sec: 3617.8, 300 sec: 3832.1). Total num frames: 8974336. Throughput: 0: 907.2. Samples: 366058. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:29:13,562][01070] Avg episode reward: [(0, '25.573')]
+[2024-09-06 09:29:15,599][31334] Updated weights for policy 0, policy_version 2193 (0.0034)
+[2024-09-06 09:29:18,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3686.6, 300 sec: 3832.2). Total num frames: 8994816. Throughput: 0: 869.2. Samples: 371170. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:29:18,557][01070] Avg episode reward: [(0, '25.499')]
+[2024-09-06 09:29:23,550][01070] Fps is (10 sec: 4508.0, 60 sec: 3822.9, 300 sec: 3832.2). Total num frames: 9019392. Throughput: 0: 931.0. Samples: 378336. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:29:23,558][01070] Avg episode reward: [(0, '25.004')]
+[2024-09-06 09:29:24,221][31334] Updated weights for policy 0, policy_version 2203 (0.0023)
+[2024-09-06 09:29:28,550][01070] Fps is (10 sec: 4095.9, 60 sec: 3686.4, 300 sec: 3846.1). Total num frames: 9035776. Throughput: 0: 928.8. Samples: 381428. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:29:28,558][01070] Avg episode reward: [(0, '25.638')]
+[2024-09-06 09:29:33,550][01070] Fps is (10 sec: 3276.9, 60 sec: 3618.1, 300 sec: 3832.2). Total num frames: 9052160. Throughput: 0: 872.4. Samples: 385698. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:29:33,556][01070] Avg episode reward: [(0, '25.467')]
+[2024-09-06 09:29:35,802][31334] Updated weights for policy 0, policy_version 2213 (0.0024)
+[2024-09-06 09:29:38,550][01070] Fps is (10 sec: 4096.2, 60 sec: 3754.7, 300 sec: 3832.2). Total num frames: 9076736. Throughput: 0: 917.8. Samples: 392794. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:29:38,552][01070] Avg episode reward: [(0, '26.654')]
+[2024-09-06 09:29:43,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3846.1). Total num frames: 9097216. Throughput: 0: 949.8. Samples: 396364. Policy #0 lag: (min: 0.0, avg: 0.7, max: 1.0)
+[2024-09-06 09:29:43,554][01070] Avg episode reward: [(0, '27.006')]
+[2024-09-06 09:29:45,512][31334] Updated weights for policy 0, policy_version 2223 (0.0020)
+[2024-09-06 09:29:48,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3618.1, 300 sec: 3860.0). Total num frames: 9113600. Throughput: 0: 906.2. Samples: 401080. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:29:48,555][01070] Avg episode reward: [(0, '27.430')]
+[2024-09-06 09:29:53,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3754.8, 300 sec: 3873.8). Total num frames: 9134080. Throughput: 0: 950.4. Samples: 406972. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:29:53,552][01070] Avg episode reward: [(0, '28.731')]
+[2024-09-06 09:29:55,896][31334] Updated weights for policy 0, policy_version 2233 (0.0016)
+[2024-09-06 09:29:58,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3823.0, 300 sec: 3887.7). Total num frames: 9158656. Throughput: 0: 988.4. Samples: 410532. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2024-09-06 09:29:58,552][01070] Avg episode reward: [(0, '27.817')]
+[2024-09-06 09:30:03,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3686.7, 300 sec: 3873.9). Total num frames: 9170944. Throughput: 0: 1005.6. Samples: 416422. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:30:03,554][01070] Avg episode reward: [(0, '28.267')]
+[2024-09-06 09:30:07,671][31334] Updated weights for policy 0, policy_version 2243 (0.0043)
+[2024-09-06 09:30:08,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3887.7). Total num frames: 9191424. Throughput: 0: 953.2. Samples: 421228. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:30:08,556][01070] Avg episode reward: [(0, '26.904')]
+[2024-09-06 09:30:13,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3959.8, 300 sec: 3873.8). Total num frames: 9211904. Throughput: 0: 962.7. Samples: 424748. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:30:13,556][01070] Avg episode reward: [(0, '28.356')]
+[2024-09-06 09:30:16,331][31334] Updated weights for policy 0, policy_version 2253 (0.0013)
+[2024-09-06 09:30:18,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 9232384. Throughput: 0: 1024.3. Samples: 431792. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:30:18,552][01070] Avg episode reward: [(0, '27.318')]
+[2024-09-06 09:30:18,626][31321] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002255_9236480.pth...
+[2024-09-06 09:30:18,780][31321] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002027_8302592.pth
+[2024-09-06 09:30:23,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3823.0, 300 sec: 3887.7). Total num frames: 9248768. Throughput: 0: 960.3. Samples: 436008. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:30:23,554][01070] Avg episode reward: [(0, '27.558')]
+[2024-09-06 09:30:28,105][31334] Updated weights for policy 0, policy_version 2263 (0.0049)
+[2024-09-06 09:30:28,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.2, 300 sec: 3873.8). Total num frames: 9269248. Throughput: 0: 942.6. Samples: 438782. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:30:28,558][01070] Avg episode reward: [(0, '27.140')]
+[2024-09-06 09:30:33,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.7, 300 sec: 3873.8). Total num frames: 9293824. Throughput: 0: 998.1. Samples: 445996. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:30:33,552][01070] Avg episode reward: [(0, '27.243')]
+[2024-09-06 09:30:37,903][31334] Updated weights for policy 0, policy_version 2273 (0.0040)
+[2024-09-06 09:30:38,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3891.2, 300 sec: 3887.7). Total num frames: 9310208. Throughput: 0: 988.6. Samples: 451458. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:30:38,555][01070] Avg episode reward: [(0, '25.930')]
+[2024-09-06 09:30:43,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3873.8). Total num frames: 9326592. Throughput: 0: 957.8. Samples: 453632. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:30:43,557][01070] Avg episode reward: [(0, '25.857')]
+[2024-09-06 09:30:48,412][31334] Updated weights for policy 0, policy_version 2283 (0.0029)
+[2024-09-06 09:30:48,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 9351168. Throughput: 0: 974.4. Samples: 460270. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:30:48,553][01070] Avg episode reward: [(0, '26.119')]
+[2024-09-06 09:30:53,551][01070] Fps is (10 sec: 4504.8, 60 sec: 3959.4, 300 sec: 3873.8). Total num frames: 9371648. Throughput: 0: 1009.6. Samples: 466664. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:30:53,554][01070] Avg episode reward: [(0, '26.189')]
+[2024-09-06 09:30:58,553][01070] Fps is (10 sec: 3275.6, 60 sec: 3754.4, 300 sec: 3873.8). Total num frames: 9383936. Throughput: 0: 979.9. Samples: 468846. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2024-09-06 09:30:58,556][01070] Avg episode reward: [(0, '26.161')]
+[2024-09-06 09:31:00,090][31334] Updated weights for policy 0, policy_version 2293 (0.0017)
+[2024-09-06 09:31:03,550][01070] Fps is (10 sec: 3687.0, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 9408512. Throughput: 0: 946.0. Samples: 474360. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:31:03,554][01070] Avg episode reward: [(0, '26.578')]
+[2024-09-06 09:31:08,551][01070] Fps is (10 sec: 4506.5, 60 sec: 3959.3, 300 sec: 3859.9). Total num frames: 9428992. Throughput: 0: 1008.8. Samples: 481404. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2024-09-06 09:31:08,557][01070] Avg episode reward: [(0, '27.973')]
+[2024-09-06 09:31:08,806][31334] Updated weights for policy 0, policy_version 2303 (0.0017)
+[2024-09-06 09:31:13,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.2, 300 sec: 3873.8). Total num frames: 9445376. Throughput: 0: 1010.6. Samples: 484258. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2024-09-06 09:31:13,558][01070] Avg episode reward: [(0, '27.929')]
+[2024-09-06 09:31:18,550][01070] Fps is (10 sec: 3277.3, 60 sec: 3822.9, 300 sec: 3860.0). Total num frames: 9461760. Throughput: 0: 946.3. Samples: 488582. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:31:18,553][01070] Avg episode reward: [(0, '29.506')]
+[2024-09-06 09:31:20,377][31334] Updated weights for policy 0, policy_version 2313 (0.0028)
+[2024-09-06 09:31:23,550][01070] Fps is (10 sec: 4096.0, 60 sec: 3959.5, 300 sec: 3860.0). Total num frames: 9486336. Throughput: 0: 979.2. Samples: 495520. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:31:23,557][01070] Avg episode reward: [(0, '28.909')]
+[2024-09-06 09:31:28,550][01070] Fps is (10 sec: 4505.7, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 9506816. Throughput: 0: 1009.9. Samples: 499078. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:31:28,556][01070] Avg episode reward: [(0, '29.850')]
+[2024-09-06 09:31:30,293][31334] Updated weights for policy 0, policy_version 2323 (0.0023)
+[2024-09-06 09:31:33,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3822.9, 300 sec: 3873.8). Total num frames: 9523200. Throughput: 0: 967.2. Samples: 503792. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:31:33,556][01070] Avg episode reward: [(0, '29.280')]
+[2024-09-06 09:31:38,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.2, 300 sec: 3860.0). Total num frames: 9543680. Throughput: 0: 958.8. Samples: 509810. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:31:38,553][01070] Avg episode reward: [(0, '27.557')]
+[2024-09-06 09:31:40,673][31334] Updated weights for policy 0, policy_version 2333 (0.0042)
+[2024-09-06 09:31:43,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.7, 300 sec: 3873.9). Total num frames: 9568256. Throughput: 0: 989.4. Samples: 513364. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:31:43,556][01070] Avg episode reward: [(0, '27.125')]
+[2024-09-06 09:31:48,551][01070] Fps is (10 sec: 4095.5, 60 sec: 3891.1, 300 sec: 3873.8). Total num frames: 9584640. Throughput: 0: 995.3. Samples: 519150. Policy #0 lag: (min: 0.0, avg: 0.6, max: 1.0)
+[2024-09-06 09:31:48,553][01070] Avg episode reward: [(0, '27.322')]
+[2024-09-06 09:31:52,363][31334] Updated weights for policy 0, policy_version 2343 (0.0016)
+[2024-09-06 09:31:53,550][01070] Fps is (10 sec: 3276.7, 60 sec: 3823.0, 300 sec: 3860.0). Total num frames: 9601024. Throughput: 0: 944.7. Samples: 523914. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:31:53,552][01070] Avg episode reward: [(0, '27.500')]
+[2024-09-06 09:31:58,551][01070] Fps is (10 sec: 4095.9, 60 sec: 4027.9, 300 sec: 3859.9). Total num frames: 9625600. Throughput: 0: 961.7. Samples: 527534. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:31:58,553][01070] Avg episode reward: [(0, '29.126')]
+[2024-09-06 09:32:00,889][31334] Updated weights for policy 0, policy_version 2353 (0.0022)
+[2024-09-06 09:32:03,550][01070] Fps is (10 sec: 4505.7, 60 sec: 3959.5, 300 sec: 3887.7). Total num frames: 9646080. Throughput: 0: 1019.8. Samples: 534472. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:32:03,558][01070] Avg episode reward: [(0, '29.982')]
+[2024-09-06 09:32:08,550][01070] Fps is (10 sec: 3277.3, 60 sec: 3823.0, 300 sec: 3860.0). Total num frames: 9658368. Throughput: 0: 960.1. Samples: 538726. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:32:08,556][01070] Avg episode reward: [(0, '29.952')]
+[2024-09-06 09:32:12,587][31334] Updated weights for policy 0, policy_version 2363 (0.0031)
+[2024-09-06 09:32:13,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3959.5, 300 sec: 3860.0). Total num frames: 9682944. Throughput: 0: 949.4. Samples: 541802. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:32:13,552][01070] Avg episode reward: [(0, '28.555')]
+[2024-09-06 09:32:18,550][01070] Fps is (10 sec: 4505.6, 60 sec: 4027.7, 300 sec: 3860.0). Total num frames: 9703424. Throughput: 0: 1001.6. Samples: 548864. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:32:18,556][01070] Avg episode reward: [(0, '25.628')]
+[2024-09-06 09:32:18,570][31321] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002369_9703424.pth...
+[2024-09-06 09:32:18,702][31321] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002142_8773632.pth
+[2024-09-06 09:32:22,792][31334] Updated weights for policy 0, policy_version 2373 (0.0016)
+[2024-09-06 09:32:23,550][01070] Fps is (10 sec: 3686.2, 60 sec: 3891.2, 300 sec: 3873.8). Total num frames: 9719808. Throughput: 0: 977.9. Samples: 553814. Policy #0 lag: (min: 0.0, avg: 0.7, max: 2.0)
+[2024-09-06 09:32:23,555][01070] Avg episode reward: [(0, '22.375')]
+[2024-09-06 09:32:28,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3822.9, 300 sec: 3860.0). Total num frames: 9736192. Throughput: 0: 948.0. Samples: 556022. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:32:28,553][01070] Avg episode reward: [(0, '20.360')]
+[2024-09-06 09:32:32,965][31334] Updated weights for policy 0, policy_version 2383 (0.0025)
+[2024-09-06 09:32:33,550][01070] Fps is (10 sec: 4096.1, 60 sec: 3959.5, 300 sec: 3860.0). Total num frames: 9760768. Throughput: 0: 973.8. Samples: 562968. Policy #0 lag: (min: 0.0, avg: 0.5, max: 1.0)
+[2024-09-06 09:32:33,555][01070] Avg episode reward: [(0, '20.884')]
+[2024-09-06 09:32:38,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3959.5, 300 sec: 3873.8). Total num frames: 9781248. Throughput: 0: 1009.0. Samples: 569320. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:32:38,552][01070] Avg episode reward: [(0, '22.478')]
+[2024-09-06 09:32:43,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3822.9, 300 sec: 3873.8). Total num frames: 9797632. Throughput: 0: 975.1. Samples: 571410. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:32:43,556][01070] Avg episode reward: [(0, '24.007')]
+[2024-09-06 09:32:44,350][31334] Updated weights for policy 0, policy_version 2393 (0.0025)
+[2024-09-06 09:32:48,550][01070] Fps is (10 sec: 3686.4, 60 sec: 3891.3, 300 sec: 3860.0). Total num frames: 9818112. Throughput: 0: 954.8. Samples: 577440. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:32:48,555][01070] Avg episode reward: [(0, '24.930')]
+[2024-09-06 09:32:53,552][01070] Fps is (10 sec: 3275.9, 60 sec: 3822.8, 300 sec: 3832.2). Total num frames: 9830400. Throughput: 0: 960.2. Samples: 581938. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:32:53,557][01070] Avg episode reward: [(0, '25.976')]
+[2024-09-06 09:32:57,156][31334] Updated weights for policy 0, policy_version 2403 (0.0037)
+[2024-09-06 09:32:58,550][01070] Fps is (10 sec: 2457.6, 60 sec: 3618.2, 300 sec: 3832.2). Total num frames: 9842688. Throughput: 0: 929.7. Samples: 583638. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:32:58,555][01070] Avg episode reward: [(0, '26.309')]
+[2024-09-06 09:33:03,550][01070] Fps is (10 sec: 3277.7, 60 sec: 3618.1, 300 sec: 3818.3). Total num frames: 9863168. Throughput: 0: 873.8. Samples: 588184. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:33:03,552][01070] Avg episode reward: [(0, '28.969')]
+[2024-09-06 09:33:07,715][31334] Updated weights for policy 0, policy_version 2413 (0.0028)
+[2024-09-06 09:33:08,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3822.9, 300 sec: 3832.2). Total num frames: 9887744. Throughput: 0: 922.7. Samples: 595336. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:33:08,557][01070] Avg episode reward: [(0, '29.922')]
+[2024-09-06 09:33:13,550][01070] Fps is (10 sec: 4505.6, 60 sec: 3754.7, 300 sec: 3846.1). Total num frames: 9908224. Throughput: 0: 951.1. Samples: 598822. Policy #0 lag: (min: 0.0, avg: 0.6, max: 2.0)
+[2024-09-06 09:33:13,556][01070] Avg episode reward: [(0, '30.424')]
+[2024-09-06 09:33:18,550][01070] Fps is (10 sec: 3276.8, 60 sec: 3618.1, 300 sec: 3832.2). Total num frames: 9920512. Throughput: 0: 895.7. Samples: 603274. Policy #0 lag: (min: 0.0, avg: 0.5, max: 2.0)
+[2024-09-06 09:33:18,552][01070] Avg episode reward: [(0, '29.949')]
+[2024-09-06 09:33:18,995][31334] Updated weights for policy 0, policy_version 2423 (0.0013)
+[2024-09-06 09:33:23,550][01070] Fps is (10 sec: 3686.3, 60 sec: 3754.7, 300 sec: 3832.2). Total num frames: 9945088. Throughput: 0: 893.8. Samples: 609540. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:33:23,552][01070] Avg episode reward: [(0, '32.278')]
+[2024-09-06 09:33:27,758][31334] Updated weights for policy 0, policy_version 2433 (0.0015)
+[2024-09-06 09:33:28,550][01070] Fps is (10 sec: 4505.5, 60 sec: 3822.9, 300 sec: 3832.2). Total num frames: 9965568. Throughput: 0: 926.0. Samples: 613080. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2024-09-06 09:33:28,557][01070] Avg episode reward: [(0, '32.614')]
+[2024-09-06 09:33:33,550][01070] Fps is (10 sec: 3686.5, 60 sec: 3686.4, 300 sec: 3832.2). Total num frames: 9981952. Throughput: 0: 917.8. Samples: 618742. Policy #0 lag: (min: 0.0, avg: 0.4, max: 1.0)
+[2024-09-06 09:33:33,553][01070] Avg episode reward: [(0, '30.653')]
+[2024-09-06 09:33:38,550][01070] Fps is (10 sec: 3276.9, 60 sec: 3618.1, 300 sec: 3818.3). Total num frames: 9998336. Throughput: 0: 930.7. Samples: 623816. Policy #0 lag: (min: 0.0, avg: 0.4, max: 2.0)
+[2024-09-06 09:33:38,554][01070] Avg episode reward: [(0, '29.532')]
+[2024-09-06 09:33:39,515][31321] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2024-09-06 09:33:39,516][31321] Stopping Batcher_0...
+[2024-09-06 09:33:39,524][31321] Loop batcher_evt_loop terminating...
+[2024-09-06 09:33:39,530][01070] Component Batcher_0 stopped!
+[2024-09-06 09:33:39,548][31334] Updated weights for policy 0, policy_version 2443 (0.0018)
+[2024-09-06 09:33:39,594][31334] Weights refcount: 2 0
+[2024-09-06 09:33:39,598][31334] Stopping InferenceWorker_p0-w0...
+[2024-09-06 09:33:39,599][31334] Loop inference_proc0-0_evt_loop terminating...
+[2024-09-06 09:33:39,599][01070] Component InferenceWorker_p0-w0 stopped!
+[2024-09-06 09:33:39,677][31321] Removing /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002255_9236480.pth
+[2024-09-06 09:33:39,692][31321] Saving /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2024-09-06 09:33:39,880][31321] Stopping LearnerWorker_p0...
+[2024-09-06 09:33:39,884][31321] Loop learner_proc0_evt_loop terminating...
+[2024-09-06 09:33:39,881][01070] Component LearnerWorker_p0 stopped!
+[2024-09-06 09:33:39,915][01070] Component RolloutWorker_w1 stopped!
+[2024-09-06 09:33:39,920][31336] Stopping RolloutWorker_w1...
+[2024-09-06 09:33:39,929][01070] Component RolloutWorker_w3 stopped!
+[2024-09-06 09:33:39,933][31338] Stopping RolloutWorker_w3...
+[2024-09-06 09:33:39,934][31336] Loop rollout_proc1_evt_loop terminating...
+[2024-09-06 09:33:39,937][01070] Component RolloutWorker_w5 stopped!
+[2024-09-06 09:33:39,941][31340] Stopping RolloutWorker_w5...
+[2024-09-06 09:33:39,942][31340] Loop rollout_proc5_evt_loop terminating...
+[2024-09-06 09:33:39,934][31338] Loop rollout_proc3_evt_loop terminating...
+[2024-09-06 09:33:39,963][01070] Component RolloutWorker_w7 stopped!
+[2024-09-06 09:33:39,967][31341] Stopping RolloutWorker_w7...
+[2024-09-06 09:33:39,972][31341] Loop rollout_proc7_evt_loop terminating...
+[2024-09-06 09:33:39,988][31337] Stopping RolloutWorker_w2...
+[2024-09-06 09:33:39,988][01070] Component RolloutWorker_w2 stopped!
+[2024-09-06 09:33:39,989][31337] Loop rollout_proc2_evt_loop terminating...
+[2024-09-06 09:33:39,998][31335] Stopping RolloutWorker_w0...
+[2024-09-06 09:33:39,998][01070] Component RolloutWorker_w0 stopped!
+[2024-09-06 09:33:40,002][31335] Loop rollout_proc0_evt_loop terminating...
+[2024-09-06 09:33:40,068][31339] Stopping RolloutWorker_w4...
+[2024-09-06 09:33:40,068][01070] Component RolloutWorker_w4 stopped!
+[2024-09-06 09:33:40,069][31339] Loop rollout_proc4_evt_loop terminating...
+[2024-09-06 09:33:40,097][31342] Stopping RolloutWorker_w6...
+[2024-09-06 09:33:40,097][01070] Component RolloutWorker_w6 stopped!
+[2024-09-06 09:33:40,102][01070] Waiting for process learner_proc0 to stop...
+[2024-09-06 09:33:40,098][31342] Loop rollout_proc6_evt_loop terminating...
+[2024-09-06 09:33:41,279][01070] Waiting for process inference_proc0-0 to join...
+[2024-09-06 09:33:41,286][01070] Waiting for process rollout_proc0 to join...
+[2024-09-06 09:33:43,440][01070] Waiting for process rollout_proc1 to join...
+[2024-09-06 09:33:43,450][01070] Waiting for process rollout_proc2 to join...
+[2024-09-06 09:33:43,456][01070] Waiting for process rollout_proc3 to join...
+[2024-09-06 09:33:43,459][01070] Waiting for process rollout_proc4 to join...
+[2024-09-06 09:33:43,464][01070] Waiting for process rollout_proc5 to join...
+[2024-09-06 09:33:43,468][01070] Waiting for process rollout_proc6 to join...
+[2024-09-06 09:33:43,473][01070] Waiting for process rollout_proc7 to join...
+[2024-09-06 09:33:43,477][01070] Batcher 0 profile tree view:
+batching: 17.3741, releasing_batches: 0.0206
+[2024-09-06 09:33:43,479][01070] InferenceWorker_p0-w0 profile tree view:
+wait_policy: 0.0001
+  wait_policy_total: 250.6480
+update_model: 5.6099
+  weight_update: 0.0018
+one_step: 0.0090
+  handle_policy_step: 377.0589
+    deserialize: 9.3343, stack: 2.0445, obs_to_device_normalize: 77.2195, forward: 198.9774, send_messages: 18.2353
+    prepare_outputs: 52.7164
+      to_cpu: 30.3890
+[2024-09-06 09:33:43,480][01070] Learner 0 profile tree view:
+misc: 0.0038, prepare_batch: 9.0030
+train: 48.0575
+  epoch_init: 0.0094, minibatch_init: 0.0154, losses_postprocess: 0.4238, kl_divergence: 0.4480, after_optimizer: 1.8224
+  calculate_losses: 17.3374
+    losses_init: 0.0049, forward_head: 1.0561, bptt_initial: 11.6751, tail: 0.7162, advantages_returns: 0.1663, losses: 2.2672
+    bptt: 1.2517
+      bptt_forward_core: 1.1681
+  update: 27.5809
+    clip: 0.5703
+[2024-09-06 09:33:43,483][01070] RolloutWorker_w0 profile tree view:
+wait_for_trajectories: 0.2106, enqueue_policy_requests: 61.5026, env_step: 506.3878, overhead: 8.0540, complete_rollouts: 5.0957
+save_policy_outputs: 12.4197
+  split_output_tensors: 4.9996
+[2024-09-06 09:33:43,485][01070] RolloutWorker_w7 profile tree view:
+wait_for_trajectories: 0.1713, enqueue_policy_requests: 59.7714, env_step: 514.1502, overhead: 8.4068, complete_rollouts: 4.1925
+save_policy_outputs: 12.9198
+  split_output_tensors: 5.3484
+[2024-09-06 09:33:43,487][01070] Loop Runner_EvtLoop terminating...
+[2024-09-06 09:33:43,488][01070] Runner profile tree view:
+main_loop: 682.3462
+[2024-09-06 09:33:43,490][01070] Collected {0: 10006528}, FPS: 3661.7
+[2024-09-06 09:33:49,612][01070] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2024-09-06 09:33:49,613][01070] Overriding arg 'num_workers' with value 1 passed from command line
+[2024-09-06 09:33:49,615][01070] Adding new argument 'no_render'=True that is not in the saved config file!
+[2024-09-06 09:33:49,616][01070] Adding new argument 'save_video'=True that is not in the saved config file!
+[2024-09-06 09:33:49,617][01070] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2024-09-06 09:33:49,618][01070] Adding new argument 'video_name'=None that is not in the saved config file!
+[2024-09-06 09:33:49,619][01070] Adding new argument 'max_num_frames'=1000000000.0 that is not in the saved config file!
+[2024-09-06 09:33:49,621][01070] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2024-09-06 09:33:49,622][01070] Adding new argument 'push_to_hub'=False that is not in the saved config file!
+[2024-09-06 09:33:49,623][01070] Adding new argument 'hf_repository'=None that is not in the saved config file!
+[2024-09-06 09:33:49,624][01070] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2024-09-06 09:33:49,625][01070] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2024-09-06 09:33:49,626][01070] Adding new argument 'train_script'=None that is not in the saved config file!
+[2024-09-06 09:33:49,627][01070] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2024-09-06 09:33:49,628][01070] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2024-09-06 09:33:49,660][01070] RunningMeanStd input shape: (3, 72, 128)
+[2024-09-06 09:33:49,661][01070] RunningMeanStd input shape: (1,)
+[2024-09-06 09:33:49,675][01070] ConvEncoder: input_channels=3
+[2024-09-06 09:33:49,713][01070] Conv encoder output size: 512
+[2024-09-06 09:33:49,714][01070] Policy head output size: 512
+[2024-09-06 09:33:49,733][01070] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2024-09-06 09:33:50,158][01070] Num frames 100...
+[2024-09-06 09:33:50,294][01070] Num frames 200...
+[2024-09-06 09:33:50,435][01070] Num frames 300...
+[2024-09-06 09:33:50,580][01070] Num frames 400...
+[2024-09-06 09:33:50,701][01070] Num frames 500...
+[2024-09-06 09:33:50,828][01070] Num frames 600...
+[2024-09-06 09:33:50,948][01070] Num frames 700...
+[2024-09-06 09:33:51,068][01070] Num frames 800...
+[2024-09-06 09:33:51,192][01070] Num frames 900...
+[2024-09-06 09:33:51,316][01070] Num frames 1000...
+[2024-09-06 09:33:51,448][01070] Num frames 1100...
+[2024-09-06 09:33:51,584][01070] Num frames 1200...
+[2024-09-06 09:33:51,708][01070] Num frames 1300...
+[2024-09-06 09:33:51,831][01070] Num frames 1400...
+[2024-09-06 09:33:51,964][01070] Num frames 1500...
+[2024-09-06 09:33:52,096][01070] Num frames 1600...
+[2024-09-06 09:33:52,228][01070] Num frames 1700...
+[2024-09-06 09:33:52,381][01070] Avg episode rewards: #0: 42.729, true rewards: #0: 17.730
+[2024-09-06 09:33:52,382][01070] Avg episode reward: 42.729, avg true_objective: 17.730
+[2024-09-06 09:33:52,418][01070] Num frames 1800...
+[2024-09-06 09:33:52,551][01070] Num frames 1900...
+[2024-09-06 09:33:52,676][01070] Num frames 2000...
+[2024-09-06 09:33:52,798][01070] Num frames 2100...
+[2024-09-06 09:33:52,927][01070] Num frames 2200...
+[2024-09-06 09:33:53,052][01070] Num frames 2300...
+[2024-09-06 09:33:53,174][01070] Num frames 2400...
+[2024-09-06 09:33:53,325][01070] Avg episode rewards: #0: 27.885, true rewards: #0: 12.385
+[2024-09-06 09:33:53,326][01070] Avg episode reward: 27.885, avg true_objective: 12.385
+[2024-09-06 09:33:53,356][01070] Num frames 2500...
+[2024-09-06 09:33:53,476][01070] Num frames 2600...
+[2024-09-06 09:33:53,599][01070] Num frames 2700...
+[2024-09-06 09:33:53,724][01070] Num frames 2800...
+[2024-09-06 09:33:53,844][01070] Num frames 2900...
+[2024-09-06 09:33:53,933][01070] Avg episode rewards: #0: 20.416, true rewards: #0: 9.750
+[2024-09-06 09:33:53,934][01070] Avg episode reward: 20.416, avg true_objective: 9.750
+[2024-09-06 09:33:54,025][01070] Num frames 3000...
+[2024-09-06 09:33:54,146][01070] Num frames 3100...
+[2024-09-06 09:33:54,275][01070] Num frames 3200...
+[2024-09-06 09:33:54,415][01070] Num frames 3300...
+[2024-09-06 09:33:54,544][01070] Num frames 3400...
+[2024-09-06 09:33:54,668][01070] Num frames 3500...
+[2024-09-06 09:33:54,789][01070] Num frames 3600...
+[2024-09-06 09:33:54,917][01070] Num frames 3700...
+[2024-09-06 09:33:55,043][01070] Avg episode rewards: #0: 19.895, true rewards: #0: 9.395
+[2024-09-06 09:33:55,044][01070] Avg episode reward: 19.895, avg true_objective: 9.395
+[2024-09-06 09:33:55,099][01070] Num frames 3800...
+[2024-09-06 09:33:55,230][01070] Num frames 3900...
+[2024-09-06 09:33:55,361][01070] Num frames 4000...
+[2024-09-06 09:33:55,490][01070] Num frames 4100...
+[2024-09-06 09:33:55,610][01070] Num frames 4200...
+[2024-09-06 09:33:55,712][01070] Avg episode rewards: #0: 17.476, true rewards: #0: 8.476
+[2024-09-06 09:33:55,714][01070] Avg episode reward: 17.476, avg true_objective: 8.476
+[2024-09-06 09:33:55,790][01070] Num frames 4300...
+[2024-09-06 09:33:55,909][01070] Num frames 4400...
+[2024-09-06 09:33:56,038][01070] Num frames 4500...
+[2024-09-06 09:33:56,162][01070] Num frames 4600...
+[2024-09-06 09:33:56,279][01070] Num frames 4700...
+[2024-09-06 09:33:56,400][01070] Num frames 4800...
+[2024-09-06 09:33:56,534][01070] Num frames 4900...
+[2024-09-06 09:33:56,659][01070] Num frames 5000...
+[2024-09-06 09:33:56,780][01070] Num frames 5100...
+[2024-09-06 09:33:56,902][01070] Num frames 5200...
+[2024-09-06 09:33:57,033][01070] Num frames 5300...
+[2024-09-06 09:33:57,157][01070] Num frames 5400...
+[2024-09-06 09:33:57,279][01070] Num frames 5500...
+[2024-09-06 09:33:57,405][01070] Num frames 5600...
+[2024-09-06 09:33:57,545][01070] Num frames 5700...
+[2024-09-06 09:33:57,669][01070] Num frames 5800...
+[2024-09-06 09:33:57,789][01070] Num frames 5900...
+[2024-09-06 09:33:57,910][01070] Num frames 6000...
+[2024-09-06 09:33:58,039][01070] Num frames 6100...
+[2024-09-06 09:33:58,162][01070] Num frames 6200...
+[2024-09-06 09:33:58,322][01070] Num frames 6300...
+[2024-09-06 09:33:58,444][01070] Avg episode rewards: #0: 24.730, true rewards: #0: 10.563
+[2024-09-06 09:33:58,446][01070] Avg episode reward: 24.730, avg true_objective: 10.563
+[2024-09-06 09:33:58,553][01070] Num frames 6400...
+[2024-09-06 09:33:58,719][01070] Num frames 6500...
+[2024-09-06 09:33:58,886][01070] Num frames 6600...
+[2024-09-06 09:33:59,057][01070] Num frames 6700...
+[2024-09-06 09:33:59,222][01070] Num frames 6800...
+[2024-09-06 09:33:59,382][01070] Num frames 6900...
+[2024-09-06 09:33:59,564][01070] Num frames 7000...
+[2024-09-06 09:33:59,740][01070] Num frames 7100...
+[2024-09-06 09:33:59,914][01070] Num frames 7200...
+[2024-09-06 09:34:00,087][01070] Num frames 7300...
+[2024-09-06 09:34:00,258][01070] Num frames 7400...
+[2024-09-06 09:34:00,429][01070] Num frames 7500...
+[2024-09-06 09:34:00,610][01070] Num frames 7600...
+[2024-09-06 09:34:00,786][01070] Num frames 7700...
+[2024-09-06 09:34:00,911][01070] Num frames 7800...
+[2024-09-06 09:34:01,031][01070] Num frames 7900...
+[2024-09-06 09:34:01,159][01070] Num frames 8000...
+[2024-09-06 09:34:01,279][01070] Num frames 8100...
+[2024-09-06 09:34:01,402][01070] Num frames 8200...
+[2024-09-06 09:34:01,537][01070] Num frames 8300...
+[2024-09-06 09:34:01,664][01070] Num frames 8400...
+[2024-09-06 09:34:01,766][01070] Avg episode rewards: #0: 29.768, true rewards: #0: 12.054
+[2024-09-06 09:34:01,767][01070] Avg episode reward: 29.768, avg true_objective: 12.054
+[2024-09-06 09:34:01,845][01070] Num frames 8500...
+[2024-09-06 09:34:01,964][01070] Num frames 8600...
+[2024-09-06 09:34:02,084][01070] Num frames 8700...
+[2024-09-06 09:34:02,213][01070] Num frames 8800...
+[2024-09-06 09:34:02,332][01070] Num frames 8900...
+[2024-09-06 09:34:02,455][01070] Num frames 9000...
+[2024-09-06 09:34:02,585][01070] Num frames 9100...
+[2024-09-06 09:34:02,710][01070] Num frames 9200...
+[2024-09-06 09:34:02,832][01070] Num frames 9300...
+[2024-09-06 09:34:02,955][01070] Num frames 9400...
+[2024-09-06 09:34:03,078][01070] Num frames 9500...
+[2024-09-06 09:34:03,208][01070] Num frames 9600...
+[2024-09-06 09:34:03,326][01070] Num frames 9700...
+[2024-09-06 09:34:03,450][01070] Num frames 9800...
+[2024-09-06 09:34:03,583][01070] Num frames 9900...
+[2024-09-06 09:34:03,708][01070] Num frames 10000...
+[2024-09-06 09:34:03,829][01070] Num frames 10100...
+[2024-09-06 09:34:03,949][01070] Num frames 10200...
+[2024-09-06 09:34:04,072][01070] Num frames 10300...
+[2024-09-06 09:34:04,200][01070] Num frames 10400...
+[2024-09-06 09:34:04,323][01070] Num frames 10500...
+[2024-09-06 09:34:04,414][01070] Avg episode rewards: #0: 33.533, true rewards: #0: 13.159
+[2024-09-06 09:34:04,416][01070] Avg episode reward: 33.533, avg true_objective: 13.159
+[2024-09-06 09:34:04,519][01070] Num frames 10600...
+[2024-09-06 09:34:04,640][01070] Num frames 10700...
+[2024-09-06 09:34:04,761][01070] Num frames 10800...
+[2024-09-06 09:34:04,884][01070] Num frames 10900...
+[2024-09-06 09:34:05,003][01070] Num frames 11000...
+[2024-09-06 09:34:05,126][01070] Num frames 11100...
+[2024-09-06 09:34:05,263][01070] Num frames 11200...
+[2024-09-06 09:34:05,384][01070] Num frames 11300...
+[2024-09-06 09:34:05,512][01070] Num frames 11400...
+[2024-09-06 09:34:05,637][01070] Num frames 11500...
+[2024-09-06 09:34:05,761][01070] Num frames 11600...
+[2024-09-06 09:34:05,884][01070] Num frames 11700...
+[2024-09-06 09:34:06,007][01070] Num frames 11800...
+[2024-09-06 09:34:06,131][01070] Num frames 11900...
+[2024-09-06 09:34:06,262][01070] Num frames 12000...
+[2024-09-06 09:34:06,384][01070] Num frames 12100...
+[2024-09-06 09:34:06,477][01070] Avg episode rewards: #0: 34.477, true rewards: #0: 13.478
+[2024-09-06 09:34:06,478][01070] Avg episode reward: 34.477, avg true_objective: 13.478
+[2024-09-06 09:34:06,568][01070] Num frames 12200...
+[2024-09-06 09:34:06,688][01070] Num frames 12300...
+[2024-09-06 09:34:06,808][01070] Num frames 12400...
+[2024-09-06 09:34:06,928][01070] Num frames 12500...
+[2024-09-06 09:34:07,058][01070] Num frames 12600...
+[2024-09-06 09:34:07,184][01070] Num frames 12700...
+[2024-09-06 09:34:07,317][01070] Num frames 12800...
+[2024-09-06 09:34:07,443][01070] Avg episode rewards: #0: 32.758, true rewards: #0: 12.858
+[2024-09-06 09:34:07,444][01070] Avg episode reward: 32.758, avg true_objective: 12.858
+[2024-09-06 09:35:25,862][01070] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
+[2024-09-06 09:35:27,895][01070] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2024-09-06 09:35:27,897][01070] Overriding arg 'num_workers' with value 1 passed from command line
+[2024-09-06 09:35:27,899][01070] Adding new argument 'no_render'=True that is not in the saved config file!
+[2024-09-06 09:35:27,901][01070] Adding new argument 'save_video'=True that is not in the saved config file!
+[2024-09-06 09:35:27,903][01070] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2024-09-06 09:35:27,904][01070] Adding new argument 'video_name'=None that is not in the saved config file!
+[2024-09-06 09:35:27,906][01070] Adding new argument 'max_num_frames'=100000 that is not in the saved config file!
+[2024-09-06 09:35:27,908][01070] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2024-09-06 09:35:27,909][01070] Adding new argument 'push_to_hub'=True that is not in the saved config file!
+[2024-09-06 09:35:27,910][01070] Adding new argument 'hf_repository'='Re-Re/rl_course_vizdoom_health_gathering_supreme' that is not in the saved config file!
+[2024-09-06 09:35:27,911][01070] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2024-09-06 09:35:27,912][01070] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2024-09-06 09:35:27,913][01070] Adding new argument 'train_script'=None that is not in the saved config file!
+[2024-09-06 09:35:27,914][01070] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2024-09-06 09:35:27,915][01070] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2024-09-06 09:35:27,944][01070] RunningMeanStd input shape: (3, 72, 128)
+[2024-09-06 09:35:27,946][01070] RunningMeanStd input shape: (1,)
+[2024-09-06 09:35:27,960][01070] ConvEncoder: input_channels=3
+[2024-09-06 09:35:27,997][01070] Conv encoder output size: 512
+[2024-09-06 09:35:27,998][01070] Policy head output size: 512
+[2024-09-06 09:35:28,018][01070] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000002443_10006528.pth...
+[2024-09-06 09:35:28,432][01070] Num frames 100...
+[2024-09-06 09:35:28,573][01070] Num frames 200...
+[2024-09-06 09:35:28,697][01070] Num frames 300...
+[2024-09-06 09:35:28,814][01070] Num frames 400...
+[2024-09-06 09:35:28,932][01070] Num frames 500...
+[2024-09-06 09:35:29,050][01070] Num frames 600...
+[2024-09-06 09:35:29,170][01070] Num frames 700...
+[2024-09-06 09:35:29,290][01070] Num frames 800...
+[2024-09-06 09:35:29,422][01070] Avg episode rewards: #0: 17.640, true rewards: #0: 8.640
+[2024-09-06 09:35:29,424][01070] Avg episode reward: 17.640, avg true_objective: 8.640
+[2024-09-06 09:35:29,487][01070] Num frames 900...
+[2024-09-06 09:35:29,613][01070] Num frames 1000...
+[2024-09-06 09:35:29,733][01070] Num frames 1100...
+[2024-09-06 09:35:29,853][01070] Num frames 1200...
+[2024-09-06 09:35:29,974][01070] Num frames 1300...
+[2024-09-06 09:35:30,108][01070] Num frames 1400...
+[2024-09-06 09:35:30,275][01070] Num frames 1500...
+[2024-09-06 09:35:30,436][01070] Num frames 1600...
+[2024-09-06 09:35:30,626][01070] Num frames 1700...
+[2024-09-06 09:35:30,791][01070] Num frames 1800...
+[2024-09-06 09:35:30,958][01070] Num frames 1900...
+[2024-09-06 09:35:31,122][01070] Num frames 2000...
+[2024-09-06 09:35:31,289][01070] Num frames 2100...
+[2024-09-06 09:35:31,465][01070] Num frames 2200...
+[2024-09-06 09:35:31,646][01070] Num frames 2300...
+[2024-09-06 09:35:31,818][01070] Num frames 2400...
+[2024-09-06 09:35:32,050][01070] Avg episode rewards: #0: 28.480, true rewards: #0: 12.480
+[2024-09-06 09:35:32,052][01070] Avg episode reward: 28.480, avg true_objective: 12.480
+[2024-09-06 09:35:32,066][01070] Num frames 2500...
+[2024-09-06 09:35:32,252][01070] Num frames 2600...
+[2024-09-06 09:35:32,423][01070] Num frames 2700...
+[2024-09-06 09:35:32,607][01070] Num frames 2800...
+[2024-09-06 09:35:32,773][01070] Num frames 2900...
+[2024-09-06 09:35:32,896][01070] Num frames 3000...
+[2024-09-06 09:35:33,016][01070] Num frames 3100...
+[2024-09-06 09:35:33,138][01070] Num frames 3200...
+[2024-09-06 09:35:33,262][01070] Num frames 3300...
+[2024-09-06 09:35:33,382][01070] Num frames 3400...
+[2024-09-06 09:35:33,467][01070] Avg episode rewards: #0: 26.080, true rewards: #0: 11.413
+[2024-09-06 09:35:33,469][01070] Avg episode reward: 26.080, avg true_objective: 11.413
+[2024-09-06 09:35:33,567][01070] Num frames 3500...
+[2024-09-06 09:35:33,697][01070] Num frames 3600...
+[2024-09-06 09:35:33,817][01070] Num frames 3700...
+[2024-09-06 09:35:33,963][01070] Avg episode rewards: #0: 21.190, true rewards: #0: 9.440
+[2024-09-06 09:35:33,964][01070] Avg episode reward: 21.190, avg true_objective: 9.440
+[2024-09-06 09:35:33,997][01070] Num frames 3800...
+[2024-09-06 09:35:34,117][01070] Num frames 3900...
+[2024-09-06 09:35:34,241][01070] Num frames 4000...
+[2024-09-06 09:35:34,361][01070] Num frames 4100...
+[2024-09-06 09:35:34,490][01070] Num frames 4200...
+[2024-09-06 09:35:34,616][01070] Num frames 4300...
+[2024-09-06 09:35:34,748][01070] Num frames 4400...
+[2024-09-06 09:35:34,870][01070] Num frames 4500...
+[2024-09-06 09:35:34,990][01070] Num frames 4600...
+[2024-09-06 09:35:35,113][01070] Num frames 4700...
+[2024-09-06 09:35:35,236][01070] Num frames 4800...
+[2024-09-06 09:35:35,355][01070] Num frames 4900...
+[2024-09-06 09:35:35,477][01070] Num frames 5000...
+[2024-09-06 09:35:35,600][01070] Num frames 5100...
+[2024-09-06 09:35:35,717][01070] Avg episode rewards: #0: 22.704, true rewards: #0: 10.304
+[2024-09-06 09:35:35,719][01070] Avg episode reward: 22.704, avg true_objective: 10.304
+[2024-09-06 09:35:35,781][01070] Num frames 5200...
+[2024-09-06 09:35:35,899][01070] Num frames 5300...
+[2024-09-06 09:35:36,021][01070] Num frames 5400...
+[2024-09-06 09:35:36,145][01070] Num frames 5500...
+[2024-09-06 09:35:36,267][01070] Num frames 5600...
+[2024-09-06 09:35:36,386][01070] Num frames 5700...
+[2024-09-06 09:35:36,515][01070] Num frames 5800...
+[2024-09-06 09:35:36,637][01070] Num frames 5900...
+[2024-09-06 09:35:36,764][01070] Num frames 6000...
+[2024-09-06 09:35:36,889][01070] Num frames 6100...
+[2024-09-06 09:35:37,009][01070] Num frames 6200...
+[2024-09-06 09:35:37,131][01070] Num frames 6300...
+[2024-09-06 09:35:37,191][01070] Avg episode rewards: #0: 23.507, true rewards: #0: 10.507
+[2024-09-06 09:35:37,194][01070] Avg episode reward: 23.507, avg true_objective: 10.507
+[2024-09-06 09:35:37,306][01070] Num frames 6400...
+[2024-09-06 09:35:37,424][01070] Num frames 6500...
+[2024-09-06 09:35:37,552][01070] Num frames 6600...
+[2024-09-06 09:35:37,668][01070] Num frames 6700...
+[2024-09-06 09:35:37,791][01070] Num frames 6800...
+[2024-09-06 09:35:37,943][01070] Avg episode rewards: #0: 21.400, true rewards: #0: 9.829
+[2024-09-06 09:35:37,945][01070] Avg episode reward: 21.400, avg true_objective: 9.829
+[2024-09-06 09:35:37,971][01070] Num frames 6900...
+[2024-09-06 09:35:38,088][01070] Num frames 7000...
+[2024-09-06 09:35:38,212][01070] Num frames 7100...
+[2024-09-06 09:35:38,333][01070] Num frames 7200...
+[2024-09-06 09:35:38,453][01070] Num frames 7300...
+[2024-09-06 09:35:38,583][01070] Num frames 7400...
+[2024-09-06 09:35:38,700][01070] Num frames 7500...
+[2024-09-06 09:35:38,825][01070] Num frames 7600...
+[2024-09-06 09:35:38,943][01070] Num frames 7700...
+[2024-09-06 09:35:39,063][01070] Num frames 7800...
+[2024-09-06 09:35:39,184][01070] Num frames 7900...
+[2024-09-06 09:35:39,306][01070] Num frames 8000...
+[2024-09-06 09:35:39,424][01070] Num frames 8100...
+[2024-09-06 09:35:39,552][01070] Num frames 8200...
+[2024-09-06 09:35:39,648][01070] Avg episode rewards: #0: 23.416, true rewards: #0: 10.291
+[2024-09-06 09:35:39,650][01070] Avg episode reward: 23.416, avg true_objective: 10.291
+[2024-09-06 09:35:39,731][01070] Num frames 8300...
+[2024-09-06 09:35:39,860][01070] Num frames 8400...
+[2024-09-06 09:35:39,978][01070] Num frames 8500...
+[2024-09-06 09:35:40,096][01070] Num frames 8600...
+[2024-09-06 09:35:40,219][01070] Num frames 8700...
+[2024-09-06 09:35:40,336][01070] Num frames 8800...
+[2024-09-06 09:35:40,464][01070] Num frames 8900...
+[2024-09-06 09:35:40,596][01070] Num frames 9000...
+[2024-09-06 09:35:40,719][01070] Num frames 9100...
+[2024-09-06 09:35:40,847][01070] Num frames 9200...
+[2024-09-06 09:35:40,971][01070] Num frames 9300...
+[2024-09-06 09:35:41,093][01070] Num frames 9400...
+[2024-09-06 09:35:41,220][01070] Num frames 9500...
+[2024-09-06 09:35:41,339][01070] Num frames 9600...
+[2024-09-06 09:35:41,465][01070] Num frames 9700...
+[2024-09-06 09:35:41,597][01070] Num frames 9800...
+[2024-09-06 09:35:41,723][01070] Num frames 9900...
+[2024-09-06 09:35:41,853][01070] Num frames 10000...
+[2024-09-06 09:35:41,979][01070] Num frames 10100...
+[2024-09-06 09:35:42,103][01070] Num frames 10200...
+[2024-09-06 09:35:42,228][01070] Num frames 10300...
+[2024-09-06 09:35:42,326][01070] Avg episode rewards: #0: 27.259, true rewards: #0: 11.481
+[2024-09-06 09:35:42,329][01070] Avg episode reward: 27.259, avg true_objective: 11.481
+[2024-09-06 09:35:42,414][01070] Num frames 10400...
+[2024-09-06 09:35:42,552][01070] Num frames 10500...
+[2024-09-06 09:35:42,675][01070] Num frames 10600...
+[2024-09-06 09:35:42,830][01070] Num frames 10700...
+[2024-09-06 09:35:43,000][01070] Num frames 10800...
+[2024-09-06 09:35:43,164][01070] Num frames 10900...
+[2024-09-06 09:35:43,294][01070] Avg episode rewards: #0: 25.741, true rewards: #0: 10.941
+[2024-09-06 09:35:43,299][01070] Avg episode reward: 25.741, avg true_objective: 10.941
+[2024-09-06 09:36:50,704][01070] Replay video saved to /content/train_dir/default_experiment/replay.mp4!