Cryxim
/

rl_course_vizdoom_health_gathering_supreme

Reinforcement Learning

sample-factory

TensorBoard

deep-reinforcement-learning

Eval Results

Model card Files Files and versions Metrics Training metrics Community

Cryxim commited on Aug 31, 2024

Commit

b14bd8b

verified ·

1 Parent(s): 82071f4

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

README.md +1 -1
replay.mp4 +2 -2
sf_log.txt +126 -0

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
-      value: 8.39 +/- 3.50
       name: mean_reward
       verified: false
 ---

       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
+      value: 8.30 +/- 2.96
       name: mean_reward
       verified: false
 ---

replay.mp4 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f68904b2fce96562cf5912466be16f4b942d968d6a3696abaffed40ed05fea7
-size 15899472

 version https://git-lfs.github.com/spec/v1
+oid sha256:36c67ce101e64f1dd522e78334ce65d5b847a7be3e0f5c1d706f113a5b21b989
+size 15749513

sf_log.txt CHANGED Viewed

@@ -1069,3 +1069,129 @@ main_loop: 1144.5452
 [2024-08-31 18:04:08,906][00204] Avg episode rewards: #0: 17.495, true rewards: #0: 8.395
 [2024-08-31 18:04:08,908][00204] Avg episode reward: 17.495, avg true_objective: 8.395
 [2024-08-31 18:04:55,697][00204] Replay video saved to /content/train_dir/default_experiment/replay.mp4!

 [2024-08-31 18:04:08,906][00204] Avg episode rewards: #0: 17.495, true rewards: #0: 8.395
 [2024-08-31 18:04:08,908][00204] Avg episode reward: 17.495, avg true_objective: 8.395
 [2024-08-31 18:04:55,697][00204] Replay video saved to /content/train_dir/default_experiment/replay.mp4!
+[2024-08-31 18:05:02,002][00204] The model has been pushed to https://huggingface.co/Cryxim/rl_course_vizdoom_health_gathering_supreme
+[2024-08-31 18:07:14,466][00204] Loading existing experiment configuration from /content/train_dir/default_experiment/config.json
+[2024-08-31 18:07:14,468][00204] Overriding arg 'num_workers' with value 1 passed from command line
+[2024-08-31 18:07:14,470][00204] Adding new argument 'no_render'=True that is not in the saved config file!
+[2024-08-31 18:07:14,472][00204] Adding new argument 'save_video'=True that is not in the saved config file!
+[2024-08-31 18:07:14,474][00204] Adding new argument 'video_frames'=1000000000.0 that is not in the saved config file!
+[2024-08-31 18:07:14,475][00204] Adding new argument 'video_name'=None that is not in the saved config file!
+[2024-08-31 18:07:14,477][00204] Adding new argument 'max_num_frames'=100000 that is not in the saved config file!
+[2024-08-31 18:07:14,478][00204] Adding new argument 'max_num_episodes'=10 that is not in the saved config file!
+[2024-08-31 18:07:14,479][00204] Adding new argument 'push_to_hub'=True that is not in the saved config file!
+[2024-08-31 18:07:14,480][00204] Adding new argument 'hf_repository'='Cryxim/rl_course_vizdoom_health_gathering_supreme' that is not in the saved config file!
+[2024-08-31 18:07:14,481][00204] Adding new argument 'policy_index'=0 that is not in the saved config file!
+[2024-08-31 18:07:14,482][00204] Adding new argument 'eval_deterministic'=False that is not in the saved config file!
+[2024-08-31 18:07:14,483][00204] Adding new argument 'train_script'=None that is not in the saved config file!
+[2024-08-31 18:07:14,484][00204] Adding new argument 'enjoy_script'=None that is not in the saved config file!
+[2024-08-31 18:07:14,485][00204] Using frameskip 1 and render_action_repeat=4 for evaluation
+[2024-08-31 18:07:14,494][00204] RunningMeanStd input shape: (3, 72, 128)
+[2024-08-31 18:07:14,500][00204] RunningMeanStd input shape: (1,)
+[2024-08-31 18:07:14,513][00204] ConvEncoder: input_channels=3
+[2024-08-31 18:07:14,548][00204] Conv encoder output size: 512
+[2024-08-31 18:07:14,549][00204] Policy head output size: 512
+[2024-08-31 18:07:14,568][00204] Loading state from checkpoint /content/train_dir/default_experiment/checkpoint_p0/checkpoint_000000978_4005888.pth...
+[2024-08-31 18:07:15,042][00204] Num frames 100...
+[2024-08-31 18:07:15,157][00204] Num frames 200...
+[2024-08-31 18:07:15,270][00204] Num frames 300...
+[2024-08-31 18:07:15,385][00204] Num frames 400...
+[2024-08-31 18:07:15,496][00204] Num frames 500...
+[2024-08-31 18:07:15,638][00204] Avg episode rewards: #0: 8.760, true rewards: #0: 5.760
+[2024-08-31 18:07:15,640][00204] Avg episode reward: 8.760, avg true_objective: 5.760
+[2024-08-31 18:07:15,676][00204] Num frames 600...
+[2024-08-31 18:07:15,793][00204] Num frames 700...
+[2024-08-31 18:07:15,920][00204] Num frames 800...
+[2024-08-31 18:07:16,037][00204] Num frames 900...
+[2024-08-31 18:07:16,150][00204] Num frames 1000...
+[2024-08-31 18:07:16,265][00204] Num frames 1100...
+[2024-08-31 18:07:16,377][00204] Num frames 1200...
+[2024-08-31 18:07:16,497][00204] Num frames 1300...
+[2024-08-31 18:07:16,612][00204] Num frames 1400...
+[2024-08-31 18:07:16,755][00204] Num frames 1500...
+[2024-08-31 18:07:16,894][00204] Num frames 1600...
+[2024-08-31 18:07:16,986][00204] Avg episode rewards: #0: 14.160, true rewards: #0: 8.160
+[2024-08-31 18:07:16,988][00204] Avg episode reward: 14.160, avg true_objective: 8.160
+[2024-08-31 18:07:17,109][00204] Num frames 1700...
+[2024-08-31 18:07:17,268][00204] Num frames 1800...
+[2024-08-31 18:07:17,425][00204] Num frames 1900...
+[2024-08-31 18:07:17,576][00204] Num frames 2000...
+[2024-08-31 18:07:17,734][00204] Num frames 2100...
+[2024-08-31 18:07:17,908][00204] Avg episode rewards: #0: 11.920, true rewards: #0: 7.253
+[2024-08-31 18:07:17,910][00204] Avg episode reward: 11.920, avg true_objective: 7.253
+[2024-08-31 18:07:17,951][00204] Num frames 2200...
+[2024-08-31 18:07:18,102][00204] Num frames 2300...
+[2024-08-31 18:07:18,266][00204] Num frames 2400...
+[2024-08-31 18:07:18,431][00204] Num frames 2500...
+[2024-08-31 18:07:18,595][00204] Num frames 2600...
+[2024-08-31 18:07:18,794][00204] Num frames 2700...
+[2024-08-31 18:07:18,991][00204] Avg episode rewards: #0: 11.210, true rewards: #0: 6.960
+[2024-08-31 18:07:18,994][00204] Avg episode reward: 11.210, avg true_objective: 6.960
+[2024-08-31 18:07:19,024][00204] Num frames 2800...
+[2024-08-31 18:07:19,187][00204] Num frames 2900...
+[2024-08-31 18:07:19,350][00204] Num frames 3000...
+[2024-08-31 18:07:19,521][00204] Num frames 3100...
+[2024-08-31 18:07:19,689][00204] Num frames 3200...
+[2024-08-31 18:07:19,819][00204] Num frames 3300...
+[2024-08-31 18:07:19,940][00204] Num frames 3400...
+[2024-08-31 18:07:20,051][00204] Avg episode rewards: #0: 11.694, true rewards: #0: 6.894
+[2024-08-31 18:07:20,053][00204] Avg episode reward: 11.694, avg true_objective: 6.894
+[2024-08-31 18:07:20,117][00204] Num frames 3500...
+[2024-08-31 18:07:20,232][00204] Num frames 3600...
+[2024-08-31 18:07:20,349][00204] Num frames 3700...
+[2024-08-31 18:07:20,464][00204] Num frames 3800...
+[2024-08-31 18:07:20,589][00204] Num frames 3900...
+[2024-08-31 18:07:20,713][00204] Num frames 4000...
+[2024-08-31 18:07:20,839][00204] Num frames 4100...
+[2024-08-31 18:07:20,988][00204] Avg episode rewards: #0: 12.290, true rewards: #0: 6.957
+[2024-08-31 18:07:20,990][00204] Avg episode reward: 12.290, avg true_objective: 6.957
+[2024-08-31 18:07:21,024][00204] Num frames 4200...
+[2024-08-31 18:07:21,147][00204] Num frames 4300...
+[2024-08-31 18:07:21,265][00204] Num frames 4400...
+[2024-08-31 18:07:21,381][00204] Num frames 4500...
+[2024-08-31 18:07:21,497][00204] Num frames 4600...
+[2024-08-31 18:07:21,618][00204] Num frames 4700...
+[2024-08-31 18:07:21,734][00204] Num frames 4800...
+[2024-08-31 18:07:21,866][00204] Num frames 4900...
+[2024-08-31 18:07:21,986][00204] Num frames 5000...
+[2024-08-31 18:07:22,108][00204] Num frames 5100...
+[2024-08-31 18:07:22,207][00204] Avg episode rewards: #0: 13.049, true rewards: #0: 7.334
+[2024-08-31 18:07:22,209][00204] Avg episode reward: 13.049, avg true_objective: 7.334
+[2024-08-31 18:07:22,292][00204] Num frames 5200...
+[2024-08-31 18:07:22,410][00204] Num frames 5300...
+[2024-08-31 18:07:22,525][00204] Num frames 5400...
+[2024-08-31 18:07:22,648][00204] Num frames 5500...
+[2024-08-31 18:07:22,777][00204] Num frames 5600...
+[2024-08-31 18:07:22,913][00204] Num frames 5700...
+[2024-08-31 18:07:23,071][00204] Avg episode rewards: #0: 13.231, true rewards: #0: 7.231
+[2024-08-31 18:07:23,072][00204] Avg episode reward: 13.231, avg true_objective: 7.231
+[2024-08-31 18:07:23,093][00204] Num frames 5800...
+[2024-08-31 18:07:23,208][00204] Num frames 5900...
+[2024-08-31 18:07:23,329][00204] Num frames 6000...
+[2024-08-31 18:07:23,449][00204] Num frames 6100...
+[2024-08-31 18:07:23,565][00204] Num frames 6200...
+[2024-08-31 18:07:23,687][00204] Num frames 6300...
+[2024-08-31 18:07:23,803][00204] Num frames 6400...
+[2024-08-31 18:07:23,938][00204] Num frames 6500...
+[2024-08-31 18:07:24,057][00204] Num frames 6600...
+[2024-08-31 18:07:24,172][00204] Num frames 6700...
+[2024-08-31 18:07:24,283][00204] Avg episode rewards: #0: 14.161, true rewards: #0: 7.494
+[2024-08-31 18:07:24,284][00204] Avg episode reward: 14.161, avg true_objective: 7.494
+[2024-08-31 18:07:24,351][00204] Num frames 6800...
+[2024-08-31 18:07:24,466][00204] Num frames 6900...
+[2024-08-31 18:07:24,595][00204] Num frames 7000...
+[2024-08-31 18:07:24,711][00204] Num frames 7100...
+[2024-08-31 18:07:24,836][00204] Num frames 7200...
+[2024-08-31 18:07:24,963][00204] Num frames 7300...
+[2024-08-31 18:07:25,082][00204] Num frames 7400...
+[2024-08-31 18:07:25,202][00204] Num frames 7500...
+[2024-08-31 18:07:25,321][00204] Num frames 7600...
+[2024-08-31 18:07:25,440][00204] Num frames 7700...
+[2024-08-31 18:07:25,556][00204] Num frames 7800...
+[2024-08-31 18:07:25,672][00204] Num frames 7900...
+[2024-08-31 18:07:25,797][00204] Num frames 8000...
+[2024-08-31 18:07:25,920][00204] Num frames 8100...
+[2024-08-31 18:07:26,050][00204] Num frames 8200...
+[2024-08-31 18:07:26,168][00204] Num frames 8300...
+[2024-08-31 18:07:26,227][00204] Avg episode rewards: #0: 17.001, true rewards: #0: 8.301
+[2024-08-31 18:07:26,228][00204] Avg episode reward: 17.001, avg true_objective: 8.301
+[2024-08-31 18:08:13,048][00204] Replay video saved to /content/train_dir/default_experiment/replay.mp4!