VinayHajare
/

ppo-LunarLander-v2

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Model card Files Files and versions Community

VinayHajare commited on Sep 2, 2023

Commit

c97d971

•

1 Parent(s): 1a6b133

Update README.md

Files changed (1) hide show

README.md +7 -9

README.md CHANGED Viewed

@@ -29,7 +29,7 @@ using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines
 ```python
-# Usage code
 import gymnasium as gym
 from huggingface_sb3 import load_from_hub
 from stable_baselines3 import PPO
@@ -39,20 +39,18 @@ from stable_baselines3.common.monitor import Monitor
 repo_id = "VinayHajare/ppo-LunarLander-v2"
 filename = "ppo-LunarLander-v2.zip"
-eval_env = DummyVecEnv([lambda: Monitor(gym.make("LunarLander-v2", render_mode="rgb_array"))])
 checkpoint = load_from_hub(repo_id, filename)
-model = PPO.load(checkpoint,env=eval_env,print_system_info=True)
-#eval_env = DummyVecEnv([lambda: Monitor(gym.make("LunarLander-v2", render_mode="rgb_array"))])
 mean_reward, std_reward = evaluate_policy(model,eval_env, n_eval_episodes=10, deterministic=True)
 print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
 # Enjoy trained agent
-vec_env = model.get_env()
-obs, info = vec_env.reset()
 for _ in range(1000):
-    action, _states = model.predict(obs, deterministic=True)
-    obs, rewards, terminated,truncated, info = vec_env.step(action)
-    vec_env.render("human")
 ```

 ```python
+# !pip gymnasium huggingface-sb3 stable_baselines3[extra]
 import gymnasium as gym
 from huggingface_sb3 import load_from_hub
 from stable_baselines3 import PPO
 repo_id = "VinayHajare/ppo-LunarLander-v2"
 filename = "ppo-LunarLander-v2.zip"
+eval_env = gym.make("LunarLander-v2", render_mode="human")
 checkpoint = load_from_hub(repo_id, filename)
+model = PPO.load(checkpoint,print_system_info=True)
 mean_reward, std_reward = evaluate_policy(model,eval_env, n_eval_episodes=10, deterministic=True)
 print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
 # Enjoy trained agent
+observation, info = eval_env.reset()
 for _ in range(1000):
+    action, _states = model.predict(observation, deterministic=True)
+    observation, rewards, terminated, truncated, info = eval_env.step(action)
+    eval_env.render()
 ```