Spaces:

zjowowen
/

gomoku

Sleeping

init space

079c32c 11 months ago

1.81 kB

	from easydict import EasyDict
	from copy import deepcopy

	Pong_dt_config = dict(
	exp_name='dt_log/atari/Pong/Pong_dt_seed0',
	env=dict(
	env_id='PongNoFrameskip-v4',
	collector_env_num=1,
	evaluator_env_num=8,
	n_evaluator_episode=8,
	stop_value=20,
	frame_stack=4,
	is_train=False,
	episode_num=10000, # stop in breakout
	),
	dataset=dict(
	env_type='atari',
	num_steps=500000,
	# num_steps=50,
	num_buffers=50,
	rtg_scale=None,
	context_len=30,
	data_dir_prefix='/mnt/nfs/luyd/d4rl_atari/Pong',
	trajectories_per_buffer=10,
	),
	policy=dict(
	cuda=True,
	multi_gpu=True,
	stop_value=20,
	evaluator_env_num=8,
	rtg_target=20, # max target return to go
	max_eval_ep_len=10000, # max lenght of one episode
	wt_decay=1e-4,
	clip_grad_norm_p=1.0,
	weight_decay=0.1,
	warmup_steps=10000,
	model=dict(
	state_dim=(4, 84, 84),
	act_dim=6,
	n_blocks=6,
	h_dim=128,
	context_len=30,
	n_heads=8,
	drop_p=0.1,
	continuous=False,
	),
	batch_size=128,
	learning_rate=6e-4,
	eval=dict(evaluator=dict(eval_freq=100, ), ),
	collect=dict(
	data_type='d4rl_trajectory',
	unroll_len=1,
	),
	),
	)

	Pong_dt_config = EasyDict(Pong_dt_config)
	main_config = Pong_dt_config
	Pong_dt_create_config = dict(
	env=dict(
	type='atari',
	import_names=['dizoo.atari.envs.atari_env'],
	),
	env_manager=dict(type='subprocess'),
	policy=dict(type='dt'),
	)
	Pong_dt_create_config = EasyDict(Pong_dt_create_config)
	create_config = Pong_dt_create_config