{"dataset_kwargs": {"balance_weights": true, "batch_size": 512, "dataset_kwargs_list": [{"name": "bridge", "data_dir": "/home/marcelr/tensorflow_datasets", "image_obs_keys": {"primary": "image_0", "secondary": "image_1"}, "language_key": "groundtruth*", "filter_functions": [{"module": "octo.data.utils.data_utils", "name": "filter_by_language_key", "args": [], "kwargs": {"language_key_template": "groundtruth*"}}, {"module": "octo.data.utils.data_utils", "name": "filter_by_language_key", "args": [], "kwargs": {"language_key_template": "language_instruction*"}}], "action_normalization_mask": [true, true, true, true, true, true, false], "action_proprio_normalization_type": "normal", "standardize_fn": {"module": "octo.data.oxe.oxe_standardization_transforms", "name": "bridge_transform", "args": [], "kwargs": {}}}], "frame_transform_kwargs": {"image_augment_kwargs": {"primary": {"augment_order": ["random_resized_crop", "random_brightness", "random_contrast", "random_saturation", "random_hue"], "random_brightness": [0.1], "random_contrast": [0.9, 1.1], "random_hue": [0.05], "random_resized_crop": {"ratio": [0.9, 1.1], "scale": [0.8, 1.0]}, "random_saturation": [0.9, 1.1]}, "secondary": {"augment_order": ["random_brightness", "random_contrast", "random_saturation", "random_hue"], "random_brightness": [0.1], "random_contrast": [0.9, 1.1], "random_hue": [0.05], "random_saturation": [0.9, 1.1]}}, "image_dropout_prob": 0.0, "num_parallel_calls": 200, "resize_size": {"primary": [256, 256], "secondary": [128, 128]}}, "sample_weights": [1.0], "shuffle_buffer_size": 500000, "traj_read_threads": 48, "traj_transform_kwargs": {"action_horizon": 4, "goal_relabeling_strategy": "uniform", "max_action_dim": 7, "skip_unlabeled": true, "subsample_length": 100, "task_augment_kwargs": {"keep_image_prob": 0.5}, "task_augment_strategy": "delete_task_conditioning", "window_size": 2}, "traj_transform_threads": 48}, "eval_datasets": null, "eval_interval": 1000000, "log_interval": 100, "model": {"heads": {"action": {"args": [], "kwargs": {"action_dim": 7, "action_horizon": 4, "dropout_rate": 0.0, "n_diffusion_samples": 1, "readout_key": "readout_action", "use_map": false}, "module": "octo.model.components.action_heads", "name": "DiffusionActionHead"}}, "max_horizon": 10, "observation_tokenizers": {"primary": {"args": [], "kwargs": {"encoder": {"args": [], "kwargs": {}, "module": "octo.model.components.vit_encoders", "name": "SmallStem16"}, "obs_stack_keys": ["image_primary"], "task_stack_keys": ["image_primary"]}, "module": "octo.model.components.tokenizers", "name": "ImageTokenizer"}, "secondary": {"args": [], "kwargs": {"encoder": {"args": [], "kwargs": {}, "module": "octo.model.components.vit_encoders", "name": "SmallStem16"}, "obs_stack_keys": ["image_secondary"], "task_stack_keys": ["image_secondary"]}, "module": "octo.model.components.tokenizers", "name": "ImageTokenizer"}}, "readouts": {"action": 1}, "repeat_task_tokens": true, "task_tokenizers": {"language": {"args": [], "kwargs": {"encoder": "t5-base", "finetune_encoder": false}, "module": "octo.model.components.tokenizers", "name": "LanguageTokenizer"}}, "token_embedding_size": 384, "transformer_kwargs": {"add_position_embedding": false, "attention_dropout_rate": 0.0, "dropout_rate": 0.0, "mlp_dim": 1536, "num_attention_heads": 6, "num_layers": 12}, "use_correct_attention": true}, "num_steps": 600000.0, "optimizer": {"clip_gradient": 1.0, "frozen_keys": ["*hf_model*"], "learning_rate": {"init_value": 0.0, "name": "rsqrt", "peak_value": 0.0003, "timescale": 10000, "warmup_steps": 2000}, "weight_decay": 0.1}, "prefetch_num_batches": 0, "pretrained_loaders": [{"module": "octo.utils.train_utils", "name": "hf_weights_loader", "args": [], "kwargs": {"hf_model": "t5-base"}}], "resume_path": null, "save_dir": "logs", "save_interval": 10000, "seed": 42, "start_step": null, "text_processor": {"args": [], "kwargs": {"encode_with_model": false, "tokenizer_kwargs": {"max_length": 16, "padding": "max_length", "return_tensors": "np", "truncation": true}, "tokenizer_name": "t5-base"}, "module": "octo.data.utils.text_processing", "name": "HFTokenizer"}, "val_kwargs": {"num_val_batches": 16, "val_shuffle_buffer_size": 1000}, "viz_interval": 1000000, "viz_kwargs": {"eval_batch_size": 128, "samples_per_state": 8, "trajs_for_metrics": 100, "trajs_for_viz": 8}, "wandb": {"entity": "omeryagmurlu", "group": "octo_pretrain", "project": "octo"}, "wandb_resume_id": null, "window_size": 2}