Upload 7 files

Browse files

Files changed (7) hide show

config (6).json +30 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +581 -0
training_args.bin +3 -0

config (6).json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "facebook/esm2_t33_650M_UR50D",
+  "architectures": [
+    "EsmForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "classifier_dropout": null,
+  "emb_layer_norm_before": false,
+  "esmfold_config": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1280,
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "is_folding_model": false,
+  "layer_norm_eps": 1e-05,
+  "mask_token_id": 32,
+  "max_position_embeddings": 1026,
+  "model_type": "esm",
+  "num_attention_heads": 20,
+  "num_hidden_layers": 33,
+  "pad_token_id": 1,
+  "position_embedding_type": "rotary",
+  "token_dropout": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": true,
+  "vocab_list": null,
+  "vocab_size": 33
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61fd44ef1c034eb4739b499daff54a586d84cb4064e8200c74ea18f34c04fc01
+size 2609498088

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf189f76489a8d7251058c21008aaa264ba0a9f54cd97b71dc6f89024ace4d92
+size 5208792737

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6821b6ab47ebf2687f3d998057cb9a617e892c9cb0db758974ebcc0c1ea5471
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b24bf7d361c8b88fb3078a19658f349617d98e2b5e6b3840ddd113ec2de5de5
+size 563

trainer_state.json ADDED Viewed

	@@ -0,0 +1,581 @@

+{
+  "best_metric": 1.3603260517120361,
+  "best_model_checkpoint": "./interact_output/checkpoint-914",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 914,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00015968553632342872,
+      "loss": 1.8187,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00031937107264685743,
+      "loss": 1.7865,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00047905660897028615,
+      "loss": 1.9059,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0006387421452937149,
+      "loss": 1.9266,
+      "step": 40
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.9969,
+      "step": 50
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 2.0468,
+      "step": 60
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.9863,
+      "step": 70
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.8926,
+      "step": 80
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.8434,
+      "step": 90
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.8316,
+      "step": 100
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.7679,
+      "step": 110
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.7136,
+      "step": 120
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.8007,
+      "step": 130
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.7397,
+      "step": 140
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.7168,
+      "step": 150
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.7507,
+      "step": 160
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5584,
+      "step": 170
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.7085,
+      "step": 180
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.6188,
+      "step": 190
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5501,
+      "step": 200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.6778,
+      "step": 210
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.6112,
+      "step": 220
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5693,
+      "step": 230
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5671,
+      "step": 240
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5477,
+      "step": 250
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5861,
+      "step": 260
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.6772,
+      "step": 270
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5901,
+      "step": 280
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5628,
+      "step": 290
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5902,
+      "step": 300
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4775,
+      "step": 310
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5247,
+      "step": 320
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5076,
+      "step": 330
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.483,
+      "step": 340
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5376,
+      "step": 350
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4295,
+      "step": 360
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4517,
+      "step": 370
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.5043,
+      "step": 380
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3862,
+      "step": 390
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4554,
+      "step": 400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.417,
+      "step": 410
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4428,
+      "step": 420
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4553,
+      "step": 430
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4517,
+      "step": 440
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.4568,
+      "step": 450
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.5652484893798828,
+      "eval_runtime": 208.8087,
+      "eval_samples_per_second": 12.902,
+      "eval_steps_per_second": 3.228,
+      "step": 457
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3963,
+      "step": 460
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3257,
+      "step": 470
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2477,
+      "step": 480
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.283,
+      "step": 490
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2559,
+      "step": 500
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3981,
+      "step": 510
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3224,
+      "step": 520
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3697,
+      "step": 530
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2984,
+      "step": 540
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2361,
+      "step": 550
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2341,
+      "step": 560
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2852,
+      "step": 570
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2903,
+      "step": 580
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3681,
+      "step": 590
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2503,
+      "step": 600
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3659,
+      "step": 610
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2709,
+      "step": 620
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.261,
+      "step": 630
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2984,
+      "step": 640
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2224,
+      "step": 650
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.3484,
+      "step": 660
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2559,
+      "step": 670
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2761,
+      "step": 680
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2682,
+      "step": 690
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.164,
+      "step": 700
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2756,
+      "step": 710
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.193,
+      "step": 720
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.176,
+      "step": 730
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2107,
+      "step": 740
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1533,
+      "step": 750
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2375,
+      "step": 760
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.163,
+      "step": 770
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1706,
+      "step": 780
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2231,
+      "step": 790
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2927,
+      "step": 800
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1889,
+      "step": 810
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1449,
+      "step": 820
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.212,
+      "step": 830
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1961,
+      "step": 840
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1678,
+      "step": 850
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1994,
+      "step": 860
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1694,
+      "step": 870
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.0776,
+      "step": 880
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.1641,
+      "step": 890
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.0907,
+      "step": 900
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0007984276816171436,
+      "loss": 1.2174,
+      "step": 910
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.3603260517120361,
+      "eval_runtime": 208.2857,
+      "eval_samples_per_second": 12.934,
+      "eval_steps_per_second": 3.236,
+      "step": 914
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 914,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 5.844435036099379e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06d91a50799d60deccc757ea948871c2f521d38dd063f02306721efc5918cf00
+size 4091