Training in progress, epoch 1

Files changed (11) hide show

config.json CHANGED Viewed

@@ -1,25 +1,25 @@
 {
-  "_name_or_path": "microsoft/deberta-v3-large",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 1024,
   "initializer_range": 0.02,
-  "intermediate_size": 4096,
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
   "max_relative_positions": -1,
   "model_type": "deberta-v2",
   "norm_rel_ebd": "layer_norm",
-  "num_attention_heads": 16,
-  "num_hidden_layers": 24,
   "pad_token_id": 0,
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
-  "pooler_hidden_size": 1024,
   "pos_att_type": [
     "p2c",
     "c2p"

 {
+  "_name_or_path": "microsoft/deberta-v3-base",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
   "max_relative_positions": -1,
   "model_type": "deberta-v2",
   "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
   "pad_token_id": 0,
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
   "pos_att_type": [
     "p2c",
     "c2p"

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db25cee7efaa01864d9a77a4f74d0c9d2326018ba142cbe1a036d5a07c453429
-size 1740304440

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed1ca670602465a09e34815d2a91e895491af587d899f2f9221d046f8418e488
+size 737719272

run-0/checkpoint-27/config.json CHANGED Viewed

@@ -1,25 +1,25 @@
 {
-  "_name_or_path": "microsoft/deberta-v3-large",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
-  "hidden_size": 1024,
   "initializer_range": 0.02,
-  "intermediate_size": 4096,
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
   "max_relative_positions": -1,
   "model_type": "deberta-v2",
   "norm_rel_ebd": "layer_norm",
-  "num_attention_heads": 16,
-  "num_hidden_layers": 24,
   "pad_token_id": 0,
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
-  "pooler_hidden_size": 1024,
   "pos_att_type": [
     "p2c",
     "c2p"

 {
+  "_name_or_path": "microsoft/deberta-v3-base",
   "architectures": [
     "DebertaV2ForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
   "initializer_range": 0.02,
+  "intermediate_size": 3072,
   "layer_norm_eps": 1e-07,
   "max_position_embeddings": 512,
   "max_relative_positions": -1,
   "model_type": "deberta-v2",
   "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
   "pad_token_id": 0,
   "pooler_dropout": 0,
   "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
   "pos_att_type": [
     "p2c",
     "c2p"

run-0/checkpoint-27/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:362787337e763ae671c0d6f586075e16ed1ee0b7814d9f4a66bd9c573b910b06
-size 1740304440

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed1ca670602465a09e34815d2a91e895491af587d899f2f9221d046f8418e488
+size 737719272

run-0/checkpoint-27/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bf148f031a6b40ebc0a1b878fd399b7041c0572404062d16f4c6a0f8e25600d
-size 3480840240

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f7fa6b21ebbdc8b9fc9c6bc85aee0d8e8ae05efc4a1b8c3c87b707a3ed0907
+size 1475558394

run-0/checkpoint-27/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70a0155120298931ad746a4bb00fd0abdd59a8850305e017cf843b2bc5e7b5b0
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0fce9eb55c0fdd6af139024ee02e7031cd5bd6b03707d2bb5484decd5f5b448
+size 14308

run-0/checkpoint-27/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b332e5aa1f9a47941437dcec4e5a39d6bd8a90d334761d98098129d5846b2dbe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:029be0abaf4172d8d79d3fe3569afed060aca3e4a5ee2358fb92bfcebf064181
 size 1064

run-0/checkpoint-27/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.0,
   "best_model_checkpoint": "deberta-v3-large-finetuned-cola-midterm/run-0/checkpoint-27",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,11 +10,11 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 0.6029512882232666,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 8.1359,
-      "eval_samples_per_second": 128.197,
-      "eval_steps_per_second": 8.112,
       "step": 27
     }
   ],
@@ -24,12 +24,12 @@
   "num_train_epochs": 2,
   "save_steps": 500,
   "total_flos": 0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 4.26417580168616e-06,
     "num_train_epochs": 2,
-    "per_device_train_batch_size": 32,
-    "seed": 3
   }
 }

 {
+  "best_metric": 0.048639888821286496,
   "best_model_checkpoint": "deberta-v3-large-finetuned-cola-midterm/run-0/checkpoint-27",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 0.691221296787262,
+      "eval_matthews_correlation": 0.048639888821286496,
+      "eval_runtime": 2.4651,
+      "eval_samples_per_second": 423.102,
+      "eval_steps_per_second": 26.773,
       "step": 27
     }
   ],
   "num_train_epochs": 2,
   "save_steps": 500,
   "total_flos": 0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 1.295113530605781e-06,
     "num_train_epochs": 2,
+    "per_device_train_batch_size": 16,
+    "seed": 29
   }
 }

run-0/checkpoint-27/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b511e0093eff2e18a9a8913c53e4c6377789256044eb610b864499c14d17e4f5
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ca2192d898bc34b22b60030a4c304d30c36cac0af471e752e5be729bc08981c
 size 4984

runs/Feb29_12-55-06_e1aa4b7a2e4c/events.out.tfevents.1709211387.e1aa4b7a2e4c.252.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bafa5acd0f7ee6a2073f29d9b20884b1390f9674e2c8893f5a872a7bd8342ac
+size 5812

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:809a0430adc83b27e312907f1dee6ad0edefa61c1f8ccdf999f9172f36110b1e
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ca2192d898bc34b22b60030a4c304d30c36cac0af471e752e5be729bc08981c
 size 4984