Training in progress, step 1700, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/README.md +7 -0
last-checkpoint/adapter_model.bin +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/special_tokens_map.json +21 -3
last-checkpoint/tokenizer_config.json +4 -0
last-checkpoint/trainer_state.json +40 -82
last-checkpoint/training_args.bin +1 -1

last-checkpoint/README.md CHANGED Viewed

@@ -216,4 +216,11 @@ The following `bitsandbytes` quantization config was used during training:
 ### Framework versions
 - PEFT 0.6.0.dev0

 ### Framework versions
+- PEFT 0.6.0.dev0
+## Training procedure
+### Framework versions
 - PEFT 0.6.0.dev0

last-checkpoint/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdf16af4142c86fea8177ec3960e5cffa7b3c3d69bed0795d84d73fa8396775c
 size 50349441

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f3499658af1ccf0f719ffe4e8ecf336e15511850781e24c21a8cc7dbc131f3d
 size 50349441

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cee1e3aa58b3e38da12aa21cc872ab95737c43461e4460c0001b743cab3dc56
-size 100693001

 version https://git-lfs.github.com/spec/v1
+oid sha256:531455402dce213cbf7f3d865f33cb3a680459ca9ebf797405993b81b39a1e2d
+size 100691721

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b844b6d05ca4a0d574e8b563577b5a55af86779b464ff872bc6a0d1764aa57d5
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:1389c8fb4da5b08654d5ecff1c857ae43115866bad194f9289834fc2a0b6a9c8
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:720bafe9a34b3041027dccef7d9c03bb23064e1fcdd80ae5f27e717d41b7cf31
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:0410ad60e6d0138b921a03b0a3e367fd27c6ab07cb9a5006fcb66ea8e5bbacc4
 size 627

last-checkpoint/special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,24 @@
 {
-  "bos_token": "<|endoftext|>",
-  "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
 }

 {
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

last-checkpoint/tokenizer_config.json CHANGED Viewed

@@ -13,8 +13,12 @@
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"
 }

   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
+  "max_length": 512,
   "model_max_length": 1024,
   "pad_token": "<|endoftext|>",
+  "stride": 0,
   "tokenizer_class": "GPT2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
   "unk_token": "<|endoftext|>"
 }

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.456108808517456,
-  "best_model_checkpoint": "./outputs/checkpoint-2000",
-  "epoch": 1.4571948998178508,
   "eval_steps": 100,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -151,149 +151,107 @@
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
-      "loss": 1.6268,
       "step": 1100
     },
     {
       "epoch": 0.8,
-      "eval_loss": 1.6125303506851196,
-      "eval_runtime": 144.0648,
-      "eval_samples_per_second": 43.55,
-      "eval_steps_per_second": 5.449,
       "step": 1100
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0002,
-      "loss": 1.5911,
       "step": 1200
     },
     {
       "epoch": 0.87,
-      "eval_loss": 1.5925209522247314,
-      "eval_runtime": 144.042,
-      "eval_samples_per_second": 43.557,
-      "eval_steps_per_second": 5.45,
       "step": 1200
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
-      "loss": 1.5986,
       "step": 1300
     },
     {
       "epoch": 0.95,
-      "eval_loss": 1.571681261062622,
-      "eval_runtime": 144.1746,
-      "eval_samples_per_second": 43.517,
-      "eval_steps_per_second": 5.445,
       "step": 1300
     },
     {
       "epoch": 1.02,
       "learning_rate": 0.0002,
-      "loss": 1.5514,
       "step": 1400
     },
     {
       "epoch": 1.02,
-      "eval_loss": 1.5524405241012573,
-      "eval_runtime": 183.3697,
-      "eval_samples_per_second": 34.215,
-      "eval_steps_per_second": 4.281,
       "step": 1400
     },
     {
       "epoch": 1.09,
       "learning_rate": 0.0002,
-      "loss": 1.5235,
       "step": 1500
     },
     {
       "epoch": 1.09,
-      "eval_loss": 1.534788966178894,
-      "eval_runtime": 317.3733,
-      "eval_samples_per_second": 19.769,
-      "eval_steps_per_second": 2.473,
       "step": 1500
     },
     {
       "epoch": 1.17,
       "learning_rate": 0.0002,
-      "loss": 1.5051,
       "step": 1600
     },
     {
       "epoch": 1.17,
-      "eval_loss": 1.517040491104126,
-      "eval_runtime": 315.5897,
-      "eval_samples_per_second": 19.88,
-      "eval_steps_per_second": 2.487,
       "step": 1600
     },
     {
       "epoch": 1.24,
       "learning_rate": 0.0002,
-      "loss": 1.5036,
       "step": 1700
     },
     {
       "epoch": 1.24,
-      "eval_loss": 1.500235915184021,
-      "eval_runtime": 314.1201,
-      "eval_samples_per_second": 19.973,
-      "eval_steps_per_second": 2.499,
       "step": 1700
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 1.4767,
-      "step": 1800
-    },
-    {
-      "epoch": 1.31,
-      "eval_loss": 1.4854458570480347,
-      "eval_runtime": 313.3904,
-      "eval_samples_per_second": 20.02,
-      "eval_steps_per_second": 2.505,
-      "step": 1800
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0002,
-      "loss": 1.4665,
-      "step": 1900
-    },
-    {
-      "epoch": 1.38,
-      "eval_loss": 1.4697930812835693,
-      "eval_runtime": 314.584,
-      "eval_samples_per_second": 19.944,
-      "eval_steps_per_second": 2.495,
-      "step": 1900
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0002,
-      "loss": 1.4498,
-      "step": 2000
-    },
-    {
-      "epoch": 1.46,
-      "eval_loss": 1.456108808517456,
-      "eval_runtime": 316.2748,
-      "eval_samples_per_second": 19.837,
-      "eval_steps_per_second": 2.482,
-      "step": 2000
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
-  "total_flos": 1.192408030183342e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.4988901615142822,
+  "best_model_checkpoint": "./outputs/checkpoint-1700",
+  "epoch": 1.238615664845173,
   "eval_steps": 100,
+  "global_step": 1700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.8,
       "learning_rate": 0.0002,
+      "loss": 1.6461,
       "step": 1100
     },
     {
       "epoch": 0.8,
+      "eval_loss": 1.6240431070327759,
+      "eval_runtime": 293.5989,
+      "eval_samples_per_second": 21.369,
+      "eval_steps_per_second": 2.674,
       "step": 1100
     },
     {
       "epoch": 0.87,
       "learning_rate": 0.0002,
+      "loss": 1.5992,
       "step": 1200
     },
     {
       "epoch": 0.87,
+      "eval_loss": 1.5974311828613281,
+      "eval_runtime": 291.7,
+      "eval_samples_per_second": 21.508,
+      "eval_steps_per_second": 2.691,
       "step": 1200
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.0002,
+      "loss": 1.6021,
       "step": 1300
     },
     {
       "epoch": 0.95,
+      "eval_loss": 1.5751127004623413,
+      "eval_runtime": 289.9524,
+      "eval_samples_per_second": 21.638,
+      "eval_steps_per_second": 2.707,
       "step": 1300
     },
     {
       "epoch": 1.02,
       "learning_rate": 0.0002,
+      "loss": 1.5538,
       "step": 1400
     },
     {
       "epoch": 1.02,
+      "eval_loss": 1.5539450645446777,
+      "eval_runtime": 287.8748,
+      "eval_samples_per_second": 21.794,
+      "eval_steps_per_second": 2.727,
       "step": 1400
     },
     {
       "epoch": 1.09,
       "learning_rate": 0.0002,
+      "loss": 1.5249,
       "step": 1500
     },
     {
       "epoch": 1.09,
+      "eval_loss": 1.5348094701766968,
+      "eval_runtime": 287.891,
+      "eval_samples_per_second": 21.793,
+      "eval_steps_per_second": 2.727,
       "step": 1500
     },
     {
       "epoch": 1.17,
       "learning_rate": 0.0002,
+      "loss": 1.506,
       "step": 1600
     },
     {
       "epoch": 1.17,
+      "eval_loss": 1.515953540802002,
+      "eval_runtime": 289.836,
+      "eval_samples_per_second": 21.647,
+      "eval_steps_per_second": 2.708,
       "step": 1600
     },
     {
       "epoch": 1.24,
       "learning_rate": 0.0002,
+      "loss": 1.5042,
       "step": 1700
     },
     {
       "epoch": 1.24,
+      "eval_loss": 1.4988901615142822,
+      "eval_runtime": 291.5471,
+      "eval_samples_per_second": 21.52,
+      "eval_steps_per_second": 2.693,
       "step": 1700
     }
   ],
   "logging_steps": 100,
   "max_steps": 4116,
   "num_train_epochs": 3,
   "save_steps": 100,
+  "total_flos": 1.0135854358789325e+17,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:435ef416a520c327b44f1a335ae059bdb8b9a978d39dfecd5bff01684de2670c
 size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1ab4a714067324690a64db56d021644d50462360424c147b3e9df6b69650fa0
 size 4155