Training in progress, step 66, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/global_step66/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +201 -201
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "k_proj",
-    "gate_proj",
     "o_proj",
-    "v_proj",
-    "up_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "up_proj",
     "down_proj",
     "k_proj",
+    "q_proj",
     "o_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:651204470d974333e74132ca634e50c46cab4f71d2b3bef1ed0dec3eb6aba04d
 size 763470136

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cde4c0dc915fef419c1193ae86c0d6cad089c08b2c9fd319eb8d1cfc01feab3
 size 763470136

last-checkpoint/global_step66/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:856881d6095b0839d3bd7514110d2cdcdc0559f6fc8cb267bc5141b3bb8fb130
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:9840574e09fbed5b59e8b2d691a2786e8f5468f915d6e3b34e6dc4661ae4dae3
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3ec5485157f503118c0e48f554d1f5520735c3097bc76d41a8443b455963ffb
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:eec6a976f669c5c23f4a573acee68f5dc79be13f41ecf84e66b7f38d49858897
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c5675f6c03826d269461d7b487eeb925e2dd98d3705817b40437ec232b0b7a1
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:3655589db9599c3e8670860cdac9edd731baa863f80f3f88344e718ec06abac4
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f588dd44a055da72c47094f640c1b63e398913c5459f8a5ee48af60cb02399e2
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c4db552f94915bba454e5ae77fcad81ea17e80836e32cdf0ea547a32387741e
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24c8a76833729b7e642158d26cd8ecc63eb5c89c0149c1072a38619d99b3ad10
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a8a1e6366f9dfae16c9009c6f3b42a191a4af102cbf8d75bb73e1d4fe3c91ea
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53431f389a44260329ba5449b3c3cdd854a928d7cffcabb54e25b959e1ed251e
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:821ae30ad41e9d9810083e01b5731bcffd77ea75d52c583dea3c1a2d1b975025
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ad56bb2d798741728bf4f2e6df097e85c333f37686dd375d9f8ef96f29a457d
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:23d2c20a129743b3a6fd6428968e3af4b9fdcbaf2e8a84ee3c622133af982fee
 size 289064656

last-checkpoint/global_step66/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cde8be6f46a02f5fa7d6a09a30b5cc4236445fcb495af50fd87624b38a4d7b4
 size 289064656

 version https://git-lfs.github.com/spec/v1
+oid sha256:fac5a84153eac1748035cfa3327dcb6140f616f9be68bb6b50dae39c6a4fae53
 size 289064656

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e9ce871037e8d378408842390a351a4bb8856d71d37389bd1055187b26f84d4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6530e0522c975674706d8073e33fa508580e6b794aaf4f3e6111389796f319e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,479 +10,479 @@
   "log_history": [
     {
       "epoch": 0.003067484662576687,
-      "grad_norm": 0.9516617278813834,
-      "learning_rate": 1.25e-05,
       "loss": 1.9557,
       "step": 1
     },
     {
       "epoch": 0.003067484662576687,
       "eval_loss": 2.6437082290649414,
-      "eval_runtime": 55.5495,
-      "eval_samples_per_second": 1.8,
       "eval_steps_per_second": 0.126,
       "step": 1
     },
     {
       "epoch": 0.006134969325153374,
-      "grad_norm": 0.515521728634264,
-      "learning_rate": 2.5e-05,
       "loss": 1.9268,
       "step": 2
     },
     {
       "epoch": 0.009202453987730062,
-      "grad_norm": 1.0602168628533477,
-      "learning_rate": 3.75e-05,
-      "loss": 1.9644,
       "step": 3
     },
     {
       "epoch": 0.012269938650306749,
-      "grad_norm": 0.5232804296238467,
-      "learning_rate": 5e-05,
-      "loss": 1.9174,
       "step": 4
     },
     {
       "epoch": 0.015337423312883436,
-      "grad_norm": 0.6049728735982117,
-      "learning_rate": 6.25e-05,
-      "loss": 1.9183,
       "step": 5
     },
     {
       "epoch": 0.018404907975460124,
-      "grad_norm": 0.44617735370287787,
-      "learning_rate": 7.5e-05,
-      "loss": 1.9016,
       "step": 6
     },
     {
       "epoch": 0.02147239263803681,
-      "grad_norm": 0.5041842596415366,
-      "learning_rate": 8.75e-05,
-      "loss": 1.9706,
       "step": 7
     },
     {
       "epoch": 0.024539877300613498,
-      "grad_norm": 0.5697227180606876,
-      "learning_rate": 0.0001,
-      "loss": 1.9105,
       "step": 8
     },
     {
       "epoch": 0.027607361963190184,
-      "grad_norm": 0.3797683389810269,
-      "learning_rate": 0.00011250000000000001,
-      "loss": 1.9351,
       "step": 9
     },
     {
       "epoch": 0.03067484662576687,
-      "grad_norm": 0.3464113535012369,
-      "learning_rate": 0.000125,
-      "loss": 1.9347,
       "step": 10
     },
     {
       "epoch": 0.03374233128834356,
-      "grad_norm": 1.038453745480312,
-      "learning_rate": 0.0001375,
-      "loss": 1.9008,
       "step": 11
     },
     {
       "epoch": 0.03680981595092025,
-      "grad_norm": 0.5222824963828644,
-      "learning_rate": 0.00015,
-      "loss": 1.9251,
       "step": 12
     },
     {
       "epoch": 0.03987730061349693,
-      "grad_norm": 0.5129473208257509,
-      "learning_rate": 0.00016250000000000002,
-      "loss": 1.8613,
       "step": 13
     },
     {
       "epoch": 0.04294478527607362,
-      "grad_norm": 0.7292233670769845,
-      "learning_rate": 0.000175,
-      "loss": 1.9507,
       "step": 14
     },
     {
       "epoch": 0.046012269938650305,
-      "grad_norm": 0.6360368446619434,
-      "learning_rate": 0.0001875,
-      "loss": 1.9512,
       "step": 15
     },
     {
       "epoch": 0.049079754601226995,
-      "grad_norm": 0.48214017101050627,
-      "learning_rate": 0.0002,
-      "loss": 1.961,
       "step": 16
     },
     {
       "epoch": 0.05214723926380368,
-      "grad_norm": 0.4394229337647846,
-      "learning_rate": 0.0002125,
-      "loss": 1.9704,
       "step": 17
     },
     {
       "epoch": 0.05521472392638037,
-      "grad_norm": 0.3796994442046945,
-      "learning_rate": 0.00022500000000000002,
-      "loss": 1.8925,
       "step": 18
     },
     {
       "epoch": 0.05828220858895705,
-      "grad_norm": 0.3188673935343497,
-      "learning_rate": 0.0002375,
-      "loss": 1.969,
       "step": 19
     },
     {
       "epoch": 0.06134969325153374,
-      "grad_norm": 0.9883905241335006,
-      "learning_rate": 0.00025,
-      "loss": 1.9734,
       "step": 20
     },
     {
       "epoch": 0.06441717791411043,
-      "grad_norm": 0.42956410678121015,
-      "learning_rate": 0.000249994071079807,
-      "loss": 1.9632,
       "step": 21
     },
     {
       "epoch": 0.06748466257668712,
-      "grad_norm": 0.5580696830715027,
-      "learning_rate": 0.00024997628494415405,
-      "loss": 1.8911,
       "step": 22
     },
     {
       "epoch": 0.0705521472392638,
-      "grad_norm": 0.4247455273508192,
-      "learning_rate": 0.00024994664346775366,
-      "loss": 1.9549,
       "step": 23
     },
     {
       "epoch": 0.0736196319018405,
-      "grad_norm": 0.5638089571797716,
-      "learning_rate": 0.0002499051497749072,
-      "loss": 1.8903,
       "step": 24
     },
     {
       "epoch": 0.07668711656441718,
-      "grad_norm": 0.3337856270380794,
-      "learning_rate": 0.00024985180823917534,
-      "loss": 1.9817,
       "step": 25
     },
     {
       "epoch": 0.07975460122699386,
-      "grad_norm": 0.5964071002925826,
-      "learning_rate": 0.00024978662448291747,
-      "loss": 2.0113,
       "step": 26
     },
     {
       "epoch": 0.08282208588957055,
-      "grad_norm": 1.3108802906417165,
-      "learning_rate": 0.0002497096053766986,
-      "loss": 1.9136,
       "step": 27
     },
     {
       "epoch": 0.08588957055214724,
-      "grad_norm": 1.9953168113527813,
-      "learning_rate": 0.0002496207590385656,
-      "loss": 2.0042,
       "step": 28
     },
     {
       "epoch": 0.08895705521472393,
-      "grad_norm": 4.7288777305801615,
-      "learning_rate": 0.00024952009483319136,
-      "loss": 2.0138,
       "step": 29
     },
     {
       "epoch": 0.09202453987730061,
-      "grad_norm": 0.9466987524434748,
-      "learning_rate": 0.0002494076233708877,
-      "loss": 2.027,
       "step": 30
     },
     {
       "epoch": 0.0950920245398773,
-      "grad_norm": 0.5335701207102423,
-      "learning_rate": 0.000249283356506487,
-      "loss": 1.9497,
       "step": 31
     },
     {
       "epoch": 0.09815950920245399,
-      "grad_norm": 0.4530090911036831,
-      "learning_rate": 0.0002491473073380928,
-      "loss": 1.8991,
       "step": 32
     },
     {
       "epoch": 0.10122699386503067,
-      "grad_norm": 0.43545874771481075,
-      "learning_rate": 0.000248999490205699,
-      "loss": 2.0384,
       "step": 33
     },
     {
       "epoch": 0.10429447852760736,
-      "grad_norm": 3.1727083160562874,
-      "learning_rate": 0.00024883992068967873,
-      "loss": 1.9743,
       "step": 34
     },
     {
       "epoch": 0.10736196319018405,
-      "grad_norm": 5.481030996815809,
-      "learning_rate": 0.0002486686156091417,
-      "loss": 2.0054,
       "step": 35
     },
     {
       "epoch": 0.11042944785276074,
-      "grad_norm": 9.756683051815624,
-      "learning_rate": 0.0002484855930201617,
-      "loss": 1.9805,
       "step": 36
     },
     {
       "epoch": 0.11349693251533742,
-      "grad_norm": 0.5694221348977583,
-      "learning_rate": 0.0002482908722138734,
-      "loss": 1.9495,
       "step": 37
     },
     {
       "epoch": 0.1165644171779141,
-      "grad_norm": 0.4781718005749317,
-      "learning_rate": 0.00024808447371443896,
-      "loss": 2.0154,
       "step": 38
     },
     {
       "epoch": 0.1196319018404908,
-      "grad_norm": 2.070517297643313,
-      "learning_rate": 0.00024786641927688466,
-      "loss": 1.9294,
       "step": 39
     },
     {
       "epoch": 0.12269938650306748,
-      "grad_norm": 0.4269552409103539,
-      "learning_rate": 0.000247636731884808,
-      "loss": 1.9768,
       "step": 40
     },
     {
       "epoch": 0.12576687116564417,
-      "grad_norm": 0.39633691656297887,
-      "learning_rate": 0.0002473954357479551,
-      "loss": 1.9978,
       "step": 41
     },
     {
       "epoch": 0.12883435582822086,
-      "grad_norm": 0.5628682021190763,
-      "learning_rate": 0.0002471425562996688,
-      "loss": 1.9877,
       "step": 42
     },
     {
       "epoch": 0.13190184049079753,
-      "grad_norm": 0.4235604267637786,
-      "learning_rate": 0.00024687812019420806,
-      "loss": 1.9601,
       "step": 43
     },
     {
       "epoch": 0.13496932515337423,
-      "grad_norm": 1.955262598542115,
-      "learning_rate": 0.0002466021553039386,
-      "loss": 1.9665,
       "step": 44
     },
     {
       "epoch": 0.13803680981595093,
-      "grad_norm": 0.5343967332691423,
-      "learning_rate": 0.0002463146907163947,
-      "loss": 1.9132,
       "step": 45
     },
     {
       "epoch": 0.1411042944785276,
-      "grad_norm": 0.35886735373161066,
-      "learning_rate": 0.0002460157567312137,
-      "loss": 1.9353,
       "step": 46
     },
     {
       "epoch": 0.1441717791411043,
-      "grad_norm": 0.49035062436723287,
-      "learning_rate": 0.00024570538485694214,
-      "loss": 1.9721,
       "step": 47
     },
     {
       "epoch": 0.147239263803681,
-      "grad_norm": 0.3404214165006091,
-      "learning_rate": 0.00024538360780771465,
-      "loss": 1.9382,
       "step": 48
     },
     {
       "epoch": 0.15030674846625766,
-      "grad_norm": 0.5345047082277987,
-      "learning_rate": 0.00024505045949980574,
-      "loss": 1.9566,
       "step": 49
     },
     {
       "epoch": 0.15337423312883436,
-      "grad_norm": 0.33138829718017737,
-      "learning_rate": 0.00024470597504805516,
-      "loss": 1.9025,
       "step": 50
     },
     {
       "epoch": 0.15644171779141106,
-      "grad_norm": 0.3960289244574568,
-      "learning_rate": 0.00024435019076216627,
-      "loss": 1.9338,
       "step": 51
     },
     {
       "epoch": 0.15950920245398773,
-      "grad_norm": 0.44538606572029693,
-      "learning_rate": 0.00024398314414287938,
-      "loss": 1.9495,
       "step": 52
     },
     {
       "epoch": 0.16257668711656442,
-      "grad_norm": 0.38091673390175385,
-      "learning_rate": 0.00024360487387801872,
-      "loss": 1.9579,
       "step": 53
     },
     {
       "epoch": 0.1656441717791411,
-      "grad_norm": 0.3786713587133258,
-      "learning_rate": 0.00024321541983841468,
-      "loss": 1.9606,
       "step": 54
     },
     {
       "epoch": 0.1687116564417178,
-      "grad_norm": 0.34787683708853046,
-      "learning_rate": 0.00024281482307370142,
-      "loss": 1.9642,
       "step": 55
     },
     {
       "epoch": 0.17177914110429449,
-      "grad_norm": 0.7739678290668914,
-      "learning_rate": 0.00024240312580799,
-      "loss": 1.9082,
       "step": 56
     },
     {
       "epoch": 0.17484662576687116,
-      "grad_norm": 0.8090200041147584,
-      "learning_rate": 0.00024198037143541792,
-      "loss": 1.9458,
       "step": 57
     },
     {
       "epoch": 0.17791411042944785,
-      "grad_norm": 0.38965067919011226,
-      "learning_rate": 0.00024154660451557508,
-      "loss": 1.9724,
       "step": 58
     },
     {
       "epoch": 0.18098159509202455,
-      "grad_norm": 0.525233423512868,
-      "learning_rate": 0.0002411018707688073,
-      "loss": 1.9726,
       "step": 59
     },
     {
       "epoch": 0.18404907975460122,
-      "grad_norm": 0.6309847144158074,
-      "learning_rate": 0.00024064621707139708,
-      "loss": 1.8999,
       "step": 60
     },
     {
       "epoch": 0.18711656441717792,
-      "grad_norm": 0.8241404186554419,
-      "learning_rate": 0.00024017969145062278,
-      "loss": 1.927,
       "step": 61
     },
     {
       "epoch": 0.1901840490797546,
-      "grad_norm": 0.3936537378135966,
-      "learning_rate": 0.0002397023430796964,
-      "loss": 1.9457,
       "step": 62
     },
     {
       "epoch": 0.19325153374233128,
-      "grad_norm": 0.5030215425538933,
-      "learning_rate": 0.0002392142222725805,
-      "loss": 1.9413,
       "step": 63
     },
     {
       "epoch": 0.19631901840490798,
-      "grad_norm": 0.82199867849235,
-      "learning_rate": 0.00023871538047868512,
-      "loss": 1.8935,
       "step": 64
     },
     {
       "epoch": 0.19938650306748465,
-      "grad_norm": 0.36522090025587745,
-      "learning_rate": 0.00023820587027744452,
-      "loss": 1.8778,
       "step": 65
     },
     {
       "epoch": 0.20245398773006135,
-      "grad_norm": 0.44631812034158336,
-      "learning_rate": 0.00023768574537277558,
-      "loss": 1.8862,
       "step": 66
     },
     {
       "epoch": 0.20245398773006135,
-      "eval_loss": 2.6580638885498047,
-      "eval_runtime": 55.7526,
-      "eval_samples_per_second": 1.794,
       "eval_steps_per_second": 0.126,
       "step": 66
     }

   "log_history": [
     {
       "epoch": 0.003067484662576687,
+      "grad_norm": 1.0254060683433053,
+      "learning_rate": 5e-06,
       "loss": 1.9557,
       "step": 1
     },
     {
       "epoch": 0.003067484662576687,
       "eval_loss": 2.6437082290649414,
+      "eval_runtime": 55.4152,
+      "eval_samples_per_second": 1.805,
       "eval_steps_per_second": 0.126,
       "step": 1
     },
     {
       "epoch": 0.006134969325153374,
+      "grad_norm": 0.5293660177597584,
+      "learning_rate": 1e-05,
       "loss": 1.9268,
       "step": 2
     },
     {
       "epoch": 0.009202453987730062,
+      "grad_norm": 0.6031237810490027,
+      "learning_rate": 1.5e-05,
+      "loss": 1.9666,
       "step": 3
     },
     {
       "epoch": 0.012269938650306749,
+      "grad_norm": 0.5216691776821837,
+      "learning_rate": 2e-05,
+      "loss": 1.9176,
       "step": 4
     },
     {
       "epoch": 0.015337423312883436,
+      "grad_norm": 0.45736012052053565,
+      "learning_rate": 2.5e-05,
+      "loss": 1.9172,
       "step": 5
     },
     {
       "epoch": 0.018404907975460124,
+      "grad_norm": 0.4721331330094363,
+      "learning_rate": 3e-05,
+      "loss": 1.9038,
       "step": 6
     },
     {
       "epoch": 0.02147239263803681,
+      "grad_norm": 0.4699970169077475,
+      "learning_rate": 3.5e-05,
+      "loss": 1.972,
       "step": 7
     },
     {
       "epoch": 0.024539877300613498,
+      "grad_norm": 0.5998147513619175,
+      "learning_rate": 4e-05,
+      "loss": 1.9115,
       "step": 8
     },
     {
       "epoch": 0.027607361963190184,
+      "grad_norm": 0.39982194363235835,
+      "learning_rate": 4.5e-05,
+      "loss": 1.9362,
       "step": 9
     },
     {
       "epoch": 0.03067484662576687,
+      "grad_norm": 0.41316001445589784,
+      "learning_rate": 5e-05,
+      "loss": 1.9367,
       "step": 10
     },
     {
       "epoch": 0.03374233128834356,
+      "grad_norm": 1.978145485337434,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 1.9018,
       "step": 11
     },
     {
       "epoch": 0.03680981595092025,
+      "grad_norm": 0.5763394527514556,
+      "learning_rate": 6e-05,
+      "loss": 1.9239,
       "step": 12
     },
     {
       "epoch": 0.03987730061349693,
+      "grad_norm": 0.6656094180752898,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 1.8601,
       "step": 13
     },
     {
       "epoch": 0.04294478527607362,
+      "grad_norm": 0.3779888950718134,
+      "learning_rate": 7e-05,
+      "loss": 1.9467,
       "step": 14
     },
     {
       "epoch": 0.046012269938650305,
+      "grad_norm": 0.4210293643738542,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.9491,
       "step": 15
     },
     {
       "epoch": 0.049079754601226995,
+      "grad_norm": 0.284470526924256,
+      "learning_rate": 8e-05,
+      "loss": 1.96,
       "step": 16
     },
     {
       "epoch": 0.05214723926380368,
+      "grad_norm": 0.4511944107373649,
+      "learning_rate": 8.5e-05,
+      "loss": 1.9688,
       "step": 17
     },
     {
       "epoch": 0.05521472392638037,
+      "grad_norm": 0.5213533339486691,
+      "learning_rate": 9e-05,
+      "loss": 1.8883,
       "step": 18
     },
     {
       "epoch": 0.05828220858895705,
+      "grad_norm": 0.3529095514608687,
+      "learning_rate": 9.5e-05,
+      "loss": 1.9652,
       "step": 19
     },
     {
       "epoch": 0.06134969325153374,
+      "grad_norm": 0.37388599933304034,
+      "learning_rate": 0.0001,
+      "loss": 1.9701,
       "step": 20
     },
     {
       "epoch": 0.06441717791411043,
+      "grad_norm": 0.6715118705762056,
+      "learning_rate": 9.999762843192279e-05,
+      "loss": 1.9591,
       "step": 21
     },
     {
       "epoch": 0.06748466257668712,
+      "grad_norm": 0.3339477252516958,
+      "learning_rate": 9.999051397766162e-05,
+      "loss": 1.8851,
       "step": 22
     },
     {
       "epoch": 0.0705521472392638,
+      "grad_norm": 0.38292464677189253,
+      "learning_rate": 9.997865738710147e-05,
+      "loss": 1.9505,
       "step": 23
     },
     {
       "epoch": 0.0736196319018405,
+      "grad_norm": 0.46332198422774334,
+      "learning_rate": 9.996205990996288e-05,
+      "loss": 1.8819,
       "step": 24
     },
     {
       "epoch": 0.07668711656441718,
+      "grad_norm": 0.32033971816842144,
+      "learning_rate": 9.994072329567015e-05,
+      "loss": 1.9778,
       "step": 25
     },
     {
       "epoch": 0.07975460122699386,
+      "grad_norm": 0.32764211011622874,
+      "learning_rate": 9.991464979316699e-05,
+      "loss": 2.0035,
       "step": 26
     },
     {
       "epoch": 0.08282208588957055,
+      "grad_norm": 0.35749570152374016,
+      "learning_rate": 9.988384215067945e-05,
+      "loss": 1.897,
       "step": 27
     },
     {
       "epoch": 0.08588957055214724,
+      "grad_norm": 0.47517571287279864,
+      "learning_rate": 9.984830361542625e-05,
+      "loss": 1.9916,
       "step": 28
     },
     {
       "epoch": 0.08895705521472393,
+      "grad_norm": 0.37844919890358947,
+      "learning_rate": 9.980803793327656e-05,
+      "loss": 1.9787,
       "step": 29
     },
     {
       "epoch": 0.09202453987730061,
+      "grad_norm": 0.3392783686369942,
+      "learning_rate": 9.976304934835509e-05,
+      "loss": 1.9915,
       "step": 30
     },
     {
       "epoch": 0.0950920245398773,
+      "grad_norm": 0.3672803421436023,
+      "learning_rate": 9.97133426025948e-05,
+      "loss": 1.9237,
       "step": 31
     },
     {
       "epoch": 0.09815950920245399,
+      "grad_norm": 0.3717328207326788,
+      "learning_rate": 9.965892293523712e-05,
+      "loss": 1.8755,
       "step": 32
     },
     {
       "epoch": 0.10122699386503067,
+      "grad_norm": 0.41380648649234975,
+      "learning_rate": 9.959979608227961e-05,
+      "loss": 2.021,
       "step": 33
     },
     {
       "epoch": 0.10429447852760736,
+      "grad_norm": 1.0263652968268477,
+      "learning_rate": 9.95359682758715e-05,
+      "loss": 1.9528,
       "step": 34
     },
     {
       "epoch": 0.10736196319018405,
+      "grad_norm": 0.9592485389518621,
+      "learning_rate": 9.946744624365668e-05,
+      "loss": 1.9055,
       "step": 35
     },
     {
       "epoch": 0.11042944785276074,
+      "grad_norm": 0.43725271995243464,
+      "learning_rate": 9.939423720806468e-05,
+      "loss": 1.9306,
       "step": 36
     },
     {
       "epoch": 0.11349693251533742,
+      "grad_norm": 0.3175345165915247,
+      "learning_rate": 9.931634888554937e-05,
+      "loss": 1.9159,
       "step": 37
     },
     {
       "epoch": 0.1165644171779141,
+      "grad_norm": 0.4731845530714391,
+      "learning_rate": 9.923378948577559e-05,
+      "loss": 1.993,
       "step": 38
     },
     {
       "epoch": 0.1196319018404908,
+      "grad_norm": 0.3274613986874974,
+      "learning_rate": 9.914656771075387e-05,
+      "loss": 1.8971,
       "step": 39
     },
     {
       "epoch": 0.12269938650306748,
+      "grad_norm": 0.4175774555118117,
+      "learning_rate": 9.90546927539232e-05,
+      "loss": 1.9529,
       "step": 40
     },
     {
       "epoch": 0.12576687116564417,
+      "grad_norm": 0.4723214170983414,
+      "learning_rate": 9.895817429918203e-05,
+      "loss": 1.9775,
       "step": 41
     },
     {
       "epoch": 0.12883435582822086,
+      "grad_norm": 0.5517874328207245,
+      "learning_rate": 9.885702251986753e-05,
+      "loss": 1.9704,
       "step": 42
     },
     {
       "epoch": 0.13190184049079753,
+      "grad_norm": 0.7112812651734346,
+      "learning_rate": 9.875124807768324e-05,
+      "loss": 1.9396,
       "step": 43
     },
     {
       "epoch": 0.13496932515337423,
+      "grad_norm": 0.4122128687502141,
+      "learning_rate": 9.864086212157544e-05,
+      "loss": 1.9495,
       "step": 44
     },
     {
       "epoch": 0.13803680981595093,
+      "grad_norm": 0.33784719392668305,
+      "learning_rate": 9.852587628655787e-05,
+      "loss": 1.8904,
       "step": 45
     },
     {
       "epoch": 0.1411042944785276,
+      "grad_norm": 0.281184642101553,
+      "learning_rate": 9.840630269248549e-05,
+      "loss": 1.9156,
       "step": 46
     },
     {
       "epoch": 0.1441717791411043,
+      "grad_norm": 0.7601259994555819,
+      "learning_rate": 9.828215394277687e-05,
+      "loss": 1.9516,
       "step": 47
     },
     {
       "epoch": 0.147239263803681,
+      "grad_norm": 0.36449789385058556,
+      "learning_rate": 9.815344312308587e-05,
+      "loss": 1.9182,
       "step": 48
     },
     {
       "epoch": 0.15030674846625766,
+      "grad_norm": 0.32613788602651017,
+      "learning_rate": 9.80201837999223e-05,
+      "loss": 1.9367,
       "step": 49
     },
     {
       "epoch": 0.15337423312883436,
+      "grad_norm": 0.4437625986967123,
+      "learning_rate": 9.788239001922206e-05,
+      "loss": 1.8838,
       "step": 50
     },
     {
       "epoch": 0.15644171779141106,
+      "grad_norm": 0.7368917728925937,
+      "learning_rate": 9.774007630486651e-05,
+      "loss": 1.9125,
       "step": 51
     },
     {
       "epoch": 0.15950920245398773,
+      "grad_norm": 0.43661779665549927,
+      "learning_rate": 9.759325765715176e-05,
+      "loss": 1.9309,
       "step": 52
     },
     {
       "epoch": 0.16257668711656442,
+      "grad_norm": 0.27925292993087114,
+      "learning_rate": 9.744194955120748e-05,
+      "loss": 1.9374,
       "step": 53
     },
     {
       "epoch": 0.1656441717791411,
+      "grad_norm": 0.46390992287233235,
+      "learning_rate": 9.728616793536588e-05,
+      "loss": 1.9425,
       "step": 54
     },
     {
       "epoch": 0.1687116564417178,
+      "grad_norm": 0.2514992126441497,
+      "learning_rate": 9.712592922948057e-05,
+      "loss": 1.9482,
       "step": 55
     },
     {
       "epoch": 0.17177914110429449,
+      "grad_norm": 0.2703640459793386,
+      "learning_rate": 9.6961250323196e-05,
+      "loss": 1.8895,
       "step": 56
     },
     {
       "epoch": 0.17484662576687116,
+      "grad_norm": 0.561176184389631,
+      "learning_rate": 9.679214857416717e-05,
+      "loss": 1.928,
       "step": 57
     },
     {
       "epoch": 0.17791411042944785,
+      "grad_norm": 0.29671160399395613,
+      "learning_rate": 9.661864180623003e-05,
+      "loss": 1.9542,
       "step": 58
     },
     {
       "epoch": 0.18098159509202455,
+      "grad_norm": 0.28259623949277235,
+      "learning_rate": 9.644074830752293e-05,
+      "loss": 1.9519,
       "step": 59
     },
     {
       "epoch": 0.18404907975460122,
+      "grad_norm": 0.32102511884381013,
+      "learning_rate": 9.625848682855884e-05,
+      "loss": 1.8776,
       "step": 60
     },
     {
       "epoch": 0.18711656441717792,
+      "grad_norm": 1.6811025479349568,
+      "learning_rate": 9.607187658024912e-05,
+      "loss": 1.9016,
       "step": 61
     },
     {
       "epoch": 0.1901840490797546,
+      "grad_norm": 0.2951789033160566,
+      "learning_rate": 9.588093723187857e-05,
+      "loss": 1.9204,
       "step": 62
     },
     {
       "epoch": 0.19325153374233128,
+      "grad_norm": 0.35508359779387055,
+      "learning_rate": 9.568568890903221e-05,
+      "loss": 1.9144,
       "step": 63
     },
     {
       "epoch": 0.19631901840490798,
+      "grad_norm": 0.3620090919465414,
+      "learning_rate": 9.548615219147405e-05,
+      "loss": 1.8699,
       "step": 64
     },
     {
       "epoch": 0.19938650306748465,
+      "grad_norm": 0.3475528667692185,
+      "learning_rate": 9.528234811097782e-05,
+      "loss": 1.855,
       "step": 65
     },
     {
       "epoch": 0.20245398773006135,
+      "grad_norm": 0.2922421805064443,
+      "learning_rate": 9.507429814911024e-05,
+      "loss": 1.8648,
       "step": 66
     },
     {
       "epoch": 0.20245398773006135,
+      "eval_loss": 2.6012535095214844,
+      "eval_runtime": 55.5905,
+      "eval_samples_per_second": 1.799,
       "eval_steps_per_second": 0.126,
       "step": 66
     }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46d6cb0eb1e7ca6e84cff1f8ec963246766ca8b78e905f9a2825914974167129
 size 8120

 version https://git-lfs.github.com/spec/v1
+oid sha256:05b2ca02ad4e9caf3f4e3a14715869eddab19db1759edf6925cc0fa1214003d8
 size 8120