Upload fine-tuned Llama model for order analysis

Browse files

Files changed (7) hide show

README.md +1 -1
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
trainer_state.json +140 -140
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -199,4 +199,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 [More Information Needed]
 ### Framework versions
-- PEFT 0.12.0

 [More Information Needed]
 ### Framework versions
+- PEFT 0.13.2

adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "q_proj",
     "o_proj",
-    "down_proj",
-    "up_proj",
     "v_proj",
-    "gate_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
     "q_proj",
     "o_proj",
     "v_proj",
+    "up_proj",
+    "k_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f387711e63c8ab74a59664fd7c1a08083964c4f023e8f9c181ad0376b5caf698
 size 22573704

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fd16f2186e694fe6230262c312e61c10a3d7f9e03f38474b129ae0681d1da30
 size 22573704

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e545c92e8a29e73b2a708438df82a773c90ac81fb95e3d77084344d71129ce4c
 size 45276986

 version https://git-lfs.github.com/spec/v1
+oid sha256:efdb0ee0bd918e11c0e37a9a99a18cbed253d9301bb54c58dcf8b9443eb5bd63
 size 45276986

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:134bd3caf7fa7a05a76100cdc2365343eb2f59dc0c82afde6756800f9549f1f9
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9182312abdf3f5166a5d65d247c9bb66837869cb2d0f153f14a68891be22ee4
 size 14244

trainer_state.json CHANGED Viewed

@@ -10,492 +10,492 @@
   "log_history": [
     {
       "epoch": 0.014285714285714285,
-      "grad_norm": 2.279883623123169,
       "learning_rate": 1.4285714285714285e-05,
-      "loss": 2.5982,
       "step": 20
     },
     {
       "epoch": 0.02857142857142857,
-      "grad_norm": 1.5012547969818115,
       "learning_rate": 2.857142857142857e-05,
-      "loss": 2.3142,
       "step": 40
     },
     {
       "epoch": 0.04285714285714286,
-      "grad_norm": 1.7552474737167358,
       "learning_rate": 4.2857142857142856e-05,
-      "loss": 1.7833,
       "step": 60
     },
     {
       "epoch": 0.05714285714285714,
-      "grad_norm": 1.8790605068206787,
       "learning_rate": 5.714285714285714e-05,
-      "loss": 1.2697,
       "step": 80
     },
     {
       "epoch": 0.07142857142857142,
-      "grad_norm": 1.6815859079360962,
       "learning_rate": 7.142857142857143e-05,
-      "loss": 1.049,
       "step": 100
     },
     {
       "epoch": 0.08571428571428572,
-      "grad_norm": 1.561714768409729,
       "learning_rate": 8.571428571428571e-05,
-      "loss": 0.9491,
       "step": 120
     },
     {
       "epoch": 0.1,
-      "grad_norm": 1.4625489711761475,
       "learning_rate": 0.0001,
-      "loss": 0.8847,
       "step": 140
     },
     {
       "epoch": 0.11428571428571428,
-      "grad_norm": 2.1226258277893066,
       "learning_rate": 9.841269841269841e-05,
-      "loss": 0.8167,
       "step": 160
     },
     {
       "epoch": 0.12857142857142856,
-      "grad_norm": 1.3709640502929688,
       "learning_rate": 9.682539682539682e-05,
-      "loss": 0.7321,
       "step": 180
     },
     {
       "epoch": 0.14285714285714285,
-      "grad_norm": 1.2312499284744263,
       "learning_rate": 9.523809523809524e-05,
-      "loss": 0.693,
       "step": 200
     },
     {
       "epoch": 0.15714285714285714,
-      "grad_norm": 1.4416557550430298,
       "learning_rate": 9.365079365079366e-05,
-      "loss": 0.6389,
       "step": 220
     },
     {
       "epoch": 0.17142857142857143,
-      "grad_norm": 1.7498096227645874,
       "learning_rate": 9.206349206349206e-05,
-      "loss": 0.6421,
       "step": 240
     },
     {
       "epoch": 0.18571428571428572,
-      "grad_norm": 1.6708226203918457,
       "learning_rate": 9.047619047619048e-05,
-      "loss": 0.6309,
       "step": 260
     },
     {
       "epoch": 0.2,
-      "grad_norm": 1.7032530307769775,
       "learning_rate": 8.888888888888889e-05,
-      "loss": 0.6388,
       "step": 280
     },
     {
       "epoch": 0.21428571428571427,
-      "grad_norm": 1.1614326238632202,
       "learning_rate": 8.730158730158731e-05,
-      "loss": 0.5888,
       "step": 300
     },
     {
       "epoch": 0.22857142857142856,
-      "grad_norm": 1.7418193817138672,
       "learning_rate": 8.571428571428571e-05,
-      "loss": 0.5878,
       "step": 320
     },
     {
       "epoch": 0.24285714285714285,
-      "grad_norm": 1.3387174606323242,
       "learning_rate": 8.412698412698413e-05,
-      "loss": 0.5962,
       "step": 340
     },
     {
       "epoch": 0.2571428571428571,
-      "grad_norm": 1.1994811296463013,
       "learning_rate": 8.253968253968255e-05,
-      "loss": 0.6093,
       "step": 360
     },
     {
       "epoch": 0.2714285714285714,
-      "grad_norm": 1.5204330682754517,
       "learning_rate": 8.095238095238096e-05,
-      "loss": 0.6045,
       "step": 380
     },
     {
       "epoch": 0.2857142857142857,
-      "grad_norm": 1.2687711715698242,
       "learning_rate": 7.936507936507937e-05,
-      "loss": 0.5934,
       "step": 400
     },
     {
       "epoch": 0.3,
-      "grad_norm": 1.4332380294799805,
       "learning_rate": 7.777777777777778e-05,
-      "loss": 0.5883,
       "step": 420
     },
     {
       "epoch": 0.3142857142857143,
-      "grad_norm": 1.5756443738937378,
       "learning_rate": 7.619047619047618e-05,
-      "loss": 0.5605,
       "step": 440
     },
     {
       "epoch": 0.32857142857142857,
-      "grad_norm": 1.405213713645935,
       "learning_rate": 7.460317460317461e-05,
-      "loss": 0.5993,
       "step": 460
     },
     {
       "epoch": 0.34285714285714286,
-      "grad_norm": 1.480230450630188,
       "learning_rate": 7.301587301587302e-05,
-      "loss": 0.5896,
       "step": 480
     },
     {
       "epoch": 0.35714285714285715,
-      "grad_norm": 1.472406029701233,
       "learning_rate": 7.142857142857143e-05,
-      "loss": 0.5661,
       "step": 500
     },
     {
       "epoch": 0.37142857142857144,
-      "grad_norm": 1.408607006072998,
       "learning_rate": 6.984126984126984e-05,
-      "loss": 0.545,
       "step": 520
     },
     {
       "epoch": 0.38571428571428573,
-      "grad_norm": 1.3194152116775513,
       "learning_rate": 6.825396825396825e-05,
-      "loss": 0.5366,
       "step": 540
     },
     {
       "epoch": 0.4,
-      "grad_norm": 1.5078984498977661,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 0.5236,
       "step": 560
     },
     {
       "epoch": 0.4142857142857143,
-      "grad_norm": 1.3387917280197144,
       "learning_rate": 6.507936507936509e-05,
-      "loss": 0.5545,
       "step": 580
     },
     {
       "epoch": 0.42857142857142855,
-      "grad_norm": 1.1835085153579712,
       "learning_rate": 6.349206349206349e-05,
-      "loss": 0.563,
       "step": 600
     },
     {
       "epoch": 0.44285714285714284,
-      "grad_norm": 1.424862027168274,
       "learning_rate": 6.19047619047619e-05,
-      "loss": 0.5369,
       "step": 620
     },
     {
       "epoch": 0.45714285714285713,
-      "grad_norm": 1.3369919061660767,
       "learning_rate": 6.0317460317460316e-05,
-      "loss": 0.576,
       "step": 640
     },
     {
       "epoch": 0.4714285714285714,
-      "grad_norm": 1.2523393630981445,
       "learning_rate": 5.873015873015873e-05,
-      "loss": 0.5245,
       "step": 660
     },
     {
       "epoch": 0.4857142857142857,
-      "grad_norm": 1.6725609302520752,
       "learning_rate": 5.714285714285714e-05,
-      "loss": 0.5047,
       "step": 680
     },
     {
       "epoch": 0.5,
-      "grad_norm": 1.3288273811340332,
       "learning_rate": 5.555555555555556e-05,
-      "loss": 0.5396,
       "step": 700
     },
     {
       "epoch": 0.5142857142857142,
-      "grad_norm": 1.492069125175476,
       "learning_rate": 5.396825396825397e-05,
-      "loss": 0.5099,
       "step": 720
     },
     {
       "epoch": 0.5285714285714286,
-      "grad_norm": 1.508617639541626,
       "learning_rate": 5.2380952380952384e-05,
-      "loss": 0.503,
       "step": 740
     },
     {
       "epoch": 0.5428571428571428,
-      "grad_norm": 1.6115648746490479,
       "learning_rate": 5.0793650793650794e-05,
-      "loss": 0.5571,
       "step": 760
     },
     {
       "epoch": 0.5571428571428572,
-      "grad_norm": 1.4812785387039185,
       "learning_rate": 4.9206349206349204e-05,
-      "loss": 0.5036,
       "step": 780
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 1.555457353591919,
       "learning_rate": 4.761904761904762e-05,
-      "loss": 0.518,
       "step": 800
     },
     {
       "epoch": 0.5857142857142857,
-      "grad_norm": 1.6743320226669312,
       "learning_rate": 4.603174603174603e-05,
-      "loss": 0.523,
       "step": 820
     },
     {
       "epoch": 0.6,
-      "grad_norm": 1.6365365982055664,
       "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.5112,
       "step": 840
     },
     {
       "epoch": 0.6142857142857143,
-      "grad_norm": 1.4804445505142212,
       "learning_rate": 4.2857142857142856e-05,
-      "loss": 0.5177,
       "step": 860
     },
     {
       "epoch": 0.6285714285714286,
-      "grad_norm": 1.5929114818572998,
       "learning_rate": 4.126984126984127e-05,
-      "loss": 0.4895,
       "step": 880
     },
     {
       "epoch": 0.6428571428571429,
-      "grad_norm": 1.512065052986145,
       "learning_rate": 3.968253968253968e-05,
-      "loss": 0.5158,
       "step": 900
     },
     {
       "epoch": 0.6571428571428571,
-      "grad_norm": 1.5385123491287231,
       "learning_rate": 3.809523809523809e-05,
-      "loss": 0.5188,
       "step": 920
     },
     {
       "epoch": 0.6714285714285714,
-      "grad_norm": 1.7010993957519531,
       "learning_rate": 3.650793650793651e-05,
-      "loss": 0.5039,
       "step": 940
     },
     {
       "epoch": 0.6857142857142857,
-      "grad_norm": 1.4756510257720947,
       "learning_rate": 3.492063492063492e-05,
-      "loss": 0.5004,
       "step": 960
     },
     {
       "epoch": 0.7,
-      "grad_norm": 1.407616376876831,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.4947,
       "step": 980
     },
     {
       "epoch": 0.7142857142857143,
-      "grad_norm": 1.376063346862793,
       "learning_rate": 3.1746031746031745e-05,
-      "loss": 0.4797,
       "step": 1000
     },
     {
       "epoch": 0.7285714285714285,
-      "grad_norm": 1.6061830520629883,
       "learning_rate": 3.0158730158730158e-05,
-      "loss": 0.4872,
       "step": 1020
     },
     {
       "epoch": 0.7428571428571429,
-      "grad_norm": 1.4005217552185059,
       "learning_rate": 2.857142857142857e-05,
-      "loss": 0.4648,
       "step": 1040
     },
     {
       "epoch": 0.7571428571428571,
-      "grad_norm": 1.4235899448394775,
       "learning_rate": 2.6984126984126984e-05,
-      "loss": 0.463,
       "step": 1060
     },
     {
       "epoch": 0.7714285714285715,
-      "grad_norm": 1.210481882095337,
       "learning_rate": 2.5396825396825397e-05,
-      "loss": 0.4728,
       "step": 1080
     },
     {
       "epoch": 0.7857142857142857,
-      "grad_norm": 1.6099470853805542,
       "learning_rate": 2.380952380952381e-05,
-      "loss": 0.485,
       "step": 1100
     },
     {
       "epoch": 0.8,
-      "grad_norm": 1.6083734035491943,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.4594,
       "step": 1120
     },
     {
       "epoch": 0.8142857142857143,
-      "grad_norm": 1.350246548652649,
       "learning_rate": 2.0634920634920636e-05,
-      "loss": 0.4763,
       "step": 1140
     },
     {
       "epoch": 0.8285714285714286,
-      "grad_norm": 1.3000835180282593,
       "learning_rate": 1.9047619047619046e-05,
-      "loss": 0.4705,
       "step": 1160
     },
     {
       "epoch": 0.8428571428571429,
-      "grad_norm": 1.2059348821640015,
       "learning_rate": 1.746031746031746e-05,
-      "loss": 0.4876,
       "step": 1180
     },
     {
       "epoch": 0.8571428571428571,
-      "grad_norm": 1.3652459383010864,
       "learning_rate": 1.5873015873015872e-05,
-      "loss": 0.4919,
       "step": 1200
     },
     {
       "epoch": 0.8714285714285714,
-      "grad_norm": 1.451910376548767,
       "learning_rate": 1.4285714285714285e-05,
-      "loss": 0.463,
       "step": 1220
     },
     {
       "epoch": 0.8857142857142857,
-      "grad_norm": 1.4704546928405762,
       "learning_rate": 1.2698412698412699e-05,
-      "loss": 0.4768,
       "step": 1240
     },
     {
       "epoch": 0.9,
-      "grad_norm": 1.5009324550628662,
       "learning_rate": 1.1111111111111112e-05,
-      "loss": 0.4516,
       "step": 1260
     },
     {
       "epoch": 0.9142857142857143,
-      "grad_norm": 1.5519717931747437,
       "learning_rate": 9.523809523809523e-06,
-      "loss": 0.4517,
       "step": 1280
     },
     {
       "epoch": 0.9285714285714286,
-      "grad_norm": 1.5606343746185303,
       "learning_rate": 7.936507936507936e-06,
-      "loss": 0.4732,
       "step": 1300
     },
     {
       "epoch": 0.9428571428571428,
-      "grad_norm": 1.3639295101165771,
       "learning_rate": 6.349206349206349e-06,
-      "loss": 0.4791,
       "step": 1320
     },
     {
       "epoch": 0.9571428571428572,
-      "grad_norm": 1.6867655515670776,
       "learning_rate": 4.7619047619047615e-06,
-      "loss": 0.4968,
       "step": 1340
     },
     {
       "epoch": 0.9714285714285714,
-      "grad_norm": 1.4185600280761719,
       "learning_rate": 3.1746031746031746e-06,
-      "loss": 0.4902,
       "step": 1360
     },
     {
       "epoch": 0.9857142857142858,
-      "grad_norm": 1.7370814085006714,
       "learning_rate": 1.5873015873015873e-06,
-      "loss": 0.4564,
       "step": 1380
     },
     {
       "epoch": 1.0,
-      "grad_norm": 1.6167285442352295,
       "learning_rate": 0.0,
-      "loss": 0.4652,
       "step": 1400
     }
   ],

   "log_history": [
     {
       "epoch": 0.014285714285714285,
+      "grad_norm": 1.8742432594299316,
       "learning_rate": 1.4285714285714285e-05,
+      "loss": 2.6888,
       "step": 20
     },
     {
       "epoch": 0.02857142857142857,
+      "grad_norm": 1.6443878412246704,
       "learning_rate": 2.857142857142857e-05,
+      "loss": 2.289,
       "step": 40
     },
     {
       "epoch": 0.04285714285714286,
+      "grad_norm": 1.8094583749771118,
       "learning_rate": 4.2857142857142856e-05,
+      "loss": 1.7939,
       "step": 60
     },
     {
       "epoch": 0.05714285714285714,
+      "grad_norm": 1.4206470251083374,
       "learning_rate": 5.714285714285714e-05,
+      "loss": 1.312,
       "step": 80
     },
     {
       "epoch": 0.07142857142857142,
+      "grad_norm": 1.4811224937438965,
       "learning_rate": 7.142857142857143e-05,
+      "loss": 1.0735,
       "step": 100
     },
     {
       "epoch": 0.08571428571428572,
+      "grad_norm": 1.4770212173461914,
       "learning_rate": 8.571428571428571e-05,
+      "loss": 0.9261,
       "step": 120
     },
     {
       "epoch": 0.1,
+      "grad_norm": 1.3422306776046753,
       "learning_rate": 0.0001,
+      "loss": 0.882,
       "step": 140
     },
     {
       "epoch": 0.11428571428571428,
+      "grad_norm": 1.5494495630264282,
       "learning_rate": 9.841269841269841e-05,
+      "loss": 0.8599,
       "step": 160
     },
     {
       "epoch": 0.12857142857142856,
+      "grad_norm": 1.4366521835327148,
       "learning_rate": 9.682539682539682e-05,
+      "loss": 0.7784,
       "step": 180
     },
     {
       "epoch": 0.14285714285714285,
+      "grad_norm": 1.731536865234375,
       "learning_rate": 9.523809523809524e-05,
+      "loss": 0.7404,
       "step": 200
     },
     {
       "epoch": 0.15714285714285714,
+      "grad_norm": 1.2290751934051514,
       "learning_rate": 9.365079365079366e-05,
+      "loss": 0.6393,
       "step": 220
     },
     {
       "epoch": 0.17142857142857143,
+      "grad_norm": 1.5464402437210083,
       "learning_rate": 9.206349206349206e-05,
+      "loss": 0.6414,
       "step": 240
     },
     {
       "epoch": 0.18571428571428572,
+      "grad_norm": 1.628503680229187,
       "learning_rate": 9.047619047619048e-05,
+      "loss": 0.6233,
       "step": 260
     },
     {
       "epoch": 0.2,
+      "grad_norm": 1.8485362529754639,
       "learning_rate": 8.888888888888889e-05,
+      "loss": 0.6558,
       "step": 280
     },
     {
       "epoch": 0.21428571428571427,
+      "grad_norm": 1.4331471920013428,
       "learning_rate": 8.730158730158731e-05,
+      "loss": 0.624,
       "step": 300
     },
     {
       "epoch": 0.22857142857142856,
+      "grad_norm": 1.6106165647506714,
       "learning_rate": 8.571428571428571e-05,
+      "loss": 0.6276,
       "step": 320
     },
     {
       "epoch": 0.24285714285714285,
+      "grad_norm": 1.328774094581604,
       "learning_rate": 8.412698412698413e-05,
+      "loss": 0.5928,
       "step": 340
     },
     {
       "epoch": 0.2571428571428571,
+      "grad_norm": 1.4172090291976929,
       "learning_rate": 8.253968253968255e-05,
+      "loss": 0.597,
       "step": 360
     },
     {
       "epoch": 0.2714285714285714,
+      "grad_norm": 1.2621384859085083,
       "learning_rate": 8.095238095238096e-05,
+      "loss": 0.6336,
       "step": 380
     },
     {
       "epoch": 0.2857142857142857,
+      "grad_norm": 1.4633510112762451,
       "learning_rate": 7.936507936507937e-05,
+      "loss": 0.6165,
       "step": 400
     },
     {
       "epoch": 0.3,
+      "grad_norm": 1.5444340705871582,
       "learning_rate": 7.777777777777778e-05,
+      "loss": 0.6204,
       "step": 420
     },
     {
       "epoch": 0.3142857142857143,
+      "grad_norm": 1.758965253829956,
       "learning_rate": 7.619047619047618e-05,
+      "loss": 0.6122,
       "step": 440
     },
     {
       "epoch": 0.32857142857142857,
+      "grad_norm": 1.4885847568511963,
       "learning_rate": 7.460317460317461e-05,
+      "loss": 0.5739,
       "step": 460
     },
     {
       "epoch": 0.34285714285714286,
+      "grad_norm": 1.6695561408996582,
       "learning_rate": 7.301587301587302e-05,
+      "loss": 0.5807,
       "step": 480
     },
     {
       "epoch": 0.35714285714285715,
+      "grad_norm": 1.7690757513046265,
       "learning_rate": 7.142857142857143e-05,
+      "loss": 0.5633,
       "step": 500
     },
     {
       "epoch": 0.37142857142857144,
+      "grad_norm": 1.4946894645690918,
       "learning_rate": 6.984126984126984e-05,
+      "loss": 0.5602,
       "step": 520
     },
     {
       "epoch": 0.38571428571428573,
+      "grad_norm": 1.5215212106704712,
       "learning_rate": 6.825396825396825e-05,
+      "loss": 0.5381,
       "step": 540
     },
     {
       "epoch": 0.4,
+      "grad_norm": 1.1956950426101685,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 0.5281,
       "step": 560
     },
     {
       "epoch": 0.4142857142857143,
+      "grad_norm": 1.315496563911438,
       "learning_rate": 6.507936507936509e-05,
+      "loss": 0.551,
       "step": 580
     },
     {
       "epoch": 0.42857142857142855,
+      "grad_norm": 1.3885098695755005,
       "learning_rate": 6.349206349206349e-05,
+      "loss": 0.5428,
       "step": 600
     },
     {
       "epoch": 0.44285714285714284,
+      "grad_norm": 1.4572407007217407,
       "learning_rate": 6.19047619047619e-05,
+      "loss": 0.5465,
       "step": 620
     },
     {
       "epoch": 0.45714285714285713,
+      "grad_norm": 1.411399006843567,
       "learning_rate": 6.0317460317460316e-05,
+      "loss": 0.5263,
       "step": 640
     },
     {
       "epoch": 0.4714285714285714,
+      "grad_norm": 1.3295258283615112,
       "learning_rate": 5.873015873015873e-05,
+      "loss": 0.5248,
       "step": 660
     },
     {
       "epoch": 0.4857142857142857,
+      "grad_norm": 1.512662410736084,
       "learning_rate": 5.714285714285714e-05,
+      "loss": 0.5213,
       "step": 680
     },
     {
       "epoch": 0.5,
+      "grad_norm": 1.3572126626968384,
       "learning_rate": 5.555555555555556e-05,
+      "loss": 0.5003,
       "step": 700
     },
     {
       "epoch": 0.5142857142857142,
+      "grad_norm": 1.4415481090545654,
       "learning_rate": 5.396825396825397e-05,
+      "loss": 0.5529,
       "step": 720
     },
     {
       "epoch": 0.5285714285714286,
+      "grad_norm": 1.4465086460113525,
       "learning_rate": 5.2380952380952384e-05,
+      "loss": 0.5266,
       "step": 740
     },
     {
       "epoch": 0.5428571428571428,
+      "grad_norm": 1.3659744262695312,
       "learning_rate": 5.0793650793650794e-05,
+      "loss": 0.533,
       "step": 760
     },
     {
       "epoch": 0.5571428571428572,
+      "grad_norm": 1.5549241304397583,
       "learning_rate": 4.9206349206349204e-05,
+      "loss": 0.5139,
       "step": 780
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 1.5689399242401123,
       "learning_rate": 4.761904761904762e-05,
+      "loss": 0.5188,
       "step": 800
     },
     {
       "epoch": 0.5857142857142857,
+      "grad_norm": 1.3908042907714844,
       "learning_rate": 4.603174603174603e-05,
+      "loss": 0.529,
       "step": 820
     },
     {
       "epoch": 0.6,
+      "grad_norm": 1.7993814945220947,
       "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.548,
       "step": 840
     },
     {
       "epoch": 0.6142857142857143,
+      "grad_norm": 1.5198805332183838,
       "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.5367,
       "step": 860
     },
     {
       "epoch": 0.6285714285714286,
+      "grad_norm": 1.4617140293121338,
       "learning_rate": 4.126984126984127e-05,
+      "loss": 0.5016,
       "step": 880
     },
     {
       "epoch": 0.6428571428571429,
+      "grad_norm": 1.6662240028381348,
       "learning_rate": 3.968253968253968e-05,
+      "loss": 0.5078,
       "step": 900
     },
     {
       "epoch": 0.6571428571428571,
+      "grad_norm": 1.617306113243103,
       "learning_rate": 3.809523809523809e-05,
+      "loss": 0.5237,
       "step": 920
     },
     {
       "epoch": 0.6714285714285714,
+      "grad_norm": 1.7389674186706543,
       "learning_rate": 3.650793650793651e-05,
+      "loss": 0.4726,
       "step": 940
     },
     {
       "epoch": 0.6857142857142857,
+      "grad_norm": 1.54181706905365,
       "learning_rate": 3.492063492063492e-05,
+      "loss": 0.5232,
       "step": 960
     },
     {
       "epoch": 0.7,
+      "grad_norm": 1.4722188711166382,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.532,
       "step": 980
     },
     {
       "epoch": 0.7142857142857143,
+      "grad_norm": 1.3351426124572754,
       "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.5015,
       "step": 1000
     },
     {
       "epoch": 0.7285714285714285,
+      "grad_norm": 1.491120457649231,
       "learning_rate": 3.0158730158730158e-05,
+      "loss": 0.5201,
       "step": 1020
     },
     {
       "epoch": 0.7428571428571429,
+      "grad_norm": 1.24501633644104,
       "learning_rate": 2.857142857142857e-05,
+      "loss": 0.4943,
       "step": 1040
     },
     {
       "epoch": 0.7571428571428571,
+      "grad_norm": 1.4944851398468018,
       "learning_rate": 2.6984126984126984e-05,
+      "loss": 0.4821,
       "step": 1060
     },
     {
       "epoch": 0.7714285714285715,
+      "grad_norm": 1.513795256614685,
       "learning_rate": 2.5396825396825397e-05,
+      "loss": 0.481,
       "step": 1080
     },
     {
       "epoch": 0.7857142857142857,
+      "grad_norm": 1.8671048879623413,
       "learning_rate": 2.380952380952381e-05,
+      "loss": 0.48,
       "step": 1100
     },
     {
       "epoch": 0.8,
+      "grad_norm": 1.3706579208374023,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.4979,
       "step": 1120
     },
     {
       "epoch": 0.8142857142857143,
+      "grad_norm": 1.3706722259521484,
       "learning_rate": 2.0634920634920636e-05,
+      "loss": 0.4842,
       "step": 1140
     },
     {
       "epoch": 0.8285714285714286,
+      "grad_norm": 1.5844509601593018,
       "learning_rate": 1.9047619047619046e-05,
+      "loss": 0.4647,
       "step": 1160
     },
     {
       "epoch": 0.8428571428571429,
+      "grad_norm": 1.4700433015823364,
       "learning_rate": 1.746031746031746e-05,
+      "loss": 0.4861,
       "step": 1180
     },
     {
       "epoch": 0.8571428571428571,
+      "grad_norm": 1.5295989513397217,
       "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.4719,
       "step": 1200
     },
     {
       "epoch": 0.8714285714285714,
+      "grad_norm": 1.4497429132461548,
       "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.4761,
       "step": 1220
     },
     {
       "epoch": 0.8857142857142857,
+      "grad_norm": 1.5591635704040527,
       "learning_rate": 1.2698412698412699e-05,
+      "loss": 0.4787,
       "step": 1240
     },
     {
       "epoch": 0.9,
+      "grad_norm": 1.410678744316101,
       "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.4824,
       "step": 1260
     },
     {
       "epoch": 0.9142857142857143,
+      "grad_norm": 1.4857158660888672,
       "learning_rate": 9.523809523809523e-06,
+      "loss": 0.4757,
       "step": 1280
     },
     {
       "epoch": 0.9285714285714286,
+      "grad_norm": 1.626083493232727,
       "learning_rate": 7.936507936507936e-06,
+      "loss": 0.4571,
       "step": 1300
     },
     {
       "epoch": 0.9428571428571428,
+      "grad_norm": 1.595832109451294,
       "learning_rate": 6.349206349206349e-06,
+      "loss": 0.4909,
       "step": 1320
     },
     {
       "epoch": 0.9571428571428572,
+      "grad_norm": 1.5187280178070068,
       "learning_rate": 4.7619047619047615e-06,
+      "loss": 0.4785,
       "step": 1340
     },
     {
       "epoch": 0.9714285714285714,
+      "grad_norm": 1.7050893306732178,
       "learning_rate": 3.1746031746031746e-06,
+      "loss": 0.4933,
       "step": 1360
     },
     {
       "epoch": 0.9857142857142858,
+      "grad_norm": 1.5147182941436768,
       "learning_rate": 1.5873015873015873e-06,
+      "loss": 0.4833,
       "step": 1380
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.7184252738952637,
       "learning_rate": 0.0,
+      "loss": 0.4739,
       "step": 1400
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39f98817715f279a5f40c38dd70904c7137598047d2e35bac717a82d7f015fd1
 size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eed791846fb1238d3ca6900ad9684d9e5dc153aabd4fc98681bc70458ff8546
 size 5560