NicholasCorrado
/

rlced-conifer-zephyr-7b-dpo-2e

@@ -3,15 +3,9 @@ library_name: transformers
 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
-- trl
-- dpo
-- generated_from_trainer
-datasets:
-- data/rlced_conifer
 model-index:
 - name: rlced-conifer-zephyr-7b-dpo-2e
   results: []
@@ -22,17 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # rlced-conifer-zephyr-7b-dpo-2e
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the data/rlced_conifer dataset.
-It achieves the following results on the evaluation set:
-- Loss: 0.1593
-- Rewards/chosen: -9.2247
-- Rewards/rejected: -22.0325
-- Rewards/accuracies: 0.9326
-- Rewards/margins: 12.8079
-- Logps/rejected: -2649.1938
-- Logps/chosen: -1345.8763
-- Logits/rejected: 3.3806
-- Logits/chosen: 0.2633
 ## Model description
@@ -67,17 +51,6 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.2571        | 0.2076 | 100  | 0.2502          | -2.3096        | -5.4299          | 0.8897             | 3.1203          | -988.9271      | -654.3687    | -2.5612         | -2.5702       |
-| 0.1684        | 0.4152 | 200  | 0.1771          | -3.3724        | -8.6989          | 0.9142             | 5.3265          | -1315.8264     | -760.6486    | 0.9749          | -0.3442       |
-| 0.1506        | 0.6227 | 300  | 0.1640          | -3.1556        | -9.7233          | 0.9216             | 6.5677          | -1418.2717     | -738.9712    | 1.6434          | -0.4687       |
-| 0.1426        | 0.8303 | 400  | 0.1523          | -5.6795        | -14.2428         | 0.9301             | 8.5633          | -1870.2236     | -991.3617    | 3.6793          | 0.9505        |
-| 0.0881        | 1.0379 | 500  | 0.1592          | -8.3376        | -21.0153         | 0.9314             | 12.6778         | -2547.4749     | -1257.1659   | 4.5267          | 1.2345        |
-| 0.0774        | 1.2455 | 600  | 0.1560          | -8.5445        | -20.6787         | 0.9326             | 12.1342         | -2513.8113     | -1277.8566   | 4.0373          | 1.1427        |
-| 0.0747        | 1.4530 | 700  | 0.1579          | -8.8472        | -21.2653         | 0.9277             | 12.4181         | -2572.4675     | -1308.1294   | 3.5812          | 0.4989        |
-| 0.0811        | 1.6606 | 800  | 0.1545          | -8.3810        | -19.9040         | 0.9289             | 11.5230         | -2436.3406     | -1261.5127   | 3.2546          | 0.2172        |
-| 0.069         | 1.8682 | 900  | 0.1592          | -9.2177        | -21.9885         | 0.9326             | 12.7708         | -2644.7937     | -1345.1790   | 3.3692          | 0.2563        |
 ### Framework versions

 license: apache-2.0
 base_model: alignment-handbook/zephyr-7b-sft-full
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: rlced-conifer-zephyr-7b-dpo-2e
   results: []
 # rlced-conifer-zephyr-7b-dpo-2e
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on an unknown dataset.
 ## Model description
 ### Training results
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,22 +1,9 @@
 {
-    "epoch": 1.996886351842242,
-    "eval_logits/chosen": 0.2633172273635864,
-    "eval_logits/rejected": 3.3806047439575195,
-    "eval_logps/chosen": -1345.8763427734375,
-    "eval_logps/rejected": -2649.19384765625,
-    "eval_loss": 0.15931174159049988,
-    "eval_rewards/accuracies": 0.9325980544090271,
-    "eval_rewards/chosen": -9.224682807922363,
-    "eval_rewards/margins": 12.807853698730469,
-    "eval_rewards/rejected": -22.03253746032715,
-    "eval_runtime": 298.1405,
-    "eval_samples": 6491,
-    "eval_samples_per_second": 21.772,
-    "eval_steps_per_second": 0.342,
     "total_flos": 0.0,
-    "train_loss": 0.15826490898606932,
-    "train_runtime": 30237.5544,
-    "train_samples": 123309,
-    "train_samples_per_second": 8.156,
-    "train_steps_per_second": 0.032
 }

 {
+    "epoch": 2.0,
     "total_flos": 0.0,
+    "train_loss": 0.1732867956161499,
+    "train_runtime": 97.0028,
+    "train_samples": 50,
+    "train_samples_per_second": 1.031,
+    "train_steps_per_second": 0.021
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 1.996886351842242,
     "total_flos": 0.0,
-    "train_loss": 0.15826490898606932,
-    "train_runtime": 30237.5544,
-    "train_samples": 123309,
-    "train_samples_per_second": 8.156,
-    "train_steps_per_second": 0.032
 }

 {
+    "epoch": 2.0,
     "total_flos": 0.0,
+    "train_loss": 0.1732867956161499,
+    "train_runtime": 97.0028,
+    "train_samples": 50,
+    "train_samples_per_second": 1.031,
+    "train_steps_per_second": 0.021
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.996886351842242,
-  "eval_steps": 100,
-  "global_step": 962,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0020757654385054488,
-      "grad_norm": 7.45352963949478,
-      "learning_rate": 5.154639175257731e-09,
-      "logits/chosen": -2.730942726135254,
-      "logits/rejected": -2.654609203338623,
-      "logps/chosen": -350.489990234375,
-      "logps/rejected": -325.546875,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,1604 +23,20 @@
       "step": 1
     },
     {
-      "epoch": 0.02075765438505449,
-      "grad_norm": 7.9210410159092035,
-      "learning_rate": 5.154639175257731e-08,
-      "logits/chosen": -2.732799768447876,
-      "logits/rejected": -2.7348814010620117,
-      "logps/chosen": -366.5058288574219,
-      "logps/rejected": -412.2818908691406,
-      "loss": 0.6931,
-      "rewards/accuracies": 0.4652777910232544,
-      "rewards/chosen": -0.00011030762834707275,
-      "rewards/margins": 0.00028051523258909583,
-      "rewards/rejected": -0.0003908228827640414,
-      "step": 10
-    },
-    {
-      "epoch": 0.04151530877010898,
-      "grad_norm": 7.570830729268252,
-      "learning_rate": 1.0309278350515462e-07,
-      "logits/chosen": -2.7170357704162598,
-      "logits/rejected": -2.6939330101013184,
-      "logps/chosen": -378.942138671875,
-      "logps/rejected": -404.09735107421875,
-      "loss": 0.6921,
-      "rewards/accuracies": 0.640625,
-      "rewards/chosen": 0.00050427729729563,
-      "rewards/margins": 0.0023104187566787004,
-      "rewards/rejected": -0.001806141110137105,
-      "step": 20
-    },
-    {
-      "epoch": 0.062272963155163466,
-      "grad_norm": 7.630669954109631,
-      "learning_rate": 1.5463917525773197e-07,
-      "logits/chosen": -2.7188973426818848,
-      "logits/rejected": -2.7039918899536133,
-      "logps/chosen": -365.66571044921875,
-      "logps/rejected": -388.82623291015625,
-      "loss": 0.6864,
-      "rewards/accuracies": 0.815625011920929,
-      "rewards/chosen": 0.0047697038389742374,
-      "rewards/margins": 0.01397106982767582,
-      "rewards/rejected": -0.00920136459171772,
-      "step": 30
-    },
-    {
-      "epoch": 0.08303061754021795,
-      "grad_norm": 7.812718404148332,
-      "learning_rate": 2.0618556701030925e-07,
-      "logits/chosen": -2.7190403938293457,
-      "logits/rejected": -2.684091091156006,
-      "logps/chosen": -350.58087158203125,
-      "logps/rejected": -365.0170593261719,
-      "loss": 0.6693,
-      "rewards/accuracies": 0.8656250238418579,
-      "rewards/chosen": 0.027430161833763123,
-      "rewards/margins": 0.04917122796177864,
-      "rewards/rejected": -0.021741071715950966,
-      "step": 40
-    },
-    {
-      "epoch": 0.10378827192527244,
-      "grad_norm": 8.920978446164991,
-      "learning_rate": 2.5773195876288655e-07,
-      "logits/chosen": -2.729093074798584,
-      "logits/rejected": -2.7239317893981934,
-      "logps/chosen": -358.971435546875,
-      "logps/rejected": -397.4567565917969,
-      "loss": 0.6298,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": 0.07278638333082199,
-      "rewards/margins": 0.1439397633075714,
-      "rewards/rejected": -0.07115338742733002,
-      "step": 50
-    },
-    {
-      "epoch": 0.12454592631032693,
-      "grad_norm": 9.920116758805731,
-      "learning_rate": 3.0927835051546394e-07,
-      "logits/chosen": -2.6944854259490967,
-      "logits/rejected": -2.677772045135498,
-      "logps/chosen": -348.3173522949219,
-      "logps/rejected": -426.961669921875,
-      "loss": 0.548,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -0.01142303366214037,
-      "rewards/margins": 0.3693596422672272,
-      "rewards/rejected": -0.3807826638221741,
-      "step": 60
-    },
-    {
-      "epoch": 0.14530358069538143,
-      "grad_norm": 14.365707646692588,
-      "learning_rate": 3.608247422680412e-07,
-      "logits/chosen": -2.7343642711639404,
-      "logits/rejected": -2.691175937652588,
-      "logps/chosen": -450.86602783203125,
-      "logps/rejected": -535.1449584960938,
-      "loss": 0.4278,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.5426548719406128,
-      "rewards/margins": 0.7670809626579285,
-      "rewards/rejected": -1.3097360134124756,
-      "step": 70
-    },
-    {
-      "epoch": 0.1660612350804359,
-      "grad_norm": 17.310434488935346,
-      "learning_rate": 4.123711340206185e-07,
-      "logits/chosen": -2.697681188583374,
-      "logits/rejected": -2.6777291297912598,
-      "logps/chosen": -547.9215087890625,
-      "logps/rejected": -699.3780517578125,
-      "loss": 0.3591,
-      "rewards/accuracies": 0.8656250238418579,
-      "rewards/chosen": -1.5689979791641235,
-      "rewards/margins": 1.4014527797698975,
-      "rewards/rejected": -2.9704508781433105,
-      "step": 80
-    },
-    {
-      "epoch": 0.1868188894654904,
-      "grad_norm": 18.777123719069813,
-      "learning_rate": 4.639175257731959e-07,
-      "logits/chosen": -2.646989107131958,
-      "logits/rejected": -2.6466164588928223,
-      "logps/chosen": -557.4159545898438,
-      "logps/rejected": -791.6094970703125,
-      "loss": 0.3056,
-      "rewards/accuracies": 0.871874988079071,
-      "rewards/chosen": -1.921556830406189,
-      "rewards/margins": 2.1401381492614746,
-      "rewards/rejected": -4.061694622039795,
-      "step": 90
-    },
-    {
-      "epoch": 0.2075765438505449,
-      "grad_norm": 14.527848025037288,
-      "learning_rate": 4.999851606199919e-07,
-      "logits/chosen": -2.598267078399658,
-      "logits/rejected": -2.5736942291259766,
-      "logps/chosen": -581.7288818359375,
-      "logps/rejected": -923.7081909179688,
-      "loss": 0.2571,
-      "rewards/accuracies": 0.9156249761581421,
-      "rewards/chosen": -2.0622379779815674,
-      "rewards/margins": 3.1660473346710205,
-      "rewards/rejected": -5.228285789489746,
-      "step": 100
-    },
-    {
-      "epoch": 0.2075765438505449,
-      "eval_logits/chosen": -2.570211172103882,
-      "eval_logits/rejected": -2.5612430572509766,
-      "eval_logps/chosen": -654.36865234375,
-      "eval_logps/rejected": -988.9270629882812,
-      "eval_loss": 0.250244677066803,
-      "eval_rewards/accuracies": 0.8897058963775635,
-      "eval_rewards/chosen": -2.3096041679382324,
-      "eval_rewards/margins": 3.120264768600464,
-      "eval_rewards/rejected": -5.429868698120117,
-      "eval_runtime": 298.2798,
-      "eval_samples_per_second": 21.761,
-      "eval_steps_per_second": 0.342,
-      "step": 100
-    },
-    {
-      "epoch": 0.2283341982355994,
-      "grad_norm": 20.425432278137276,
-      "learning_rate": 4.997213984244138e-07,
-      "logits/chosen": -2.288006067276001,
-      "logits/rejected": -2.136007070541382,
-      "logps/chosen": -608.41552734375,
-      "logps/rejected": -1056.211669921875,
-      "loss": 0.2306,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -2.3692779541015625,
-      "rewards/margins": 4.241728782653809,
-      "rewards/rejected": -6.611006259918213,
-      "step": 110
-    },
-    {
-      "epoch": 0.24909185262065386,
-      "grad_norm": 13.460106318977088,
-      "learning_rate": 4.991282726678214e-07,
-      "logits/chosen": -1.7061725854873657,
-      "logits/rejected": -1.2435765266418457,
-      "logps/chosen": -665.3823852539062,
-      "logps/rejected": -1083.344482421875,
-      "loss": 0.2092,
-      "rewards/accuracies": 0.9125000238418579,
-      "rewards/chosen": -2.7041690349578857,
-      "rewards/margins": 3.9961719512939453,
-      "rewards/rejected": -6.700340270996094,
-      "step": 120
-    },
-    {
-      "epoch": 0.26984950700570837,
-      "grad_norm": 19.086564033070054,
-      "learning_rate": 4.982065656380468e-07,
-      "logits/chosen": -1.483633041381836,
-      "logits/rejected": -0.8341295123100281,
-      "logps/chosen": -623.9300537109375,
-      "logps/rejected": -1075.849853515625,
-      "loss": 0.194,
-      "rewards/accuracies": 0.903124988079071,
-      "rewards/chosen": -2.44337797164917,
-      "rewards/margins": 4.244832515716553,
-      "rewards/rejected": -6.688210487365723,
-      "step": 130
-    },
-    {
-      "epoch": 0.29060716139076287,
-      "grad_norm": 15.042161368077187,
-      "learning_rate": 4.969574929966689e-07,
-      "logits/chosen": -1.0453473329544067,
-      "logits/rejected": -0.016147825866937637,
-      "logps/chosen": -633.580078125,
-      "logps/rejected": -1098.5224609375,
-      "loss": 0.2082,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -2.631155490875244,
-      "rewards/margins": 4.421234130859375,
-      "rewards/rejected": -7.052389621734619,
-      "step": 140
-    },
-    {
-      "epoch": 0.3113648157758173,
-      "grad_norm": 15.666211126762926,
-      "learning_rate": 4.953827021756488e-07,
-      "logits/chosen": -1.3857558965682983,
-      "logits/rejected": -0.03474185988306999,
-      "logps/chosen": -641.5021362304688,
-      "logps/rejected": -1154.77587890625,
-      "loss": 0.1733,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -2.8129067420959473,
-      "rewards/margins": 4.9361677169799805,
-      "rewards/rejected": -7.749074459075928,
-      "step": 150
-    },
-    {
-      "epoch": 0.3321224701608718,
-      "grad_norm": 27.48848947004099,
-      "learning_rate": 4.93484270204492e-07,
-      "logits/chosen": -1.0413181781768799,
-      "logits/rejected": 0.31071561574935913,
-      "logps/chosen": -641.2700805664062,
-      "logps/rejected": -1222.7462158203125,
-      "loss": 0.1801,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -2.573660373687744,
-      "rewards/margins": 5.559605121612549,
-      "rewards/rejected": -8.133265495300293,
-      "step": 160
-    },
-    {
-      "epoch": 0.3528801245459263,
-      "grad_norm": 20.795363548975157,
-      "learning_rate": 4.91264700970804e-07,
-      "logits/chosen": -0.4338255822658539,
-      "logits/rejected": 0.8560503125190735,
-      "logps/chosen": -664.4598388671875,
-      "logps/rejected": -1253.003662109375,
-      "loss": 0.1834,
-      "rewards/accuracies": 0.903124988079071,
-      "rewards/chosen": -3.056209087371826,
-      "rewards/margins": 5.69351863861084,
-      "rewards/rejected": -8.749728202819824,
-      "step": 170
-    },
-    {
-      "epoch": 0.3736377789309808,
-      "grad_norm": 17.31415644551086,
-      "learning_rate": 4.88726921917853e-07,
-      "logits/chosen": -1.2734315395355225,
-      "logits/rejected": 0.053898729383945465,
-      "logps/chosen": -594.52685546875,
-      "logps/rejected": -1158.65380859375,
-      "loss": 0.1862,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -2.2788708209991455,
-      "rewards/margins": 5.445026397705078,
-      "rewards/rejected": -7.723898410797119,
-      "step": 180
-    },
-    {
-      "epoch": 0.39439543331603527,
-      "grad_norm": 14.853072406578221,
-      "learning_rate": 4.858742801834942e-07,
-      "logits/chosen": -0.5313376784324646,
-      "logits/rejected": 0.8287642598152161,
-      "logps/chosen": -676.4669189453125,
-      "logps/rejected": -1298.01318359375,
-      "loss": 0.173,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -2.9378976821899414,
-      "rewards/margins": 5.850995063781738,
-      "rewards/rejected": -8.788891792297363,
-      "step": 190
-    },
-    {
-      "epoch": 0.4151530877010898,
-      "grad_norm": 14.26284853662138,
-      "learning_rate": 4.827105381855496e-07,
-      "logits/chosen": -0.06869231164455414,
-      "logits/rejected": 1.29701828956604,
-      "logps/chosen": -653.2413330078125,
-      "logps/rejected": -1239.662353515625,
-      "loss": 0.1684,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -2.8566927909851074,
-      "rewards/margins": 5.576047897338867,
-      "rewards/rejected": -8.432741165161133,
-      "step": 200
-    },
-    {
-      "epoch": 0.4151530877010898,
-      "eval_logits/chosen": -0.344154953956604,
-      "eval_logits/rejected": 0.9748669266700745,
-      "eval_logps/chosen": -760.6486206054688,
-      "eval_logps/rejected": -1315.826416015625,
-      "eval_loss": 0.1770959049463272,
-      "eval_rewards/accuracies": 0.9142156839370728,
-      "eval_rewards/chosen": -3.372403383255005,
-      "eval_rewards/margins": 5.326459884643555,
-      "eval_rewards/rejected": -8.69886302947998,
-      "eval_runtime": 296.8516,
-      "eval_samples_per_second": 21.866,
-      "eval_steps_per_second": 0.344,
-      "step": 200
-    },
-    {
-      "epoch": 0.4359107420861443,
-      "grad_norm": 13.687894338265775,
-      "learning_rate": 4.79239868659464e-07,
-      "logits/chosen": -0.5194350481033325,
-      "logits/rejected": 1.2649457454681396,
-      "logps/chosen": -699.4662475585938,
-      "logps/rejected": -1312.603515625,
-      "loss": 0.1582,
-      "rewards/accuracies": 0.934374988079071,
-      "rewards/chosen": -3.3037147521972656,
-      "rewards/margins": 5.938404083251953,
-      "rewards/rejected": -9.242118835449219,
-      "step": 210
-    },
-    {
-      "epoch": 0.4566683964711988,
-      "grad_norm": 21.754337046254733,
-      "learning_rate": 4.7546684915478443e-07,
-      "logits/chosen": -0.8742658495903015,
-      "logits/rejected": 1.3033313751220703,
-      "logps/chosen": -670.0702514648438,
-      "logps/rejected": -1371.7958984375,
-      "loss": 0.1675,
-      "rewards/accuracies": 0.9156249761581421,
-      "rewards/chosen": -3.048536777496338,
-      "rewards/margins": 6.837308406829834,
-      "rewards/rejected": -9.885846138000488,
-      "step": 220
-    },
-    {
-      "epoch": 0.4774260508562532,
-      "grad_norm": 27.016825262219978,
-      "learning_rate": 4.7139645599771953e-07,
-      "logits/chosen": -1.2103874683380127,
-      "logits/rejected": 1.2142726182937622,
-      "logps/chosen": -635.36376953125,
-      "logps/rejected": -1365.181640625,
-      "loss": 0.1733,
-      "rewards/accuracies": 0.921875,
-      "rewards/chosen": -2.743067502975464,
-      "rewards/margins": 7.142025947570801,
-      "rewards/rejected": -9.885092735290527,
-      "step": 230
-    },
-    {
-      "epoch": 0.49818370524130773,
-      "grad_norm": 14.606776233016102,
-      "learning_rate": 4.6703405772774325e-07,
-      "logits/chosen": -0.6876879930496216,
-      "logits/rejected": 1.9533984661102295,
-      "logps/chosen": -648.3201904296875,
-      "logps/rejected": -1378.4886474609375,
-      "loss": 0.1624,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -2.901624917984009,
-      "rewards/margins": 7.063530921936035,
-      "rewards/rejected": -9.965155601501465,
-      "step": 240
-    },
-    {
-      "epoch": 0.5189413596263622,
-      "grad_norm": 14.879180241164281,
-      "learning_rate": 4.6238540801689896e-07,
-      "logits/chosen": -1.068670630455017,
-      "logits/rejected": 1.5525070428848267,
-      "logps/chosen": -595.411376953125,
-      "logps/rejected": -1218.922119140625,
-      "loss": 0.1618,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -2.1561543941497803,
-      "rewards/margins": 6.024182319641113,
-      "rewards/rejected": -8.180335998535156,
-      "step": 250
-    },
-    {
-      "epoch": 0.5396990140114167,
-      "grad_norm": 21.085080794483027,
-      "learning_rate": 4.5745663808114316e-07,
-      "logits/chosen": -1.2082252502441406,
-      "logits/rejected": 1.332776427268982,
-      "logps/chosen": -641.9990844726562,
-      "logps/rejected": -1324.9752197265625,
-      "loss": 0.164,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -2.6882810592651367,
-      "rewards/margins": 6.606905460357666,
-      "rewards/rejected": -9.295186042785645,
-      "step": 260
-    },
-    {
-      "epoch": 0.5604566683964712,
-      "grad_norm": 14.503555786921384,
-      "learning_rate": 4.5225424859373684e-07,
-      "logits/chosen": -0.5242375731468201,
-      "logits/rejected": 2.3043034076690674,
-      "logps/chosen": -642.212890625,
-      "logps/rejected": -1466.6038818359375,
-      "loss": 0.1535,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": -2.8858113288879395,
-      "rewards/margins": 7.929835319519043,
-      "rewards/rejected": -10.81564712524414,
-      "step": 270
-    },
-    {
-      "epoch": 0.5812143227815257,
-      "grad_norm": 14.500876590205559,
-      "learning_rate": 4.467851011113515e-07,
-      "logits/chosen": -0.34295958280563354,
-      "logits/rejected": 2.470365047454834,
-      "logps/chosen": -626.3866577148438,
-      "logps/rejected": -1347.487060546875,
-      "loss": 0.1557,
-      "rewards/accuracies": 0.921875,
-      "rewards/chosen": -2.5040247440338135,
-      "rewards/margins": 6.9828643798828125,
-      "rewards/rejected": -9.486889839172363,
-      "step": 280
-    },
-    {
-      "epoch": 0.6019719771665801,
-      "grad_norm": 21.11138081532862,
-      "learning_rate": 4.410564090241966e-07,
-      "logits/chosen": -0.4226152002811432,
-      "logits/rejected": 2.2370669841766357,
-      "logps/chosen": -715.9142456054688,
-      "logps/rejected": -1435.792724609375,
-      "loss": 0.166,
-      "rewards/accuracies": 0.9125000238418579,
-      "rewards/chosen": -3.411532163619995,
-      "rewards/margins": 7.1244330406188965,
-      "rewards/rejected": -10.535964012145996,
-      "step": 290
-    },
-    {
-      "epoch": 0.6227296315516346,
-      "grad_norm": 12.837411656046333,
-      "learning_rate": 4.35075728042106e-07,
-      "logits/chosen": -0.646745502948761,
-      "logits/rejected": 1.6430190801620483,
-      "logps/chosen": -651.37060546875,
-      "logps/rejected": -1312.945068359375,
-      "loss": 0.1506,
-      "rewards/accuracies": 0.9468749761581421,
-      "rewards/chosen": -2.753232717514038,
-      "rewards/margins": 6.365309715270996,
-      "rewards/rejected": -9.118542671203613,
-      "step": 300
-    },
-    {
-      "epoch": 0.6227296315516346,
-      "eval_logits/chosen": -0.4686531722545624,
-      "eval_logits/rejected": 1.6434051990509033,
-      "eval_logps/chosen": -738.97119140625,
-      "eval_logps/rejected": -1418.271728515625,
-      "eval_loss": 0.16402015089988708,
-      "eval_rewards/accuracies": 0.9215686321258545,
-      "eval_rewards/chosen": -3.1556289196014404,
-      "eval_rewards/margins": 6.567685127258301,
-      "eval_rewards/rejected": -9.72331428527832,
-      "eval_runtime": 296.3154,
-      "eval_samples_per_second": 21.906,
-      "eval_steps_per_second": 0.344,
-      "step": 300
-    },
-    {
-      "epoch": 0.6434872859366891,
-      "grad_norm": 12.299461167843033,
-      "learning_rate": 4.2885094622913016e-07,
-      "logits/chosen": -0.22457298636436462,
-      "logits/rejected": 2.304126024246216,
-      "logps/chosen": -696.1895141601562,
-      "logps/rejected": -1399.352783203125,
-      "loss": 0.1538,
-      "rewards/accuracies": 0.903124988079071,
-      "rewards/chosen": -3.2637131214141846,
-      "rewards/margins": 6.956628322601318,
-      "rewards/rejected": -10.220341682434082,
-      "step": 310
-    },
-    {
-      "epoch": 0.6642449403217436,
-      "grad_norm": 13.016357165526102,
-      "learning_rate": 4.223902735997788e-07,
-      "logits/chosen": -0.8427863121032715,
-      "logits/rejected": 1.8859798908233643,
-      "logps/chosen": -618.1915283203125,
-      "logps/rejected": -1367.597412109375,
-      "loss": 0.1525,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -2.5306873321533203,
-      "rewards/margins": 7.276186466217041,
-      "rewards/rejected": -9.80687427520752,
-      "step": 320
-    },
-    {
-      "epoch": 0.6850025947067981,
-      "grad_norm": 11.40441988789802,
-      "learning_rate": 4.157022312906352e-07,
-      "logits/chosen": -0.8463101387023926,
-      "logits/rejected": 2.104464292526245,
-      "logps/chosen": -682.7887573242188,
-      "logps/rejected": -1518.4447021484375,
-      "loss": 0.1436,
-      "rewards/accuracies": 0.9156249761581421,
-      "rewards/chosen": -3.10284423828125,
-      "rewards/margins": 8.061182022094727,
-      "rewards/rejected": -11.164026260375977,
-      "step": 330
-    },
-    {
-      "epoch": 0.7057602490918526,
-      "grad_norm": 12.82722167792133,
-      "learning_rate": 4.0879564032162425e-07,
-      "logits/chosen": -0.18682530522346497,
-      "logits/rejected": 3.2691047191619873,
-      "logps/chosen": -832.2535400390625,
-      "logps/rejected": -1820.017333984375,
-      "loss": 0.1461,
-      "rewards/accuracies": 0.921875,
-      "rewards/chosen": -4.5879225730896,
-      "rewards/margins": 9.579926490783691,
-      "rewards/rejected": -14.16784954071045,
-      "step": 340
-    },
-    {
-      "epoch": 0.7265179034769071,
-      "grad_norm": 16.44365591813322,
-      "learning_rate": 4.016796099617569e-07,
-      "logits/chosen": -0.138845294713974,
-      "logits/rejected": 3.01670503616333,
-      "logps/chosen": -769.3917236328125,
-      "logps/rejected": -1580.634765625,
-      "loss": 0.1552,
-      "rewards/accuracies": 0.8843749761581421,
-      "rewards/chosen": -4.0832200050354,
-      "rewards/margins": 7.8098883628845215,
-      "rewards/rejected": -11.893107414245605,
-      "step": 350
-    },
-    {
-      "epoch": 0.7472755578619616,
-      "grad_norm": 19.24789069287223,
-      "learning_rate": 3.9436352571469577e-07,
-      "logits/chosen": 1.5992153882980347,
-      "logits/rejected": 5.1132683753967285,
-      "logps/chosen": -974.8264770507812,
-      "logps/rejected": -1869.984375,
-      "loss": 0.1447,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -6.103518962860107,
-      "rewards/margins": 8.862874031066895,
-      "rewards/rejected": -14.966394424438477,
-      "step": 360
-    },
-    {
-      "epoch": 0.768033212247016,
-      "grad_norm": 14.764411673021232,
-      "learning_rate": 3.868570369399893e-07,
-      "logits/chosen": 0.504949152469635,
-      "logits/rejected": 4.207425117492676,
-      "logps/chosen": -842.4241943359375,
-      "logps/rejected": -1723.845703125,
-      "loss": 0.1461,
-      "rewards/accuracies": 0.9125000238418579,
-      "rewards/chosen": -4.756136894226074,
-      "rewards/margins": 8.685012817382812,
-      "rewards/rejected": -13.441149711608887,
-      "step": 370
-    },
-    {
-      "epoch": 0.7887908666320705,
-      "grad_norm": 11.306971906638802,
-      "learning_rate": 3.791700441262987e-07,
-      "logits/chosen": 1.6941606998443604,
-      "logits/rejected": 4.910915374755859,
-      "logps/chosen": -991.244140625,
-      "logps/rejected": -1979.561279296875,
-      "loss": 0.1394,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -6.388211727142334,
-      "rewards/margins": 9.29551887512207,
-      "rewards/rejected": -15.683731079101562,
-      "step": 380
-    },
-    {
-      "epoch": 0.809548521017125,
-      "grad_norm": 13.65730703963766,
-      "learning_rate": 3.7131268583340515e-07,
-      "logits/chosen": 1.5387306213378906,
-      "logits/rejected": 4.950864315032959,
-      "logps/chosen": -1013.9693603515625,
-      "logps/rejected": -1817.079345703125,
-      "loss": 0.1518,
-      "rewards/accuracies": 0.9468749761581421,
-      "rewards/chosen": -6.383057117462158,
-      "rewards/margins": 7.826146125793457,
-      "rewards/rejected": -14.209203720092773,
-      "step": 390
-    },
-    {
-      "epoch": 0.8303061754021795,
-      "grad_norm": 14.179745096678028,
-      "learning_rate": 3.632953253202198e-07,
-      "logits/chosen": 1.0768206119537354,
-      "logits/rejected": 4.270804405212402,
-      "logps/chosen": -915.9781494140625,
-      "logps/rejected": -1812.755859375,
-      "loss": 0.1426,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -5.507952690124512,
-      "rewards/margins": 8.6758394241333,
-      "rewards/rejected": -14.183792114257812,
-      "step": 400
-    },
-    {
-      "epoch": 0.8303061754021795,
-      "eval_logits/chosen": 0.9505479335784912,
-      "eval_logits/rejected": 3.6792540550231934,
-      "eval_logps/chosen": -991.3616943359375,
-      "eval_logps/rejected": -1870.2236328125,
-      "eval_loss": 0.15229202806949615,
-      "eval_rewards/accuracies": 0.9301470518112183,
-      "eval_rewards/chosen": -5.6795334815979,
-      "eval_rewards/margins": 8.563300132751465,
-      "eval_rewards/rejected": -14.242834091186523,
-      "eval_runtime": 298.0288,
-      "eval_samples_per_second": 21.78,
-      "eval_steps_per_second": 0.342,
-      "step": 400
-    },
-    {
-      "epoch": 0.851063829787234,
-      "grad_norm": 14.225050299873093,
-      "learning_rate": 3.551285368764321e-07,
-      "logits/chosen": 1.3883212804794312,
-      "logits/rejected": 4.056710243225098,
-      "logps/chosen": -921.244140625,
-      "logps/rejected": -1725.069091796875,
-      "loss": 0.1414,
-      "rewards/accuracies": 0.921875,
-      "rewards/chosen": -5.557861328125,
-      "rewards/margins": 7.890999794006348,
-      "rewards/rejected": -13.448862075805664,
-      "step": 410
-    },
-    {
-      "epoch": 0.8718214841722886,
-      "grad_norm": 21.908810437787125,
-      "learning_rate": 3.468230918758242e-07,
-      "logits/chosen": 1.0017262697219849,
-      "logits/rejected": 4.086182594299316,
-      "logps/chosen": -934.9280395507812,
-      "logps/rejected": -1826.6614990234375,
-      "loss": 0.1487,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -5.608671188354492,
-      "rewards/margins": 8.596394538879395,
-      "rewards/rejected": -14.205065727233887,
-      "step": 420
-    },
-    {
-      "epoch": 0.892579138557343,
-      "grad_norm": 14.422793954218163,
-      "learning_rate": 3.383899445696477e-07,
-      "logits/chosen": 0.6862390637397766,
-      "logits/rejected": 3.530297040939331,
-      "logps/chosen": -932.3873291015625,
-      "logps/rejected": -1817.0745849609375,
-      "loss": 0.129,
-      "rewards/accuracies": 0.921875,
-      "rewards/chosen": -5.5939507484436035,
-      "rewards/margins": 8.62092399597168,
-      "rewards/rejected": -14.214874267578125,
-      "step": 430
-    },
-    {
-      "epoch": 0.9133367929423976,
-      "grad_norm": 17.011117159702987,
-      "learning_rate": 3.2984021763879756e-07,
-      "logits/chosen": 1.3755428791046143,
-      "logits/rejected": 4.330183029174805,
-      "logps/chosen": -1071.127197265625,
-      "logps/rejected": -2124.4716796875,
-      "loss": 0.1488,
-      "rewards/accuracies": 0.9281250238418579,
-      "rewards/chosen": -6.959136009216309,
-      "rewards/margins": 10.387044906616211,
-      "rewards/rejected": -17.346179962158203,
-      "step": 440
-    },
-    {
-      "epoch": 0.934094447327452,
-      "grad_norm": 14.158345398063162,
-      "learning_rate": 3.211851875238408e-07,
-      "logits/chosen": 1.2293100357055664,
-      "logits/rejected": 4.549264430999756,
-      "logps/chosen": -1061.044189453125,
-      "logps/rejected": -2061.3359375,
-      "loss": 0.1387,
-      "rewards/accuracies": 0.940625011920929,
-      "rewards/chosen": -6.939100742340088,
-      "rewards/margins": 9.909866333007812,
-      "rewards/rejected": -16.848966598510742,
-      "step": 450
-    },
-    {
-      "epoch": 0.9548521017125065,
-      "grad_norm": 15.78022665142005,
-      "learning_rate": 3.124362695522476e-07,
-      "logits/chosen": 2.06438946723938,
-      "logits/rejected": 4.793455123901367,
-      "logps/chosen": -1161.7301025390625,
-      "logps/rejected": -2112.584228515625,
-      "loss": 0.1387,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": -7.919003963470459,
-      "rewards/margins": 9.370214462280273,
-      "rewards/rejected": -17.289216995239258,
-      "step": 460
-    },
-    {
-      "epoch": 0.975609756097561,
-      "grad_norm": 14.672366285416803,
-      "learning_rate": 3.036050028824415e-07,
-      "logits/chosen": 1.6745359897613525,
-      "logits/rejected": 4.174818515777588,
-      "logps/chosen": -1067.4365234375,
-      "logps/rejected": -1914.353515625,
-      "loss": 0.1267,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -6.962777137756348,
-      "rewards/margins": 8.22961711883545,
-      "rewards/rejected": -15.192395210266113,
-      "step": 470
-    },
-    {
-      "epoch": 0.9963674104826155,
-      "grad_norm": 10.30547100028778,
-      "learning_rate": 2.9470303528452547e-07,
-      "logits/chosen": 2.291341543197632,
-      "logits/rejected": 4.340534687042236,
-      "logps/chosen": -1134.796630859375,
-      "logps/rejected": -2049.962890625,
-      "loss": 0.1409,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -7.828709602355957,
-      "rewards/margins": 8.853391647338867,
-      "rewards/rejected": -16.68210220336914,
-      "step": 480
-    },
-    {
-      "epoch": 1.01712506486767,
-      "grad_norm": 15.21191565767335,
-      "learning_rate": 2.8574210777775755e-07,
-      "logits/chosen": 2.009263277053833,
-      "logits/rejected": 4.9940924644470215,
-      "logps/chosen": -1182.762939453125,
-      "logps/rejected": -2222.476318359375,
-      "loss": 0.0933,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": -8.175220489501953,
-      "rewards/margins": 10.224291801452637,
-      "rewards/rejected": -18.399513244628906,
-      "step": 490
-    },
-    {
-      "epoch": 1.0378827192527245,
-      "grad_norm": 15.585906686341703,
-      "learning_rate": 2.767340391450384e-07,
-      "logits/chosen": 1.0047972202301025,
-      "logits/rejected": 4.8316521644592285,
-      "logps/chosen": -1162.712646484375,
-      "logps/rejected": -2610.682373046875,
-      "loss": 0.0881,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": -7.991292476654053,
-      "rewards/margins": 14.244958877563477,
-      "rewards/rejected": -22.236251831054688,
-      "step": 500
-    },
-    {
-      "epoch": 1.0378827192527245,
-      "eval_logits/chosen": 1.2345364093780518,
-      "eval_logits/rejected": 4.526747703552246,
-      "eval_logps/chosen": -1257.1658935546875,
-      "eval_logps/rejected": -2547.474853515625,
-      "eval_loss": 0.15922115743160248,
-      "eval_rewards/accuracies": 0.9313725233078003,
-      "eval_rewards/chosen": -8.337576866149902,
-      "eval_rewards/margins": 12.677770614624023,
-      "eval_rewards/rejected": -21.01534652709961,
-      "eval_runtime": 297.9014,
-      "eval_samples_per_second": 21.789,
-      "eval_steps_per_second": 0.342,
-      "step": 500
-    },
-    {
-      "epoch": 1.058640373637779,
-      "grad_norm": 14.041828775113027,
-      "learning_rate": 2.6769071034483407e-07,
-      "logits/chosen": 1.5315182209014893,
-      "logits/rejected": 5.140109062194824,
-      "logps/chosen": -1049.8817138671875,
-      "logps/rejected": -2273.5029296875,
-      "loss": 0.0856,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -6.837597846984863,
-      "rewards/margins": 11.946271896362305,
-      "rewards/rejected": -18.783870697021484,
-      "step": 510
-    },
-    {
-      "epoch": 1.0793980280228335,
-      "grad_norm": 18.45189270725633,
-      "learning_rate": 2.5862404884109365e-07,
-      "logits/chosen": 1.529955267906189,
-      "logits/rejected": 4.867814064025879,
-      "logps/chosen": -1038.77001953125,
-      "logps/rejected": -2317.119384765625,
-      "loss": 0.0826,
-      "rewards/accuracies": 0.949999988079071,
-      "rewards/chosen": -6.80930233001709,
-      "rewards/margins": 12.373517990112305,
-      "rewards/rejected": -19.18282127380371,
-      "step": 520
-    },
-    {
-      "epoch": 1.100155682407888,
-      "grad_norm": 13.857547492254254,
-      "learning_rate": 2.495460128718305e-07,
-      "logits/chosen": 0.9307753443717957,
-      "logits/rejected": 4.540700435638428,
-      "logps/chosen": -1109.2952880859375,
-      "logps/rejected": -2351.9580078125,
-      "loss": 0.0791,
-      "rewards/accuracies": 0.9593750238418579,
-      "rewards/chosen": -7.225480556488037,
-      "rewards/margins": 12.243474006652832,
-      "rewards/rejected": -19.468952178955078,
-      "step": 530
-    },
-    {
-      "epoch": 1.1209133367929425,
-      "grad_norm": 17.715699549300524,
-      "learning_rate": 2.404685756771143e-07,
-      "logits/chosen": 0.9044798612594604,
-      "logits/rejected": 4.5168304443359375,
-      "logps/chosen": -1108.01416015625,
-      "logps/rejected": -2464.59375,
-      "loss": 0.0872,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -7.498801231384277,
-      "rewards/margins": 13.343009948730469,
-      "rewards/rejected": -20.841812133789062,
-      "step": 540
-    },
-    {
-      "epoch": 1.141670991177997,
-      "grad_norm": 11.817665551721014,
-      "learning_rate": 2.314037097072764e-07,
-      "logits/chosen": 1.3692632913589478,
-      "logits/rejected": 4.569345474243164,
-      "logps/chosen": -1150.0703125,
-      "logps/rejected": -2468.03271484375,
-      "loss": 0.0754,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -7.868742942810059,
-      "rewards/margins": 13.00172233581543,
-      "rewards/rejected": -20.870466232299805,
-      "step": 550
-    },
-    {
-      "epoch": 1.1624286455630513,
-      "grad_norm": 13.98618450585046,
-      "learning_rate": 2.2236337083215723e-07,
-      "logits/chosen": 1.508049488067627,
-      "logits/rejected": 5.1392316818237305,
-      "logps/chosen": -1217.515625,
-      "logps/rejected": -2590.57421875,
-      "loss": 0.0853,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": -8.472477912902832,
-      "rewards/margins": 13.660308837890625,
-      "rewards/rejected": -22.13278579711914,
-      "step": 560
-    },
-    {
-      "epoch": 1.183186299948106,
-      "grad_norm": 9.239685997581025,
-      "learning_rate": 2.13359482572222e-07,
-      "logits/chosen": 0.9549428820610046,
-      "logits/rejected": 4.445387363433838,
-      "logps/chosen": -1040.99267578125,
-      "logps/rejected": -2247.80615234375,
-      "loss": 0.0847,
-      "rewards/accuracies": 0.9468749761581421,
-      "rewards/chosen": -6.785864353179932,
-      "rewards/margins": 11.840021133422852,
-      "rewards/rejected": -18.62588882446289,
-      "step": 570
-    },
-    {
-      "epoch": 1.2039439543331603,
-      "grad_norm": 11.315109261026508,
-      "learning_rate": 2.044039203723423e-07,
-      "logits/chosen": 0.5468926429748535,
-      "logits/rejected": 3.945660352706909,
-      "logps/chosen": -1037.985595703125,
-      "logps/rejected": -2178.81103515625,
-      "loss": 0.0889,
-      "rewards/accuracies": 0.953125,
-      "rewards/chosen": -6.750271797180176,
-      "rewards/margins": 11.077262878417969,
-      "rewards/rejected": -17.827533721923828,
-      "step": 580
-    },
-    {
-      "epoch": 1.2247016087182148,
-      "grad_norm": 20.88556623186479,
-      "learning_rate": 1.955084959389864e-07,
-      "logits/chosen": 1.7732290029525757,
-      "logits/rejected": 4.805976867675781,
-      "logps/chosen": -1254.5054931640625,
-      "logps/rejected": -2677.98974609375,
-      "loss": 0.0704,
-      "rewards/accuracies": 0.981249988079071,
-      "rewards/chosen": -9.03892993927002,
-      "rewards/margins": 13.861906051635742,
-      "rewards/rejected": -22.900836944580078,
-      "step": 590
-    },
-    {
-      "epoch": 1.2454592631032693,
-      "grad_norm": 19.615657624738002,
-      "learning_rate": 1.866849416614753e-07,
-      "logits/chosen": 1.4045512676239014,
-      "logits/rejected": 4.72921895980835,
-      "logps/chosen": -1266.108154296875,
-      "logps/rejected": -2709.53857421875,
-      "loss": 0.0774,
-      "rewards/accuracies": 0.9781249761581421,
-      "rewards/chosen": -8.943242073059082,
-      "rewards/margins": 14.16535758972168,
-      "rewards/rejected": -23.108600616455078,
-      "step": 600
-    },
-    {
-      "epoch": 1.2454592631032693,
-      "eval_logits/chosen": 1.1427009105682373,
-      "eval_logits/rejected": 4.037267208099365,
-      "eval_logps/chosen": -1277.8565673828125,
-      "eval_logps/rejected": -2513.811279296875,
-      "eval_loss": 0.15603666007518768,
-      "eval_rewards/accuracies": 0.9325980544090271,
-      "eval_rewards/chosen": -8.544482231140137,
-      "eval_rewards/margins": 12.134225845336914,
-      "eval_rewards/rejected": -20.6787109375,
-      "eval_runtime": 298.0443,
-      "eval_samples_per_second": 21.779,
-      "eval_steps_per_second": 0.342,
-      "step": 600
-    },
-    {
-      "epoch": 1.2662169174883238,
-      "grad_norm": 20.13025478182326,
-      "learning_rate": 1.7794489513785227e-07,
-      "logits/chosen": 1.091370940208435,
-      "logits/rejected": 4.404737949371338,
-      "logps/chosen": -1142.038330078125,
-      "logps/rejected": -2377.242919921875,
-      "loss": 0.0835,
-      "rewards/accuracies": 0.971875011920929,
-      "rewards/chosen": -7.555553436279297,
-      "rewards/margins": 12.173652648925781,
-      "rewards/rejected": -19.729206085205078,
-      "step": 610
-    },
-    {
-      "epoch": 1.2869745718733783,
-      "grad_norm": 10.83536532630756,
-      "learning_rate": 1.692998838257744e-07,
-      "logits/chosen": 1.4595911502838135,
-      "logits/rejected": 4.403286457061768,
-      "logps/chosen": -1153.688720703125,
-      "logps/rejected": -2336.400634765625,
-      "loss": 0.0792,
-      "rewards/accuracies": 0.9781249761581421,
-      "rewards/chosen": -7.824929714202881,
-      "rewards/margins": 11.501016616821289,
-      "rewards/rejected": -19.32594871520996,
-      "step": 620
-    },
-    {
-      "epoch": 1.3077322262584328,
-      "grad_norm": 20.828438171756602,
-      "learning_rate": 1.6076130983867191e-07,
-      "logits/chosen": 1.5300322771072388,
-      "logits/rejected": 4.811184883117676,
-      "logps/chosen": -1134.029296875,
-      "logps/rejected": -2562.76025390625,
-      "loss": 0.076,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -7.6294426918029785,
-      "rewards/margins": 13.96863079071045,
-      "rewards/rejected": -21.59807014465332,
-      "step": 630
-    },
-    {
-      "epoch": 1.3284898806434873,
-      "grad_norm": 18.16265960764559,
-      "learning_rate": 1.5234043490722587e-07,
-      "logits/chosen": 0.9964359402656555,
-      "logits/rejected": 4.313546657562256,
-      "logps/chosen": -1163.1513671875,
-      "logps/rejected": -2395.21923828125,
-      "loss": 0.0823,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": -8.007986068725586,
-      "rewards/margins": 12.177099227905273,
-      "rewards/rejected": -20.185087203979492,
-      "step": 640
-    },
-    {
-      "epoch": 1.3492475350285418,
-      "grad_norm": 20.314345446941065,
-      "learning_rate": 1.44048365526001e-07,
-      "logits/chosen": 1.159566879272461,
-      "logits/rejected": 4.513047695159912,
-      "logps/chosen": -1154.093017578125,
-      "logps/rejected": -2576.34326171875,
-      "loss": 0.0833,
-      "rewards/accuracies": 0.971875011920929,
-      "rewards/chosen": -7.905519962310791,
-      "rewards/margins": 13.832204818725586,
-      "rewards/rejected": -21.73772430419922,
-      "step": 650
-    },
-    {
-      "epoch": 1.3700051894135963,
-      "grad_norm": 16.284929311743372,
-      "learning_rate": 1.3589603830482243e-07,
-      "logits/chosen": 0.8507378697395325,
-      "logits/rejected": 4.674212455749512,
-      "logps/chosen": -1195.9324951171875,
-      "logps/rejected": -2728.91748046875,
-      "loss": 0.0711,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": -8.17365550994873,
-      "rewards/margins": 15.162320137023926,
-      "rewards/rejected": -23.335979461669922,
-      "step": 660
-    },
-    {
-      "epoch": 1.3907628437986508,
-      "grad_norm": 23.91471168720134,
-      "learning_rate": 1.2789420554421821e-07,
-      "logits/chosen": 0.8655555844306946,
-      "logits/rejected": 4.348161220550537,
-      "logps/chosen": -1252.838623046875,
-      "logps/rejected": -2602.3056640625,
-      "loss": 0.0839,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": -8.924249649047852,
-      "rewards/margins": 13.221219062805176,
-      "rewards/rejected": -22.14546775817871,
-      "step": 670
-    },
-    {
-      "epoch": 1.4115204981837053,
-      "grad_norm": 15.367814675454188,
-      "learning_rate": 1.200534210539509e-07,
-      "logits/chosen": 0.17712223529815674,
-      "logits/rejected": 3.673604965209961,
-      "logps/chosen": -1158.31640625,
-      "logps/rejected": -2521.94482421875,
-      "loss": 0.0877,
-      "rewards/accuracies": 0.965624988079071,
-      "rewards/chosen": -7.891541481018066,
-      "rewards/margins": 13.315177917480469,
-      "rewards/rejected": -21.20671844482422,
-      "step": 680
-    },
-    {
-      "epoch": 1.4322781525687598,
-      "grad_norm": 22.079625577964986,
-      "learning_rate": 1.1238402623334492e-07,
-      "logits/chosen": 0.07270300388336182,
-      "logits/rejected": 3.5430798530578613,
-      "logps/chosen": -1109.5074462890625,
-      "logps/rejected": -2462.455078125,
-      "loss": 0.0899,
-      "rewards/accuracies": 0.953125,
-      "rewards/chosen": -7.3517746925354,
-      "rewards/margins": 13.166239738464355,
-      "rewards/rejected": -20.51801109313965,
-      "step": 690
-    },
-    {
-      "epoch": 1.4530358069538143,
-      "grad_norm": 11.289239524989192,
-      "learning_rate": 1.0489613643176479e-07,
-      "logits/chosen": 0.2879738509654999,
-      "logits/rejected": 3.8537840843200684,
-      "logps/chosen": -1176.748779296875,
-      "logps/rejected": -2515.61083984375,
-      "loss": 0.0747,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": -7.953884124755859,
-      "rewards/margins": 13.24780559539795,
-      "rewards/rejected": -21.20168685913086,
-      "step": 700
-    },
-    {
-      "epoch": 1.4530358069538143,
-      "eval_logits/chosen": 0.4988805651664734,
-      "eval_logits/rejected": 3.581174612045288,
-      "eval_logps/chosen": -1308.12939453125,
-      "eval_logps/rejected": -2572.467529296875,
-      "eval_loss": 0.15788544714450836,
-      "eval_rewards/accuracies": 0.9276960492134094,
-      "eval_rewards/chosen": -8.847211837768555,
-      "eval_rewards/margins": 12.418061256408691,
-      "eval_rewards/rejected": -21.265270233154297,
-      "eval_runtime": 296.7811,
-      "eval_samples_per_second": 21.871,
-      "eval_steps_per_second": 0.344,
-      "step": 700
-    },
-    {
-      "epoch": 1.4737934613388686,
-      "grad_norm": 16.700822811969054,
-      "learning_rate": 9.759962760723855e-08,
-      "logits/chosen": 0.7035635113716125,
-      "logits/rejected": 4.354310035705566,
-      "logps/chosen": -1203.5103759765625,
-      "logps/rejected": -2514.58154296875,
-      "loss": 0.0671,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": -8.514452934265137,
-      "rewards/margins": 12.95274543762207,
-      "rewards/rejected": -21.46719741821289,
-      "step": 710
-    },
-    {
-      "epoch": 1.4945511157239233,
-      "grad_norm": 20.004128089517163,
-      "learning_rate": 9.050412330081883e-08,
-      "logits/chosen": 0.296795517206192,
-      "logits/rejected": 4.032415390014648,
-      "logps/chosen": -1271.940185546875,
-      "logps/rejected": -2761.74365234375,
-      "loss": 0.0861,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": -8.98901653289795,
-      "rewards/margins": 14.629063606262207,
-      "rewards/rejected": -23.61808204650879,
-      "step": 720
-    },
-    {
-      "epoch": 1.5153087701089776,
-      "grad_norm": 18.269599252001203,
-      "learning_rate": 8.36189819438625e-08,
-      "logits/chosen": 0.12335433810949326,
-      "logits/rejected": 3.770864963531494,
-      "logps/chosen": -1231.0367431640625,
-      "logps/rejected": -2575.371826171875,
-      "loss": 0.0842,
-      "rewards/accuracies": 0.9593750238418579,
-      "rewards/chosen": -8.523446083068848,
-      "rewards/margins": 13.358665466308594,
-      "rewards/rejected": -21.882112503051758,
-      "step": 730
-    },
-    {
-      "epoch": 1.5360664244940323,
-      "grad_norm": 21.887817722932024,
-      "learning_rate": 7.69532845149711e-08,
-      "logits/chosen": -0.06583809852600098,
-      "logits/rejected": 3.8187732696533203,
-      "logps/chosen": -1204.005615234375,
-      "logps/rejected": -2569.55615234375,
-      "loss": 0.0791,
-      "rewards/accuracies": 0.953125,
-      "rewards/chosen": -8.176721572875977,
-      "rewards/margins": 13.470640182495117,
-      "rewards/rejected": -21.647363662719727,
-      "step": 740
-    },
-    {
-      "epoch": 1.5568240788790866,
-      "grad_norm": 20.92101563028829,
-      "learning_rate": 7.051582256286929e-08,
-      "logits/chosen": 0.0026878931093961,
-      "logits/rejected": 3.554405927658081,
-      "logps/chosen": -1194.286376953125,
-      "logps/rejected": -2548.453125,
-      "loss": 0.0711,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": -8.033935546875,
-      "rewards/margins": 13.331436157226562,
-      "rewards/rejected": -21.365371704101562,
-      "step": 750
-    },
-    {
-      "epoch": 1.5775817332641413,
-      "grad_norm": 18.796351433954527,
-      "learning_rate": 6.431508661101954e-08,
-      "logits/chosen": 0.2032267153263092,
-      "logits/rejected": 3.864830493927002,
-      "logps/chosen": -1201.6220703125,
-      "logps/rejected": -2415.40673828125,
-      "loss": 0.0881,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": -8.291030883789062,
-      "rewards/margins": 12.069987297058105,
-      "rewards/rejected": -20.36101722717285,
-      "step": 760
-    },
-    {
-      "epoch": 1.5983393876491956,
-      "grad_norm": 18.9865340327329,
-      "learning_rate": 5.8359254959266826e-08,
-      "logits/chosen": 0.17426332831382751,
-      "logits/rejected": 3.7378311157226562,
-      "logps/chosen": -1135.3184814453125,
-      "logps/rejected": -2408.099365234375,
-      "loss": 0.0744,
-      "rewards/accuracies": 0.965624988079071,
-      "rewards/chosen": -7.850682258605957,
-      "rewards/margins": 12.461448669433594,
-      "rewards/rejected": -20.312129974365234,
-      "step": 770
-    },
-    {
-      "epoch": 1.61909704203425,
-      "grad_norm": 14.350034716496568,
-      "learning_rate": 5.265618289728199e-08,
-      "logits/chosen": 0.2724596858024597,
-      "logits/rejected": 3.901758909225464,
-      "logps/chosen": -1125.8365478515625,
-      "logps/rejected": -2402.55029296875,
-      "loss": 0.0758,
-      "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": -7.693342685699463,
-      "rewards/margins": 12.453673362731934,
-      "rewards/rejected": -20.147018432617188,
-      "step": 780
-    },
-    {
-      "epoch": 1.6398546964193046,
-      "grad_norm": 16.05161662904945,
-      "learning_rate": 4.721339234403121e-08,
-      "logits/chosen": 0.07050670683383942,
-      "logits/rejected": 3.7205798625946045,
-      "logps/chosen": -1121.5814208984375,
-      "logps/rejected": -2443.16015625,
-      "loss": 0.0857,
-      "rewards/accuracies": 0.971875011920929,
-      "rewards/chosen": -7.602121829986572,
-      "rewards/margins": 12.968803405761719,
-      "rewards/rejected": -20.5709228515625,
-      "step": 790
-    },
-    {
-      "epoch": 1.660612350804359,
-      "grad_norm": 8.47571609534727,
-      "learning_rate": 4.203806192693587e-08,
-      "logits/chosen": 0.38345223665237427,
-      "logits/rejected": 3.6582157611846924,
-      "logps/chosen": -1135.015380859375,
-      "logps/rejected": -2251.6806640625,
-      "loss": 0.0811,
-      "rewards/accuracies": 0.965624988079071,
-      "rewards/chosen": -7.660782814025879,
-      "rewards/margins": 10.944924354553223,
-      "rewards/rejected": -18.6057071685791,
-      "step": 800
-    },
-    {
-      "epoch": 1.660612350804359,
-      "eval_logits/chosen": 0.2172178030014038,
-      "eval_logits/rejected": 3.254581928253174,
-      "eval_logps/chosen": -1261.5126953125,
-      "eval_logps/rejected": -2436.340576171875,
-      "eval_loss": 0.15446949005126953,
-      "eval_rewards/accuracies": 0.9289215803146362,
-      "eval_rewards/chosen": -8.381046295166016,
-      "eval_rewards/margins": 11.522958755493164,
-      "eval_rewards/rejected": -19.90400505065918,
-      "eval_runtime": 297.9226,
-      "eval_samples_per_second": 21.788,
-      "eval_steps_per_second": 0.342,
-      "step": 800
-    },
-    {
-      "epoch": 1.6813700051894136,
-      "grad_norm": 11.983781457709991,
-      "learning_rate": 3.7137017513808544e-08,
-      "logits/chosen": 0.1190919280052185,
-      "logits/rejected": 3.681546449661255,
-      "logps/chosen": -1151.4061279296875,
-      "logps/rejected": -2382.40966796875,
-      "loss": 0.0787,
-      "rewards/accuracies": 0.9593750238418579,
-      "rewards/chosen": -7.798292636871338,
-      "rewards/margins": 12.149864196777344,
-      "rewards/rejected": -19.94815444946289,
-      "step": 810
-    },
-    {
-      "epoch": 1.702127659574468,
-      "grad_norm": 15.404111765676271,
-      "learning_rate": 3.251672321005147e-08,
-      "logits/chosen": 0.0303075909614563,
-      "logits/rejected": 3.4457364082336426,
-      "logps/chosen": -1154.9154052734375,
-      "logps/rejected": -2477.01220703125,
-      "loss": 0.0781,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -7.82059383392334,
-      "rewards/margins": 12.896100044250488,
-      "rewards/rejected": -20.716693878173828,
-      "step": 820
-    },
-    {
-      "epoch": 1.7228853139595226,
-      "grad_norm": 18.5892582498577,
-      "learning_rate": 2.8183272832992267e-08,
-      "logits/chosen": 0.05088377743959427,
-      "logits/rejected": 3.3782405853271484,
-      "logps/chosen": -1138.544921875,
-      "logps/rejected": -2476.583984375,
-      "loss": 0.0781,
-      "rewards/accuracies": 0.953125,
-      "rewards/chosen": -7.821805000305176,
-      "rewards/margins": 13.025341987609863,
-      "rewards/rejected": -20.847145080566406,
-      "step": 830
-    },
-    {
-      "epoch": 1.743642968344577,
-      "grad_norm": 15.008344755715465,
-      "learning_rate": 2.414238187460191e-08,
-      "logits/chosen": 0.09483002126216888,
-      "logits/rejected": 3.978058338165283,
-      "logps/chosen": -1192.2017822265625,
-      "logps/rejected": -2495.4228515625,
-      "loss": 0.0809,
-      "rewards/accuracies": 0.965624988079071,
-      "rewards/chosen": -8.194788932800293,
-      "rewards/margins": 12.927266120910645,
-      "rewards/rejected": -21.122053146362305,
-      "step": 840
-    },
-    {
-      "epoch": 1.7644006227296316,
-      "grad_norm": 18.202201847253505,
-      "learning_rate": 2.0399379963194713e-08,
-      "logits/chosen": 0.28226789832115173,
-      "logits/rejected": 4.104235649108887,
-      "logps/chosen": -1198.5599365234375,
-      "logps/rejected": -2697.082275390625,
-      "loss": 0.0726,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": -8.269991874694824,
-      "rewards/margins": 14.753326416015625,
-      "rewards/rejected": -23.0233154296875,
-      "step": 850
-    },
-    {
-      "epoch": 1.7851582771146859,
-      "grad_norm": 12.20972861300344,
-      "learning_rate": 1.695920383405322e-08,
-      "logits/chosen": 0.1344248354434967,
-      "logits/rejected": 3.7496190071105957,
-      "logps/chosen": -1236.697509765625,
-      "logps/rejected": -2696.864990234375,
-      "loss": 0.0834,
-      "rewards/accuracies": 0.971875011920929,
-      "rewards/chosen": -8.43194580078125,
-      "rewards/margins": 14.396467208862305,
-      "rewards/rejected": -22.828411102294922,
-      "step": 860
-    },
-    {
-      "epoch": 1.8059159314997406,
-      "grad_norm": 23.070004800505263,
-      "learning_rate": 1.3826390818249434e-08,
-      "logits/chosen": 0.2998521625995636,
-      "logits/rejected": 3.7659850120544434,
-      "logps/chosen": -1205.6510009765625,
-      "logps/rejected": -2611.88525390625,
-      "loss": 0.0866,
-      "rewards/accuracies": 0.965624988079071,
-      "rewards/chosen": -8.398554801940918,
-      "rewards/margins": 13.68336296081543,
-      "rewards/rejected": -22.081918716430664,
-      "step": 870
-    },
-    {
-      "epoch": 1.826673585884795,
-      "grad_norm": 12.610473638421219,
-      "learning_rate": 1.1005072858249614e-08,
-      "logits/chosen": 0.12997238337993622,
-      "logits/rejected": 3.8439629077911377,
-      "logps/chosen": -1214.625,
-      "logps/rejected": -2609.048583984375,
-      "loss": 0.0713,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -8.35765266418457,
-      "rewards/margins": 13.758280754089355,
-      "rewards/rejected": -22.11593246459961,
-      "step": 880
-    },
-    {
-      "epoch": 1.8474312402698496,
-      "grad_norm": 17.876398721018592,
-      "learning_rate": 8.498971058195886e-09,
-      "logits/chosen": 0.18721507489681244,
-      "logits/rejected": 3.927520275115967,
-      "logps/chosen": -1229.69482421875,
-      "logps/rejected": -2654.132568359375,
-      "loss": 0.0685,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -8.53508472442627,
-      "rewards/margins": 14.071182250976562,
-      "rewards/rejected": -22.606266021728516,
-      "step": 890
-    },
-    {
-      "epoch": 1.868188894654904,
-      "grad_norm": 16.34958614861239,
-      "learning_rate": 6.311390776052527e-09,
-      "logits/chosen": 0.20388635993003845,
-      "logits/rejected": 3.8464550971984863,
-      "logps/chosen": -1190.66064453125,
-      "logps/rejected": -2582.68212890625,
-      "loss": 0.069,
-      "rewards/accuracies": 0.953125,
-      "rewards/chosen": -8.267062187194824,
-      "rewards/margins": 13.608221054077148,
-      "rewards/rejected": -21.87528419494629,
-      "step": 900
-    },
-    {
-      "epoch": 1.868188894654904,
-      "eval_logits/chosen": 0.2562587261199951,
-      "eval_logits/rejected": 3.369171380996704,
-      "eval_logps/chosen": -1345.178955078125,
-      "eval_logps/rejected": -2644.793701171875,
-      "eval_loss": 0.1591682732105255,
-      "eval_rewards/accuracies": 0.9325980544090271,
-      "eval_rewards/chosen": -9.217706680297852,
-      "eval_rewards/margins": 12.770830154418945,
-      "eval_rewards/rejected": -21.988536834716797,
-      "eval_runtime": 297.6019,
-      "eval_samples_per_second": 21.811,
-      "eval_steps_per_second": 0.343,
-      "step": 900
-    },
-    {
-      "epoch": 1.8889465490399586,
-      "grad_norm": 17.144158000944817,
-      "learning_rate": 4.445217264089751e-09,
-      "logits/chosen": 0.10267569869756699,
-      "logits/rejected": 4.0425705909729,
-      "logps/chosen": -1188.369873046875,
-      "logps/rejected": -2630.327392578125,
-      "loss": 0.0659,
-      "rewards/accuracies": 0.971875011920929,
-      "rewards/chosen": -8.262983322143555,
-      "rewards/margins": 14.21807861328125,
-      "rewards/rejected": -22.481060028076172,
-      "step": 910
-    },
-    {
-      "epoch": 1.909704203425013,
-      "grad_norm": 16.781554983940616,
-      "learning_rate": 2.902911863455121e-09,
-      "logits/chosen": 0.2743522524833679,
-      "logits/rejected": 4.136692047119141,
-      "logps/chosen": -1213.719970703125,
-      "logps/rejected": -2728.411376953125,
-      "loss": 0.0767,
-      "rewards/accuracies": 0.9750000238418579,
-      "rewards/chosen": -8.522599220275879,
-      "rewards/margins": 14.904146194458008,
-      "rewards/rejected": -23.42674446105957,
-      "step": 920
-    },
-    {
-      "epoch": 1.9304618578100676,
-      "grad_norm": 23.227111674511338,
-      "learning_rate": 1.686508757851507e-09,
-      "logits/chosen": 0.2027033567428589,
-      "logits/rejected": 3.8271079063415527,
-      "logps/chosen": -1229.591796875,
-      "logps/rejected": -2668.19970703125,
-      "loss": 0.0872,
-      "rewards/accuracies": 0.965624988079071,
-      "rewards/chosen": -8.599322319030762,
-      "rewards/margins": 14.134483337402344,
-      "rewards/rejected": -22.733806610107422,
-      "step": 930
-    },
-    {
-      "epoch": 1.951219512195122,
-      "grad_norm": 22.90252956159655,
-      "learning_rate": 7.976122906031557e-10,
-      "logits/chosen": 0.30234938859939575,
-      "logits/rejected": 3.9263412952423096,
-      "logps/chosen": -1212.529541015625,
-      "logps/rejected": -2572.277587890625,
-      "loss": 0.087,
-      "rewards/accuracies": 0.9593750238418579,
-      "rewards/chosen": -8.438420295715332,
-      "rewards/margins": 13.364117622375488,
-      "rewards/rejected": -21.802536010742188,
-      "step": 940
-    },
-    {
-      "epoch": 1.9719771665801764,
-      "grad_norm": 17.95357887786745,
-      "learning_rate": 2.37394848648792e-10,
-      "logits/chosen": 0.09388472139835358,
-      "logits/rejected": 3.5805296897888184,
-      "logps/chosen": -1182.0406494140625,
-      "logps/rejected": -2537.778564453125,
-      "loss": 0.0821,
-      "rewards/accuracies": 0.956250011920929,
-      "rewards/chosen": -8.203265190124512,
-      "rewards/margins": 13.360048294067383,
-      "rewards/rejected": -21.56331443786621,
-      "step": 950
-    },
-    {
-      "epoch": 1.992734820965231,
-      "grad_norm": 18.37972352009023,
-      "learning_rate": 6.5953162521614755e-12,
-      "logits/chosen": 0.16293412446975708,
-      "logits/rejected": 3.703944444656372,
-      "logps/chosen": -1242.895751953125,
-      "logps/rejected": -2706.61279296875,
-      "loss": 0.0738,
-      "rewards/accuracies": 0.981249988079071,
-      "rewards/chosen": -8.82257080078125,
-      "rewards/margins": 14.438652038574219,
-      "rewards/rejected": -23.261220932006836,
-      "step": 960
-    },
-    {
-      "epoch": 1.996886351842242,
-      "step": 962,
       "total_flos": 0.0,
-      "train_loss": 0.15826490898606932,
-      "train_runtime": 30237.5544,
-      "train_samples_per_second": 8.156,
-      "train_steps_per_second": 0.032
     }
   ],
   "logging_steps": 10,
-  "max_steps": 962,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 240,
+  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "learning_rate": 5e-07,
+      "logits/chosen": -2.766833543777466,
+      "logits/rejected": -2.7548677921295166,
+      "logps/chosen": -492.5103759765625,
+      "logps/rejected": -501.75994873046875,
+      "loss": 0.1733,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 2.0,
+      "step": 2,
       "total_flos": 0.0,
+      "train_loss": 0.1732867956161499,
+      "train_runtime": 97.0028,
+      "train_samples_per_second": 1.031,
+      "train_steps_per_second": 0.021
     }
   ],
   "logging_steps": 10,
+  "max_steps": 2,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
+  "save_steps": 240,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {