End of training

Browse files

Files changed (6) hide show

README.md +64 -0
all_results.json +9 -0
config.json +1 -1
generation_config.json +14 -0
train_results.json +9 -0
trainer_state.json +945 -0

README.md ADDED Viewed

	@@ -0,0 +1,64 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: yiran-wang3/qwen2_chat_reflct_adamw_iter3
+tags:
+- alignment-handbook
+- generated_from_trainer
+- trl
+- dpo
+datasets:
+- self-generate/qw2_reflct_sppo_hard_new_cn_mining_oj_iter3-binarized-reflection-scored
+model-index:
+- name: qwen2_chat_reflct_adamw_iter4
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen2_chat_reflct_adamw_iter4
+This model is a fine-tuned version of [yiran-wang3/qwen2_chat_reflct_adamw_iter3](https://huggingface.co/yiran-wang3/qwen2_chat_reflct_adamw_iter3) on the self-generate/qw2_reflct_sppo_hard_new_cn_mining_oj_iter3-binarized-reflection-scored dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.45.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.14.6
+- Tokenizers 0.20.2

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.489490317743878,
+    "train_runtime": 149.7969,
+    "train_samples": 2744,
+    "train_samples_per_second": 18.318,
+    "train_steps_per_second": 0.287
+}

config.json CHANGED Viewed

@@ -23,7 +23,7 @@
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
-  "use_cache": false,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
+  "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.45.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.489490317743878,
+    "train_runtime": 149.7969,
+    "train_samples": 2744,
+    "train_samples_per_second": 18.318,
+    "train_steps_per_second": 0.287
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,945 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 43,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "debug/policy_chosen_logits": -1.5687581300735474,
+      "debug/policy_chosen_logps": -240.2513427734375,
+      "debug/policy_rejected_logits": -1.6221139430999756,
+      "debug/policy_rejected_logps": -264.4752197265625,
+      "debug/reference_chosen_logps": -240.2513427734375,
+      "debug/reference_rejected_logps": -264.4752197265625,
+      "epoch": 0.023255813953488372,
+      "grad_norm": 14.314275545525218,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5687581300735474,
+      "logits/rejected": -1.6221139430999756,
+      "logps/chosen": -240.2513427734375,
+      "logps/rejected": -264.4752197265625,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "debug/policy_chosen_logits": -1.4775172472000122,
+      "debug/policy_chosen_logps": -235.343994140625,
+      "debug/policy_rejected_logits": -1.3492165803909302,
+      "debug/policy_rejected_logps": -283.1033935546875,
+      "debug/reference_chosen_logps": -234.93467712402344,
+      "debug/reference_rejected_logps": -283.2170104980469,
+      "epoch": 0.046511627906976744,
+      "grad_norm": 18.67922014806989,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4775172472000122,
+      "logits/rejected": -1.3492165803909302,
+      "logps/chosen": -235.343994140625,
+      "logps/rejected": -283.1033935546875,
+      "loss": 0.4959,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.004093170166015625,
+      "rewards/margins": -0.005229205824434757,
+      "rewards/rejected": 0.0011360361240804195,
+      "step": 2
+    },
+    {
+      "debug/policy_chosen_logits": -1.6865235567092896,
+      "debug/policy_chosen_logps": -230.66635131835938,
+      "debug/policy_rejected_logits": -1.6258912086486816,
+      "debug/policy_rejected_logps": -228.0758514404297,
+      "debug/reference_chosen_logps": -225.64306640625,
+      "debug/reference_rejected_logps": -223.4805908203125,
+      "epoch": 0.06976744186046512,
+      "grad_norm": 25.946369831783773,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6865235567092896,
+      "logits/rejected": -1.6258912086486816,
+      "logps/chosen": -230.66635131835938,
+      "logps/rejected": -228.0758514404297,
+      "loss": 0.5069,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.050232600420713425,
+      "rewards/margins": -0.004280166234821081,
+      "rewards/rejected": -0.04595243185758591,
+      "step": 3
+    },
+    {
+      "debug/policy_chosen_logits": -1.6345511674880981,
+      "debug/policy_chosen_logps": -230.35598754882812,
+      "debug/policy_rejected_logits": -1.594412088394165,
+      "debug/policy_rejected_logps": -235.36544799804688,
+      "debug/reference_chosen_logps": -227.8475799560547,
+      "debug/reference_rejected_logps": -230.77169799804688,
+      "epoch": 0.09302325581395349,
+      "grad_norm": 12.562991726069878,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6345511674880981,
+      "logits/rejected": -1.594412088394165,
+      "logps/chosen": -230.35598754882812,
+      "logps/rejected": -235.36544799804688,
+      "loss": 0.4907,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.025084247812628746,
+      "rewards/margins": 0.02085309848189354,
+      "rewards/rejected": -0.045937344431877136,
+      "step": 4
+    },
+    {
+      "debug/policy_chosen_logits": -1.5187644958496094,
+      "debug/policy_chosen_logps": -209.38815307617188,
+      "debug/policy_rejected_logits": -1.5565170049667358,
+      "debug/policy_rejected_logps": -261.0048522949219,
+      "debug/reference_chosen_logps": -204.9683837890625,
+      "debug/reference_rejected_logps": -256.2153015136719,
+      "epoch": 0.11627906976744186,
+      "grad_norm": 42.7709320228073,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5187644958496094,
+      "logits/rejected": -1.5565170049667358,
+      "logps/chosen": -209.38815307617188,
+      "logps/rejected": -261.0048522949219,
+      "loss": 0.5197,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.04419763758778572,
+      "rewards/margins": 0.0036978721618652344,
+      "rewards/rejected": -0.04789550602436066,
+      "step": 5
+    },
+    {
+      "debug/policy_chosen_logits": -1.654346227645874,
+      "debug/policy_chosen_logps": -208.22152709960938,
+      "debug/policy_rejected_logits": -1.472536325454712,
+      "debug/policy_rejected_logps": -277.9122314453125,
+      "debug/reference_chosen_logps": -208.6928253173828,
+      "debug/reference_rejected_logps": -277.05023193359375,
+      "epoch": 0.13953488372093023,
+      "grad_norm": 18.148530267479675,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.654346227645874,
+      "logits/rejected": -1.472536325454712,
+      "logps/chosen": -208.22152709960938,
+      "logps/rejected": -277.9122314453125,
+      "loss": 0.507,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0047130584716796875,
+      "rewards/margins": 0.013332920148968697,
+      "rewards/rejected": -0.008619861677289009,
+      "step": 6
+    },
+    {
+      "debug/policy_chosen_logits": -1.619295597076416,
+      "debug/policy_chosen_logps": -240.17440795898438,
+      "debug/policy_rejected_logits": -1.5930582284927368,
+      "debug/policy_rejected_logps": -303.7572326660156,
+      "debug/reference_chosen_logps": -240.71119689941406,
+      "debug/reference_rejected_logps": -304.2488708496094,
+      "epoch": 0.16279069767441862,
+      "grad_norm": 18.12592422181744,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.619295597076416,
+      "logits/rejected": -1.5930582284927368,
+      "logps/chosen": -240.17440795898438,
+      "logps/rejected": -303.7572326660156,
+      "loss": 0.5014,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.005367736332118511,
+      "rewards/margins": 0.0004512788727879524,
+      "rewards/rejected": 0.004916457924991846,
+      "step": 7
+    },
+    {
+      "debug/policy_chosen_logits": -1.5426918268203735,
+      "debug/policy_chosen_logps": -242.49334716796875,
+      "debug/policy_rejected_logits": -1.515419363975525,
+      "debug/policy_rejected_logps": -246.33676147460938,
+      "debug/reference_chosen_logps": -245.80419921875,
+      "debug/reference_rejected_logps": -248.84983825683594,
+      "epoch": 0.18604651162790697,
+      "grad_norm": 37.16270378133235,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5426918268203735,
+      "logits/rejected": -1.515419363975525,
+      "logps/chosen": -242.49334716796875,
+      "logps/rejected": -246.33676147460938,
+      "loss": 0.4963,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.03310825303196907,
+      "rewards/margins": 0.007977409288287163,
+      "rewards/rejected": 0.02513084188103676,
+      "step": 8
+    },
+    {
+      "debug/policy_chosen_logits": -1.5298963785171509,
+      "debug/policy_chosen_logps": -225.92041015625,
+      "debug/policy_rejected_logits": -1.4147241115570068,
+      "debug/policy_rejected_logps": -270.5355224609375,
+      "debug/reference_chosen_logps": -228.79443359375,
+      "debug/reference_rejected_logps": -272.68603515625,
+      "epoch": 0.20930232558139536,
+      "grad_norm": 18.861065558487233,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5298963785171509,
+      "logits/rejected": -1.4147241115570068,
+      "logps/chosen": -225.92041015625,
+      "logps/rejected": -270.5355224609375,
+      "loss": 0.5,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0287402905523777,
+      "rewards/margins": 0.007235164754092693,
+      "rewards/rejected": 0.021505124866962433,
+      "step": 9
+    },
+    {
+      "debug/policy_chosen_logits": -1.5066547393798828,
+      "debug/policy_chosen_logps": -216.030517578125,
+      "debug/policy_rejected_logits": -1.4625401496887207,
+      "debug/policy_rejected_logps": -217.58367919921875,
+      "debug/reference_chosen_logps": -219.08502197265625,
+      "debug/reference_rejected_logps": -219.8885955810547,
+      "epoch": 0.23255813953488372,
+      "grad_norm": 12.691840821738246,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5066547393798828,
+      "logits/rejected": -1.4625401496887207,
+      "logps/chosen": -216.030517578125,
+      "logps/rejected": -217.58367919921875,
+      "loss": 0.4982,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.030545100569725037,
+      "rewards/margins": 0.007496070582419634,
+      "rewards/rejected": 0.02304903045296669,
+      "step": 10
+    },
+    {
+      "debug/policy_chosen_logits": -1.6109825372695923,
+      "debug/policy_chosen_logps": -194.70681762695312,
+      "debug/policy_rejected_logits": -1.5127055644989014,
+      "debug/policy_rejected_logps": -261.20880126953125,
+      "debug/reference_chosen_logps": -200.0032958984375,
+      "debug/reference_rejected_logps": -264.6978454589844,
+      "epoch": 0.2558139534883721,
+      "grad_norm": 34.88211840288691,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6109825372695923,
+      "logits/rejected": -1.5127055644989014,
+      "logps/chosen": -194.70681762695312,
+      "logps/rejected": -261.20880126953125,
+      "loss": 0.5055,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.05296493321657181,
+      "rewards/margins": 0.018074415624141693,
+      "rewards/rejected": 0.034890517592430115,
+      "step": 11
+    },
+    {
+      "debug/policy_chosen_logits": -1.644713282585144,
+      "debug/policy_chosen_logps": -242.20831298828125,
+      "debug/policy_rejected_logits": -1.6428948640823364,
+      "debug/policy_rejected_logps": -256.0648498535156,
+      "debug/reference_chosen_logps": -245.20326232910156,
+      "debug/reference_rejected_logps": -257.87481689453125,
+      "epoch": 0.27906976744186046,
+      "grad_norm": 24.62141741438646,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.644713282585144,
+      "logits/rejected": -1.6428948640823364,
+      "logps/chosen": -242.20831298828125,
+      "logps/rejected": -256.0648498535156,
+      "loss": 0.507,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.029949625954031944,
+      "rewards/margins": 0.0118501465767622,
+      "rewards/rejected": 0.018099479377269745,
+      "step": 12
+    },
+    {
+      "debug/policy_chosen_logits": -1.6160894632339478,
+      "debug/policy_chosen_logps": -227.63302612304688,
+      "debug/policy_rejected_logits": -1.6384341716766357,
+      "debug/policy_rejected_logps": -264.2388916015625,
+      "debug/reference_chosen_logps": -230.62490844726562,
+      "debug/reference_rejected_logps": -264.9801025390625,
+      "epoch": 0.3023255813953488,
+      "grad_norm": 10.776881537717472,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6160894632339478,
+      "logits/rejected": -1.6384341716766357,
+      "logps/chosen": -227.63302612304688,
+      "logps/rejected": -264.2388916015625,
+      "loss": 0.4976,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.029918955639004707,
+      "rewards/margins": 0.022506674751639366,
+      "rewards/rejected": 0.007412281818687916,
+      "step": 13
+    },
+    {
+      "debug/policy_chosen_logits": -1.6279401779174805,
+      "debug/policy_chosen_logps": -220.282958984375,
+      "debug/policy_rejected_logits": -1.4893845319747925,
+      "debug/policy_rejected_logps": -272.10931396484375,
+      "debug/reference_chosen_logps": -222.31028747558594,
+      "debug/reference_rejected_logps": -272.71044921875,
+      "epoch": 0.32558139534883723,
+      "grad_norm": 10.036756062227226,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6279401779174805,
+      "logits/rejected": -1.4893845319747925,
+      "logps/chosen": -220.282958984375,
+      "logps/rejected": -272.10931396484375,
+      "loss": 0.4935,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.020273476839065552,
+      "rewards/margins": 0.014262351207435131,
+      "rewards/rejected": 0.006011123303323984,
+      "step": 14
+    },
+    {
+      "debug/policy_chosen_logits": -1.5787980556488037,
+      "debug/policy_chosen_logps": -261.0044250488281,
+      "debug/policy_rejected_logits": -1.3867720365524292,
+      "debug/policy_rejected_logps": -301.5718994140625,
+      "debug/reference_chosen_logps": -258.84735107421875,
+      "debug/reference_rejected_logps": -297.58404541015625,
+      "epoch": 0.3488372093023256,
+      "grad_norm": 10.65558553278192,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5787980556488037,
+      "logits/rejected": -1.3867720365524292,
+      "logps/chosen": -261.0044250488281,
+      "logps/rejected": -301.5718994140625,
+      "loss": 0.4873,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.021570798009634018,
+      "rewards/margins": 0.018307799473404884,
+      "rewards/rejected": -0.03987859562039375,
+      "step": 15
+    },
+    {
+      "debug/policy_chosen_logits": -1.5956577062606812,
+      "debug/policy_chosen_logps": -222.5416259765625,
+      "debug/policy_rejected_logits": -1.4434815645217896,
+      "debug/policy_rejected_logps": -279.348388671875,
+      "debug/reference_chosen_logps": -221.23260498046875,
+      "debug/reference_rejected_logps": -273.97540283203125,
+      "epoch": 0.37209302325581395,
+      "grad_norm": 36.49853384207237,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5956577062606812,
+      "logits/rejected": -1.4434815645217896,
+      "logps/chosen": -222.5416259765625,
+      "logps/rejected": -279.348388671875,
+      "loss": 0.5003,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.013090074062347412,
+      "rewards/margins": 0.040639691054821014,
+      "rewards/rejected": -0.053729765117168427,
+      "step": 16
+    },
+    {
+      "debug/policy_chosen_logits": -1.4420965909957886,
+      "debug/policy_chosen_logps": -215.4423828125,
+      "debug/policy_rejected_logits": -1.5232738256454468,
+      "debug/policy_rejected_logps": -288.1341552734375,
+      "debug/reference_chosen_logps": -213.68832397460938,
+      "debug/reference_rejected_logps": -286.45086669921875,
+      "epoch": 0.3953488372093023,
+      "grad_norm": 24.203474268576745,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4420965909957886,
+      "logits/rejected": -1.5232738256454468,
+      "logps/chosen": -215.4423828125,
+      "logps/rejected": -288.1341552734375,
+      "loss": 0.4918,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.01754041761159897,
+      "rewards/margins": -0.0007077232003211975,
+      "rewards/rejected": -0.01683269441127777,
+      "step": 17
+    },
+    {
+      "debug/policy_chosen_logits": -1.4279348850250244,
+      "debug/policy_chosen_logps": -242.89749145507812,
+      "debug/policy_rejected_logits": -1.3261935710906982,
+      "debug/policy_rejected_logps": -230.28863525390625,
+      "debug/reference_chosen_logps": -240.6783447265625,
+      "debug/reference_rejected_logps": -226.51815795898438,
+      "epoch": 0.4186046511627907,
+      "grad_norm": 44.37824041962939,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4279348850250244,
+      "logits/rejected": -1.3261935710906982,
+      "logps/chosen": -242.89749145507812,
+      "logps/rejected": -230.28863525390625,
+      "loss": 0.5044,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.022191638126969337,
+      "rewards/margins": 0.01551321055740118,
+      "rewards/rejected": -0.03770485147833824,
+      "step": 18
+    },
+    {
+      "debug/policy_chosen_logits": -1.58405339717865,
+      "debug/policy_chosen_logps": -236.5458984375,
+      "debug/policy_rejected_logits": -1.5539088249206543,
+      "debug/policy_rejected_logps": -233.43719482421875,
+      "debug/reference_chosen_logps": -236.3321533203125,
+      "debug/reference_rejected_logps": -231.97726440429688,
+      "epoch": 0.4418604651162791,
+      "grad_norm": 12.540633658003186,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.58405339717865,
+      "logits/rejected": -1.5539088249206543,
+      "logps/chosen": -236.5458984375,
+      "logps/rejected": -233.43719482421875,
+      "loss": 0.5059,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.002137584611773491,
+      "rewards/margins": 0.012461718171834946,
+      "rewards/rejected": -0.014599304646253586,
+      "step": 19
+    },
+    {
+      "debug/policy_chosen_logits": -1.466562032699585,
+      "debug/policy_chosen_logps": -194.52447509765625,
+      "debug/policy_rejected_logits": -1.4163392782211304,
+      "debug/policy_rejected_logps": -237.53216552734375,
+      "debug/reference_chosen_logps": -194.98049926757812,
+      "debug/reference_rejected_logps": -237.75314331054688,
+      "epoch": 0.46511627906976744,
+      "grad_norm": 14.133924214011163,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.466562032699585,
+      "logits/rejected": -1.4163392782211304,
+      "logps/chosen": -194.52447509765625,
+      "logps/rejected": -237.53216552734375,
+      "loss": 0.4895,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.004560394212603569,
+      "rewards/margins": 0.00235048308968544,
+      "rewards/rejected": 0.0022099113557487726,
+      "step": 20
+    },
+    {
+      "debug/policy_chosen_logits": -1.5900827646255493,
+      "debug/policy_chosen_logps": -212.4789276123047,
+      "debug/policy_rejected_logits": -1.4683177471160889,
+      "debug/policy_rejected_logps": -257.5311279296875,
+      "debug/reference_chosen_logps": -211.9457550048828,
+      "debug/reference_rejected_logps": -254.302490234375,
+      "epoch": 0.4883720930232558,
+      "grad_norm": 17.882111129846162,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5900827646255493,
+      "logits/rejected": -1.4683177471160889,
+      "logps/chosen": -212.4789276123047,
+      "logps/rejected": -257.5311279296875,
+      "loss": 0.4799,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.00533168762922287,
+      "rewards/margins": 0.026954688131809235,
+      "rewards/rejected": -0.032286375761032104,
+      "step": 21
+    },
+    {
+      "debug/policy_chosen_logits": -1.4656310081481934,
+      "debug/policy_chosen_logps": -263.0152282714844,
+      "debug/policy_rejected_logits": -1.3645009994506836,
+      "debug/policy_rejected_logps": -283.24566650390625,
+      "debug/reference_chosen_logps": -262.25970458984375,
+      "debug/reference_rejected_logps": -280.8420715332031,
+      "epoch": 0.5116279069767442,
+      "grad_norm": 17.255770475731207,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4656310081481934,
+      "logits/rejected": -1.3645009994506836,
+      "logps/chosen": -263.0152282714844,
+      "logps/rejected": -283.24566650390625,
+      "loss": 0.479,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.007554950192570686,
+      "rewards/margins": 0.01648113504052162,
+      "rewards/rejected": -0.02403608150780201,
+      "step": 22
+    },
+    {
+      "debug/policy_chosen_logits": -1.4521846771240234,
+      "debug/policy_chosen_logps": -216.39169311523438,
+      "debug/policy_rejected_logits": -1.3643300533294678,
+      "debug/policy_rejected_logps": -281.2818603515625,
+      "debug/reference_chosen_logps": -223.86587524414062,
+      "debug/reference_rejected_logps": -278.6108703613281,
+      "epoch": 0.5348837209302325,
+      "grad_norm": 22.42065485842657,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4521846771240234,
+      "logits/rejected": -1.3643300533294678,
+      "logps/chosen": -216.39169311523438,
+      "logps/rejected": -281.2818603515625,
+      "loss": 0.4761,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.07474187761545181,
+      "rewards/margins": 0.10145200788974762,
+      "rewards/rejected": -0.02671012654900551,
+      "step": 23
+    },
+    {
+      "debug/policy_chosen_logits": -1.596596121788025,
+      "debug/policy_chosen_logps": -240.6717987060547,
+      "debug/policy_rejected_logits": -1.5593181848526,
+      "debug/policy_rejected_logps": -339.8119812011719,
+      "debug/reference_chosen_logps": -242.0146484375,
+      "debug/reference_rejected_logps": -335.9112548828125,
+      "epoch": 0.5581395348837209,
+      "grad_norm": 15.69048628226096,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.596596121788025,
+      "logits/rejected": -1.5593181848526,
+      "logps/chosen": -240.6717987060547,
+      "logps/rejected": -339.8119812011719,
+      "loss": 0.4765,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.013428498059511185,
+      "rewards/margins": 0.05243583396077156,
+      "rewards/rejected": -0.039007339626550674,
+      "step": 24
+    },
+    {
+      "debug/policy_chosen_logits": -1.5627775192260742,
+      "debug/policy_chosen_logps": -243.03045654296875,
+      "debug/policy_rejected_logits": -1.5146582126617432,
+      "debug/policy_rejected_logps": -339.4427490234375,
+      "debug/reference_chosen_logps": -244.926513671875,
+      "debug/reference_rejected_logps": -337.1531982421875,
+      "epoch": 0.5813953488372093,
+      "grad_norm": 23.599376538578916,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5627775192260742,
+      "logits/rejected": -1.5146582126617432,
+      "logps/chosen": -243.03045654296875,
+      "logps/rejected": -339.4427490234375,
+      "loss": 0.4976,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.018960533663630486,
+      "rewards/margins": 0.04185573384165764,
+      "rewards/rejected": -0.02289520390331745,
+      "step": 25
+    },
+    {
+      "debug/policy_chosen_logits": -1.4482909440994263,
+      "debug/policy_chosen_logps": -243.66656494140625,
+      "debug/policy_rejected_logits": -1.3864490985870361,
+      "debug/policy_rejected_logps": -269.7567138671875,
+      "debug/reference_chosen_logps": -243.5550079345703,
+      "debug/reference_rejected_logps": -265.46270751953125,
+      "epoch": 0.6046511627906976,
+      "grad_norm": 15.856946618319062,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4482909440994263,
+      "logits/rejected": -1.3864490985870361,
+      "logps/chosen": -243.66656494140625,
+      "logps/rejected": -269.7567138671875,
+      "loss": 0.4718,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.001115493942052126,
+      "rewards/margins": 0.04182462394237518,
+      "rewards/rejected": -0.04294012114405632,
+      "step": 26
+    },
+    {
+      "debug/policy_chosen_logits": -1.6767849922180176,
+      "debug/policy_chosen_logps": -235.87283325195312,
+      "debug/policy_rejected_logits": -1.4402155876159668,
+      "debug/policy_rejected_logps": -255.25155639648438,
+      "debug/reference_chosen_logps": -234.12271118164062,
+      "debug/reference_rejected_logps": -252.92681884765625,
+      "epoch": 0.627906976744186,
+      "grad_norm": 26.8171661009806,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6767849922180176,
+      "logits/rejected": -1.4402155876159668,
+      "logps/chosen": -235.87283325195312,
+      "logps/rejected": -255.25155639648438,
+      "loss": 0.4911,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.017501164227724075,
+      "rewards/margins": 0.005746154114603996,
+      "rewards/rejected": -0.023247316479682922,
+      "step": 27
+    },
+    {
+      "debug/policy_chosen_logits": -1.474959135055542,
+      "debug/policy_chosen_logps": -250.03805541992188,
+      "debug/policy_rejected_logits": -1.33174729347229,
+      "debug/policy_rejected_logps": -275.7778015136719,
+      "debug/reference_chosen_logps": -246.68450927734375,
+      "debug/reference_rejected_logps": -271.7251892089844,
+      "epoch": 0.6511627906976745,
+      "grad_norm": 23.009106257244806,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.474959135055542,
+      "logits/rejected": -1.33174729347229,
+      "logps/chosen": -250.03805541992188,
+      "logps/rejected": -275.7778015136719,
+      "loss": 0.4741,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.03353559225797653,
+      "rewards/margins": 0.006990719586610794,
+      "rewards/rejected": -0.040526311844587326,
+      "step": 28
+    },
+    {
+      "debug/policy_chosen_logits": -1.5180094242095947,
+      "debug/policy_chosen_logps": -239.39962768554688,
+      "debug/policy_rejected_logits": -1.3486112356185913,
+      "debug/policy_rejected_logps": -280.152587890625,
+      "debug/reference_chosen_logps": -235.7870635986328,
+      "debug/reference_rejected_logps": -271.69512939453125,
+      "epoch": 0.6744186046511628,
+      "grad_norm": 29.559799359310976,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5180094242095947,
+      "logits/rejected": -1.3486112356185913,
+      "logps/chosen": -239.39962768554688,
+      "logps/rejected": -280.152587890625,
+      "loss": 0.4648,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.03612573444843292,
+      "rewards/margins": 0.04844905436038971,
+      "rewards/rejected": -0.08457479625940323,
+      "step": 29
+    },
+    {
+      "debug/policy_chosen_logits": -1.5323574542999268,
+      "debug/policy_chosen_logps": -230.34732055664062,
+      "debug/policy_rejected_logits": -1.4196269512176514,
+      "debug/policy_rejected_logps": -299.549072265625,
+      "debug/reference_chosen_logps": -227.33663940429688,
+      "debug/reference_rejected_logps": -290.41229248046875,
+      "epoch": 0.6976744186046512,
+      "grad_norm": 24.104606390659608,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5323574542999268,
+      "logits/rejected": -1.4196269512176514,
+      "logps/chosen": -230.34732055664062,
+      "logps/rejected": -299.549072265625,
+      "loss": 0.4845,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.03010694310069084,
+      "rewards/margins": 0.0612606406211853,
+      "rewards/rejected": -0.09136758744716644,
+      "step": 30
+    },
+    {
+      "debug/policy_chosen_logits": -1.5471208095550537,
+      "debug/policy_chosen_logps": -233.48435974121094,
+      "debug/policy_rejected_logits": -1.507702350616455,
+      "debug/policy_rejected_logps": -299.49298095703125,
+      "debug/reference_chosen_logps": -230.37808227539062,
+      "debug/reference_rejected_logps": -290.85491943359375,
+      "epoch": 0.7209302325581395,
+      "grad_norm": 11.501362477806966,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5471208095550537,
+      "logits/rejected": -1.507702350616455,
+      "logps/chosen": -233.48435974121094,
+      "logps/rejected": -299.49298095703125,
+      "loss": 0.4777,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.031062887981534004,
+      "rewards/margins": 0.05531751364469528,
+      "rewards/rejected": -0.08638040721416473,
+      "step": 31
+    },
+    {
+      "debug/policy_chosen_logits": -1.3573694229125977,
+      "debug/policy_chosen_logps": -276.0484619140625,
+      "debug/policy_rejected_logits": -1.4295967817306519,
+      "debug/policy_rejected_logps": -251.19253540039062,
+      "debug/reference_chosen_logps": -269.07147216796875,
+      "debug/reference_rejected_logps": -245.41119384765625,
+      "epoch": 0.7441860465116279,
+      "grad_norm": 44.933121351184646,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.3573694229125977,
+      "logits/rejected": -1.4295967817306519,
+      "logps/chosen": -276.0484619140625,
+      "logps/rejected": -251.19253540039062,
+      "loss": 0.4882,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.06977000832557678,
+      "rewards/margins": -0.011956671252846718,
+      "rewards/rejected": -0.057813338935375214,
+      "step": 32
+    },
+    {
+      "debug/policy_chosen_logits": -1.532698392868042,
+      "debug/policy_chosen_logps": -210.01528930664062,
+      "debug/policy_rejected_logits": -1.5289320945739746,
+      "debug/policy_rejected_logps": -266.588134765625,
+      "debug/reference_chosen_logps": -212.3720245361328,
+      "debug/reference_rejected_logps": -261.5830993652344,
+      "epoch": 0.7674418604651163,
+      "grad_norm": 16.92613442301389,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.532698392868042,
+      "logits/rejected": -1.5289320945739746,
+      "logps/chosen": -210.01528930664062,
+      "logps/rejected": -266.588134765625,
+      "loss": 0.4701,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.023567447438836098,
+      "rewards/margins": 0.0736178606748581,
+      "rewards/rejected": -0.050050411373376846,
+      "step": 33
+    },
+    {
+      "debug/policy_chosen_logits": -1.6075690984725952,
+      "debug/policy_chosen_logps": -222.28057861328125,
+      "debug/policy_rejected_logits": -1.5301072597503662,
+      "debug/policy_rejected_logps": -231.0042724609375,
+      "debug/reference_chosen_logps": -221.35081481933594,
+      "debug/reference_rejected_logps": -232.4139404296875,
+      "epoch": 0.7906976744186046,
+      "grad_norm": 30.286832542440518,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6075690984725952,
+      "logits/rejected": -1.5301072597503662,
+      "logps/chosen": -222.28057861328125,
+      "logps/rejected": -231.0042724609375,
+      "loss": 0.4957,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.009297618642449379,
+      "rewards/margins": -0.023394297808408737,
+      "rewards/rejected": 0.014096679165959358,
+      "step": 34
+    },
+    {
+      "debug/policy_chosen_logits": -1.6365246772766113,
+      "debug/policy_chosen_logps": -214.15689086914062,
+      "debug/policy_rejected_logits": -1.3568267822265625,
+      "debug/policy_rejected_logps": -274.84320068359375,
+      "debug/reference_chosen_logps": -219.61041259765625,
+      "debug/reference_rejected_logps": -271.06793212890625,
+      "epoch": 0.813953488372093,
+      "grad_norm": 10.413515346816709,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6365246772766113,
+      "logits/rejected": -1.3568267822265625,
+      "logps/chosen": -214.15689086914062,
+      "logps/rejected": -274.84320068359375,
+      "loss": 0.4745,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.05453508347272873,
+      "rewards/margins": 0.09228822588920593,
+      "rewards/rejected": -0.0377531424164772,
+      "step": 35
+    },
+    {
+      "debug/policy_chosen_logits": -1.4882985353469849,
+      "debug/policy_chosen_logps": -224.943115234375,
+      "debug/policy_rejected_logits": -1.5247392654418945,
+      "debug/policy_rejected_logps": -291.1658020019531,
+      "debug/reference_chosen_logps": -230.88302612304688,
+      "debug/reference_rejected_logps": -292.3128967285156,
+      "epoch": 0.8372093023255814,
+      "grad_norm": 21.658575078370163,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4882985353469849,
+      "logits/rejected": -1.5247392654418945,
+      "logps/chosen": -224.943115234375,
+      "logps/rejected": -291.1658020019531,
+      "loss": 0.4603,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.059399355202913284,
+      "rewards/margins": 0.04792825132608414,
+      "rewards/rejected": 0.011471100151538849,
+      "step": 36
+    },
+    {
+      "debug/policy_chosen_logits": -1.5648789405822754,
+      "debug/policy_chosen_logps": -232.97958374023438,
+      "debug/policy_rejected_logits": -1.4898722171783447,
+      "debug/policy_rejected_logps": -264.453369140625,
+      "debug/reference_chosen_logps": -236.86109924316406,
+      "debug/reference_rejected_logps": -266.53448486328125,
+      "epoch": 0.8604651162790697,
+      "grad_norm": 13.183542989418173,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5648789405822754,
+      "logits/rejected": -1.4898722171783447,
+      "logps/chosen": -232.97958374023438,
+      "logps/rejected": -264.453369140625,
+      "loss": 0.4871,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.03881513699889183,
+      "rewards/margins": 0.018004285171628,
+      "rewards/rejected": 0.020810849964618683,
+      "step": 37
+    },
+    {
+      "debug/policy_chosen_logits": -1.3791043758392334,
+      "debug/policy_chosen_logps": -228.21205139160156,
+      "debug/policy_rejected_logits": -1.3903659582138062,
+      "debug/policy_rejected_logps": -227.752197265625,
+      "debug/reference_chosen_logps": -230.1770477294922,
+      "debug/reference_rejected_logps": -230.64239501953125,
+      "epoch": 0.8837209302325582,
+      "grad_norm": 17.81188100770416,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.3791043758392334,
+      "logits/rejected": -1.3903659582138062,
+      "logps/chosen": -228.21205139160156,
+      "logps/rejected": -227.752197265625,
+      "loss": 0.4778,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.019649982452392578,
+      "rewards/margins": -0.009251842275261879,
+      "rewards/rejected": 0.028901822865009308,
+      "step": 38
+    },
+    {
+      "debug/policy_chosen_logits": -1.4482218027114868,
+      "debug/policy_chosen_logps": -247.0265655517578,
+      "debug/policy_rejected_logits": -1.3742115497589111,
+      "debug/policy_rejected_logps": -305.1549072265625,
+      "debug/reference_chosen_logps": -249.18740844726562,
+      "debug/reference_rejected_logps": -301.026123046875,
+      "epoch": 0.9069767441860465,
+      "grad_norm": 18.246091231595155,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4482218027114868,
+      "logits/rejected": -1.3742115497589111,
+      "logps/chosen": -247.0265655517578,
+      "logps/rejected": -305.1549072265625,
+      "loss": 0.4569,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.021608371287584305,
+      "rewards/margins": 0.0628962367773056,
+      "rewards/rejected": -0.0412878580391407,
+      "step": 39
+    },
+    {
+      "debug/policy_chosen_logits": -1.5543980598449707,
+      "debug/policy_chosen_logps": -257.4435729980469,
+      "debug/policy_rejected_logits": -1.5073050260543823,
+      "debug/policy_rejected_logps": -296.2988586425781,
+      "debug/reference_chosen_logps": -256.39544677734375,
+      "debug/reference_rejected_logps": -288.50433349609375,
+      "epoch": 0.9302325581395349,
+      "grad_norm": 14.177163201466067,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5543980598449707,
+      "logits/rejected": -1.5073050260543823,
+      "logps/chosen": -257.4435729980469,
+      "logps/rejected": -296.2988586425781,
+      "loss": 0.4851,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.010481302626430988,
+      "rewards/margins": 0.0674639493227005,
+      "rewards/rejected": -0.07794524729251862,
+      "step": 40
+    },
+    {
+      "debug/policy_chosen_logits": -1.5510001182556152,
+      "debug/policy_chosen_logps": -262.91461181640625,
+      "debug/policy_rejected_logits": -1.4993880987167358,
+      "debug/policy_rejected_logps": -288.2521667480469,
+      "debug/reference_chosen_logps": -253.84947204589844,
+      "debug/reference_rejected_logps": -285.00738525390625,
+      "epoch": 0.9534883720930233,
+      "grad_norm": 64.06356256852192,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5510001182556152,
+      "logits/rejected": -1.4993880987167358,
+      "logps/chosen": -262.91461181640625,
+      "logps/rejected": -288.2521667480469,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.125,
+      "rewards/chosen": -0.09065132588148117,
+      "rewards/margins": -0.05820371210575104,
+      "rewards/rejected": -0.032447606325149536,
+      "step": 41
+    },
+    {
+      "debug/policy_chosen_logits": -1.6003302335739136,
+      "debug/policy_chosen_logps": -224.11663818359375,
+      "debug/policy_rejected_logits": -1.5286082029342651,
+      "debug/policy_rejected_logps": -271.67974853515625,
+      "debug/reference_chosen_logps": -221.91209411621094,
+      "debug/reference_rejected_logps": -258.791015625,
+      "epoch": 0.9767441860465116,
+      "grad_norm": 61.90638727730458,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6003302335739136,
+      "logits/rejected": -1.5286082029342651,
+      "logps/chosen": -224.11663818359375,
+      "logps/rejected": -271.67974853515625,
+      "loss": 0.4904,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.022045554593205452,
+      "rewards/margins": 0.10684183239936829,
+      "rewards/rejected": -0.1288873851299286,
+      "step": 42
+    },
+    {
+      "debug/policy_chosen_logits": -1.5732522010803223,
+      "debug/policy_chosen_logps": -237.1086883544922,
+      "debug/policy_rejected_logits": -1.405612826347351,
+      "debug/policy_rejected_logps": -320.40643310546875,
+      "debug/reference_chosen_logps": -234.65167236328125,
+      "debug/reference_rejected_logps": -311.38165283203125,
+      "epoch": 1.0,
+      "grad_norm": 43.37698691621295,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5732522010803223,
+      "logits/rejected": -1.405612826347351,
+      "logps/chosen": -237.1086883544922,
+      "logps/rejected": -320.40643310546875,
+      "loss": 0.4906,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.024570178240537643,
+      "rewards/margins": 0.065677709877491,
+      "rewards/rejected": -0.09024789184331894,
+      "step": 43
+    },
+    {
+      "epoch": 1.0,
+      "step": 43,
+      "total_flos": 0.0,
+      "train_loss": 0.489490317743878,
+      "train_runtime": 149.7969,
+      "train_samples_per_second": 18.318,
+      "train_steps_per_second": 0.287
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 43,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}