End of training

Browse files

Files changed (6) hide show

README.md +64 -0
all_results.json +9 -0
config.json +1 -1
generation_config.json +14 -0
train_results.json +9 -0
trainer_state.json +966 -0

README.md ADDED Viewed

	@@ -0,0 +1,64 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: yiran-wang3/qwen2_chat_reflct_adamw_iter2
+tags:
+- alignment-handbook
+- generated_from_trainer
+- trl
+- dpo
+datasets:
+- self-generate/qw2_reflct_sppo_hard_new_cn_mining_oj_iter2-binarized-reflection-scored
+model-index:
+- name: qwen2_chat_reflct_adamw_iter3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# qwen2_chat_reflct_adamw_iter3
+This model is a fine-tuned version of [yiran-wang3/qwen2_chat_reflct_adamw_iter2](https://huggingface.co/yiran-wang3/qwen2_chat_reflct_adamw_iter2) on the self-generate/qw2_reflct_sppo_hard_new_cn_mining_oj_iter2-binarized-reflection-scored dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.45.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.14.6
+- Tokenizers 0.20.2

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.46715006164529105,
+    "train_runtime": 182.0537,
+    "train_samples": 2811,
+    "train_samples_per_second": 15.44,
+    "train_steps_per_second": 0.242
+}

config.json CHANGED Viewed

@@ -23,7 +23,7 @@
   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
-  "use_cache": false,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

   "tie_word_embeddings": true,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
+  "use_cache": true,
   "use_sliding_window": false,
   "vocab_size": 151936
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.45.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.46715006164529105,
+    "train_runtime": 182.0537,
+    "train_samples": 2811,
+    "train_samples_per_second": 15.44,
+    "train_steps_per_second": 0.242
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,966 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 44,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "debug/policy_chosen_logits": -1.5945265293121338,
+      "debug/policy_chosen_logps": -248.4810028076172,
+      "debug/policy_rejected_logits": -1.576964020729065,
+      "debug/policy_rejected_logps": -333.0391540527344,
+      "debug/reference_chosen_logps": -248.4810028076172,
+      "debug/reference_rejected_logps": -333.0391540527344,
+      "epoch": 0.022727272727272728,
+      "grad_norm": 18.66563913313551,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5945265293121338,
+      "logits/rejected": -1.576964020729065,
+      "logps/chosen": -248.4810028076172,
+      "logps/rejected": -333.0391540527344,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "debug/policy_chosen_logits": -1.4691928625106812,
+      "debug/policy_chosen_logps": -252.78114318847656,
+      "debug/policy_rejected_logits": -1.6123135089874268,
+      "debug/policy_rejected_logps": -287.5721130371094,
+      "debug/reference_chosen_logps": -252.46141052246094,
+      "debug/reference_rejected_logps": -286.8046875,
+      "epoch": 0.045454545454545456,
+      "grad_norm": 8.201360686444898,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4691928625106812,
+      "logits/rejected": -1.6123135089874268,
+      "logps/chosen": -252.78114318847656,
+      "logps/rejected": -287.5721130371094,
+      "loss": 0.4958,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.003197269281372428,
+      "rewards/margins": 0.004476870875805616,
+      "rewards/rejected": -0.007674140390008688,
+      "step": 2
+    },
+    {
+      "debug/policy_chosen_logits": -1.5802356004714966,
+      "debug/policy_chosen_logps": -264.4571533203125,
+      "debug/policy_rejected_logits": -1.5960618257522583,
+      "debug/policy_rejected_logps": -261.72198486328125,
+      "debug/reference_chosen_logps": -265.066162109375,
+      "debug/reference_rejected_logps": -261.2563171386719,
+      "epoch": 0.06818181818181818,
+      "grad_norm": 13.69003465257947,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5802356004714966,
+      "logits/rejected": -1.5960618257522583,
+      "logps/chosen": -264.4571533203125,
+      "logps/rejected": -261.72198486328125,
+      "loss": 0.4938,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.006090049631893635,
+      "rewards/margins": 0.010746955871582031,
+      "rewards/rejected": -0.004656905774027109,
+      "step": 3
+    },
+    {
+      "debug/policy_chosen_logits": -1.508122205734253,
+      "debug/policy_chosen_logps": -233.5382537841797,
+      "debug/policy_rejected_logits": -1.4848679304122925,
+      "debug/policy_rejected_logps": -340.95074462890625,
+      "debug/reference_chosen_logps": -233.94361877441406,
+      "debug/reference_rejected_logps": -341.15191650390625,
+      "epoch": 0.09090909090909091,
+      "grad_norm": 8.511003954283053,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.508122205734253,
+      "logits/rejected": -1.4848679304122925,
+      "logps/chosen": -233.5382537841797,
+      "logps/rejected": -340.95074462890625,
+      "loss": 0.4939,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.004053611773997545,
+      "rewards/margins": 0.0020416262559592724,
+      "rewards/rejected": 0.002011985518038273,
+      "step": 4
+    },
+    {
+      "debug/policy_chosen_logits": -1.5614800453186035,
+      "debug/policy_chosen_logps": -265.24407958984375,
+      "debug/policy_rejected_logits": -1.5772254467010498,
+      "debug/policy_rejected_logps": -268.71136474609375,
+      "debug/reference_chosen_logps": -263.666259765625,
+      "debug/reference_rejected_logps": -268.02203369140625,
+      "epoch": 0.11363636363636363,
+      "grad_norm": 9.050149178031523,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5614800453186035,
+      "logits/rejected": -1.5772254467010498,
+      "logps/chosen": -265.24407958984375,
+      "logps/rejected": -268.71136474609375,
+      "loss": 0.4907,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.0157785601913929,
+      "rewards/margins": -0.008885439485311508,
+      "rewards/rejected": -0.006893118843436241,
+      "step": 5
+    },
+    {
+      "debug/policy_chosen_logits": -1.5854442119598389,
+      "debug/policy_chosen_logps": -246.00494384765625,
+      "debug/policy_rejected_logits": -1.5459868907928467,
+      "debug/policy_rejected_logps": -258.53924560546875,
+      "debug/reference_chosen_logps": -244.73007202148438,
+      "debug/reference_rejected_logps": -257.6000061035156,
+      "epoch": 0.13636363636363635,
+      "grad_norm": 8.222575188444678,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5854442119598389,
+      "logits/rejected": -1.5459868907928467,
+      "logps/chosen": -246.00494384765625,
+      "logps/rejected": -258.53924560546875,
+      "loss": 0.4788,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.012748966924846172,
+      "rewards/margins": -0.0033567622303962708,
+      "rewards/rejected": -0.009392204694449902,
+      "step": 6
+    },
+    {
+      "debug/policy_chosen_logits": -1.676500678062439,
+      "debug/policy_chosen_logps": -229.7958984375,
+      "debug/policy_rejected_logits": -1.6866339445114136,
+      "debug/policy_rejected_logps": -250.69273376464844,
+      "debug/reference_chosen_logps": -228.82376098632812,
+      "debug/reference_rejected_logps": -247.0283203125,
+      "epoch": 0.1590909090909091,
+      "grad_norm": 15.044352960137017,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.676500678062439,
+      "logits/rejected": -1.6866339445114136,
+      "logps/chosen": -229.7958984375,
+      "logps/rejected": -250.69273376464844,
+      "loss": 0.4891,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.009721355512738228,
+      "rewards/margins": 0.026922915130853653,
+      "rewards/rejected": -0.03664426505565643,
+      "step": 7
+    },
+    {
+      "debug/policy_chosen_logits": -1.6314057111740112,
+      "debug/policy_chosen_logps": -240.93679809570312,
+      "debug/policy_rejected_logits": -1.511518120765686,
+      "debug/policy_rejected_logps": -286.17041015625,
+      "debug/reference_chosen_logps": -241.15689086914062,
+      "debug/reference_rejected_logps": -284.9034118652344,
+      "epoch": 0.18181818181818182,
+      "grad_norm": 9.208531697498636,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6314057111740112,
+      "logits/rejected": -1.511518120765686,
+      "logps/chosen": -240.93679809570312,
+      "logps/rejected": -286.17041015625,
+      "loss": 0.4948,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0022008903324604034,
+      "rewards/margins": 0.014870930463075638,
+      "rewards/rejected": -0.012670040130615234,
+      "step": 8
+    },
+    {
+      "debug/policy_chosen_logits": -1.586374044418335,
+      "debug/policy_chosen_logps": -259.5894775390625,
+      "debug/policy_rejected_logits": -1.6641004085540771,
+      "debug/policy_rejected_logps": -292.8546447753906,
+      "debug/reference_chosen_logps": -258.95721435546875,
+      "debug/reference_rejected_logps": -290.0174560546875,
+      "epoch": 0.20454545454545456,
+      "grad_norm": 7.694356082960458,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.586374044418335,
+      "logits/rejected": -1.6641004085540771,
+      "logps/chosen": -259.5894775390625,
+      "logps/rejected": -292.8546447753906,
+      "loss": 0.4878,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.006322898901998997,
+      "rewards/margins": 0.022048911079764366,
+      "rewards/rejected": -0.028371810913085938,
+      "step": 9
+    },
+    {
+      "debug/policy_chosen_logits": -1.6060452461242676,
+      "debug/policy_chosen_logps": -243.36305236816406,
+      "debug/policy_rejected_logits": -1.3573477268218994,
+      "debug/policy_rejected_logps": -231.2056427001953,
+      "debug/reference_chosen_logps": -243.5709686279297,
+      "debug/reference_rejected_logps": -233.7530517578125,
+      "epoch": 0.22727272727272727,
+      "grad_norm": 9.648028168333992,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6060452461242676,
+      "logits/rejected": -1.3573477268218994,
+      "logps/chosen": -243.36305236816406,
+      "logps/rejected": -231.2056427001953,
+      "loss": 0.494,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.0020791429560631514,
+      "rewards/margins": -0.02339502051472664,
+      "rewards/rejected": 0.025474166497588158,
+      "step": 10
+    },
+    {
+      "debug/policy_chosen_logits": -1.5926264524459839,
+      "debug/policy_chosen_logps": -252.65029907226562,
+      "debug/policy_rejected_logits": -1.53349769115448,
+      "debug/policy_rejected_logps": -275.5002136230469,
+      "debug/reference_chosen_logps": -250.59860229492188,
+      "debug/reference_rejected_logps": -272.654052734375,
+      "epoch": 0.25,
+      "grad_norm": 9.286445190753403,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5926264524459839,
+      "logits/rejected": -1.53349769115448,
+      "logps/chosen": -252.65029907226562,
+      "logps/rejected": -275.5002136230469,
+      "loss": 0.4821,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.02051687240600586,
+      "rewards/margins": 0.007944850251078606,
+      "rewards/rejected": -0.028461724519729614,
+      "step": 11
+    },
+    {
+      "debug/policy_chosen_logits": -1.6525866985321045,
+      "debug/policy_chosen_logps": -241.84744262695312,
+      "debug/policy_rejected_logits": -1.5179157257080078,
+      "debug/policy_rejected_logps": -306.1255798339844,
+      "debug/reference_chosen_logps": -244.6147003173828,
+      "debug/reference_rejected_logps": -300.14434814453125,
+      "epoch": 0.2727272727272727,
+      "grad_norm": 10.568220890948059,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6525866985321045,
+      "logits/rejected": -1.5179157257080078,
+      "logps/chosen": -241.84744262695312,
+      "logps/rejected": -306.1255798339844,
+      "loss": 0.453,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.027672480791807175,
+      "rewards/margins": 0.08748496323823929,
+      "rewards/rejected": -0.05981248617172241,
+      "step": 12
+    },
+    {
+      "debug/policy_chosen_logits": -1.5735505819320679,
+      "debug/policy_chosen_logps": -249.08001708984375,
+      "debug/policy_rejected_logits": -1.5205522775650024,
+      "debug/policy_rejected_logps": -316.7584228515625,
+      "debug/reference_chosen_logps": -248.20947265625,
+      "debug/reference_rejected_logps": -316.1866149902344,
+      "epoch": 0.29545454545454547,
+      "grad_norm": 13.229143544524582,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5735505819320679,
+      "logits/rejected": -1.5205522775650024,
+      "logps/chosen": -249.08001708984375,
+      "logps/rejected": -316.7584228515625,
+      "loss": 0.4744,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.008705596439540386,
+      "rewards/margins": -0.002987404353916645,
+      "rewards/rejected": -0.005718193016946316,
+      "step": 13
+    },
+    {
+      "debug/policy_chosen_logits": -1.6373316049575806,
+      "debug/policy_chosen_logps": -212.08322143554688,
+      "debug/policy_rejected_logits": -1.6967588663101196,
+      "debug/policy_rejected_logps": -224.3775634765625,
+      "debug/reference_chosen_logps": -214.68466186523438,
+      "debug/reference_rejected_logps": -228.5543212890625,
+      "epoch": 0.3181818181818182,
+      "grad_norm": 9.790511964324931,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6373316049575806,
+      "logits/rejected": -1.6967588663101196,
+      "logps/chosen": -212.08322143554688,
+      "logps/rejected": -224.3775634765625,
+      "loss": 0.4798,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.026014385744929314,
+      "rewards/margins": -0.015753211453557014,
+      "rewards/rejected": 0.04176759719848633,
+      "step": 14
+    },
+    {
+      "debug/policy_chosen_logits": -1.6537970304489136,
+      "debug/policy_chosen_logps": -229.5901336669922,
+      "debug/policy_rejected_logits": -1.5129016637802124,
+      "debug/policy_rejected_logps": -324.74163818359375,
+      "debug/reference_chosen_logps": -231.54010009765625,
+      "debug/reference_rejected_logps": -320.255859375,
+      "epoch": 0.3409090909090909,
+      "grad_norm": 10.206777571830463,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6537970304489136,
+      "logits/rejected": -1.5129016637802124,
+      "logps/chosen": -229.5901336669922,
+      "logps/rejected": -324.74163818359375,
+      "loss": 0.4786,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.019499586895108223,
+      "rewards/margins": 0.06435704976320267,
+      "rewards/rejected": -0.044857464730739594,
+      "step": 15
+    },
+    {
+      "debug/policy_chosen_logits": -1.5613651275634766,
+      "debug/policy_chosen_logps": -236.87420654296875,
+      "debug/policy_rejected_logits": -1.4253557920455933,
+      "debug/policy_rejected_logps": -288.8067626953125,
+      "debug/reference_chosen_logps": -237.55490112304688,
+      "debug/reference_rejected_logps": -285.34820556640625,
+      "epoch": 0.36363636363636365,
+      "grad_norm": 9.102977996005102,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5613651275634766,
+      "logits/rejected": -1.4253557920455933,
+      "logps/chosen": -236.87420654296875,
+      "logps/rejected": -288.8067626953125,
+      "loss": 0.4795,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.006807117722928524,
+      "rewards/margins": 0.041392937302589417,
+      "rewards/rejected": -0.03458581864833832,
+      "step": 16
+    },
+    {
+      "debug/policy_chosen_logits": -1.5483341217041016,
+      "debug/policy_chosen_logps": -263.6671447753906,
+      "debug/policy_rejected_logits": -1.5648168325424194,
+      "debug/policy_rejected_logps": -270.9856262207031,
+      "debug/reference_chosen_logps": -263.8393249511719,
+      "debug/reference_rejected_logps": -265.57177734375,
+      "epoch": 0.38636363636363635,
+      "grad_norm": 8.919951058839446,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5483341217041016,
+      "logits/rejected": -1.5648168325424194,
+      "logps/chosen": -263.6671447753906,
+      "logps/rejected": -270.9856262207031,
+      "loss": 0.4743,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0017218790017068386,
+      "rewards/margins": 0.055860649794340134,
+      "rewards/rejected": -0.054138775914907455,
+      "step": 17
+    },
+    {
+      "debug/policy_chosen_logits": -1.5947633981704712,
+      "debug/policy_chosen_logps": -235.00515747070312,
+      "debug/policy_rejected_logits": -1.6195746660232544,
+      "debug/policy_rejected_logps": -274.81976318359375,
+      "debug/reference_chosen_logps": -233.3927001953125,
+      "debug/reference_rejected_logps": -270.100830078125,
+      "epoch": 0.4090909090909091,
+      "grad_norm": 8.403923001724355,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5947633981704712,
+      "logits/rejected": -1.6195746660232544,
+      "logps/chosen": -235.00515747070312,
+      "logps/rejected": -274.81976318359375,
+      "loss": 0.503,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.01612449437379837,
+      "rewards/margins": 0.03106483817100525,
+      "rewards/rejected": -0.04718932881951332,
+      "step": 18
+    },
+    {
+      "debug/policy_chosen_logits": -1.621622920036316,
+      "debug/policy_chosen_logps": -232.43492126464844,
+      "debug/policy_rejected_logits": -1.6612340211868286,
+      "debug/policy_rejected_logps": -258.89154052734375,
+      "debug/reference_chosen_logps": -229.03573608398438,
+      "debug/reference_rejected_logps": -256.68316650390625,
+      "epoch": 0.4318181818181818,
+      "grad_norm": 8.489598917138654,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.621622920036316,
+      "logits/rejected": -1.6612340211868286,
+      "logps/chosen": -232.43492126464844,
+      "logps/rejected": -258.89154052734375,
+      "loss": 0.4798,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.03399191051721573,
+      "rewards/margins": -0.011908477172255516,
+      "rewards/rejected": -0.022083435207605362,
+      "step": 19
+    },
+    {
+      "debug/policy_chosen_logits": -1.582741141319275,
+      "debug/policy_chosen_logps": -225.0340118408203,
+      "debug/policy_rejected_logits": -1.40219247341156,
+      "debug/policy_rejected_logps": -290.873046875,
+      "debug/reference_chosen_logps": -227.0716552734375,
+      "debug/reference_rejected_logps": -287.50537109375,
+      "epoch": 0.45454545454545453,
+      "grad_norm": 14.964543325135429,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.582741141319275,
+      "logits/rejected": -1.40219247341156,
+      "logps/chosen": -225.0340118408203,
+      "logps/rejected": -290.873046875,
+      "loss": 0.4544,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.020376453176140785,
+      "rewards/margins": 0.05405297875404358,
+      "rewards/rejected": -0.03367652744054794,
+      "step": 20
+    },
+    {
+      "debug/policy_chosen_logits": -1.6128125190734863,
+      "debug/policy_chosen_logps": -246.7266845703125,
+      "debug/policy_rejected_logits": -1.5290520191192627,
+      "debug/policy_rejected_logps": -311.530029296875,
+      "debug/reference_chosen_logps": -244.32289123535156,
+      "debug/reference_rejected_logps": -304.60919189453125,
+      "epoch": 0.4772727272727273,
+      "grad_norm": 7.778047811002451,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6128125190734863,
+      "logits/rejected": -1.5290520191192627,
+      "logps/chosen": -246.7266845703125,
+      "logps/rejected": -311.530029296875,
+      "loss": 0.4494,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.024038048461079597,
+      "rewards/margins": 0.04517022892832756,
+      "rewards/rejected": -0.06920827925205231,
+      "step": 21
+    },
+    {
+      "debug/policy_chosen_logits": -1.5806679725646973,
+      "debug/policy_chosen_logps": -243.53294372558594,
+      "debug/policy_rejected_logits": -1.4768867492675781,
+      "debug/policy_rejected_logps": -298.703369140625,
+      "debug/reference_chosen_logps": -249.50653076171875,
+      "debug/reference_rejected_logps": -297.78338623046875,
+      "epoch": 0.5,
+      "grad_norm": 14.495393655090531,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5806679725646973,
+      "logits/rejected": -1.4768867492675781,
+      "logps/chosen": -243.53294372558594,
+      "logps/rejected": -298.703369140625,
+      "loss": 0.4588,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.05973583087325096,
+      "rewards/margins": 0.0689353495836258,
+      "rewards/rejected": -0.00919952243566513,
+      "step": 22
+    },
+    {
+      "debug/policy_chosen_logits": -1.544007658958435,
+      "debug/policy_chosen_logps": -237.45614624023438,
+      "debug/policy_rejected_logits": -1.5286664962768555,
+      "debug/policy_rejected_logps": -277.1255187988281,
+      "debug/reference_chosen_logps": -240.9324188232422,
+      "debug/reference_rejected_logps": -278.2364196777344,
+      "epoch": 0.5227272727272727,
+      "grad_norm": 9.777674269402368,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.544007658958435,
+      "logits/rejected": -1.5286664962768555,
+      "logps/chosen": -237.45614624023438,
+      "logps/rejected": -277.1255187988281,
+      "loss": 0.4841,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.03476274386048317,
+      "rewards/margins": 0.023653697222471237,
+      "rewards/rejected": 0.011109047569334507,
+      "step": 23
+    },
+    {
+      "debug/policy_chosen_logits": -1.7358722686767578,
+      "debug/policy_chosen_logps": -225.25177001953125,
+      "debug/policy_rejected_logits": -1.6812310218811035,
+      "debug/policy_rejected_logps": -280.5274658203125,
+      "debug/reference_chosen_logps": -234.92703247070312,
+      "debug/reference_rejected_logps": -281.25482177734375,
+      "epoch": 0.5454545454545454,
+      "grad_norm": 13.467530720556999,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.7358722686767578,
+      "logits/rejected": -1.6812310218811035,
+      "logps/chosen": -225.25177001953125,
+      "logps/rejected": -280.5274658203125,
+      "loss": 0.4623,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.09675268083810806,
+      "rewards/margins": 0.08947925269603729,
+      "rewards/rejected": 0.00727342814207077,
+      "step": 24
+    },
+    {
+      "debug/policy_chosen_logits": -1.6739790439605713,
+      "debug/policy_chosen_logps": -236.86959838867188,
+      "debug/policy_rejected_logits": -1.6139239072799683,
+      "debug/policy_rejected_logps": -299.10101318359375,
+      "debug/reference_chosen_logps": -242.93692016601562,
+      "debug/reference_rejected_logps": -300.6515197753906,
+      "epoch": 0.5681818181818182,
+      "grad_norm": 17.285734295822873,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6739790439605713,
+      "logits/rejected": -1.6139239072799683,
+      "logps/chosen": -236.86959838867188,
+      "logps/rejected": -299.10101318359375,
+      "loss": 0.4723,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.060673218220472336,
+      "rewards/margins": 0.045168302953243256,
+      "rewards/rejected": 0.01550491526722908,
+      "step": 25
+    },
+    {
+      "debug/policy_chosen_logits": -1.6005784273147583,
+      "debug/policy_chosen_logps": -259.8432312011719,
+      "debug/policy_rejected_logits": -1.6029760837554932,
+      "debug/policy_rejected_logps": -321.1543273925781,
+      "debug/reference_chosen_logps": -260.79193115234375,
+      "debug/reference_rejected_logps": -315.56201171875,
+      "epoch": 0.5909090909090909,
+      "grad_norm": 8.691201102596596,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6005784273147583,
+      "logits/rejected": -1.6029760837554932,
+      "logps/chosen": -259.8432312011719,
+      "logps/rejected": -321.1543273925781,
+      "loss": 0.4433,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.009487076662480831,
+      "rewards/margins": 0.06540995091199875,
+      "rewards/rejected": -0.055922869592905045,
+      "step": 26
+    },
+    {
+      "debug/policy_chosen_logits": -1.4657841920852661,
+      "debug/policy_chosen_logps": -224.77310180664062,
+      "debug/policy_rejected_logits": -1.356827974319458,
+      "debug/policy_rejected_logps": -251.26858520507812,
+      "debug/reference_chosen_logps": -233.67315673828125,
+      "debug/reference_rejected_logps": -253.70326232910156,
+      "epoch": 0.6136363636363636,
+      "grad_norm": 17.374104001690984,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4657841920852661,
+      "logits/rejected": -1.356827974319458,
+      "logps/chosen": -224.77310180664062,
+      "logps/rejected": -251.26858520507812,
+      "loss": 0.4737,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.08900048583745956,
+      "rewards/margins": 0.06465375423431396,
+      "rewards/rejected": 0.0243467316031456,
+      "step": 27
+    },
+    {
+      "debug/policy_chosen_logits": -1.553269863128662,
+      "debug/policy_chosen_logps": -263.990478515625,
+      "debug/policy_rejected_logits": -1.5638726949691772,
+      "debug/policy_rejected_logps": -269.4271545410156,
+      "debug/reference_chosen_logps": -269.1437683105469,
+      "debug/reference_rejected_logps": -266.83984375,
+      "epoch": 0.6363636363636364,
+      "grad_norm": 13.189942958136367,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.553269863128662,
+      "logits/rejected": -1.5638726949691772,
+      "logps/chosen": -263.990478515625,
+      "logps/rejected": -269.4271545410156,
+      "loss": 0.456,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.051532648503780365,
+      "rewards/margins": 0.0774059072136879,
+      "rewards/rejected": -0.02587326057255268,
+      "step": 28
+    },
+    {
+      "debug/policy_chosen_logits": -1.6705049276351929,
+      "debug/policy_chosen_logps": -209.72177124023438,
+      "debug/policy_rejected_logits": -1.5858540534973145,
+      "debug/policy_rejected_logps": -255.63687133789062,
+      "debug/reference_chosen_logps": -215.01263427734375,
+      "debug/reference_rejected_logps": -254.82583618164062,
+      "epoch": 0.6590909090909091,
+      "grad_norm": 9.026294915195177,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6705049276351929,
+      "logits/rejected": -1.5858540534973145,
+      "logps/chosen": -209.72177124023438,
+      "logps/rejected": -255.63687133789062,
+      "loss": 0.4122,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.05290856957435608,
+      "rewards/margins": 0.0610189251601696,
+      "rewards/rejected": -0.008110351860523224,
+      "step": 29
+    },
+    {
+      "debug/policy_chosen_logits": -1.4666748046875,
+      "debug/policy_chosen_logps": -205.2412109375,
+      "debug/policy_rejected_logits": -1.454092264175415,
+      "debug/policy_rejected_logps": -251.50238037109375,
+      "debug/reference_chosen_logps": -201.99588012695312,
+      "debug/reference_rejected_logps": -243.31808471679688,
+      "epoch": 0.6818181818181818,
+      "grad_norm": 30.79651895186043,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4666748046875,
+      "logits/rejected": -1.454092264175415,
+      "logps/chosen": -205.2412109375,
+      "logps/rejected": -251.50238037109375,
+      "loss": 0.4794,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0324535071849823,
+      "rewards/margins": 0.049389228224754333,
+      "rewards/rejected": -0.08184273540973663,
+      "step": 30
+    },
+    {
+      "debug/policy_chosen_logits": -1.6505978107452393,
+      "debug/policy_chosen_logps": -214.40921020507812,
+      "debug/policy_rejected_logits": -1.487164855003357,
+      "debug/policy_rejected_logps": -263.3447570800781,
+      "debug/reference_chosen_logps": -216.8272247314453,
+      "debug/reference_rejected_logps": -259.3106689453125,
+      "epoch": 0.7045454545454546,
+      "grad_norm": 22.79786121885546,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6505978107452393,
+      "logits/rejected": -1.487164855003357,
+      "logps/chosen": -214.40921020507812,
+      "logps/rejected": -263.3447570800781,
+      "loss": 0.47,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.024180222302675247,
+      "rewards/margins": 0.06452129781246185,
+      "rewards/rejected": -0.04034107178449631,
+      "step": 31
+    },
+    {
+      "debug/policy_chosen_logits": -1.5119901895523071,
+      "debug/policy_chosen_logps": -211.55398559570312,
+      "debug/policy_rejected_logits": -1.435441493988037,
+      "debug/policy_rejected_logps": -212.512451171875,
+      "debug/reference_chosen_logps": -216.06100463867188,
+      "debug/reference_rejected_logps": -215.74588012695312,
+      "epoch": 0.7272727272727273,
+      "grad_norm": 13.807319731580307,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5119901895523071,
+      "logits/rejected": -1.435441493988037,
+      "logps/chosen": -211.55398559570312,
+      "logps/rejected": -212.512451171875,
+      "loss": 0.4313,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.045070286840200424,
+      "rewards/margins": 0.012735961005091667,
+      "rewards/rejected": 0.032334327697753906,
+      "step": 32
+    },
+    {
+      "debug/policy_chosen_logits": -1.5955944061279297,
+      "debug/policy_chosen_logps": -233.2834014892578,
+      "debug/policy_rejected_logits": -1.5012489557266235,
+      "debug/policy_rejected_logps": -314.1435546875,
+      "debug/reference_chosen_logps": -234.11337280273438,
+      "debug/reference_rejected_logps": -305.76068115234375,
+      "epoch": 0.75,
+      "grad_norm": 13.254851372269933,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5955944061279297,
+      "logits/rejected": -1.5012489557266235,
+      "logps/chosen": -233.2834014892578,
+      "logps/rejected": -314.1435546875,
+      "loss": 0.4447,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.008299730718135834,
+      "rewards/margins": 0.09212875366210938,
+      "rewards/rejected": -0.08382902294397354,
+      "step": 33
+    },
+    {
+      "debug/policy_chosen_logits": -1.6708979606628418,
+      "debug/policy_chosen_logps": -233.26309204101562,
+      "debug/policy_rejected_logits": -1.615405797958374,
+      "debug/policy_rejected_logps": -270.6951904296875,
+      "debug/reference_chosen_logps": -235.64840698242188,
+      "debug/reference_rejected_logps": -270.08343505859375,
+      "epoch": 0.7727272727272727,
+      "grad_norm": 23.473338325941466,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6708979606628418,
+      "logits/rejected": -1.615405797958374,
+      "logps/chosen": -233.26309204101562,
+      "logps/rejected": -270.6951904296875,
+      "loss": 0.459,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.02385326474905014,
+      "rewards/margins": 0.02997133508324623,
+      "rewards/rejected": -0.00611807219684124,
+      "step": 34
+    },
+    {
+      "debug/policy_chosen_logits": -1.6434283256530762,
+      "debug/policy_chosen_logps": -223.66957092285156,
+      "debug/policy_rejected_logits": -1.710732340812683,
+      "debug/policy_rejected_logps": -259.24407958984375,
+      "debug/reference_chosen_logps": -227.90109252929688,
+      "debug/reference_rejected_logps": -260.5845031738281,
+      "epoch": 0.7954545454545454,
+      "grad_norm": 8.241099124072319,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6434283256530762,
+      "logits/rejected": -1.710732340812683,
+      "logps/chosen": -223.66957092285156,
+      "logps/rejected": -259.24407958984375,
+      "loss": 0.4578,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.04231514036655426,
+      "rewards/margins": 0.028910866007208824,
+      "rewards/rejected": 0.013404272496700287,
+      "step": 35
+    },
+    {
+      "debug/policy_chosen_logits": -1.6134809255599976,
+      "debug/policy_chosen_logps": -236.91664123535156,
+      "debug/policy_rejected_logits": -1.330764889717102,
+      "debug/policy_rejected_logps": -294.82269287109375,
+      "debug/reference_chosen_logps": -239.8042755126953,
+      "debug/reference_rejected_logps": -286.74749755859375,
+      "epoch": 0.8181818181818182,
+      "grad_norm": 13.808704186127128,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6134809255599976,
+      "logits/rejected": -1.330764889717102,
+      "logps/chosen": -236.91664123535156,
+      "logps/rejected": -294.82269287109375,
+      "loss": 0.432,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.02887626551091671,
+      "rewards/margins": 0.10962820053100586,
+      "rewards/rejected": -0.080751933157444,
+      "step": 36
+    },
+    {
+      "debug/policy_chosen_logits": -1.649086594581604,
+      "debug/policy_chosen_logps": -271.196533203125,
+      "debug/policy_rejected_logits": -1.5742888450622559,
+      "debug/policy_rejected_logps": -250.44020080566406,
+      "debug/reference_chosen_logps": -270.84820556640625,
+      "debug/reference_rejected_logps": -250.24411010742188,
+      "epoch": 0.8409090909090909,
+      "grad_norm": 12.080523316758347,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.649086594581604,
+      "logits/rejected": -1.5742888450622559,
+      "logps/chosen": -271.196533203125,
+      "logps/rejected": -250.44020080566406,
+      "loss": 0.4533,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.003483029082417488,
+      "rewards/margins": -0.0015221424400806427,
+      "rewards/rejected": -0.00196088757365942,
+      "step": 37
+    },
+    {
+      "debug/policy_chosen_logits": -1.4421508312225342,
+      "debug/policy_chosen_logps": -252.74948120117188,
+      "debug/policy_rejected_logits": -1.4143319129943848,
+      "debug/policy_rejected_logps": -235.70460510253906,
+      "debug/reference_chosen_logps": -255.84397888183594,
+      "debug/reference_rejected_logps": -241.24551391601562,
+      "epoch": 0.8636363636363636,
+      "grad_norm": 10.462034516091515,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4421508312225342,
+      "logits/rejected": -1.4143319129943848,
+      "logps/chosen": -252.74948120117188,
+      "logps/rejected": -235.70460510253906,
+      "loss": 0.492,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.03094497323036194,
+      "rewards/margins": -0.02446414716541767,
+      "rewards/rejected": 0.05540912598371506,
+      "step": 38
+    },
+    {
+      "debug/policy_chosen_logits": -1.6667423248291016,
+      "debug/policy_chosen_logps": -300.1979064941406,
+      "debug/policy_rejected_logits": -1.5922452211380005,
+      "debug/policy_rejected_logps": -303.7471923828125,
+      "debug/reference_chosen_logps": -299.5347900390625,
+      "debug/reference_rejected_logps": -300.3440246582031,
+      "epoch": 0.8863636363636364,
+      "grad_norm": 30.0142964105923,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.6667423248291016,
+      "logits/rejected": -1.5922452211380005,
+      "logps/chosen": -300.1979064941406,
+      "logps/rejected": -303.7471923828125,
+      "loss": 0.4455,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.0066313184797763824,
+      "rewards/margins": 0.027400527149438858,
+      "rewards/rejected": -0.03403184935450554,
+      "step": 39
+    },
+    {
+      "debug/policy_chosen_logits": -1.4706634283065796,
+      "debug/policy_chosen_logps": -262.039306640625,
+      "debug/policy_rejected_logits": -1.4372996091842651,
+      "debug/policy_rejected_logps": -312.3645324707031,
+      "debug/reference_chosen_logps": -265.0177917480469,
+      "debug/reference_rejected_logps": -305.94091796875,
+      "epoch": 0.9090909090909091,
+      "grad_norm": 11.477109959061801,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.4706634283065796,
+      "logits/rejected": -1.4372996091842651,
+      "logps/chosen": -262.039306640625,
+      "logps/rejected": -312.3645324707031,
+      "loss": 0.4015,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.029784508049488068,
+      "rewards/margins": 0.09402050077915192,
+      "rewards/rejected": -0.06423598527908325,
+      "step": 40
+    },
+    {
+      "debug/policy_chosen_logits": -1.5731853246688843,
+      "debug/policy_chosen_logps": -211.87860107421875,
+      "debug/policy_rejected_logits": -1.4196109771728516,
+      "debug/policy_rejected_logps": -305.4735107421875,
+      "debug/reference_chosen_logps": -213.5313720703125,
+      "debug/reference_rejected_logps": -291.21087646484375,
+      "epoch": 0.9318181818181818,
+      "grad_norm": 11.839736690859825,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5731853246688843,
+      "logits/rejected": -1.4196109771728516,
+      "logps/chosen": -211.87860107421875,
+      "logps/rejected": -305.4735107421875,
+      "loss": 0.4282,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0165276937186718,
+      "rewards/margins": 0.15915431082248688,
+      "rewards/rejected": -0.14262662827968597,
+      "step": 41
+    },
+    {
+      "debug/policy_chosen_logits": -1.5689445734024048,
+      "debug/policy_chosen_logps": -220.84030151367188,
+      "debug/policy_rejected_logits": -1.505204200744629,
+      "debug/policy_rejected_logps": -280.9881896972656,
+      "debug/reference_chosen_logps": -227.65293884277344,
+      "debug/reference_rejected_logps": -277.71539306640625,
+      "epoch": 0.9545454545454546,
+      "grad_norm": 17.621932069350258,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5689445734024048,
+      "logits/rejected": -1.505204200744629,
+      "logps/chosen": -220.84030151367188,
+      "logps/rejected": -280.9881896972656,
+      "loss": 0.4531,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0681263729929924,
+      "rewards/margins": 0.10085420310497284,
+      "rewards/rejected": -0.03272783011198044,
+      "step": 42
+    },
+    {
+      "debug/policy_chosen_logits": -1.573068618774414,
+      "debug/policy_chosen_logps": -226.22598266601562,
+      "debug/policy_rejected_logits": -1.4944108724594116,
+      "debug/policy_rejected_logps": -252.19342041015625,
+      "debug/reference_chosen_logps": -227.93409729003906,
+      "debug/reference_rejected_logps": -250.0861358642578,
+      "epoch": 0.9772727272727273,
+      "grad_norm": 15.558548118353103,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.573068618774414,
+      "logits/rejected": -1.4944108724594116,
+      "logps/chosen": -226.22598266601562,
+      "logps/rejected": -252.19342041015625,
+      "loss": 0.4693,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0170811265707016,
+      "rewards/margins": 0.03815402835607529,
+      "rewards/rejected": -0.021072901785373688,
+      "step": 43
+    },
+    {
+      "debug/policy_chosen_logits": -1.5688749551773071,
+      "debug/policy_chosen_logps": -247.65240478515625,
+      "debug/policy_rejected_logits": -1.5015504360198975,
+      "debug/policy_rejected_logps": -276.2064208984375,
+      "debug/reference_chosen_logps": -250.34555053710938,
+      "debug/reference_rejected_logps": -271.73583984375,
+      "epoch": 1.0,
+      "grad_norm": 27.463260049975947,
+      "learning_rate": 1e-06,
+      "logits/chosen": -1.5688749551773071,
+      "logits/rejected": -1.5015504360198975,
+      "logps/chosen": -247.65240478515625,
+      "logps/rejected": -276.2064208984375,
+      "loss": 0.4479,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0269315168261528,
+      "rewards/margins": 0.07163721323013306,
+      "rewards/rejected": -0.044705700129270554,
+      "step": 44
+    },
+    {
+      "epoch": 1.0,
+      "step": 44,
+      "total_flos": 0.0,
+      "train_loss": 0.46715006164529105,
+      "train_runtime": 182.0537,
+      "train_samples_per_second": 15.44,
+      "train_steps_per_second": 0.242
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 44,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}