qgallouedec
/

Qwen2.5-7B-DPO-main

@@ -1,6 +1,5 @@
 ---
 base_model: Qwen/Qwen2.5-7B-Instruct
-datasets: trl-lib/ultrafeedback_binarized
 library_name: transformers
 model_name: Qwen2.5-7B-DPO-main
 tags:
@@ -12,7 +11,7 @@ licence: license
 # Model Card for Qwen2.5-7B-DPO-main
-This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct) on the [trl-lib/ultrafeedback_binarized](https://huggingface.co/datasets/trl-lib/ultrafeedback_binarized) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -28,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/huggingface/huggingface/runs/ycnnwvsz)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).

 ---
 base_model: Qwen/Qwen2.5-7B-Instruct
 library_name: transformers
 model_name: Qwen2.5-7B-DPO-main
 tags:
 # Model Card for Qwen2.5-7B-DPO-main
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-7B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/huggingface/huggingface/runs/zoie4wcv)
 This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 0.02059732234809475,
-    "eval_logits/chosen": -0.6875,
-    "eval_logits/rejected": -0.73046875,
     "eval_logps/chosen": -284.0,
-    "eval_logps/rejected": -308.0,
-    "eval_loss": 0.695437490940094,
-    "eval_rewards/accuracies": 0.296875,
-    "eval_rewards/chosen": 0.0113525390625,
-    "eval_rewards/margins": -0.0233154296875,
-    "eval_rewards/rejected": 0.03466796875,
-    "eval_runtime": 8.5701,
-    "eval_samples_per_second": 116.685,
-    "eval_steps_per_second": 1.867
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -0.68359375,
+    "eval_logits/rejected": -0.7265625,
     "eval_logps/chosen": -284.0,
+    "eval_logps/rejected": -310.0,
+    "eval_loss": 0.6820937395095825,
+    "eval_rewards/accuracies": 0.390625,
+    "eval_rewards/chosen": -0.10009765625,
+    "eval_rewards/margins": 0.0028076171875,
+    "eval_rewards/rejected": -0.1025390625,
+    "eval_runtime": 8.7282,
+    "eval_samples_per_second": 114.571,
+    "eval_steps_per_second": 1.833
 }

eval_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 0.02059732234809475,
-    "eval_logits/chosen": -0.6875,
-    "eval_logits/rejected": -0.73046875,
     "eval_logps/chosen": -284.0,
-    "eval_logps/rejected": -308.0,
-    "eval_loss": 0.695437490940094,
-    "eval_rewards/accuracies": 0.296875,
-    "eval_rewards/chosen": 0.0113525390625,
-    "eval_rewards/margins": -0.0233154296875,
-    "eval_rewards/rejected": 0.03466796875,
-    "eval_runtime": 8.5701,
-    "eval_samples_per_second": 116.685,
-    "eval_steps_per_second": 1.867
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -0.68359375,
+    "eval_logits/rejected": -0.7265625,
     "eval_logps/chosen": -284.0,
+    "eval_logps/rejected": -310.0,
+    "eval_loss": 0.6820937395095825,
+    "eval_rewards/accuracies": 0.390625,
+    "eval_rewards/chosen": -0.10009765625,
+    "eval_rewards/margins": 0.0028076171875,
+    "eval_rewards/rejected": -0.1025390625,
+    "eval_runtime": 8.7282,
+    "eval_samples_per_second": 114.571,
+    "eval_steps_per_second": 1.833
 }