Nagi-ovo
/

Llama-3-8B-DPO

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Nagi-ovo commited on 23 days ago

Commit

f36818b

·

verified ·

1 Parent(s): 89477e7

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ This model is a **preference-aligned** version of the [previous SFT model](https
 ## Training Details
 - Base Model: SFT-tuned Llama-3-8B
 - Alignment Method: DPO (Direct Preference Optimization)
-- Training Infrastructure: DeepSpeed + FlashAttention 2, on 4 x 3090
 - Training Duration: 1 epoch
 ## Training Data

 ## Training Details
 - Base Model: SFT-tuned Llama-3-8B
 - Alignment Method: DPO (Direct Preference Optimization)
+- Training Infrastructure: DeepSpeed (stage 1) + FlashAttention 2, on 4 x 3090
 - Training Duration: 1 epoch
 ## Training Data