yiran-wang3
/

ds_chat_no_mask_sppo_hard_new_iter0_reproduce

alignment-handbook

Generated from Trainer

Model card Files Files and versions Community

ds_chat_no_mask_sppo_hard_new_iter0_reproduce

File size: 216 Bytes

789baa0

{
    "epoch": 1.0,
    "total_flos": 0.0,
    "train_loss": 0.4425210625352994,
    "train_runtime": 1208.7339,
    "train_samples": 9080,
    "train_samples_per_second": 7.512,
    "train_steps_per_second": 0.117
}