ShenaoZ
/

0.001_withdpo_4iters_bs256_5102lr_misit_iter_1

Text Generation

alignment-handbook

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

0.001_withdpo_4iters_bs256_5102lr_misit_iter_1 / config.json

Commit History

End of training

0d4544b
verified

ShenaoZ commited on May 4, 2024

Model save

23d7d5d
verified

ShenaoZ commited on May 4, 2024

End of training

c4ce6d3
verified

ShenaoZ commited on May 3, 2024

Model save

7f7edeb
verified

ShenaoZ commited on May 3, 2024