Tulu V2.5 Suite - a allenai Collection

allenai 's Collections

PixMo

OLMo 2

OLMo 2 Preview Post-trained Models

Tulu 3 Datasets

Molmo

OLMoE

Tulu V2.5 Suite

Paloma

SciRIFF

AI2 Safety Toolkit

Zebra Logic Bench

ACE

Tulu V2.5 Suite

updated 24 days ago

A suite of models trained using DPO and PPO across a wide variety (up to 14) of preference datasets. See https://arxiv.org/abs/2406.09279 for more!

allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm

Text Generation • Updated Jun 14, 2024 • 66 • 6

Note Our overall best model, a 13B Tulu 2 model trained using PPO with a 70B reward model trained on UltraFeedback! We also release the value and reward models associated with this model - see the model card for details
allenai/tulu-2.5-preference-data

Viewer • Updated Jul 22, 2024 • 2.12M • 534 • 17

Note The datasets used for training PPO, DPO, and reward models in our paper.
allenai/tulu-2.5-prompts

Viewer • Updated Jul 6, 2024 • 189k • 41 • 3

Note The prompt sets used during PPO training in our paper. Below, see all our PPO-trained models!
allenai/tulu-v2.5-ppo-13b-uf-mean

Text Generation • Updated Jun 14, 2024 • 35
allenai/tulu-v2.5-ppo-13b-uf-mean-13b-mix-rm

Text Generation • Updated Jun 14, 2024 • 22
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-mix-rm

Text Generation • Updated Jun 14, 2024 • 10
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm-mixed-prompts

Text Generation • Updated Jun 14, 2024 • 10

Note Below is our PPO data ablations.
allenai/tulu-v2.5-ppo-13b-hh-rlhf-60k

Text Generation • Updated Jun 14, 2024 • 33
allenai/tulu-v2.5-ppo-13b-chatbot-arena-2023

Text Generation • Updated Jun 14, 2024 • 15
allenai/tulu-v2.5-ppo-13b-stackexchange-60k

Text Generation • Updated Jun 14, 2024 • 12
allenai/tulu-v2.5-ppo-13b-nectar-60k

Text Generation • Updated Jun 14, 2024 • 34

Note Below is our DPO data ablations.
allenai/tulu-v2.5-dpo-13b-uf-mean

Text Generation • Updated Jun 14, 2024 • 22
allenai/tulu-v2.5-dpo-13b-helpsteer

Text Generation • Updated Jun 14, 2024 • 7
allenai/tulu-v2.5-dpo-13b-shp2

Text Generation • Updated Jun 14, 2024 • 8
allenai/tulu-v2.5-dpo-13b-stackexchange

Text Generation • Updated Jun 14, 2024 • 11
allenai/tulu-v2.5-dpo-13b-uf-overall

Text Generation • Updated Jun 14, 2024 • 25
allenai/tulu-v2.5-dpo-13b-capybara

Text Generation • Updated Jun 14, 2024 • 5
allenai/tulu-v2.5-dpo-13b-prm-phase-2

Text Generation • Updated Jun 14, 2024 • 8
allenai/tulu-v2.5-dpo-13b-hh-rlhf

Text Generation • Updated Jun 14, 2024 • 18 • 1
allenai/tulu-v2.5-dpo-13b-nectar

Text Generation • Updated Jun 14, 2024 • 9
allenai/tulu-v2.5-dpo-13b-chatbot-arena-2023

Text Generation • Updated Jun 14, 2024 • 19
allenai/tulu-v2.5-dpo-13b-chatbot-arena-2024

Text Generation • Updated Jun 14, 2024 • 20
allenai/tulu-v2.5-dpo-13b-alpacafarm-human-pref

Text Generation • Updated Jun 14, 2024 • 10
allenai/tulu-v2.5-dpo-13b-alpacafarm-gpt4-pref

Text Generation • Updated Jun 14, 2024 • 18
allenai/tulu-v2.5-dpo-13b-hh-rlhf-60k

Text Generation • Updated Jun 14, 2024 • 36
allenai/tulu-v2.5-dpo-13b-stackexchange-60k

Text Generation • Updated Jun 14, 2024 • 19 • 1
allenai/tulu-v2.5-dpo-13b-argilla-orca-pairs

Text Generation • Updated Jun 14, 2024 • 14
allenai/tulu-v2.5-dpo-13b-nectar-60k

Text Generation • Updated Jun 14, 2024 • 35 • 1

Note Below are our reward models!
allenai/tulu-v2.5-13b-uf-rm

Text Classification • Updated Jun 14, 2024 • 25
allenai/tulu-v2.5-13b-preference-mix-rm

Text Classification • Updated Jun 14, 2024 • 23
allenai/tulu-v2.5-70b-uf-rm

Text Classification • Updated Jun 14, 2024 • 16
allenai/tulu-v2.5-70b-preference-mix-rm

Text Classification • Updated Jun 14, 2024 • 11
allenai/tulu-v2.5-13b-nectar-60k-rm

Text Classification • Updated Jun 14, 2024 • 11
allenai/tulu-v2.5-13b-chatbot-arena-2023-rm

Text Classification • Updated Jun 14, 2024 • 12
allenai/tulu-v2.5-13b-hh-rlhf-60k-rm

Text Classification • Updated Jun 14, 2024 • 18
allenai/tulu-v2.5-13b-stackexchange-60k-rm

Text Classification • Updated Jun 14, 2024 • 8

Note Below are our value models.
allenai/tulu-v2.5-ppo-13b-uf-mean-13b-uf-rm-value

Token Classification • Updated Jun 14, 2024 • 12
allenai/tulu-v2.5-ppo-13b-uf-mean-13b-mix-rm-value

Token Classification • Updated Jun 14, 2024 • 8
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm-value

Token Classification • Updated Jun 14, 2024 • 11
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-mix-rm-value

Token Classification • Updated Jun 14, 2024 • 10
allenai/tulu-v2.5-ppo-13b-uf-mean-70b-uf-rm-mixed-prompts-value

Token Classification • Updated Jun 14, 2024 • 11

Note Below is llama 3 models:
allenai/llama-3-tulu-v2.5-8b-uf-mean-8b-uf-rm

Updated Oct 14, 2024 • 17
allenai/llama-3-tulu-v2.5-8b-uf-mean-70b-uf-rm-mixed-prompts

Updated Oct 14, 2024 • 19 • 1
allenai/llama-3-tulu-v2.5-8b-uf-mean-70b-uf-rm

Updated Oct 14, 2024 • 11