PedagogyRL-Experiments - a OpenLearnLM Collection

OpenLearnLM 's Collections

PedagogyRL-Experiments

PedagogyRL-Experiments

updated 2 days ago

OpenLearnLM/deepseek_qwen3_8b_pedagogical_think_reward_grpo_step_300

8B • Updated Jul 9, 2025 • 1
OpenLearnLM/deepseek_qwen3_8b_pedagogical_think_noreward_grpo_step_300

8B • Updated Jul 9, 2025
OpenLearnLM/deepseek_qwen3_8b_think_noreward_grpo_step_300

8B • Updated Jul 9, 2025
OpenLearnLM/deepseek_qwen3_8b_think_reward_grpo_step_300

8B • Updated Jul 9, 2025
OpenLearnLM/qwen2.5_7b_nothink_noreward_grpo_step_300

8B • Updated Jan 13