Learning from feedback dir - a DylanASHillier Collection

DylanASHillier 's Collections

Benchmarks etc.

State Space Models

Learning from feedback dir

Imitative Learning

Sample Efficiency

Embodied useful

STLM

Model Internals

Learning from feedback dir

updated 8 days ago

Suppressing Pink Elephants with Direct Principle Feedback

Paper • 2402.07896 • Published Feb 12 • 9
Policy Improvement using Language Feedback Models

Paper • 2402.07876 • Published Feb 12 • 5
Direct Language Model Alignment from Online AI Feedback

Paper • 2402.04792 • Published Feb 7 • 29
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Paper • 2401.01335 • Published Jan 2 • 64
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Paper • 2402.11450 • Published Feb 18 • 21
RLVF: Learning from Verbal Feedback without Overgeneralization

Paper • 2402.10893 • Published Feb 16 • 10
Orca-Math: Unlocking the potential of SLMs in Grade School Math

Paper • 2402.14830 • Published Feb 16 • 24
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

Paper • 2406.11817 • Published Jun 17 • 12
Bootstrapping Language Models with DPO Implicit Rewards

Paper • 2406.09760 • Published Jun 14 • 38
Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

Paper • 2406.00392 • Published Jun 1 • 12
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Paper • 2406.00888 • Published Jun 2 • 30
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Paper • 2406.19227 • Published Jun 27 • 24
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

Paper • 2406.18629 • Published Jun 26 • 41
Can LLMs Learn by Teaching? A Preliminary Study

Paper • 2406.14629 • Published Jun 20 • 19
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use

Paper • 2410.24218 • Published Oct 31 • 5
RL Zero: Zero-Shot Language to Behaviors without any Supervision

Paper • 2412.05718 • Published 11 days ago • 4
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Paper • 2412.04445 • Published 13 days ago • 21