Learning from feedback dir - a DylanASHillier Collection

DylanASHillier 's Collections

Benchmarks etc.

State Space Models

Learning from feedback dir

Imitative Learning

Sample Efficiency

Embodied useful

Model Internals

Learning from feedback dir

updated Jun 18, 2025

Suppressing Pink Elephants with Direct Principle Feedback

Paper • 2402.07896 • Published Feb 12, 2024 • 11
Policy Improvement using Language Feedback Models

Paper • 2402.07876 • Published Feb 12, 2024 • 9
Direct Language Model Alignment from Online AI Feedback

Paper • 2402.04792 • Published Feb 7, 2024 • 34
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Paper • 2401.01335 • Published Jan 2, 2024 • 68
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Paper • 2402.11450 • Published Feb 18, 2024 • 22
RLVF: Learning from Verbal Feedback without Overgeneralization

Paper • 2402.10893 • Published Feb 16, 2024 • 12
Orca-Math: Unlocking the potential of SLMs in Grade School Math

Paper • 2402.14830 • Published Feb 16, 2024 • 24
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

Paper • 2406.11817 • Published Jun 17, 2024 • 13
Bootstrapping Language Models with DPO Implicit Rewards

Paper • 2406.09760 • Published Jun 14, 2024 • 41
Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning

Paper • 2406.00392 • Published Jun 1, 2024 • 14
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Paper • 2406.00888 • Published Jun 2, 2024 • 33
Aligning Teacher with Student Preferences for Tailored Training Data Generation

Paper • 2406.19227 • Published Jun 27, 2024 • 25
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

Paper • 2406.18629 • Published Jun 26, 2024 • 42
Can LLMs Learn by Teaching? A Preliminary Study

Paper • 2406.14629 • Published Jun 20, 2024 • 21
Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use

Paper • 2410.24218 • Published Oct 31, 2024 • 6
RL Zero: Zero-Shot Language to Behaviors without any Supervision

Paper • 2412.05718 • Published Dec 7, 2024 • 4
Moto: Latent Motion Token as the Bridging Language for Robot Manipulation

Paper • 2412.04445 • Published Dec 5, 2024 • 22
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

Paper • 2506.11930 • Published Jun 13, 2025 • 53
Provably Learning from Language Feedback

Paper • 2506.10341 • Published Jun 12, 2025 • 8