- Llama-3.2-3B-Instruct-polaris-GRPO--bsz128
- Llama-3.2-3B-Instruct-polaris-GRPO--bsz16
- Llama-3.2-3B-Instruct-polaris-GRPO--bsz256
- Llama-3.2-3B-Instruct-polaris-GRPO--bsz32
- Llama-3.2-3B-Instruct-polaris-GRPO--bsz512
- Llama-3.2-3B-Instruct-polaris-GRPO--bsz64
- Qwen2.5-3B-Instruct-polaris-AdamW-GRPO
- gen_outputs
- global_step_124
- global_step_186
- global_step_248
- global_step_310
- global_step_372
- global_step_434
- global_step_496
- global_step_62
- kfac_out
- models
- qwen-3b-lora
- synthetic
- 20.6 kB
- 3 Bytes