Model save

Browse files

Files changed (3) hide show

README.md +18 -0
adapter_model.safetensors +1 -1
trainer_state.json +177 -9

README.md CHANGED Viewed

@@ -18,6 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 # SFT-Qwen3-Coder-30B_v1.1
 This model is a fine-tuned version of [Qwen/Qwen3-Coder-30B-A3B-Instruct](https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct) on the None dataset.
 ## Model description
@@ -47,6 +49,22 @@ The following hyperparameters were used during training:
 - lr_scheduler_warmup_ratio: 0.03
 - num_epochs: 3
 ### Framework versions
 - PEFT 0.18.0

 # SFT-Qwen3-Coder-30B_v1.1
 This model is a fine-tuned version of [Qwen/Qwen3-Coder-30B-A3B-Instruct](https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5415
 ## Model description
 - lr_scheduler_warmup_ratio: 0.03
 - num_epochs: 3
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 0.9355        | 0.2857 | 20   | 0.7199          |
+| 0.8105        | 0.5714 | 40   | 0.6498          |
+| 0.7285        | 0.8571 | 60   | 0.6154          |
+| 0.7248        | 1.1429 | 80   | 0.5895          |
+| 0.6648        | 1.4286 | 100  | 0.5702          |
+| 0.6418        | 1.7143 | 120  | 0.5603          |
+| 0.7202        | 2.0    | 140  | 0.5530          |
+| 0.5803        | 2.2857 | 160  | 0.5463          |
+| 0.558         | 2.5714 | 180  | 0.5434          |
+| 0.6506        | 2.8571 | 200  | 0.5415          |
 ### Framework versions
 - PEFT 0.18.0

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bea075713616701599d020defa788089a52f81cd9687cfe961ff20e74cfc18d
 size 1693023512

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfdc26c8451232ecfedddd0913b9e677bb1556b792812178944bb6eb52f8b192
 size 1693023512

trainer_state.json CHANGED Viewed

@@ -1,14 +1,182 @@
 {
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 0.05714285714285714,
   "eval_steps": 20,
-  "global_step": 4,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
-  "log_history": [],
   "logging_steps": 20,
   "max_steps": 210,
   "num_input_tokens_seen": 0,
@@ -29,13 +197,13 @@
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
-        "should_save": false,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 200,
+  "best_metric": 0.5415477156639099,
+  "best_model_checkpoint": "j05hr3d/SFT-Qwen3-Coder-30B_v1.1/checkpoint-200",
+  "epoch": 3.0,
   "eval_steps": 20,
+  "global_step": 210,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 0.2556939721107483,
+      "learning_rate": 9.408866995073891e-05,
+      "loss": 0.9355,
+      "step": 20
+    },
+    {
+      "epoch": 0.2857142857142857,
+      "eval_loss": 0.7198927998542786,
+      "eval_runtime": 735.6148,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 20
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 0.19520319998264313,
+      "learning_rate": 8.423645320197044e-05,
+      "loss": 0.8105,
+      "step": 40
+    },
+    {
+      "epoch": 0.5714285714285714,
+      "eval_loss": 0.6497658491134644,
+      "eval_runtime": 734.7356,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 40
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 0.3172638714313507,
+      "learning_rate": 7.438423645320197e-05,
+      "loss": 0.7285,
+      "step": 60
+    },
+    {
+      "epoch": 0.8571428571428571,
+      "eval_loss": 0.6153671145439148,
+      "eval_runtime": 736.69,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 60
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "grad_norm": 0.5020032525062561,
+      "learning_rate": 6.45320197044335e-05,
+      "loss": 0.7248,
+      "step": 80
+    },
+    {
+      "epoch": 1.1428571428571428,
+      "eval_loss": 0.5895159244537354,
+      "eval_runtime": 733.9618,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 80
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 0.512776255607605,
+      "learning_rate": 5.467980295566503e-05,
+      "loss": 0.6648,
+      "step": 100
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "eval_loss": 0.5701907277107239,
+      "eval_runtime": 736.1956,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 100
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "grad_norm": 0.6210766434669495,
+      "learning_rate": 4.482758620689655e-05,
+      "loss": 0.6418,
+      "step": 120
+    },
+    {
+      "epoch": 1.7142857142857144,
+      "eval_loss": 0.5602756142616272,
+      "eval_runtime": 738.1818,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.4914884567260742,
+      "learning_rate": 3.497536945812808e-05,
+      "loss": 0.7202,
+      "step": 140
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5529556274414062,
+      "eval_runtime": 739.8012,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 140
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.24697080254554749,
+      "learning_rate": 2.512315270935961e-05,
+      "loss": 0.5803,
+      "step": 160
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "eval_loss": 0.5462542176246643,
+      "eval_runtime": 744.2538,
+      "eval_samples_per_second": 0.083,
+      "eval_steps_per_second": 0.083,
+      "step": 160
+    },
+    {
+      "epoch": 2.571428571428571,
+      "grad_norm": 0.2137288749217987,
+      "learning_rate": 1.5270935960591133e-05,
+      "loss": 0.558,
+      "step": 180
+    },
+    {
+      "epoch": 2.571428571428571,
+      "eval_loss": 0.5434364080429077,
+      "eval_runtime": 743.0389,
+      "eval_samples_per_second": 0.083,
+      "eval_steps_per_second": 0.083,
+      "step": 180
+    },
+    {
+      "epoch": 2.857142857142857,
+      "grad_norm": 0.25142785906791687,
+      "learning_rate": 5.418719211822661e-06,
+      "loss": 0.6506,
+      "step": 200
+    },
+    {
+      "epoch": 2.857142857142857,
+      "eval_loss": 0.5415477156639099,
+      "eval_runtime": 742.4945,
+      "eval_samples_per_second": 0.084,
+      "eval_steps_per_second": 0.084,
+      "step": 200
+    },
+    {
+      "epoch": 3.0,
+      "step": 210,
+      "total_flos": 3.407452539457782e+17,
+      "train_loss": 0.6992505141666957,
+      "train_runtime": 48442.2914,
+      "train_samples_per_second": 0.035,
+      "train_steps_per_second": 0.004
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.5415477156639099,
+      "eval_runtime": 742.9426,
+      "eval_samples_per_second": 0.083,
+      "eval_steps_per_second": 0.083,
+      "step": 210
+    }
+  ],
   "logging_steps": 20,
   "max_steps": 210,
   "num_input_tokens_seen": 0,
         "should_epoch_stop": false,
         "should_evaluate": false,
         "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.407452539457782e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null