Spaces:

Nefertury
/

aplusb

Runtime error

App Files Files Community

Nefertury commited on Nov 14, 2023

Commit

20d1c28

1 Parent(s): 5d06854

Upload 8 files

Browse files

Files changed (8) hide show

checkpoint-16000/README.md +207 -0
checkpoint-16000/adapter_config.json +29 -0
checkpoint-16000/adapter_model.safetensors +3 -0
checkpoint-16000/optimizer.pt +3 -0
checkpoint-16000/rng_state.pth +3 -0
checkpoint-16000/scheduler.pt +3 -0
checkpoint-16000/trainer_state.json +1139 -0
checkpoint-16000/training_args.bin +3 -0

checkpoint-16000/README.md ADDED Viewed

	@@ -0,0 +1,207 @@

+---
+library_name: peft
+base_model: nickypro/tinyllama-15M
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Data Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Data Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+## Training procedure
+### Framework versions
+- PEFT 0.6.1

checkpoint-16000/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "nickypro/tinyllama-15M",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "down_proj",
+    "o_proj",
+    "lm_head",
+    "up_proj",
+    "gate_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-16000/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d65f4025196714c4d0bdcad283d356d7780d8b3ec7b2de3aaa2b99339c49d526
+size 16681976

checkpoint-16000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:169c6da3508fa7bdb7cb8e8fd7f72b9c75be531b70cc4f9bd24367d782ef4b73
+size 33413946

checkpoint-16000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39dbf1d844a9992c04156e8f26097b66c86d4a136ff4e8dd95a0d61fddf67447
+size 14244

checkpoint-16000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c433a611a29d5b077ab91ae6da062fd3c434ada04dfee5ef27669bde33d28e6e
+size 1064

checkpoint-16000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1139 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.893337455557273,
+  "eval_steps": 200,
+  "global_step": 16000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002981331673926571,
+      "loss": 2.3038,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 1.589147925376892,
+      "eval_runtime": 2.1684,
+      "eval_samples_per_second": 461.163,
+      "eval_steps_per_second": 57.645,
+      "step": 200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00029439950217797134,
+      "loss": 1.5398,
+      "step": 400
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.4633430242538452,
+      "eval_runtime": 2.1071,
+      "eval_samples_per_second": 474.58,
+      "eval_steps_per_second": 59.323,
+      "step": 400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00029066583696328563,
+      "loss": 1.4615,
+      "step": 600
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.4296711683273315,
+      "eval_runtime": 2.4812,
+      "eval_samples_per_second": 403.032,
+      "eval_steps_per_second": 50.379,
+      "step": 600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002869321717485998,
+      "loss": 1.4244,
+      "step": 800
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 1.3793567419052124,
+      "eval_runtime": 2.9698,
+      "eval_samples_per_second": 336.72,
+      "eval_steps_per_second": 42.09,
+      "step": 800
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0002831985065339141,
+      "loss": 1.3921,
+      "step": 1000
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 1.3315461874008179,
+      "eval_runtime": 2.7793,
+      "eval_samples_per_second": 359.806,
+      "eval_steps_per_second": 44.976,
+      "step": 1000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00027946484131922836,
+      "loss": 1.0958,
+      "step": 1200
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.7548955082893372,
+      "eval_runtime": 2.7656,
+      "eval_samples_per_second": 361.592,
+      "eval_steps_per_second": 45.199,
+      "step": 1200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0002757311761045426,
+      "loss": 0.6312,
+      "step": 1400
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.3990221917629242,
+      "eval_runtime": 2.1502,
+      "eval_samples_per_second": 465.071,
+      "eval_steps_per_second": 58.134,
+      "step": 1400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00027199751088985685,
+      "loss": 0.4093,
+      "step": 1600
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.26113563776016235,
+      "eval_runtime": 3.5103,
+      "eval_samples_per_second": 284.875,
+      "eval_steps_per_second": 35.609,
+      "step": 1600
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00026826384567517114,
+      "loss": 0.2959,
+      "step": 1800
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.2783801257610321,
+      "eval_runtime": 2.8441,
+      "eval_samples_per_second": 351.603,
+      "eval_steps_per_second": 43.95,
+      "step": 1800
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00026453018046048533,
+      "loss": 0.2589,
+      "step": 2000
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 0.20705343782901764,
+      "eval_runtime": 2.7524,
+      "eval_samples_per_second": 363.322,
+      "eval_steps_per_second": 45.415,
+      "step": 2000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0002607965152457996,
+      "loss": 0.2246,
+      "step": 2200
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 0.15551678836345673,
+      "eval_runtime": 2.15,
+      "eval_samples_per_second": 465.117,
+      "eval_steps_per_second": 58.14,
+      "step": 2200
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00025706285003111387,
+      "loss": 0.1991,
+      "step": 2400
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.15825262665748596,
+      "eval_runtime": 2.1344,
+      "eval_samples_per_second": 468.515,
+      "eval_steps_per_second": 58.564,
+      "step": 2400
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0002533291848164281,
+      "loss": 0.1784,
+      "step": 2600
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.12008943408727646,
+      "eval_runtime": 2.1414,
+      "eval_samples_per_second": 466.985,
+      "eval_steps_per_second": 58.373,
+      "step": 2600
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00024959551960174235,
+      "loss": 0.1598,
+      "step": 2800
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 0.12511701881885529,
+      "eval_runtime": 2.55,
+      "eval_samples_per_second": 392.155,
+      "eval_steps_per_second": 49.019,
+      "step": 2800
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0002458618543870566,
+      "loss": 0.164,
+      "step": 3000
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.11049681156873703,
+      "eval_runtime": 2.9765,
+      "eval_samples_per_second": 335.97,
+      "eval_steps_per_second": 41.996,
+      "step": 3000
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00024212818917237084,
+      "loss": 0.1475,
+      "step": 3200
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.0954003781080246,
+      "eval_runtime": 2.8437,
+      "eval_samples_per_second": 351.659,
+      "eval_steps_per_second": 43.957,
+      "step": 3200
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0002383945239576851,
+      "loss": 0.1388,
+      "step": 3400
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.10116879642009735,
+      "eval_runtime": 2.7628,
+      "eval_samples_per_second": 361.954,
+      "eval_steps_per_second": 45.244,
+      "step": 3400
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00023466085874299935,
+      "loss": 0.1346,
+      "step": 3600
+    },
+    {
+      "epoch": 2.23,
+      "eval_loss": 0.10693109035491943,
+      "eval_runtime": 3.1697,
+      "eval_samples_per_second": 315.491,
+      "eval_steps_per_second": 39.436,
+      "step": 3600
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00023092719352831362,
+      "loss": 0.1232,
+      "step": 3800
+    },
+    {
+      "epoch": 2.35,
+      "eval_loss": 0.09901304543018341,
+      "eval_runtime": 2.1178,
+      "eval_samples_per_second": 472.183,
+      "eval_steps_per_second": 59.023,
+      "step": 3800
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00022719352831362786,
+      "loss": 0.1187,
+      "step": 4000
+    },
+    {
+      "epoch": 2.47,
+      "eval_loss": 0.11418598890304565,
+      "eval_runtime": 2.1348,
+      "eval_samples_per_second": 468.423,
+      "eval_steps_per_second": 58.553,
+      "step": 4000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0002234598630989421,
+      "loss": 0.1133,
+      "step": 4200
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.0984039306640625,
+      "eval_runtime": 2.1382,
+      "eval_samples_per_second": 467.676,
+      "eval_steps_per_second": 58.459,
+      "step": 4200
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00021972619788425635,
+      "loss": 0.1088,
+      "step": 4400
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 0.07466612011194229,
+      "eval_runtime": 2.8862,
+      "eval_samples_per_second": 346.477,
+      "eval_steps_per_second": 43.31,
+      "step": 4400
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00021599253266957062,
+      "loss": 0.1025,
+      "step": 4600
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 0.1227998435497284,
+      "eval_runtime": 2.8738,
+      "eval_samples_per_second": 347.966,
+      "eval_steps_per_second": 43.496,
+      "step": 4600
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.00021225886745488486,
+      "loss": 0.0971,
+      "step": 4800
+    },
+    {
+      "epoch": 2.97,
+      "eval_loss": 0.07324225455522537,
+      "eval_runtime": 2.2831,
+      "eval_samples_per_second": 437.994,
+      "eval_steps_per_second": 54.749,
+      "step": 4800
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 0.00020852520224019913,
+      "loss": 0.0853,
+      "step": 5000
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.07788190990686417,
+      "eval_runtime": 2.1358,
+      "eval_samples_per_second": 468.199,
+      "eval_steps_per_second": 58.525,
+      "step": 5000
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.00020479153702551337,
+      "loss": 0.0865,
+      "step": 5200
+    },
+    {
+      "epoch": 3.22,
+      "eval_loss": 0.06575259566307068,
+      "eval_runtime": 2.1474,
+      "eval_samples_per_second": 465.679,
+      "eval_steps_per_second": 58.21,
+      "step": 5200
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.0002010578718108276,
+      "loss": 0.0768,
+      "step": 5400
+    },
+    {
+      "epoch": 3.34,
+      "eval_loss": 0.08183684200048447,
+      "eval_runtime": 2.1211,
+      "eval_samples_per_second": 471.453,
+      "eval_steps_per_second": 58.932,
+      "step": 5400
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.00019732420659614186,
+      "loss": 0.0738,
+      "step": 5600
+    },
+    {
+      "epoch": 3.46,
+      "eval_loss": 0.04662672430276871,
+      "eval_runtime": 2.7913,
+      "eval_samples_per_second": 358.253,
+      "eval_steps_per_second": 44.782,
+      "step": 5600
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 0.0001935905413814561,
+      "loss": 0.0622,
+      "step": 5800
+    },
+    {
+      "epoch": 3.59,
+      "eval_loss": 0.0433196946978569,
+      "eval_runtime": 3.1597,
+      "eval_samples_per_second": 316.49,
+      "eval_steps_per_second": 39.561,
+      "step": 5800
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 0.00018985687616677037,
+      "loss": 0.0671,
+      "step": 6000
+    },
+    {
+      "epoch": 3.71,
+      "eval_loss": 0.038382936269044876,
+      "eval_runtime": 2.1009,
+      "eval_samples_per_second": 475.976,
+      "eval_steps_per_second": 59.497,
+      "step": 6000
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.0001861232109520846,
+      "loss": 0.0545,
+      "step": 6200
+    },
+    {
+      "epoch": 3.83,
+      "eval_loss": 0.04082392156124115,
+      "eval_runtime": 2.1346,
+      "eval_samples_per_second": 468.481,
+      "eval_steps_per_second": 58.56,
+      "step": 6200
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 0.00018238954573739888,
+      "loss": 0.0564,
+      "step": 6400
+    },
+    {
+      "epoch": 3.96,
+      "eval_loss": 0.043197453022003174,
+      "eval_runtime": 2.1169,
+      "eval_samples_per_second": 472.389,
+      "eval_steps_per_second": 59.049,
+      "step": 6400
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.0001786558805227131,
+      "loss": 0.0523,
+      "step": 6600
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 0.03342806547880173,
+      "eval_runtime": 2.4926,
+      "eval_samples_per_second": 401.182,
+      "eval_steps_per_second": 50.148,
+      "step": 6600
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 0.00017492221530802736,
+      "loss": 0.0456,
+      "step": 6800
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 0.02744474820792675,
+      "eval_runtime": 3.0,
+      "eval_samples_per_second": 333.335,
+      "eval_steps_per_second": 41.667,
+      "step": 6800
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 0.0001711885500933416,
+      "loss": 0.0442,
+      "step": 7000
+    },
+    {
+      "epoch": 4.33,
+      "eval_loss": 0.024560416117310524,
+      "eval_runtime": 2.6752,
+      "eval_samples_per_second": 373.806,
+      "eval_steps_per_second": 46.726,
+      "step": 7000
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 0.00016745488487865588,
+      "loss": 0.0383,
+      "step": 7200
+    },
+    {
+      "epoch": 4.45,
+      "eval_loss": 0.018605533987283707,
+      "eval_runtime": 2.1117,
+      "eval_samples_per_second": 473.559,
+      "eval_steps_per_second": 59.195,
+      "step": 7200
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 0.00016372121966397012,
+      "loss": 0.0348,
+      "step": 7400
+    },
+    {
+      "epoch": 4.58,
+      "eval_loss": 0.01473915483802557,
+      "eval_runtime": 2.1223,
+      "eval_samples_per_second": 471.193,
+      "eval_steps_per_second": 58.899,
+      "step": 7400
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 0.0001599875544492844,
+      "loss": 0.0299,
+      "step": 7600
+    },
+    {
+      "epoch": 4.7,
+      "eval_loss": 0.025838036090135574,
+      "eval_runtime": 2.1138,
+      "eval_samples_per_second": 473.088,
+      "eval_steps_per_second": 59.136,
+      "step": 7600
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 0.0001562538892345986,
+      "loss": 0.0268,
+      "step": 7800
+    },
+    {
+      "epoch": 4.82,
+      "eval_loss": 0.01688736118376255,
+      "eval_runtime": 2.1658,
+      "eval_samples_per_second": 461.718,
+      "eval_steps_per_second": 57.715,
+      "step": 7800
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 0.00015252022401991287,
+      "loss": 0.0272,
+      "step": 8000
+    },
+    {
+      "epoch": 4.95,
+      "eval_loss": 0.020514091476798058,
+      "eval_runtime": 2.1415,
+      "eval_samples_per_second": 466.966,
+      "eval_steps_per_second": 58.371,
+      "step": 8000
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 0.00014878655880522712,
+      "loss": 0.0277,
+      "step": 8200
+    },
+    {
+      "epoch": 5.07,
+      "eval_loss": 0.018993763253092766,
+      "eval_runtime": 2.3074,
+      "eval_samples_per_second": 433.383,
+      "eval_steps_per_second": 54.173,
+      "step": 8200
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 0.00014505289359054139,
+      "loss": 0.0253,
+      "step": 8400
+    },
+    {
+      "epoch": 5.19,
+      "eval_loss": 0.0132982786744833,
+      "eval_runtime": 2.7723,
+      "eval_samples_per_second": 360.706,
+      "eval_steps_per_second": 45.088,
+      "step": 8400
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 0.00014131922837585563,
+      "loss": 0.0208,
+      "step": 8600
+    },
+    {
+      "epoch": 5.32,
+      "eval_loss": 0.011603164486587048,
+      "eval_runtime": 2.2147,
+      "eval_samples_per_second": 451.518,
+      "eval_steps_per_second": 56.44,
+      "step": 8600
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 0.00013758556316116987,
+      "loss": 0.019,
+      "step": 8800
+    },
+    {
+      "epoch": 5.44,
+      "eval_loss": 0.007933158427476883,
+      "eval_runtime": 2.565,
+      "eval_samples_per_second": 389.858,
+      "eval_steps_per_second": 48.732,
+      "step": 8800
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 0.00013385189794648414,
+      "loss": 0.0179,
+      "step": 9000
+    },
+    {
+      "epoch": 5.57,
+      "eval_loss": 0.00808796752244234,
+      "eval_runtime": 2.157,
+      "eval_samples_per_second": 463.605,
+      "eval_steps_per_second": 57.951,
+      "step": 9000
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.00013011823273179835,
+      "loss": 0.0136,
+      "step": 9200
+    },
+    {
+      "epoch": 5.69,
+      "eval_loss": 0.02137412503361702,
+      "eval_runtime": 2.1642,
+      "eval_samples_per_second": 462.06,
+      "eval_steps_per_second": 57.758,
+      "step": 9200
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 0.00012638456751711262,
+      "loss": 0.0196,
+      "step": 9400
+    },
+    {
+      "epoch": 5.81,
+      "eval_loss": 0.009271830320358276,
+      "eval_runtime": 2.7483,
+      "eval_samples_per_second": 363.865,
+      "eval_steps_per_second": 45.483,
+      "step": 9400
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.00012265090230242687,
+      "loss": 0.015,
+      "step": 9600
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.011388062499463558,
+      "eval_runtime": 3.1063,
+      "eval_samples_per_second": 321.931,
+      "eval_steps_per_second": 40.241,
+      "step": 9600
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 0.00011891723708774112,
+      "loss": 0.0196,
+      "step": 9800
+    },
+    {
+      "epoch": 6.06,
+      "eval_loss": 0.009324445389211178,
+      "eval_runtime": 2.9695,
+      "eval_samples_per_second": 336.759,
+      "eval_steps_per_second": 42.095,
+      "step": 9800
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 0.00011518357187305538,
+      "loss": 0.0192,
+      "step": 10000
+    },
+    {
+      "epoch": 6.18,
+      "eval_loss": 0.008494062349200249,
+      "eval_runtime": 2.1785,
+      "eval_samples_per_second": 459.035,
+      "eval_steps_per_second": 57.379,
+      "step": 10000
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 0.00011144990665836963,
+      "loss": 0.0155,
+      "step": 10200
+    },
+    {
+      "epoch": 6.31,
+      "eval_loss": 0.005131287965923548,
+      "eval_runtime": 2.2151,
+      "eval_samples_per_second": 451.441,
+      "eval_steps_per_second": 56.43,
+      "step": 10200
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 0.00010771624144368388,
+      "loss": 0.0182,
+      "step": 10400
+    },
+    {
+      "epoch": 6.43,
+      "eval_loss": 0.01033452432602644,
+      "eval_runtime": 2.204,
+      "eval_samples_per_second": 453.729,
+      "eval_steps_per_second": 56.716,
+      "step": 10400
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 0.00010398257622899813,
+      "loss": 0.0149,
+      "step": 10600
+    },
+    {
+      "epoch": 6.55,
+      "eval_loss": 0.006081216037273407,
+      "eval_runtime": 2.6138,
+      "eval_samples_per_second": 382.582,
+      "eval_steps_per_second": 47.823,
+      "step": 10600
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 0.00010024891101431236,
+      "loss": 0.0155,
+      "step": 10800
+    },
+    {
+      "epoch": 6.68,
+      "eval_loss": 0.008235114626586437,
+      "eval_runtime": 2.9799,
+      "eval_samples_per_second": 335.587,
+      "eval_steps_per_second": 41.948,
+      "step": 10800
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 9.651524579962662e-05,
+      "loss": 0.0125,
+      "step": 11000
+    },
+    {
+      "epoch": 6.8,
+      "eval_loss": 0.0061024767346680164,
+      "eval_runtime": 3.1763,
+      "eval_samples_per_second": 314.832,
+      "eval_steps_per_second": 39.354,
+      "step": 11000
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 9.278158058494087e-05,
+      "loss": 0.0126,
+      "step": 11200
+    },
+    {
+      "epoch": 6.93,
+      "eval_loss": 0.0077368393540382385,
+      "eval_runtime": 2.1677,
+      "eval_samples_per_second": 461.31,
+      "eval_steps_per_second": 57.664,
+      "step": 11200
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 8.904791537025512e-05,
+      "loss": 0.016,
+      "step": 11400
+    },
+    {
+      "epoch": 7.05,
+      "eval_loss": 0.01462015975266695,
+      "eval_runtime": 2.163,
+      "eval_samples_per_second": 462.313,
+      "eval_steps_per_second": 57.789,
+      "step": 11400
+    },
+    {
+      "epoch": 7.17,
+      "learning_rate": 8.531425015556937e-05,
+      "loss": 0.0168,
+      "step": 11600
+    },
+    {
+      "epoch": 7.17,
+      "eval_loss": 0.013114248402416706,
+      "eval_runtime": 2.177,
+      "eval_samples_per_second": 459.355,
+      "eval_steps_per_second": 57.419,
+      "step": 11600
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 8.158058494088363e-05,
+      "loss": 0.0115,
+      "step": 11800
+    },
+    {
+      "epoch": 7.3,
+      "eval_loss": 0.0058467877097427845,
+      "eval_runtime": 2.8432,
+      "eval_samples_per_second": 351.72,
+      "eval_steps_per_second": 43.965,
+      "step": 11800
+    },
+    {
+      "epoch": 7.42,
+      "learning_rate": 7.784691972619787e-05,
+      "loss": 0.0109,
+      "step": 12000
+    },
+    {
+      "epoch": 7.42,
+      "eval_loss": 0.007328983396291733,
+      "eval_runtime": 2.9781,
+      "eval_samples_per_second": 335.785,
+      "eval_steps_per_second": 41.973,
+      "step": 12000
+    },
+    {
+      "epoch": 7.54,
+      "learning_rate": 7.411325451151213e-05,
+      "loss": 0.01,
+      "step": 12200
+    },
+    {
+      "epoch": 7.54,
+      "eval_loss": 0.00543447770178318,
+      "eval_runtime": 2.13,
+      "eval_samples_per_second": 469.492,
+      "eval_steps_per_second": 58.686,
+      "step": 12200
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 7.037958929682637e-05,
+      "loss": 0.0085,
+      "step": 12400
+    },
+    {
+      "epoch": 7.67,
+      "eval_loss": 0.005294375587254763,
+      "eval_runtime": 2.1484,
+      "eval_samples_per_second": 465.459,
+      "eval_steps_per_second": 58.182,
+      "step": 12400
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 6.664592408214062e-05,
+      "loss": 0.0105,
+      "step": 12600
+    },
+    {
+      "epoch": 7.79,
+      "eval_loss": 0.0051603252068161964,
+      "eval_runtime": 2.1621,
+      "eval_samples_per_second": 462.523,
+      "eval_steps_per_second": 57.815,
+      "step": 12600
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 6.291225886745488e-05,
+      "loss": 0.01,
+      "step": 12800
+    },
+    {
+      "epoch": 7.91,
+      "eval_loss": 0.005722519941627979,
+      "eval_runtime": 2.7684,
+      "eval_samples_per_second": 361.216,
+      "eval_steps_per_second": 45.152,
+      "step": 12800
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 5.917859365276913e-05,
+      "loss": 0.0071,
+      "step": 13000
+    },
+    {
+      "epoch": 8.04,
+      "eval_loss": 0.004564732778817415,
+      "eval_runtime": 2.7551,
+      "eval_samples_per_second": 362.961,
+      "eval_steps_per_second": 45.37,
+      "step": 13000
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 5.5444928438083385e-05,
+      "loss": 0.0065,
+      "step": 13200
+    },
+    {
+      "epoch": 8.16,
+      "eval_loss": 0.004461783915758133,
+      "eval_runtime": 3.1705,
+      "eval_samples_per_second": 315.412,
+      "eval_steps_per_second": 39.426,
+      "step": 13200
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 5.171126322339763e-05,
+      "loss": 0.0075,
+      "step": 13400
+    },
+    {
+      "epoch": 8.29,
+      "eval_loss": 0.004132562782615423,
+      "eval_runtime": 3.5027,
+      "eval_samples_per_second": 285.498,
+      "eval_steps_per_second": 35.687,
+      "step": 13400
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 4.797759800871188e-05,
+      "loss": 0.0072,
+      "step": 13600
+    },
+    {
+      "epoch": 8.41,
+      "eval_loss": 0.004298557061702013,
+      "eval_runtime": 2.1516,
+      "eval_samples_per_second": 464.775,
+      "eval_steps_per_second": 58.097,
+      "step": 13600
+    },
+    {
+      "epoch": 8.53,
+      "learning_rate": 4.424393279402613e-05,
+      "loss": 0.0077,
+      "step": 13800
+    },
+    {
+      "epoch": 8.53,
+      "eval_loss": 0.005747557617723942,
+      "eval_runtime": 2.1174,
+      "eval_samples_per_second": 472.272,
+      "eval_steps_per_second": 59.034,
+      "step": 13800
+    },
+    {
+      "epoch": 8.66,
+      "learning_rate": 4.051026757934038e-05,
+      "loss": 0.009,
+      "step": 14000
+    },
+    {
+      "epoch": 8.66,
+      "eval_loss": 0.005076244939118624,
+      "eval_runtime": 2.1715,
+      "eval_samples_per_second": 460.514,
+      "eval_steps_per_second": 57.564,
+      "step": 14000
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 3.677660236465463e-05,
+      "loss": 0.0066,
+      "step": 14200
+    },
+    {
+      "epoch": 8.78,
+      "eval_loss": 0.004328867886215448,
+      "eval_runtime": 2.1457,
+      "eval_samples_per_second": 466.038,
+      "eval_steps_per_second": 58.255,
+      "step": 14200
+    },
+    {
+      "epoch": 8.9,
+      "learning_rate": 3.304293714996888e-05,
+      "loss": 0.0065,
+      "step": 14400
+    },
+    {
+      "epoch": 8.9,
+      "eval_loss": 0.004579309374094009,
+      "eval_runtime": 2.5023,
+      "eval_samples_per_second": 399.626,
+      "eval_steps_per_second": 49.953,
+      "step": 14400
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 2.9309271935283136e-05,
+      "loss": 0.0047,
+      "step": 14600
+    },
+    {
+      "epoch": 9.03,
+      "eval_loss": 0.00406376738101244,
+      "eval_runtime": 3.0193,
+      "eval_samples_per_second": 331.204,
+      "eval_steps_per_second": 41.401,
+      "step": 14600
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 2.5575606720597382e-05,
+      "loss": 0.0049,
+      "step": 14800
+    },
+    {
+      "epoch": 9.15,
+      "eval_loss": 0.0037133253645151854,
+      "eval_runtime": 2.5419,
+      "eval_samples_per_second": 393.406,
+      "eval_steps_per_second": 49.176,
+      "step": 14800
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 2.1841941505911635e-05,
+      "loss": 0.0048,
+      "step": 15000
+    },
+    {
+      "epoch": 9.28,
+      "eval_loss": 0.0035180081613361835,
+      "eval_runtime": 2.1535,
+      "eval_samples_per_second": 464.362,
+      "eval_steps_per_second": 58.045,
+      "step": 15000
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 1.8108276291225884e-05,
+      "loss": 0.0045,
+      "step": 15200
+    },
+    {
+      "epoch": 9.4,
+      "eval_loss": 0.0041992985643446445,
+      "eval_runtime": 2.1652,
+      "eval_samples_per_second": 461.858,
+      "eval_steps_per_second": 57.732,
+      "step": 15200
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 1.4374611076540135e-05,
+      "loss": 0.0041,
+      "step": 15400
+    },
+    {
+      "epoch": 9.52,
+      "eval_loss": 0.003915323410183191,
+      "eval_runtime": 2.7057,
+      "eval_samples_per_second": 369.59,
+      "eval_steps_per_second": 46.199,
+      "step": 15400
+    },
+    {
+      "epoch": 9.65,
+      "learning_rate": 1.0640945861854385e-05,
+      "loss": 0.0042,
+      "step": 15600
+    },
+    {
+      "epoch": 9.65,
+      "eval_loss": 0.0032798268366605043,
+      "eval_runtime": 3.0263,
+      "eval_samples_per_second": 330.438,
+      "eval_steps_per_second": 41.305,
+      "step": 15600
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 6.907280647168636e-06,
+      "loss": 0.0041,
+      "step": 15800
+    },
+    {
+      "epoch": 9.77,
+      "eval_loss": 0.003197046695277095,
+      "eval_runtime": 2.2279,
+      "eval_samples_per_second": 448.855,
+      "eval_steps_per_second": 56.107,
+      "step": 15800
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 3.173615432482887e-06,
+      "loss": 0.0039,
+      "step": 16000
+    },
+    {
+      "epoch": 9.89,
+      "eval_loss": 0.003054018598049879,
+      "eval_runtime": 2.2116,
+      "eval_samples_per_second": 452.155,
+      "eval_steps_per_second": 56.519,
+      "step": 16000
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 16170,
+  "num_train_epochs": 10,
+  "save_steps": 200,
+  "total_flos": 6146864391499776.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-16000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:151f7c03b13beb37d6cb3eb5afcbb06b6c8d33160a6f55a4964868b2d7d024bb
+size 4600