Yhhhhhhhhh commited on Oct 30, 2024

Commit

4f17f74

verified ·

1 Parent(s): 3cd8e37

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +61 -3
all_results.json +12 -0
checkpoint-1000/config.json +33 -0
checkpoint-1000/generation_config.json +6 -0
checkpoint-1000/model-00002-of-00002.safetensors +3 -0
checkpoint-1000/model.safetensors.index.json +226 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +23 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer_config.json +196 -0
checkpoint-1000/trainer_state.json +733 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1016/config.json +33 -0
checkpoint-1016/generation_config.json +6 -0
checkpoint-1016/model-00002-of-00002.safetensors +3 -0
checkpoint-1016/model.safetensors.index.json +226 -0
checkpoint-1016/rng_state.pth +3 -0
checkpoint-1016/scheduler.pt +3 -0
checkpoint-1016/special_tokens_map.json +23 -0
checkpoint-1016/tokenizer.json +0 -0
checkpoint-1016/tokenizer_config.json +196 -0
checkpoint-1016/trainer_state.json +740 -0
checkpoint-1016/training_args.bin +3 -0
checkpoint-500/config.json +33 -0
checkpoint-500/generation_config.json +6 -0
checkpoint-500/model-00002-of-00002.safetensors +3 -0
checkpoint-500/model.safetensors.index.json +226 -0
checkpoint-500/rng_state.pth +3 -0
checkpoint-500/scheduler.pt +3 -0
checkpoint-500/special_tokens_map.json +23 -0
checkpoint-500/tokenizer.json +0 -0
checkpoint-500/tokenizer_config.json +196 -0
checkpoint-500/trainer_state.json +383 -0
checkpoint-500/training_args.bin +3 -0
config.json +33 -0
eval_results.json +7 -0
generation_config.json +6 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +226 -0
runs/Oct30_14-55-53_cbc240ceb5e8/events.out.tfevents.1730300163.cbc240ceb5e8.18231.0 +3 -0
runs/Oct30_15-01-39_cbc240ceb5e8/events.out.tfevents.1730300508.cbc240ceb5e8.20056.0 +3 -0
runs/Oct30_15-09-07_cbc240ceb5e8/events.out.tfevents.1730300957.cbc240ceb5e8.22283.0 +3 -0
runs/Oct30_15-18-17_cbc240ceb5e8/events.out.tfevents.1730301506.cbc240ceb5e8.24952.0 +3 -0
runs/Oct30_15-24-16_cbc240ceb5e8/events.out.tfevents.1730301866.cbc240ceb5e8.26802.0 +3 -0
runs/Oct30_15-27-14_cbc240ceb5e8/events.out.tfevents.1730302044.cbc240ceb5e8.27913.0 +3 -0
runs/Oct30_15-27-14_cbc240ceb5e8/events.out.tfevents.1730305015.cbc240ceb5e8.27913.1 +3 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0

README.md CHANGED Viewed

@@ -1,3 +1,61 @@
----
-license: apache-2.0
----

+---
+library_name: transformers
+license: other
+base_model: deepseek-ai/deepseek-coder-1.3b-instruct
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: nopy_timecp_final_sft_deepseek-coder-1.3b-instruct
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# nopy_timecp_final_sft_deepseek-coder-1.3b-instruct
+This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-instruct](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-instruct) on the output dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2606
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 8
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 4.0
+### Training results
+### Framework versions
+- Transformers 4.44.2
+- Pytorch 2.5.0+cu121
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.9921414538310414,
+    "eval_loss": 0.2605825364589691,
+    "eval_runtime": 0.121,
+    "eval_samples_per_second": 8.267,
+    "eval_steps_per_second": 8.267,
+    "total_flos": 1.8674965727831654e+17,
+    "train_loss": 0.3693922672450073,
+    "train_runtime": 2946.7744,
+    "train_samples_per_second": 5.518,
+    "train_steps_per_second": 0.345
+}

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "deepseek-ai/deepseek-coder-1.3b-instruct",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5504,
+  "max_position_embeddings": 16384,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "rope_type": "linear",
+    "type": "linear"
+  },
+  "rope_theta": 100000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "vocab_size": 32256
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "transformers_version": "4.44.2"
+}

checkpoint-1000/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba68b48bd1d1b47b5b8c2f0795a8d1c70b836b36c5c54ac76876b2aa934a03e6
+size 399532808

checkpoint-1000/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,226 @@

+{
+  "metadata": {
+    "total_size": 5385887744
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:964771ea4d152605618c22273abbcef8154a9735e5ca07daff1650a42df501c8
+size 14244

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2641bef802b265c9118f307981603b46c53cf9b2221ad106c50a1b693f267d7
+size 1064

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|EOT|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,196 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "32000": {
+      "content": "õ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32001": {
+      "content": "÷",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32002": {
+      "content": "Á",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32003": {
+      "content": "ý",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32004": {
+      "content": "À",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32005": {
+      "content": "ÿ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32006": {
+      "content": "ø",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32007": {
+      "content": "ú",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32008": {
+      "content": "þ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32009": {
+      "content": "ü",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32010": {
+      "content": "ù",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32011": {
+      "content": "ö",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32012": {
+      "content": "û",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32013": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<｜fim▁hole｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32016": {
+      "content": "<｜fim▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32017": {
+      "content": "<｜fim▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32018": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32019": {
+      "content": "<|User|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32020": {
+      "content": "<|Assistant|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32021": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "chat_template": "{{ '<｜begin▁of▁sentence｜>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ 'Please continue to complete the function. You are not allowed to modify the given code and do the completion only. Please return all completed function in a codeblock. Here is the given code to do completion:\n```python\n' + content + '\n' }}{% elif message['role'] == 'assistant' %}{{ '\n' + content + '\n```<|EOT|>' + '\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|EOT|>",
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,733 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.9292730844793713,
+  "eval_steps": 50000,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03929273084479371,
+      "grad_norm": 4.250463008880615,
+      "learning_rate": 1.6129032258064516e-06,
+      "loss": 0.8414,
+      "step": 10
+    },
+    {
+      "epoch": 0.07858546168958742,
+      "grad_norm": 2.718027114868164,
+      "learning_rate": 3.225806451612903e-06,
+      "loss": 0.8388,
+      "step": 20
+    },
+    {
+      "epoch": 0.11787819253438114,
+      "grad_norm": 1.6809030771255493,
+      "learning_rate": 4.838709677419355e-06,
+      "loss": 0.6738,
+      "step": 30
+    },
+    {
+      "epoch": 0.15717092337917485,
+      "grad_norm": 1.230251431465149,
+      "learning_rate": 4.998970106077018e-06,
+      "loss": 0.5541,
+      "step": 40
+    },
+    {
+      "epoch": 0.19646365422396855,
+      "grad_norm": 1.1485263109207153,
+      "learning_rate": 4.99541106832608e-06,
+      "loss": 0.5261,
+      "step": 50
+    },
+    {
+      "epoch": 0.2357563850687623,
+      "grad_norm": 1.0606619119644165,
+      "learning_rate": 4.989313791265896e-06,
+      "loss": 0.6025,
+      "step": 60
+    },
+    {
+      "epoch": 0.275049115913556,
+      "grad_norm": 1.3169667720794678,
+      "learning_rate": 4.9806844768198724e-06,
+      "loss": 0.571,
+      "step": 70
+    },
+    {
+      "epoch": 0.3143418467583497,
+      "grad_norm": 1.87986159324646,
+      "learning_rate": 4.969531902405652e-06,
+      "loss": 0.5795,
+      "step": 80
+    },
+    {
+      "epoch": 0.35363457760314343,
+      "grad_norm": 1.7818858623504639,
+      "learning_rate": 4.955867412007052e-06,
+      "loss": 0.5766,
+      "step": 90
+    },
+    {
+      "epoch": 0.3929273084479371,
+      "grad_norm": 1.3598214387893677,
+      "learning_rate": 4.939704904635388e-06,
+      "loss": 0.5421,
+      "step": 100
+    },
+    {
+      "epoch": 0.43222003929273084,
+      "grad_norm": 1.1836585998535156,
+      "learning_rate": 4.921060820191909e-06,
+      "loss": 0.5133,
+      "step": 110
+    },
+    {
+      "epoch": 0.4715127701375246,
+      "grad_norm": 1.4962817430496216,
+      "learning_rate": 4.8999541227457514e-06,
+      "loss": 0.5643,
+      "step": 120
+    },
+    {
+      "epoch": 0.5108055009823183,
+      "grad_norm": 1.0972118377685547,
+      "learning_rate": 4.8764062812443875e-06,
+      "loss": 0.5117,
+      "step": 130
+    },
+    {
+      "epoch": 0.550098231827112,
+      "grad_norm": 1.249541997909546,
+      "learning_rate": 4.8504412476762105e-06,
+      "loss": 0.5394,
+      "step": 140
+    },
+    {
+      "epoch": 0.5893909626719057,
+      "grad_norm": 1.2363935708999634,
+      "learning_rate": 4.822085432707465e-06,
+      "loss": 0.5244,
+      "step": 150
+    },
+    {
+      "epoch": 0.6286836935166994,
+      "grad_norm": 0.9700586199760437,
+      "learning_rate": 4.791367678818299e-06,
+      "loss": 0.4974,
+      "step": 160
+    },
+    {
+      "epoch": 0.6679764243614931,
+      "grad_norm": 1.324613332748413,
+      "learning_rate": 4.758319230965267e-06,
+      "loss": 0.51,
+      "step": 170
+    },
+    {
+      "epoch": 0.7072691552062869,
+      "grad_norm": 1.7756155729293823,
+      "learning_rate": 4.72297370480012e-06,
+      "loss": 0.4972,
+      "step": 180
+    },
+    {
+      "epoch": 0.7465618860510805,
+      "grad_norm": 1.4743613004684448,
+      "learning_rate": 4.685367052477218e-06,
+      "loss": 0.4932,
+      "step": 190
+    },
+    {
+      "epoch": 0.7858546168958742,
+      "grad_norm": 1.4711652994155884,
+      "learning_rate": 4.645537526084331e-06,
+      "loss": 0.472,
+      "step": 200
+    },
+    {
+      "epoch": 0.825147347740668,
+      "grad_norm": 1.2896119356155396,
+      "learning_rate": 4.603525638734049e-06,
+      "loss": 0.5046,
+      "step": 210
+    },
+    {
+      "epoch": 0.8644400785854617,
+      "grad_norm": 1.195989966392517,
+      "learning_rate": 4.559374123355337e-06,
+      "loss": 0.5002,
+      "step": 220
+    },
+    {
+      "epoch": 0.9037328094302554,
+      "grad_norm": 1.3485041856765747,
+      "learning_rate": 4.5131278892272e-06,
+      "loss": 0.4411,
+      "step": 230
+    },
+    {
+      "epoch": 0.9430255402750491,
+      "grad_norm": 1.3075335025787354,
+      "learning_rate": 4.46483397629863e-06,
+      "loss": 0.4711,
+      "step": 240
+    },
+    {
+      "epoch": 0.9823182711198428,
+      "grad_norm": 1.2377111911773682,
+      "learning_rate": 4.414541507341323e-06,
+      "loss": 0.4635,
+      "step": 250
+    },
+    {
+      "epoch": 1.0216110019646365,
+      "grad_norm": 1.4121922254562378,
+      "learning_rate": 4.362301637983815e-06,
+      "loss": 0.4179,
+      "step": 260
+    },
+    {
+      "epoch": 1.0609037328094302,
+      "grad_norm": 1.6095746755599976,
+      "learning_rate": 4.308167504677893e-06,
+      "loss": 0.4041,
+      "step": 270
+    },
+    {
+      "epoch": 1.1001964636542239,
+      "grad_norm": 1.8479869365692139,
+      "learning_rate": 4.2521941706501625e-06,
+      "loss": 0.3847,
+      "step": 280
+    },
+    {
+      "epoch": 1.1394891944990178,
+      "grad_norm": 1.4423387050628662,
+      "learning_rate": 4.194438569893784e-06,
+      "loss": 0.3876,
+      "step": 290
+    },
+    {
+      "epoch": 1.1787819253438114,
+      "grad_norm": 1.4060430526733398,
+      "learning_rate": 4.134959449257335e-06,
+      "loss": 0.3743,
+      "step": 300
+    },
+    {
+      "epoch": 1.218074656188605,
+      "grad_norm": 1.1776665449142456,
+      "learning_rate": 4.0738173086896995e-06,
+      "loss": 0.3689,
+      "step": 310
+    },
+    {
+      "epoch": 1.2573673870333988,
+      "grad_norm": 1.248273491859436,
+      "learning_rate": 4.011074339701772e-06,
+      "loss": 0.3813,
+      "step": 320
+    },
+    {
+      "epoch": 1.2966601178781925,
+      "grad_norm": 1.229260802268982,
+      "learning_rate": 3.946794362107564e-06,
+      "loss": 0.3786,
+      "step": 330
+    },
+    {
+      "epoch": 1.3359528487229864,
+      "grad_norm": 1.7943792343139648,
+      "learning_rate": 3.8810427591090635e-06,
+      "loss": 0.4117,
+      "step": 340
+    },
+    {
+      "epoch": 1.37524557956778,
+      "grad_norm": 1.9054116010665894,
+      "learning_rate": 3.813886410790879e-06,
+      "loss": 0.3861,
+      "step": 350
+    },
+    {
+      "epoch": 1.4145383104125737,
+      "grad_norm": 1.1942715644836426,
+      "learning_rate": 3.7453936260922983e-06,
+      "loss": 0.3636,
+      "step": 360
+    },
+    {
+      "epoch": 1.4538310412573674,
+      "grad_norm": 1.5429688692092896,
+      "learning_rate": 3.675634073325981e-06,
+      "loss": 0.4099,
+      "step": 370
+    },
+    {
+      "epoch": 1.493123772102161,
+      "grad_norm": 1.4392579793930054,
+      "learning_rate": 3.6046787093139415e-06,
+      "loss": 0.381,
+      "step": 380
+    },
+    {
+      "epoch": 1.5324165029469548,
+      "grad_norm": 1.8450443744659424,
+      "learning_rate": 3.5325997072129066e-06,
+      "loss": 0.3769,
+      "step": 390
+    },
+    {
+      "epoch": 1.5717092337917484,
+      "grad_norm": 1.5081740617752075,
+      "learning_rate": 3.4594703831024723e-06,
+      "loss": 0.3923,
+      "step": 400
+    },
+    {
+      "epoch": 1.611001964636542,
+      "grad_norm": 1.912083387374878,
+      "learning_rate": 3.385365121410706e-06,
+      "loss": 0.3653,
+      "step": 410
+    },
+    {
+      "epoch": 1.650294695481336,
+      "grad_norm": 1.4762853384017944,
+      "learning_rate": 3.310359299253082e-06,
+      "loss": 0.3544,
+      "step": 420
+    },
+    {
+      "epoch": 1.6895874263261297,
+      "grad_norm": 1.6862307786941528,
+      "learning_rate": 3.234529209761676e-06,
+      "loss": 0.3878,
+      "step": 430
+    },
+    {
+      "epoch": 1.7288801571709234,
+      "grad_norm": 1.4678353071212769,
+      "learning_rate": 3.157951984482635e-06,
+      "loss": 0.3846,
+      "step": 440
+    },
+    {
+      "epoch": 1.768172888015717,
+      "grad_norm": 1.1692405939102173,
+      "learning_rate": 3.080705514920836e-06,
+      "loss": 0.4512,
+      "step": 450
+    },
+    {
+      "epoch": 1.807465618860511,
+      "grad_norm": 1.5150586366653442,
+      "learning_rate": 3.0028683733115417e-06,
+      "loss": 0.3761,
+      "step": 460
+    },
+    {
+      "epoch": 1.8467583497053046,
+      "grad_norm": 1.101525902748108,
+      "learning_rate": 2.9245197326996515e-06,
+      "loss": 0.3673,
+      "step": 470
+    },
+    {
+      "epoch": 1.8860510805500983,
+      "grad_norm": 1.644962191581726,
+      "learning_rate": 2.845739286407821e-06,
+      "loss": 0.3874,
+      "step": 480
+    },
+    {
+      "epoch": 1.925343811394892,
+      "grad_norm": 1.2484012842178345,
+      "learning_rate": 2.7666071669753807e-06,
+      "loss": 0.3562,
+      "step": 490
+    },
+    {
+      "epoch": 1.9646365422396856,
+      "grad_norm": 1.538386583328247,
+      "learning_rate": 2.687203864650497e-06,
+      "loss": 0.3739,
+      "step": 500
+    },
+    {
+      "epoch": 2.0039292730844793,
+      "grad_norm": 1.4169279336929321,
+      "learning_rate": 2.6076101455184867e-06,
+      "loss": 0.3554,
+      "step": 510
+    },
+    {
+      "epoch": 2.043222003929273,
+      "grad_norm": 1.270408034324646,
+      "learning_rate": 2.527906969349559e-06,
+      "loss": 0.323,
+      "step": 520
+    },
+    {
+      "epoch": 2.0825147347740667,
+      "grad_norm": 1.7707313299179077,
+      "learning_rate": 2.44817540724955e-06,
+      "loss": 0.2903,
+      "step": 530
+    },
+    {
+      "epoch": 2.1218074656188604,
+      "grad_norm": 2.075082540512085,
+      "learning_rate": 2.3684965591974084e-06,
+      "loss": 0.306,
+      "step": 540
+    },
+    {
+      "epoch": 2.161100196463654,
+      "grad_norm": 1.2306314706802368,
+      "learning_rate": 2.288951471553316e-06,
+      "loss": 0.3889,
+      "step": 550
+    },
+    {
+      "epoch": 2.2003929273084477,
+      "grad_norm": 1.4437307119369507,
+      "learning_rate": 2.2096210546213397e-06,
+      "loss": 0.2868,
+      "step": 560
+    },
+    {
+      "epoch": 2.239685658153242,
+      "grad_norm": 1.1352663040161133,
+      "learning_rate": 2.130586000350486e-06,
+      "loss": 0.2873,
+      "step": 570
+    },
+    {
+      "epoch": 2.2789783889980355,
+      "grad_norm": 2.1770286560058594,
+      "learning_rate": 2.0519267002578517e-06,
+      "loss": 0.2845,
+      "step": 580
+    },
+    {
+      "epoch": 2.318271119842829,
+      "grad_norm": 2.0281052589416504,
+      "learning_rate": 1.9737231636573595e-06,
+      "loss": 0.3272,
+      "step": 590
+    },
+    {
+      "epoch": 2.357563850687623,
+      "grad_norm": 1.668318510055542,
+      "learning_rate": 1.8960549362772618e-06,
+      "loss": 0.2833,
+      "step": 600
+    },
+    {
+      "epoch": 2.3968565815324165,
+      "grad_norm": 2.1316215991973877,
+      "learning_rate": 1.8190010193491869e-06,
+      "loss": 0.3254,
+      "step": 610
+    },
+    {
+      "epoch": 2.43614931237721,
+      "grad_norm": 1.4150116443634033,
+      "learning_rate": 1.7426397892510244e-06,
+      "loss": 0.3161,
+      "step": 620
+    },
+    {
+      "epoch": 2.475442043222004,
+      "grad_norm": 1.6361192464828491,
+      "learning_rate": 1.6670489177853854e-06,
+      "loss": 0.3081,
+      "step": 630
+    },
+    {
+      "epoch": 2.5147347740667976,
+      "grad_norm": 1.5381343364715576,
+      "learning_rate": 1.5923052931747408e-06,
+      "loss": 0.2698,
+      "step": 640
+    },
+    {
+      "epoch": 2.5540275049115913,
+      "grad_norm": 1.8007198572158813,
+      "learning_rate": 1.5184849418535763e-06,
+      "loss": 0.3066,
+      "step": 650
+    },
+    {
+      "epoch": 2.593320235756385,
+      "grad_norm": 1.7028734683990479,
+      "learning_rate": 1.4456629511371346e-06,
+      "loss": 0.2608,
+      "step": 660
+    },
+    {
+      "epoch": 2.6326129666011786,
+      "grad_norm": 1.3481054306030273,
+      "learning_rate": 1.3739133928453884e-06,
+      "loss": 0.2841,
+      "step": 670
+    },
+    {
+      "epoch": 2.6719056974459727,
+      "grad_norm": 1.6009360551834106,
+      "learning_rate": 1.3033092479599453e-06,
+      "loss": 0.2789,
+      "step": 680
+    },
+    {
+      "epoch": 2.711198428290766,
+      "grad_norm": 1.5498707294464111,
+      "learning_rate": 1.2339223323905026e-06,
+      "loss": 0.2586,
+      "step": 690
+    },
+    {
+      "epoch": 2.75049115913556,
+      "grad_norm": 1.4760583639144897,
+      "learning_rate": 1.1658232239263815e-06,
+      "loss": 0.2768,
+      "step": 700
+    },
+    {
+      "epoch": 2.7897838899803538,
+      "grad_norm": 1.7059721946716309,
+      "learning_rate": 1.099081190447418e-06,
+      "loss": 0.2831,
+      "step": 710
+    },
+    {
+      "epoch": 2.8290766208251474,
+      "grad_norm": 1.3393672704696655,
+      "learning_rate": 1.0337641194672608e-06,
+      "loss": 0.2779,
+      "step": 720
+    },
+    {
+      "epoch": 2.868369351669941,
+      "grad_norm": 1.9578804969787598,
+      "learning_rate": 9.699384490807113e-07,
+      "loss": 0.3024,
+      "step": 730
+    },
+    {
+      "epoch": 2.907662082514735,
+      "grad_norm": 1.727266788482666,
+      "learning_rate": 9.076691003853666e-07,
+      "loss": 0.2706,
+      "step": 740
+    },
+    {
+      "epoch": 2.9469548133595285,
+      "grad_norm": 1.587507963180542,
+      "learning_rate": 8.470194114462965e-07,
+      "loss": 0.2732,
+      "step": 750
+    },
+    {
+      "epoch": 2.986247544204322,
+      "grad_norm": 1.7859814167022705,
+      "learning_rate": 7.880510728709176e-07,
+      "loss": 0.3005,
+      "step": 760
+    },
+    {
+      "epoch": 3.025540275049116,
+      "grad_norm": 1.4465070962905884,
+      "learning_rate": 7.30824065059603e-07,
+      "loss": 0.2967,
+      "step": 770
+    },
+    {
+      "epoch": 3.0648330058939095,
+      "grad_norm": 2.266911506652832,
+      "learning_rate": 6.753965971958487e-07,
+      "loss": 0.252,
+      "step": 780
+    },
+    {
+      "epoch": 3.104125736738703,
+      "grad_norm": 1.5692194700241089,
+      "learning_rate": 6.218250480380611e-07,
+      "loss": 0.2569,
+      "step": 790
+    },
+    {
+      "epoch": 3.143418467583497,
+      "grad_norm": 1.6480083465576172,
+      "learning_rate": 5.701639085731786e-07,
+      "loss": 0.2773,
+      "step": 800
+    },
+    {
+      "epoch": 3.182711198428291,
+      "grad_norm": 1.6557282209396362,
+      "learning_rate": 5.204657265904664e-07,
+      "loss": 0.2404,
+      "step": 810
+    },
+    {
+      "epoch": 3.2220039292730847,
+      "grad_norm": 1.824144959449768,
+      "learning_rate": 4.7278105323186244e-07,
+      "loss": 0.2641,
+      "step": 820
+    },
+    {
+      "epoch": 3.2612966601178783,
+      "grad_norm": 1.5101735591888428,
+      "learning_rate": 4.2715839157323384e-07,
+      "loss": 0.2366,
+      "step": 830
+    },
+    {
+      "epoch": 3.300589390962672,
+      "grad_norm": 1.9978082180023193,
+      "learning_rate": 3.8364414728885414e-07,
+      "loss": 0.224,
+      "step": 840
+    },
+    {
+      "epoch": 3.3398821218074657,
+      "grad_norm": 1.7423945665359497,
+      "learning_rate": 3.4228258144927587e-07,
+      "loss": 0.2223,
+      "step": 850
+    },
+    {
+      "epoch": 3.3791748526522594,
+      "grad_norm": 1.030571460723877,
+      "learning_rate": 3.031157655006187e-07,
+      "loss": 0.2585,
+      "step": 860
+    },
+    {
+      "epoch": 3.418467583497053,
+      "grad_norm": 1.687889575958252,
+      "learning_rate": 2.6618353847105703e-07,
+      "loss": 0.2527,
+      "step": 870
+    },
+    {
+      "epoch": 3.4577603143418467,
+      "grad_norm": 1.345308542251587,
+      "learning_rate": 2.315234664480448e-07,
+      "loss": 0.2442,
+      "step": 880
+    },
+    {
+      "epoch": 3.4970530451866404,
+      "grad_norm": 1.6126112937927246,
+      "learning_rate": 1.9917080436748615e-07,
+      "loss": 0.2248,
+      "step": 890
+    },
+    {
+      "epoch": 3.536345776031434,
+      "grad_norm": 1.585175633430481,
+      "learning_rate": 1.6915846015372855e-07,
+      "loss": 0.2251,
+      "step": 900
+    },
+    {
+      "epoch": 3.5756385068762278,
+      "grad_norm": 1.6584875583648682,
+      "learning_rate": 1.4151696124684504e-07,
+      "loss": 0.232,
+      "step": 910
+    },
+    {
+      "epoch": 3.614931237721022,
+      "grad_norm": 1.8172000646591187,
+      "learning_rate": 1.1627442355125834e-07,
+      "loss": 0.2409,
+      "step": 920
+    },
+    {
+      "epoch": 3.654223968565815,
+      "grad_norm": 2.262449026107788,
+      "learning_rate": 9.345652283728828e-08,
+      "loss": 0.2335,
+      "step": 930
+    },
+    {
+      "epoch": 3.6935166994106092,
+      "grad_norm": 1.6031078100204468,
+      "learning_rate": 7.308646862471319e-08,
+      "loss": 0.2436,
+      "step": 940
+    },
+    {
+      "epoch": 3.732809430255403,
+      "grad_norm": 2.1290814876556396,
+      "learning_rate": 5.5184980574911617e-08,
+      "loss": 0.2531,
+      "step": 950
+    },
+    {
+      "epoch": 3.7721021611001966,
+      "grad_norm": 1.8082916736602783,
+      "learning_rate": 3.9770267415590866e-08,
+      "loss": 0.2311,
+      "step": 960
+    },
+    {
+      "epoch": 3.8113948919449903,
+      "grad_norm": 2.1202828884124756,
+      "learning_rate": 2.6858008419548e-08,
+      "loss": 0.2407,
+      "step": 970
+    },
+    {
+      "epoch": 3.850687622789784,
+      "grad_norm": 2.0655148029327393,
+      "learning_rate": 1.6461337456297187e-08,
+      "loss": 0.2375,
+      "step": 980
+    },
+    {
+      "epoch": 3.8899803536345776,
+      "grad_norm": 1.8078986406326294,
+      "learning_rate": 8.590829632785513e-09,
+      "loss": 0.2385,
+      "step": 990
+    },
+    {
+      "epoch": 3.9292730844793713,
+      "grad_norm": 2.0520102977752686,
+      "learning_rate": 3.2544905367876134e-09,
+      "loss": 0.2567,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1016,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8379319694432666e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2603203c551ec218c8b102c109ff385921a6fd5e5db3045a5cf06f28da1ace22
+size 5432

checkpoint-1016/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "deepseek-ai/deepseek-coder-1.3b-instruct",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5504,
+  "max_position_embeddings": 16384,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "rope_type": "linear",
+    "type": "linear"
+  },
+  "rope_theta": 100000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "vocab_size": 32256
+}

checkpoint-1016/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "transformers_version": "4.44.2"
+}

checkpoint-1016/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81bf3c443b1a7878f9db3ab89228ff0243985922c7b6ba1646b26922dd5d61e2
+size 399532808

checkpoint-1016/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,226 @@

+{
+  "metadata": {
+    "total_size": 5385887744
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-1016/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:964771ea4d152605618c22273abbcef8154a9735e5ca07daff1650a42df501c8
+size 14244

checkpoint-1016/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02ab444f27d25823f66b4a8b8ed827854dca9613b6362ffd8e0ca107ea494f61
+size 1064

checkpoint-1016/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|EOT|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1016/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1016/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,196 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "32000": {
+      "content": "õ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32001": {
+      "content": "÷",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32002": {
+      "content": "Á",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32003": {
+      "content": "ý",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32004": {
+      "content": "À",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32005": {
+      "content": "ÿ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32006": {
+      "content": "ø",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32007": {
+      "content": "ú",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32008": {
+      "content": "þ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32009": {
+      "content": "ü",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32010": {
+      "content": "ù",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32011": {
+      "content": "ö",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32012": {
+      "content": "û",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32013": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<｜fim▁hole｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32016": {
+      "content": "<｜fim▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32017": {
+      "content": "<｜fim▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32018": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32019": {
+      "content": "<|User|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32020": {
+      "content": "<|Assistant|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32021": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "chat_template": "{{ '<｜begin▁of▁sentence｜>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ 'Please continue to complete the function. You are not allowed to modify the given code and do the completion only. Please return all completed function in a codeblock. Here is the given code to do completion:\n```python\n' + content + '\n' }}{% elif message['role'] == 'assistant' %}{{ '\n' + content + '\n```<|EOT|>' + '\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|EOT|>",
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}

checkpoint-1016/trainer_state.json ADDED Viewed

	@@ -0,0 +1,740 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.9921414538310414,
+  "eval_steps": 50000,
+  "global_step": 1016,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03929273084479371,
+      "grad_norm": 4.250463008880615,
+      "learning_rate": 1.6129032258064516e-06,
+      "loss": 0.8414,
+      "step": 10
+    },
+    {
+      "epoch": 0.07858546168958742,
+      "grad_norm": 2.718027114868164,
+      "learning_rate": 3.225806451612903e-06,
+      "loss": 0.8388,
+      "step": 20
+    },
+    {
+      "epoch": 0.11787819253438114,
+      "grad_norm": 1.6809030771255493,
+      "learning_rate": 4.838709677419355e-06,
+      "loss": 0.6738,
+      "step": 30
+    },
+    {
+      "epoch": 0.15717092337917485,
+      "grad_norm": 1.230251431465149,
+      "learning_rate": 4.998970106077018e-06,
+      "loss": 0.5541,
+      "step": 40
+    },
+    {
+      "epoch": 0.19646365422396855,
+      "grad_norm": 1.1485263109207153,
+      "learning_rate": 4.99541106832608e-06,
+      "loss": 0.5261,
+      "step": 50
+    },
+    {
+      "epoch": 0.2357563850687623,
+      "grad_norm": 1.0606619119644165,
+      "learning_rate": 4.989313791265896e-06,
+      "loss": 0.6025,
+      "step": 60
+    },
+    {
+      "epoch": 0.275049115913556,
+      "grad_norm": 1.3169667720794678,
+      "learning_rate": 4.9806844768198724e-06,
+      "loss": 0.571,
+      "step": 70
+    },
+    {
+      "epoch": 0.3143418467583497,
+      "grad_norm": 1.87986159324646,
+      "learning_rate": 4.969531902405652e-06,
+      "loss": 0.5795,
+      "step": 80
+    },
+    {
+      "epoch": 0.35363457760314343,
+      "grad_norm": 1.7818858623504639,
+      "learning_rate": 4.955867412007052e-06,
+      "loss": 0.5766,
+      "step": 90
+    },
+    {
+      "epoch": 0.3929273084479371,
+      "grad_norm": 1.3598214387893677,
+      "learning_rate": 4.939704904635388e-06,
+      "loss": 0.5421,
+      "step": 100
+    },
+    {
+      "epoch": 0.43222003929273084,
+      "grad_norm": 1.1836585998535156,
+      "learning_rate": 4.921060820191909e-06,
+      "loss": 0.5133,
+      "step": 110
+    },
+    {
+      "epoch": 0.4715127701375246,
+      "grad_norm": 1.4962817430496216,
+      "learning_rate": 4.8999541227457514e-06,
+      "loss": 0.5643,
+      "step": 120
+    },
+    {
+      "epoch": 0.5108055009823183,
+      "grad_norm": 1.0972118377685547,
+      "learning_rate": 4.8764062812443875e-06,
+      "loss": 0.5117,
+      "step": 130
+    },
+    {
+      "epoch": 0.550098231827112,
+      "grad_norm": 1.249541997909546,
+      "learning_rate": 4.8504412476762105e-06,
+      "loss": 0.5394,
+      "step": 140
+    },
+    {
+      "epoch": 0.5893909626719057,
+      "grad_norm": 1.2363935708999634,
+      "learning_rate": 4.822085432707465e-06,
+      "loss": 0.5244,
+      "step": 150
+    },
+    {
+      "epoch": 0.6286836935166994,
+      "grad_norm": 0.9700586199760437,
+      "learning_rate": 4.791367678818299e-06,
+      "loss": 0.4974,
+      "step": 160
+    },
+    {
+      "epoch": 0.6679764243614931,
+      "grad_norm": 1.324613332748413,
+      "learning_rate": 4.758319230965267e-06,
+      "loss": 0.51,
+      "step": 170
+    },
+    {
+      "epoch": 0.7072691552062869,
+      "grad_norm": 1.7756155729293823,
+      "learning_rate": 4.72297370480012e-06,
+      "loss": 0.4972,
+      "step": 180
+    },
+    {
+      "epoch": 0.7465618860510805,
+      "grad_norm": 1.4743613004684448,
+      "learning_rate": 4.685367052477218e-06,
+      "loss": 0.4932,
+      "step": 190
+    },
+    {
+      "epoch": 0.7858546168958742,
+      "grad_norm": 1.4711652994155884,
+      "learning_rate": 4.645537526084331e-06,
+      "loss": 0.472,
+      "step": 200
+    },
+    {
+      "epoch": 0.825147347740668,
+      "grad_norm": 1.2896119356155396,
+      "learning_rate": 4.603525638734049e-06,
+      "loss": 0.5046,
+      "step": 210
+    },
+    {
+      "epoch": 0.8644400785854617,
+      "grad_norm": 1.195989966392517,
+      "learning_rate": 4.559374123355337e-06,
+      "loss": 0.5002,
+      "step": 220
+    },
+    {
+      "epoch": 0.9037328094302554,
+      "grad_norm": 1.3485041856765747,
+      "learning_rate": 4.5131278892272e-06,
+      "loss": 0.4411,
+      "step": 230
+    },
+    {
+      "epoch": 0.9430255402750491,
+      "grad_norm": 1.3075335025787354,
+      "learning_rate": 4.46483397629863e-06,
+      "loss": 0.4711,
+      "step": 240
+    },
+    {
+      "epoch": 0.9823182711198428,
+      "grad_norm": 1.2377111911773682,
+      "learning_rate": 4.414541507341323e-06,
+      "loss": 0.4635,
+      "step": 250
+    },
+    {
+      "epoch": 1.0216110019646365,
+      "grad_norm": 1.4121922254562378,
+      "learning_rate": 4.362301637983815e-06,
+      "loss": 0.4179,
+      "step": 260
+    },
+    {
+      "epoch": 1.0609037328094302,
+      "grad_norm": 1.6095746755599976,
+      "learning_rate": 4.308167504677893e-06,
+      "loss": 0.4041,
+      "step": 270
+    },
+    {
+      "epoch": 1.1001964636542239,
+      "grad_norm": 1.8479869365692139,
+      "learning_rate": 4.2521941706501625e-06,
+      "loss": 0.3847,
+      "step": 280
+    },
+    {
+      "epoch": 1.1394891944990178,
+      "grad_norm": 1.4423387050628662,
+      "learning_rate": 4.194438569893784e-06,
+      "loss": 0.3876,
+      "step": 290
+    },
+    {
+      "epoch": 1.1787819253438114,
+      "grad_norm": 1.4060430526733398,
+      "learning_rate": 4.134959449257335e-06,
+      "loss": 0.3743,
+      "step": 300
+    },
+    {
+      "epoch": 1.218074656188605,
+      "grad_norm": 1.1776665449142456,
+      "learning_rate": 4.0738173086896995e-06,
+      "loss": 0.3689,
+      "step": 310
+    },
+    {
+      "epoch": 1.2573673870333988,
+      "grad_norm": 1.248273491859436,
+      "learning_rate": 4.011074339701772e-06,
+      "loss": 0.3813,
+      "step": 320
+    },
+    {
+      "epoch": 1.2966601178781925,
+      "grad_norm": 1.229260802268982,
+      "learning_rate": 3.946794362107564e-06,
+      "loss": 0.3786,
+      "step": 330
+    },
+    {
+      "epoch": 1.3359528487229864,
+      "grad_norm": 1.7943792343139648,
+      "learning_rate": 3.8810427591090635e-06,
+      "loss": 0.4117,
+      "step": 340
+    },
+    {
+      "epoch": 1.37524557956778,
+      "grad_norm": 1.9054116010665894,
+      "learning_rate": 3.813886410790879e-06,
+      "loss": 0.3861,
+      "step": 350
+    },
+    {
+      "epoch": 1.4145383104125737,
+      "grad_norm": 1.1942715644836426,
+      "learning_rate": 3.7453936260922983e-06,
+      "loss": 0.3636,
+      "step": 360
+    },
+    {
+      "epoch": 1.4538310412573674,
+      "grad_norm": 1.5429688692092896,
+      "learning_rate": 3.675634073325981e-06,
+      "loss": 0.4099,
+      "step": 370
+    },
+    {
+      "epoch": 1.493123772102161,
+      "grad_norm": 1.4392579793930054,
+      "learning_rate": 3.6046787093139415e-06,
+      "loss": 0.381,
+      "step": 380
+    },
+    {
+      "epoch": 1.5324165029469548,
+      "grad_norm": 1.8450443744659424,
+      "learning_rate": 3.5325997072129066e-06,
+      "loss": 0.3769,
+      "step": 390
+    },
+    {
+      "epoch": 1.5717092337917484,
+      "grad_norm": 1.5081740617752075,
+      "learning_rate": 3.4594703831024723e-06,
+      "loss": 0.3923,
+      "step": 400
+    },
+    {
+      "epoch": 1.611001964636542,
+      "grad_norm": 1.912083387374878,
+      "learning_rate": 3.385365121410706e-06,
+      "loss": 0.3653,
+      "step": 410
+    },
+    {
+      "epoch": 1.650294695481336,
+      "grad_norm": 1.4762853384017944,
+      "learning_rate": 3.310359299253082e-06,
+      "loss": 0.3544,
+      "step": 420
+    },
+    {
+      "epoch": 1.6895874263261297,
+      "grad_norm": 1.6862307786941528,
+      "learning_rate": 3.234529209761676e-06,
+      "loss": 0.3878,
+      "step": 430
+    },
+    {
+      "epoch": 1.7288801571709234,
+      "grad_norm": 1.4678353071212769,
+      "learning_rate": 3.157951984482635e-06,
+      "loss": 0.3846,
+      "step": 440
+    },
+    {
+      "epoch": 1.768172888015717,
+      "grad_norm": 1.1692405939102173,
+      "learning_rate": 3.080705514920836e-06,
+      "loss": 0.4512,
+      "step": 450
+    },
+    {
+      "epoch": 1.807465618860511,
+      "grad_norm": 1.5150586366653442,
+      "learning_rate": 3.0028683733115417e-06,
+      "loss": 0.3761,
+      "step": 460
+    },
+    {
+      "epoch": 1.8467583497053046,
+      "grad_norm": 1.101525902748108,
+      "learning_rate": 2.9245197326996515e-06,
+      "loss": 0.3673,
+      "step": 470
+    },
+    {
+      "epoch": 1.8860510805500983,
+      "grad_norm": 1.644962191581726,
+      "learning_rate": 2.845739286407821e-06,
+      "loss": 0.3874,
+      "step": 480
+    },
+    {
+      "epoch": 1.925343811394892,
+      "grad_norm": 1.2484012842178345,
+      "learning_rate": 2.7666071669753807e-06,
+      "loss": 0.3562,
+      "step": 490
+    },
+    {
+      "epoch": 1.9646365422396856,
+      "grad_norm": 1.538386583328247,
+      "learning_rate": 2.687203864650497e-06,
+      "loss": 0.3739,
+      "step": 500
+    },
+    {
+      "epoch": 2.0039292730844793,
+      "grad_norm": 1.4169279336929321,
+      "learning_rate": 2.6076101455184867e-06,
+      "loss": 0.3554,
+      "step": 510
+    },
+    {
+      "epoch": 2.043222003929273,
+      "grad_norm": 1.270408034324646,
+      "learning_rate": 2.527906969349559e-06,
+      "loss": 0.323,
+      "step": 520
+    },
+    {
+      "epoch": 2.0825147347740667,
+      "grad_norm": 1.7707313299179077,
+      "learning_rate": 2.44817540724955e-06,
+      "loss": 0.2903,
+      "step": 530
+    },
+    {
+      "epoch": 2.1218074656188604,
+      "grad_norm": 2.075082540512085,
+      "learning_rate": 2.3684965591974084e-06,
+      "loss": 0.306,
+      "step": 540
+    },
+    {
+      "epoch": 2.161100196463654,
+      "grad_norm": 1.2306314706802368,
+      "learning_rate": 2.288951471553316e-06,
+      "loss": 0.3889,
+      "step": 550
+    },
+    {
+      "epoch": 2.2003929273084477,
+      "grad_norm": 1.4437307119369507,
+      "learning_rate": 2.2096210546213397e-06,
+      "loss": 0.2868,
+      "step": 560
+    },
+    {
+      "epoch": 2.239685658153242,
+      "grad_norm": 1.1352663040161133,
+      "learning_rate": 2.130586000350486e-06,
+      "loss": 0.2873,
+      "step": 570
+    },
+    {
+      "epoch": 2.2789783889980355,
+      "grad_norm": 2.1770286560058594,
+      "learning_rate": 2.0519267002578517e-06,
+      "loss": 0.2845,
+      "step": 580
+    },
+    {
+      "epoch": 2.318271119842829,
+      "grad_norm": 2.0281052589416504,
+      "learning_rate": 1.9737231636573595e-06,
+      "loss": 0.3272,
+      "step": 590
+    },
+    {
+      "epoch": 2.357563850687623,
+      "grad_norm": 1.668318510055542,
+      "learning_rate": 1.8960549362772618e-06,
+      "loss": 0.2833,
+      "step": 600
+    },
+    {
+      "epoch": 2.3968565815324165,
+      "grad_norm": 2.1316215991973877,
+      "learning_rate": 1.8190010193491869e-06,
+      "loss": 0.3254,
+      "step": 610
+    },
+    {
+      "epoch": 2.43614931237721,
+      "grad_norm": 1.4150116443634033,
+      "learning_rate": 1.7426397892510244e-06,
+      "loss": 0.3161,
+      "step": 620
+    },
+    {
+      "epoch": 2.475442043222004,
+      "grad_norm": 1.6361192464828491,
+      "learning_rate": 1.6670489177853854e-06,
+      "loss": 0.3081,
+      "step": 630
+    },
+    {
+      "epoch": 2.5147347740667976,
+      "grad_norm": 1.5381343364715576,
+      "learning_rate": 1.5923052931747408e-06,
+      "loss": 0.2698,
+      "step": 640
+    },
+    {
+      "epoch": 2.5540275049115913,
+      "grad_norm": 1.8007198572158813,
+      "learning_rate": 1.5184849418535763e-06,
+      "loss": 0.3066,
+      "step": 650
+    },
+    {
+      "epoch": 2.593320235756385,
+      "grad_norm": 1.7028734683990479,
+      "learning_rate": 1.4456629511371346e-06,
+      "loss": 0.2608,
+      "step": 660
+    },
+    {
+      "epoch": 2.6326129666011786,
+      "grad_norm": 1.3481054306030273,
+      "learning_rate": 1.3739133928453884e-06,
+      "loss": 0.2841,
+      "step": 670
+    },
+    {
+      "epoch": 2.6719056974459727,
+      "grad_norm": 1.6009360551834106,
+      "learning_rate": 1.3033092479599453e-06,
+      "loss": 0.2789,
+      "step": 680
+    },
+    {
+      "epoch": 2.711198428290766,
+      "grad_norm": 1.5498707294464111,
+      "learning_rate": 1.2339223323905026e-06,
+      "loss": 0.2586,
+      "step": 690
+    },
+    {
+      "epoch": 2.75049115913556,
+      "grad_norm": 1.4760583639144897,
+      "learning_rate": 1.1658232239263815e-06,
+      "loss": 0.2768,
+      "step": 700
+    },
+    {
+      "epoch": 2.7897838899803538,
+      "grad_norm": 1.7059721946716309,
+      "learning_rate": 1.099081190447418e-06,
+      "loss": 0.2831,
+      "step": 710
+    },
+    {
+      "epoch": 2.8290766208251474,
+      "grad_norm": 1.3393672704696655,
+      "learning_rate": 1.0337641194672608e-06,
+      "loss": 0.2779,
+      "step": 720
+    },
+    {
+      "epoch": 2.868369351669941,
+      "grad_norm": 1.9578804969787598,
+      "learning_rate": 9.699384490807113e-07,
+      "loss": 0.3024,
+      "step": 730
+    },
+    {
+      "epoch": 2.907662082514735,
+      "grad_norm": 1.727266788482666,
+      "learning_rate": 9.076691003853666e-07,
+      "loss": 0.2706,
+      "step": 740
+    },
+    {
+      "epoch": 2.9469548133595285,
+      "grad_norm": 1.587507963180542,
+      "learning_rate": 8.470194114462965e-07,
+      "loss": 0.2732,
+      "step": 750
+    },
+    {
+      "epoch": 2.986247544204322,
+      "grad_norm": 1.7859814167022705,
+      "learning_rate": 7.880510728709176e-07,
+      "loss": 0.3005,
+      "step": 760
+    },
+    {
+      "epoch": 3.025540275049116,
+      "grad_norm": 1.4465070962905884,
+      "learning_rate": 7.30824065059603e-07,
+      "loss": 0.2967,
+      "step": 770
+    },
+    {
+      "epoch": 3.0648330058939095,
+      "grad_norm": 2.266911506652832,
+      "learning_rate": 6.753965971958487e-07,
+      "loss": 0.252,
+      "step": 780
+    },
+    {
+      "epoch": 3.104125736738703,
+      "grad_norm": 1.5692194700241089,
+      "learning_rate": 6.218250480380611e-07,
+      "loss": 0.2569,
+      "step": 790
+    },
+    {
+      "epoch": 3.143418467583497,
+      "grad_norm": 1.6480083465576172,
+      "learning_rate": 5.701639085731786e-07,
+      "loss": 0.2773,
+      "step": 800
+    },
+    {
+      "epoch": 3.182711198428291,
+      "grad_norm": 1.6557282209396362,
+      "learning_rate": 5.204657265904664e-07,
+      "loss": 0.2404,
+      "step": 810
+    },
+    {
+      "epoch": 3.2220039292730847,
+      "grad_norm": 1.824144959449768,
+      "learning_rate": 4.7278105323186244e-07,
+      "loss": 0.2641,
+      "step": 820
+    },
+    {
+      "epoch": 3.2612966601178783,
+      "grad_norm": 1.5101735591888428,
+      "learning_rate": 4.2715839157323384e-07,
+      "loss": 0.2366,
+      "step": 830
+    },
+    {
+      "epoch": 3.300589390962672,
+      "grad_norm": 1.9978082180023193,
+      "learning_rate": 3.8364414728885414e-07,
+      "loss": 0.224,
+      "step": 840
+    },
+    {
+      "epoch": 3.3398821218074657,
+      "grad_norm": 1.7423945665359497,
+      "learning_rate": 3.4228258144927587e-07,
+      "loss": 0.2223,
+      "step": 850
+    },
+    {
+      "epoch": 3.3791748526522594,
+      "grad_norm": 1.030571460723877,
+      "learning_rate": 3.031157655006187e-07,
+      "loss": 0.2585,
+      "step": 860
+    },
+    {
+      "epoch": 3.418467583497053,
+      "grad_norm": 1.687889575958252,
+      "learning_rate": 2.6618353847105703e-07,
+      "loss": 0.2527,
+      "step": 870
+    },
+    {
+      "epoch": 3.4577603143418467,
+      "grad_norm": 1.345308542251587,
+      "learning_rate": 2.315234664480448e-07,
+      "loss": 0.2442,
+      "step": 880
+    },
+    {
+      "epoch": 3.4970530451866404,
+      "grad_norm": 1.6126112937927246,
+      "learning_rate": 1.9917080436748615e-07,
+      "loss": 0.2248,
+      "step": 890
+    },
+    {
+      "epoch": 3.536345776031434,
+      "grad_norm": 1.585175633430481,
+      "learning_rate": 1.6915846015372855e-07,
+      "loss": 0.2251,
+      "step": 900
+    },
+    {
+      "epoch": 3.5756385068762278,
+      "grad_norm": 1.6584875583648682,
+      "learning_rate": 1.4151696124684504e-07,
+      "loss": 0.232,
+      "step": 910
+    },
+    {
+      "epoch": 3.614931237721022,
+      "grad_norm": 1.8172000646591187,
+      "learning_rate": 1.1627442355125834e-07,
+      "loss": 0.2409,
+      "step": 920
+    },
+    {
+      "epoch": 3.654223968565815,
+      "grad_norm": 2.262449026107788,
+      "learning_rate": 9.345652283728828e-08,
+      "loss": 0.2335,
+      "step": 930
+    },
+    {
+      "epoch": 3.6935166994106092,
+      "grad_norm": 1.6031078100204468,
+      "learning_rate": 7.308646862471319e-08,
+      "loss": 0.2436,
+      "step": 940
+    },
+    {
+      "epoch": 3.732809430255403,
+      "grad_norm": 2.1290814876556396,
+      "learning_rate": 5.5184980574911617e-08,
+      "loss": 0.2531,
+      "step": 950
+    },
+    {
+      "epoch": 3.7721021611001966,
+      "grad_norm": 1.8082916736602783,
+      "learning_rate": 3.9770267415590866e-08,
+      "loss": 0.2311,
+      "step": 960
+    },
+    {
+      "epoch": 3.8113948919449903,
+      "grad_norm": 2.1202828884124756,
+      "learning_rate": 2.6858008419548e-08,
+      "loss": 0.2407,
+      "step": 970
+    },
+    {
+      "epoch": 3.850687622789784,
+      "grad_norm": 2.0655148029327393,
+      "learning_rate": 1.6461337456297187e-08,
+      "loss": 0.2375,
+      "step": 980
+    },
+    {
+      "epoch": 3.8899803536345776,
+      "grad_norm": 1.8078986406326294,
+      "learning_rate": 8.590829632785513e-09,
+      "loss": 0.2385,
+      "step": 990
+    },
+    {
+      "epoch": 3.9292730844793713,
+      "grad_norm": 2.0520102977752686,
+      "learning_rate": 3.2544905367876134e-09,
+      "loss": 0.2567,
+      "step": 1000
+    },
+    {
+      "epoch": 3.968565815324165,
+      "grad_norm": 1.6944043636322021,
+      "learning_rate": 4.577480939194079e-10,
+      "loss": 0.3128,
+      "step": 1010
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1016,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8674965727831654e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1016/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2603203c551ec218c8b102c109ff385921a6fd5e5db3045a5cf06f28da1ace22
+size 5432

checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "deepseek-ai/deepseek-coder-1.3b-instruct",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5504,
+  "max_position_embeddings": 16384,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "rope_type": "linear",
+    "type": "linear"
+  },
+  "rope_theta": 100000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "vocab_size": 32256
+}

checkpoint-500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "transformers_version": "4.44.2"
+}

checkpoint-500/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25e94035dd2109362e791da34eb167840ab0a855602b960a593604c6dc2a2aa7
+size 399532808

checkpoint-500/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,226 @@

+{
+  "metadata": {
+    "total_size": 5385887744
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c733f603eddfbf8aea2db46dfb96d2d44052ea3c8d772ba82a9011002700581
+size 14244

checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47c8086f76a0bb9c6bc21d45e67d56db2ae4991db74989f9aec0574c2f459cd1
+size 1064

checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|EOT|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,196 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "32000": {
+      "content": "õ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32001": {
+      "content": "÷",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32002": {
+      "content": "Á",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32003": {
+      "content": "ý",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32004": {
+      "content": "À",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32005": {
+      "content": "ÿ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32006": {
+      "content": "ø",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32007": {
+      "content": "ú",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32008": {
+      "content": "þ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32009": {
+      "content": "ü",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32010": {
+      "content": "ù",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32011": {
+      "content": "ö",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32012": {
+      "content": "û",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32013": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32014": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32015": {
+      "content": "<｜fim▁hole｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32016": {
+      "content": "<｜fim▁begin｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32017": {
+      "content": "<｜fim▁end｜>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32018": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32019": {
+      "content": "<|User|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32020": {
+      "content": "<|Assistant|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32021": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "chat_template": "{{ '<｜begin▁of▁sentence｜>' }}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ 'Please continue to complete the function. You are not allowed to modify the given code and do the completion only. Please return all completed function in a codeblock. Here is the given code to do completion:\n```python\n' + content + '\n' }}{% elif message['role'] == 'assistant' %}{{ '\n' + content + '\n```<|EOT|>' + '\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|EOT|>",
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,383 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9646365422396856,
+  "eval_steps": 50000,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03929273084479371,
+      "grad_norm": 4.250463008880615,
+      "learning_rate": 1.6129032258064516e-06,
+      "loss": 0.8414,
+      "step": 10
+    },
+    {
+      "epoch": 0.07858546168958742,
+      "grad_norm": 2.718027114868164,
+      "learning_rate": 3.225806451612903e-06,
+      "loss": 0.8388,
+      "step": 20
+    },
+    {
+      "epoch": 0.11787819253438114,
+      "grad_norm": 1.6809030771255493,
+      "learning_rate": 4.838709677419355e-06,
+      "loss": 0.6738,
+      "step": 30
+    },
+    {
+      "epoch": 0.15717092337917485,
+      "grad_norm": 1.230251431465149,
+      "learning_rate": 4.998970106077018e-06,
+      "loss": 0.5541,
+      "step": 40
+    },
+    {
+      "epoch": 0.19646365422396855,
+      "grad_norm": 1.1485263109207153,
+      "learning_rate": 4.99541106832608e-06,
+      "loss": 0.5261,
+      "step": 50
+    },
+    {
+      "epoch": 0.2357563850687623,
+      "grad_norm": 1.0606619119644165,
+      "learning_rate": 4.989313791265896e-06,
+      "loss": 0.6025,
+      "step": 60
+    },
+    {
+      "epoch": 0.275049115913556,
+      "grad_norm": 1.3169667720794678,
+      "learning_rate": 4.9806844768198724e-06,
+      "loss": 0.571,
+      "step": 70
+    },
+    {
+      "epoch": 0.3143418467583497,
+      "grad_norm": 1.87986159324646,
+      "learning_rate": 4.969531902405652e-06,
+      "loss": 0.5795,
+      "step": 80
+    },
+    {
+      "epoch": 0.35363457760314343,
+      "grad_norm": 1.7818858623504639,
+      "learning_rate": 4.955867412007052e-06,
+      "loss": 0.5766,
+      "step": 90
+    },
+    {
+      "epoch": 0.3929273084479371,
+      "grad_norm": 1.3598214387893677,
+      "learning_rate": 4.939704904635388e-06,
+      "loss": 0.5421,
+      "step": 100
+    },
+    {
+      "epoch": 0.43222003929273084,
+      "grad_norm": 1.1836585998535156,
+      "learning_rate": 4.921060820191909e-06,
+      "loss": 0.5133,
+      "step": 110
+    },
+    {
+      "epoch": 0.4715127701375246,
+      "grad_norm": 1.4962817430496216,
+      "learning_rate": 4.8999541227457514e-06,
+      "loss": 0.5643,
+      "step": 120
+    },
+    {
+      "epoch": 0.5108055009823183,
+      "grad_norm": 1.0972118377685547,
+      "learning_rate": 4.8764062812443875e-06,
+      "loss": 0.5117,
+      "step": 130
+    },
+    {
+      "epoch": 0.550098231827112,
+      "grad_norm": 1.249541997909546,
+      "learning_rate": 4.8504412476762105e-06,
+      "loss": 0.5394,
+      "step": 140
+    },
+    {
+      "epoch": 0.5893909626719057,
+      "grad_norm": 1.2363935708999634,
+      "learning_rate": 4.822085432707465e-06,
+      "loss": 0.5244,
+      "step": 150
+    },
+    {
+      "epoch": 0.6286836935166994,
+      "grad_norm": 0.9700586199760437,
+      "learning_rate": 4.791367678818299e-06,
+      "loss": 0.4974,
+      "step": 160
+    },
+    {
+      "epoch": 0.6679764243614931,
+      "grad_norm": 1.324613332748413,
+      "learning_rate": 4.758319230965267e-06,
+      "loss": 0.51,
+      "step": 170
+    },
+    {
+      "epoch": 0.7072691552062869,
+      "grad_norm": 1.7756155729293823,
+      "learning_rate": 4.72297370480012e-06,
+      "loss": 0.4972,
+      "step": 180
+    },
+    {
+      "epoch": 0.7465618860510805,
+      "grad_norm": 1.4743613004684448,
+      "learning_rate": 4.685367052477218e-06,
+      "loss": 0.4932,
+      "step": 190
+    },
+    {
+      "epoch": 0.7858546168958742,
+      "grad_norm": 1.4711652994155884,
+      "learning_rate": 4.645537526084331e-06,
+      "loss": 0.472,
+      "step": 200
+    },
+    {
+      "epoch": 0.825147347740668,
+      "grad_norm": 1.2896119356155396,
+      "learning_rate": 4.603525638734049e-06,
+      "loss": 0.5046,
+      "step": 210
+    },
+    {
+      "epoch": 0.8644400785854617,
+      "grad_norm": 1.195989966392517,
+      "learning_rate": 4.559374123355337e-06,
+      "loss": 0.5002,
+      "step": 220
+    },
+    {
+      "epoch": 0.9037328094302554,
+      "grad_norm": 1.3485041856765747,
+      "learning_rate": 4.5131278892272e-06,
+      "loss": 0.4411,
+      "step": 230
+    },
+    {
+      "epoch": 0.9430255402750491,
+      "grad_norm": 1.3075335025787354,
+      "learning_rate": 4.46483397629863e-06,
+      "loss": 0.4711,
+      "step": 240
+    },
+    {
+      "epoch": 0.9823182711198428,
+      "grad_norm": 1.2377111911773682,
+      "learning_rate": 4.414541507341323e-06,
+      "loss": 0.4635,
+      "step": 250
+    },
+    {
+      "epoch": 1.0216110019646365,
+      "grad_norm": 1.4121922254562378,
+      "learning_rate": 4.362301637983815e-06,
+      "loss": 0.4179,
+      "step": 260
+    },
+    {
+      "epoch": 1.0609037328094302,
+      "grad_norm": 1.6095746755599976,
+      "learning_rate": 4.308167504677893e-06,
+      "loss": 0.4041,
+      "step": 270
+    },
+    {
+      "epoch": 1.1001964636542239,
+      "grad_norm": 1.8479869365692139,
+      "learning_rate": 4.2521941706501625e-06,
+      "loss": 0.3847,
+      "step": 280
+    },
+    {
+      "epoch": 1.1394891944990178,
+      "grad_norm": 1.4423387050628662,
+      "learning_rate": 4.194438569893784e-06,
+      "loss": 0.3876,
+      "step": 290
+    },
+    {
+      "epoch": 1.1787819253438114,
+      "grad_norm": 1.4060430526733398,
+      "learning_rate": 4.134959449257335e-06,
+      "loss": 0.3743,
+      "step": 300
+    },
+    {
+      "epoch": 1.218074656188605,
+      "grad_norm": 1.1776665449142456,
+      "learning_rate": 4.0738173086896995e-06,
+      "loss": 0.3689,
+      "step": 310
+    },
+    {
+      "epoch": 1.2573673870333988,
+      "grad_norm": 1.248273491859436,
+      "learning_rate": 4.011074339701772e-06,
+      "loss": 0.3813,
+      "step": 320
+    },
+    {
+      "epoch": 1.2966601178781925,
+      "grad_norm": 1.229260802268982,
+      "learning_rate": 3.946794362107564e-06,
+      "loss": 0.3786,
+      "step": 330
+    },
+    {
+      "epoch": 1.3359528487229864,
+      "grad_norm": 1.7943792343139648,
+      "learning_rate": 3.8810427591090635e-06,
+      "loss": 0.4117,
+      "step": 340
+    },
+    {
+      "epoch": 1.37524557956778,
+      "grad_norm": 1.9054116010665894,
+      "learning_rate": 3.813886410790879e-06,
+      "loss": 0.3861,
+      "step": 350
+    },
+    {
+      "epoch": 1.4145383104125737,
+      "grad_norm": 1.1942715644836426,
+      "learning_rate": 3.7453936260922983e-06,
+      "loss": 0.3636,
+      "step": 360
+    },
+    {
+      "epoch": 1.4538310412573674,
+      "grad_norm": 1.5429688692092896,
+      "learning_rate": 3.675634073325981e-06,
+      "loss": 0.4099,
+      "step": 370
+    },
+    {
+      "epoch": 1.493123772102161,
+      "grad_norm": 1.4392579793930054,
+      "learning_rate": 3.6046787093139415e-06,
+      "loss": 0.381,
+      "step": 380
+    },
+    {
+      "epoch": 1.5324165029469548,
+      "grad_norm": 1.8450443744659424,
+      "learning_rate": 3.5325997072129066e-06,
+      "loss": 0.3769,
+      "step": 390
+    },
+    {
+      "epoch": 1.5717092337917484,
+      "grad_norm": 1.5081740617752075,
+      "learning_rate": 3.4594703831024723e-06,
+      "loss": 0.3923,
+      "step": 400
+    },
+    {
+      "epoch": 1.611001964636542,
+      "grad_norm": 1.912083387374878,
+      "learning_rate": 3.385365121410706e-06,
+      "loss": 0.3653,
+      "step": 410
+    },
+    {
+      "epoch": 1.650294695481336,
+      "grad_norm": 1.4762853384017944,
+      "learning_rate": 3.310359299253082e-06,
+      "loss": 0.3544,
+      "step": 420
+    },
+    {
+      "epoch": 1.6895874263261297,
+      "grad_norm": 1.6862307786941528,
+      "learning_rate": 3.234529209761676e-06,
+      "loss": 0.3878,
+      "step": 430
+    },
+    {
+      "epoch": 1.7288801571709234,
+      "grad_norm": 1.4678353071212769,
+      "learning_rate": 3.157951984482635e-06,
+      "loss": 0.3846,
+      "step": 440
+    },
+    {
+      "epoch": 1.768172888015717,
+      "grad_norm": 1.1692405939102173,
+      "learning_rate": 3.080705514920836e-06,
+      "loss": 0.4512,
+      "step": 450
+    },
+    {
+      "epoch": 1.807465618860511,
+      "grad_norm": 1.5150586366653442,
+      "learning_rate": 3.0028683733115417e-06,
+      "loss": 0.3761,
+      "step": 460
+    },
+    {
+      "epoch": 1.8467583497053046,
+      "grad_norm": 1.101525902748108,
+      "learning_rate": 2.9245197326996515e-06,
+      "loss": 0.3673,
+      "step": 470
+    },
+    {
+      "epoch": 1.8860510805500983,
+      "grad_norm": 1.644962191581726,
+      "learning_rate": 2.845739286407821e-06,
+      "loss": 0.3874,
+      "step": 480
+    },
+    {
+      "epoch": 1.925343811394892,
+      "grad_norm": 1.2484012842178345,
+      "learning_rate": 2.7666071669753807e-06,
+      "loss": 0.3562,
+      "step": 490
+    },
+    {
+      "epoch": 1.9646365422396856,
+      "grad_norm": 1.538386583328247,
+      "learning_rate": 2.687203864650497e-06,
+      "loss": 0.3739,
+      "step": 500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1016,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.214305235265126e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2603203c551ec218c8b102c109ff385921a6fd5e5db3045a5cf06f28da1ace22
+size 5432

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "deepseek-ai/deepseek-coder-1.3b-instruct",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5504,
+  "max_position_embeddings": 16384,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "factor": 4.0,
+    "rope_type": "linear",
+    "type": "linear"
+  },
+  "rope_theta": 100000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "vocab_size": 32256
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.9921414538310414,
+    "eval_loss": 0.2605825364589691,
+    "eval_runtime": 0.121,
+    "eval_samples_per_second": 8.267,
+    "eval_steps_per_second": 8.267
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "transformers_version": "4.44.2"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faef0dbf997577e75429c49509304d0efc8c7f3fe3b8d6313bf0f4eb36f61d8e
+size 4986380064

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81bf3c443b1a7878f9db3ab89228ff0243985922c7b6ba1646b26922dd5d61e2
+size 399532808

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,226 @@

+{
+  "metadata": {
+    "total_size": 5385887744
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

runs/Oct30_14-55-53_cbc240ceb5e8/events.out.tfevents.1730300163.cbc240ceb5e8.18231.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f907dbd706564a27565e8fe2559539a805ea321fc5b3917e1e4c3870c626b011
+size 5349

runs/Oct30_15-01-39_cbc240ceb5e8/events.out.tfevents.1730300508.cbc240ceb5e8.20056.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b8d87366d6ecbf480f85d744b3d70db0d0f2da0b93d20dbee393056e780cf8e
+size 5349

runs/Oct30_15-09-07_cbc240ceb5e8/events.out.tfevents.1730300957.cbc240ceb5e8.22283.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07b971ae29a8299d3fa9f0dc79d5666164dcdb6a01b9a5a913fe3d0927b29fe4
+size 10365

runs/Oct30_15-18-17_cbc240ceb5e8/events.out.tfevents.1730301506.cbc240ceb5e8.24952.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bfb4899b66825e03490dd22ea6765d2f872443ffe7d8ca11a60f834749ed8ae
+size 6177

runs/Oct30_15-24-16_cbc240ceb5e8/events.out.tfevents.1730301866.cbc240ceb5e8.26802.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b56db7eea443edd660f26f146d96645125ae388a5ad05e18f3fbc3fed21dc29d
+size 5349

runs/Oct30_15-27-14_cbc240ceb5e8/events.out.tfevents.1730302044.cbc240ceb5e8.27913.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5ee705d1c7baa49e146da5529781fd6fb0cd15a4db1907c71aa6a1756bf8877
+size 26966

runs/Oct30_15-27-14_cbc240ceb5e8/events.out.tfevents.1730305015.cbc240ceb5e8.27913.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24e7b3964e1e8825393b2bc852f1513871260770ec5519b081636e51cab03ca1
+size 359

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|EOT|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff