upload model

Browse files

Files changed (11) hide show

README.md +54 -1
all_results.json +8 -0
config.json +24 -0
generation_config.json +7 -0
pytorch_model.bin +3 -0
special_tokens_map.json +6 -0
tokenizer.model +3 -0
tokenizer_config.json +31 -0
train_results.json +8 -0
trainer_state.json +325 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,56 @@
 ---
-license: apache-2.0
 ---

 ---
+tags:
+- generated_from_trainer
+datasets:
+- customized
+model-index:
+- name: finetune
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# finetune
+This model is a fine-tuned version of [/root/autodl-tmp/sikong/repo/LMFlow/output_models/chinese-alpaca-7b-merged](https://huggingface.co//root/autodl-tmp/sikong/repo/LMFlow/output_models/chinese-alpaca-7b-merged) on the customized dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- total_train_batch_size: 8
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 50.0
+### Training results
+### Framework versions
+- Transformers 4.28.0.dev0
+- Pytorch 2.0.0+cu117
+- Datasets 2.10.1
+- Tokenizers 0.13.3

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 50.0,
+    "train_loss": 0.17982604479789735,
+    "train_runtime": 23967.503,
+    "train_samples": 157,
+    "train_samples_per_second": 0.328,
+    "train_steps_per_second": 0.042
+}

config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_name_or_path": "/root/autodl-tmp/sikong/repo/LMFlow/output_models/chinese-alpaca-7b-merged",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 0,
+  "eos_token_id": 1,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 2048,
+  "max_sequence_length": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "pad_token_id": -1,
+  "rms_norm_eps": 1e-06,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.28.0.dev0",
+  "use_cache": true,
+  "vocab_size": 49954
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.28.0.dev0"
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b05b7586c6de5756f83c9a8c86641ff303c93e2515fdd1311422956345b71700
+size 13771100601

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "<unk>"
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d967e855b1213a439df6c8ce2791f869c84b4f3b6cfacf22b86440b8192a2f8
+size 757972

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "special_tokens_map_file": "/root/autodl-tmp/sikong/repo/LMFlow/output_models/chinese-alpaca-7b-merged/special_tokens_map.json",
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 50.0,
+    "train_loss": 0.17982604479789735,
+    "train_runtime": 23967.503,
+    "train_samples": 157,
+    "train_samples_per_second": 0.328,
+    "train_steps_per_second": 0.042
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,325 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 50.0,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.9600000000000002e-05,
+      "loss": 3.169,
+      "step": 20
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 1.9924,
+      "step": 40
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 1.88e-05,
+      "loss": 0.9846,
+      "step": 60
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 0.3159,
+      "step": 80
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1.8e-05,
+      "loss": 0.1231,
+      "step": 100
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 1.76e-05,
+      "loss": 0.0848,
+      "step": 120
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 1.72e-05,
+      "loss": 0.0536,
+      "step": 140
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 0.0381,
+      "step": 160
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 1.64e-05,
+      "loss": 0.0339,
+      "step": 180
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0222,
+      "step": 200
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 1.5600000000000003e-05,
+      "loss": 0.0214,
+      "step": 220
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 0.0836,
+      "step": 240
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 1.48e-05,
+      "loss": 0.0851,
+      "step": 260
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 0.1763,
+      "step": 280
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 1.4e-05,
+      "loss": 0.113,
+      "step": 300
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 0.1091,
+      "step": 320
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 1.3200000000000002e-05,
+      "loss": 0.0988,
+      "step": 340
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 1.2800000000000001e-05,
+      "loss": 0.1031,
+      "step": 360
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 1.2400000000000002e-05,
+      "loss": 0.0878,
+      "step": 380
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.1203,
+      "step": 400
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 1.16e-05,
+      "loss": 0.0863,
+      "step": 420
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 1.1200000000000001e-05,
+      "loss": 0.081,
+      "step": 440
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 1.0800000000000002e-05,
+      "loss": 0.0763,
+      "step": 460
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 1.04e-05,
+      "loss": 0.0792,
+      "step": 480
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0726,
+      "step": 500
+    },
+    {
+      "epoch": 26.0,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.0687,
+      "step": 520
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 0.0776,
+      "step": 540
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 8.8e-06,
+      "loss": 0.0692,
+      "step": 560
+    },
+    {
+      "epoch": 29.0,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.067,
+      "step": 580
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0632,
+      "step": 600
+    },
+    {
+      "epoch": 31.0,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.0662,
+      "step": 620
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.062,
+      "step": 640
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.0594,
+      "step": 660
+    },
+    {
+      "epoch": 34.0,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.0598,
+      "step": 680
+    },
+    {
+      "epoch": 35.0,
+      "learning_rate": 6e-06,
+      "loss": 0.0544,
+      "step": 700
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.0532,
+      "step": 720
+    },
+    {
+      "epoch": 37.0,
+      "learning_rate": 5.2e-06,
+      "loss": 0.0179,
+      "step": 740
+    },
+    {
+      "epoch": 38.0,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.0129,
+      "step": 760
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 4.4e-06,
+      "loss": 0.0077,
+      "step": 780
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0069,
+      "step": 800
+    },
+    {
+      "epoch": 41.0,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 0.004,
+      "step": 820
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 0.016,
+      "step": 840
+    },
+    {
+      "epoch": 43.0,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 0.0025,
+      "step": 860
+    },
+    {
+      "epoch": 44.0,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.0025,
+      "step": 880
+    },
+    {
+      "epoch": 45.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0017,
+      "step": 900
+    },
+    {
+      "epoch": 46.0,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 0.0016,
+      "step": 920
+    },
+    {
+      "epoch": 47.0,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.0015,
+      "step": 940
+    },
+    {
+      "epoch": 48.0,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 0.0014,
+      "step": 960
+    },
+    {
+      "epoch": 49.0,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 0.0014,
+      "step": 980
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 0.0,
+      "loss": 0.0014,
+      "step": 1000
+    },
+    {
+      "epoch": 50.0,
+      "step": 1000,
+      "total_flos": 6536571125760.0,
+      "train_loss": 0.17982604479789735,
+      "train_runtime": 23967.503,
+      "train_samples_per_second": 0.328,
+      "train_steps_per_second": 0.042
+    }
+  ],
+  "max_steps": 1000,
+  "num_train_epochs": 50,
+  "total_flos": 6536571125760.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfbc3f73b407f68906184e0045c7e30c036eeea00fedac53f0342ff41b56d6c4
+size 4923