Training in progress, epoch 42, checkpoint

Browse files

Files changed (16) hide show

checkpoint-8041/README.md +9 -0
checkpoint-8041/adapter_config.json +25 -0
checkpoint-8041/adapter_model.bin +3 -0
checkpoint-8041/added_tokens.json +5 -0
checkpoint-8041/optimizer.pt +3 -0
checkpoint-8041/rng_state_0.pth +3 -0
checkpoint-8041/rng_state_1.pth +3 -0
checkpoint-8041/rng_state_2.pth +3 -0
checkpoint-8041/rng_state_3.pth +3 -0
checkpoint-8041/scheduler.pt +3 -0
checkpoint-8041/special_tokens_map.json +6 -0
checkpoint-8041/tokenizer.json +0 -0
checkpoint-8041/tokenizer.model +3 -0
checkpoint-8041/tokenizer_config.json +40 -0
checkpoint-8041/trainer_state.json +1316 -0
checkpoint-8041/training_args.bin +3 -0

checkpoint-8041/README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+---
+library_name: peft
+---
+## Training procedure
+### Framework versions
+- PEFT 0.5.0

checkpoint-8041/adapter_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "k_proj",
+    "v_proj",
+    "down_proj",
+    "gate_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-8041/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b7ef800a9a65bc9d039f1db35c96ad59705bf76e042453eaf1e35436e1d29b9
+size 143269386

checkpoint-8041/added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "</s>": 2,
+  "<s>": 1,
+  "<unk>": 0
+}

checkpoint-8041/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e196274eab48762ad0ed0a69d7aa1eea240f627c6ad5dd5b39a75a6fb8576cc
+size 286590610

checkpoint-8041/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd7e5afa67308628615b6c51fa64f476e38c6b7ef02f3da208bd32b32dfa5f90
+size 15024

checkpoint-8041/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:148ab48d11be80ef1b696954300805d3ede75353a003ebc3435e92f365195c2c
+size 15024

checkpoint-8041/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13ad95dcea59cc73f3b6417fbebef728ec347207c77a3177c20eb0886721e7e6
+size 15024

checkpoint-8041/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efe77ed374d7632a79d75f6c21faebdbe30edb1ee0fbff7e69bd1716fbf894e9
+size 15024

checkpoint-8041/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42e43a05b1b1908c959309dea3945111bd5caba68725f3b1f002cabae993a7a2
+size 1064

checkpoint-8041/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-8041/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-8041/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-8041/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true
+}

checkpoint-8041/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1316 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 42.99733333333333,
+  "eval_steps": 500,
+  "global_step": 8041,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.53,
+      "learning_rate": 3e-05,
+      "loss": 1.4597,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6618980392156862,
+      "eval_loss": 1.2718806266784668,
+      "eval_runtime": 7.6194,
+      "eval_samples_per_second": 65.622,
+      "eval_steps_per_second": 8.268,
+      "step": 187
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 22.4,
+      "eval_f1": 30.941064425770318,
+      "eval_qa_bleu": 7.097403515221558,
+      "eval_qa_exact_match": 0.196,
+      "eval_recite_bleu": 13.258373740102225,
+      "eval_recite_exact_match": 0.0,
+      "step": 187
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 3e-05,
+      "loss": 1.2905,
+      "step": 200
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3e-05,
+      "loss": 1.2157,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6670039215686274,
+      "eval_loss": 1.206207036972046,
+      "eval_runtime": 7.6793,
+      "eval_samples_per_second": 65.11,
+      "eval_steps_per_second": 8.204,
+      "step": 375
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 3.2,
+      "eval_f1": 3.96976236704394,
+      "eval_qa_bleu": 0.20484366294597936,
+      "eval_qa_exact_match": 0.026,
+      "eval_recite_bleu": 2.5778714769111824e-05,
+      "eval_recite_exact_match": 0.0,
+      "step": 375
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 3e-05,
+      "loss": 1.1852,
+      "step": 400
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3e-05,
+      "loss": 1.1861,
+      "step": 500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.667513725490196,
+      "eval_loss": 1.19828462600708,
+      "eval_runtime": 7.1425,
+      "eval_samples_per_second": 70.004,
+      "eval_steps_per_second": 8.82,
+      "step": 562
+    },
+    {
+      "epoch": 3.0,
+      "eval_exact_match": 4.4,
+      "eval_f1": 6.333660342551587,
+      "eval_qa_bleu": 0.522391008398391,
+      "eval_qa_exact_match": 0.028,
+      "eval_recite_bleu": 0.027569975851374308,
+      "eval_recite_exact_match": 0.0,
+      "step": 562
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 3e-05,
+      "loss": 1.1722,
+      "step": 600
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 3e-05,
+      "loss": 1.1445,
+      "step": 700
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6672,
+      "eval_loss": 1.197709560394287,
+      "eval_runtime": 7.7427,
+      "eval_samples_per_second": 64.577,
+      "eval_steps_per_second": 8.137,
+      "step": 750
+    },
+    {
+      "epoch": 4.0,
+      "eval_exact_match": 7.4,
+      "eval_f1": 10.950016966795278,
+      "eval_qa_bleu": 0.6700083846206139,
+      "eval_qa_exact_match": 0.052,
+      "eval_recite_bleu": 1.259776140465531,
+      "eval_recite_exact_match": 0.0,
+      "step": 750
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 3e-05,
+      "loss": 1.1018,
+      "step": 800
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 3e-05,
+      "loss": 1.1,
+      "step": 900
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6664941176470588,
+      "eval_loss": 1.2078713178634644,
+      "eval_runtime": 7.7721,
+      "eval_samples_per_second": 64.333,
+      "eval_steps_per_second": 8.106,
+      "step": 937
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match": 6.6,
+      "eval_f1": 10.12048028049545,
+      "eval_qa_bleu": 0.8314625442591895,
+      "eval_qa_exact_match": 0.05,
+      "eval_recite_bleu": 0.8030246920772521,
+      "eval_recite_exact_match": 0.0,
+      "step": 937
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 3e-05,
+      "loss": 1.0666,
+      "step": 1000
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 3e-05,
+      "loss": 1.0439,
+      "step": 1100
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6649725490196079,
+      "eval_loss": 1.22383713722229,
+      "eval_runtime": 7.6639,
+      "eval_samples_per_second": 65.241,
+      "eval_steps_per_second": 8.22,
+      "step": 1125
+    },
+    {
+      "epoch": 6.0,
+      "eval_exact_match": 9.0,
+      "eval_f1": 14.19791549030679,
+      "eval_qa_bleu": 2.7960558519683327,
+      "eval_qa_exact_match": 0.07,
+      "eval_recite_bleu": 2.082318255561628,
+      "eval_recite_exact_match": 0.0,
+      "step": 1125
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 3e-05,
+      "loss": 1.0029,
+      "step": 1200
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 3e-05,
+      "loss": 0.9888,
+      "step": 1300
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.6638117647058823,
+      "eval_loss": 1.2457345724105835,
+      "eval_runtime": 6.7577,
+      "eval_samples_per_second": 73.99,
+      "eval_steps_per_second": 9.323,
+      "step": 1312
+    },
+    {
+      "epoch": 7.0,
+      "eval_exact_match": 10.6,
+      "eval_f1": 15.30586844512479,
+      "eval_qa_bleu": 0.94556412718174,
+      "eval_qa_exact_match": 0.086,
+      "eval_recite_bleu": 3.1558565534273777,
+      "eval_recite_exact_match": 0.0,
+      "step": 1312
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 3e-05,
+      "loss": 0.9453,
+      "step": 1400
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 3e-05,
+      "loss": 0.9364,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6615921568627451,
+      "eval_loss": 1.2816376686096191,
+      "eval_runtime": 7.5902,
+      "eval_samples_per_second": 65.875,
+      "eval_steps_per_second": 8.3,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_exact_match": 9.2,
+      "eval_f1": 12.989213707726288,
+      "eval_qa_bleu": 1.9797940311992752,
+      "eval_qa_exact_match": 0.074,
+      "eval_recite_bleu": 2.551621610315755,
+      "eval_recite_exact_match": 0.0,
+      "step": 1500
+    },
+    {
+      "epoch": 8.53,
+      "learning_rate": 3e-05,
+      "loss": 0.8889,
+      "step": 1600
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.6606196078431372,
+      "eval_loss": 1.3036144971847534,
+      "eval_runtime": 7.4845,
+      "eval_samples_per_second": 66.805,
+      "eval_steps_per_second": 8.417,
+      "step": 1687
+    },
+    {
+      "epoch": 9.0,
+      "eval_exact_match": 14.2,
+      "eval_f1": 19.66897045942666,
+      "eval_qa_bleu": 3.3530752528407004,
+      "eval_qa_exact_match": 0.112,
+      "eval_recite_bleu": 5.3293362575452425,
+      "eval_recite_exact_match": 0.002,
+      "step": 1687
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 3e-05,
+      "loss": 0.8853,
+      "step": 1700
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 3e-05,
+      "loss": 0.8373,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.6587450980392157,
+      "eval_loss": 1.3337457180023193,
+      "eval_runtime": 6.6361,
+      "eval_samples_per_second": 75.345,
+      "eval_steps_per_second": 9.493,
+      "step": 1875
+    },
+    {
+      "epoch": 10.0,
+      "eval_exact_match": 14.4,
+      "eval_f1": 21.20886352105531,
+      "eval_qa_bleu": 2.50339041197013,
+      "eval_qa_exact_match": 0.106,
+      "eval_recite_bleu": 6.648771889251858,
+      "eval_recite_exact_match": 0.0,
+      "step": 1875
+    },
+    {
+      "epoch": 10.13,
+      "learning_rate": 3e-05,
+      "loss": 0.8353,
+      "step": 1900
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 3e-05,
+      "loss": 0.7949,
+      "step": 2000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.6575058823529412,
+      "eval_loss": 1.367775797843933,
+      "eval_runtime": 7.4976,
+      "eval_samples_per_second": 66.688,
+      "eval_steps_per_second": 8.403,
+      "step": 2062
+    },
+    {
+      "epoch": 11.0,
+      "eval_exact_match": 15.4,
+      "eval_f1": 21.670913900913916,
+      "eval_qa_bleu": 4.131625289761948,
+      "eval_qa_exact_match": 0.104,
+      "eval_recite_bleu": 8.111027123751208,
+      "eval_recite_exact_match": 0.0,
+      "step": 2062
+    },
+    {
+      "epoch": 11.2,
+      "learning_rate": 3e-05,
+      "loss": 0.7758,
+      "step": 2100
+    },
+    {
+      "epoch": 11.73,
+      "learning_rate": 3e-05,
+      "loss": 0.7539,
+      "step": 2200
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6553725490196078,
+      "eval_loss": 1.3984336853027344,
+      "eval_runtime": 7.6892,
+      "eval_samples_per_second": 65.026,
+      "eval_steps_per_second": 8.193,
+      "step": 2250
+    },
+    {
+      "epoch": 12.0,
+      "eval_exact_match": 16.2,
+      "eval_f1": 23.074922854922868,
+      "eval_qa_bleu": 10.80394366395148,
+      "eval_qa_exact_match": 0.132,
+      "eval_recite_bleu": 9.158207459098465,
+      "eval_recite_exact_match": 0.002,
+      "step": 2250
+    },
+    {
+      "epoch": 12.27,
+      "learning_rate": 3e-05,
+      "loss": 0.7415,
+      "step": 2300
+    },
+    {
+      "epoch": 12.8,
+      "learning_rate": 3e-05,
+      "loss": 0.7133,
+      "step": 2400
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.6538196078431373,
+      "eval_loss": 1.4471032619476318,
+      "eval_runtime": 6.7177,
+      "eval_samples_per_second": 74.431,
+      "eval_steps_per_second": 9.378,
+      "step": 2437
+    },
+    {
+      "epoch": 13.0,
+      "eval_exact_match": 16.4,
+      "eval_f1": 23.343965796845062,
+      "eval_qa_bleu": 4.473837470175788,
+      "eval_qa_exact_match": 0.136,
+      "eval_recite_bleu": 10.58390244263022,
+      "eval_recite_exact_match": 0.002,
+      "step": 2437
+    },
+    {
+      "epoch": 13.33,
+      "learning_rate": 3e-05,
+      "loss": 0.682,
+      "step": 2500
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 3e-05,
+      "loss": 0.6704,
+      "step": 2600
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.6524862745098039,
+      "eval_loss": 1.4829775094985962,
+      "eval_runtime": 6.6339,
+      "eval_samples_per_second": 75.37,
+      "eval_steps_per_second": 9.497,
+      "step": 2625
+    },
+    {
+      "epoch": 14.0,
+      "eval_exact_match": 15.6,
+      "eval_f1": 23.615572621393074,
+      "eval_qa_bleu": 7.563435997390864,
+      "eval_qa_exact_match": 0.13,
+      "eval_recite_bleu": 11.120038652898813,
+      "eval_recite_exact_match": 0.008,
+      "step": 2625
+    },
+    {
+      "epoch": 14.4,
+      "learning_rate": 3e-05,
+      "loss": 0.6412,
+      "step": 2700
+    },
+    {
+      "epoch": 14.93,
+      "learning_rate": 3e-05,
+      "loss": 0.6436,
+      "step": 2800
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.6507529411764705,
+      "eval_loss": 1.524308681488037,
+      "eval_runtime": 6.6481,
+      "eval_samples_per_second": 75.209,
+      "eval_steps_per_second": 9.476,
+      "step": 2812
+    },
+    {
+      "epoch": 15.0,
+      "eval_exact_match": 17.8,
+      "eval_f1": 27.00021164021165,
+      "eval_qa_bleu": 7.90349748901623,
+      "eval_qa_exact_match": 0.15,
+      "eval_recite_bleu": 12.277483381668418,
+      "eval_recite_exact_match": 0.008,
+      "step": 2812
+    },
+    {
+      "epoch": 15.47,
+      "learning_rate": 3e-05,
+      "loss": 0.5969,
+      "step": 2900
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 3e-05,
+      "loss": 0.6073,
+      "step": 3000
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.6499764705882353,
+      "eval_loss": 1.5640995502471924,
+      "eval_runtime": 7.7119,
+      "eval_samples_per_second": 64.835,
+      "eval_steps_per_second": 8.169,
+      "step": 3000
+    },
+    {
+      "epoch": 16.0,
+      "eval_exact_match": 19.2,
+      "eval_f1": 27.747719298245627,
+      "eval_qa_bleu": 9.793788404463436,
+      "eval_qa_exact_match": 0.14,
+      "eval_recite_bleu": 12.835117221544726,
+      "eval_recite_exact_match": 0.01,
+      "step": 3000
+    },
+    {
+      "epoch": 16.53,
+      "learning_rate": 3e-05,
+      "loss": 0.5567,
+      "step": 3100
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.6486588235294117,
+      "eval_loss": 1.6058622598648071,
+      "eval_runtime": 7.7727,
+      "eval_samples_per_second": 64.328,
+      "eval_steps_per_second": 8.105,
+      "step": 3187
+    },
+    {
+      "epoch": 17.0,
+      "eval_exact_match": 19.6,
+      "eval_f1": 26.446776949066113,
+      "eval_qa_bleu": 10.294098070146385,
+      "eval_qa_exact_match": 0.156,
+      "eval_recite_bleu": 12.34815708077889,
+      "eval_recite_exact_match": 0.004,
+      "step": 3187
+    },
+    {
+      "epoch": 17.07,
+      "learning_rate": 3e-05,
+      "loss": 0.5654,
+      "step": 3200
+    },
+    {
+      "epoch": 17.6,
+      "learning_rate": 3e-05,
+      "loss": 0.5204,
+      "step": 3300
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.6472705882352942,
+      "eval_loss": 1.6425700187683105,
+      "eval_runtime": 7.1347,
+      "eval_samples_per_second": 70.08,
+      "eval_steps_per_second": 8.83,
+      "step": 3375
+    },
+    {
+      "epoch": 18.0,
+      "eval_exact_match": 18.4,
+      "eval_f1": 26.083665223665236,
+      "eval_qa_bleu": 12.978225559731756,
+      "eval_qa_exact_match": 0.142,
+      "eval_recite_bleu": 12.629003802964625,
+      "eval_recite_exact_match": 0.006,
+      "step": 3375
+    },
+    {
+      "epoch": 18.13,
+      "learning_rate": 3e-05,
+      "loss": 0.5348,
+      "step": 3400
+    },
+    {
+      "epoch": 18.67,
+      "learning_rate": 3e-05,
+      "loss": 0.5019,
+      "step": 3500
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.6459843137254901,
+      "eval_loss": 1.6983567476272583,
+      "eval_runtime": 7.0372,
+      "eval_samples_per_second": 71.051,
+      "eval_steps_per_second": 8.952,
+      "step": 3562
+    },
+    {
+      "epoch": 19.0,
+      "eval_exact_match": 19.4,
+      "eval_f1": 27.658198757763987,
+      "eval_qa_bleu": 10.765170656210177,
+      "eval_qa_exact_match": 0.146,
+      "eval_recite_bleu": 12.874816956011239,
+      "eval_recite_exact_match": 0.006,
+      "step": 3562
+    },
+    {
+      "epoch": 19.2,
+      "learning_rate": 3e-05,
+      "loss": 0.4888,
+      "step": 3600
+    },
+    {
+      "epoch": 19.73,
+      "learning_rate": 3e-05,
+      "loss": 0.4676,
+      "step": 3700
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.6450431372549019,
+      "eval_loss": 1.74748957157135,
+      "eval_runtime": 6.6386,
+      "eval_samples_per_second": 75.317,
+      "eval_steps_per_second": 9.49,
+      "step": 3750
+    },
+    {
+      "epoch": 20.0,
+      "eval_exact_match": 17.4,
+      "eval_f1": 25.5869051909052,
+      "eval_qa_bleu": 7.975401244418332,
+      "eval_qa_exact_match": 0.144,
+      "eval_recite_bleu": 11.978547399136012,
+      "eval_recite_exact_match": 0.004,
+      "step": 3750
+    },
+    {
+      "epoch": 20.27,
+      "learning_rate": 3e-05,
+      "loss": 0.4528,
+      "step": 3800
+    },
+    {
+      "epoch": 20.8,
+      "learning_rate": 3e-05,
+      "loss": 0.4408,
+      "step": 3900
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.6450274509803922,
+      "eval_loss": 1.7759969234466553,
+      "eval_runtime": 7.7092,
+      "eval_samples_per_second": 64.857,
+      "eval_steps_per_second": 8.172,
+      "step": 3937
+    },
+    {
+      "epoch": 21.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 27.044218949435447,
+      "eval_qa_bleu": 5.961857744132503,
+      "eval_qa_exact_match": 0.158,
+      "eval_recite_bleu": 12.078600703350125,
+      "eval_recite_exact_match": 0.004,
+      "step": 3937
+    },
+    {
+      "epoch": 21.33,
+      "learning_rate": 3e-05,
+      "loss": 0.4191,
+      "step": 4000
+    },
+    {
+      "epoch": 21.87,
+      "learning_rate": 3e-05,
+      "loss": 0.4217,
+      "step": 4100
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.644078431372549,
+      "eval_loss": 1.7986315488815308,
+      "eval_runtime": 7.6507,
+      "eval_samples_per_second": 65.353,
+      "eval_steps_per_second": 8.235,
+      "step": 4125
+    },
+    {
+      "epoch": 22.0,
+      "eval_exact_match": 18.2,
+      "eval_f1": 25.124761904761915,
+      "eval_qa_bleu": 15.392825669562168,
+      "eval_qa_exact_match": 0.14,
+      "eval_recite_bleu": 11.50341909728548,
+      "eval_recite_exact_match": 0.006,
+      "step": 4125
+    },
+    {
+      "epoch": 22.4,
+      "learning_rate": 3e-05,
+      "loss": 0.393,
+      "step": 4200
+    },
+    {
+      "epoch": 22.93,
+      "learning_rate": 3e-05,
+      "loss": 0.3886,
+      "step": 4300
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.6439529411764706,
+      "eval_loss": 1.8378911018371582,
+      "eval_runtime": 7.4779,
+      "eval_samples_per_second": 66.864,
+      "eval_steps_per_second": 8.425,
+      "step": 4312
+    },
+    {
+      "epoch": 23.0,
+      "eval_exact_match": 14.8,
+      "eval_f1": 21.914444444444456,
+      "eval_qa_bleu": 10.979013053975578,
+      "eval_qa_exact_match": 0.128,
+      "eval_recite_bleu": 11.265801595707984,
+      "eval_recite_exact_match": 0.004,
+      "step": 4312
+    },
+    {
+      "epoch": 23.47,
+      "learning_rate": 3e-05,
+      "loss": 0.3605,
+      "step": 4400
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 3e-05,
+      "loss": 0.3729,
+      "step": 4500
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.6420470588235294,
+      "eval_loss": 1.927443504333496,
+      "eval_runtime": 7.4721,
+      "eval_samples_per_second": 66.915,
+      "eval_steps_per_second": 8.431,
+      "step": 4500
+    },
+    {
+      "epoch": 24.0,
+      "eval_exact_match": 15.6,
+      "eval_f1": 22.679302325581407,
+      "eval_qa_bleu": 7.33716058981409,
+      "eval_qa_exact_match": 0.132,
+      "eval_recite_bleu": 11.564503717897392,
+      "eval_recite_exact_match": 0.002,
+      "step": 4500
+    },
+    {
+      "epoch": 24.53,
+      "learning_rate": 3e-05,
+      "loss": 0.3316,
+      "step": 4600
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.641921568627451,
+      "eval_loss": 1.9378185272216797,
+      "eval_runtime": 7.6806,
+      "eval_samples_per_second": 65.099,
+      "eval_steps_per_second": 8.203,
+      "step": 4687
+    },
+    {
+      "epoch": 25.0,
+      "eval_exact_match": 16.8,
+      "eval_f1": 23.502857142857145,
+      "eval_qa_bleu": 8.430315553769542,
+      "eval_qa_exact_match": 0.13,
+      "eval_recite_bleu": 11.821782294825612,
+      "eval_recite_exact_match": 0.006,
+      "step": 4687
+    },
+    {
+      "epoch": 25.07,
+      "learning_rate": 3e-05,
+      "loss": 0.3454,
+      "step": 4700
+    },
+    {
+      "epoch": 25.6,
+      "learning_rate": 3e-05,
+      "loss": 0.313,
+      "step": 4800
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.6410274509803922,
+      "eval_loss": 2.0155365467071533,
+      "eval_runtime": 6.6459,
+      "eval_samples_per_second": 75.235,
+      "eval_steps_per_second": 9.48,
+      "step": 4875
+    },
+    {
+      "epoch": 26.0,
+      "eval_exact_match": 15.4,
+      "eval_f1": 23.056190476190483,
+      "eval_qa_bleu": 10.828743073480153,
+      "eval_qa_exact_match": 0.132,
+      "eval_recite_bleu": 11.70611308380729,
+      "eval_recite_exact_match": 0.004,
+      "step": 4875
+    },
+    {
+      "epoch": 26.13,
+      "learning_rate": 3e-05,
+      "loss": 0.316,
+      "step": 4900
+    },
+    {
+      "epoch": 26.67,
+      "learning_rate": 3e-05,
+      "loss": 0.2891,
+      "step": 5000
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.6408313725490196,
+      "eval_loss": 2.0192761421203613,
+      "eval_runtime": 7.4551,
+      "eval_samples_per_second": 67.068,
+      "eval_steps_per_second": 8.451,
+      "step": 5062
+    },
+    {
+      "epoch": 27.0,
+      "eval_exact_match": 14.0,
+      "eval_f1": 22.766833842561553,
+      "eval_qa_bleu": 3.5222468357048804,
+      "eval_qa_exact_match": 0.108,
+      "eval_recite_bleu": 10.474195118057567,
+      "eval_recite_exact_match": 0.002,
+      "step": 5062
+    },
+    {
+      "epoch": 27.2,
+      "learning_rate": 3e-05,
+      "loss": 0.299,
+      "step": 5100
+    },
+    {
+      "epoch": 27.73,
+      "learning_rate": 3e-05,
+      "loss": 0.281,
+      "step": 5200
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.640243137254902,
+      "eval_loss": 2.074819803237915,
+      "eval_runtime": 7.0598,
+      "eval_samples_per_second": 70.823,
+      "eval_steps_per_second": 8.924,
+      "step": 5250
+    },
+    {
+      "epoch": 28.0,
+      "eval_exact_match": 14.8,
+      "eval_f1": 22.03527508090615,
+      "eval_qa_bleu": 4.8943988922035935,
+      "eval_qa_exact_match": 0.118,
+      "eval_recite_bleu": 11.435320168344504,
+      "eval_recite_exact_match": 0.008,
+      "step": 5250
+    },
+    {
+      "epoch": 28.27,
+      "learning_rate": 3e-05,
+      "loss": 0.2637,
+      "step": 5300
+    },
+    {
+      "epoch": 28.8,
+      "learning_rate": 3e-05,
+      "loss": 0.2639,
+      "step": 5400
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.6389333333333334,
+      "eval_loss": 2.1383912563323975,
+      "eval_runtime": 7.7452,
+      "eval_samples_per_second": 64.556,
+      "eval_steps_per_second": 8.134,
+      "step": 5437
+    },
+    {
+      "epoch": 29.0,
+      "eval_exact_match": 16.2,
+      "eval_f1": 24.30754076973256,
+      "eval_qa_bleu": 4.486401752816634,
+      "eval_qa_exact_match": 0.128,
+      "eval_recite_bleu": 11.730902648782326,
+      "eval_recite_exact_match": 0.004,
+      "step": 5437
+    },
+    {
+      "epoch": 29.33,
+      "learning_rate": 3e-05,
+      "loss": 0.2473,
+      "step": 5500
+    },
+    {
+      "epoch": 29.87,
+      "learning_rate": 3e-05,
+      "loss": 0.249,
+      "step": 5600
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.6398509803921568,
+      "eval_loss": 2.125810384750366,
+      "eval_runtime": 7.6954,
+      "eval_samples_per_second": 64.974,
+      "eval_steps_per_second": 8.187,
+      "step": 5625
+    },
+    {
+      "epoch": 30.0,
+      "eval_exact_match": 15.8,
+      "eval_f1": 22.123535353535363,
+      "eval_qa_bleu": 3.2440134844965627,
+      "eval_qa_exact_match": 0.126,
+      "eval_recite_bleu": 11.76325197849696,
+      "eval_recite_exact_match": 0.004,
+      "step": 5625
+    },
+    {
+      "epoch": 30.4,
+      "learning_rate": 3e-05,
+      "loss": 0.2263,
+      "step": 5700
+    },
+    {
+      "epoch": 30.93,
+      "learning_rate": 3e-05,
+      "loss": 0.236,
+      "step": 5800
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.6378666666666667,
+      "eval_loss": 2.2261879444122314,
+      "eval_runtime": 7.6462,
+      "eval_samples_per_second": 65.392,
+      "eval_steps_per_second": 8.239,
+      "step": 5812
+    },
+    {
+      "epoch": 31.0,
+      "eval_exact_match": 17.6,
+      "eval_f1": 25.120476190476193,
+      "eval_qa_bleu": 5.240120013213656,
+      "eval_qa_exact_match": 0.13,
+      "eval_recite_bleu": 11.888730171325669,
+      "eval_recite_exact_match": 0.008,
+      "step": 5812
+    },
+    {
+      "epoch": 31.47,
+      "learning_rate": 3e-05,
+      "loss": 0.2062,
+      "step": 5900
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 3e-05,
+      "loss": 0.2235,
+      "step": 6000
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.6381254901960784,
+      "eval_loss": 2.2489171028137207,
+      "eval_runtime": 7.0486,
+      "eval_samples_per_second": 70.936,
+      "eval_steps_per_second": 8.938,
+      "step": 6000
+    },
+    {
+      "epoch": 32.0,
+      "eval_exact_match": 16.6,
+      "eval_f1": 25.16174603174605,
+      "eval_qa_bleu": 12.336439673952102,
+      "eval_qa_exact_match": 0.134,
+      "eval_recite_bleu": 11.520322065980684,
+      "eval_recite_exact_match": 0.008,
+      "step": 6000
+    },
+    {
+      "epoch": 32.53,
+      "learning_rate": 3e-05,
+      "loss": 0.1952,
+      "step": 6100
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.6373098039215687,
+      "eval_loss": 2.2877373695373535,
+      "eval_runtime": 7.7488,
+      "eval_samples_per_second": 64.526,
+      "eval_steps_per_second": 8.13,
+      "step": 6187
+    },
+    {
+      "epoch": 33.0,
+      "eval_exact_match": 15.2,
+      "eval_f1": 23.447550852439747,
+      "eval_qa_bleu": 3.977016577169375,
+      "eval_qa_exact_match": 0.126,
+      "eval_recite_bleu": 13.076208653752236,
+      "eval_recite_exact_match": 0.016,
+      "step": 6187
+    },
+    {
+      "epoch": 33.07,
+      "learning_rate": 3e-05,
+      "loss": 0.2023,
+      "step": 6200
+    },
+    {
+      "epoch": 33.6,
+      "learning_rate": 3e-05,
+      "loss": 0.1857,
+      "step": 6300
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.6367921568627452,
+      "eval_loss": 2.309786319732666,
+      "eval_runtime": 6.6393,
+      "eval_samples_per_second": 75.309,
+      "eval_steps_per_second": 9.489,
+      "step": 6375
+    },
+    {
+      "epoch": 34.0,
+      "eval_exact_match": 14.6,
+      "eval_f1": 21.406193118687113,
+      "eval_qa_bleu": 3.892800891482867,
+      "eval_qa_exact_match": 0.116,
+      "eval_recite_bleu": 11.365741641301113,
+      "eval_recite_exact_match": 0.008,
+      "step": 6375
+    },
+    {
+      "epoch": 34.13,
+      "learning_rate": 3e-05,
+      "loss": 0.1888,
+      "step": 6400
+    },
+    {
+      "epoch": 34.67,
+      "learning_rate": 3e-05,
+      "loss": 0.1739,
+      "step": 6500
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.6370196078431373,
+      "eval_loss": 2.356412172317505,
+      "eval_runtime": 6.7022,
+      "eval_samples_per_second": 74.602,
+      "eval_steps_per_second": 9.4,
+      "step": 6562
+    },
+    {
+      "epoch": 35.0,
+      "eval_exact_match": 16.0,
+      "eval_f1": 24.90098936662045,
+      "eval_qa_bleu": 6.669415710869239,
+      "eval_qa_exact_match": 0.13,
+      "eval_recite_bleu": 12.340892651236608,
+      "eval_recite_exact_match": 0.01,
+      "step": 6562
+    },
+    {
+      "epoch": 35.2,
+      "learning_rate": 3e-05,
+      "loss": 0.1771,
+      "step": 6600
+    },
+    {
+      "epoch": 35.73,
+      "learning_rate": 3e-05,
+      "loss": 0.1675,
+      "step": 6700
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.6365647058823529,
+      "eval_loss": 2.413015127182007,
+      "eval_runtime": 7.498,
+      "eval_samples_per_second": 66.684,
+      "eval_steps_per_second": 8.402,
+      "step": 6750
+    },
+    {
+      "epoch": 36.0,
+      "eval_exact_match": 16.6,
+      "eval_f1": 24.060404040404055,
+      "eval_qa_bleu": 9.329376121653498,
+      "eval_qa_exact_match": 0.134,
+      "eval_recite_bleu": 12.441487241994658,
+      "eval_recite_exact_match": 0.012,
+      "step": 6750
+    },
+    {
+      "epoch": 36.27,
+      "learning_rate": 3e-05,
+      "loss": 0.1623,
+      "step": 6800
+    },
+    {
+      "epoch": 36.8,
+      "learning_rate": 3e-05,
+      "loss": 0.158,
+      "step": 6900
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.6361333333333333,
+      "eval_loss": 2.4566919803619385,
+      "eval_runtime": 7.1162,
+      "eval_samples_per_second": 70.263,
+      "eval_steps_per_second": 8.853,
+      "step": 6937
+    },
+    {
+      "epoch": 37.0,
+      "eval_exact_match": 16.0,
+      "eval_f1": 22.78879744333159,
+      "eval_qa_bleu": 4.048618436225478,
+      "eval_qa_exact_match": 0.128,
+      "eval_recite_bleu": 12.710989230469986,
+      "eval_recite_exact_match": 0.014,
+      "step": 6937
+    },
+    {
+      "epoch": 37.33,
+      "learning_rate": 3e-05,
+      "loss": 0.1525,
+      "step": 7000
+    },
+    {
+      "epoch": 37.87,
+      "learning_rate": 3e-05,
+      "loss": 0.1509,
+      "step": 7100
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.6366117647058823,
+      "eval_loss": 2.466296672821045,
+      "eval_runtime": 6.7087,
+      "eval_samples_per_second": 74.53,
+      "eval_steps_per_second": 9.391,
+      "step": 7125
+    },
+    {
+      "epoch": 38.0,
+      "eval_exact_match": 17.8,
+      "eval_f1": 24.827619047619052,
+      "eval_qa_bleu": 6.898280882518603,
+      "eval_qa_exact_match": 0.142,
+      "eval_recite_bleu": 13.041079892055818,
+      "eval_recite_exact_match": 0.012,
+      "step": 7125
+    },
+    {
+      "epoch": 38.4,
+      "learning_rate": 3e-05,
+      "loss": 0.1425,
+      "step": 7200
+    },
+    {
+      "epoch": 38.93,
+      "learning_rate": 3e-05,
+      "loss": 0.1461,
+      "step": 7300
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.6351137254901961,
+      "eval_loss": 2.5354840755462646,
+      "eval_runtime": 7.4853,
+      "eval_samples_per_second": 66.797,
+      "eval_steps_per_second": 8.416,
+      "step": 7312
+    },
+    {
+      "epoch": 39.0,
+      "eval_exact_match": 14.6,
+      "eval_f1": 21.557038888678758,
+      "eval_qa_bleu": 4.264242388706355,
+      "eval_qa_exact_match": 0.124,
+      "eval_recite_bleu": 11.656295817452541,
+      "eval_recite_exact_match": 0.008,
+      "step": 7312
+    },
+    {
+      "epoch": 39.47,
+      "learning_rate": 3e-05,
+      "loss": 0.1322,
+      "step": 7400
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 3e-05,
+      "loss": 0.1393,
+      "step": 7500
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.634964705882353,
+      "eval_loss": 2.581481456756592,
+      "eval_runtime": 6.7057,
+      "eval_samples_per_second": 74.564,
+      "eval_steps_per_second": 9.395,
+      "step": 7500
+    },
+    {
+      "epoch": 40.0,
+      "eval_exact_match": 14.0,
+      "eval_f1": 20.95174603174604,
+      "eval_qa_bleu": 6.801813594380655,
+      "eval_qa_exact_match": 0.116,
+      "eval_recite_bleu": 12.129670692723177,
+      "eval_recite_exact_match": 0.01,
+      "step": 7500
+    },
+    {
+      "epoch": 40.53,
+      "learning_rate": 3e-05,
+      "loss": 0.1252,
+      "step": 7600
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.6353098039215687,
+      "eval_loss": 2.5514683723449707,
+      "eval_runtime": 7.4812,
+      "eval_samples_per_second": 66.834,
+      "eval_steps_per_second": 8.421,
+      "step": 7687
+    },
+    {
+      "epoch": 41.0,
+      "eval_exact_match": 15.4,
+      "eval_f1": 22.577012987013,
+      "eval_qa_bleu": 10.500103979458904,
+      "eval_qa_exact_match": 0.134,
+      "eval_recite_bleu": 11.650747183051218,
+      "eval_recite_exact_match": 0.01,
+      "step": 7687
+    },
+    {
+      "epoch": 41.07,
+      "learning_rate": 3e-05,
+      "loss": 0.1322,
+      "step": 7700
+    },
+    {
+      "epoch": 41.6,
+      "learning_rate": 3e-05,
+      "loss": 0.1203,
+      "step": 7800
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.6352705882352941,
+      "eval_loss": 2.5817809104919434,
+      "eval_runtime": 6.6635,
+      "eval_samples_per_second": 75.035,
+      "eval_steps_per_second": 9.454,
+      "step": 7875
+    },
+    {
+      "epoch": 42.0,
+      "eval_exact_match": 15.0,
+      "eval_f1": 22.31658263305323,
+      "eval_qa_bleu": 6.526035776150396,
+      "eval_qa_exact_match": 0.132,
+      "eval_recite_bleu": 13.143639447688551,
+      "eval_recite_exact_match": 0.012,
+      "step": 7875
+    },
+    {
+      "epoch": 42.25,
+      "learning_rate": 3e-05,
+      "loss": 0.1094,
+      "step": 7900
+    },
+    {
+      "epoch": 42.78,
+      "learning_rate": 3e-05,
+      "loss": 0.1179,
+      "step": 8000
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.6354745098039216,
+      "eval_loss": 2.629621982574463,
+      "eval_runtime": 7.7246,
+      "eval_samples_per_second": 64.728,
+      "eval_steps_per_second": 8.156,
+      "step": 8041
+    },
+    {
+      "epoch": 43.0,
+      "eval_exact_match": 15.0,
+      "eval_f1": 22.786969696969702,
+      "eval_qa_bleu": 6.542657658031823,
+      "eval_qa_exact_match": 0.118,
+      "eval_recite_bleu": 12.225128582410859,
+      "eval_recite_exact_match": 0.01,
+      "step": 8041
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 9350,
+  "num_train_epochs": 50,
+  "save_steps": 500,
+  "total_flos": 1.8637055884924027e+18,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-8041/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3407c08abce41cb0416802afb0954e7df7ab1fc16a56c52b9d611206d5650365
+size 4728