initial commit

Browse files

Files changed (14) hide show

.gitattributes +2 -0
added_tokens.json +1 -0
config.json +77 -0
merges.txt +0 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +858 -0
training_args.bin +3 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -25,3 +25,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+training_args.bin filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<user>": 50273, "<knowledge_sep>": 50271, "<Other>": 50268, "<Hint/Information_Reveal>": 50267, "<Question>": 50269, "<Correction>": 50266, "<knowledge_tag>": 50272, "<Confirmation>": 50265, "<agent>": 50270}

config.json ADDED Viewed

	@@ -0,0 +1,77 @@

+{
+  "_name_or_path": "facebook/bart-base",
+  "activation_dropout": 0.1,
+  "activation_function": "gelu",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "BartForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "classif_dropout": 0.1,
+  "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 2,
+  "forced_bos_token_id": 0,
+  "forced_eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": 60,
+  "max_position_embeddings": 1024,
+  "model_type": "bart",
+  "no_repeat_ngram_size": 3,
+  "normalize_before": false,
+  "normalize_embedding": true,
+  "num_beams": 10,
+  "num_hidden_layers": 6,
+  "pad_token_id": 1,
+  "scale_embedding": false,
+  "task_specific_params": {
+    "summarization": {
+      "length_penalty": 1.0,
+      "max_length": 128,
+      "min_length": 12,
+      "num_beams": 4
+    },
+    "summarization_cnn": {
+      "length_penalty": 2.0,
+      "max_length": 142,
+      "min_length": 56,
+      "num_beams": 4
+    },
+    "summarization_xsum": {
+      "length_penalty": 1.0,
+      "max_length": 62,
+      "min_length": 11,
+      "num_beams": 6
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.9.0",
+  "uid_regularization": 0.0,
+  "use_cache": true,
+  "vocab_size": 50274
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9da260309d32e347bcddd04513805ab97fbdd5dcb8697e3b4457015beeb764f1
+size 1115581221

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:651ce0c707bd4267aa6895e4822d3d361a3a0f88fa335a167501deda59592ee1
+size 558013395

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4023d58fe9b64875419226c1e2779de7fe40dfe32dec6e4b9a8dce64f042f152
+size 14593

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bb9bdc4c1c89f937942a1165786f8e682f0330541a622942e057de47622afdf
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}, "additional_special_tokens": ["<Confirmation>", "<Correction>", "<Hint/Information_Reveal>", "<Other>", "<Question>", "<agent>", "<knowledge_sep>", "<knowledge_tag>", "<user>"]}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_prefix_space": false, "errors": "replace", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "facebook/bart-base", "tokenizer_class": "BartTokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,858 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 16.99889502762431,
+  "global_step": 5763,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.38,
+      "gpu_memory": 2825061888,
+      "learning_rate": 8.32e-06,
+      "loss": 4.6062,
+      "step": 128
+    },
+    {
+      "epoch": 0.75,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.664e-05,
+      "loss": 2.7746,
+      "step": 256
+    },
+    {
+      "epoch": 1.0,
+      "eval_bp": 0.021341648192077716,
+      "eval_counts": [
+        342,
+        58,
+        18,
+        6
+      ],
+      "eval_loss": 2.035790205001831,
+      "eval_precisions": [
+        34.862385321100916,
+        8.516886930983848,
+        4.651162790697675,
+        2.3529411764705883
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 35.7733,
+      "eval_samples_per_second": 8.386,
+      "eval_score": 0.16113155714674393,
+      "eval_steps_per_second": 8.386,
+      "eval_sys_len": 981,
+      "eval_totals": [
+        981,
+        681,
+        387,
+        255
+      ],
+      "gpu_memory": 2903643648,
+      "step": 339
+    },
+    {
+      "epoch": 1.13,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.4959999999999998e-05,
+      "loss": 2.2201,
+      "step": 384
+    },
+    {
+      "epoch": 1.51,
+      "gpu_memory": 2903643648,
+      "learning_rate": 3.2437898089171974e-05,
+      "loss": 1.9599,
+      "step": 512
+    },
+    {
+      "epoch": 1.89,
+      "gpu_memory": 2903643648,
+      "learning_rate": 3.1775477707006364e-05,
+      "loss": 1.8228,
+      "step": 640
+    },
+    {
+      "epoch": 2.0,
+      "eval_bp": 0.1919535866757935,
+      "eval_counts": [
+        640,
+        199,
+        91,
+        36
+      ],
+      "eval_loss": 1.740516185760498,
+      "eval_precisions": [
+        35.67447045707915,
+        13.319946452476573,
+        7.526881720430108,
+        3.896103896103896
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 51.5291,
+      "eval_samples_per_second": 5.822,
+      "eval_score": 2.0855597670386987,
+      "eval_steps_per_second": 5.822,
+      "eval_sys_len": 1794,
+      "eval_totals": [
+        1794,
+        1494,
+        1209,
+        924
+      ],
+      "gpu_memory": 2903643648,
+      "step": 678
+    },
+    {
+      "epoch": 2.27,
+      "gpu_memory": 2903643648,
+      "learning_rate": 3.111305732484076e-05,
+      "loss": 1.7275,
+      "step": 768
+    },
+    {
+      "epoch": 2.64,
+      "gpu_memory": 2903643648,
+      "learning_rate": 3.0450636942675155e-05,
+      "loss": 1.614,
+      "step": 896
+    },
+    {
+      "epoch": 3.0,
+      "eval_bp": 0.157930307305936,
+      "eval_counts": [
+        662,
+        239,
+        127,
+        66
+      ],
+      "eval_loss": 1.6653738021850586,
+      "eval_precisions": [
+        39.61699581089168,
+        17.432530999270604,
+        11.598173515981735,
+        8.02919708029197
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 46.1755,
+      "eval_samples_per_second": 6.497,
+      "eval_score": 2.515019790343611,
+      "eval_steps_per_second": 6.497,
+      "eval_sys_len": 1671,
+      "eval_totals": [
+        1671,
+        1371,
+        1095,
+        822
+      ],
+      "gpu_memory": 2903643648,
+      "step": 1017
+    },
+    {
+      "epoch": 3.02,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.9788216560509553e-05,
+      "loss": 1.561,
+      "step": 1024
+    },
+    {
+      "epoch": 3.4,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.9125796178343946e-05,
+      "loss": 1.4029,
+      "step": 1152
+    },
+    {
+      "epoch": 3.77,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.8463375796178344e-05,
+      "loss": 1.4541,
+      "step": 1280
+    },
+    {
+      "epoch": 4.0,
+      "eval_bp": 0.06814983706797134,
+      "eval_counts": [
+        481,
+        162,
+        79,
+        37
+      ],
+      "eval_loss": 1.6631227731704712,
+      "eval_precisions": [
+        37.286821705426355,
+        16.363636363636363,
+        10.881542699724518,
+        6.630824372759856
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 45.6186,
+      "eval_samples_per_second": 6.576,
+      "eval_score": 0.9871612910485801,
+      "eval_steps_per_second": 6.576,
+      "eval_sys_len": 1290,
+      "eval_totals": [
+        1290,
+        990,
+        726,
+        558
+      ],
+      "gpu_memory": 2903643648,
+      "step": 1356
+    },
+    {
+      "epoch": 4.15,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.7800955414012737e-05,
+      "loss": 1.4088,
+      "step": 1408
+    },
+    {
+      "epoch": 4.53,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.713853503184713e-05,
+      "loss": 1.3351,
+      "step": 1536
+    },
+    {
+      "epoch": 4.91,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.647611464968153e-05,
+      "loss": 1.3229,
+      "step": 1664
+    },
+    {
+      "epoch": 5.0,
+      "eval_bp": 0.23640264658354365,
+      "eval_counts": [
+        633,
+        216,
+        105,
+        58
+      ],
+      "eval_loss": 1.6731408834457397,
+      "eval_precisions": [
+        32.5115562403698,
+        13.114754098360656,
+        7.658643326039387,
+        5.239385727190605
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 51.3595,
+      "eval_samples_per_second": 5.841,
+      "eval_score": 2.703708498377427,
+      "eval_steps_per_second": 5.841,
+      "eval_sys_len": 1947,
+      "eval_totals": [
+        1947,
+        1647,
+        1371,
+        1107
+      ],
+      "gpu_memory": 2903643648,
+      "step": 1695
+    },
+    {
+      "epoch": 5.29,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.5813694267515922e-05,
+      "loss": 1.2429,
+      "step": 1792
+    },
+    {
+      "epoch": 5.66,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.515127388535032e-05,
+      "loss": 1.2329,
+      "step": 1920
+    },
+    {
+      "epoch": 6.0,
+      "eval_bp": 0.07532276614122083,
+      "eval_counts": [
+        579,
+        202,
+        98,
+        55
+      ],
+      "eval_loss": 1.6539884805679321,
+      "eval_precisions": [
+        43.665158371040725,
+        19.68810916179337,
+        13.01460823373174,
+        9.499136442141623
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 46.8126,
+      "eval_samples_per_second": 6.409,
+      "eval_score": 1.3600028829560191,
+      "eval_steps_per_second": 6.409,
+      "eval_sys_len": 1326,
+      "eval_totals": [
+        1326,
+        1026,
+        753,
+        579
+      ],
+      "gpu_memory": 2903643648,
+      "step": 2034
+    },
+    {
+      "epoch": 6.04,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.4488853503184713e-05,
+      "loss": 1.2504,
+      "step": 2048
+    },
+    {
+      "epoch": 6.42,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.3826433121019104e-05,
+      "loss": 1.1421,
+      "step": 2176
+    },
+    {
+      "epoch": 6.8,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.31640127388535e-05,
+      "loss": 1.1795,
+      "step": 2304
+    },
+    {
+      "epoch": 7.0,
+      "eval_bp": 0.17181721996808308,
+      "eval_counts": [
+        768,
+        262,
+        133,
+        70
+      ],
+      "eval_loss": 1.667359471321106,
+      "eval_precisions": [
+        44.599303135888505,
+        18.424753867791843,
+        11.697449428320141,
+        8.018327605956472
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 50.5053,
+      "eval_samples_per_second": 5.94,
+      "eval_score": 2.862812289607837,
+      "eval_steps_per_second": 5.94,
+      "eval_sys_len": 1722,
+      "eval_totals": [
+        1722,
+        1422,
+        1137,
+        873
+      ],
+      "gpu_memory": 2903643648,
+      "step": 2373
+    },
+    {
+      "epoch": 7.17,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.2501592356687895e-05,
+      "loss": 1.0902,
+      "step": 2432
+    },
+    {
+      "epoch": 7.55,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.183917197452229e-05,
+      "loss": 1.0705,
+      "step": 2560
+    },
+    {
+      "epoch": 7.93,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.1176751592356686e-05,
+      "loss": 1.1128,
+      "step": 2688
+    },
+    {
+      "epoch": 8.0,
+      "eval_bp": 0.2669632643662467,
+      "eval_counts": [
+        866,
+        300,
+        163,
+        96
+      ],
+      "eval_loss": 1.708727240562439,
+      "eval_precisions": [
+        42.26451927769644,
+        17.152658662092623,
+        11.20274914089347,
+        8.226221079691516
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 53.4181,
+      "eval_samples_per_second": 5.616,
+      "eval_score": 4.291998839505449,
+      "eval_steps_per_second": 5.616,
+      "eval_sys_len": 2049,
+      "eval_totals": [
+        2049,
+        1749,
+        1455,
+        1167
+      ],
+      "gpu_memory": 2903643648,
+      "step": 2712
+    },
+    {
+      "epoch": 8.31,
+      "gpu_memory": 2903643648,
+      "learning_rate": 2.051433121019108e-05,
+      "loss": 1.0162,
+      "step": 2816
+    },
+    {
+      "epoch": 8.68,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.9851910828025477e-05,
+      "loss": 1.0183,
+      "step": 2944
+    },
+    {
+      "epoch": 9.0,
+      "eval_bp": 0.09731210069014802,
+      "eval_counts": [
+        678,
+        233,
+        102,
+        45
+      ],
+      "eval_loss": 1.7135441303253174,
+      "eval_precisions": [
+        47.47899159663866,
+        20.656028368794328,
+        12.23021582733813,
+        7.142857142857143
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 50.1778,
+      "eval_samples_per_second": 5.979,
+      "eval_score": 1.664870454299152,
+      "eval_steps_per_second": 5.979,
+      "eval_sys_len": 1428,
+      "eval_totals": [
+        1428,
+        1128,
+        834,
+        630
+      ],
+      "gpu_memory": 2903643648,
+      "step": 3051
+    },
+    {
+      "epoch": 9.06,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.918949044585987e-05,
+      "loss": 1.0367,
+      "step": 3072
+    },
+    {
+      "epoch": 9.44,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.8527070063694264e-05,
+      "loss": 0.9645,
+      "step": 3200
+    },
+    {
+      "epoch": 9.82,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.786464968152866e-05,
+      "loss": 0.9616,
+      "step": 3328
+    },
+    {
+      "epoch": 10.0,
+      "eval_bp": 0.22930577411313655,
+      "eval_counts": [
+        768,
+        280,
+        145,
+        80
+      ],
+      "eval_loss": 1.736754298210144,
+      "eval_precisions": [
+        39.93759750390016,
+        17.25200246457178,
+        10.837070254110612,
+        7.428040854224698
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 57.956,
+      "eval_samples_per_second": 5.176,
+      "eval_score": 3.518980787396955,
+      "eval_steps_per_second": 5.176,
+      "eval_sys_len": 1923,
+      "eval_totals": [
+        1923,
+        1623,
+        1338,
+        1077
+      ],
+      "gpu_memory": 2903643648,
+      "step": 3390
+    },
+    {
+      "epoch": 10.19,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.7202229299363055e-05,
+      "loss": 0.9403,
+      "step": 3456
+    },
+    {
+      "epoch": 10.57,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.6539808917197452e-05,
+      "loss": 0.9059,
+      "step": 3584
+    },
+    {
+      "epoch": 10.95,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.5877388535031846e-05,
+      "loss": 0.9249,
+      "step": 3712
+    },
+    {
+      "epoch": 11.0,
+      "eval_bp": 0.1751321349922995,
+      "eval_counts": [
+        748,
+        240,
+        115,
+        63
+      ],
+      "eval_loss": 1.782728672027588,
+      "eval_precisions": [
+        43.13725490196079,
+        16.736401673640167,
+        10.008703220191471,
+        7.11864406779661
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 54.5903,
+      "eval_samples_per_second": 5.495,
+      "eval_score": 2.6374744638290037,
+      "eval_steps_per_second": 5.495,
+      "eval_sys_len": 1734,
+      "eval_totals": [
+        1734,
+        1434,
+        1149,
+        885
+      ],
+      "gpu_memory": 2903643648,
+      "step": 3729
+    },
+    {
+      "epoch": 11.33,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.5214968152866242e-05,
+      "loss": 0.8587,
+      "step": 3840
+    },
+    {
+      "epoch": 11.7,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.4552547770700635e-05,
+      "loss": 0.8739,
+      "step": 3968
+    },
+    {
+      "epoch": 12.0,
+      "eval_bp": 0.1555153512571023,
+      "eval_counts": [
+        739,
+        267,
+        125,
+        60
+      ],
+      "eval_loss": 1.8148356676101685,
+      "eval_precisions": [
+        44.46450060168472,
+        19.60352422907489,
+        11.671335200746965,
+        7.462686567164179
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 53.3032,
+      "eval_samples_per_second": 5.628,
+      "eval_score": 2.581452241674501,
+      "eval_steps_per_second": 5.628,
+      "eval_sys_len": 1662,
+      "eval_totals": [
+        1662,
+        1362,
+        1071,
+        804
+      ],
+      "gpu_memory": 2903643648,
+      "step": 4068
+    },
+    {
+      "epoch": 12.08,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.3890127388535031e-05,
+      "loss": 0.8413,
+      "step": 4096
+    },
+    {
+      "epoch": 12.46,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.3227707006369426e-05,
+      "loss": 0.8195,
+      "step": 4224
+    },
+    {
+      "epoch": 12.84,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.2565286624203822e-05,
+      "loss": 0.823,
+      "step": 4352
+    },
+    {
+      "epoch": 13.0,
+      "eval_bp": 0.2187397058134024,
+      "eval_counts": [
+        843,
+        326,
+        173,
+        91
+      ],
+      "eval_loss": 1.8146471977233887,
+      "eval_precisions": [
+        44.67408585055644,
+        20.5419029615627,
+        13.442113442113442,
+        9.027777777777779
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 55.2439,
+      "eval_samples_per_second": 5.43,
+      "eval_score": 3.995892671984357,
+      "eval_steps_per_second": 5.43,
+      "eval_sys_len": 1887,
+      "eval_totals": [
+        1887,
+        1587,
+        1287,
+        1008
+      ],
+      "gpu_memory": 2903643648,
+      "step": 4407
+    },
+    {
+      "epoch": 13.22,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.1902866242038214e-05,
+      "loss": 0.7992,
+      "step": 4480
+    },
+    {
+      "epoch": 13.59,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.124044585987261e-05,
+      "loss": 0.7702,
+      "step": 4608
+    },
+    {
+      "epoch": 13.97,
+      "gpu_memory": 2903643648,
+      "learning_rate": 1.0578025477707005e-05,
+      "loss": 0.7824,
+      "step": 4736
+    },
+    {
+      "epoch": 14.0,
+      "eval_bp": 0.16524048903893263,
+      "eval_counts": [
+        719,
+        244,
+        108,
+        52
+      ],
+      "eval_loss": 1.8748054504394531,
+      "eval_precisions": [
+        42.34393404004712,
+        17.453505007153076,
+        9.72972972972973,
+        6.081871345029239
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 54.7238,
+      "eval_samples_per_second": 5.482,
+      "eval_score": 2.389568242739576,
+      "eval_steps_per_second": 5.482,
+      "eval_sys_len": 1698,
+      "eval_totals": [
+        1698,
+        1398,
+        1110,
+        855
+      ],
+      "gpu_memory": 2903643648,
+      "step": 4746
+    },
+    {
+      "epoch": 14.35,
+      "gpu_memory": 2903643648,
+      "learning_rate": 9.9156050955414e-06,
+      "loss": 0.7425,
+      "step": 4864
+    },
+    {
+      "epoch": 14.72,
+      "gpu_memory": 2903643648,
+      "learning_rate": 9.253184713375794e-06,
+      "loss": 0.7501,
+      "step": 4992
+    },
+    {
+      "epoch": 15.0,
+      "eval_bp": 0.1953640836862138,
+      "eval_counts": [
+        762,
+        263,
+        131,
+        74
+      ],
+      "eval_loss": 1.9026106595993042,
+      "eval_precisions": [
+        42.19269102990033,
+        17.46347941567065,
+        10.835401157981803,
+        7.781282860147213
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 56.8759,
+      "eval_samples_per_second": 5.275,
+      "eval_score": 3.0843295492719487,
+      "eval_steps_per_second": 5.275,
+      "eval_sys_len": 1806,
+      "eval_totals": [
+        1806,
+        1506,
+        1209,
+        951
+      ],
+      "gpu_memory": 2903643648,
+      "step": 5085
+    },
+    {
+      "epoch": 15.1,
+      "gpu_memory": 2903643648,
+      "learning_rate": 8.59076433121019e-06,
+      "loss": 0.7315,
+      "step": 5120
+    },
+    {
+      "epoch": 15.48,
+      "gpu_memory": 2903643648,
+      "learning_rate": 7.928343949044585e-06,
+      "loss": 0.7011,
+      "step": 5248
+    },
+    {
+      "epoch": 15.86,
+      "gpu_memory": 2903643648,
+      "learning_rate": 7.265923566878981e-06,
+      "loss": 0.7139,
+      "step": 5376
+    },
+    {
+      "epoch": 16.0,
+      "eval_bp": 0.23551335586741148,
+      "eval_counts": [
+        816,
+        277,
+        129,
+        72
+      ],
+      "eval_loss": 1.9286922216415405,
+      "eval_precisions": [
+        41.97530864197531,
+        16.849148418491485,
+        9.57683741648107,
+        6.70391061452514
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 58.3566,
+      "eval_samples_per_second": 5.141,
+      "eval_score": 3.4379225352028846,
+      "eval_steps_per_second": 5.141,
+      "eval_sys_len": 1944,
+      "eval_totals": [
+        1944,
+        1644,
+        1347,
+        1074
+      ],
+      "gpu_memory": 2903643648,
+      "step": 5424
+    },
+    {
+      "epoch": 16.24,
+      "gpu_memory": 2903643648,
+      "learning_rate": 6.6035031847133755e-06,
+      "loss": 0.689,
+      "step": 5504
+    },
+    {
+      "epoch": 16.61,
+      "gpu_memory": 2903643648,
+      "learning_rate": 5.94108280254777e-06,
+      "loss": 0.6788,
+      "step": 5632
+    },
+    {
+      "epoch": 16.99,
+      "gpu_memory": 2903643648,
+      "learning_rate": 5.278662420382165e-06,
+      "loss": 0.7053,
+      "step": 5760
+    },
+    {
+      "epoch": 17.0,
+      "eval_bp": 0.2934278208519596,
+      "eval_counts": [
+        886,
+        340,
+        171,
+        99
+      ],
+      "eval_loss": 1.9354726076126099,
+      "eval_precisions": [
+        41.47940074906367,
+        18.51851851851852,
+        11.089494163424124,
+        7.746478873239437
+      ],
+      "eval_ref_len": 4755,
+      "eval_runtime": 60.6492,
+      "eval_samples_per_second": 4.946,
+      "eval_score": 4.702891790634525,
+      "eval_steps_per_second": 4.946,
+      "eval_sys_len": 2136,
+      "eval_totals": [
+        2136,
+        1836,
+        1542,
+        1278
+      ],
+      "gpu_memory": 2903643648,
+      "step": 5763
+    }
+  ],
+  "max_steps": 6780,
+  "num_train_epochs": 20,
+  "total_flos": 1765580040806400.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e786bd1ef537a382285a95ac7f452a91d1521b490bec8b1018dacd87e6012b0b
+size 2927

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff