michaeljcliao commited on Aug 9

Commit

429eef1

•

1 Parent(s): a288e93

Upload folder using huggingface_hub

Browse files

Files changed (30) hide show

added_tokens.json +15 -0
checkpoint-5058/config.json +192 -0
checkpoint-5058/generation_config.json +8 -0
checkpoint-5058/model.safetensors +3 -0
checkpoint-5058/optimizer.pt +3 -0
checkpoint-5058/rng_state.pth +3 -0
checkpoint-5058/scheduler.pt +3 -0
checkpoint-5058/trainer_state.json +371 -0
checkpoint-5058/training_args.bin +3 -0
checkpoint-5620/config.json +192 -0
checkpoint-5620/generation_config.json +8 -0
checkpoint-5620/model.safetensors +3 -0
checkpoint-5620/optimizer.pt +3 -0
checkpoint-5620/rng_state.pth +3 -0
checkpoint-5620/scheduler.pt +3 -0
checkpoint-5620/trainer_state.json +413 -0
checkpoint-5620/training_args.bin +3 -0
config.json +192 -0
generation_config.json +8 -0
model.safetensors +3 -0
optimizer.pt +3 -0
preprocessor_config.json +26 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +137 -0
tokenizer.json +0 -0
tokenizer_config.json +174 -0
trainer_state.json +413 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "</s_invoice_date>": 57534,
+  "</s_invoice_num>": 57532,
+  "</s_tax>": 57530,
+  "</s_total_price>": 57528,
+  "</s_untaxed_price>": 57526,
+  "<s_iitcdip>": 57523,
+  "<s_invoice_date>": 57533,
+  "<s_invoice_num>": 57531,
+  "<s_synthdog>": 57524,
+  "<s_tax>": 57529,
+  "<s_total_price>": 57527,
+  "<s_untaxed_price>": 57525,
+  "<sep/>": 57522
+}

checkpoint-5058/config.json ADDED Viewed

	@@ -0,0 +1,192 @@

+{
+  "_name_or_path": "naver-clova-ix/donut-base",
+  "architectures": [
+    "VisionEncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "",
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "add_cross_attention": true,
+    "add_final_layer_norm": true,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": 0.0,
+    "cross_attention_hidden_size": null,
+    "d_model": 1024,
+    "decoder_attention_heads": 16,
+    "decoder_ffn_dim": 4096,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 4,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.1,
+    "early_stopping": false,
+    "encoder_attention_heads": 16,
+    "encoder_ffn_dim": 4096,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 12,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": 2,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "init_std": 0.02,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "length_penalty": 1.0,
+    "max_length": 512,
+    "max_position_embeddings": 1536,
+    "min_length": 0,
+    "model_type": "mbart",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "scale_embedding": true,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 57535
+  },
+  "decoder_start_token_id": 0,
+  "encoder": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "depths": [
+      2,
+      2,
+      14,
+      2
+    ],
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "drop_path_rate": 0.1,
+    "early_stopping": false,
+    "embed_dim": 128,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.0,
+    "hidden_size": 1024,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": [
+      550,
+      960
+    ],
+    "initializer_range": 0.02,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "mlp_ratio": 4.0,
+    "model_type": "donut-swin",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_heads": [
+      4,
+      8,
+      16,
+      32
+    ],
+    "num_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 4,
+    "path_norm": true,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "qkv_bias": true,
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_absolute_embeddings": false,
+    "use_bfloat16": false,
+    "window_size": 10
+  },
+  "is_encoder_decoder": true,
+  "model_type": "vision-encoder-decoder",
+  "pad_token_id": 1,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2"
+}

checkpoint-5058/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "forced_eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.38.2"
+}

checkpoint-5058/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46b171d7cab588ece0a814338122fb1c918694d18072991302fd6de0f90449e0
+size 809111704

checkpoint-5058/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e95d868dfb0cec36a090521265ac94d4aabfee385739ecba935eaa21d613456c
+size 1615285631

checkpoint-5058/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8fba72cade8cffe76dc5cc12c2513692607d92f3196acbfe04e32eb2beb048d2
+size 14244

checkpoint-5058/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d8c541e22e3f3813ec817b1732330cb9158ed3827913f5d904ac5f52f593afe
+size 1064

checkpoint-5058/trainer_state.json ADDED Viewed

	@@ -0,0 +1,371 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.0,
+  "eval_steps": 500,
+  "global_step": 5058,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "grad_norm": 48.51668930053711,
+      "learning_rate": 1.98220640569395e-06,
+      "loss": 10.5512,
+      "step": 100
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 33.89441680908203,
+      "learning_rate": 1.9644128113879e-06,
+      "loss": 6.656,
+      "step": 200
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 54.47207260131836,
+      "learning_rate": 1.9466192170818503e-06,
+      "loss": 4.8936,
+      "step": 300
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 37.983856201171875,
+      "learning_rate": 1.9288256227758005e-06,
+      "loss": 3.5277,
+      "step": 400
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 23.24921417236328,
+      "learning_rate": 1.9110320284697506e-06,
+      "loss": 2.8756,
+      "step": 500
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 26.32309913635254,
+      "learning_rate": 1.8932384341637008e-06,
+      "loss": 2.4437,
+      "step": 600
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 154.72117614746094,
+      "learning_rate": 1.8754448398576511e-06,
+      "loss": 2.2582,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 16.39977264404297,
+      "learning_rate": 1.8576512455516013e-06,
+      "loss": 2.2289,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 22.533836364746094,
+      "learning_rate": 1.8398576512455514e-06,
+      "loss": 2.091,
+      "step": 900
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 16.523881912231445,
+      "learning_rate": 1.8220640569395016e-06,
+      "loss": 2.0129,
+      "step": 1000
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 69.78620147705078,
+      "learning_rate": 1.804270462633452e-06,
+      "loss": 1.926,
+      "step": 1100
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 21.385257720947266,
+      "learning_rate": 1.786476868327402e-06,
+      "loss": 1.8193,
+      "step": 1200
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 23.061298370361328,
+      "learning_rate": 1.7686832740213522e-06,
+      "loss": 1.804,
+      "step": 1300
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 21.625669479370117,
+      "learning_rate": 1.7508896797153024e-06,
+      "loss": 1.7568,
+      "step": 1400
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 13.98591136932373,
+      "learning_rate": 1.7330960854092527e-06,
+      "loss": 1.7313,
+      "step": 1500
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 18.47169303894043,
+      "learning_rate": 1.7153024911032029e-06,
+      "loss": 1.733,
+      "step": 1600
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 20.671327590942383,
+      "learning_rate": 1.697508896797153e-06,
+      "loss": 1.698,
+      "step": 1700
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 20.78021812438965,
+      "learning_rate": 1.6797153024911032e-06,
+      "loss": 1.6192,
+      "step": 1800
+    },
+    {
+      "epoch": 3.38,
+      "grad_norm": 35.38755416870117,
+      "learning_rate": 1.6619217081850533e-06,
+      "loss": 1.5752,
+      "step": 1900
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 24.105249404907227,
+      "learning_rate": 1.6441281138790034e-06,
+      "loss": 1.5921,
+      "step": 2000
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 11.530924797058105,
+      "learning_rate": 1.6263345195729536e-06,
+      "loss": 1.5497,
+      "step": 2100
+    },
+    {
+      "epoch": 3.91,
+      "grad_norm": 17.551040649414062,
+      "learning_rate": 1.6085409252669037e-06,
+      "loss": 1.5751,
+      "step": 2200
+    },
+    {
+      "epoch": 4.09,
+      "grad_norm": 22.44804573059082,
+      "learning_rate": 1.590747330960854e-06,
+      "loss": 1.6072,
+      "step": 2300
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 14.482297897338867,
+      "learning_rate": 1.5729537366548042e-06,
+      "loss": 1.552,
+      "step": 2400
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 17.7537899017334,
+      "learning_rate": 1.5551601423487544e-06,
+      "loss": 1.4403,
+      "step": 2500
+    },
+    {
+      "epoch": 4.63,
+      "grad_norm": 23.001920700073242,
+      "learning_rate": 1.5373665480427045e-06,
+      "loss": 1.4955,
+      "step": 2600
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 14.721695899963379,
+      "learning_rate": 1.5195729537366549e-06,
+      "loss": 1.4456,
+      "step": 2700
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 15.371649742126465,
+      "learning_rate": 1.501779359430605e-06,
+      "loss": 1.4303,
+      "step": 2800
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 14.734794616699219,
+      "learning_rate": 1.4839857651245552e-06,
+      "loss": 1.4544,
+      "step": 2900
+    },
+    {
+      "epoch": 5.34,
+      "grad_norm": 13.686590194702148,
+      "learning_rate": 1.4661921708185053e-06,
+      "loss": 1.401,
+      "step": 3000
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 18.93415641784668,
+      "learning_rate": 1.4483985765124555e-06,
+      "loss": 1.4612,
+      "step": 3100
+    },
+    {
+      "epoch": 5.69,
+      "grad_norm": 9.70661735534668,
+      "learning_rate": 1.4306049822064056e-06,
+      "loss": 1.3558,
+      "step": 3200
+    },
+    {
+      "epoch": 5.87,
+      "grad_norm": 16.12574577331543,
+      "learning_rate": 1.4128113879003557e-06,
+      "loss": 1.3686,
+      "step": 3300
+    },
+    {
+      "epoch": 6.05,
+      "grad_norm": 29.739870071411133,
+      "learning_rate": 1.3950177935943059e-06,
+      "loss": 1.3703,
+      "step": 3400
+    },
+    {
+      "epoch": 6.23,
+      "grad_norm": 22.152677536010742,
+      "learning_rate": 1.377224199288256e-06,
+      "loss": 1.2662,
+      "step": 3500
+    },
+    {
+      "epoch": 6.41,
+      "grad_norm": 24.051326751708984,
+      "learning_rate": 1.3594306049822064e-06,
+      "loss": 1.35,
+      "step": 3600
+    },
+    {
+      "epoch": 6.58,
+      "grad_norm": 11.552955627441406,
+      "learning_rate": 1.3416370106761565e-06,
+      "loss": 1.3592,
+      "step": 3700
+    },
+    {
+      "epoch": 6.76,
+      "grad_norm": 16.08234977722168,
+      "learning_rate": 1.3238434163701067e-06,
+      "loss": 1.3566,
+      "step": 3800
+    },
+    {
+      "epoch": 6.94,
+      "grad_norm": 14.58088493347168,
+      "learning_rate": 1.3060498220640568e-06,
+      "loss": 1.3257,
+      "step": 3900
+    },
+    {
+      "epoch": 7.12,
+      "grad_norm": 12.278518676757812,
+      "learning_rate": 1.2882562277580072e-06,
+      "loss": 1.3254,
+      "step": 4000
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 17.330495834350586,
+      "learning_rate": 1.2704626334519573e-06,
+      "loss": 1.2095,
+      "step": 4100
+    },
+    {
+      "epoch": 7.47,
+      "grad_norm": 13.842063903808594,
+      "learning_rate": 1.2526690391459075e-06,
+      "loss": 1.3475,
+      "step": 4200
+    },
+    {
+      "epoch": 7.65,
+      "grad_norm": 13.967167854309082,
+      "learning_rate": 1.2348754448398574e-06,
+      "loss": 1.2757,
+      "step": 4300
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 18.25010871887207,
+      "learning_rate": 1.2170818505338078e-06,
+      "loss": 1.2795,
+      "step": 4400
+    },
+    {
+      "epoch": 8.01,
+      "grad_norm": 11.46198558807373,
+      "learning_rate": 1.199288256227758e-06,
+      "loss": 1.2648,
+      "step": 4500
+    },
+    {
+      "epoch": 8.19,
+      "grad_norm": 18.330867767333984,
+      "learning_rate": 1.181494661921708e-06,
+      "loss": 1.2345,
+      "step": 4600
+    },
+    {
+      "epoch": 8.36,
+      "grad_norm": 27.236454010009766,
+      "learning_rate": 1.1637010676156582e-06,
+      "loss": 1.2998,
+      "step": 4700
+    },
+    {
+      "epoch": 8.54,
+      "grad_norm": 15.08573055267334,
+      "learning_rate": 1.1459074733096086e-06,
+      "loss": 1.2578,
+      "step": 4800
+    },
+    {
+      "epoch": 8.72,
+      "grad_norm": 15.639131546020508,
+      "learning_rate": 1.1281138790035587e-06,
+      "loss": 1.2062,
+      "step": 4900
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 22.758560180664062,
+      "learning_rate": 1.1103202846975088e-06,
+      "loss": 1.2305,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 11240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 1.3591805503085568e+19,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5058/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22da3339874e661b72481662e90c368b4085b9b260c4cb2ef0544e160b44b549
+size 5048

checkpoint-5620/config.json ADDED Viewed

	@@ -0,0 +1,192 @@

+{
+  "_name_or_path": "naver-clova-ix/donut-base",
+  "architectures": [
+    "VisionEncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "",
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "add_cross_attention": true,
+    "add_final_layer_norm": true,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": 0.0,
+    "cross_attention_hidden_size": null,
+    "d_model": 1024,
+    "decoder_attention_heads": 16,
+    "decoder_ffn_dim": 4096,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 4,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.1,
+    "early_stopping": false,
+    "encoder_attention_heads": 16,
+    "encoder_ffn_dim": 4096,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 12,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": 2,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "init_std": 0.02,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "length_penalty": 1.0,
+    "max_length": 512,
+    "max_position_embeddings": 1536,
+    "min_length": 0,
+    "model_type": "mbart",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "scale_embedding": true,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 57535
+  },
+  "decoder_start_token_id": 0,
+  "encoder": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "depths": [
+      2,
+      2,
+      14,
+      2
+    ],
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "drop_path_rate": 0.1,
+    "early_stopping": false,
+    "embed_dim": 128,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.0,
+    "hidden_size": 1024,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": [
+      550,
+      960
+    ],
+    "initializer_range": 0.02,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "mlp_ratio": 4.0,
+    "model_type": "donut-swin",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_heads": [
+      4,
+      8,
+      16,
+      32
+    ],
+    "num_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 4,
+    "path_norm": true,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "qkv_bias": true,
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_absolute_embeddings": false,
+    "use_bfloat16": false,
+    "window_size": 10
+  },
+  "is_encoder_decoder": true,
+  "model_type": "vision-encoder-decoder",
+  "pad_token_id": 1,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2"
+}

checkpoint-5620/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "forced_eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.38.2"
+}

checkpoint-5620/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c53d94c63a7306a429aa181421e8eedf075a047f585561bd25dbf9b5bc5bc88
+size 809111704

checkpoint-5620/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f65debd166f8685e1a8bc5ff1e3862653f2d56190eb653faf2c04f881eb1489d
+size 1615285631

checkpoint-5620/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b15614d912a2b89c617584e8ec932228eb5c10c981726a18e255e380282d2f6
+size 14244

checkpoint-5620/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6323a4a11036359a80107f6079ec08f6fd864b58d3a71938d832f444b4f7ac00
+size 1064

checkpoint-5620/trainer_state.json ADDED Viewed

	@@ -0,0 +1,413 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 5620,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "grad_norm": 48.51668930053711,
+      "learning_rate": 1.98220640569395e-06,
+      "loss": 10.5512,
+      "step": 100
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 33.89441680908203,
+      "learning_rate": 1.9644128113879e-06,
+      "loss": 6.656,
+      "step": 200
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 54.47207260131836,
+      "learning_rate": 1.9466192170818503e-06,
+      "loss": 4.8936,
+      "step": 300
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 37.983856201171875,
+      "learning_rate": 1.9288256227758005e-06,
+      "loss": 3.5277,
+      "step": 400
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 23.24921417236328,
+      "learning_rate": 1.9110320284697506e-06,
+      "loss": 2.8756,
+      "step": 500
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 26.32309913635254,
+      "learning_rate": 1.8932384341637008e-06,
+      "loss": 2.4437,
+      "step": 600
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 154.72117614746094,
+      "learning_rate": 1.8754448398576511e-06,
+      "loss": 2.2582,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 16.39977264404297,
+      "learning_rate": 1.8576512455516013e-06,
+      "loss": 2.2289,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 22.533836364746094,
+      "learning_rate": 1.8398576512455514e-06,
+      "loss": 2.091,
+      "step": 900
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 16.523881912231445,
+      "learning_rate": 1.8220640569395016e-06,
+      "loss": 2.0129,
+      "step": 1000
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 69.78620147705078,
+      "learning_rate": 1.804270462633452e-06,
+      "loss": 1.926,
+      "step": 1100
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 21.385257720947266,
+      "learning_rate": 1.786476868327402e-06,
+      "loss": 1.8193,
+      "step": 1200
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 23.061298370361328,
+      "learning_rate": 1.7686832740213522e-06,
+      "loss": 1.804,
+      "step": 1300
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 21.625669479370117,
+      "learning_rate": 1.7508896797153024e-06,
+      "loss": 1.7568,
+      "step": 1400
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 13.98591136932373,
+      "learning_rate": 1.7330960854092527e-06,
+      "loss": 1.7313,
+      "step": 1500
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 18.47169303894043,
+      "learning_rate": 1.7153024911032029e-06,
+      "loss": 1.733,
+      "step": 1600
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 20.671327590942383,
+      "learning_rate": 1.697508896797153e-06,
+      "loss": 1.698,
+      "step": 1700
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 20.78021812438965,
+      "learning_rate": 1.6797153024911032e-06,
+      "loss": 1.6192,
+      "step": 1800
+    },
+    {
+      "epoch": 3.38,
+      "grad_norm": 35.38755416870117,
+      "learning_rate": 1.6619217081850533e-06,
+      "loss": 1.5752,
+      "step": 1900
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 24.105249404907227,
+      "learning_rate": 1.6441281138790034e-06,
+      "loss": 1.5921,
+      "step": 2000
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 11.530924797058105,
+      "learning_rate": 1.6263345195729536e-06,
+      "loss": 1.5497,
+      "step": 2100
+    },
+    {
+      "epoch": 3.91,
+      "grad_norm": 17.551040649414062,
+      "learning_rate": 1.6085409252669037e-06,
+      "loss": 1.5751,
+      "step": 2200
+    },
+    {
+      "epoch": 4.09,
+      "grad_norm": 22.44804573059082,
+      "learning_rate": 1.590747330960854e-06,
+      "loss": 1.6072,
+      "step": 2300
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 14.482297897338867,
+      "learning_rate": 1.5729537366548042e-06,
+      "loss": 1.552,
+      "step": 2400
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 17.7537899017334,
+      "learning_rate": 1.5551601423487544e-06,
+      "loss": 1.4403,
+      "step": 2500
+    },
+    {
+      "epoch": 4.63,
+      "grad_norm": 23.001920700073242,
+      "learning_rate": 1.5373665480427045e-06,
+      "loss": 1.4955,
+      "step": 2600
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 14.721695899963379,
+      "learning_rate": 1.5195729537366549e-06,
+      "loss": 1.4456,
+      "step": 2700
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 15.371649742126465,
+      "learning_rate": 1.501779359430605e-06,
+      "loss": 1.4303,
+      "step": 2800
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 14.734794616699219,
+      "learning_rate": 1.4839857651245552e-06,
+      "loss": 1.4544,
+      "step": 2900
+    },
+    {
+      "epoch": 5.34,
+      "grad_norm": 13.686590194702148,
+      "learning_rate": 1.4661921708185053e-06,
+      "loss": 1.401,
+      "step": 3000
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 18.93415641784668,
+      "learning_rate": 1.4483985765124555e-06,
+      "loss": 1.4612,
+      "step": 3100
+    },
+    {
+      "epoch": 5.69,
+      "grad_norm": 9.70661735534668,
+      "learning_rate": 1.4306049822064056e-06,
+      "loss": 1.3558,
+      "step": 3200
+    },
+    {
+      "epoch": 5.87,
+      "grad_norm": 16.12574577331543,
+      "learning_rate": 1.4128113879003557e-06,
+      "loss": 1.3686,
+      "step": 3300
+    },
+    {
+      "epoch": 6.05,
+      "grad_norm": 29.739870071411133,
+      "learning_rate": 1.3950177935943059e-06,
+      "loss": 1.3703,
+      "step": 3400
+    },
+    {
+      "epoch": 6.23,
+      "grad_norm": 22.152677536010742,
+      "learning_rate": 1.377224199288256e-06,
+      "loss": 1.2662,
+      "step": 3500
+    },
+    {
+      "epoch": 6.41,
+      "grad_norm": 24.051326751708984,
+      "learning_rate": 1.3594306049822064e-06,
+      "loss": 1.35,
+      "step": 3600
+    },
+    {
+      "epoch": 6.58,
+      "grad_norm": 11.552955627441406,
+      "learning_rate": 1.3416370106761565e-06,
+      "loss": 1.3592,
+      "step": 3700
+    },
+    {
+      "epoch": 6.76,
+      "grad_norm": 16.08234977722168,
+      "learning_rate": 1.3238434163701067e-06,
+      "loss": 1.3566,
+      "step": 3800
+    },
+    {
+      "epoch": 6.94,
+      "grad_norm": 14.58088493347168,
+      "learning_rate": 1.3060498220640568e-06,
+      "loss": 1.3257,
+      "step": 3900
+    },
+    {
+      "epoch": 7.12,
+      "grad_norm": 12.278518676757812,
+      "learning_rate": 1.2882562277580072e-06,
+      "loss": 1.3254,
+      "step": 4000
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 17.330495834350586,
+      "learning_rate": 1.2704626334519573e-06,
+      "loss": 1.2095,
+      "step": 4100
+    },
+    {
+      "epoch": 7.47,
+      "grad_norm": 13.842063903808594,
+      "learning_rate": 1.2526690391459075e-06,
+      "loss": 1.3475,
+      "step": 4200
+    },
+    {
+      "epoch": 7.65,
+      "grad_norm": 13.967167854309082,
+      "learning_rate": 1.2348754448398574e-06,
+      "loss": 1.2757,
+      "step": 4300
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 18.25010871887207,
+      "learning_rate": 1.2170818505338078e-06,
+      "loss": 1.2795,
+      "step": 4400
+    },
+    {
+      "epoch": 8.01,
+      "grad_norm": 11.46198558807373,
+      "learning_rate": 1.199288256227758e-06,
+      "loss": 1.2648,
+      "step": 4500
+    },
+    {
+      "epoch": 8.19,
+      "grad_norm": 18.330867767333984,
+      "learning_rate": 1.181494661921708e-06,
+      "loss": 1.2345,
+      "step": 4600
+    },
+    {
+      "epoch": 8.36,
+      "grad_norm": 27.236454010009766,
+      "learning_rate": 1.1637010676156582e-06,
+      "loss": 1.2998,
+      "step": 4700
+    },
+    {
+      "epoch": 8.54,
+      "grad_norm": 15.08573055267334,
+      "learning_rate": 1.1459074733096086e-06,
+      "loss": 1.2578,
+      "step": 4800
+    },
+    {
+      "epoch": 8.72,
+      "grad_norm": 15.639131546020508,
+      "learning_rate": 1.1281138790035587e-06,
+      "loss": 1.2062,
+      "step": 4900
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 22.758560180664062,
+      "learning_rate": 1.1103202846975088e-06,
+      "loss": 1.2305,
+      "step": 5000
+    },
+    {
+      "epoch": 9.07,
+      "grad_norm": 11.382159233093262,
+      "learning_rate": 1.092526690391459e-06,
+      "loss": 1.2236,
+      "step": 5100
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 14.228442192077637,
+      "learning_rate": 1.0747330960854093e-06,
+      "loss": 1.1871,
+      "step": 5200
+    },
+    {
+      "epoch": 9.43,
+      "grad_norm": 16.07115936279297,
+      "learning_rate": 1.0569395017793595e-06,
+      "loss": 1.2286,
+      "step": 5300
+    },
+    {
+      "epoch": 9.61,
+      "grad_norm": 12.73045539855957,
+      "learning_rate": 1.0391459074733096e-06,
+      "loss": 1.2837,
+      "step": 5400
+    },
+    {
+      "epoch": 9.79,
+      "grad_norm": 19.55732536315918,
+      "learning_rate": 1.0213523131672596e-06,
+      "loss": 1.1911,
+      "step": 5500
+    },
+    {
+      "epoch": 9.96,
+      "grad_norm": 13.422231674194336,
+      "learning_rate": 1.00355871886121e-06,
+      "loss": 1.1532,
+      "step": 5600
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 11240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 1.510200611453952e+19,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-5620/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22da3339874e661b72481662e90c368b4085b9b260c4cb2ef0544e160b44b549
+size 5048

config.json ADDED Viewed

	@@ -0,0 +1,192 @@

+{
+  "_name_or_path": "naver-clova-ix/donut-base",
+  "architectures": [
+    "VisionEncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "",
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "add_cross_attention": true,
+    "add_final_layer_norm": true,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": 0.0,
+    "cross_attention_hidden_size": null,
+    "d_model": 1024,
+    "decoder_attention_heads": 16,
+    "decoder_ffn_dim": 4096,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 4,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.1,
+    "early_stopping": false,
+    "encoder_attention_heads": 16,
+    "encoder_ffn_dim": 4096,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 12,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": 2,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "init_std": 0.02,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "length_penalty": 1.0,
+    "max_length": 512,
+    "max_position_embeddings": 1536,
+    "min_length": 0,
+    "model_type": "mbart",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "scale_embedding": true,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 57535
+  },
+  "decoder_start_token_id": 0,
+  "encoder": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_probs_dropout_prob": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "depths": [
+      2,
+      2,
+      14,
+      2
+    ],
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "drop_path_rate": 0.1,
+    "early_stopping": false,
+    "embed_dim": 128,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.0,
+    "hidden_size": 1024,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": [
+      550,
+      960
+    ],
+    "initializer_range": 0.02,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "mlp_ratio": 4.0,
+    "model_type": "donut-swin",
+    "no_repeat_ngram_size": 0,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_heads": [
+      4,
+      8,
+      16,
+      32
+    ],
+    "num_layers": 4,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 4,
+    "path_norm": true,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "qkv_bias": true,
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "typical_p": 1.0,
+    "use_absolute_embeddings": false,
+    "use_bfloat16": false,
+    "window_size": 10
+  },
+  "is_encoder_decoder": true,
+  "model_type": "vision-encoder-decoder",
+  "pad_token_id": 1,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "forced_eos_token_id": 2,
+  "pad_token_id": 1,
+  "transformers_version": "4.38.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c53d94c63a7306a429aa181421e8eedf075a047f585561bd25dbf9b5bc5bc88
+size 809111704

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f65debd166f8685e1a8bc5ff1e3862653f2d56190eb653faf2c04f881eb1489d
+size 1615285631

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "do_align_long_axis": false,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_thumbnail": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "DonutImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "processor_class": "DonutProcessor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": [
+    960,
+    550
+  ]
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b15614d912a2b89c617584e8ec932228eb5c10c981726a18e255e380282d2f6
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6323a4a11036359a80107f6079ec08f6fd864b58d3a71938d832f444b4f7ac00
+size 1064

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb9e3dce4c326195d08fc3dd0f7e2eee1da8595c847bf4c1a9c78b7a82d47e2d
+size 1296245

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,137 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<s_untaxed_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s_untaxed_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s_total_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s_total_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s_tax>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s_tax>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s_invoice_num>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s_invoice_num>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s_invoice_date>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s_invoice_date>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,174 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57521": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57522": {
+      "content": "<sep/>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "57523": {
+      "content": "<s_iitcdip>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57524": {
+      "content": "<s_synthdog>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57525": {
+      "content": "<s_untaxed_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57526": {
+      "content": "</s_untaxed_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57527": {
+      "content": "<s_total_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57528": {
+      "content": "</s_total_price>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57529": {
+      "content": "<s_tax>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57530": {
+      "content": "</s_tax>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57531": {
+      "content": "<s_invoice_num>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57532": {
+      "content": "</s_invoice_num>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57533": {
+      "content": "<s_invoice_date>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "57534": {
+      "content": "</s_invoice_date>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<s_untaxed_price>",
+    "</s_untaxed_price>",
+    "<s_total_price>",
+    "</s_total_price>",
+    "<s_tax>",
+    "</s_tax>",
+    "<s_invoice_num>",
+    "</s_invoice_num>",
+    "<s_invoice_date>",
+    "</s_invoice_date>",
+    "<s>",
+    "</s>"
+  ],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "processor_class": "DonutProcessor",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,413 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 5620,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "grad_norm": 48.51668930053711,
+      "learning_rate": 1.98220640569395e-06,
+      "loss": 10.5512,
+      "step": 100
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 33.89441680908203,
+      "learning_rate": 1.9644128113879e-06,
+      "loss": 6.656,
+      "step": 200
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 54.47207260131836,
+      "learning_rate": 1.9466192170818503e-06,
+      "loss": 4.8936,
+      "step": 300
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 37.983856201171875,
+      "learning_rate": 1.9288256227758005e-06,
+      "loss": 3.5277,
+      "step": 400
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 23.24921417236328,
+      "learning_rate": 1.9110320284697506e-06,
+      "loss": 2.8756,
+      "step": 500
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 26.32309913635254,
+      "learning_rate": 1.8932384341637008e-06,
+      "loss": 2.4437,
+      "step": 600
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 154.72117614746094,
+      "learning_rate": 1.8754448398576511e-06,
+      "loss": 2.2582,
+      "step": 700
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 16.39977264404297,
+      "learning_rate": 1.8576512455516013e-06,
+      "loss": 2.2289,
+      "step": 800
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 22.533836364746094,
+      "learning_rate": 1.8398576512455514e-06,
+      "loss": 2.091,
+      "step": 900
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 16.523881912231445,
+      "learning_rate": 1.8220640569395016e-06,
+      "loss": 2.0129,
+      "step": 1000
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 69.78620147705078,
+      "learning_rate": 1.804270462633452e-06,
+      "loss": 1.926,
+      "step": 1100
+    },
+    {
+      "epoch": 2.14,
+      "grad_norm": 21.385257720947266,
+      "learning_rate": 1.786476868327402e-06,
+      "loss": 1.8193,
+      "step": 1200
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 23.061298370361328,
+      "learning_rate": 1.7686832740213522e-06,
+      "loss": 1.804,
+      "step": 1300
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 21.625669479370117,
+      "learning_rate": 1.7508896797153024e-06,
+      "loss": 1.7568,
+      "step": 1400
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 13.98591136932373,
+      "learning_rate": 1.7330960854092527e-06,
+      "loss": 1.7313,
+      "step": 1500
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 18.47169303894043,
+      "learning_rate": 1.7153024911032029e-06,
+      "loss": 1.733,
+      "step": 1600
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 20.671327590942383,
+      "learning_rate": 1.697508896797153e-06,
+      "loss": 1.698,
+      "step": 1700
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 20.78021812438965,
+      "learning_rate": 1.6797153024911032e-06,
+      "loss": 1.6192,
+      "step": 1800
+    },
+    {
+      "epoch": 3.38,
+      "grad_norm": 35.38755416870117,
+      "learning_rate": 1.6619217081850533e-06,
+      "loss": 1.5752,
+      "step": 1900
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 24.105249404907227,
+      "learning_rate": 1.6441281138790034e-06,
+      "loss": 1.5921,
+      "step": 2000
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 11.530924797058105,
+      "learning_rate": 1.6263345195729536e-06,
+      "loss": 1.5497,
+      "step": 2100
+    },
+    {
+      "epoch": 3.91,
+      "grad_norm": 17.551040649414062,
+      "learning_rate": 1.6085409252669037e-06,
+      "loss": 1.5751,
+      "step": 2200
+    },
+    {
+      "epoch": 4.09,
+      "grad_norm": 22.44804573059082,
+      "learning_rate": 1.590747330960854e-06,
+      "loss": 1.6072,
+      "step": 2300
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 14.482297897338867,
+      "learning_rate": 1.5729537366548042e-06,
+      "loss": 1.552,
+      "step": 2400
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 17.7537899017334,
+      "learning_rate": 1.5551601423487544e-06,
+      "loss": 1.4403,
+      "step": 2500
+    },
+    {
+      "epoch": 4.63,
+      "grad_norm": 23.001920700073242,
+      "learning_rate": 1.5373665480427045e-06,
+      "loss": 1.4955,
+      "step": 2600
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 14.721695899963379,
+      "learning_rate": 1.5195729537366549e-06,
+      "loss": 1.4456,
+      "step": 2700
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 15.371649742126465,
+      "learning_rate": 1.501779359430605e-06,
+      "loss": 1.4303,
+      "step": 2800
+    },
+    {
+      "epoch": 5.16,
+      "grad_norm": 14.734794616699219,
+      "learning_rate": 1.4839857651245552e-06,
+      "loss": 1.4544,
+      "step": 2900
+    },
+    {
+      "epoch": 5.34,
+      "grad_norm": 13.686590194702148,
+      "learning_rate": 1.4661921708185053e-06,
+      "loss": 1.401,
+      "step": 3000
+    },
+    {
+      "epoch": 5.52,
+      "grad_norm": 18.93415641784668,
+      "learning_rate": 1.4483985765124555e-06,
+      "loss": 1.4612,
+      "step": 3100
+    },
+    {
+      "epoch": 5.69,
+      "grad_norm": 9.70661735534668,
+      "learning_rate": 1.4306049822064056e-06,
+      "loss": 1.3558,
+      "step": 3200
+    },
+    {
+      "epoch": 5.87,
+      "grad_norm": 16.12574577331543,
+      "learning_rate": 1.4128113879003557e-06,
+      "loss": 1.3686,
+      "step": 3300
+    },
+    {
+      "epoch": 6.05,
+      "grad_norm": 29.739870071411133,
+      "learning_rate": 1.3950177935943059e-06,
+      "loss": 1.3703,
+      "step": 3400
+    },
+    {
+      "epoch": 6.23,
+      "grad_norm": 22.152677536010742,
+      "learning_rate": 1.377224199288256e-06,
+      "loss": 1.2662,
+      "step": 3500
+    },
+    {
+      "epoch": 6.41,
+      "grad_norm": 24.051326751708984,
+      "learning_rate": 1.3594306049822064e-06,
+      "loss": 1.35,
+      "step": 3600
+    },
+    {
+      "epoch": 6.58,
+      "grad_norm": 11.552955627441406,
+      "learning_rate": 1.3416370106761565e-06,
+      "loss": 1.3592,
+      "step": 3700
+    },
+    {
+      "epoch": 6.76,
+      "grad_norm": 16.08234977722168,
+      "learning_rate": 1.3238434163701067e-06,
+      "loss": 1.3566,
+      "step": 3800
+    },
+    {
+      "epoch": 6.94,
+      "grad_norm": 14.58088493347168,
+      "learning_rate": 1.3060498220640568e-06,
+      "loss": 1.3257,
+      "step": 3900
+    },
+    {
+      "epoch": 7.12,
+      "grad_norm": 12.278518676757812,
+      "learning_rate": 1.2882562277580072e-06,
+      "loss": 1.3254,
+      "step": 4000
+    },
+    {
+      "epoch": 7.3,
+      "grad_norm": 17.330495834350586,
+      "learning_rate": 1.2704626334519573e-06,
+      "loss": 1.2095,
+      "step": 4100
+    },
+    {
+      "epoch": 7.47,
+      "grad_norm": 13.842063903808594,
+      "learning_rate": 1.2526690391459075e-06,
+      "loss": 1.3475,
+      "step": 4200
+    },
+    {
+      "epoch": 7.65,
+      "grad_norm": 13.967167854309082,
+      "learning_rate": 1.2348754448398574e-06,
+      "loss": 1.2757,
+      "step": 4300
+    },
+    {
+      "epoch": 7.83,
+      "grad_norm": 18.25010871887207,
+      "learning_rate": 1.2170818505338078e-06,
+      "loss": 1.2795,
+      "step": 4400
+    },
+    {
+      "epoch": 8.01,
+      "grad_norm": 11.46198558807373,
+      "learning_rate": 1.199288256227758e-06,
+      "loss": 1.2648,
+      "step": 4500
+    },
+    {
+      "epoch": 8.19,
+      "grad_norm": 18.330867767333984,
+      "learning_rate": 1.181494661921708e-06,
+      "loss": 1.2345,
+      "step": 4600
+    },
+    {
+      "epoch": 8.36,
+      "grad_norm": 27.236454010009766,
+      "learning_rate": 1.1637010676156582e-06,
+      "loss": 1.2998,
+      "step": 4700
+    },
+    {
+      "epoch": 8.54,
+      "grad_norm": 15.08573055267334,
+      "learning_rate": 1.1459074733096086e-06,
+      "loss": 1.2578,
+      "step": 4800
+    },
+    {
+      "epoch": 8.72,
+      "grad_norm": 15.639131546020508,
+      "learning_rate": 1.1281138790035587e-06,
+      "loss": 1.2062,
+      "step": 4900
+    },
+    {
+      "epoch": 8.9,
+      "grad_norm": 22.758560180664062,
+      "learning_rate": 1.1103202846975088e-06,
+      "loss": 1.2305,
+      "step": 5000
+    },
+    {
+      "epoch": 9.07,
+      "grad_norm": 11.382159233093262,
+      "learning_rate": 1.092526690391459e-06,
+      "loss": 1.2236,
+      "step": 5100
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 14.228442192077637,
+      "learning_rate": 1.0747330960854093e-06,
+      "loss": 1.1871,
+      "step": 5200
+    },
+    {
+      "epoch": 9.43,
+      "grad_norm": 16.07115936279297,
+      "learning_rate": 1.0569395017793595e-06,
+      "loss": 1.2286,
+      "step": 5300
+    },
+    {
+      "epoch": 9.61,
+      "grad_norm": 12.73045539855957,
+      "learning_rate": 1.0391459074733096e-06,
+      "loss": 1.2837,
+      "step": 5400
+    },
+    {
+      "epoch": 9.79,
+      "grad_norm": 19.55732536315918,
+      "learning_rate": 1.0213523131672596e-06,
+      "loss": 1.1911,
+      "step": 5500
+    },
+    {
+      "epoch": 9.96,
+      "grad_norm": 13.422231674194336,
+      "learning_rate": 1.00355871886121e-06,
+      "loss": 1.1532,
+      "step": 5600
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 11240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 1.510200611453952e+19,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22da3339874e661b72481662e90c368b4085b9b260c4cb2ef0544e160b44b549
+size 5048