Upload folder using huggingface_hub

9e0bd9b about 1 year ago

25 kB

	2023-10-06 23:58:06,919 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,920 Model: "SequenceTagger(
	(embeddings): ByT5Embeddings(
	(model): T5EncoderModel(
	(shared): Embedding(384, 1472)
	(encoder): T5Stack(
	(embed_tokens): Embedding(384, 1472)
	(block): ModuleList(
	(0): T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	(relative_attention_bias): Embedding(32, 6)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(1-11): 11 x T5Block(
	(layer): ModuleList(
	(0): T5LayerSelfAttention(
	(SelfAttention): T5Attention(
	(q): Linear(in_features=1472, out_features=384, bias=False)
	(k): Linear(in_features=1472, out_features=384, bias=False)
	(v): Linear(in_features=1472, out_features=384, bias=False)
	(o): Linear(in_features=384, out_features=1472, bias=False)
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	(1): T5LayerFF(
	(DenseReluDense): T5DenseGatedActDense(
	(wi_0): Linear(in_features=1472, out_features=3584, bias=False)
	(wi_1): Linear(in_features=1472, out_features=3584, bias=False)
	(wo): Linear(in_features=3584, out_features=1472, bias=False)
	(dropout): Dropout(p=0.1, inplace=False)
	(act): NewGELUActivation()
	)
	(layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	)
	(final_layer_norm): T5LayerNorm()
	(dropout): Dropout(p=0.1, inplace=False)
	)
	)
	)
	(locked_dropout): LockedDropout(p=0.5)
	(linear): Linear(in_features=1472, out_features=25, bias=True)
	(loss_function): CrossEntropyLoss()
	)"
	2023-10-06 23:58:06,920 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,921 MultiCorpus: 1100 train + 206 dev + 240 test sentences
	- NER_HIPE_2022 Corpus: 1100 train + 206 dev + 240 test sentences - /app/.flair/datasets/ner_hipe_2022/v2.1/ajmc/de/with_doc_seperator
	2023-10-06 23:58:06,921 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,921 Train: 1100 sentences
	2023-10-06 23:58:06,921 (train_with_dev=False, train_with_test=False)
	2023-10-06 23:58:06,921 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,921 Training Params:
	2023-10-06 23:58:06,921 - learning_rate: "0.00015"
	2023-10-06 23:58:06,921 - mini_batch_size: "8"
	2023-10-06 23:58:06,921 - max_epochs: "10"
	2023-10-06 23:58:06,921 - shuffle: "True"
	2023-10-06 23:58:06,921 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,921 Plugins:
	2023-10-06 23:58:06,921 - TensorboardLogger
	2023-10-06 23:58:06,921 - LinearScheduler \| warmup_fraction: '0.1'
	2023-10-06 23:58:06,921 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,921 Final evaluation on model from best epoch (best-model.pt)
	2023-10-06 23:58:06,921 - metric: "('micro avg', 'f1-score')"
	2023-10-06 23:58:06,921 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,922 Computation:
	2023-10-06 23:58:06,922 - compute on device: cuda:0
	2023-10-06 23:58:06,922 - embedding storage: none
	2023-10-06 23:58:06,922 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,922 Model training base path: "hmbench-ajmc/de-hmbyt5-preliminary/byt5-small-historic-multilingual-span20-flax-bs8-wsFalse-e10-lr0.00015-poolingfirst-layers-1-crfFalse-3"
	2023-10-06 23:58:06,922 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,922 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:58:06,922 Logging anything other than scalars to TensorBoard is currently not supported.
	2023-10-06 23:58:15,893 epoch 1 - iter 13/138 - loss 3.20997788 - time (sec): 8.97 - samples/sec: 233.78 - lr: 0.000013 - momentum: 0.000000
	2023-10-06 23:58:25,648 epoch 1 - iter 26/138 - loss 3.20472144 - time (sec): 18.73 - samples/sec: 230.97 - lr: 0.000027 - momentum: 0.000000
	2023-10-06 23:58:36,233 epoch 1 - iter 39/138 - loss 3.19531578 - time (sec): 29.31 - samples/sec: 227.67 - lr: 0.000041 - momentum: 0.000000
	2023-10-06 23:58:46,204 epoch 1 - iter 52/138 - loss 3.18014802 - time (sec): 39.28 - samples/sec: 225.73 - lr: 0.000055 - momentum: 0.000000
	2023-10-06 23:58:56,396 epoch 1 - iter 65/138 - loss 3.15473401 - time (sec): 49.47 - samples/sec: 225.56 - lr: 0.000070 - momentum: 0.000000
	2023-10-06 23:59:06,168 epoch 1 - iter 78/138 - loss 3.11326509 - time (sec): 59.24 - samples/sec: 224.98 - lr: 0.000084 - momentum: 0.000000
	2023-10-06 23:59:15,689 epoch 1 - iter 91/138 - loss 3.05704736 - time (sec): 68.77 - samples/sec: 223.51 - lr: 0.000098 - momentum: 0.000000
	2023-10-06 23:59:24,872 epoch 1 - iter 104/138 - loss 2.99443199 - time (sec): 77.95 - samples/sec: 223.03 - lr: 0.000112 - momentum: 0.000000
	2023-10-06 23:59:34,511 epoch 1 - iter 117/138 - loss 2.92376879 - time (sec): 87.59 - samples/sec: 223.33 - lr: 0.000126 - momentum: 0.000000
	2023-10-06 23:59:43,645 epoch 1 - iter 130/138 - loss 2.85131873 - time (sec): 96.72 - samples/sec: 222.46 - lr: 0.000140 - momentum: 0.000000
	2023-10-06 23:59:49,432 ----------------------------------------------------------------------------------------------------
	2023-10-06 23:59:49,432 EPOCH 1 done: loss 2.8007 - lr: 0.000140
	2023-10-06 23:59:56,007 DEV : loss 1.8414502143859863 - f1-score (micro avg) 0.0
	2023-10-06 23:59:56,013 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:00:05,813 epoch 2 - iter 13/138 - loss 1.74796308 - time (sec): 9.80 - samples/sec: 234.10 - lr: 0.000149 - momentum: 0.000000
	2023-10-07 00:00:15,904 epoch 2 - iter 26/138 - loss 1.69062196 - time (sec): 19.89 - samples/sec: 229.01 - lr: 0.000147 - momentum: 0.000000
	2023-10-07 00:00:25,731 epoch 2 - iter 39/138 - loss 1.58228938 - time (sec): 29.72 - samples/sec: 224.52 - lr: 0.000145 - momentum: 0.000000
	2023-10-07 00:00:35,837 epoch 2 - iter 52/138 - loss 1.50218282 - time (sec): 39.82 - samples/sec: 225.80 - lr: 0.000144 - momentum: 0.000000
	2023-10-07 00:00:45,485 epoch 2 - iter 65/138 - loss 1.43555808 - time (sec): 49.47 - samples/sec: 225.32 - lr: 0.000142 - momentum: 0.000000
	2023-10-07 00:00:55,154 epoch 2 - iter 78/138 - loss 1.36493618 - time (sec): 59.14 - samples/sec: 224.58 - lr: 0.000141 - momentum: 0.000000
	2023-10-07 00:01:04,473 epoch 2 - iter 91/138 - loss 1.32120162 - time (sec): 68.46 - samples/sec: 223.18 - lr: 0.000139 - momentum: 0.000000
	2023-10-07 00:01:13,852 epoch 2 - iter 104/138 - loss 1.28137475 - time (sec): 77.84 - samples/sec: 223.12 - lr: 0.000138 - momentum: 0.000000
	2023-10-07 00:01:23,150 epoch 2 - iter 117/138 - loss 1.23997101 - time (sec): 87.14 - samples/sec: 222.41 - lr: 0.000136 - momentum: 0.000000
	2023-10-07 00:01:32,727 epoch 2 - iter 130/138 - loss 1.19564686 - time (sec): 96.71 - samples/sec: 222.85 - lr: 0.000134 - momentum: 0.000000
	2023-10-07 00:01:38,269 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:01:38,269 EPOCH 2 done: loss 1.1702 - lr: 0.000134
	2023-10-07 00:01:44,893 DEV : loss 0.8036181926727295 - f1-score (micro avg) 0.0
	2023-10-07 00:01:44,898 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:01:54,649 epoch 3 - iter 13/138 - loss 0.79601481 - time (sec): 9.75 - samples/sec: 230.08 - lr: 0.000132 - momentum: 0.000000
	2023-10-07 00:02:03,917 epoch 3 - iter 26/138 - loss 0.71860922 - time (sec): 19.02 - samples/sec: 226.58 - lr: 0.000130 - momentum: 0.000000
	2023-10-07 00:02:14,025 epoch 3 - iter 39/138 - loss 0.67902768 - time (sec): 29.13 - samples/sec: 228.39 - lr: 0.000129 - momentum: 0.000000
	2023-10-07 00:02:23,452 epoch 3 - iter 52/138 - loss 0.64466460 - time (sec): 38.55 - samples/sec: 225.52 - lr: 0.000127 - momentum: 0.000000
	2023-10-07 00:02:33,711 epoch 3 - iter 65/138 - loss 0.61972971 - time (sec): 48.81 - samples/sec: 226.00 - lr: 0.000126 - momentum: 0.000000
	2023-10-07 00:02:43,206 epoch 3 - iter 78/138 - loss 0.60093143 - time (sec): 58.31 - samples/sec: 224.88 - lr: 0.000124 - momentum: 0.000000
	2023-10-07 00:02:53,074 epoch 3 - iter 91/138 - loss 0.58832989 - time (sec): 68.17 - samples/sec: 223.59 - lr: 0.000123 - momentum: 0.000000
	2023-10-07 00:03:03,492 epoch 3 - iter 104/138 - loss 0.57081164 - time (sec): 78.59 - samples/sec: 225.11 - lr: 0.000121 - momentum: 0.000000
	2023-10-07 00:03:12,285 epoch 3 - iter 117/138 - loss 0.55153490 - time (sec): 87.39 - samples/sec: 223.10 - lr: 0.000119 - momentum: 0.000000
	2023-10-07 00:03:21,654 epoch 3 - iter 130/138 - loss 0.55009589 - time (sec): 96.75 - samples/sec: 223.33 - lr: 0.000118 - momentum: 0.000000
	2023-10-07 00:03:26,998 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:03:26,998 EPOCH 3 done: loss 0.5496 - lr: 0.000118
	2023-10-07 00:03:33,633 DEV : loss 0.41901326179504395 - f1-score (micro avg) 0.6189
	2023-10-07 00:03:33,639 saving best model
	2023-10-07 00:03:34,529 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:03:44,082 epoch 4 - iter 13/138 - loss 0.47862307 - time (sec): 9.55 - samples/sec: 228.15 - lr: 0.000115 - momentum: 0.000000
	2023-10-07 00:03:53,659 epoch 4 - iter 26/138 - loss 0.44598639 - time (sec): 19.13 - samples/sec: 229.40 - lr: 0.000114 - momentum: 0.000000
	2023-10-07 00:04:03,615 epoch 4 - iter 39/138 - loss 0.40805908 - time (sec): 29.08 - samples/sec: 226.86 - lr: 0.000112 - momentum: 0.000000
	2023-10-07 00:04:12,745 epoch 4 - iter 52/138 - loss 0.39671079 - time (sec): 38.21 - samples/sec: 223.21 - lr: 0.000111 - momentum: 0.000000
	2023-10-07 00:04:22,686 epoch 4 - iter 65/138 - loss 0.37971756 - time (sec): 48.16 - samples/sec: 223.51 - lr: 0.000109 - momentum: 0.000000
	2023-10-07 00:04:33,000 epoch 4 - iter 78/138 - loss 0.37512928 - time (sec): 58.47 - samples/sec: 225.25 - lr: 0.000107 - momentum: 0.000000
	2023-10-07 00:04:42,332 epoch 4 - iter 91/138 - loss 0.36689010 - time (sec): 67.80 - samples/sec: 223.92 - lr: 0.000106 - momentum: 0.000000
	2023-10-07 00:04:51,780 epoch 4 - iter 104/138 - loss 0.35327140 - time (sec): 77.25 - samples/sec: 223.11 - lr: 0.000104 - momentum: 0.000000
	2023-10-07 00:05:01,251 epoch 4 - iter 117/138 - loss 0.34186476 - time (sec): 86.72 - samples/sec: 221.69 - lr: 0.000103 - momentum: 0.000000
	2023-10-07 00:05:10,705 epoch 4 - iter 130/138 - loss 0.33471278 - time (sec): 96.17 - samples/sec: 222.37 - lr: 0.000101 - momentum: 0.000000
	2023-10-07 00:05:16,696 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:05:16,697 EPOCH 4 done: loss 0.3341 - lr: 0.000101
	2023-10-07 00:05:23,337 DEV : loss 0.27274981141090393 - f1-score (micro avg) 0.6831
	2023-10-07 00:05:23,343 saving best model
	2023-10-07 00:05:24,266 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:05:33,970 epoch 5 - iter 13/138 - loss 0.21509147 - time (sec): 9.70 - samples/sec: 214.69 - lr: 0.000099 - momentum: 0.000000
	2023-10-07 00:05:43,649 epoch 5 - iter 26/138 - loss 0.23282051 - time (sec): 19.38 - samples/sec: 222.39 - lr: 0.000097 - momentum: 0.000000
	2023-10-07 00:05:53,176 epoch 5 - iter 39/138 - loss 0.22838521 - time (sec): 28.91 - samples/sec: 222.12 - lr: 0.000096 - momentum: 0.000000
	2023-10-07 00:06:02,488 epoch 5 - iter 52/138 - loss 0.23672214 - time (sec): 38.22 - samples/sec: 220.46 - lr: 0.000094 - momentum: 0.000000
	2023-10-07 00:06:12,116 epoch 5 - iter 65/138 - loss 0.23516913 - time (sec): 47.85 - samples/sec: 220.34 - lr: 0.000092 - momentum: 0.000000
	2023-10-07 00:06:21,540 epoch 5 - iter 78/138 - loss 0.23287437 - time (sec): 57.27 - samples/sec: 219.06 - lr: 0.000091 - momentum: 0.000000
	2023-10-07 00:06:31,810 epoch 5 - iter 91/138 - loss 0.22804770 - time (sec): 67.54 - samples/sec: 221.77 - lr: 0.000089 - momentum: 0.000000
	2023-10-07 00:06:41,656 epoch 5 - iter 104/138 - loss 0.22227824 - time (sec): 77.39 - samples/sec: 221.43 - lr: 0.000088 - momentum: 0.000000
	2023-10-07 00:06:51,004 epoch 5 - iter 117/138 - loss 0.22083195 - time (sec): 86.74 - samples/sec: 221.42 - lr: 0.000086 - momentum: 0.000000
	2023-10-07 00:07:00,641 epoch 5 - iter 130/138 - loss 0.22031519 - time (sec): 96.37 - samples/sec: 221.70 - lr: 0.000085 - momentum: 0.000000
	2023-10-07 00:07:06,697 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:07:06,697 EPOCH 5 done: loss 0.2182 - lr: 0.000085
	2023-10-07 00:07:13,359 DEV : loss 0.19381575286388397 - f1-score (micro avg) 0.7876
	2023-10-07 00:07:13,364 saving best model
	2023-10-07 00:07:14,290 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:07:24,032 epoch 6 - iter 13/138 - loss 0.17702033 - time (sec): 9.74 - samples/sec: 228.83 - lr: 0.000082 - momentum: 0.000000
	2023-10-07 00:07:32,974 epoch 6 - iter 26/138 - loss 0.19667121 - time (sec): 18.68 - samples/sec: 224.05 - lr: 0.000080 - momentum: 0.000000
	2023-10-07 00:07:42,589 epoch 6 - iter 39/138 - loss 0.18090163 - time (sec): 28.30 - samples/sec: 223.52 - lr: 0.000079 - momentum: 0.000000
	2023-10-07 00:07:51,551 epoch 6 - iter 52/138 - loss 0.17305993 - time (sec): 37.26 - samples/sec: 220.13 - lr: 0.000077 - momentum: 0.000000
	2023-10-07 00:08:01,459 epoch 6 - iter 65/138 - loss 0.16189015 - time (sec): 47.17 - samples/sec: 220.38 - lr: 0.000076 - momentum: 0.000000
	2023-10-07 00:08:11,960 epoch 6 - iter 78/138 - loss 0.16533049 - time (sec): 57.67 - samples/sec: 220.55 - lr: 0.000074 - momentum: 0.000000
	2023-10-07 00:08:21,177 epoch 6 - iter 91/138 - loss 0.16497222 - time (sec): 66.89 - samples/sec: 220.18 - lr: 0.000073 - momentum: 0.000000
	2023-10-07 00:08:31,048 epoch 6 - iter 104/138 - loss 0.16785639 - time (sec): 76.76 - samples/sec: 220.79 - lr: 0.000071 - momentum: 0.000000
	2023-10-07 00:08:41,114 epoch 6 - iter 117/138 - loss 0.16125224 - time (sec): 86.82 - samples/sec: 221.60 - lr: 0.000070 - momentum: 0.000000
	2023-10-07 00:08:50,831 epoch 6 - iter 130/138 - loss 0.15620235 - time (sec): 96.54 - samples/sec: 222.86 - lr: 0.000068 - momentum: 0.000000
	2023-10-07 00:08:56,555 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:08:56,555 EPOCH 6 done: loss 0.1530 - lr: 0.000068
	2023-10-07 00:09:03,175 DEV : loss 0.1629297286272049 - f1-score (micro avg) 0.8051
	2023-10-07 00:09:03,180 saving best model
	2023-10-07 00:09:04,107 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:09:12,912 epoch 7 - iter 13/138 - loss 0.13798370 - time (sec): 8.80 - samples/sec: 217.30 - lr: 0.000065 - momentum: 0.000000
	2023-10-07 00:09:23,205 epoch 7 - iter 26/138 - loss 0.11167070 - time (sec): 19.10 - samples/sec: 220.67 - lr: 0.000064 - momentum: 0.000000
	2023-10-07 00:09:32,951 epoch 7 - iter 39/138 - loss 0.11037866 - time (sec): 28.84 - samples/sec: 224.01 - lr: 0.000062 - momentum: 0.000000
	2023-10-07 00:09:42,557 epoch 7 - iter 52/138 - loss 0.10794981 - time (sec): 38.45 - samples/sec: 225.37 - lr: 0.000061 - momentum: 0.000000
	2023-10-07 00:09:52,326 epoch 7 - iter 65/138 - loss 0.11452936 - time (sec): 48.22 - samples/sec: 227.03 - lr: 0.000059 - momentum: 0.000000
	2023-10-07 00:10:02,256 epoch 7 - iter 78/138 - loss 0.11784007 - time (sec): 58.15 - samples/sec: 228.28 - lr: 0.000058 - momentum: 0.000000
	2023-10-07 00:10:11,305 epoch 7 - iter 91/138 - loss 0.11342626 - time (sec): 67.20 - samples/sec: 225.42 - lr: 0.000056 - momentum: 0.000000
	2023-10-07 00:10:21,056 epoch 7 - iter 104/138 - loss 0.11570249 - time (sec): 76.95 - samples/sec: 225.10 - lr: 0.000054 - momentum: 0.000000
	2023-10-07 00:10:30,445 epoch 7 - iter 117/138 - loss 0.11799732 - time (sec): 86.34 - samples/sec: 224.16 - lr: 0.000053 - momentum: 0.000000
	2023-10-07 00:10:40,216 epoch 7 - iter 130/138 - loss 0.11127819 - time (sec): 96.11 - samples/sec: 223.42 - lr: 0.000051 - momentum: 0.000000
	2023-10-07 00:10:45,986 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:10:45,987 EPOCH 7 done: loss 0.1117 - lr: 0.000051
	2023-10-07 00:10:52,599 DEV : loss 0.14532138407230377 - f1-score (micro avg) 0.8392
	2023-10-07 00:10:52,604 saving best model
	2023-10-07 00:10:53,522 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:11:02,630 epoch 8 - iter 13/138 - loss 0.13064244 - time (sec): 9.11 - samples/sec: 224.69 - lr: 0.000049 - momentum: 0.000000
	2023-10-07 00:11:12,280 epoch 8 - iter 26/138 - loss 0.10750352 - time (sec): 18.76 - samples/sec: 224.20 - lr: 0.000047 - momentum: 0.000000
	2023-10-07 00:11:21,372 epoch 8 - iter 39/138 - loss 0.09435921 - time (sec): 27.85 - samples/sec: 223.50 - lr: 0.000046 - momentum: 0.000000
	2023-10-07 00:11:30,587 epoch 8 - iter 52/138 - loss 0.09770834 - time (sec): 37.06 - samples/sec: 223.89 - lr: 0.000044 - momentum: 0.000000
	2023-10-07 00:11:40,400 epoch 8 - iter 65/138 - loss 0.09501205 - time (sec): 46.88 - samples/sec: 223.29 - lr: 0.000043 - momentum: 0.000000
	2023-10-07 00:11:50,465 epoch 8 - iter 78/138 - loss 0.09375228 - time (sec): 56.94 - samples/sec: 224.74 - lr: 0.000041 - momentum: 0.000000
	2023-10-07 00:12:00,390 epoch 8 - iter 91/138 - loss 0.09337249 - time (sec): 66.87 - samples/sec: 224.10 - lr: 0.000039 - momentum: 0.000000
	2023-10-07 00:12:11,173 epoch 8 - iter 104/138 - loss 0.09232996 - time (sec): 77.65 - samples/sec: 224.60 - lr: 0.000038 - momentum: 0.000000
	2023-10-07 00:12:20,962 epoch 8 - iter 117/138 - loss 0.09141142 - time (sec): 87.44 - samples/sec: 224.66 - lr: 0.000036 - momentum: 0.000000
	2023-10-07 00:12:29,593 epoch 8 - iter 130/138 - loss 0.09362675 - time (sec): 96.07 - samples/sec: 223.43 - lr: 0.000035 - momentum: 0.000000
	2023-10-07 00:12:35,325 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:12:35,325 EPOCH 8 done: loss 0.0911 - lr: 0.000035
	2023-10-07 00:12:41,938 DEV : loss 0.13669075071811676 - f1-score (micro avg) 0.8599
	2023-10-07 00:12:41,943 saving best model
	2023-10-07 00:12:42,843 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:12:51,666 epoch 9 - iter 13/138 - loss 0.08601223 - time (sec): 8.82 - samples/sec: 217.19 - lr: 0.000032 - momentum: 0.000000
	2023-10-07 00:13:01,354 epoch 9 - iter 26/138 - loss 0.08520771 - time (sec): 18.51 - samples/sec: 223.61 - lr: 0.000031 - momentum: 0.000000
	2023-10-07 00:13:10,900 epoch 9 - iter 39/138 - loss 0.09322572 - time (sec): 28.06 - samples/sec: 224.70 - lr: 0.000029 - momentum: 0.000000
	2023-10-07 00:13:19,481 epoch 9 - iter 52/138 - loss 0.09083107 - time (sec): 36.64 - samples/sec: 221.50 - lr: 0.000027 - momentum: 0.000000
	2023-10-07 00:13:29,106 epoch 9 - iter 65/138 - loss 0.08689703 - time (sec): 46.26 - samples/sec: 222.13 - lr: 0.000026 - momentum: 0.000000
	2023-10-07 00:13:39,273 epoch 9 - iter 78/138 - loss 0.08276096 - time (sec): 56.43 - samples/sec: 223.04 - lr: 0.000024 - momentum: 0.000000
	2023-10-07 00:13:49,188 epoch 9 - iter 91/138 - loss 0.08174285 - time (sec): 66.34 - samples/sec: 225.01 - lr: 0.000023 - momentum: 0.000000
	2023-10-07 00:13:58,803 epoch 9 - iter 104/138 - loss 0.07693049 - time (sec): 75.96 - samples/sec: 225.06 - lr: 0.000021 - momentum: 0.000000
	2023-10-07 00:14:08,910 epoch 9 - iter 117/138 - loss 0.07661784 - time (sec): 86.07 - samples/sec: 225.37 - lr: 0.000020 - momentum: 0.000000
	2023-10-07 00:14:17,990 epoch 9 - iter 130/138 - loss 0.07746393 - time (sec): 95.15 - samples/sec: 224.71 - lr: 0.000018 - momentum: 0.000000
	2023-10-07 00:14:23,877 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:14:23,877 EPOCH 9 done: loss 0.0779 - lr: 0.000018
	2023-10-07 00:14:30,458 DEV : loss 0.13400736451148987 - f1-score (micro avg) 0.8592
	2023-10-07 00:14:30,463 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:14:39,776 epoch 10 - iter 13/138 - loss 0.06687981 - time (sec): 9.31 - samples/sec: 218.12 - lr: 0.000016 - momentum: 0.000000
	2023-10-07 00:14:49,992 epoch 10 - iter 26/138 - loss 0.06043895 - time (sec): 19.53 - samples/sec: 218.52 - lr: 0.000014 - momentum: 0.000000
	2023-10-07 00:14:59,147 epoch 10 - iter 39/138 - loss 0.06901592 - time (sec): 28.68 - samples/sec: 218.70 - lr: 0.000012 - momentum: 0.000000
	2023-10-07 00:15:08,154 epoch 10 - iter 52/138 - loss 0.07029173 - time (sec): 37.69 - samples/sec: 218.65 - lr: 0.000011 - momentum: 0.000000
	2023-10-07 00:15:17,964 epoch 10 - iter 65/138 - loss 0.07063126 - time (sec): 47.50 - samples/sec: 221.52 - lr: 0.000009 - momentum: 0.000000
	2023-10-07 00:15:27,378 epoch 10 - iter 78/138 - loss 0.06996984 - time (sec): 56.91 - samples/sec: 223.08 - lr: 0.000008 - momentum: 0.000000
	2023-10-07 00:15:36,413 epoch 10 - iter 91/138 - loss 0.07072405 - time (sec): 65.95 - samples/sec: 222.75 - lr: 0.000006 - momentum: 0.000000
	2023-10-07 00:15:46,064 epoch 10 - iter 104/138 - loss 0.07111993 - time (sec): 75.60 - samples/sec: 223.24 - lr: 0.000005 - momentum: 0.000000
	2023-10-07 00:15:55,612 epoch 10 - iter 117/138 - loss 0.07174694 - time (sec): 85.15 - samples/sec: 223.59 - lr: 0.000003 - momentum: 0.000000
	2023-10-07 00:16:05,752 epoch 10 - iter 130/138 - loss 0.07323074 - time (sec): 95.29 - samples/sec: 225.30 - lr: 0.000001 - momentum: 0.000000
	2023-10-07 00:16:11,303 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:16:11,303 EPOCH 10 done: loss 0.0722 - lr: 0.000001
	2023-10-07 00:16:17,864 DEV : loss 0.13299323618412018 - f1-score (micro avg) 0.8582
	2023-10-07 00:16:18,676 ----------------------------------------------------------------------------------------------------
	2023-10-07 00:16:18,678 Loading model from best epoch ...
	2023-10-07 00:16:21,954 SequenceTagger predicts: Dictionary with 25 tags: O, S-scope, B-scope, E-scope, I-scope, S-pers, B-pers, E-pers, I-pers, S-work, B-work, E-work, I-work, S-loc, B-loc, E-loc, I-loc, S-object, B-object, E-object, I-object, S-date, B-date, E-date, I-date
	2023-10-07 00:16:29,045
	Results:
	- F-score (micro) 0.8915
	- F-score (macro) 0.5282
	- Accuracy 0.8254

	By class:
	precision recall f1-score support

	scope 0.9016 0.9375 0.9192 176
	pers 0.9084 0.9297 0.9189 128
	work 0.7821 0.8243 0.8026 74
	object 0.0000 0.0000 0.0000 2
	loc 0.0000 0.0000 0.0000 2

	micro avg 0.8801 0.9031 0.8915 382
	macro avg 0.5184 0.5383 0.5282 382
	weighted avg 0.8713 0.9031 0.8869 382

	2023-10-07 00:16:29,045 ----------------------------------------------------------------------------------------------------