End of training

e7aba55 verified 3 months ago

6.61 kB

	---
	base_model: aubmindlab/bert-base-arabertv02
	tags:
	- generated_from_trainer
	model-index:
	- name: arabert_cross_organization_task7_fold0
	results: []
	---

	<!-- This model card has been generated automatically according to the information the Trainer had access to. You
	should probably proofread and complete it, then remove this comment. -->

	# arabert_cross_organization_task7_fold0

	This model is a fine-tuned version of [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02) on the None dataset.
	It achieves the following results on the evaluation set:
	- Loss: 0.7058
	- Qwk: 0.5975
	- Mse: 0.7057

	## Model description

	More information needed

	## Intended uses & limitations

	More information needed

	## Training and evaluation data

	More information needed

	## Training procedure

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 2e-05
	- train_batch_size: 64
	- eval_batch_size: 64
	- seed: 42
	- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
	- lr_scheduler_type: linear
	- num_epochs: 10

	### Training results

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Qwk \| Mse \|
	\|:-------------:\|:------:\|:----:\|:---------------:\|:------:\|:------:\|
	\| No log \| 0.1333 \| 2 \| 3.8864 \| 0.0541 \| 3.8830 \|
	\| No log \| 0.2667 \| 4 \| 2.5481 \| 0.0079 \| 2.5460 \|
	\| No log \| 0.4 \| 6 \| 1.6996 \| 0.2037 \| 1.6983 \|
	\| No log \| 0.5333 \| 8 \| 1.3776 \| 0.2939 \| 1.3765 \|
	\| No log \| 0.6667 \| 10 \| 1.3355 \| 0.3347 \| 1.3345 \|
	\| No log \| 0.8 \| 12 \| 1.2773 \| 0.3590 \| 1.2767 \|
	\| No log \| 0.9333 \| 14 \| 1.4284 \| 0.3342 \| 1.4277 \|
	\| No log \| 1.0667 \| 16 \| 1.1577 \| 0.3897 \| 1.1573 \|
	\| No log \| 1.2 \| 18 \| 0.9645 \| 0.4536 \| 0.9641 \|
	\| No log \| 1.3333 \| 20 \| 1.1001 \| 0.4324 \| 1.0996 \|
	\| No log \| 1.4667 \| 22 \| 1.0995 \| 0.4399 \| 1.0990 \|
	\| No log \| 1.6 \| 24 \| 0.9787 \| 0.4704 \| 0.9783 \|
	\| No log \| 1.7333 \| 26 \| 0.8116 \| 0.5438 \| 0.8112 \|
	\| No log \| 1.8667 \| 28 \| 0.8107 \| 0.5471 \| 0.8103 \|
	\| No log \| 2.0 \| 30 \| 0.9069 \| 0.4983 \| 0.9063 \|
	\| No log \| 2.1333 \| 32 \| 0.8730 \| 0.5346 \| 0.8726 \|
	\| No log \| 2.2667 \| 34 \| 0.9141 \| 0.5284 \| 0.9138 \|
	\| No log \| 2.4 \| 36 \| 0.7576 \| 0.6068 \| 0.7578 \|
	\| No log \| 2.5333 \| 38 \| 0.7560 \| 0.6087 \| 0.7563 \|
	\| No log \| 2.6667 \| 40 \| 0.8005 \| 0.6059 \| 0.8007 \|
	\| No log \| 2.8 \| 42 \| 0.9430 \| 0.5399 \| 0.9430 \|
	\| No log \| 2.9333 \| 44 \| 0.8990 \| 0.5542 \| 0.8990 \|
	\| No log \| 3.0667 \| 46 \| 0.8494 \| 0.5672 \| 0.8494 \|
	\| No log \| 3.2 \| 48 \| 0.8095 \| 0.5752 \| 0.8094 \|
	\| No log \| 3.3333 \| 50 \| 0.7424 \| 0.6012 \| 0.7425 \|
	\| No log \| 3.4667 \| 52 \| 0.7009 \| 0.6100 \| 0.7011 \|
	\| No log \| 3.6 \| 54 \| 0.7078 \| 0.6055 \| 0.7080 \|
	\| No log \| 3.7333 \| 56 \| 0.8222 \| 0.5652 \| 0.8223 \|
	\| No log \| 3.8667 \| 58 \| 0.8211 \| 0.5742 \| 0.8212 \|
	\| No log \| 4.0 \| 60 \| 0.7561 \| 0.5870 \| 0.7562 \|
	\| No log \| 4.1333 \| 62 \| 0.6981 \| 0.6055 \| 0.6982 \|
	\| No log \| 4.2667 \| 64 \| 0.6970 \| 0.6051 \| 0.6971 \|
	\| No log \| 4.4 \| 66 \| 0.7327 \| 0.5991 \| 0.7326 \|
	\| No log \| 4.5333 \| 68 \| 0.8809 \| 0.5424 \| 0.8806 \|
	\| No log \| 4.6667 \| 70 \| 0.8266 \| 0.5559 \| 0.8263 \|
	\| No log \| 4.8 \| 72 \| 0.7118 \| 0.5954 \| 0.7117 \|
	\| No log \| 4.9333 \| 74 \| 0.6923 \| 0.6040 \| 0.6923 \|
	\| No log \| 5.0667 \| 76 \| 0.7259 \| 0.5893 \| 0.7259 \|
	\| No log \| 5.2 \| 78 \| 0.7425 \| 0.5832 \| 0.7425 \|
	\| No log \| 5.3333 \| 80 \| 0.6843 \| 0.6051 \| 0.6843 \|
	\| No log \| 5.4667 \| 82 \| 0.6647 \| 0.6118 \| 0.6647 \|
	\| No log \| 5.6 \| 84 \| 0.6805 \| 0.6104 \| 0.6804 \|
	\| No log \| 5.7333 \| 86 \| 0.7021 \| 0.5992 \| 0.7019 \|
	\| No log \| 5.8667 \| 88 \| 0.6896 \| 0.6158 \| 0.6894 \|
	\| No log \| 6.0 \| 90 \| 0.6658 \| 0.6204 \| 0.6657 \|
	\| No log \| 6.1333 \| 92 \| 0.6774 \| 0.6118 \| 0.6774 \|
	\| No log \| 6.2667 \| 94 \| 0.7472 \| 0.5748 \| 0.7471 \|
	\| No log \| 6.4 \| 96 \| 0.8444 \| 0.5491 \| 0.8442 \|
	\| No log \| 6.5333 \| 98 \| 0.8227 \| 0.5502 \| 0.8225 \|
	\| No log \| 6.6667 \| 100 \| 0.7455 \| 0.5671 \| 0.7453 \|
	\| No log \| 6.8 \| 102 \| 0.7062 \| 0.5907 \| 0.7060 \|
	\| No log \| 6.9333 \| 104 \| 0.6458 \| 0.6143 \| 0.6457 \|
	\| No log \| 7.0667 \| 106 \| 0.6289 \| 0.6250 \| 0.6288 \|
	\| No log \| 7.2 \| 108 \| 0.6373 \| 0.6205 \| 0.6371 \|
	\| No log \| 7.3333 \| 110 \| 0.6669 \| 0.6113 \| 0.6666 \|
	\| No log \| 7.4667 \| 112 \| 0.7012 \| 0.6035 \| 0.7009 \|
	\| No log \| 7.6 \| 114 \| 0.6942 \| 0.5999 \| 0.6939 \|
	\| No log \| 7.7333 \| 116 \| 0.6669 \| 0.6083 \| 0.6668 \|
	\| No log \| 7.8667 \| 118 \| 0.6470 \| 0.6177 \| 0.6469 \|
	\| No log \| 8.0 \| 120 \| 0.6439 \| 0.6292 \| 0.6438 \|
	\| No log \| 8.1333 \| 122 \| 0.6501 \| 0.6098 \| 0.6500 \|
	\| No log \| 8.2667 \| 124 \| 0.6801 \| 0.6013 \| 0.6800 \|
	\| No log \| 8.4 \| 126 \| 0.7382 \| 0.5951 \| 0.7380 \|
	\| No log \| 8.5333 \| 128 \| 0.7558 \| 0.5885 \| 0.7556 \|
	\| No log \| 8.6667 \| 130 \| 0.7227 \| 0.5947 \| 0.7225 \|
	\| No log \| 8.8 \| 132 \| 0.6780 \| 0.6014 \| 0.6780 \|
	\| No log \| 8.9333 \| 134 \| 0.6554 \| 0.6101 \| 0.6554 \|
	\| No log \| 9.0667 \| 136 \| 0.6520 \| 0.6154 \| 0.6520 \|
	\| No log \| 9.2 \| 138 \| 0.6597 \| 0.6100 \| 0.6596 \|
	\| No log \| 9.3333 \| 140 \| 0.6690 \| 0.6141 \| 0.6689 \|
	\| No log \| 9.4667 \| 142 \| 0.6790 \| 0.6041 \| 0.6789 \|
	\| No log \| 9.6 \| 144 \| 0.6910 \| 0.5976 \| 0.6909 \|
	\| No log \| 9.7333 \| 146 \| 0.7025 \| 0.5975 \| 0.7024 \|
	\| No log \| 9.8667 \| 148 \| 0.7059 \| 0.5975 \| 0.7057 \|
	\| No log \| 10.0 \| 150 \| 0.7058 \| 0.5975 \| 0.7057 \|


	### Framework versions

	- Transformers 4.44.0
	- Pytorch 2.4.0
	- Datasets 2.21.0
	- Tokenizers 0.19.1

	---
	base_model: aubmindlab/bert-base-arabertv02
	tags:
	- generated_from_trainer
	model-index:
	- name: arabert_cross_organization_task7_fold0
	results: []
	---

	<!-- This model card has been generated automatically according to the information the Trainer had access to. You
	should probably proofread and complete it, then remove this comment. -->

	# arabert_cross_organization_task7_fold0

	This model is a fine-tuned version of [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02) on the None dataset.
	It achieves the following results on the evaluation set:
	- Loss: 0.7058
	- Qwk: 0.5975
	- Mse: 0.7057

	## Model description

	More information needed

	## Intended uses & limitations

	More information needed

	## Training and evaluation data

	More information needed

	## Training procedure

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 2e-05
	- train_batch_size: 64
	- eval_batch_size: 64
	- seed: 42
	- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
	- lr_scheduler_type: linear
	- num_epochs: 10

	### Training results

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Qwk \| Mse \|
	\|:-------------:\|:------:\|:----:\|:---------------:\|:------:\|:------:\|
	\| No log \| 0.1333 \| 2 \| 3.8864 \| 0.0541 \| 3.8830 \|
	\| No log \| 0.2667 \| 4 \| 2.5481 \| 0.0079 \| 2.5460 \|
	\| No log \| 0.4 \| 6 \| 1.6996 \| 0.2037 \| 1.6983 \|
	\| No log \| 0.5333 \| 8 \| 1.3776 \| 0.2939 \| 1.3765 \|
	\| No log \| 0.6667 \| 10 \| 1.3355 \| 0.3347 \| 1.3345 \|
	\| No log \| 0.8 \| 12 \| 1.2773 \| 0.3590 \| 1.2767 \|
	\| No log \| 0.9333 \| 14 \| 1.4284 \| 0.3342 \| 1.4277 \|
	\| No log \| 1.0667 \| 16 \| 1.1577 \| 0.3897 \| 1.1573 \|
	\| No log \| 1.2 \| 18 \| 0.9645 \| 0.4536 \| 0.9641 \|
	\| No log \| 1.3333 \| 20 \| 1.1001 \| 0.4324 \| 1.0996 \|
	\| No log \| 1.4667 \| 22 \| 1.0995 \| 0.4399 \| 1.0990 \|
	\| No log \| 1.6 \| 24 \| 0.9787 \| 0.4704 \| 0.9783 \|
	\| No log \| 1.7333 \| 26 \| 0.8116 \| 0.5438 \| 0.8112 \|
	\| No log \| 1.8667 \| 28 \| 0.8107 \| 0.5471 \| 0.8103 \|
	\| No log \| 2.0 \| 30 \| 0.9069 \| 0.4983 \| 0.9063 \|
	\| No log \| 2.1333 \| 32 \| 0.8730 \| 0.5346 \| 0.8726 \|
	\| No log \| 2.2667 \| 34 \| 0.9141 \| 0.5284 \| 0.9138 \|
	\| No log \| 2.4 \| 36 \| 0.7576 \| 0.6068 \| 0.7578 \|
	\| No log \| 2.5333 \| 38 \| 0.7560 \| 0.6087 \| 0.7563 \|
	\| No log \| 2.6667 \| 40 \| 0.8005 \| 0.6059 \| 0.8007 \|
	\| No log \| 2.8 \| 42 \| 0.9430 \| 0.5399 \| 0.9430 \|
	\| No log \| 2.9333 \| 44 \| 0.8990 \| 0.5542 \| 0.8990 \|
	\| No log \| 3.0667 \| 46 \| 0.8494 \| 0.5672 \| 0.8494 \|
	\| No log \| 3.2 \| 48 \| 0.8095 \| 0.5752 \| 0.8094 \|
	\| No log \| 3.3333 \| 50 \| 0.7424 \| 0.6012 \| 0.7425 \|
	\| No log \| 3.4667 \| 52 \| 0.7009 \| 0.6100 \| 0.7011 \|
	\| No log \| 3.6 \| 54 \| 0.7078 \| 0.6055 \| 0.7080 \|
	\| No log \| 3.7333 \| 56 \| 0.8222 \| 0.5652 \| 0.8223 \|
	\| No log \| 3.8667 \| 58 \| 0.8211 \| 0.5742 \| 0.8212 \|
	\| No log \| 4.0 \| 60 \| 0.7561 \| 0.5870 \| 0.7562 \|
	\| No log \| 4.1333 \| 62 \| 0.6981 \| 0.6055 \| 0.6982 \|
	\| No log \| 4.2667 \| 64 \| 0.6970 \| 0.6051 \| 0.6971 \|
	\| No log \| 4.4 \| 66 \| 0.7327 \| 0.5991 \| 0.7326 \|
	\| No log \| 4.5333 \| 68 \| 0.8809 \| 0.5424 \| 0.8806 \|
	\| No log \| 4.6667 \| 70 \| 0.8266 \| 0.5559 \| 0.8263 \|
	\| No log \| 4.8 \| 72 \| 0.7118 \| 0.5954 \| 0.7117 \|
	\| No log \| 4.9333 \| 74 \| 0.6923 \| 0.6040 \| 0.6923 \|
	\| No log \| 5.0667 \| 76 \| 0.7259 \| 0.5893 \| 0.7259 \|
	\| No log \| 5.2 \| 78 \| 0.7425 \| 0.5832 \| 0.7425 \|
	\| No log \| 5.3333 \| 80 \| 0.6843 \| 0.6051 \| 0.6843 \|
	\| No log \| 5.4667 \| 82 \| 0.6647 \| 0.6118 \| 0.6647 \|
	\| No log \| 5.6 \| 84 \| 0.6805 \| 0.6104 \| 0.6804 \|
	\| No log \| 5.7333 \| 86 \| 0.7021 \| 0.5992 \| 0.7019 \|
	\| No log \| 5.8667 \| 88 \| 0.6896 \| 0.6158 \| 0.6894 \|
	\| No log \| 6.0 \| 90 \| 0.6658 \| 0.6204 \| 0.6657 \|
	\| No log \| 6.1333 \| 92 \| 0.6774 \| 0.6118 \| 0.6774 \|
	\| No log \| 6.2667 \| 94 \| 0.7472 \| 0.5748 \| 0.7471 \|
	\| No log \| 6.4 \| 96 \| 0.8444 \| 0.5491 \| 0.8442 \|
	\| No log \| 6.5333 \| 98 \| 0.8227 \| 0.5502 \| 0.8225 \|
	\| No log \| 6.6667 \| 100 \| 0.7455 \| 0.5671 \| 0.7453 \|
	\| No log \| 6.8 \| 102 \| 0.7062 \| 0.5907 \| 0.7060 \|
	\| No log \| 6.9333 \| 104 \| 0.6458 \| 0.6143 \| 0.6457 \|
	\| No log \| 7.0667 \| 106 \| 0.6289 \| 0.6250 \| 0.6288 \|
	\| No log \| 7.2 \| 108 \| 0.6373 \| 0.6205 \| 0.6371 \|
	\| No log \| 7.3333 \| 110 \| 0.6669 \| 0.6113 \| 0.6666 \|
	\| No log \| 7.4667 \| 112 \| 0.7012 \| 0.6035 \| 0.7009 \|
	\| No log \| 7.6 \| 114 \| 0.6942 \| 0.5999 \| 0.6939 \|
	\| No log \| 7.7333 \| 116 \| 0.6669 \| 0.6083 \| 0.6668 \|
	\| No log \| 7.8667 \| 118 \| 0.6470 \| 0.6177 \| 0.6469 \|
	\| No log \| 8.0 \| 120 \| 0.6439 \| 0.6292 \| 0.6438 \|
	\| No log \| 8.1333 \| 122 \| 0.6501 \| 0.6098 \| 0.6500 \|
	\| No log \| 8.2667 \| 124 \| 0.6801 \| 0.6013 \| 0.6800 \|
	\| No log \| 8.4 \| 126 \| 0.7382 \| 0.5951 \| 0.7380 \|
	\| No log \| 8.5333 \| 128 \| 0.7558 \| 0.5885 \| 0.7556 \|
	\| No log \| 8.6667 \| 130 \| 0.7227 \| 0.5947 \| 0.7225 \|
	\| No log \| 8.8 \| 132 \| 0.6780 \| 0.6014 \| 0.6780 \|
	\| No log \| 8.9333 \| 134 \| 0.6554 \| 0.6101 \| 0.6554 \|
	\| No log \| 9.0667 \| 136 \| 0.6520 \| 0.6154 \| 0.6520 \|
	\| No log \| 9.2 \| 138 \| 0.6597 \| 0.6100 \| 0.6596 \|
	\| No log \| 9.3333 \| 140 \| 0.6690 \| 0.6141 \| 0.6689 \|
	\| No log \| 9.4667 \| 142 \| 0.6790 \| 0.6041 \| 0.6789 \|
	\| No log \| 9.6 \| 144 \| 0.6910 \| 0.5976 \| 0.6909 \|
	\| No log \| 9.7333 \| 146 \| 0.7025 \| 0.5975 \| 0.7024 \|
	\| No log \| 9.8667 \| 148 \| 0.7059 \| 0.5975 \| 0.7057 \|
	\| No log \| 10.0 \| 150 \| 0.7058 \| 0.5975 \| 0.7057 \|


	### Framework versions

	- Transformers 4.44.0
	- Pytorch 2.4.0
	- Datasets 2.21.0
	- Tokenizers 0.19.1