Training in progress, step 170

b2fb6a9 verified 3 months ago

6.88 kB

	---
	base_model: aubmindlab/bert-base-arabertv02
	tags:
	- generated_from_trainer
	model-index:
	- name: arabert_cross_organization_task6_fold1
	results: []
	---

	<!-- This model card has been generated automatically according to the information the Trainer had access to. You
	should probably proofread and complete it, then remove this comment. -->

	# arabert_cross_organization_task6_fold1

	This model is a fine-tuned version of [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02) on the None dataset.
	It achieves the following results on the evaluation set:
	- Loss: 0.8118
	- Qwk: 0.4006
	- Mse: 0.8118

	## Model description

	More information needed

	## Intended uses & limitations

	More information needed

	## Training and evaluation data

	More information needed

	## Training procedure

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 2e-05
	- train_batch_size: 64
	- eval_batch_size: 64
	- seed: 42
	- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
	- lr_scheduler_type: linear
	- num_epochs: 10

	### Training results

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Qwk \| Mse \|
	\|:-------------:\|:-----:\|:----:\|:---------------:\|:------:\|:------:\|
	\| No log \| 0.125 \| 2 \| 3.3727 \| 0.0150 \| 3.3727 \|
	\| No log \| 0.25 \| 4 \| 1.5579 \| 0.0418 \| 1.5579 \|
	\| No log \| 0.375 \| 6 \| 0.8889 \| 0.1524 \| 0.8889 \|
	\| No log \| 0.5 \| 8 \| 0.7988 \| 0.2568 \| 0.7988 \|
	\| No log \| 0.625 \| 10 \| 0.9045 \| 0.2445 \| 0.9045 \|
	\| No log \| 0.75 \| 12 \| 1.3396 \| 0.2180 \| 1.3396 \|
	\| No log \| 0.875 \| 14 \| 0.8588 \| 0.3519 \| 0.8588 \|
	\| No log \| 1.0 \| 16 \| 0.5574 \| 0.5527 \| 0.5574 \|
	\| No log \| 1.125 \| 18 \| 0.5553 \| 0.5503 \| 0.5553 \|
	\| No log \| 1.25 \| 20 \| 0.8079 \| 0.3672 \| 0.8079 \|
	\| No log \| 1.375 \| 22 \| 1.3052 \| 0.2456 \| 1.3052 \|
	\| No log \| 1.5 \| 24 \| 0.9198 \| 0.3104 \| 0.9198 \|
	\| No log \| 1.625 \| 26 \| 0.5541 \| 0.5285 \| 0.5541 \|
	\| No log \| 1.75 \| 28 \| 0.5512 \| 0.5290 \| 0.5512 \|
	\| No log \| 1.875 \| 30 \| 0.6121 \| 0.4768 \| 0.6121 \|
	\| No log \| 2.0 \| 32 \| 0.8609 \| 0.3129 \| 0.8609 \|
	\| No log \| 2.125 \| 34 \| 0.9886 \| 0.2731 \| 0.9886 \|
	\| No log \| 2.25 \| 36 \| 0.8076 \| 0.3795 \| 0.8076 \|
	\| No log \| 2.375 \| 38 \| 0.6513 \| 0.4757 \| 0.6513 \|
	\| No log \| 2.5 \| 40 \| 0.6322 \| 0.4656 \| 0.6322 \|
	\| No log \| 2.625 \| 42 \| 0.8239 \| 0.3721 \| 0.8239 \|
	\| No log \| 2.75 \| 44 \| 0.8173 \| 0.3657 \| 0.8173 \|
	\| No log \| 2.875 \| 46 \| 0.5953 \| 0.4602 \| 0.5953 \|
	\| No log \| 3.0 \| 48 \| 0.4998 \| 0.5491 \| 0.4998 \|
	\| No log \| 3.125 \| 50 \| 0.4994 \| 0.5388 \| 0.4994 \|
	\| No log \| 3.25 \| 52 \| 0.5985 \| 0.4558 \| 0.5985 \|
	\| No log \| 3.375 \| 54 \| 0.8360 \| 0.3362 \| 0.8360 \|
	\| No log \| 3.5 \| 56 \| 0.7638 \| 0.3694 \| 0.7638 \|
	\| No log \| 3.625 \| 58 \| 0.5758 \| 0.4882 \| 0.5758 \|
	\| No log \| 3.75 \| 60 \| 0.5627 \| 0.5091 \| 0.5627 \|
	\| No log \| 3.875 \| 62 \| 0.6464 \| 0.4616 \| 0.6464 \|
	\| No log \| 4.0 \| 64 \| 0.7995 \| 0.3939 \| 0.7995 \|
	\| No log \| 4.125 \| 66 \| 0.8090 \| 0.4038 \| 0.8090 \|
	\| No log \| 4.25 \| 68 \| 0.7637 \| 0.4270 \| 0.7637 \|
	\| No log \| 4.375 \| 70 \| 0.6773 \| 0.4614 \| 0.6773 \|
	\| No log \| 4.5 \| 72 \| 0.6071 \| 0.4596 \| 0.6071 \|
	\| No log \| 4.625 \| 74 \| 0.6404 \| 0.4305 \| 0.6404 \|
	\| No log \| 4.75 \| 76 \| 0.7606 \| 0.3850 \| 0.7606 \|
	\| No log \| 4.875 \| 78 \| 0.7167 \| 0.4134 \| 0.7167 \|
	\| No log \| 5.0 \| 80 \| 0.6509 \| 0.4134 \| 0.6509 \|
	\| No log \| 5.125 \| 82 \| 0.6798 \| 0.4551 \| 0.6798 \|
	\| No log \| 5.25 \| 84 \| 0.7948 \| 0.3986 \| 0.7948 \|
	\| No log \| 5.375 \| 86 \| 0.8620 \| 0.3562 \| 0.8620 \|
	\| No log \| 5.5 \| 88 \| 0.8876 \| 0.3559 \| 0.8876 \|
	\| No log \| 5.625 \| 90 \| 0.7515 \| 0.4248 \| 0.7515 \|
	\| No log \| 5.75 \| 92 \| 0.7108 \| 0.4577 \| 0.7108 \|
	\| No log \| 5.875 \| 94 \| 0.7862 \| 0.4061 \| 0.7862 \|
	\| No log \| 6.0 \| 96 \| 0.8416 \| 0.3952 \| 0.8416 \|
	\| No log \| 6.125 \| 98 \| 0.7997 \| 0.4122 \| 0.7997 \|
	\| No log \| 6.25 \| 100 \| 0.8258 \| 0.3932 \| 0.8258 \|
	\| No log \| 6.375 \| 102 \| 0.7838 \| 0.4124 \| 0.7838 \|
	\| No log \| 6.5 \| 104 \| 0.7944 \| 0.4076 \| 0.7944 \|
	\| No log \| 6.625 \| 106 \| 0.8231 \| 0.3830 \| 0.8231 \|
	\| No log \| 6.75 \| 108 \| 0.7694 \| 0.4134 \| 0.7694 \|
	\| No log \| 6.875 \| 110 \| 0.7985 \| 0.3792 \| 0.7985 \|
	\| No log \| 7.0 \| 112 \| 0.8356 \| 0.3632 \| 0.8356 \|
	\| No log \| 7.125 \| 114 \| 0.8848 \| 0.3450 \| 0.8848 \|
	\| No log \| 7.25 \| 116 \| 0.8497 \| 0.3620 \| 0.8497 \|
	\| No log \| 7.375 \| 118 \| 0.7434 \| 0.4183 \| 0.7434 \|
	\| No log \| 7.5 \| 120 \| 0.7023 \| 0.4781 \| 0.7023 \|
	\| No log \| 7.625 \| 122 \| 0.7498 \| 0.4429 \| 0.7498 \|
	\| No log \| 7.75 \| 124 \| 0.9144 \| 0.3785 \| 0.9144 \|
	\| No log \| 7.875 \| 126 \| 1.0497 \| 0.3405 \| 1.0497 \|
	\| No log \| 8.0 \| 128 \| 1.0554 \| 0.3506 \| 1.0554 \|
	\| No log \| 8.125 \| 130 \| 0.9425 \| 0.3693 \| 0.9425 \|
	\| No log \| 8.25 \| 132 \| 0.8329 \| 0.4324 \| 0.8329 \|
	\| No log \| 8.375 \| 134 \| 0.7552 \| 0.4623 \| 0.7552 \|
	\| No log \| 8.5 \| 136 \| 0.7557 \| 0.4559 \| 0.7557 \|
	\| No log \| 8.625 \| 138 \| 0.7684 \| 0.4526 \| 0.7684 \|
	\| No log \| 8.75 \| 140 \| 0.8092 \| 0.4060 \| 0.8092 \|
	\| No log \| 8.875 \| 142 \| 0.8508 \| 0.3842 \| 0.8508 \|
	\| No log \| 9.0 \| 144 \| 0.8605 \| 0.3817 \| 0.8605 \|
	\| No log \| 9.125 \| 146 \| 0.8641 \| 0.3822 \| 0.8641 \|
	\| No log \| 9.25 \| 148 \| 0.8326 \| 0.3939 \| 0.8326 \|
	\| No log \| 9.375 \| 150 \| 0.8206 \| 0.3946 \| 0.8206 \|
	\| No log \| 9.5 \| 152 \| 0.7988 \| 0.4013 \| 0.7988 \|
	\| No log \| 9.625 \| 154 \| 0.7932 \| 0.4040 \| 0.7932 \|
	\| No log \| 9.75 \| 156 \| 0.7973 \| 0.4040 \| 0.7973 \|
	\| No log \| 9.875 \| 158 \| 0.8061 \| 0.4006 \| 0.8061 \|
	\| No log \| 10.0 \| 160 \| 0.8118 \| 0.4006 \| 0.8118 \|


	### Framework versions

	- Transformers 4.44.0
	- Pytorch 2.4.0
	- Datasets 2.21.0
	- Tokenizers 0.19.1

	---
	base_model: aubmindlab/bert-base-arabertv02
	tags:
	- generated_from_trainer
	model-index:
	- name: arabert_cross_organization_task6_fold1
	results: []
	---

	<!-- This model card has been generated automatically according to the information the Trainer had access to. You
	should probably proofread and complete it, then remove this comment. -->

	# arabert_cross_organization_task6_fold1

	This model is a fine-tuned version of [aubmindlab/bert-base-arabertv02](https://huggingface.co/aubmindlab/bert-base-arabertv02) on the None dataset.
	It achieves the following results on the evaluation set:
	- Loss: 0.8118
	- Qwk: 0.4006
	- Mse: 0.8118

	## Model description

	More information needed

	## Intended uses & limitations

	More information needed

	## Training and evaluation data

	More information needed

	## Training procedure

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 2e-05
	- train_batch_size: 64
	- eval_batch_size: 64
	- seed: 42
	- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
	- lr_scheduler_type: linear
	- num_epochs: 10

	### Training results

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Qwk \| Mse \|
	\|:-------------:\|:-----:\|:----:\|:---------------:\|:------:\|:------:\|
	\| No log \| 0.125 \| 2 \| 3.3727 \| 0.0150 \| 3.3727 \|
	\| No log \| 0.25 \| 4 \| 1.5579 \| 0.0418 \| 1.5579 \|
	\| No log \| 0.375 \| 6 \| 0.8889 \| 0.1524 \| 0.8889 \|
	\| No log \| 0.5 \| 8 \| 0.7988 \| 0.2568 \| 0.7988 \|
	\| No log \| 0.625 \| 10 \| 0.9045 \| 0.2445 \| 0.9045 \|
	\| No log \| 0.75 \| 12 \| 1.3396 \| 0.2180 \| 1.3396 \|
	\| No log \| 0.875 \| 14 \| 0.8588 \| 0.3519 \| 0.8588 \|
	\| No log \| 1.0 \| 16 \| 0.5574 \| 0.5527 \| 0.5574 \|
	\| No log \| 1.125 \| 18 \| 0.5553 \| 0.5503 \| 0.5553 \|
	\| No log \| 1.25 \| 20 \| 0.8079 \| 0.3672 \| 0.8079 \|
	\| No log \| 1.375 \| 22 \| 1.3052 \| 0.2456 \| 1.3052 \|
	\| No log \| 1.5 \| 24 \| 0.9198 \| 0.3104 \| 0.9198 \|
	\| No log \| 1.625 \| 26 \| 0.5541 \| 0.5285 \| 0.5541 \|
	\| No log \| 1.75 \| 28 \| 0.5512 \| 0.5290 \| 0.5512 \|
	\| No log \| 1.875 \| 30 \| 0.6121 \| 0.4768 \| 0.6121 \|
	\| No log \| 2.0 \| 32 \| 0.8609 \| 0.3129 \| 0.8609 \|
	\| No log \| 2.125 \| 34 \| 0.9886 \| 0.2731 \| 0.9886 \|
	\| No log \| 2.25 \| 36 \| 0.8076 \| 0.3795 \| 0.8076 \|
	\| No log \| 2.375 \| 38 \| 0.6513 \| 0.4757 \| 0.6513 \|
	\| No log \| 2.5 \| 40 \| 0.6322 \| 0.4656 \| 0.6322 \|
	\| No log \| 2.625 \| 42 \| 0.8239 \| 0.3721 \| 0.8239 \|
	\| No log \| 2.75 \| 44 \| 0.8173 \| 0.3657 \| 0.8173 \|
	\| No log \| 2.875 \| 46 \| 0.5953 \| 0.4602 \| 0.5953 \|
	\| No log \| 3.0 \| 48 \| 0.4998 \| 0.5491 \| 0.4998 \|
	\| No log \| 3.125 \| 50 \| 0.4994 \| 0.5388 \| 0.4994 \|
	\| No log \| 3.25 \| 52 \| 0.5985 \| 0.4558 \| 0.5985 \|
	\| No log \| 3.375 \| 54 \| 0.8360 \| 0.3362 \| 0.8360 \|
	\| No log \| 3.5 \| 56 \| 0.7638 \| 0.3694 \| 0.7638 \|
	\| No log \| 3.625 \| 58 \| 0.5758 \| 0.4882 \| 0.5758 \|
	\| No log \| 3.75 \| 60 \| 0.5627 \| 0.5091 \| 0.5627 \|
	\| No log \| 3.875 \| 62 \| 0.6464 \| 0.4616 \| 0.6464 \|
	\| No log \| 4.0 \| 64 \| 0.7995 \| 0.3939 \| 0.7995 \|
	\| No log \| 4.125 \| 66 \| 0.8090 \| 0.4038 \| 0.8090 \|
	\| No log \| 4.25 \| 68 \| 0.7637 \| 0.4270 \| 0.7637 \|
	\| No log \| 4.375 \| 70 \| 0.6773 \| 0.4614 \| 0.6773 \|
	\| No log \| 4.5 \| 72 \| 0.6071 \| 0.4596 \| 0.6071 \|
	\| No log \| 4.625 \| 74 \| 0.6404 \| 0.4305 \| 0.6404 \|
	\| No log \| 4.75 \| 76 \| 0.7606 \| 0.3850 \| 0.7606 \|
	\| No log \| 4.875 \| 78 \| 0.7167 \| 0.4134 \| 0.7167 \|
	\| No log \| 5.0 \| 80 \| 0.6509 \| 0.4134 \| 0.6509 \|
	\| No log \| 5.125 \| 82 \| 0.6798 \| 0.4551 \| 0.6798 \|
	\| No log \| 5.25 \| 84 \| 0.7948 \| 0.3986 \| 0.7948 \|
	\| No log \| 5.375 \| 86 \| 0.8620 \| 0.3562 \| 0.8620 \|
	\| No log \| 5.5 \| 88 \| 0.8876 \| 0.3559 \| 0.8876 \|
	\| No log \| 5.625 \| 90 \| 0.7515 \| 0.4248 \| 0.7515 \|
	\| No log \| 5.75 \| 92 \| 0.7108 \| 0.4577 \| 0.7108 \|
	\| No log \| 5.875 \| 94 \| 0.7862 \| 0.4061 \| 0.7862 \|
	\| No log \| 6.0 \| 96 \| 0.8416 \| 0.3952 \| 0.8416 \|
	\| No log \| 6.125 \| 98 \| 0.7997 \| 0.4122 \| 0.7997 \|
	\| No log \| 6.25 \| 100 \| 0.8258 \| 0.3932 \| 0.8258 \|
	\| No log \| 6.375 \| 102 \| 0.7838 \| 0.4124 \| 0.7838 \|
	\| No log \| 6.5 \| 104 \| 0.7944 \| 0.4076 \| 0.7944 \|
	\| No log \| 6.625 \| 106 \| 0.8231 \| 0.3830 \| 0.8231 \|
	\| No log \| 6.75 \| 108 \| 0.7694 \| 0.4134 \| 0.7694 \|
	\| No log \| 6.875 \| 110 \| 0.7985 \| 0.3792 \| 0.7985 \|
	\| No log \| 7.0 \| 112 \| 0.8356 \| 0.3632 \| 0.8356 \|
	\| No log \| 7.125 \| 114 \| 0.8848 \| 0.3450 \| 0.8848 \|
	\| No log \| 7.25 \| 116 \| 0.8497 \| 0.3620 \| 0.8497 \|
	\| No log \| 7.375 \| 118 \| 0.7434 \| 0.4183 \| 0.7434 \|
	\| No log \| 7.5 \| 120 \| 0.7023 \| 0.4781 \| 0.7023 \|
	\| No log \| 7.625 \| 122 \| 0.7498 \| 0.4429 \| 0.7498 \|
	\| No log \| 7.75 \| 124 \| 0.9144 \| 0.3785 \| 0.9144 \|
	\| No log \| 7.875 \| 126 \| 1.0497 \| 0.3405 \| 1.0497 \|
	\| No log \| 8.0 \| 128 \| 1.0554 \| 0.3506 \| 1.0554 \|
	\| No log \| 8.125 \| 130 \| 0.9425 \| 0.3693 \| 0.9425 \|
	\| No log \| 8.25 \| 132 \| 0.8329 \| 0.4324 \| 0.8329 \|
	\| No log \| 8.375 \| 134 \| 0.7552 \| 0.4623 \| 0.7552 \|
	\| No log \| 8.5 \| 136 \| 0.7557 \| 0.4559 \| 0.7557 \|
	\| No log \| 8.625 \| 138 \| 0.7684 \| 0.4526 \| 0.7684 \|
	\| No log \| 8.75 \| 140 \| 0.8092 \| 0.4060 \| 0.8092 \|
	\| No log \| 8.875 \| 142 \| 0.8508 \| 0.3842 \| 0.8508 \|
	\| No log \| 9.0 \| 144 \| 0.8605 \| 0.3817 \| 0.8605 \|
	\| No log \| 9.125 \| 146 \| 0.8641 \| 0.3822 \| 0.8641 \|
	\| No log \| 9.25 \| 148 \| 0.8326 \| 0.3939 \| 0.8326 \|
	\| No log \| 9.375 \| 150 \| 0.8206 \| 0.3946 \| 0.8206 \|
	\| No log \| 9.5 \| 152 \| 0.7988 \| 0.4013 \| 0.7988 \|
	\| No log \| 9.625 \| 154 \| 0.7932 \| 0.4040 \| 0.7932 \|
	\| No log \| 9.75 \| 156 \| 0.7973 \| 0.4040 \| 0.7973 \|
	\| No log \| 9.875 \| 158 \| 0.8061 \| 0.4006 \| 0.8061 \|
	\| No log \| 10.0 \| 160 \| 0.8118 \| 0.4006 \| 0.8118 \|


	### Framework versions

	- Transformers 4.44.0
	- Pytorch 2.4.0
	- Datasets 2.21.0
	- Tokenizers 0.19.1