model

Browse files

Files changed (11) hide show

config.json +48 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
trainer_state.json +591 -0
training_args.bin +3 -0
vocab.txt +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "_name_or_path": "bert-base-multilingual-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "NEUTRAL",
+    "1": "BIT-TOXIC",
+    "2": "QUITE-TOXIC",
+    "3": "TOXIC",
+    "4": "VERY-TOXIC",
+    "5": "HIGHLY-TOXIC"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "BIT-TOXIC": 1,
+    "HIGHLY-TOXIC": 5,
+    "NEUTRAL": 0,
+    "QUITE-TOXIC": 2,
+    "TOXIC": 3,
+    "VERY-TOXIC": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.36.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 119547
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8f4c7696f0cba53d4207583ae9b9a683524102dbfd63ee863773f29d234cb49
+size 711455760

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34a22ef5c0907940797fd5b894119a620fdfd3e246d5b6083f07358e5e2c76b5
+size 1423032570

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be4ae76b8db1a8668ce860e0149170e4ea4f4074988f7a6299bd79133abd4b7f
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a844eb31be07bb7a2e7ed0754e6dfef47bac72858c4a8e254dd76d418ba90cb
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "full_tokenizer_file": null,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,591 @@

+{
+  "best_metric": 0.49082762002944946,
+  "best_model_checkpoint": "models/toxic-bert-mbert/checkpoint-380",
+  "epoch": 0.41170097508125675,
+  "eval_steps": 10,
+  "global_step": 380,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.968e-05,
+      "loss": 1.4487,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "eval_f1": 0.48475671310316976,
+      "eval_loss": 1.1357542276382446,
+      "eval_runtime": 20.5083,
+      "eval_samples_per_second": 270.037,
+      "eval_steps_per_second": 11.264,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.9280000000000002e-05,
+      "loss": 1.1897,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "eval_f1": 0.48475671310316976,
+      "eval_loss": 1.0628113746643066,
+      "eval_runtime": 20.8063,
+      "eval_samples_per_second": 266.169,
+      "eval_steps_per_second": 11.102,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.8880000000000002e-05,
+      "loss": 1.0351,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "eval_f1": 0.48475671310316976,
+      "eval_loss": 1.0026295185089111,
+      "eval_runtime": 21.4302,
+      "eval_samples_per_second": 258.42,
+      "eval_steps_per_second": 10.779,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.8480000000000003e-05,
+      "loss": 0.9274,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "eval_f1": 0.602134407148032,
+      "eval_loss": 0.8651727437973022,
+      "eval_runtime": 21.7252,
+      "eval_samples_per_second": 254.911,
+      "eval_steps_per_second": 10.633,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 1.8080000000000003e-05,
+      "loss": 0.8717,
+      "step": 50
+    },
+    {
+      "epoch": 0.05,
+      "eval_f1": 0.5878712152620588,
+      "eval_loss": 0.8609752058982849,
+      "eval_runtime": 21.4208,
+      "eval_samples_per_second": 258.534,
+      "eval_steps_per_second": 10.784,
+      "step": 50
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.768e-05,
+      "loss": 0.8187,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "eval_f1": 0.6764570688570977,
+      "eval_loss": 0.7394715547561646,
+      "eval_runtime": 21.8392,
+      "eval_samples_per_second": 253.58,
+      "eval_steps_per_second": 10.577,
+      "step": 60
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.732e-05,
+      "loss": 0.8706,
+      "step": 70
+    },
+    {
+      "epoch": 0.08,
+      "eval_f1": 0.6850705705176812,
+      "eval_loss": 0.7013543844223022,
+      "eval_runtime": 21.7795,
+      "eval_samples_per_second": 254.276,
+      "eval_steps_per_second": 10.606,
+      "step": 70
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 1.692e-05,
+      "loss": 0.7463,
+      "step": 80
+    },
+    {
+      "epoch": 0.09,
+      "eval_f1": 0.7283246330984933,
+      "eval_loss": 0.665144681930542,
+      "eval_runtime": 21.4734,
+      "eval_samples_per_second": 257.901,
+      "eval_steps_per_second": 10.758,
+      "step": 80
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.652e-05,
+      "loss": 0.7677,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "eval_f1": 0.6548131465387051,
+      "eval_loss": 0.718267560005188,
+      "eval_runtime": 21.871,
+      "eval_samples_per_second": 253.212,
+      "eval_steps_per_second": 10.562,
+      "step": 90
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.612e-05,
+      "loss": 0.6402,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "eval_f1": 0.7153883418869857,
+      "eval_loss": 0.6134028434753418,
+      "eval_runtime": 21.3946,
+      "eval_samples_per_second": 258.85,
+      "eval_steps_per_second": 10.797,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.5720000000000002e-05,
+      "loss": 0.6408,
+      "step": 110
+    },
+    {
+      "epoch": 0.12,
+      "eval_f1": 0.7200057070545418,
+      "eval_loss": 0.6316511034965515,
+      "eval_runtime": 21.4218,
+      "eval_samples_per_second": 258.521,
+      "eval_steps_per_second": 10.783,
+      "step": 110
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5320000000000002e-05,
+      "loss": 0.6293,
+      "step": 120
+    },
+    {
+      "epoch": 0.13,
+      "eval_f1": 0.7252309612107771,
+      "eval_loss": 0.6177955865859985,
+      "eval_runtime": 22.0787,
+      "eval_samples_per_second": 250.831,
+      "eval_steps_per_second": 10.463,
+      "step": 120
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4920000000000001e-05,
+      "loss": 0.5921,
+      "step": 130
+    },
+    {
+      "epoch": 0.14,
+      "eval_f1": 0.718310903510847,
+      "eval_loss": 0.6382821798324585,
+      "eval_runtime": 21.4528,
+      "eval_samples_per_second": 258.148,
+      "eval_steps_per_second": 10.768,
+      "step": 130
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4520000000000002e-05,
+      "loss": 0.6829,
+      "step": 140
+    },
+    {
+      "epoch": 0.15,
+      "eval_f1": 0.7104650126557948,
+      "eval_loss": 0.6063101291656494,
+      "eval_runtime": 21.6996,
+      "eval_samples_per_second": 255.212,
+      "eval_steps_per_second": 10.645,
+      "step": 140
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 1.412e-05,
+      "loss": 0.6528,
+      "step": 150
+    },
+    {
+      "epoch": 0.16,
+      "eval_f1": 0.7266460816131931,
+      "eval_loss": 0.5720272064208984,
+      "eval_runtime": 21.3758,
+      "eval_samples_per_second": 259.078,
+      "eval_steps_per_second": 10.807,
+      "step": 150
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 1.3720000000000002e-05,
+      "loss": 0.5472,
+      "step": 160
+    },
+    {
+      "epoch": 0.17,
+      "eval_f1": 0.7174077954335052,
+      "eval_loss": 0.6016837358474731,
+      "eval_runtime": 21.9003,
+      "eval_samples_per_second": 252.873,
+      "eval_steps_per_second": 10.548,
+      "step": 160
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.3320000000000001e-05,
+      "loss": 0.6625,
+      "step": 170
+    },
+    {
+      "epoch": 0.18,
+      "eval_f1": 0.7238055756700145,
+      "eval_loss": 0.5748048424720764,
+      "eval_runtime": 21.4241,
+      "eval_samples_per_second": 258.494,
+      "eval_steps_per_second": 10.782,
+      "step": 170
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.2920000000000002e-05,
+      "loss": 0.551,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "eval_f1": 0.7216203790293768,
+      "eval_loss": 0.5944197177886963,
+      "eval_runtime": 21.7253,
+      "eval_samples_per_second": 254.91,
+      "eval_steps_per_second": 10.633,
+      "step": 180
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1.252e-05,
+      "loss": 0.5633,
+      "step": 190
+    },
+    {
+      "epoch": 0.21,
+      "eval_f1": 0.7591239466384562,
+      "eval_loss": 0.5621122717857361,
+      "eval_runtime": 21.1932,
+      "eval_samples_per_second": 261.31,
+      "eval_steps_per_second": 10.9,
+      "step": 190
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.2120000000000001e-05,
+      "loss": 0.5372,
+      "step": 200
+    },
+    {
+      "epoch": 0.22,
+      "eval_f1": 0.75760072154562,
+      "eval_loss": 0.5480858087539673,
+      "eval_runtime": 21.2836,
+      "eval_samples_per_second": 260.201,
+      "eval_steps_per_second": 10.853,
+      "step": 200
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.172e-05,
+      "loss": 0.6353,
+      "step": 210
+    },
+    {
+      "epoch": 0.23,
+      "eval_f1": 0.7511938652247329,
+      "eval_loss": 0.5706632137298584,
+      "eval_runtime": 21.8422,
+      "eval_samples_per_second": 253.545,
+      "eval_steps_per_second": 10.576,
+      "step": 210
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.132e-05,
+      "loss": 0.6332,
+      "step": 220
+    },
+    {
+      "epoch": 0.24,
+      "eval_f1": 0.7614490903091703,
+      "eval_loss": 0.5543012022972107,
+      "eval_runtime": 21.5696,
+      "eval_samples_per_second": 256.75,
+      "eval_steps_per_second": 10.71,
+      "step": 220
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.0920000000000002e-05,
+      "loss": 0.5311,
+      "step": 230
+    },
+    {
+      "epoch": 0.25,
+      "eval_f1": 0.7432260016931946,
+      "eval_loss": 0.5397886633872986,
+      "eval_runtime": 21.3122,
+      "eval_samples_per_second": 259.851,
+      "eval_steps_per_second": 10.839,
+      "step": 230
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.0520000000000001e-05,
+      "loss": 0.5791,
+      "step": 240
+    },
+    {
+      "epoch": 0.26,
+      "eval_f1": 0.7434033096243912,
+      "eval_loss": 0.5391152501106262,
+      "eval_runtime": 21.3796,
+      "eval_samples_per_second": 259.032,
+      "eval_steps_per_second": 10.805,
+      "step": 240
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 1.0120000000000001e-05,
+      "loss": 0.5831,
+      "step": 250
+    },
+    {
+      "epoch": 0.27,
+      "eval_f1": 0.763099957359349,
+      "eval_loss": 0.5244932174682617,
+      "eval_runtime": 21.3101,
+      "eval_samples_per_second": 259.877,
+      "eval_steps_per_second": 10.84,
+      "step": 250
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.72e-06,
+      "loss": 0.5453,
+      "step": 260
+    },
+    {
+      "epoch": 0.28,
+      "eval_f1": 0.7585661401268046,
+      "eval_loss": 0.5211306214332581,
+      "eval_runtime": 21.2639,
+      "eval_samples_per_second": 260.442,
+      "eval_steps_per_second": 10.863,
+      "step": 260
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 9.32e-06,
+      "loss": 0.5087,
+      "step": 270
+    },
+    {
+      "epoch": 0.29,
+      "eval_f1": 0.7549183270549422,
+      "eval_loss": 0.5206575989723206,
+      "eval_runtime": 21.5568,
+      "eval_samples_per_second": 256.902,
+      "eval_steps_per_second": 10.716,
+      "step": 270
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 8.920000000000001e-06,
+      "loss": 0.539,
+      "step": 280
+    },
+    {
+      "epoch": 0.3,
+      "eval_f1": 0.7483575758659107,
+      "eval_loss": 0.5601561665534973,
+      "eval_runtime": 21.7276,
+      "eval_samples_per_second": 254.883,
+      "eval_steps_per_second": 10.632,
+      "step": 280
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 8.52e-06,
+      "loss": 0.502,
+      "step": 290
+    },
+    {
+      "epoch": 0.31,
+      "eval_f1": 0.7497368207624416,
+      "eval_loss": 0.5269237160682678,
+      "eval_runtime": 21.3645,
+      "eval_samples_per_second": 259.215,
+      "eval_steps_per_second": 10.812,
+      "step": 290
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 8.120000000000002e-06,
+      "loss": 0.5656,
+      "step": 300
+    },
+    {
+      "epoch": 0.33,
+      "eval_f1": 0.7490172830029811,
+      "eval_loss": 0.5704778432846069,
+      "eval_runtime": 21.3309,
+      "eval_samples_per_second": 259.623,
+      "eval_steps_per_second": 10.829,
+      "step": 300
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 7.72e-06,
+      "loss": 0.6157,
+      "step": 310
+    },
+    {
+      "epoch": 0.34,
+      "eval_f1": 0.7610313116302819,
+      "eval_loss": 0.5527724027633667,
+      "eval_runtime": 21.5886,
+      "eval_samples_per_second": 256.524,
+      "eval_steps_per_second": 10.7,
+      "step": 310
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 7.32e-06,
+      "loss": 0.5262,
+      "step": 320
+    },
+    {
+      "epoch": 0.35,
+      "eval_f1": 0.7693956225207979,
+      "eval_loss": 0.5064041614532471,
+      "eval_runtime": 21.4519,
+      "eval_samples_per_second": 258.159,
+      "eval_steps_per_second": 10.768,
+      "step": 320
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 6.92e-06,
+      "loss": 0.5032,
+      "step": 330
+    },
+    {
+      "epoch": 0.36,
+      "eval_f1": 0.757594480871035,
+      "eval_loss": 0.5091240406036377,
+      "eval_runtime": 21.5576,
+      "eval_samples_per_second": 256.894,
+      "eval_steps_per_second": 10.716,
+      "step": 330
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 6.520000000000001e-06,
+      "loss": 0.4859,
+      "step": 340
+    },
+    {
+      "epoch": 0.37,
+      "eval_f1": 0.751697533021681,
+      "eval_loss": 0.5241729021072388,
+      "eval_runtime": 21.6466,
+      "eval_samples_per_second": 255.837,
+      "eval_steps_per_second": 10.671,
+      "step": 340
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 6.120000000000001e-06,
+      "loss": 0.6227,
+      "step": 350
+    },
+    {
+      "epoch": 0.38,
+      "eval_f1": 0.7821857624888272,
+      "eval_loss": 0.4922301769256592,
+      "eval_runtime": 21.5823,
+      "eval_samples_per_second": 256.599,
+      "eval_steps_per_second": 10.703,
+      "step": 350
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 5.72e-06,
+      "loss": 0.4927,
+      "step": 360
+    },
+    {
+      "epoch": 0.39,
+      "eval_f1": 0.778530969617547,
+      "eval_loss": 0.4920683801174164,
+      "eval_runtime": 21.173,
+      "eval_samples_per_second": 261.559,
+      "eval_steps_per_second": 10.91,
+      "step": 360
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 5.320000000000001e-06,
+      "loss": 0.596,
+      "step": 370
+    },
+    {
+      "epoch": 0.4,
+      "eval_f1": 0.7737080595193158,
+      "eval_loss": 0.509250283241272,
+      "eval_runtime": 21.9207,
+      "eval_samples_per_second": 252.638,
+      "eval_steps_per_second": 10.538,
+      "step": 370
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.92e-06,
+      "loss": 0.5932,
+      "step": 380
+    },
+    {
+      "epoch": 0.41,
+      "eval_f1": 0.7900070254555186,
+      "eval_loss": 0.49082762002944946,
+      "eval_runtime": 21.7381,
+      "eval_samples_per_second": 254.76,
+      "eval_steps_per_second": 10.627,
+      "step": 380
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10,
+  "total_flos": 547397542755648.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13e1e98689fe171b8a0795459a7b21fd7f54caa699e8895365cb71eb31905978
+size 4728

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff