speecht5-finetuned-tamil / tokenizer_config.json

Training in progress, step 100

33987be verified 10 months ago

12.7 kB

	{
	"added_tokens_decoder": {
	"0": {
	"content": "<s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"1": {
	"content": "<pad>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"2": {
	"content": "</s>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"3": {
	"content": "<unk>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"79": {
	"content": "<mask>",
	"lstrip": true,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"80": {
	"content": "<ctc_blank>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"81": {
	"content": "ோ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"82": {
	"content": "ஐ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"83": {
	"content": "ர",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"84": {
	"content": "ம",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"85": {
	"content": "ஃ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"86": {
	"content": "ங",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"87": {
	"content": "ை",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"88": {
	"content": "எ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"89": {
	"content": "ண",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"90": {
	"content": "·",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"91": {
	"content": "ற",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"92": {
	"content": "்",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"93": {
	"content": "அ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"94": {
	"content": "“",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"95": {
	"content": "ெ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"96": {
	"content": "ா",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"97": {
	"content": "ூ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"98": {
	"content": "ி",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"99": {
	"content": "ீ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"100": {
	"content": "‘",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"101": {
	"content": "◯",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"102": {
	"content": "ச",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"103": {
	"content": "ள",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"104": {
	"content": "ழ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"105": {
	"content": "ய",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"106": {
	"content": "ஒ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"107": {
	"content": "ே",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"108": {
	"content": "ஊ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"109": {
	"content": "ஷ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"110": {
	"content": "á",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"111": {
	"content": "ௌ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"112": {
	"content": "ு",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"113": {
	"content": "_",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"114": {
	"content": "ஹ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"115": {
	"content": "ஓ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"116": {
	"content": "ஏ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"117": {
	"content": "&",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"118": {
	"content": "ஸ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"119": {
	"content": "இ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"120": {
	"content": "ஜ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"121": {
	"content": "ட",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"122": {
	"content": "ஔ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"123": {
	"content": "•",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"124": {
	"content": "‚",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"125": {
	"content": "ஞ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"126": {
	"content": "ொ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"127": {
	"content": "ஆ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"128": {
	"content": "ô",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"129": {
	"content": "–",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"130": {
	"content": "š",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"131": {
	"content": "உ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"132": {
	"content": "த",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"133": {
	"content": "வ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"134": {
	"content": "ப",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"135": {
	"content": "ல",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"136": {
	"content": "’",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"137": {
	"content": "●",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"138": {
	"content": "`",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"139": {
	"content": " ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"140": {
	"content": "ഥ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"141": {
	"content": "”",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"142": {
	"content": "ன",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"143": {
	"content": "ந",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"144": {
	"content": "க",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"145": {
	"content": "…",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"146": {
	"content": "′",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"147": {
	"content": "ஈ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"148": {
	"content": "ௗ",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	}
	},
	"bos_token": "<s>",
	"clean_up_tokenization_spaces": true,
	"eos_token": "</s>",
	"mask_token": "<mask>",
	"model_max_length": 600,
	"normalize": false,
	"pad_token": "<pad>",
	"processor_class": "SpeechT5Processor",
	"sp_model_kwargs": {},
	"tokenizer_class": "SpeechT5Tokenizer",
	"unk_token": "<unk>"
	}