raygx
/

Nepali_BPE_Tokenizer

Model card Files Files and versions Community

raygx commited on Jul 11, 2023

Commit

ad00119

•

1 Parent(s): e06ff66

Create README.md

Files changed (1) hide show

README.md +9 -0

README.md ADDED Viewed

	@@ -0,0 +1,9 @@

+# This is only a tokenizer.
+- This tokenizer is a PreTrainedTokenizerFast which is trained on raygx/Nepali-Extended-Corpus datasets.
+- This tokenizer is trained from scratch using Tokenizers library.
+- This tokenizer uses
+  - Model: BPE(unk_token="[UNK]")
+  - Normalizer: normalizers.Sequence([NFD(),Strip()])
+  - Pre-processor: pre_tokenizers.Sequence([Whitespace(),Digits(individual_digits=True), Punctuation()])
+  - Post-processor: BertProcessing