ydshieh
/

wav2vec2-large-xlsr-53-chinese-zh-cn-gpt

@@ -74,7 +74,10 @@ The model can be evaluated as follows on the zh-CN test data of Common Voice.
 Original CER calculation refer to https://huggingface.co/ctl/wav2vec2-large-xlsr-cantonese
 ```python
-# pip install jiwer
 import torch
 import torchaudio
@@ -114,7 +117,7 @@ processor = Wav2Vec2Processor.from_pretrained("ydshieh/wav2vec2-large-xlsr-53-ch
 model = Wav2Vec2ForCTC.from_pretrained("ydshieh/wav2vec2-large-xlsr-53-chinese-zh-cn-gpt")
 model.to("cuda")
-chars_to_ignore_regex = '[\\\\\\\\,\\\\\\\\?\\\\\\\\.\\\\\\\\!\\\\\\\\-\\\\\\\\;\\\\\\\\:"\\\\\\\\“\\\\\\\\%\\\\\\\\‘\\\\\\\\”\\\\\\\\�\\\\\\\\．\\\\\\\\⋯\\\\\\\\！\\\\\\\\－\\\\\\\\：\\\\\\\\–\\\\\\\\。\\\\\\\\》\\\\\\\\,\\\\\\\\）\\\\\\\\,\\\\\\\\？\\\\\\\\；\\\\\\\\～\\\\\\\\~\\\\\\\\…\\\\\\\\︰\\\\\\\\，\\\\\\\\（\\\\\\\\」\\\\\\\\‧\\\\\\\\《\\\\\\\\﹔\\\\\\\\、\\\\\\\\—\\\\\\\\／\\\\\\\\,\\\\\\\\「\\\\\\\\﹖\\\\\\\\·\\\\\\\\×\\\\\\\\̃\\\\\\\\̌\\\\\\\\ε\\\\\\\\λ\\\\\\\\μ\\\\\\\\и\\\\\\\\т\\\\\\\\─\\\\\\\\□\\\\\\\\〈\\\\\\\\〉\\\\\\\\『\\\\\\\\』\\\\\\\\ア\\\\\\\\オ\\\\\\\\カ\\\\\\\\チ\\\\\\\\ド\\\\\\\\ベ\\\\\\\\ャ\\\\\\\\ヤ\\\\\\\\ン\\\\\\\\・\\\\\\\\丶\\\\\\\\ａ\\\\\\\\ｂ\\\\\\\\ｆ\\\\\\\\ｇ\\\\\\\\ｉ\\\\\\\\ｎ\\\\\\\\ｐ\\\\\\\\ｔ' + "\\\\\\\\']"
 resampler = torchaudio.transforms.Resample(48_000, 16_000)

 Original CER calculation refer to https://huggingface.co/ctl/wav2vec2-large-xlsr-cantonese
 ```python
+#!pip install datasets==1.4.1
+#!pip install transformers==4.4.0
+#!pip install torchaudio
+#!pip install jiwer
 import torch
 import torchaudio
 model = Wav2Vec2ForCTC.from_pretrained("ydshieh/wav2vec2-large-xlsr-53-chinese-zh-cn-gpt")
 model.to("cuda")
+chars_to_ignore_regex = '[\\\\\\\\\\\\\\\\,\\\\\\\\\\\\\\\\?\\\\\\\\\\\\\\\\.\\\\\\\\\\\\\\\\!\\\\\\\\\\\\\\\\-\\\\\\\\\\\\\\\\;\\\\\\\\\\\\\\\\:"\\\\\\\\\\\\\\\\“\\\\\\\\\\\\\\\\%\\\\\\\\\\\\\\\\‘\\\\\\\\\\\\\\\\”\\\\\\\\\\\\\\\\�\\\\\\\\\\\\\\\\．\\\\\\\\\\\\\\\\⋯\\\\\\\\\\\\\\\\！\\\\\\\\\\\\\\\\－\\\\\\\\\\\\\\\\：\\\\\\\\\\\\\\\\–\\\\\\\\\\\\\\\\。\\\\\\\\\\\\\\\\》\\\\\\\\\\\\\\\\,\\\\\\\\\\\\\\\\）\\\\\\\\\\\\\\\\,\\\\\\\\\\\\\\\\？\\\\\\\\\\\\\\\\；\\\\\\\\\\\\\\\\～\\\\\\\\\\\\\\\\~\\\\\\\\\\\\\\\\…\\\\\\\\\\\\\\\\︰\\\\\\\\\\\\\\\\，\\\\\\\\\\\\\\\\（\\\\\\\\\\\\\\\\」\\\\\\\\\\\\\\\\‧\\\\\\\\\\\\\\\\《\\\\\\\\\\\\\\\\﹔\\\\\\\\\\\\\\\\、\\\\\\\\\\\\\\\\—\\\\\\\\\\\\\\\\／\\\\\\\\\\\\\\\\,\\\\\\\\\\\\\\\\「\\\\\\\\\\\\\\\\﹖\\\\\\\\\\\\\\\\·\\\\\\\\\\\\\\\\×\\\\\\\\\\\\\\\\̃\\\\\\\\\\\\\\\\̌\\\\\\\\\\\\\\\\ε\\\\\\\\\\\\\\\\λ\\\\\\\\\\\\\\\\μ\\\\\\\\\\\\\\\\и\\\\\\\\\\\\\\\\т\\\\\\\\\\\\\\\\─\\\\\\\\\\\\\\\\□\\\\\\\\\\\\\\\\〈\\\\\\\\\\\\\\\\〉\\\\\\\\\\\\\\\\『\\\\\\\\\\\\\\\\』\\\\\\\\\\\\\\\\ア\\\\\\\\\\\\\\\\オ\\\\\\\\\\\\\\\\カ\\\\\\\\\\\\\\\\チ\\\\\\\\\\\\\\\\ド\\\\\\\\\\\\\\\\ベ\\\\\\\\\\\\\\\\ャ\\\\\\\\\\\\\\\\ヤ\\\\\\\\\\\\\\\\ン\\\\\\\\\\\\\\\\・\\\\\\\\\\\\\\\\丶\\\\\\\\\\\\\\\\ａ\\\\\\\\\\\\\\\\ｂ\\\\\\\\\\\\\\\\ｆ\\\\\\\\\\\\\\\\ｇ\\\\\\\\\\\\\\\\ｉ\\\\\\\\\\\\\\\\ｎ\\\\\\\\\\\\\\\\ｐ\\\\\\\\\\\\\\\\ｔ' + "\\\\\\\\\\\\\\\\']"
 resampler = torchaudio.transforms.Resample(48_000, 16_000)