iioSnail
/

ReaLiSe-for-csc

Feature Extraction

Chinese Spell Correction

Chinese Spell Checking

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

iioSnail commited on Sep 21, 2023

Commit

9635637

•

1 Parent(s): 6083b5f

Update README.md

Files changed (1) hide show

README.md +36 -2

README.md CHANGED Viewed

@@ -22,7 +22,6 @@ tags:
 |  | Detect-Acc | Detect-Precision | Detect-Recall | Detect-F1 | Correct-Acc | Correct-Precision | Correct-Recall | Correct-F1 |
 |--|--|--|--|--|--|--|--|--|
-| Chararcter-level | - | - | - | 87.16 | - | - | - | 91.39 |
 | Sentence-level | 84.7 | 77.3 | 81.3 | 79.3 | 84.0 | 75.9 | 79.9 | 77.8 |
@@ -31,6 +30,15 @@ tags:
 [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/iioSnail/SCOPE/blob/main/ChineseBERT-for-csc_Demo.ipynb)
 ```
 from transformers import AutoTokenizer, AutoModel
@@ -58,14 +66,40 @@ model = AutoModel.from_pretrained("iioSnail/ReaLiSe-for-csc", trust_remote_code=
 model.set_tokenizer(tokenizer)  # 使用predict方法前，调用该方法
 print(model.predict("我是练习时长两念半的鸽仁练习生蔡徐坤"))
 ```
 输出：
 ```
-我是练习时长两年半的鸽人练习生蔡徐坤
 ```
 # 常见问题
 1. 网络问题，例如：`Connection Error`

 |  | Detect-Acc | Detect-Precision | Detect-Recall | Detect-F1 | Correct-Acc | Correct-Precision | Correct-Recall | Correct-F1 |
 |--|--|--|--|--|--|--|--|--|
 | Sentence-level | 84.7 | 77.3 | 81.3 | 79.3 | 84.0 | 75.9 | 79.9 | 77.8 |
 [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/iioSnail/SCOPE/blob/main/ChineseBERT-for-csc_Demo.ipynb)
+安装依赖：
+```
+!pip install transformers
+!pip install pypinyin
+!pip install boto3
+```
 ```
 from transformers import AutoTokenizer, AutoModel
 model.set_tokenizer(tokenizer)  # 使用predict方法前，调用该方法
 print(model.predict("我是练习时长两念半的鸽仁练习生蔡徐坤"))
+print(model.predict(["我是练习时长两念半的鸽仁练习生蔡徐坤", "喜换唱跳、rap 和 蓝球"]))
+```
+输出：
+```
+我是练习时长两年半的各仁练习生蔡徐坤
+['我是练习时长两年半的各仁练习生蔡徐坤', '喜欢唱跳、rap 和 蓝球']
+```
+# 模型训练
+```
+from transformers import AutoTokenizer, AutoModel
+tokenizer = AutoTokenizer.from_pretrained("iioSnail/ReaLiSe-for-csc", trust_remote_code=True)
+model = AutoModel.from_pretrained("iioSnail/ReaLiSe-for-csc", trust_remote_code=True)
+inputs = tokenizer(["我是炼习时长两念半的个人练习生蔡徐坤", "喜换唱跳rap蓝球"],
+                   text_target=["我是练习时长两年半的个人练习生蔡徐坤", "喜欢唱跳rap篮球"],
+                   padding=True,
+                   return_tensors='pt')
+loss = model(**inputs).loss
+print("loss:", loss)
+loss.backward()
 ```
 输出：
 ```
+loss: tensor(0.6515, grad_fn=<NllLossBackward0>)
 ```
 # 常见问题
 1. 网络问题，例如：`Connection Error`