|
--- |
|
language: fa |
|
tags: |
|
- paraphrasing |
|
datasets: |
|
- tapaco |
|
widget: |
|
- text: "این یک مقالهٔ خرد آلمان است. میتوانید با گسترش آن به ویکیپدیا کمک کنید." |
|
- text: "برای خرید یک کتاب باید از فروشگاه اینترنتی استفاده کنید." |
|
|
|
--- |
|
|
|
# Persian-t5-paraphraser |
|
|
|
This is a paraphrasing model for the Persian language. It is based on [the monolingual T5 model for Persian.](https://huggingface.co/Ahmad/parsT5-base) |
|
|
|
## Usage |
|
|
|
```python |
|
|
|
>>> pip install transformers |
|
>>> from transformers import (T5ForConditionalGeneration, AutoTokenizer, pipeline) |
|
>>> import torch |
|
|
|
model_path = 'erfan226/persian-t5-paraphraser' |
|
model = T5ForConditionalGeneration.from_pretrained(model_path) |
|
tokenizer = AutoTokenizer.from_pretrained(model_path) |
|
pipe = pipeline(task='text2text-generation', model=model, tokenizer=tokenizer) |
|
|
|
def paraphrase(text): |
|
for j in range(5): |
|
out = pipe(text, encoder_no_repeat_ngram_size=5, do_sample=True, num_beams=5, max_length=128)[0]['generated_text'] |
|
print("Paraphrase:", out) |
|
|
|
text = "این یک مقالهٔ خرد آلمان است. میتوانید با گسترش آن به ویکیپدیا کمک کنید." |
|
print("Original:", text) |
|
paraphrase(text) |
|
|
|
# Original: این یک مقالهٔ خرد آلمان است. میتوانید با گسترش آن به ویکیپدیا کمک کنید. |
|
# Paraphrase: این یک مقالهٔ کوچک است. |
|
# Paraphrase: این یک مقالهٔ کوچک است. |
|
# Paraphrase: شما می توانید با گسترش این مقاله، به کسب و کار خود کمک کنید. |
|
# Paraphrase: می توانید با گسترش این مقالهٔ خرد آلمان کمک کنید. |
|
# Paraphrase: شما می توانید با گسترش این مقالهٔ خرد، به گسترش آن کمک کنید. |
|
|
|
``` |
|
|
|
## Training data |
|
This model was trained on the Persian subset of the [Tapaco dataset](https://huggingface.co/datasets/tapaco). It should be noted that this model was trained on a very small dataset and therefore the performance might not be as expected, for now. |