truong-xuan-linh
/

VQA-vit5

Text2Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

VQA-vit5 / README.md

truong-xuan-linh's picture

truong-xuan-linh

Update README.md

5c2bd87 verified 7 months ago

|

history blame contribute delete

370 Bytes

Question:

Encoder: ViT5-base
Max length: 32
Pre-Processing: lower, remove special character

Image:

Encoder: VIT-base
Pre-Processing: None

OCR:

Text Detection: Paddle OCR
Text Recognition: VietOCR
- Threshold: 0.8
Max length: 128
Post-processing: group layout, divide=4

Answer:

Max length: 56

Result:

Dev:
- CIDEr: 3.4616
- BLEU: 0.4689