felipebandeira
/

donutlicenses3v3

vision-encoder-decoder

image-text-to-text

Inference Endpoints

Model card Files Files and versions Community

donutlicenses3v3 / README.md

felipebandeira's picture

Update README.md

f637104 over 1 year ago

|

history blame contribute delete

698 Bytes

	---
	license: mit
	datasets:
	- felipebandeira/driverlicenses2k
	language:
	- en
	metrics:
	- accuracy
	pipeline_tag: image-to-text
	---

	This model extracts information from EU driver's licenses and returns it as JSON. For optimal performance, we recommend that input images:
	- have a size of 1192x772
	- have high resolution and do not contain light reflection effects

	Accuracy
	- on validation set: 98%
	- on set of real licenses: 63.93%

	Article describing model:
	https://medium.com/@ofelipebandeira/transformers-vs-ocr-who-can-read-better-192e6b044dd3

	Article describing synthetic dataset used in training:
	https://python.plainenglish.io/how-to-create-synthetic-datasets-of-document-images-5f140dee5e40