🪨 Granite-Vision 3.3-2B-1.1 — RU small Table Extractor by NIKTA AI
Была обучена на небольшом синтетическом датасете для тестирования на pdf таблицах печатного шрифта для сравнения с Qwen-2.5-VL-3b, Granite-Vision-3.3-2B(оригинал).
Полный чекпойнт (IBM Granite-Vision 3.3-2B + QLoRA-файнтюн) для извлечения таблиц на русском языке из изображений экстракшн таблиц.
✅ Отвечает строго в формате валидного JSON:
{"columns": [...], "rows": [[...], [...]]}
📊 Бенчмарк (примерные результаты и разница между моделями)
| Таблица | IBM Granite (base) | Granite-RU (этот репозиторий) | Ошибки | 
|---|---|---|---|
| table_1.png | ✅ | ✅ | — | 
| table_2.png | ✅ | ⚠ | Блохин→БложинПавловна→Гавловна | 
| table_3.png | ✅ | ✅ | — | 
| table_4.png | ⚠ rowsбез вложенности (неверно) | ✅ rowsвложенный формат | — | 
| table_5.png | ✅ | ✅ | — | 
Вывод:Granite-RU обходит оригинальный ibm-granite-3.3-2b и Qwen 2.5 VL 3b в точности, особенно в структурной корректности: rows всегда двухмерный список ([[...], [...]]), что упрощает последующую обработку. Ошибки сведены к минимуму.
🚀 Быстрый старт
from transformers import AutoModelForVision2Seq, AutoProcessor
from PIL import Image
import json, torch
model_id = "fron1runner/granite-ru"
model = (AutoModelForVision2Seq
         .from_pretrained(model_id, _attn_implementation="sdpa")
         .half().cuda())
proc = AutoProcessor.from_pretrained(model_id)
img = Image.open("sample.png").convert("RGB")
prompt = proc.apply_chat_template([
    {
        "role": "system",
        "content": [{"type": "text", "text": "Отвечай только валидным JSON {\"columns\":[],\"rows\":[[]]}."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": img},
            {"type": "text", "text": "Извлеки таблицу полностью и верни только JSON."}
        ]
    }
], add_generation_prompt=True)
batch = proc(text=prompt, images=[[img]], return_tensors="pt").to("cuda")
out = model.generate(**batch, max_new_tokens=384, temperature=0.1)
print(json.loads(proc.decode(out[0], skip_special_tokens=True)))
🧠 Подходит для
- Систем документооборота
- OCR-интеграций с AI
- RAG-систем
- Финансовых, юридических, административных таблиц
- Препроцессинга для LLM
- Средних и малых таблиц
🧪 Model by fron1runner NIKTA AI company
На базе ibm-granite/granite-vision-3.3-2b с лёгким QLoRA дообучением на синтетике.
Автор: Компания NIKTA AI, Виктор Колесников
- Downloads last month
- 3
	Inference Providers
	NEW
	
	
	This model isn't deployed by any Inference Provider.
	🙋
			
		Ask for provider support
Model tree for fron1runner/granite-ru
Base model
ibm-granite/granite-vision-3.3-2b