Spaces:

Aekanun
/

Thai-HandWriting-to-Text

Running on Zero

App Files Files Community

Aekanun commited on Nov 16, 2024

Commit

17ba373

1 Parent(s): 0502f94

fixing

Browse files

Files changed (1) hide show

app.py +17 -2

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 import warnings
 import torch
 import gc
-from transformers import AutoModelForVision2Seq, AutoProcessor, BitsAndBytesConfig
 from PIL import Image
 import gradio as gr
 from huggingface_hub import login
@@ -28,6 +28,14 @@ def load_model_and_processor():
         base_model_path = "meta-llama/Llama-3.2-11B-Vision-Instruct"
         hub_model_path = "Aekanun/thai-handwriting-llm"
         bnb_config = BitsAndBytesConfig(
             load_in_4bit=True,
             bnb_4bit_use_double_quant=True,
@@ -46,6 +54,7 @@ def load_model_and_processor():
         print("Loading model...")
         model = AutoModelForVision2Seq.from_pretrained(
             hub_model_path,
             device_map="auto",
             torch_dtype=torch.bfloat16,
             quantization_config=bnb_config,
@@ -59,15 +68,18 @@ def load_model_and_processor():
         return False
 def process_handwriting(image):
     global model, processor
     if image is None:
         return "กรุณาอัพโหลดรูปภาพ"
     try:
         if not isinstance(image, Image.Image):
             image = Image.fromarray(image)
         if image.mode != "RGB":
             image = image.convert("RGB")
@@ -102,14 +114,17 @@ Only return the transcription in Thai language."""
     except Exception as e:
         return f"เกิดข้อผิดพลาด: {str(e)}"
 print("กำลังเริ่มต้นแอปพลิเคชัน...")
 if load_model_and_processor():
     demo = gr.Interface(
         fn=process_handwriting,
         inputs=gr.Image(type="pil", label="อัพโหลดรูปลายมือเขียนภาษาไทย"),
         outputs=gr.Textbox(label="ข้อความที่แปลงได้"),
         title="Thai Handwriting Recognition",
-        description="อัพโหลดรูปภาพลายมือเขียนภาษาไทยเพื่อแปลงเป็นข้อความ"
     )
     if __name__ == "__main__":

 import warnings
 import torch
 import gc
+from transformers import AutoModelForVision2Seq, AutoProcessor, BitsAndBytesConfig, AutoConfig
 from PIL import Image
 import gradio as gr
 from huggingface_hub import login
         base_model_path = "meta-llama/Llama-3.2-11B-Vision-Instruct"
         hub_model_path = "Aekanun/thai-handwriting-llm"
+        # Load and set config
+        config = AutoConfig.from_pretrained(
+            hub_model_path,
+            trust_remote_code=True,
+            token=os.environ.get('HUGGING_FACE_HUB_TOKEN')
+        )
+        config.model_type = "vision2seq"
         bnb_config = BitsAndBytesConfig(
             load_in_4bit=True,
             bnb_4bit_use_double_quant=True,
         print("Loading model...")
         model = AutoModelForVision2Seq.from_pretrained(
             hub_model_path,
+            config=config,
             device_map="auto",
             torch_dtype=torch.bfloat16,
             quantization_config=bnb_config,
         return False
 def process_handwriting(image):
+    """ฟังก์ชันสำหรับ Gradio interface"""
     global model, processor
     if image is None:
         return "กรุณาอัพโหลดรูปภาพ"
     try:
+        # Ensure image is in PIL format
         if not isinstance(image, Image.Image):
             image = Image.fromarray(image)
+        # Convert to RGB if needed
         if image.mode != "RGB":
             image = image.convert("RGB")
     except Exception as e:
         return f"เกิดข้อผิดพลาด: {str(e)}"
+# Initialize application
 print("กำลังเริ่มต้นแอปพลิเคชัน...")
 if load_model_and_processor():
+    # Create Gradio interface
     demo = gr.Interface(
         fn=process_handwriting,
         inputs=gr.Image(type="pil", label="อัพโหลดรูปลายมือเขียนภาษาไทย"),
         outputs=gr.Textbox(label="ข้อความที่แปลงได้"),
         title="Thai Handwriting Recognition",
+        description="อัพโหลดรูปภาพลายมือเขียนภาษาไทยเพื่อแปลงเป็นข้อความ",
+        examples=[["example1.jpg"], ["example2.jpg"]]
     )
     if __name__ == "__main__":