OCR-image-to-text

Sleeping

pragnakalp commited on Dec 3, 2022

Commit

93fe459

•

1 Parent(s): 3554b07

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ from huggingface_hub import Repository
 from datetime import datetime
 import scipy.ndimage.interpolation as inter
 import easyocr
 from datasets import load_dataset, Image, Features, Array3D
 from PIL import Image
 from paddleocr import PaddleOCR
@@ -29,8 +30,8 @@ HF_TOKEN = os.environ.get("HF_TOKEN")
 DATASET_REPO_URL = "https://huggingface.co/datasets/pragnakalp/OCR-img-to-text"
 DATA_FILENAME = "ocr_data.csv"
 DATA_FILE = os.path.join("ocr_data", DATA_FILENAME)
-DATA_FILENAME2 = "image"
-DATA_FILE2 = os.path.join("ocr_data",DATA_FILENAME2)
 HF_TOKEN = os.environ.get("HF_TOKEN")
 DATASET_REPO_ID = "pragnakalp/OCR-img-to-text"
 print("is none?", HF_TOKEN is None)
@@ -153,16 +154,19 @@ def generate_ocr(Method,img):
         new_data=img.reshape(img.shape)
         imge = Image.fromarray(new_data.astype(np.uint8),'RGB')
         add_csv = [Method,imge,text_output]
         with open(DATA_FILE, "a") as f:
             writer = csv.writer(f)
             # write the data
             writer.writerow(add_csv)
             commit_url = repo.push_to_hub()
             print(commit_url)
-        print("^^%%",Image.fromarray(img).save(DATA_FILE2 +"/"+ f"{image_id}.png"))
         # with open(DATA_FILE2, "wt") as csvfile:
         #     writer = csv.writer(
         #         csvfile, delimiter=" ", quotechar="|", quoting=csv.QUOTE_MINIMAL

 from datetime import datetime
 import scipy.ndimage.interpolation as inter
 import easyocr
+import datasets
 from datasets import load_dataset, Image, Features, Array3D
 from PIL import Image
 from paddleocr import PaddleOCR
 DATASET_REPO_URL = "https://huggingface.co/datasets/pragnakalp/OCR-img-to-text"
 DATA_FILENAME = "ocr_data.csv"
 DATA_FILE = os.path.join("ocr_data", DATA_FILENAME)
+# DATA_FILENAME2 = "image"
+# DATA_FILE2 = os.path.join("ocr_data",DATA_FILENAME2)
 HF_TOKEN = os.environ.get("HF_TOKEN")
 DATASET_REPO_ID = "pragnakalp/OCR-img-to-text"
 print("is none?", HF_TOKEN is None)
         new_data=img.reshape(img.shape)
         imge = Image.fromarray(new_data.astype(np.uint8),'RGB')
         add_csv = [Method,imge,text_output]
+        feature = datasets.Image(decode=False)
+        new_image = {'image': feature.encode_example(imge)}
+        dataset['test'] = dataset['test'].add_item(new_image)
         with open(DATA_FILE, "a") as f:
             writer = csv.writer(f)
             # write the data
             writer.writerow(add_csv)
             commit_url = repo.push_to_hub()
             print(commit_url)
+        # print("^^%%",Image.fromarray(img).save(DATA_FILE2 +"/"+ f"{image_id}.png"))
         # with open(DATA_FILE2, "wt") as csvfile:
         #     writer = csv.writer(
         #         csvfile, delimiter=" ", quotechar="|", quoting=csv.QUOTE_MINIMAL