ImageDataExtractor2

Sleeping

WebashalarForML commited on Sep 27, 2024

Commit

1acf205

verified ·

1 Parent(s): 6c1d851

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,6 +31,9 @@ if not os.path.exists(app.config['UPLOAD_FOLDER']):
 if not os.path.exists(app.config['RESULT_FOLDER']):
     os.makedirs(app.config['RESULT_FOLDER'])
 @app.route('/')
 def index():
     uploaded_files = session.get('uploaded_files', [])
@@ -91,6 +94,7 @@ def process_file():
     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
     logging.info(f"Processing files: {file_paths}")
     try:
         # Extract text from all images
         extracted_text, processed_Img = extract_text_from_images(file_paths, RESULT_FOLDER)
@@ -109,9 +113,12 @@ def process_file():
         logging.info("Running backup model...")
         # Run the backup model in case of an exception
-        text = json_to_llm_str(extracted_text)
-        LLMdata = NER_Model(text)
-        logging.info(f"NER model data: {LLMdata}")
     cont_data = process_extracted_text(extracted_text)
     logging.info(f"Contextual data: {cont_data}")

 if not os.path.exists(app.config['RESULT_FOLDER']):
     os.makedirs(app.config['RESULT_FOLDER'])
+# Set the PaddleOCR home directory to a writable location
+os.environ['PADDLEOCR_HOME'] = os.path.join(app.config['UPLOAD_FOLDER'], '.paddleocr')  # Change made here
 @app.route('/')
 def index():
     uploaded_files = session.get('uploaded_files', [])
     file_paths = [os.path.join(app.config['UPLOAD_FOLDER'], filename) for filename in uploaded_files]
     logging.info(f"Processing files: {file_paths}")
+    extracted_text = {}  # Initialize extracted_text  # Change made here
     try:
         # Extract text from all images
         extracted_text, processed_Img = extract_text_from_images(file_paths, RESULT_FOLDER)
         logging.info("Running backup model...")
         # Run the backup model in case of an exception
+        if extracted_text:  # Ensure extracted_text has a value before using it  # Change made here
+            text = json_to_llm_str(extracted_text)
+            LLMdata = NER_Model(text)
+            logging.info(f"NER model data: {LLMdata}")
+        else:
+            logging.warning("No extracted text available for backup model")  # Change made here
     cont_data = process_extracted_text(extracted_text)
     logging.info(f"Contextual data: {cont_data}")