Spaces:

neerajkalyank
/

pdf1excel

Runtime error

App Files Files Community

neerajkalyank commited on Nov 8

Commit

906860c

•

1 Parent(s): e20c41e

Update toshiba.py

Browse files

Files changed (1) hide show

toshiba.py +21 -21

toshiba.py CHANGED Viewed

@@ -1,15 +1,20 @@
 import pdfplumber
 import pandas as pd
 import re
 import tempfile
 def extract_toshiba_data(pdf_file):
     data = []
     purchase_order, order_date = None, None
     with pdfplumber.open(pdf_file) as pdf:
         for page_num, page in enumerate(pdf.pages):
-            # Extract and print the raw text of each page for debugging
             text = page.extract_text()
             if text:
                 print(f"Page {page_num + 1} Content:\n{text}\n{'-' * 40}\n")
@@ -17,48 +22,43 @@ def extract_toshiba_data(pdf_file):
                 print(f"Page {page_num + 1} has no extractable text.\n{'-' * 40}\n")
                 continue
-            # Split text into lines to analyze line by line
             lines = text.splitlines()
-            # Extract Purchase Order and Order Date if not already found
             if not purchase_order or not order_date:
                 for line in lines:
                     po_match = re.search(r'Purchase Order\s*:\s*(P\d+)', line)
                     date_match = re.search(r'Order Date\s*:\s*([\d-]+)', line)
                     if po_match:
                         purchase_order = po_match.group(1)
-                        print(f"Found Purchase Order: {purchase_order}")  # Debug
                     if date_match:
                         order_date = date_match.group(1)
-                        print(f"Found Order Date: {order_date}")  # Debug
-            # Attempt to match item details using a general regex pattern
             for line in lines:
                 item_match = re.match(r'(\d+)\s+(\d+)\s+(.*?)\s+([\d-]+)\s+([\d.]+)\s+([\d.]+)\s+([\d.]+)\s+([\d.]+)', line)
                 if item_match:
-                    pos = int(item_match.group(1))                   # Position number
-                    item_code = item_match.group(2)                 # Item Code
-                    item_name = item_match.group(3).strip()         # Item Name/Description
-                    delivery_date = item_match.group(4)             # Delivery Date
-                    quantity = float(item_match.group(5))           # Quantity
-                    basic_price = float(item_match.group(6))        # Basic Price
-                    amount = float(item_match.group(7))             # Calculated Amount
-                    sub_total = float(item_match.group(8))          # Subtotal or final price
-                    # Append the extracted row to data list
                     data.append([purchase_order, order_date, pos, item_code, item_name, delivery_date, quantity, basic_price, amount, sub_total])
-                    print(f"Matched Item Row: {[purchase_order, order_date, pos, item_code, item_name, delivery_date, quantity, basic_price, amount, sub_total]}")  # Debug
-    # Define DataFrame with the expected structure
     df = pd.DataFrame(data, columns=["Purchase Order", "Order Date", "Pos", "Item Code", "Item Name", "Delivery Date", "Quantity", "Basic Price", "Amount", "SUB TOTAL"])
-    # Save to Excel file
     temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx")
     df.to_excel(temp_file.name, index=False)
     print(f"Data extracted to: {temp_file.name}")
     return temp_file.name
-# Usage example with debug output
-file_path = '/mnt/data/Toshiba PO.pdf'  # Replace this with the actual file path
 output_file = extract_toshiba_data(file_path)
-print(f"Extracted data saved to: {output_file}")

 import pdfplumber
+import os
 import pandas as pd
 import re
 import tempfile
 def extract_toshiba_data(pdf_file):
+    # Check if the file exists
+    if not os.path.exists(pdf_file):
+        print(f"Error: The file '{pdf_file}' does not exist.")
+        return None
     data = []
     purchase_order, order_date = None, None
     with pdfplumber.open(pdf_file) as pdf:
         for page_num, page in enumerate(pdf.pages):
             text = page.extract_text()
             if text:
                 print(f"Page {page_num + 1} Content:\n{text}\n{'-' * 40}\n")
                 print(f"Page {page_num + 1} has no extractable text.\n{'-' * 40}\n")
                 continue
             lines = text.splitlines()
             if not purchase_order or not order_date:
                 for line in lines:
                     po_match = re.search(r'Purchase Order\s*:\s*(P\d+)', line)
                     date_match = re.search(r'Order Date\s*:\s*([\d-]+)', line)
                     if po_match:
                         purchase_order = po_match.group(1)
+                        print(f"Found Purchase Order: {purchase_order}")
                     if date_match:
                         order_date = date_match.group(1)
+                        print(f"Found Order Date: {order_date}")
             for line in lines:
                 item_match = re.match(r'(\d+)\s+(\d+)\s+(.*?)\s+([\d-]+)\s+([\d.]+)\s+([\d.]+)\s+([\d.]+)\s+([\d.]+)', line)
                 if item_match:
+                    pos = int(item_match.group(1))
+                    item_code = item_match.group(2)
+                    item_name = item_match.group(3).strip()
+                    delivery_date = item_match.group(4)
+                    quantity = float(item_match.group(5))
+                    basic_price = float(item_match.group(6))
+                    amount = float(item_match.group(7))
+                    sub_total = float(item_match.group(8))
                     data.append([purchase_order, order_date, pos, item_code, item_name, delivery_date, quantity, basic_price, amount, sub_total])
+                    print(f"Matched Item Row: {[purchase_order, order_date, pos, item_code, item_name, delivery_date, quantity, basic_price, amount, sub_total]}")
     df = pd.DataFrame(data, columns=["Purchase Order", "Order Date", "Pos", "Item Code", "Item Name", "Delivery Date", "Quantity", "Basic Price", "Amount", "SUB TOTAL"])
     temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx")
     df.to_excel(temp_file.name, index=False)
     print(f"Data extracted to: {temp_file.name}")
     return temp_file.name
+# Usage example
+file_path = 'Toshiba PO.pdf'  # Ensure this is the correct path to the PDF file
 output_file = extract_toshiba_data(file_path)
+if output_file:
+    print(f"Extracted data saved to: {output_file}")