Spaces:

DSatishchandra
/

POExtraction_UC3

Runtime error

App Files Files Community

DSatishchandra commited on Nov 12, 2024

Commit

8a41643

verified ·

1 Parent(s): c4a3be0

Update parse_bhel.py

Browse files

Files changed (1) hide show

parse_bhel.py +32 -4

parse_bhel.py CHANGED Viewed

@@ -1,23 +1,51 @@
 import pdfplumber
 import pandas as pd
 def parse_bhel_pdf(pdf_path):
     columns = [
         "Purchase Order No", "Date", "Sl No", "Material Description",
         "Unit", "Quantity", "Dely Qty", "Dely Date", "Unit Rate", "Value"
     ]
     data = []
     with pdfplumber.open(pdf_path) as pdf:
         for page in pdf.pages:
             table = page.extract_table()
             if table:
-                for row in table[1:]:  # Skip header row
-                    # Only add rows that have exactly 10 columns
-                    if len(row) == 10:
                         data.append(row)
                     else:
-                        print(f"Skipping row due to column mismatch: {row}")
     # Create a DataFrame with the specified columns
     df = pd.DataFrame(data, columns=columns)

 import pdfplumber
 import pandas as pd
+def preprocess_rows(rows, expected_columns):
+    aligned_rows = []
+    buffer = []
+    for row in rows:
+        # If the row has the correct number of columns, add it as-is
+        if len(row) == expected_columns:
+            # If there's buffered content from previous rows, add it before this row
+            if buffer:
+                aligned_rows.append(buffer)
+                buffer = []  # Clear the buffer
+            aligned_rows.append(row)
+        else:
+            # If row has fewer columns, treat it as a continuation and add to the buffer
+            if buffer:
+                buffer = [f"{b} {r}" if r else b for b, r in zip(buffer, row + [""] * (len(buffer) - len(row)))]
+            else:
+                buffer = row  # Initialize the buffer with the row
+    # If there's any remaining buffered row, add it to aligned rows
+    if buffer:
+        aligned_rows.append(buffer)
+    return aligned_rows
 def parse_bhel_pdf(pdf_path):
     columns = [
         "Purchase Order No", "Date", "Sl No", "Material Description",
         "Unit", "Quantity", "Dely Qty", "Dely Date", "Unit Rate", "Value"
     ]
+    expected_columns = len(columns)
     data = []
     with pdfplumber.open(pdf_path) as pdf:
         for page in pdf.pages:
             table = page.extract_table()
             if table:
+                # Skip the header row and preprocess rows to align data
+                rows = preprocess_rows(table[1:], expected_columns)
+                for row in rows:
+                    # Only add rows that match the expected number of columns after preprocessing
+                    if len(row) == expected_columns:
                         data.append(row)
                     else:
+                        print(f"Skipping unalignable row: {row}")
     # Create a DataFrame with the specified columns
     df = pd.DataFrame(data, columns=columns)