Spaces:

histlearn
/

BoletimSed

Sleeping

App Files Files Community

histlearn commited on Oct 27, 2024

Commit

50785d0

verified ·

1 Parent(s): 2553f75

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -53

app.py CHANGED Viewed

@@ -123,6 +123,7 @@ def calcular_frequencia_media(frequencias):
 def extrair_tabelas_pdf(pdf_path):
     """Extrai tabelas do PDF e retorna um DataFrame processado."""
     try:
         tables = camelot.read_pdf(pdf_path, pages='all', flavor='lattice')
         print(f"Tabelas extraídas: {len(tables)}")
@@ -131,61 +132,51 @@ def extrair_tabelas_pdf(pdf_path):
         info_aluno = {}
-        # Primeira passagem: procurar informações do cabeçalho
-        for table in tables:
-            df_temp = table.df
-            # Iterar por todas as linhas procurando as informações
-            for i in range(len(df_temp)):
-                for j in range(len(df_temp.columns)):
-                    valor = str(df_temp.iloc[i, j]).strip()
-                    # Buscar nome do aluno
-                    if 'Nome do Aluno:' in valor:
-                        # Pegar o valor na próxima coluna ou próxima linha
-                        if j + 1 < len(df_temp.columns):
-                            nome = str(df_temp.iloc[i, j + 1]).strip()
-                        elif i + 1 < len(df_temp):
-                            nome = str(df_temp.iloc[i + 1, j]).strip()
-                        if nome and nome != 'Nome do Aluno:':
-                            info_aluno['nome'] = nome
-                    # Buscar RA
-                    elif 'RA:' in valor:
-                        # Pegar o valor na próxima coluna ou próxima linha
-                        if j + 1 < len(df_temp.columns):
-                            ra = str(df_temp.iloc[i, j + 1]).strip()
-                        elif i + 1 < len(df_temp):
-                            ra = str(df_temp.iloc[i + 1, j]).strip()
-                        if ra and ra != 'RA:':
-                            info_aluno['ra'] = ra
-                    # Buscar escola
-                    elif 'Escola:' in valor:
-                        # Pegar o valor na próxima coluna ou próxima linha
-                        if j + 1 < len(df_temp.columns):
-                            escola = str(df_temp.iloc[i, j + 1]).strip()
-                        elif i + 1 < len(df_temp):
-                            escola = str(df_temp.iloc[i + 1, j]).strip()
-                        if escola and escola != 'Escola:':
-                            info_aluno['escola'] = escola
-                    # Buscar turma
-                    elif 'Turma:' in valor:
-                        # Pegar o valor na próxima coluna ou próxima linha
-                        if j + 1 < len(df_temp.columns):
-                            turma = str(df_temp.iloc[i, j + 1]).strip()
-                        elif i + 1 < len(df_temp):
-                            turma = str(df_temp.iloc[i + 1, j]).strip()
-                        if turma and turma != 'Turma:':
-                            info_aluno['turma'] = turma
-        # Segunda passagem: encontrar a tabela de notas
         df_notas = None
-        for table in tables:
             df_temp = table.df
-            if 'Disciplina' in str(df_temp.iloc[0,0]):
-                df_notas = df_temp
                 df_notas = df_notas.rename(columns={
                     0: 'Disciplina',
                     1: 'Nota B1', 2: 'Freq B1', 3: '%Freq B1', 4: 'AC B1',
@@ -194,7 +185,6 @@ def extrair_tabelas_pdf(pdf_path):
                     13: 'Nota B4', 14: 'Freq B4', 15: '%Freq B4', 16: 'AC B4',
                     17: 'CF', 18: 'Nota Final', 19: 'Freq Final', 20: 'AC Final'
                 })
-                break
         if df_notas is None:
             raise ValueError("Tabela de notas não encontrada")
@@ -202,10 +192,15 @@ def extrair_tabelas_pdf(pdf_path):
         # Adicionar informações do aluno ao DataFrame
         df_notas.attrs.update(info_aluno)
         print("\nInformações do aluno encontradas:")
         for campo, valor in info_aluno.items():
             print(f"{campo}: {valor}")
         return df_notas
     except Exception as e:

 def extrair_tabelas_pdf(pdf_path):
     """Extrai tabelas do PDF e retorna um DataFrame processado."""
     try:
+        # Extrair todas as tabelas
         tables = camelot.read_pdf(pdf_path, pages='all', flavor='lattice')
         print(f"Tabelas extraídas: {len(tables)}")
         info_aluno = {}
+        # Primeira tabela deve conter as informações do aluno
+        primeira_tabela = tables[0].df
+        # Iterar por cada linha da primeira tabela
+        for i in range(len(primeira_tabela)):
+            linha_atual = primeira_tabela.iloc[i].astype(str)
+            linha_seguinte = primeira_tabela.iloc[i + 1].astype(str) if i + 1 < len(primeira_tabela) else None
+            # Procurar cada informação específica
+            for col in range(len(linha_atual)):
+                valor = str(linha_atual[col]).strip()
+                if "Nome do Aluno:" in valor and linha_seguinte is not None:
+                    nome = str(linha_seguinte[col]).strip()
+                    if nome and nome != "Nome do Aluno:":
+                        info_aluno['nome'] = nome
+                        print(f"Nome encontrado: {nome}")
+                elif "RA:" in valor and linha_seguinte is not None:
+                    ra = str(linha_seguinte[col]).strip()
+                    if ra and ra != "RA:":
+                        info_aluno['ra'] = ra
+                        print(f"RA encontrado: {ra}")
+                elif "Escola:" in valor and linha_seguinte is not None:
+                    escola = str(linha_seguinte[col]).strip()
+                    if escola and escola != "Escola:":
+                        info_aluno['escola'] = escola
+                        print(f"Escola encontrada: {escola}")
+                elif "Turma:" in valor and linha_seguinte is not None:
+                    turma = str(linha_seguinte[col]).strip()
+                    if turma and turma != "Turma:":
+                        info_aluno['turma'] = turma
+                        print(f"Turma encontrada: {turma}")
+        # Encontrar a tabela de notas (geralmente a maior tabela)
         df_notas = None
+        maior_tabela = 0
+        for idx, table in enumerate(tables):
             df_temp = table.df
+            if len(df_temp) > maior_tabela and 'Disciplina' in str(df_temp.iloc[0,0]):
+                maior_tabela = len(df_temp)
+                df_notas = df_temp.copy()
                 df_notas = df_notas.rename(columns={
                     0: 'Disciplina',
                     1: 'Nota B1', 2: 'Freq B1', 3: '%Freq B1', 4: 'AC B1',
                     13: 'Nota B4', 14: 'Freq B4', 15: '%Freq B4', 16: 'AC B4',
                     17: 'CF', 18: 'Nota Final', 19: 'Freq Final', 20: 'AC Final'
                 })
         if df_notas is None:
             raise ValueError("Tabela de notas não encontrada")
         # Adicionar informações do aluno ao DataFrame
         df_notas.attrs.update(info_aluno)
+        # Debug: mostrar todas as informações encontradas
         print("\nInformações do aluno encontradas:")
         for campo, valor in info_aluno.items():
             print(f"{campo}: {valor}")
+        # Debug: mostrar primeira tabela para verificação
+        print("\nPrimeira tabela (para debug):")
+        print(primeira_tabela)
         return df_notas
     except Exception as e: