Spaces:

GIZ
/

audit_assistant

Running on T4

ppsingh commited on Jul 10, 2024

Commit

3ab64ac

verified ·

1 Parent(s): be6235f

Create doc_process.py

Files changed (1) hide show

auditqa/doc_process.py ADDED Viewed

+import glob
+import os
+from langchain.text_splitter import RecursiveCharacterTextSplitter, SentenceTransformersTokenTextSplitter
+from transformers import AutoTokenizer
+from langchain_community.document_loaders import PyMuPDFLoader
+path_to_data = "./data/"
+def process_pdf():
+    files = {'ABC':'./data/MWTS2021.pdf',
+            'XYZ':'./data/Consolidated2021.pdf'}
+    docs = {}
+    for file,value in files.items():
+        try:
+            docs[file] = PyMuPDFLoader(value).load()
+        except Exception as e:
+            print("Exception: ", e)