Spaces:

MefhigosetH
/

Nuevo-Regimen-Academico

Build error

MefhigosetH commited on Nov 11, 2024

Commit

7ffe358

1 Parent(s): b2f16d4

Implementamos modulo LLM y VectorStore.

Files changed (8) hide show

.gitignore CHANGED Viewed

@@ -1,2 +1,4 @@
 Pipfile.lock
-*.pdf

 Pipfile.lock
+*.pdf
+.env
+chroma_db/

Pipfile CHANGED Viewed

@@ -5,6 +5,14 @@ name = "pypi"
 [packages]
 huggingface-hub = "==0.25.2"
 [dev-packages]
 gradio = "==5.5.0"

 [packages]
 huggingface-hub = "==0.25.2"
+langchain = "*"
+langchain-community = "*"
+langchain-huggingface = "*"
+langchain-chroma = "*"
+einops = "*"
+langchain-google-genai = "*"
+langchain-core = "*"
 [dev-packages]
 gradio = "==5.5.0"
+pypdf = "==5.1.0"

app.py CHANGED Viewed

@@ -2,13 +2,21 @@
 Chatbot Nuevo Régimen Académico
 """
 from chatbot.ui import ChatbotInterface
 def respond(message, history):
-    return f"Escribiste: {message}."
 if __name__ == "__main__":
     ui = ChatbotInterface(respond)
     ui.app.launch()

 Chatbot Nuevo Régimen Académico
 """
 from chatbot.ui import ChatbotInterface
+from chatbot.llm import GeminiAI
+from langchain.globals import set_verbose, set_debug
 def respond(message, history):
+    prompt = llm.getMainTemplate()
+    chain = prompt | llm.llm
+    response = chain.invoke({"message": message, "history": history})
+    return response.content
 if __name__ == "__main__":
+    set_verbose(True)
+    set_debug(True)
+    llm = GeminiAI("gemini-1.5-flash")
     ui = ChatbotInterface(respond)
     ui.app.launch()

chatbot/embeddings.py ADDED Viewed

+"""
+Modulo embeddings
+"""
+from langchain_huggingface import HuggingFaceEmbeddings
+def init_embeddings( embeddings_model_name="jinaai/jina-embeddings-v3" ):
+    """
+    Inicializa y devuelve un modelo para embeddings.
+    """
+    model_kwargs = {"trust_remote_code":True}
+    encode_kwargs = {'normalize_embeddings': False}
+    embeddings = HuggingFaceEmbeddings(
+        model_name=embeddings_model_name,
+        model_kwargs=model_kwargs,
+        encode_kwargs=encode_kwargs,
+        show_progress=True
+    )
+    return embeddings

chatbot/llm.py ADDED Viewed

+"""
+"""
+from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain_core.prompts import ChatPromptTemplate
+class GeminiAI:
+    """
+    Google Gemini AI class.
+    """
+    def __init__(self, llm_model_name: str) -> None:
+        self.llm = ChatGoogleGenerativeAI(model=llm_model_name)
+    def getMainTemplate(self) -> ChatPromptTemplate:
+        """
+        Devuelve el system prompt principal.
+        """
+        prompt = ChatPromptTemplate.from_messages(
+            [
+                ("system",
+                "Eres un asesor experto en la Resolucion 1650/24 de la DGCyE de la Provincia de Buenos Aires.\n"
+                "Tu tarea es utiliza la información de la conversación y el contexto disponible para responder las consultas del usuario.\n"),
+                ("placeholder", "{history}"),
+                ("human", "{message}"),
+            ]
+        )
+        return prompt
+if __name__ == "__main__":
+    llm = GeminiAI("gemini-1.5-flash")
+    response = llm.llm.invoke("Hola")
+    print(response)

chatbot/vectorstore.py ADDED Viewed

+"""
+Modulo que permite gestionar la vector store.
+"""
+from langchain_chroma import Chroma
+import requests, zipfile, io, os
+class ChromaDB:
+    """
+    Clase para gestionar una base ChromaDB
+    """
+    def __init__(self, embedding_model) -> None:
+        if not os.path.exists("chroma_db"):
+            print("Descargando base de conocimiento...")
+            zip_file_url = "https://drive.google.com/uc?export=download&id=" + os.environ["GDRIVE_ID"]
+            r = requests.get(zip_file_url)
+            z = zipfile.ZipFile(io.BytesIO(r.content))
+            z.extractall()
+            print("OK")
+        self.db = Chroma(
+            collection_name="res_1650",
+            embedding_function=embedding_model,
+            persist_directory="./chroma_db",
+        )

ingest.py ADDED Viewed

+"""
+Modulo para procesar el PDF de la resolucion e indexar su contenido en la DB, para su posterior utilización por parte del chatbot.
+Por simplicidad, se indexo un documento por cada página completa del documento. TODO: Implementar estrategia ParentDocumentRetriever.
+"""
+#from langchain_community.document_loaders import PyPDFLoader
+from chatbot.embeddings import init_embeddings
+from chatbot.vectorstore import ChromaDB
+if __name__ == "__main__":
+    #loader = PyPDFLoader("2024_DP_134.pdf")
+    embedding_model = init_embeddings()
+    vector_store = ChromaDB(embedding_model)
+    #for page in loader.lazy_load():
+        #print(f"Procesando pagina {page.metadata['page']} - len: {len(page.page_content)}")
+        #vector_store.add_documents([page])
+    results = vector_store.db.similarity_search(
+        "Cuantos anexos contiene la resolucion?",
+        k=2,
+    )
+    print(results)

requirements.txt CHANGED Viewed