Spaces:

reichaves
/

Chatbot-llama-3.2-90b-text-preview-Brazil-PDF

Running

App Files Files Community

reichaves commited on Sep 29

Commit

77a2047

•

1 Parent(s): f7eaa5d

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -60

app.py CHANGED Viewed

@@ -1,31 +1,16 @@
-# -*- coding: utf-8
-# Reinaldo Chaves (reichaves@gmail.com)
-# Este projeto implementa um sistema de Recuperação de Informações Aumentada por Geração (RAG) conversacional
-# usando Streamlit, LangChain, e modelos de linguagem de grande escala - para entrevistar PDFs
-# Geração de respostas usando o modelo Gemma2-9b-It da Groq
-# Embeddings de texto usando o modelo all-MiniLM-L6-v2 do Hugging Face
-#
-import sys
-import platform
-__import__('pysqlite3')
-sys.modules['sqlite3'] = sys.modules.pop('pysqlite3')
 import streamlit as st
 from langchain.chains import create_history_aware_retriever, create_retrieval_chain
 from langchain.chains.combine_documents import create_stuff_documents_chain
-from langchain_chroma import Chroma
 from langchain_community.chat_message_histories import ChatMessageHistory
 from langchain_core.chat_history import BaseChatMessageHistory
 from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
 from langchain_groq import ChatGroq
 from langchain_core.runnables.history import RunnableWithMessageHistory
-from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import PyPDFLoader
 import os
-import chromadb
 import tempfile
 # Configurar o tema para dark
@@ -56,23 +41,7 @@ st.markdown("""
 # Sidebar com orientações
 st.sidebar.title("Menu")
 st.sidebar.markdown("""
-* Se encontrar erros de processamento, reinicie com F5. Utilize arquivos .PDF com textos não digitalizados como imagens.
-* Para recomeçar uma nova sessão pressione F5.
-**Atenção:** Os documentos que você compartilhar com o modelo de IA generativa podem ser usados pelo Gemini para treinar o sistema. Portanto, evite compartilhar documentos PDF que contenham:
-1. Dados bancários e financeiros
-2. Dados de sua própria empresa
-3. Informações pessoais
-4. Informações de propriedade intelectual
-5. Conteúdos autorais
-E não use IA para escrever um texto inteiro! O auxílio é melhor para gerar resumos, filtrar informações ou auxiliar a entender contextos - que depois devem ser checados. Inteligência Artificial comete erros (alucinações, viés, baixa qualidade, problemas éticos)!
-Este projeto não se responsabiliza pelos conteúdos criados a partir deste site.
-**Sobre este app**
-Este aplicativo foi desenvolvido por Reinaldo Chaves. Para mais informações, contribuições e feedback, visite o [repositório do projeto no GitHub](https://github.com/seu_usuario/seu_repositorio).
 """)
 st.title("RAG conversacional com upload em PDF e histórico de bate-papo")
@@ -112,27 +81,8 @@ if groq_api_key and huggingface_api_token:
         text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
         splits = text_splitter.split_documents(documents)
-        # Create Chroma vector store in batches
-        batch_size = 100  # Adjust this value if needed
-        # Initialize Chroma client with persistence
-        chroma_client = chromadb.PersistentClient(path="./chroma_db")
-        # Create or get the collection
-        collection_name = "pdf_collection"
-        collection = chroma_client.get_or_create_collection(name=collection_name)
-        # Create Chroma vector store
-        vectorstore = Chroma(
-            client=chroma_client,
-            collection_name=collection_name,
-            embedding_function=embeddings
-        )
-        # Add documents in batches
-        for i in range(0, len(splits), batch_size):
-            batch = splits[i:i+batch_size]
-            vectorstore.add_documents(batch)
         st.success(f"Processed {len(splits)} document chunks.")
@@ -155,10 +105,10 @@ if groq_api_key and huggingface_api_token:
         system_prompt = (
             "Você é um assistente para tarefas de resposta a perguntas. Responda em Português do Brasil a menos que seja pedido outro idioma"
-"Use os seguintes pedaços de contexto recuperado para responder "
-"à pergunta. Se você não sabe a resposta, diga que "
-"não sabe. Use no máximo três frases e mantenha a "
-"resposta concisa."
             "\n\n"
             "{context}"
         )
@@ -191,7 +141,7 @@ if groq_api_key and huggingface_api_token:
                     {"input": user_input},
                     config={"configurable": {"session_id": session_id}},
                 )
-            st.write("Assistante:", response['answer'])
             with st.expander("Ver histórico do chat"):
                 for message in session_history.messages:

 import streamlit as st
 from langchain.chains import create_history_aware_retriever, create_retrieval_chain
 from langchain.chains.combine_documents import create_stuff_documents_chain
 from langchain_community.chat_message_histories import ChatMessageHistory
 from langchain_core.chat_history import BaseChatMessageHistory
 from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
 from langchain_groq import ChatGroq
 from langchain_core.runnables.history import RunnableWithMessageHistory
+from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import PyPDFLoader
+from langchain_community.vectorstores import FAISS
 import os
 import tempfile
 # Configurar o tema para dark
 # Sidebar com orientações
 st.sidebar.title("Menu")
 st.sidebar.markdown("""
+# ... [O conteúdo do sidebar permanece o mesmo] ...
 """)
 st.title("RAG conversacional com upload em PDF e histórico de bate-papo")
         text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
         splits = text_splitter.split_documents(documents)
+        # Create FAISS vector store
+        vectorstore = FAISS.from_documents(splits, embeddings)
         st.success(f"Processed {len(splits)} document chunks.")
         system_prompt = (
             "Você é um assistente para tarefas de resposta a perguntas. Responda em Português do Brasil a menos que seja pedido outro idioma"
+            "Use os seguintes pedaços de contexto recuperado para responder "
+            "à pergunta. Se você não sabe a resposta, diga que "
+            "não sabe. Use no máximo três frases e mantenha a "
+            "resposta concisa."
             "\n\n"
             "{context}"
         )
                     {"input": user_input},
                     config={"configurable": {"session_id": session_id}},
                 )
+            st.write("Assistente:", response['answer'])
             with st.expander("Ver histórico do chat"):
                 for message in session_history.messages: