Spaces:

bacancydataprophets
/

Hitachi-Support-Bot

Sleeping

App Files Files Community

HarshSanghavi commited on Jul 8

Commit

8f4d57a

•

1 Parent(s): f527632

code setup for chatbot

Browse files

Files changed (8) hide show

.gitattributes +3 -0
Document.pdf +3 -0
GPT OUTPUT.docx +3 -0
GPT OUTPUT.pdf +3 -0
app.py +104 -0
app_config.py +19 -0
functions.py +63 -0
requirements.txt +11 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+Document.pdf filter=lfs diff=lfs merge=lfs -text
+GPT[[:space:]]OUTPUT.docx filter=lfs diff=lfs merge=lfs -text
+GPT[[:space:]]OUTPUT.pdf filter=lfs diff=lfs merge=lfs -text

Document.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e3f9050436b8378c016a68fed3dc1496fedfc2e2eb0e993895d234e3aaabb3a
+size 7575218

GPT OUTPUT.docx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1a876e10d48280e2e27551bcb4357c4dfd6339b5201c0343c074574372dd6e2
+size 1386219

GPT OUTPUT.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78f662edaf06fef24c4aa0953ee776d8fad70eee2a4b433209029d08bc75ff17
+size 1351401

app.py ADDED Viewed

	@@ -0,0 +1,104 @@

+import streamlit as st
+import random
+from app_config import SYSTEM_PROMPT, NLP_MODEL_NAME, NUMBER_OF_VECTORS_FOR_RAG, NLP_MODEL_TEMPERATURE, NLP_MODEL_MAX_TOKENS, VECTOR_MAX_TOKENS
+from functions import get_vectorstore_with_doc_from_pdf, tiktoken_len, get_vectorstore_with_doc_from_word
+from langchain.memory import ConversationSummaryBufferMemory
+from langchain_core.messages import SystemMessage, HumanMessage, AIMessage
+from langchain.chains.summarize import load_summarize_chain
+from langchain.prompts import PromptTemplate
+from langchain_groq import ChatGroq
+from dotenv import load_dotenv
+from pathlib import Path
+import os
+from streamlit_pdf_viewer import pdf_viewer
+env_path = Path('.') / '.env'
+load_dotenv(dotenv_path=env_path)
+def response_generator(prompt: str) -> str:
+    """this function can be used for general quetion answers which are related to tyrex and tyre recycling
+    Args:
+        prompt (string): user query
+    Returns:
+        string: answer of the query
+    """
+    try:
+        retriever = st.session_state.retriever
+        docs = retriever.invoke(prompt)
+        my_context = [doc.page_content for doc in docs]
+        my_context = '\n\n'.join(my_context)
+        system_message = SystemMessage(content = SYSTEM_PROMPT.format(context=my_context, previous_message_summary=st.session_state.rag_memory.moving_summary_buffer))
+        chat_messages = (system_message + st.session_state.rag_memory.chat_memory.messages + HumanMessage(content=prompt)).messages
+        print("total tokens: ", tiktoken_len(str(chat_messages)))
+        # print("my_context*********",my_context)
+        response = st.session_state.llm.invoke(chat_messages)
+        return response.content
+    except Exception as error:
+        print(error)
+        return "Oops! something went wrong, please try again."
+st.markdown(
+    """
+<style>
+    .st-emotion-cache-janbn0 {
+        flex-direction: row-reverse;
+        text-align: right;
+    }
+</style>
+""",
+    unsafe_allow_html=True,
+)
+# When user gives input
+with st.sidebar:
+    st.header("Hitachi Support Bot")
+    button = st.toggle("View Doc file.")
+if button:
+    pdf_viewer("GPT OUTPUT.pdf")
+else:
+    print("SYSTEM MESSAGE")
+    if "messages" not in st.session_state:
+        st.session_state.messages=[{"role": "system", "content": SYSTEM_PROMPT}]
+    print("SYSTEM MODEL")
+    if "llm" not in st.session_state:
+        st.session_state.llm = ChatGroq(temperature=NLP_MODEL_TEMPERATURE, groq_api_key=str(os.getenv('GROQ_API_KEY')), model_name=NLP_MODEL_NAME)
+    print("rag")
+    if "rag_memory" not in st.session_state:
+        st.session_state.rag_memory = ConversationSummaryBufferMemory(llm=st.session_state.llm, max_token_limit= 5000)
+    print("retrival")
+    if "retriever" not in st.session_state:
+        # vector_store = get_vectorstore_with_doc_from_pdf('GPT OUTPUT.pdf')
+        vector_store = get_vectorstore_with_doc_from_word('GPT OUTPUT.docx')
+        st.session_state.retriever = vector_store.as_retriever(k=NUMBER_OF_VECTORS_FOR_RAG)
+    print("container")
+    # Display chat messages from history
+    container =  st.container(height=700)
+    for message in st.session_state.messages:
+        if message["role"] != "system":
+            with container.chat_message(message["role"]):
+                st.write(message["content"])
+    if prompt := st.chat_input("Enter your query here... "):
+        with container.chat_message("user"):
+            st.write(prompt)
+        st.session_state.messages.append({"role":"user" , "content":prompt})
+        with container.chat_message("assistant"):
+            response = response_generator(prompt=prompt)
+            print("******************************************************** Response ********************************************************")
+            print("MY RESPONSE IS:", response)
+            st.write(response)
+        print("Response is:", response)
+        st.session_state.rag_memory.save_context({'input': prompt}, {'output': response})
+        st.session_state.messages.append({"role":"assistant" , "content":response})

app_config.py ADDED Viewed

	@@ -0,0 +1,19 @@

+SYSTEM_PROMPT = """
+1. You are Support bot for hitachi corporation. You must answer of any user questions using context only.
+2. if you can't provide the answer of the quetions then only tell them "Thank you for your question! I'm here to help with information related to Hitachi corporation.the answer of this question is not given in this video. If you have any queries about those topics, feel free to ask. For other questions, I recommend reaching out to the appropriate source." nothing else.
+3. User can also give you some greetings like thank you, welcome, please, sorry etc... so you have to handle it appropriately without giving any unnecessary information which is not wanted by user.
+4. any information must be answered from provided context only, you must not to answer outside to the context.
+context: {context}
+"""
+NLP_MODEL_NAME = "llama3-70b-8192"
+REASONING_MODEL_NAME = "mixtral-8x7b-32768"
+REASONING_MODEL_TEMPERATURE = 0
+NLP_MODEL_TEMPERATURE = 0
+NLP_MODEL_MAX_TOKENS = 5400
+VECTOR_MAX_TOKENS = 6000
+VECTORS_TOKEN_OVERLAP_SIZE = 20
+NUMBER_OF_VECTORS_FOR_RAG = 1

functions.py ADDED Viewed

	@@ -0,0 +1,63 @@

+import tiktoken
+from langchain_text_splitters import CharacterTextSplitter
+from langchain_chroma import Chroma
+from langchain_community.embeddings import HuggingFaceBgeEmbeddings
+from langchain.document_loaders import PyMuPDFLoader,Docx2txtLoader
+from transformers import pipeline
+from app_config import VECTOR_MAX_TOKENS, VECTORS_TOKEN_OVERLAP_SIZE
+from langchain.docstore.document import Document
+from dotenv import load_dotenv
+from pathlib import Path
+import os
+env_path = Path('.') / '.env'
+load_dotenv(dotenv_path=env_path)
+tokenizer = tiktoken.get_encoding('cl100k_base')
+# create the length function
+def tiktoken_len(text):
+    tokens = tokenizer.encode(
+        text,
+        disallowed_special=()
+    )
+    return len(tokens)
+def get_vectorstore_with_doc_from_pdf(pdf_path):
+    model_name = "BAAI/bge-small-en"
+    model_kwargs = {"device": "cpu"}
+    encode_kwargs = {"normalize_embeddings": True}
+    hf = HuggingFaceBgeEmbeddings(
+        model_name=model_name, model_kwargs=model_kwargs, encode_kwargs=encode_kwargs
+    )
+    loader = PyMuPDFLoader(pdf_path)
+    documents = loader.load()
+    print(len(documents))
+    all_splits = [doc.page_content for doc in documents]
+    vectorstore = Chroma.from_texts(texts=all_splits, embedding=hf)
+    return vectorstore
+def get_vectorstore_with_doc_from_word(word_path):
+    model_name = "BAAI/bge-small-en"
+    model_kwargs = {"device": "cpu"}
+    encode_kwargs = {"normalize_embeddings": True}
+    hf = HuggingFaceBgeEmbeddings(
+        model_name=model_name, model_kwargs=model_kwargs, encode_kwargs=encode_kwargs
+    )
+    loader = Docx2txtLoader(word_path)
+    documents = loader.load()
+    text_splitter = CharacterTextSplitter(
+        separator="Page :",
+    )
+    # all_splits = text_splitter.split_text(data)
+    print(len(documents))
+    print("all splits ........................")
+    all_splits = text_splitter.split_text(documents[0].page_content)
+    print(len(all_splits))
+    vectorstore = Chroma.from_texts(texts=all_splits, embedding=hf)
+    return vectorstore

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+streamlit
+langchain
+langchain_groq
+python-dotenv
+langchain_community
+langchain_chroma
+tiktoken
+sentence_transformers
+pymupdf
+docx2txt
+streamlit_pdf_viewer