Spaces:

HumbleBeeAI
/

al-ghazali-rag-retrieval

Running

App Files Files Community

eli02 commited on 1 day ago

Commit

b37e77c

1 Parent(s): bce0331

update: Refactor model type references to use 'text-embedding-3-small' in embedding generation and search functions

Browse files

Files changed (1) hide show

app.py +5 -5

app.py CHANGED Viewed

@@ -116,10 +116,10 @@ def generate_embedding(model, text, model_type="all-mpnet-base-v2"):
             convert_to_tensor = True
         )
         return np.array(t.Tensor.cpu(chunk_embedding))
-    elif model_type == "openai":
         response = model.embeddings.create(
             input=text,
-            model="text-embedding-3-small"
         )
         return response.data[0].embedding
@@ -127,7 +127,7 @@ def search_query(model, query, df, model_type, n=3):
     if model_type == "all-mpnet-base-v2":
         embedding = generate_embedding(model, query, model_type=model_type)
         df['similarities'] = df.all_mpnet_embedding.apply(lambda x: cosine_similarity(x, embedding))
-    elif model_type == "openai":
         embedding = generate_embedding(model, query, model_type=model_type)
         df['similarities'] = df.openai_embedding.apply(lambda x: cosine_similarity(x, embedding))
     res = df.sort_values('similarities', ascending=False).head(n)
@@ -220,7 +220,7 @@ def main():
             st.session_state.top_results_mpnet = res_mpnet.index.tolist()
             # OpenAI search
-            res_openai = search_query(client, query, df, "openai", n=1)
             st.session_state.top_results_openai = res_openai.index.tolist()
             end_time = timer()
@@ -237,7 +237,7 @@ def main():
                     "text": df.iloc[int(st.session_state.top_results_mpnet[0])]["ext"]
                 },
                 {
-                    "model": "openai",
                     "text": df.iloc[int(st.session_state.top_results_openai[0])]["ext"]
                 }
             ]

             convert_to_tensor = True
         )
         return np.array(t.Tensor.cpu(chunk_embedding))
+    elif model_type == "text-embedding-3-small":
         response = model.embeddings.create(
             input=text,
+            model=model_type
         )
         return response.data[0].embedding
     if model_type == "all-mpnet-base-v2":
         embedding = generate_embedding(model, query, model_type=model_type)
         df['similarities'] = df.all_mpnet_embedding.apply(lambda x: cosine_similarity(x, embedding))
+    elif model_type == "text-embedding-3-small":
         embedding = generate_embedding(model, query, model_type=model_type)
         df['similarities'] = df.openai_embedding.apply(lambda x: cosine_similarity(x, embedding))
     res = df.sort_values('similarities', ascending=False).head(n)
             st.session_state.top_results_mpnet = res_mpnet.index.tolist()
             # OpenAI search
+            res_openai = search_query(client, query, df, "text-embedding-3-small", n=1)
             st.session_state.top_results_openai = res_openai.index.tolist()
             end_time = timer()
                     "text": df.iloc[int(st.session_state.top_results_mpnet[0])]["ext"]
                 },
                 {
+                    "model": "text-embedding-3-small",
                     "text": df.iloc[int(st.session_state.top_results_openai[0])]["ext"]
                 }
             ]