MoviesSemanticSearchTesting2

Paused

App Files Files Community

opex792 commited on Dec 30, 2024

Commit

a6d25e6

verified ·

1 Parent(s): 58ca2ed

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -9

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import queue
 import torch
 import psycopg2
 import zlib
 from urllib.parse import urlparse
 import logging
@@ -87,7 +88,7 @@ def setup_database():
             cur.execute("CREATE EXTENSION IF NOT EXISTS vector;")
             # Удаляем существующие таблицы если они есть
-            # cur.execute(f"DROP TABLE IF EXISTS {embeddings_table}, {query_cache_table};")
             # Создаем таблицу для хранения эмбеддингов фильмов
             cur.execute(f"""
@@ -98,7 +99,6 @@ def setup_database():
                     model_name TEXT,
                     embedding vector(1024)
                 );
-                CREATE INDEX ON {embeddings_table} USING ivfflat (embedding vector_cosine_ops);
                 CREATE INDEX ON {embeddings_table} (string_crc32);
             """)
@@ -111,7 +111,6 @@ def setup_database():
                     embedding vector(1024),
                     created_at TIMESTAMP WITH TIME ZONE DEFAULT CURRENT_TIMESTAMP
                 );
-                CREATE INDEX ON {query_cache_table} USING ivfflat (embedding vector_cosine_ops);
                 CREATE INDEX ON {query_cache_table} (query_crc32);
                 CREATE INDEX ON {query_cache_table} (created_at);
             """)
@@ -169,7 +168,7 @@ def get_embedding_from_db(conn, table_name, crc32_column, crc32_value, model_nam
                        (crc32_value, model_name))
             result = cur.fetchone()
             if result and result[0]:
-                return torch.tensor(result[0])
     except Exception as e:
         logging.error(f"Ошибка при получении эмбеддинга из БД: {e}")
     return None
@@ -267,7 +266,7 @@ def get_movie_embeddings(conn):
                 # Находим название фильма по ID
                 for movie in movies_data:
                     if movie['id'] == movie_id:
-                        movie_embeddings[movie['name']] = torch.tensor(embedding)
                         break
         logging.info(f"Загружено {len(movie_embeddings)} эмбеддингов фильмов.")
     except Exception as e:
@@ -313,9 +312,9 @@ def search_movies(query, top_k=10):
                         FROM {query_cache_table}
                         WHERE query_crc32 = %s
                     )
-                    SELECT m.movie_id, m.embedding <=> (SELECT embedding FROM query_embedding) as distance
                     FROM {embeddings_table} m, query_embedding
-                    ORDER BY distance ASC
                     LIMIT %s
                 """, (query_crc32, top_k))
@@ -326,7 +325,7 @@ def search_movies(query, top_k=10):
             results = []
         results_html = "<ol>"
-        for movie_id, distance in results:
             # Находим название фильма по ID
             movie_title = None
             for movie in movies_data:
@@ -335,7 +334,6 @@ def search_movies(query, top_k=10):
                     break
             if movie_title:
-                similarity = 1 - distance  # Конвертируем расстояние в сходство
                 results_html += f"<li><strong>{movie_title}</strong> (Сходство: {similarity:.4f})</li>"
         results_html += "</ol>"

 import torch
 import psycopg2
 import zlib
+import numpy as np
 from urllib.parse import urlparse
 import logging
             cur.execute("CREATE EXTENSION IF NOT EXISTS vector;")
             # Удаляем существующие таблицы если они есть
+            cur.execute(f"DROP TABLE IF EXISTS {embeddings_table}, {query_cache_table};")
             # Создаем таблицу для хранения эмбеддингов фильмов
             cur.execute(f"""
                     model_name TEXT,
                     embedding vector(1024)
                 );
                 CREATE INDEX ON {embeddings_table} (string_crc32);
             """)
                     embedding vector(1024),
                     created_at TIMESTAMP WITH TIME ZONE DEFAULT CURRENT_TIMESTAMP
                 );
                 CREATE INDEX ON {query_cache_table} (query_crc32);
                 CREATE INDEX ON {query_cache_table} (created_at);
             """)
                        (crc32_value, model_name))
             result = cur.fetchone()
             if result and result[0]:
+                return np.array(result[0])
     except Exception as e:
         logging.error(f"Ошибка при получении эмбеддинга из БД: {e}")
     return None
                 # Находим название фильма по ID
                 for movie in movies_data:
                     if movie['id'] == movie_id:
+                        movie_embeddings[movie['name']] = np.array(embedding)
                         break
         logging.info(f"Загружено {len(movie_embeddings)} эмбеддингов фильмов.")
     except Exception as e:
                         FROM {query_cache_table}
                         WHERE query_crc32 = %s
                     )
+                    SELECT m.movie_id, 1 - (m.embedding <=> (SELECT embedding FROM query_embedding)) as similarity
                     FROM {embeddings_table} m, query_embedding
+                    ORDER BY similarity DESC
                     LIMIT %s
                 """, (query_crc32, top_k))
             results = []
         results_html = "<ol>"
+        for movie_id, similarity in results:
             # Находим название фильма по ID
             movie_title = None
             for movie in movies_data:
                     break
             if movie_title:
                 results_html += f"<li><strong>{movie_title}</strong> (Сходство: {similarity:.4f})</li>"
         results_html += "</ol>"