MoviesSemanticSearchTesting2

Paused

App Files Files Community

opex792 commited on Jan 7

Commit

53feba3

verified ·

1 Parent(s): 771b1f8

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -15

app.py CHANGED Viewed

@@ -93,27 +93,27 @@ def setup_database():
             # Создаем таблицу для хранения эмбеддингов фильмов
             cur.execute(f"""
-                CREATE TABLE IF NOT EXISTS {embeddings_table} (
                     movie_id INTEGER PRIMARY KEY,
                     embedding_crc32 BIGINT,
                     string_crc32 BIGINT,
                     model_name TEXT,
                     embedding vector(1024)
                 );
-                CREATE INDEX IF NOT EXISTS idx_string_crc32 ON {embeddings_table} (string_crc32);
             """)
             # Создаем таблицу для кэширования запросов
             cur.execute(f"""
-                CREATE TABLE IF NOT EXISTS {query_cache_table} (
                     query_crc32 BIGINT PRIMARY KEY,
                     query TEXT,
                     model_name TEXT,
                     embedding vector(1024),
                     created_at TIMESTAMP WITH TIME ZONE DEFAULT CURRENT_TIMESTAMP
                 );
-                CREATE INDEX IF NOT EXISTS idx_query_crc32 ON {query_cache_table} (query_crc32);
-                CREATE INDEX IF NOT EXISTS idx_created_at ON {query_cache_table} (created_at);
             """)
         conn.commit()
@@ -146,7 +146,7 @@ def get_movies_without_embeddings():
     try:
         with conn.cursor() as cur:
             # Получаем список ID фильмов, которые уже есть в таблице эмбеддингов
-            cur.execute(f"SELECT movie_id FROM {embeddings_table}")
             existing_ids = {row[0] for row in cur.fetchall()}
             # Получаем список всех фильмов из таблицы Movies с подготовленной строкой
@@ -157,7 +157,7 @@ def get_movies_without_embeddings():
                     '\\nЖанры: ' || (SELECT string_agg(genre->>'name', ', ') FROM jsonb_array_elements(data->'genres') AS genre) ||
                     '\\nОписание: ' || COALESCE(data->>'description', '')
                     AS prepared_string
-                FROM {movies_table}
             """)
             all_movies = cur.fetchall()
@@ -178,7 +178,7 @@ def get_embedding_from_db(conn, table_name, crc32_column, crc32_value, model_nam
     """Получает эмбеддинг из базы данных."""
     try:
         with conn.cursor() as cur:
-            cur.execute(f"SELECT embedding FROM {table_name} WHERE {crc32_column} = %s AND model_name = %s",
                        (crc32_value, model_name))
             result = cur.fetchone()
             if result and result[0]:
@@ -195,7 +195,7 @@ def insert_embedding(conn, table_name, movie_id, embedding_crc32, string_crc32,
         normalized_embedding = normalize(embedding.reshape(1, -1))[0]
         with conn.cursor() as cur:
             cur.execute(f"""
-                INSERT INTO {table_name}
                 (movie_id, embedding_crc32, string_crc32, model_name, embedding)
                 VALUES (%s, %s, %s, %s, %s)
                 ON CONFLICT (movie_id) DO NOTHING
@@ -270,7 +270,7 @@ def process_movies():
                 if not batch:
                     break
                 executor.submit(process_batch, batch)
                 logging.info(f"Отправлен на обработку пакет из {len(batch)} фильмов.")
         except Exception as e:
@@ -291,7 +291,7 @@ def get_movie_data_from_db(conn, movie_ids):
                     '\\nЖанры: ' || (SELECT string_agg(genre->>'name', ', ') FROM jsonb_array_elements(data->'genres') AS genre) ||
                     '\\nОписание: ' || COALESCE(data->>'description', '')
                     AS prepared_string
-                FROM {movies_table}
                 WHERE id IN %s
             """, (tuple(movie_ids),))
             for movie_id, movie_data, prepared_string in cur.fetchall():
@@ -303,7 +303,7 @@ def get_movie_data_from_db(conn, movie_ids):
 def rerank_with_api(query, results, top_k):
     """Переранжирует результаты с помощью Jina AI Reranker API."""
     logging.info(f"Начало переранжирования для запроса: '{query}'")
     # Получаем данные фильмов из БД
     conn = get_db_connection()
     movie_ids = [movie_id for movie_id, _ in results]
@@ -372,7 +372,7 @@ def search_movies(query, top_k=25):
             try:
                 with conn.cursor() as cur:
                     cur.execute(f"""
-                        INSERT INTO {query_cache_table} (query_crc32, query, model_name, embedding)
                         VALUES (%s, %s, %s, %s)
                         ON CONFLICT (query_crc32) DO NOTHING
                     """, (query_crc32, query, model_name, query_embedding.tolist()))
@@ -388,11 +388,11 @@ def search_movies(query, top_k=25):
                 cur.execute(f"""
                     WITH query_embedding AS (
                         SELECT embedding
-                        FROM {query_cache_table}
                         WHERE query_crc32 = %s
                     )
                     SELECT m.movie_id, 1 - (m.embedding <=> (SELECT embedding FROM query_embedding)) as similarity
-                    FROM {embeddings_table} m, query_embedding
                     ORDER BY similarity DESC
                     LIMIT %s
                 """, (query_crc32, int(top_k * 2)))

             # Создаем таблицу для хранения эмбеддингов фильмов
             cur.execute(f"""
+                CREATE TABLE IF NOT EXISTS "{embeddings_table}" (
                     movie_id INTEGER PRIMARY KEY,
                     embedding_crc32 BIGINT,
                     string_crc32 BIGINT,
                     model_name TEXT,
                     embedding vector(1024)
                 );
+                CREATE INDEX IF NOT EXISTS idx_string_crc32 ON "{embeddings_table}" (string_crc32);
             """)
             # Создаем таблицу для кэширования запросов
             cur.execute(f"""
+                CREATE TABLE IF NOT EXISTS "{query_cache_table}" (
                     query_crc32 BIGINT PRIMARY KEY,
                     query TEXT,
                     model_name TEXT,
                     embedding vector(1024),
                     created_at TIMESTAMP WITH TIME ZONE DEFAULT CURRENT_TIMESTAMP
                 );
+                CREATE INDEX IF NOT EXISTS idx_query_crc32 ON "{query_cache_table}" (query_crc32);
+                CREATE INDEX IF NOT EXISTS idx_created_at ON "{query_cache_table}" (created_at);
             """)
         conn.commit()
     try:
         with conn.cursor() as cur:
             # Получаем список ID фильмов, которые уже есть в таблице эмбеддингов
+            cur.execute(f"SELECT movie_id FROM \"{embeddings_table}\"")
             existing_ids = {row[0] for row in cur.fetchall()}
             # Получаем список всех фильмов из таблицы Movies с подготовленной строкой
                     '\\nЖанры: ' || (SELECT string_agg(genre->>'name', ', ') FROM jsonb_array_elements(data->'genres') AS genre) ||
                     '\\nОписание: ' || COALESCE(data->>'description', '')
                     AS prepared_string
+                FROM "{movies_table}"
             """)
             all_movies = cur.fetchall()
     """Получает эмбеддинг из базы данных."""
     try:
         with conn.cursor() as cur:
+            cur.execute(f"SELECT embedding FROM \"{table_name}\" WHERE \"{crc32_column}\" = %s AND model_name = %s",
                        (crc32_value, model_name))
             result = cur.fetchone()
             if result and result[0]:
         normalized_embedding = normalize(embedding.reshape(1, -1))[0]
         with conn.cursor() as cur:
             cur.execute(f"""
+                INSERT INTO "{table_name}"
                 (movie_id, embedding_crc32, string_crc32, model_name, embedding)
                 VALUES (%s, %s, %s, %s, %s)
                 ON CONFLICT (movie_id) DO NOTHING
                 if not batch:
                     break
                 executor.submit(process_batch, batch)
                 logging.info(f"Отправлен на обработку пакет из {len(batch)} фильмов.")
         except Exception as e:
                     '\\nЖанры: ' || (SELECT string_agg(genre->>'name', ', ') FROM jsonb_array_elements(data->'genres') AS genre) ||
                     '\\nОписание: ' || COALESCE(data->>'description', '')
                     AS prepared_string
+                FROM "{movies_table}"
                 WHERE id IN %s
             """, (tuple(movie_ids),))
             for movie_id, movie_data, prepared_string in cur.fetchall():
 def rerank_with_api(query, results, top_k):
     """Переранжирует результаты с помощью Jina AI Reranker API."""
     logging.info(f"Начало переранжирования для запроса: '{query}'")
     # Получаем данные фильмов из БД
     conn = get_db_connection()
     movie_ids = [movie_id for movie_id, _ in results]
             try:
                 with conn.cursor() as cur:
                     cur.execute(f"""
+                        INSERT INTO "{query_cache_table}" (query_crc32, query, model_name, embedding)
                         VALUES (%s, %s, %s, %s)
                         ON CONFLICT (query_crc32) DO NOTHING
                     """, (query_crc32, query, model_name, query_embedding.tolist()))
                 cur.execute(f"""
                     WITH query_embedding AS (
                         SELECT embedding
+                        FROM "{query_cache_table}"
                         WHERE query_crc32 = %s
                     )
                     SELECT m.movie_id, 1 - (m.embedding <=> (SELECT embedding FROM query_embedding)) as similarity
+                    FROM "{embeddings_table}" m, query_embedding
                     ORDER BY similarity DESC
                     LIMIT %s
                 """, (query_crc32, int(top_k * 2)))