Spaces:

soojeongcrystal
/

hybridRAG

Sleeping

App Files Files Community

soojeongcrystal commited on Sep 7, 2024

Commit

65f9910

verified ·

1 Parent(s): 5ad04e8

Update app.py

Browse files

Files changed (1) hide show

app.py +64 -21

app.py CHANGED Viewed

@@ -5,7 +5,6 @@ from sklearn.metrics.pairwise import cosine_similarity
 import networkx as nx
 import matplotlib.pyplot as plt
 import csv
-import datetime
 import io
 # Sentence-BERT 모델 로드
@@ -24,51 +23,95 @@ def save_recommendations_to_csv(recommendations):
     output.seek(0)
     return output
 # 직원 데이터를 분석하여 교육 프로그램을 추천하고 그래프를 그리는 함수
 def analyze_data(employee_file, program_file):
-    # 직원 데이터와 교육 프로그램 데이터 불러오기
     employee_df = pd.read_csv(employee_file.name)
     program_df = pd.read_csv(program_file.name)
-    # 직원 역량과 프로그램 학습 목표를 벡터화
-    employee_skills = employee_df['current_skills'].tolist()
-    program_skills = program_df['skills_acquired'].tolist()
     employee_embeddings = model.encode(employee_skills)
     program_embeddings = model.encode(program_skills)
     # 유사도 계산
     similarities = cosine_similarity(employee_embeddings, program_embeddings)
-    # 직원별 추천 프로그램 리스트
     recommendations = []
-    recommendation_rows = []  # CSV 파일에 저장할 데이터를 위한 리스트
     for i, employee in employee_df.iterrows():
         recommended_programs = []
         for j, program in program_df.iterrows():
-            if similarities[i][j] > 0.5:  # 유사도 임계값 기준
-                recommended_programs.append(f"{program['program_name']} ({program['duration']})")
         if recommended_programs:
-            recommendation = f"직원 {employee['employee_name']}의 추천 프로그램: {', '.join(recommended_programs)}"
-            recommendation_rows.append([employee['employee_id'], employee['employee_name'], ", ".join(recommended_programs)])
         else:
-            recommendation = f"직원 {employee['employee_name']}에게 적합한 프로그램이 없습니다."
-            recommendation_rows.append([employee['employee_id'], employee['employee_name'], "적합한 프로그램 없음"])
         recommendations.append(recommendation)
     # 네트워크 그래프 생성
     G = nx.Graph()
-    for employee in employee_df['employee_name']:
         G.add_node(employee, type='employee')
-    for program in program_df['program_name']:
         G.add_node(program, type='program')
     for i, employee in employee_df.iterrows():
         for j, program in program_df.iterrows():
-            if similarities[i][j] > 0.5:  # 유사도 임계값
-                G.add_edge(employee['employee_name'], program['program_name'])
     # 그래프 시각화
     plt.figure(figsize=(10, 8))
@@ -84,18 +127,18 @@ def analyze_data(employee_file, program_file):
 # Gradio 블록
 with gr.Blocks(css=".gradio-button {background-color: #6c757d; color: white;} .gradio-textbox {border-color: #6c757d;}") as demo:
-    gr.Markdown("<h1 style='text-align: center; color: #2c3e50;'>💼 HybridRAG 시스템</h1>", unsafe_allow_html=True)
     with gr.Row():
-        with gr.Column(scale=1):
             gr.Markdown("<h3 style='color: #34495e;'>1. 직원 및 프로그램 데이터를 업로드하세요</h3>")
             employee_file = gr.File(label="직원 데이터 업로드", interactive=True)
             program_file = gr.File(label="교육 프로그램 데이터 업로드", interactive=True)
             analyze_button = gr.Button("분석 시작", elem_classes="gradio-button")
             output_text = gr.Textbox(label="분석 결과", interactive=False, elem_classes="gradio-textbox")
-        with gr.Column(scale=2):
-            gr.Markdown("<h3 style='color: #34495e;'>2. 분석 결과</h3>")
             chart_output = gr.Plot(label="시각화 차트")
             csv_download = gr.File(label="추천 결과 다운로드")

 import networkx as nx
 import matplotlib.pyplot as plt
 import csv
 import io
 # Sentence-BERT 모델 로드
     output.seek(0)
     return output
+# 자동으로 열을 매칭하는 함수
+def auto_match_columns(df, required_cols):
+    """
+    데이터프레임과 필요한 열 이름 목록을 받아서, 유사한 열 이름을 자동으로 매칭합니다.
+    필요에 따라 열 이름을 선택하지 못한 경우 None을 반환합니다.
+    """
+    matched_cols = {}
+    for req_col in required_cols:
+        matched_col = None
+        for col in df.columns:
+            if req_col in col.lower():  # 유사한 열 이름을 매칭
+                matched_col = col
+                break
+        matched_cols[req_col] = matched_col
+    return matched_cols
+# 직원 및 프로그램 데이터의 열을 자동으로 매칭하거나, 선택하게 하는 함수
+def validate_and_get_columns(employee_df, program_df):
+    # 필요한 열
+    required_employee_cols = ["employee_id", "employee_name", "current_skills"]
+    required_program_cols = ["program_name", "skills_acquired", "duration"]
+    # 자동으로 매칭 시도
+    employee_cols = auto_match_columns(employee_df, required_employee_cols)
+    program_cols = auto_match_columns(program_df, required_program_cols)
+    # 직원 데이터 열 중 자동 매칭 실패 시 사용자에게 선택하도록 유도
+    for key, value in employee_cols.items():
+        if value is None:
+            return f"직원 데이터에서 '{key}' 열을 선택할 수 없습니다. 올바른 열을 선택하세요.", None, None
+    # 프로그램 데이터 열 중 자동 매칭 실패 시 사용자에게 선택하도록 유도
+    for key, value in program_cols.items():
+        if value is None:
+            return f"프로그램 데이터에서 '{key}' 열을 선택할 수 없습니다. 올바른 열을 선택하세요.", None, None
+    # 자동 매칭된 열 반환
+    return None, employee_cols, program_cols
 # 직원 데이터를 분석하여 교육 프로그램을 추천하고 그래프를 그리는 함수
 def analyze_data(employee_file, program_file):
+    # 직원 데이터와 프로그램 데이터 읽기
     employee_df = pd.read_csv(employee_file.name)
     program_df = pd.read_csv(program_file.name)
+    # 열 자동 매칭 시도
+    error_msg, employee_cols, program_cols = validate_and_get_columns(employee_df, program_df)
+    if error_msg:
+        return error_msg, None, None
+    # 직원의 역량과 프로그램 목표를 벡터화
+    employee_skills = employee_df[employee_cols["current_skills"]].tolist()
+    program_skills = program_df[program_cols["skills_acquired"]].tolist()
     employee_embeddings = model.encode(employee_skills)
     program_embeddings = model.encode(program_skills)
     # 유사도 계산
     similarities = cosine_similarity(employee_embeddings, program_embeddings)
+    # 직원별 추천 프로그램 생성
     recommendations = []
+    recommendation_rows = []  # CSV로 저장할 데이터
     for i, employee in employee_df.iterrows():
         recommended_programs = []
         for j, program in program_df.iterrows():
+            if similarities[i][j] > 0.5:  # 유사도 임계값
+                recommended_programs.append(f"{program[program_cols['program_name']]} ({program[program_cols['duration']]})")
         if recommended_programs:
+            recommendation = f"직원 {employee[employee_cols['employee_name']]}의 추천 프로그램: {', '.join(recommended_programs)}"
+            recommendation_rows.append([employee[employee_cols['employee_id']], employee[employee_cols['employee_name']], ", ".join(recommended_programs)])
         else:
+            recommendation = f"직원 {employee[employee_cols['employee_name']]}에게 적합한 프로그램이 없습니다."
+            recommendation_rows.append([employee[employee_cols['employee_id']], employee[employee_cols['employee_name']], "적합한 프로그램 없음"])
         recommendations.append(recommendation)
     # 네트워크 그래프 생성
     G = nx.Graph()
+    for employee in employee_df[employee_cols['employee_name']]:
         G.add_node(employee, type='employee')
+    for program in program_df[program_cols['program_name']]:
         G.add_node(program, type='program')
     for i, employee in employee_df.iterrows():
         for j, program in program_df.iterrows():
+            if similarities[i][j] > 0.5:
+                G.add_edge(employee[employee_cols['employee_name']], program[program_cols['program_name']])
     # 그래프 시각화
     plt.figure(figsize=(10, 8))
 # Gradio 블록
 with gr.Blocks(css=".gradio-button {background-color: #6c757d; color: white;} .gradio-textbox {border-color: #6c757d;}") as demo:
+    gr.Markdown("<h1 style='text-align: center; color: #2c3e50;'>💼 HybridRAG 시스템</h1>")
     with gr.Row():
+        with gr.Column(scale=1, min_width=300):
             gr.Markdown("<h3 style='color: #34495e;'>1. 직원 및 프로그램 데이터를 업로드하세요</h3>")
             employee_file = gr.File(label="직원 데이터 업로드", interactive=True)
             program_file = gr.File(label="교육 프로그램 데이터 업로드", interactive=True)
             analyze_button = gr.Button("분석 시작", elem_classes="gradio-button")
             output_text = gr.Textbox(label="분석 결과", interactive=False, elem_classes="gradio-textbox")
+        with gr.Column(scale=2, min_width=500):
+            gr.Markdown("<h3 style='color: #34495e;'>2. 분석 결과 및 시각화</h3>")
             chart_output = gr.Plot(label="시각화 차트")
             csv_download = gr.File(label="추천 결과 다운로드")