Spaces:

MoRa2001
/

CV_description

Sleeping

App Files Files Community

Ammar-Abdelhady-ai commited on Jan 4

Commit

a16181d

•

1 Parent(s): 9094907

Add application file

Browse files

Files changed (4) hide show

Dockerfile +20 -0
functions.py +30 -0
main.py +98 -0
requirements.txt +21 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,20 @@

+FROM python:3.9
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+RUN useradd -m -u 1000 user
+USER user
+ENV HOME=/home/user \
+ PATH=/home/user/.local/bin:$PATH
+WORKDIR $HOME/app
+COPY --chown=user . $HOME/app
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "7860"]

functions.py ADDED Viewed

	@@ -0,0 +1,30 @@

+import os
+import tempfile
+import fitz  # PyMuPDF
+from sklearn.metrics.pairwise import cosine_similarity, cosine_distances
+import numpy as np
+def extract_text_from_pdf(pdf_content):
+    text = ''
+    with tempfile.NamedTemporaryFile(delete=False) as temp_file:
+        temp_file.write(pdf_content)
+        temp_path = temp_file.name
+        pdf_document = fitz.open(temp_path)
+        for page_number in range(pdf_document.page_count):
+            page = pdf_document[page_number]
+            text += page.get_text()
+    pdf_document.close()  # Close the PDF document explicitly
+    os.remove(temp_path)  # Remove the temporary file after use
+    return str(text.replace("\xa0", ""))
+def get_most_similar_job(data, cv_vect, df_vect):
+    for i in range(0, len([data])):
+        distances = cosine_similarity(cv_vect[i], df_vect).flatten()
+        indices = np.argsort(distances)[::-1]
+    return indices

main.py ADDED Viewed

	@@ -0,0 +1,98 @@

+import threading
+from functions import extract_text_from_pdf, get_most_similar_job
+from fastapi import  UploadFile, HTTPException, FastAPI
+import pandas as pd
+from sklearn.feature_extraction.text import TfidfVectorizer
+summarizer = ""
+def define_summarizer():
+    from transformers import pipeline
+    global summarizer
+    summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+    print("\n\n definition Done")
+define = threading.Thread(target=define_summarizer)
+define.start()
+def fit_threads(text):
+    define.join()
+    ######## Handel Sumarization model
+    a = threading.Thread(target=summarization, args=(text[0],))
+    b = threading.Thread(target=summarization, args=(text[1],))
+    c = threading.Thread(target=summarization, args=(text[-1],))
+    # Start all threads
+    a.start()
+    b.start()
+    c.start()
+    # Wait for all threads to finish
+    a.join()
+    b.join()
+    c.join()
+    print("Summarization Done")
+df = pd.read_csv("all.csv")
+df['concatenated_column'] = pd.concat([df['job_title'] + df['job_description'] + df['job_requirements'], df['city_name']], axis=1).astype(str).agg(''.join, axis=1)
+x = df['concatenated_column']
+y = df["label"]
+vectorizer = TfidfVectorizer(stop_words='english')
+vectorizer.fit(x)
+df_vect = vectorizer.transform(x)
+print(df.shape, len(df))
+# Initialize the summarizer model
+######### using summarizer model
+summ_data = []
+def summarization(text):
+    global summ_data
+    part = summarizer(text, max_length=150, min_length=30, do_sample=False)
+    summ_data.append(part[0]["summary_text"].replace("\xa0", ""))
+app = FastAPI(project_name="cv")
+@app.get("/")
+async def read_root():
+    return {"Hello": "World, Project name is : CV Description"}
+@app.post("/prediction")
+async def detect(cv: UploadFile, number_of_jobs: int):
+    if (type(number_of_jobs) != int) or (number_of_jobs < 1) or (number_of_jobs > df.shape[0]):
+        raise HTTPException(
+            status_code=415, detail = f"Please enter the number of jobs you want as an ' integer from 1 to {int(df.shape[0]) - 1} '."
+        )
+    if cv.filename.split(".")[-1] not in ("pdf") :
+        raise HTTPException(
+            status_code=415, detail="Please inter PDF file "
+        )
+    cv_data = extract_text_from_pdf(await cv.read())
+    index = len(cv_data)//3
+    text = [cv_data[:index], cv_data[index:2*index], cv_data[2*index:]]
+    fit_threads(text)
+    data = " .".join(summ_data)
+    summ_data.clear()
+    cv_vect = vectorizer.transform([data])
+    indices = get_most_similar_job(data=data, cv_vect=cv_vect, df_vect=df_vect)
+    # Check if all threads have finished
+    print("ALL Done")
+    prediction_data = df.iloc[indices[:number_of_jobs]].applymap(lambda x: str(x)).to_dict(orient='records')
+    return {"prediction": prediction_data}

requirements.txt ADDED Viewed

	@@ -0,0 +1,21 @@

+DateTime==5.3
+joblib==1.3.2
+json5==0.9.14979/work
+numpy==1.23.5
+onnxruntime==1.14.1
+optimum==1.16.1
+pandas==1.5.3
+scikit-learn==1.0.2
+selenium==4.2.0
+spacy==2.3.5
+tblib==2.0.0
+timm==0.9.7
+torch==2.0.1+cu117
+transformers==4.34.1
+ultralytics==8.0.200
+uri-template==1.3.0
+uritemplate==4.1.1
+urllib3==1.26.18
+urllib3-secure-extra==0.1.0
+uvicorn==0.18.3
+webdriver-manager==4.0.1