Spaces:

somosnlp-hackathon-2022
/

clasificador-de-tesis

Runtime error

App Files Files Community

Isaac Isaías commited on Apr 4, 2022

Commit

de6ed29

1 Parent(s): b0d112d

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -71

app.py CHANGED Viewed

@@ -7,7 +7,8 @@ description = "Clasifica el texto de una tesis con la carrera a la que le perten
 article = """
     ## Obtención de los datos
-        En un principio no se contaba con ningún dataset disponible, por lo que se optó realizar un scraper para conseguir la información. Se decidió usar la base de datos [TESIUNAM](https://tesiunam.dgb.unam.mx/F?func=find-b-0&local_base=TES01), el cual es un catálogo en donde se pueden visualizar las tesis de los sustentantes que obtuvieron un grado en la Universidad Nacional Autónoma de México (UNAM), así como de las tesis de licenciatura de escuelas incorporadas a ella.
@@ -21,80 +22,12 @@ article = """
 tokenizer = AutoTokenizer.from_pretrained('hiiamsid/BETO_es_binary_classification', use_fast=False)
 model = AutoModelForSequenceClassification.from_pretrained(
     'hackathon-pln-es/unam_tesis_BETO_finnetuning', num_labels=5, output_attentions=False, output_hidden_states=False)
-#pipe = TextClassificationPipeline(model=model, tokenizer=tokenizer, return_all_scores=True)
-#classificationResult = pipe("El objetivo de esta tesis es elaborar un estudio de las condiciones asociadas al aprendizaje desde casa.")
 def thesis_prediction(input):
-              tokenizer = AutoTokenizer.from_pretrained('hiiamsid/BETO_es_binary_classification', use_fast=False)
-              X_val_inputs, X_val_masks = preprocessingtext(_text,tokenizer)
-              t0 = time.time()
-              # Deserialization of the file
-              #file = open(path + os.path.sep + 'classIndexAssociation.pkl', 'rb')
-              #new_model = pickle.load(file)
-              #sizeOfClass = len(new_model)
-              model = AutoModelForSequenceClassification.from_pretrained(
-                    'hackathon-pln-es/unam_tesis_BETO_finnetuning', num_labels=5, output_attentions=False, output_hidden_states=False)
-              #Bibliografy from:
-              #
-              #  https://huggingface.co/docs/transformers/main_classes/output
-              #
-              inputs = tokenizer(_text, return_tensors="pt")
-              labels = torch.tensor([1]).unsqueeze(0)  # Batch size 1
-              outputs = model(**inputs, labels=labels)
-              loss, logits = outputs[:2]
-              #Transform in array
-              logits = logits.detach().cpu().numpy()
-              #Get max element and position
-              result = logits.argmax()
-              return result
-              #Example from
-              #
-              #
-              #
-              # pipe = TextClassificationPipeline(model=model, tokenizer=tokenizer, return_all_scores=True)
-              # # Put the model in evaluation mode
-              # classificationResult = pipe(_text)
-              # if  classificationResult[0]  != None and len (classificationResult[0]) > 0:
-              #     #Order the result with more close to 1
-              #     classificationResult[0].sort(reverse=True, key=lambda x:x['score'])
-              #     # Return the text clasification
-              #     keyClass = classificationResult[0][0]['label']
-              #     keyClass = keyClass.replace("LABEL_","").strip()
-              #     if  keyClass.isnumeric():
-              #       return new_model[ int (keyClass)]
-              #     else:
-              #         raise Exception("Not exist class info")
-                  # model.eval()
-                  # outputs = model(X_val_inputs,
-                  #                 token_type_ids=None,
-                  #                 attention_mask=X_val_masks)
-                  #
-                  # # The "logits" are the output values
-                  # # prior to applying an activation function
-                  # logits = outputs[0]
-                  #
-                  # # Move logits and labels to CPU
-                  # logits = logits.detach().cpu().numpy()
-                  #
-                  # sorted_tuples = sorted(logits.items(), key=lambda item: item[1])
-                  # #Return the text clasification
-                  # keyClass = sorted_tuples.keys()[0]
-                  # return new_model[keyClass]
-         else:
-             raise Exception("Not exist model info")
-     else:
-        raise Exception("Not exist model info")
-     return "Text"
     pass

 article = """
     ## Obtención de los datos
+        En un principio no se contaba con ningún dataset disponible, por lo que se optó realizar un [scraper](https://github.com/IsaacIsaias/NLP-clasificador-tesis/blob/main/main.py) para conseguir la información. Se decidió usar la base de datos [TESIUNAM](https://tesiunam.dgb.unam.mx/F?func=find-b-0&local_base=TES01), la cual es un catálogo en donde se pueden visualizar las tesis de los sustentantes que obtuvieron un grado en la Universidad Nacional Autónoma de México (UNAM), así como de las tesis de licenciatura de escuelas incorporadas a ella.
+        Para ello, en primer lugar se consultó la [Oferta Académica](http://oferta.unam.mx/indice-alfabetico.html) de la Universidad, sitio de donde se extrajo cada una de las 131 licenciaturas en forma de lista.
 tokenizer = AutoTokenizer.from_pretrained('hiiamsid/BETO_es_binary_classification', use_fast=False)
 model = AutoModelForSequenceClassification.from_pretrained(
     'hackathon-pln-es/unam_tesis_BETO_finnetuning', num_labels=5, output_attentions=False, output_hidden_states=False)
+pipe = TextClassificationPipeline(model=model, tokenizer=tokenizer, return_all_scores=True)
+classificationResult = pipe("El objetivo de esta tesis es elaborar un estudio de las condiciones asociadas al aprendizaje desde casa.")
 def thesis_prediction(input):
     pass