Spaces:
Runtime error
Runtime error
Isaac Isa铆as
commited on
Commit
路
70c9d09
1
Parent(s):
4a2c191
Update app.py
Browse files
app.py
CHANGED
@@ -7,10 +7,29 @@ description = "Clasifica el texto de una tesis con la carrera a la que le perten
|
|
7 |
|
8 |
article = """
|
9 |
## Obtenci贸n de los datos
|
10 |
-
|
11 |
-
|
12 |
-
|
13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14 |
|
15 |
## Miembros del Equipo:
|
16 |
- Isaac Isa铆as L贸pez L贸pez ([MajorIsaiah](https://huggingface.co/MajorIsaiah))
|
|
|
7 |
|
8 |
article = """
|
9 |
## Obtenci贸n de los datos
|
10 |
+
|
11 |
+
### Motivos y Objetivo de la Obtenci贸n de los Datos
|
12 |
+
La creaci贸n de este dataset ha sido motivado por la participaci贸n en el Hackathon 2022 de PLN en Espa帽ol organizado por Somos NLP, con el objetivo de democratizar el NLP en espa帽ol y promover su aplicaci贸n a buenas causas y, debido a que no existe un dataset de tesis en espa帽ol.
|
13 |
+
|
14 |
+
### Proceso de Obtenci贸n
|
15 |
+
Se opt贸 realizar un [scraper](https://github.com/IsaacIsaias/NLP-clasificador-tesis/blob/main/main.py) para conseguir la informaci贸n. Se decidi贸 usar la base de datos [TESIUNAM](https://tesiunam.dgb.unam.mx/F?func=find-b-0&local_base=TES01), la cual es un cat谩logo en donde se pueden visualizar las tesis de los sustentantes que obtuvieron un grado en la Universidad Nacional Aut贸noma de M茅xico (UNAM), as铆 como de las tesis de licenciatura de escuelas incorporadas a ella.
|
16 |
+
Para ello, en primer lugar se consult贸 la [Oferta Acad茅mica](http://oferta.unam.mx/indice-alfabetico.html) de la Universidad, sitio de donde se extrajo cada una de las 131 licenciaturas en forma de lista. Despu茅s, se analiz贸 cada uno de los casos presente en la base de datos, debido a que existen carreras con m谩s de 10 tesis, otras con menos de 10, o con solo una o ninguna tesis disponible. Se us贸 Selenium para la interacci贸n con un navegador Web (Edge) y est谩 actualmente configurado para obtener las primeras 20 tesis, o menos, por carrera.
|
17 |
+
|
18 |
+
Este scraper obtiene de esta base de datos:
|
19 |
+
- Nombres del Autor
|
20 |
+
- Apellidos del Autor
|
21 |
+
- T铆tulo de la Tesis
|
22 |
+
- A帽o de la Tesis
|
23 |
+
- Carrera de la Tesis
|
24 |
+
|
25 |
+
A la vez, este scraper descarga cada una de las tesis en la carpeta *Downloads* del equipo local.
|
26 |
+
En el csv formado por el scraper se a帽adi贸 el Resumen/Introduccion/Conclusion de la tesis, dependiendo cual primero estuviera disponible, ya que la complejidad recae en la diferencia de la estructura y formato de cada una de las tesis.
|
27 |
+
Posteriormente, se le realiz贸 un procesado al dataset con las siguientes tareas:
|
28 |
+
- Conversi贸n a min煤sculas
|
29 |
+
- Tokenizaci贸n
|
30 |
+
- Eliminaci贸n de palabras que no son alfanum茅ricas
|
31 |
+
- Eliminaci贸n de palabras vac铆as
|
32 |
+
- Stemming: eliminaci贸n de plurales
|
33 |
|
34 |
## Miembros del Equipo:
|
35 |
- Isaac Isa铆as L贸pez L贸pez ([MajorIsaiah](https://huggingface.co/MajorIsaiah))
|