Campo DC | Valor | Lengua/Idioma |
dc.contributor.advisor | Pazmiño Maji, Rubén Antonio | - |
dc.contributor.author | Andrade Andrade, Jesús Enrique | - |
dc.date.accessioned | 2025-04-23T22:28:02Z | - |
dc.date.available | 2025-04-23T22:28:02Z | - |
dc.date.issued | 2025-04-23 | - |
dc.identifier.citation | Andrade, Jesús (2025). Aplicación de los algoritmos K-means y Random Forest para la segmentación de potenciales estudiantes del programa de maestría en estadística con mención en ciencia de datos e inteligencia artificial de la ESPOCH. (Tesis de posgrado). Universidad Nacional de Chimborazo. Riobamba, Ecuador. | es_ES |
dc.identifier.issn | UNACH-DP-MAT-MC | - |
dc.identifier.uri | http://dspace.unach.edu.ec/handle/51000/14997 | - |
dc.description | This research aims to segment potential students interested in the Master's program in
Statistics specializing in Data Science and Artificial Intelligence at ESPOCH, utilizing
supervised and unsupervised machine learning techniques: K-means and Random Forest.
Initially, 700 surveys containing 19 questions each were collected and subjected to a
cleaning and mapping process to ensure accuracy and consistency. Standardization was
applied to balance the scales of variables, employing One-Hot Encoding for nominal
variables and numerical assignment for ordinal variables. The elbow method determined the
optimal number of clusters to be three. After removing less relevant variables and outliers,
it was necessary to apply the K-means algorithm, achieving a Silhouette Score of 0.5886,
indicating strong cohesion and clear separation between clusters. The researcher used the
Principal Component Analysis (PCA) to visualize the resulting clusters. The Davies-Bouldin
Index was 0.6491, and the Calinski-Harabasz Index recorded 798.4427, further
corroborating the quality of the segmentation. The within-cluster sum of squares (WCSS)
was 4034.7774, confirming appropriate cluster compactness. Following validation, it was
possible to identify three well-defined clusters. Consequently, the researcher developed
detailed profiles for each segment. It was also necessary to propose specific digital
marketing strategies for "Young Technologists in Projection," "Professional Leaders in
Academic Transition," and "Educators in Professional Evolution." A Random Forest model
was trained and validated through cross-validation and Grid Search, successfully identifying
the most influential variables in segmentation. Finally, the researcher created an automated
pipeline to efficiently process new surveys and assign them to their corresponding clusters. | es_ES |
dc.description.abstract | El objetivo de la presente investigación es segmentar a los potenciales estudiantes
interesados en la maestría en Estadística con mención en Ciencia de Datos e Inteligencia
Artificial de la ESPOCH, utilizando técnicas de machine learning supervisado y no
supervisado: K-means y Random Forest. Primero, se recolectaron 700 encuestas de 19
preguntas, sometidas a un proceso de limpieza y mapeo para asegurar su precisión y
consistencia. Para equilibrar las escalas de las variables, se aplicó estandarización, utilizando
One-Hot Encoding para variables nominales y asignación numérica para variables ordinales.
El método del codo determinó que el número óptimo de clústeres era tres. Tras eliminar las
variables menos relevantes y outliers, se aplicó K-means, obteniendo un Silhouette Score de
0.5886, indicando buena cohesión y separación entre clústeres, después se utilizó PCA para
visualizar los clústeres obtenidos. El Davies-Bouldin Index fue de 0.6491 y el Calinski
Harabasz Index registró 798.4427, corroborando la calidad de la segmentación. La inercia
(WCSS) fue de 4034.7774, confirmando la adecuada compactación de los grupos.
Después del proceso de validación, se definieron tres clústeres bien diferenciados. Se
desarrollaron perfiles detallados para cada segmento y se propusieron estrategias de
marketing digital específicas para "Jóvenes Tecnólogos en Proyección", "Líderes
Profesionales en Transición Académica" y "Educadores en Evolución Profesional". Se
entrenó un modelo de Random Forest, validado mediante validación cruzada y Grid Search,
que identificó las variables más influyentes en la segmentación. Se creó un pipeline
automatizado para procesar nuevas encuestas y asignarlas eficientemente a los clústeres
correspondientes. | es_ES |
dc.description.sponsorship | UNACH, Ecuador. | es_ES |
dc.format.extent | 208 páginas | es_ES |
dc.language.iso | spa | es_ES |
dc.publisher | Riobamba: Universidad Nacional de Chimborazo | es_ES |
dc.rights | openAccess | es_ES |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/3.0/ec/ | es_ES |
dc.subject | segmentación de mercado | es_ES |
dc.subject | K-means | es_ES |
dc.subject | Random Forest | es_ES |
dc.subject | machine learning. | es_ES |
dc.subject | marketing digital | es_ES |
dc.title | Aplicación de los algoritmos K-means y Random Forest para la segmentación de potenciales estudiantes del programa de maestría en estadística con mención en ciencia de datos e inteligencia artificial de la ESPOCH. | es_ES |
dc.type | masterThesis | es_ES |
Aparece en las colecciones: |
|