Por favor, use este identificador para citar o enlazar este ítem: http://dspace.unach.edu.ec/handle/51000/14997
Título : Aplicación de los algoritmos K-means y Random Forest para la segmentación de potenciales estudiantes del programa de maestría en estadística con mención en ciencia de datos e inteligencia artificial de la ESPOCH.
Autor : Pazmiño Maji, Rubén Antonio
Andrade Andrade, Jesús Enrique
Palabras clave : segmentación de mercado
K-means
Random Forest
machine learning.
marketing digital
Fecha de publicación : 23-abr-2025
Editorial : Riobamba: Universidad Nacional de Chimborazo
Citación : Andrade, Jesús (2025). Aplicación de los algoritmos K-means y Random Forest para la segmentación de potenciales estudiantes del programa de maestría en estadística con mención en ciencia de datos e inteligencia artificial de la ESPOCH. (Tesis de posgrado). Universidad Nacional de Chimborazo. Riobamba, Ecuador.
Resumen : El objetivo de la presente investigación es segmentar a los potenciales estudiantes interesados en la maestría en Estadística con mención en Ciencia de Datos e Inteligencia Artificial de la ESPOCH, utilizando técnicas de machine learning supervisado y no supervisado: K-means y Random Forest. Primero, se recolectaron 700 encuestas de 19 preguntas, sometidas a un proceso de limpieza y mapeo para asegurar su precisión y consistencia. Para equilibrar las escalas de las variables, se aplicó estandarización, utilizando One-Hot Encoding para variables nominales y asignación numérica para variables ordinales. El método del codo determinó que el número óptimo de clústeres era tres. Tras eliminar las variables menos relevantes y outliers, se aplicó K-means, obteniendo un Silhouette Score de 0.5886, indicando buena cohesión y separación entre clústeres, después se utilizó PCA para visualizar los clústeres obtenidos. El Davies-Bouldin Index fue de 0.6491 y el Calinski Harabasz Index registró 798.4427, corroborando la calidad de la segmentación. La inercia (WCSS) fue de 4034.7774, confirmando la adecuada compactación de los grupos. Después del proceso de validación, se definieron tres clústeres bien diferenciados. Se desarrollaron perfiles detallados para cada segmento y se propusieron estrategias de marketing digital específicas para "Jóvenes Tecnólogos en Proyección", "Líderes Profesionales en Transición Académica" y "Educadores en Evolución Profesional". Se entrenó un modelo de Random Forest, validado mediante validación cruzada y Grid Search, que identificó las variables más influyentes en la segmentación. Se creó un pipeline automatizado para procesar nuevas encuestas y asignarlas eficientemente a los clústeres correspondientes.
Descripción : This research aims to segment potential students interested in the Master's program in Statistics specializing in Data Science and Artificial Intelligence at ESPOCH, utilizing supervised and unsupervised machine learning techniques: K-means and Random Forest. Initially, 700 surveys containing 19 questions each were collected and subjected to a cleaning and mapping process to ensure accuracy and consistency. Standardization was applied to balance the scales of variables, employing One-Hot Encoding for nominal variables and numerical assignment for ordinal variables. The elbow method determined the optimal number of clusters to be three. After removing less relevant variables and outliers, it was necessary to apply the K-means algorithm, achieving a Silhouette Score of 0.5886, indicating strong cohesion and clear separation between clusters. The researcher used the Principal Component Analysis (PCA) to visualize the resulting clusters. The Davies-Bouldin Index was 0.6491, and the Calinski-Harabasz Index recorded 798.4427, further corroborating the quality of the segmentation. The within-cluster sum of squares (WCSS) was 4034.7774, confirming appropriate cluster compactness. Following validation, it was possible to identify three well-defined clusters. Consequently, the researcher developed detailed profiles for each segment. It was also necessary to propose specific digital marketing strategies for "Young Technologists in Projection," "Professional Leaders in Academic Transition," and "Educators in Professional Evolution." A Random Forest model was trained and validated through cross-validation and Grid Search, successfully identifying the most influential variables in segmentation. Finally, the researcher created an automated pipeline to efficiently process new surveys and assign them to their corresponding clusters.
URI : http://dspace.unach.edu.ec/handle/51000/14997
ISSN : UNACH-DP-MAT-MC
Aparece en las colecciones:



Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.