You are on page 1of 2

Evaluación 1, Pregunta 3

Curso: “Técnicas de segmentación y clasificación de datos”
Profesor: Sebastián Moreno
Fecha Publicación: 8 de Febrero de 2018
Fecha Entrega: 01 de Marzo de 2018, 23:55 hrs (vía webcursos)

Sugerencia: suba una versión inicial durante el día de la entrega y suba su versión final
después. De esta manera, si tuvo cualquier tipo de problema (no tienen wifi, corte de luz, u
otros motivos), tendrá una versión que será evaluada.

Objetivo:
El objetivo de esta tarea es entender los conceptos básicos de la técnica aglomerativa
jerárquica de clustering para un problema sencillo utilizando el lenguaje R.

Descripción:
El departamento de Recursos Humanos de una empresa determinada ha recolectado
varios datos de sus trabajadores, que incluye características del trabajo propiamente tales,
como también variables demográficas. Así, la empresa dispone de una base de datos de 1470
registros de empleados, caracterizados por 35 variables.
En base a lo anterior, se le ha encargado que diseñe uno o más programas en R (script), que
puedan responder a varias preguntas. Para facilitar el análisis posterior, todos los datos de los
empleados los deberá almacenar en una matriz:
A. ¿Qué variables presentan valores categóricos y qué variables numéricas permanecen
constantes para todos los empleados? Una vez que se identifique esto, Ud. debe:
a. Generar una NUEVA matriz de empleados que omita las variables identificadas
para sus futuros análisis. Atención una variable con número no es necesariamente
numérica, también puede ser categórica.
b. Estandarizar los datos.

B. Analice los datos seleccionados para verificar si existe la presencia de clusters.

Para ello calcule el coeficiente de Hopkins y discuta el valor obtenido.

y determine si corresponde utilizar esta técnica para segmentar estos datos. Ud.net/app/image/id/56 0d29b532131ca16af2b9e4/n/WA_Fn-UseC_-HR-Employee- Attrition. En base al modelo y número de clusters seleccionado en el punto E. Aspectos Administrativos: En esta tarea Ud. aplique el algoritmo correspondiente y grafique el dendrograma generado por esta técnica. En base al algoritmo seleccionado en la pregunta D. deberá entregar todos los scripts necesarios en R que respondan las preguntas.") donde la base de datos employee almacena datos de 1470 empleados (filas) y 35 características/variables (columnas) para cada uno (auto-explicativas). Aplique y concluya sobre los resultados obtenidos al aplicar el algoritmo jerárquico aglomerativo single linkage. . verifique si la matriz de disimilaridad presenta un patrón de bloques. usted deberá analizar cada una de las variables originales y ver si la distribución de la variable cambia en forma significativa para alguno de los clusters. seleccione un número de clusters y grafique los clusters generados. Si alguna pregunta contempla la entrega de gráficos y/o justificaciones escritas. sep = ". después de haber seleccionado uno de los tres modelos con el número de clusters correspondientes.cloudfront. Finalmente. concluya sobre el dendrograma obtenido. Para poder realizar esta tarea y responder las preguntas anteriores. indicando la variación en el cluster correspondiente. D. y elija una de ellos en base a los dendrogramas generados.csv(url. E.C. La tarea se puede realizar en grupos de hasta 3 integrantes. Además. F.csv" employee=read. Aplique los algoritmos jerárquicos aglomerativos complete y average linkage. header = TRUE. deberá trabajar con los datos que se pueden obtener cargando el siguiente script R: url="http://dyzz9obi78pm5. Para ello. Describa los clusters generados en base a las características únicas de cada uno de ellos. entonces debe entregar además estos en un archivo de texto. Justifque su selección. Para esto.