You are on page 1of 1

Tarea evaluable/Caso práctico 4

El caso práctico IV tendrá una calificación máxima de 100 puntos, la puntuación máxima
asociada a cada uno de los apartados la podéis encontrar entre paréntesis al comienzo de su
enunciado.
El objetivo va a consistir en implementar un flujo de trabajo en Spark para procesar el
archivo de datos "llamadas.csv" que puedes descargar desde esta tarea son los siguientes:

1. Entra en la consola shell Spark y muéstralo en una captura de pantalla (20 puntos)

RESP:

2. Lee el archivo que has descargado desde la consola spark-shell y muestra su


contenido en una captura de pantalla (20 puntos)
3. Pregunta: ¿cuántas líneas has leído desde el archivo? (20 puntos)
4. Tras programar filtros para que eliminen las líneas leídas cuyo código del cliente no
empiece por C y eliminar las líneas que no tengan valores positivos en el campo
minutos responde a la siguiente pregunta: ¿Cuál es el valor suma de todos los
minutos de todos los registros filtrados del archivo? (20 puntos)
5. Tras filtrar las líneas que queden que no tengan valores positivos en el campo
minutos indica: ¿Cuál es la media de minutos del conjunto de datos considerando
que cada línea del archivo es un cliente distinto? (20 puntos)

You might also like