You are on page 1of 10

UOC ESTUDIOS DE INFORMTICA Estadstica Primavera 2012 PEC 1. LRU Fecha de propuesta: 04-03-2012. Fecha de entrega: 25-03-2012.

Instrucciones El nombre del fichero que nos adjuntis con la respuesta debe seguir la regla siguiente: 3 primeras letras primero apellido + 3 primeras letras segundo apellido + 1. Por ejemplo, un estudiante que se diga Jorge Gratacos Pellicer habra de enviar un fichero con el nombre: GRAPEL1.doc (o la extensin que corresponda). Sed breves. No es necesario escribir mucho. No deis slo el resultado de los ejercicios, hace falta explicar el motivo de los razonamientos que utilizis. Poned vuestro nombre completo dentro de la prueba. Tenis que enviar la solucin al buzn de "Entrega de actividades". No aprovechis el mensaje que contiene la PEC para hacer preguntas o comentarios importantes. Enviadnos otro mensaje al foro o a nuestro buzn; as evitaremos mezclar cosas. Tiempo previsto: cinco horas para "realizar" la PEC y dos horas para pasarla al ordenador. Dad los resultados numricos redondeando a dos decimales.

Apellidos y Nombre ................................................................................................................................


LA PEC CONSTA DE REQUIEREN EL USO DE

4 CUESTIONES (A REALIZAR SIN MINITAB) Y DOS PROBLEMAS QUE MINITAB.

Cuestin 1 (12.5%) a) Consulta el Plan de Estudios de tu Titulacin y el plan docente de la asignatura y averigua qu asignaturas estn directamente relacionadas con Estadstica (no olvides mirar entre las optativas y los Trabajos Fin de Carrera). Di por qu. b) Haz un poco de investigacin por Internet sobre Estadstica aplicada a la informtica y a la computacin y describe con un prrafo uno o dos mbitos de aplicacin de la probabilidad y/o la estadstica al mundo de la Informtica. c) En la direccin http://en.wikipedia.org/wiki/Iris_flower_data_set tenis unos datos de las longitudes del spalo y del ptalo de 150 flores clasificadas segn su especie. Decid las variables que intervienen en esta tabla de datos, de qu tipo son y comentad el grfico que aparece en la parte superior derecha de la pantalla. SOLUCIN: respuestas aportadas por estudiantes a) En el plan docente de la asignatura hace referencia a: Minera de datos. A la que tambin se hace referencia en las recomendaciones de matrcula. Se recomienda hacer Estadstica antes de Minera de datos. El motivo es que la minera de datos est basada en la estadstica, quizs sea el ejemplo ms claro. En el siguiente punto voy a hacer referencia a un caso real que he vivido en primera persona.

Modelado y simulacin en la investigacin operativa. He intentado buscar informacin sobre esta asignatura, pero no he encontrado nada. Imagino que ya no forma parte del plan de estudios. Por este motivo me es imposible dar una justificacin. Bases de datos. Este tambin es un claro ejemplo. Hoy en da prcticamente toda la informacin susceptible de ser analizada estadsticamente esta almacenada en una base de datos.

Adems he mirado que TFC tienen relacin con la estadstica y esto es lo que he encontrado: TFC-Redes de computadores. En esta asignatura hay que elegir hacer un trabajo, y entre los ofertado hay uno que es la realizacin de un analizador grfico de red (sniffer). En caso de elegir este trabajo, hay que hacer un tratamiento estadstico de la informacin recogida. Un claro ejemplo en el que necesitaramos conocer bien esta materia. TFC-Aplicaciones web para trabajo colaborativo. Uno de los objetivos y competencias que se quieren adquirir con la realizacin de este TFC es la realizacin de aplicaciones Web que hagan, a travs de hojas de clculo, hojas estadsticas o de minera de datos, clculos sobre bbdds disponibles con datos reales provenientes de grupos de trabajo de las asignaturas con prcticas. TFC-Simulacin de redes y sistemas informticos. Una de las posibles temticas que tiene que elegir el alumno para hacer este TFC es Estudio de problemticas que afectan al modelado y simulacin del sistema Castelldefels (persistencia de la sesin, seguridad del sistema, anlisis del trfico, ajuste de las distribuciones estadsticas, etc.) . Por este motivo tambin es importante el conocimiento de esta materia. b) Los rpidos avances en computacin de los ltimos lustros han tenido un sustancial impacto en la prctica de la estadstica. Se ha pasado de los viejos modelos estadsticos, casi siempre lineales, a modelos no lineales y ms complejos surgidos de algoritmos. La revolucin en computadores tiene implicaciones en el futuro de la estadstica, con un nuevo nfasis en estadsticas experimentales y empricas. Un gran nmero de paquetes estadsticos est ahora disponible para los investigadores. En la informtica de hoy en da, la estadstica proporciona instrumentos para la toma de decisiones en condiciones de incertidumbre o indeterminacin. Son particularmente tiles las metodologas de estadstica descriptiva y los fundamentos del clculo de probabilidades y de variable aleatoria. En mbitos ms especializados, hay que tener en cuenta los mtodos de heurstica y meta-heurstica en modelizacin y simulacin numrica, que tienen como objetivo la optimizacin combinatoria, es decir, encontrar un objeto matemtico finito que maximice o minimice una funcin especificada por el usuario. Destaco la capacidad de determinar los futuros problemas informticos antes de que ocurran, al establecer lmites tolerables en los procesos. Incluso la posibilidad de comparar procesos a nivel de software haciendo cambios significativos en uno de ellos y evaluando su impacto en la produccin tienen una gran importancia a nivel de empresa. c) El tipo de las variables que intervienen: - Sepal Length: variable cuantitativa continua, toma valores dentro de un intervalo. - Sepal Width: variable cuantitativa continua, toma valores dentro de un intervalo. - Petal Length: variable cuantitativa continua, toma valores dentro de un intervalo. - Petal Width: variable cuantitativa continua, toma valores dentro de un intervalo. - Species: variable cualitativa, ya que no expresa numricamente, si no como categoras.

Es un grafico de Anlisis discriminante

Cuestin 2 (12.5%) La tabla siguiente nos muestra el nmero de e-mails (x 100) que recibe el servidor de una empresa diariamente durante un periodo de 100 das:

Nmero de e-mails [0,10) [10,20) [20,30) [30,40) [40,50)

Das 20 30 10 30 10

Los intervalos escritos de la forma [,) significa que est cerrado por la izquierda y abierto por la derecha. Por ejemplo, cuando escribimos [10,20) queremos decir nmero de e-mails que estn entre 10 y 20, donde el 10 est incluido pero el 20 no. Calcular, indicando todos los pasos, a) la media aritmtica, la mediana y moda del nmero de e-mails diarios que recibe esta empresa, b) la varianza y la desviacin tpica del mismo, c) haced un grfico adecuado de la distribucin de frecuencias relativas y comentar la simetra de la distribucin. d) Si otra empresa recibe cada da el doble de e-mails en cada intervalo respecto de la empresa

en cuestin, calculad la media, la mediana y la desviacin tpica del nmero de e-mails diarios que recibe esta nueva empresa. SOLUCIN: a) La media aritmtica vale: x

vale Me 20 (x100) puesto que los valores que ocupan los lugares 50 y 51 teniendo cuenta que hay 100 das son: 15 y 25. Por lo tanto, la mediana valdr Me

5 20 15 30 25 10 35 30 45 10 23 (x100)= La mediana 100

15 25 20 (x100) De cara a calcular la 2

moda, tenemos que tener cuenta que hay dos intervalos con frecuencia absoluta mxima: el [10,20) y el [30,40). Por lo tanto, hay dos modas: 15 y 35.

52 20 152 30 252 10 352 30 452 10 232 176 (x100) 100 desviacin tpica ser: sx 176 13, 27 (x100)
2 b) La varianza ser: sx

La

c) El grfico adecuado de frecuencias relativas sera un histograma de frecuencias:

Cmo se ve, se trata de una distribucin bimodal con una simetra bastante acentuada. d) La media, la mediana y la desviacin tpica del nmero de e-mails de la nueva empresa sern:

x' 2 23 46, M ' 2 20 40, sx ' 2 13.27 26.53. Cada resultado (x100)
Cuestin 3 (12.5%) En la empresa anterior los e-mails que llegan al servidor son de tres tipos: el 50% son e-mails normales, el 20% son e-mails con virus y el resto son e-mails SPAM. Suponemos que los e-mails SPAM no contienen virus. La empresa tiene un programa antivirus y antiSPAM tal que: 1) si llega un e-mail normal, lo detecta normal con un 95% de probabilidad y con un 5% lo detecta como SPAM, 2) si llega un e-mail con virus, lo detecta con virus con un 85% de probabilidad y con un 15% lo detecta SPAM y

3) si llega un e-mail SPAM, lo detecta SPAM con un 75% de probabilidad, con un 15% lo detecta normal y con un 10% lo detecta con virus. Se pide: a) Representad el rbol de probabilidades con todas las probabilidades calculadas. Indicad de forma rigurosa lo que es cada rama y nodo. b) Hallad la probabilidad de que un e-mail se detecte con virus. c) Hallad la probabilidad de que si un e-mail ha sido detectado SPAM, sea realmente SPAM. d) Hallad la probabilidad de que un e-mail ha sido detectado normal y sea realmente normal. SOLUCIN. a) El rbol de probabilidades es el siguiente:
Detecta_Normal 0,475 0,95 0,5 Normal 0,5 Detecta_Virus 0,17 0,85 0,2 0,2 Detecta_SPAM 0,15 0,03 Detecta_SPAM 0,05 0,025

Llegada e-mails

Virus

SPAM

0,3 0,225 Detecta_SPAM 0,75 0,3 Detecta_Normal 0,15 Detecta_Virus 0,1 0,03 0,045

Las probabilidades de las hojas sern:

p(Normal Detectar Normal) 0,5 0,95 0,475, p(Normal Detectar SPAM) 0,5 0,05 0,025, p(Virus Detectar Virus) 0.2 0.85 0.17, p(Virus Detectar SPAM) 0,2 0,15 0,03, p(SPAM Detectar SPAM) 0,3 0,75 0,225, p(SPAM Detectar Normal) 0,3 0,15 0,045, p(SPAM Detectar Virus) 0,3 0,10 0,03,
b) Nos piden:

p(Detectar Virus) p(Normal) p(DetectarVirus / Normal) p(Virus) p(DetectarVirus / Virus) p(Spam) p(DetectarVirus / Spam) 0,5 0 0,2 0,85 0,3 0,10 0,2

c) Nos piden:
p (SPAM/Detecta SPAM) p (SPAM Detecta SPAM) p (SPAM) p (Detecta SPAM/SPAM) p (Detecta SPAM) p (Detecta SPAM)

0,3 0,75 0,8036. 0,5 0,05 0, 2 0,15 0,3 0,75

d) Nos piden:

p (Normal Detecta Normal) 0,5 0,95 0, 475.

Cuestin 4 (12.5%) Queremos hacer un estudio sobre el tipo de servidores de correo que usan las pequeas y medianas empresas de Catalua. Para hacerlo, queremos extraer una muestra de 50 empresas. Decid qu tipo de muestreo harais, cuando sea posible indicad el nmero de empresas de cada tipo, en cada uno de los casos siguientes: a) Si tenemos un listado de todas las empresas indicando si son pequeas o medianas. b) Si tenemos la informacin siguiente: Tipo Beneficios de la empresa en miles de euros De empresa < 10 Entre 10 i 30 > 30 50 220 35 Pequea 42 150 27 Mediana SOLUCIN. a) Haramos un muestreo estratificado donde los estratos seran el conjunto de las pequeas empresas y el conjunto de las empresas medianas. b) Haramos un muestreo por cuotas donde cogeramos el nmero de empresas siguientes dentro de la tabla anterior: (hemos redondeado) Tipo Beneficios de la empresa en miles de euros De empresa < 10 Entre 10 i 30 > 30 5 21 3 Pequea 4 14 3 Mediana

Problema 1 (25%) CON MINITAB En el fichero PEC1-1112P.MTW se tienen los resultados del nmero de e-mails diarios (x100) que han recibido dos servidores: S y T. Se entiende que cada da slo funciona un servidor y en el fichero estn indicados los das en que funciona el servidor S y los das en que funciona el servidor T. Se pide:

a) Cul es el tipo de la variable nmero de e-mails diarios recibos? Calculad la media, la mediana, la desviacin tpica y los cuartiles, el mximo y el mnimo de esta variable distinguiendo por servidores. b) Haced la representacin grfica ms adecuada para comparar el comportamiento de esta variable por servidor. c) Construid diagramas de caja de la variable nmero de e-mails diarios recibos segn el servidor. Indicad si hay datos anmalos o atpicos. d) Resumid brevemente los resultados obtenidos comentando las diferencias - parecidos entre el nmero de e-mails diarios recibos segn el servidor. Indicaciones: Tenis de trabajar con el Minitab. Los resultados tienen que ser salidas y/o grficas del programa que tenis que pegar al documento con un copy&paste. No enviis ficheros de Minitab. SOLUCIN. a) El nmero de e-mails recibidos es una variable cuantitativa discreta. Para calcular la media de la variable, vamos al men Estadsticas Estadstica bsica Mostrar estadsticas descriptivas..., escogemos la variable Nmero de e-mails , en la casilla Por variables (opcional) ponemos Servidor y la salida es:

b) La representacin grfica ms adecuada ser un histograma por tipo de servidor

Histograma de Nmero e-mails por Servidor


3 S 10 8 Frecuencia 6 4 2 0 6 9 T 12 15 18

12

15 18 Nmero e-mails

Variable de panel: Servidor

Como podemos observar las distribuciones son bastantes simtricas y el servidor T recibe ms e-mails que el servidor S. El boxplot sera el siguiente:
Grfica de caja de Nmero e-mails
20

15 Nmero e-mails

10

0 S Servidor T

En el servidor S se observa un dato anmalo pero no hay ninguno en el servidor T. d) Las distribuciones son bastantes simtricas y unimodales. Segn el grfico de los diagramas de caja, se observa que las distribuciones son bastante parecidas donde el servidor T recibe ms

e-mails que el servidor S.

Problema 2 (25%) CON MINITAB Consideramos de nuevo los datos del fichero PEC1-1112P.MTW. Ahora se quiere estudiar la relacin entre el nmero de e-mails diarios recibidos y el servidor. Con este objetivo transformaremos variable nmero de e-mails diarios recibos en una variable cualitativa, codificndola. La codificaremos de la siguiente forma: POCOS, si el nmero de e-mails diarios recibidos est entre el mnimo y el primer cuartil; NORMALES, si el nmero de e-mails diarios recibidos est entre el primer cuartil y la mediana; BASTANTES, si el nmero de e-mails diarios recibidos est entre la mediana y el tercer cuartil y MUCHOS, si el nmero de e-mails diarios recibidos est entre el tercer cuartil y el mximo. A esta variable la denominaremos NMERO_EMAILS_COD. Esto se puede hacer con el Minitab usando: Datos -> Codificar -> Numrico a texto. a) b) c) d) e) Construid una tabla de contingencia donde se indique el SERVIDOR y el NMERO_EMAILS_COD. Para construir esta tabla de contingencia tenis que ir al men Estadsticas -> Tablas -> Tabulacin cruzada y Chi-cuadrada Hallad la probabilidad que el servidor S haya recibido POCOS e-mails en un da cualquiera. Hallad la probabilidad que en un da cualquier se reciban BASTANTES e-mails y que sean recibidos por el servidor T. Hallad la probabilidad que si en un da cualquier se han recibido MUCHOS e-mails, stos son recibidos por el servidor S. Los sucesos recibir BASTANTES e-mails y ser recibido por el servidor S, son independientes? Razonad la respuesta.

Indicaciones: Tenis de trabajar con el Minitab. Los resultados tienen que ser salidas y/o grficas del programa que tenis que pegar al documento con un copy&paste. No enviis ficheros de Minitab. SOLUCIN. a) La tabla de contingencia es la siguiente:

Estadsticas tabuladas: Servidor; Nmero_e-mails-cod


Filas: Servidor Columnas: MUCHOS 9 16 25

Nmero_e-mails-cod
NORMALES 8 7 15 Conteo POCOS 17 18 35 Todo 43 57 100

BASTANTES S T Todo 9 16 25

Contenido de la celda:

b) Nos piden:

p (POCOS/S)
c) Nos piden:

17 0,3954. 43

p (BASTANTES T)
d) Nos piden:

16 0,16. 100

p (S/MUCHOS)

9 0,36. 25

e) Para ver si los sucesos BASTANTES=recibir bastantes e-mails y S=ser recibido por el servidor S son independientes, tenemos que comprobar si la igualdad siguiente es cierta:

p (BASTANTS S) p(BASTANTES) p(S).


Hallemos las tres probabilidades anteriores:

9 25 43 0.09, p(BASTANTES) 0,25, p(S) 0,43. 100 100 100 Como 0,43 0, 25 0,1075 0,09, no son independientes.
p(BASTANTS S)

10

You might also like