Professional Documents
Culture Documents
FACULTAD DE INGENIERÍA
ESCUELA DE INDUSTRIAL
CÁTEDRA: LABORATORIO DE ESTADÍSTICA AVANZADA
PROF. JUAN DIEGO HERNÁNDEZ LALINDE
PROYECTO DE CÁTEDRA
Realizado por:
• Gómez Rivas, Claudio Sergio
C.I.:20.370.165
• Más y Rubí Márquez, Alberto
C.I.: 21.162.889
2
Tutor académico
4
ÍNDICE
RESUMEN
ABSTRACT
INTRODUCCIÓN
CAPÍTULO I: EL PROBLEMA
1. Planteamiento del problema
2. Objetivos de la investigación
2.1 General
2.2 Específicos
3. Justificación de la investigación
4. Delimitación de la investigación
CAPÍTULO II: MARCO TEÓRICO
1. Muestra piloto
2. Distribución normal
3. Statgraphics
4. SPSS
5. Excel
6. Inferencia estadística
CAPÍTULO III: MARCO METODOLÓGICO
1. Tabla de fundamentos metodológicos de la investigación realizada
2. Población
3. Muestra
CAPÍTULO IV: ANÁLISIS DE LOS RESULTADOS
4.1.Análisis de la distribución que siguen los datos
4.2. Tamaño adecuado de la muestra
4.3. Inferencia sobre el voltaje
CONCLUSIONES
ANEXOS
5
RESUMEN
ABSTRACT
The problem presented in this investigation is the decrease of the quality of the
electric service caused by voltage fluctuations that may derive in damage to
electro domestic devices and others. The main objective of this investigation is to
analyze the voltage in the south zone (SZ) and in the north zone (NZ) in
Maracaibo in order to determine the existence of possible fluctuations and its
range of values. The type of this research is exploratory because the subject of
investigation isn’t much studied and it serves to establish priorities for future
investigations. The design is “not experimental” because there wasn’t any
manipulation of the variable, and “documentary” because the process is based in
the analysis and interpretation of data obtained by other investigators in
documentary sources. To conduct this analysis, a normality study must be
conducted first to determine if the data follow this distribution. Then the sample is
calculated with the statistic package “Statgraphics” to finally execute an inference
about the voltages of the SZ and the NZ.
7
INTRODUCCIÓN
CAPÍTULO I
EL PROBLEMA
Fluctuación
de voltaje
(Generalmente por se da por
pérdidas de capacidad)
Menor o mayor
intensidad
Estallamiento
de bombillos Daños a
equipos
Menor o mayor Mal funcionamiento
potencia de los equipos DISMINUCIÓN DE
LA CALIDAD DEL
SERVICIO DE FLUIDO
ELÉCTRICO DE LA
ZONA NORTE Y SUR
Funcionamiento ineficiente
de generadores
Costos excesivos DE LA CIUDAD
DE MCBO
Paradas no programadas
Ausencia de un programa de
Mantenimiento preventivo
2. OBJETIVOS DE LA INVESTIGACIÓN
2.1. GENERAL
Analizar la tensión eléctrica de la ZN y ZS determinando la existencia de
fluctuaciones de voltaje y su rango de valores.
2.2. ESPECÍFICOS
- Comprobar mediante una muestra piloto que el comportamiento de los
datos siguen una distribución normal.
- Establecer el tamaño adecuado de la muestra con el uso del paquete
estadístico Statgraphics.
- Inferir si el voltaje de la ZS y ZN están dentro del intervalo preestablecido
utilizando el paquete estadístico Statgraphics y paquete estadístico SPSS
(statistics Packaged for social science).
3. JUSTIFICACIÓN DE LA INVESTIGACIÓN
Con la realización de este proyecto se tendrá certeza en relación a la
existencia o no de fluctuaciones voltaje en la ZS y ZN, entonces será posible
tomar las medidas necesarias que permitan solventar los problemas de
ingeniería, diseño, mantenimiento o cualquier otro, que puedan estar originando
dicha falla.
Así mismo, el desarrollo de la investigación permitió adquirir destrezas y
habilidades en relación al manejo de dos paquetes importantes en la estadística,
10
4. DELIMITACIÓN DE LA INVESTIGACIÓN
CAPÍTULO II
MARCO TEÓRICO
1. MUESTRA PILOTO
Cuando no es conveniente considerar todos los elementos de la
población, lo que se hace es estudiar una parte de esa población. Una parte de
la población se llama muestra.
Según:
“Se llama muestra a una parte de la población a estudiar que sirve para
presentarla”. Murria R. Spiegel(1991)
“Una muestra debe ser definida en base de la población determinada, y
las conclusiones que se obtengan de dicha muestra solo podrán referirse a la
población en referencia”. Cadenas (1974)
“Una muestra es la colección de algunos elementos de la población, pero
no de todos”. Levin & Rubin (1996)
2. DISTRIBUCIÓN NORMAL
3. STATGRAPHICS
“Statgraphics es un programa para gestionar y analizar valores
estadísticos.
4. SPSS
“Es un programa estadístico informático muy usado en las ciencias
sociales y las empresas de investigación de mercado. En la actualidad, la sigla
se usa tanto para designar el programa estadístico como la empresa que lo
produce. Originalmente SPSS fue creado como el acrónimo de Statistical
Package for the Social Sciences ya que se está popularizando la idea de traducir
el acrónimo como "Statistical Product and Service Solutions". Sin embargo,
aunque realizando búsquedas por internet estas pueden llevar a la página web
de la empresa, dentro de la página misma de la empresa no se encuentra dicha
denominación. Fue creado en 1968 por Norman H. Nie, C. Hadlai (Tex) Hull y
Dale H. Bent. Entre 1969 y 1975 la Universidad de Chicago por medio de
13
5. MICROSOFT EXCEL
6. INFERENCIA ESTADÍSTICA
Consiste en tomar una muestra de alguna población que posea la mayor
cantidad de características de la misma, es decir, que sea representativa. Ya
que, si es representativa, se puede inferir correctamente sobre la población que
se va a estudiar.
CAPÍTULO III
MARCO METODOLÓGICO
2. POBLACIÓN
Mediciones de los voltajes en la ZN y ZS
3. MUESTRA
Para el estudio de normalidad, la muestra fue aleatoria, cuyo tamaño fue
establecido por el profesor Hernández, siendo éste de 30 tensiones.
CAPÍTULO IV
ANÁLISIS DE LOS RESULTADOS
Esta muestra aleatoria se obtuvo con el uso del programa Excell. Con estos
datos y con la información proporcionada en la tabla 2, en los histogramas 1, 2,
3 y 4; y, en los diagramas 1 y 2, se comenzó el estudio de normalidad:
ESTADÍSTICOS
Puntua(Zo Puntua(Zo
ZonaN ZonaS naN) naS)
N Válidos 30 30 30 30
Perdidos 0 0 0 0
Media 104,5380 117,8187 ,0000000 ,0000000
Error típ. de la media 3,89482 3,68368 ,18257419 ,18257419
Mediana 102,9800 116,8550 -,0730331 -,0477623
Moda -
71,82(a) 114,45 -,16696
1,53370(a)
Desv. típ. 1,0000000 1,0000000
21,33279 20,17632
0 0
Asimetría -,265 -,052 -,265 -,052
Error típ. de asimetría ,427 ,427 ,427 ,427
Curtosis -,478 ,278 -,478 ,278
Error típ. de curtosis ,833 ,833 ,833 ,833
Mínimo 59,48 72,61 -2,11215 -2,24068
Máximo 146,06 163,12 1,94639 2,24527
Percentiles 2,5 -
59,4800 72,6100 -2,2406790
2,1121475
16 -
78,7416 99,4040 -,9126869
1,2092370
84 125,6408 134,7012 ,9892189 ,8367497
97,5 146,0600 163,1200 1,9463933 2,2452718
a Existen varias modas. Se mostrará el menor de los valores.
TABLA 2
18
ZonaN
6
Frecuencia
7
6 6
5
Media =104,54
1 1 1 Desviación típica =21,
333
N =30
0
50,00 75,00 100,00 125,00 150,00
ZonaN
HISTOGRAMA 1
Puntua(ZonaN)
6
Frecuencia
4 8
7
2
3 3 3
2 2 Media =2,36E-16
Desviación típica =1,
1 1 00000
N =30
0
-3,00000 -2,00000 -1,00000 0,00000 1,00000 2,00000
Puntua(ZonaN)
HISTOGRAMA 2
19
ZonaS
6
Frecuencia
7
6
5
3 3 3
2
Media =117,82
1 Desviación típica =20,
176
N =30
0
75,00 100,00 125,00 150,00 175,00
ZonaS
HISTOGRAMA 3
Puntua(ZonaS)
4
Frecuencia
3 6 6
5 5
1 2 2
Media =-3,33E-16
1 1 1 1 Desviación típica =1,
00000
N =30
0
-3,00000 -2,00000 -1,00000 0,00000 1,00000 2,00000 3,00000
Puntua(ZonaS)
HISTOGRAMA 4
20
-1
-2
-3
Puntua(ZonaN)
DIAGRAMA 1
-1
-2
-3
Puntua(ZonaS)
DIAGRAMA 2
Pruebas de normalidad
Kolmogorov-Smirnov(a) Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Puntua(ZonaN) ,108 30 ,200(*) ,972 30 ,585
Puntua(ZonaS) ,074 30 ,200(*) ,989 30 ,982
ZonaN ,108 30 ,200(*) ,972 30 ,585
ZonaS ,074 30 ,200(*) ,989 30 ,982
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors
TABLA 3
22
Curva de Potencia
alfa = 0,05, sigma = 21,3328, n=36
1
0,8
0,4
0,2
0
95 100 105 110 115 120 125
Media Verdadera
CURVA 1 (ZN)
Curva de Potencia
alfa = 0,05, sigma = 20,1763, n=32
1
0,8
Potencia (1 - beta)
0,6
0,4
0,2
0
95 100 105 110 115 120 125
Media Verdadera
CURVA 2 (ZS)
24
Gl 57 57
Norte
29
19
frecuencia
11
21
50 70 90 110 130 150 170
Sur
HISTOGRAMA 5
Norte
Sur
DIAGRAMA 3
26
Gráfico Cuantil-Cuantil
180
160
140
Sur
120
100
80
60
60 80 100 120 140 160 180
Norte
27
CONCLUSIONES
En un análisis estadístico, resulta de una gran ayuda que los datos provengan
de una distribución normal, porque permite una facilidad al momento de
encontrar parámetros especificados, así como para observar los histogramas,
diagrama de caja y bigote, entre otras herramientas gráficas. En la investigación
realizada, se realizó un estudio de normalidad tomando en como base los
valores tipificados de la media, desviación estándar, los percentiles 2,5; 16; 84 y
97,5; Prueba de Kolmogorov-Smirnov (con la corrección de Lilliefors) y la de
Shapiro Wilk.
El conjunto de datos estudiado pasó todas las pruebas y por lo tanto se
concluyó con suficiente evidencia que seguía una distribución normal, lo que
permitió el avance del estudio, llegando al cálculo de una muestra que tuviera un
nivel de tolerancia de 80% y cuyos valores estuvieran comprendidos entre
100,0001V y 199,9999V.
El cálculo se hizo con el Statgraphics, arrojando una muestra de 36 y 32
para la ZN y la ZS respectivamente; pero, como se deseaba realizar una prueba
de hipótesis entre ambas muestras, se tuvo que realizar un nuevo cálculo de
muestra adecuado (de nuevo con el Statgraphics), donde se obtuvo un valor de
58 datos.
Finalmente, se realizó la inferencia estadística para determinar qué voltaje
resultaba mayor. El resultado fue que el voltaje de la ZS es mayor que el de la
ZN, para obtener esto se utilizó de nuevo el paquete estadístico Statgraphics y el
método de prueba de hipótesis, donde la nula expresaba que la diferencia de
medias es igual a cero y la alternativa que era menor que cero, de manera que
al rechazarse la hipótesis nula (que ocurrió porque el valor P resultó menor que
el alfa de 0,05), se concluye que el voltaje en la ZS es mayor que el de la ZN.
28
ANEXOS
INTRODUCCIÓN
Ejercicio
Y X1 X2 X3 X4
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 102 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 108 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74
31
Y = β0 + β1 x1 + β2 x 2 + ... + βk x k + ε
Y = β0 + β1 x1 + β2 x 2 + β3 x3 + β4 x 4 + ε
n = 20 n n
n ∑x i1 = 2284 ∑x i2 = 2163
∑x i1 = 2284 i =1
n
i =1
n
∑x
i =1
= 261292 ∑x
2
n i1 i2 xi1 = 247092
∑ xi 2 = 2163 i =1
n
i =1
n
∑ xi1 xi 2 = 247092
i =1
n ∑x 2
i2 = 237965
∑x
i =1
i3 = 2010 i =1
n
i =1
n
n ∑x i1 xi 3 = 229422 ∑x i2 xi 3 = 218580
∑ xi 4 = 1912
i =1
i =1
n
i =1
n
n ∑x i1 xi 4 = 218256 ∑x i2 xi 4 = 207894
∑y
i =1
i = 1853 i =1
n
i =1
n
∑ yi xi1 = 211605
i =1
∑y x i i2 = 203005
i =1
n n
∑x
i =1
i3 = 2010 ∑x i4 = 1912
i =1
n n
∑x
i =1
i3 xi1 = 229422 ∑x i4 xi1 = 218256
i =1
n n
∑ xi 3 xi 2 = 218580
i =1
∑x i4 xi 2 = 207894
i =1
n n
∑x
i =1
2
i3 = 203338 ∑x i4 xi 3 = 193440
i =1
n n
∑x
i =1
i3 xi 4 = 193440 ∑x 2
i4 = 184904
i =1
n n
∑ yi xi3 = 188994
i =1
∑y x i i4 = 180553
i =1
1
5
2
4
→
2
0
→
2
2
8
4
→
2
1
6
3
→
2
0
1
0
ˆ
→
1
9
1
2
ˆ
ˆ
0
ˆ
0
+
ˆ
0
+
2
4
7
0
9
2
+
2
2
9
4
2
2
2
2
8
4
+
2
1
8
2
5
6
+2
6
1
2
9
2
ˆ β
β
β
Resolviendo este sistema de ecuaciones se obtiene:
βˆ 0 = −175 .88439507
βˆ1 = 0.4910803256 59
βˆ 2 = 0.0201810425 323
βˆ3 = 1.3021711275 8
βˆ 4 = 0.8305674038 5
0
Coeficientes(a)
Coeficientes no
Modelo estandarizados
Error
B típ.
1 (Consta -
48.610
nte) 175.884
X1 .491 .359
X2 .020 .140
X3 1.302 .350
X4 .831 .253
b) Realice un análisis completo de residuales. Emita conclusiones:
β1 x1 = 0.491 ×1 = 0,491
β2 x 2 = 0,02 ×1 = 0,02
β3 x3 = 1,302 ×1 = 1,302
β4 x 4 = 0,831 ×1 = 0,831
e) ¿El modelo elegido especifica una relación lineal útil entre la aptitud
y al menos uno de las cuatro pruebas?
Correlaciones
Y X1 X2 X3 X4
Y Correlación de 1 -.004 .479(*) .886(**) .865(**)
37
Pearson
Sig. (bilateral) .986 .033 .000 .000
N 20 20 20 20 20
X1 Correlación de
-.004 1 .057 -.153 -.096
Pearson
Sig. (bilateral) .986 .812 .519 .688
N 20 20 20 20 20
X2 Correlación de
.479(*) .057 1 .517(*) .380
Pearson
Sig. (bilateral) .033 .812 .020 .098
N 20 20 20 20 20
X3 Correlación de
.886(**) -.153 .517(*) 1 .764(**)
Pearson
Sig. (bilateral) .000 .519 .020 .000
N 20 20 20 20 20
X4 Correlación de
.865(**) -.096 .380 .764(**) 1
Pearson
Sig. (bilateral) .000 .688 .098 .000
N 20 20 20 20 20
* La correlación es significante al nivel 0,05 (bilateral).
** La correlación es significativa al nivel 0,01 (bilateral).
Y con x1: Entre estas dos variables no hay correlación lineal, esto se
demuestra porque su coeficiente de correlación de Pearson es “-
0.004”, que es aproximadamente “0”, además, el valor “P”
(significancia estadística) es 0.986, superando al alfa utilizado (0.05),
aceptando así la hipótesis nula de que el valor de R (coeficiente de
correlación muestral o de Pearson) es igual a “0”, por lo tanto, se
apoya lo anteriormente dicho. En el grafico de dispersión se observara
38
Y con x2: Entre estas dos variables sucede una pequeña confusión ya
que el coeficiente de correlación de Pearson es “0.479” valor que se
encuentra exactamente en la mitad ( entre el intervalo de 0 a 1 , donde
0 significa que no hay correlación, mientras que 1 expresa que están
perfectamente correlacionados) , por otra parte, el valor P estimado es
igual a “0.033”, siendo este valor menor que el alfa utilizado para la
prueba, rechazándose así la hipótesis nula la cual plantea que no hay
correlación entre dichas variables. En conclusión y tomando en cuenta
el grafico de dispersión no se puede afirmar totalmente que existe una
correlación pero se puede observar que los datos expresan una
relación medianamente lineal.
Y con x3: Entre estas dos variables existe una completa correlación
lineal. Esto se puede demostrar ya que el coeficiente de correlación de
Persson es igual a “0.886”, el cual es un valor muy cercano a “1”. A su
vez, el valor de significancia estadística (P) es igual a 0, donde
claramente se observa que es menor al alfa utilizado. Finalmente en el
grafico de dispersión se apoya estas suposiciones.
Y con x4: Entre estas dos variables existe una completa correlación
lineal entre las dos variables. Esto se puede demostrar ya que el
coeficiente de correlación de Pearson es igual a “0.865”, el cual es un
valor muy cercano a “1”. A su vez, el valor de significancia estadística
(P) es igual a 0, donde claramente se observa que es menor al alfa
utilizado. Finalmente en el grafico de dispersión se apoya estas
suposiciones.
39
alfa establecido por el programa (0.05), además cabe destacar que la adición
de una variable sin importancia puede aumentar el error cuadrático medio, lo
que constituye un indicador de que tal variable disminuye la calidad con la
que el modelo ajusta los datos (ver el siguiente cuadro).
Estadísticos
Beta de
Modelo dentro t Sig. colinealidad
Toleranci Toleran Toleran
a cia cia Tolerancia
1 X1 .101(a) 1.227 .237 .988
X2 .069(a) .735 .473 .795
X3 .172(a) .814 .427 .158
X4 -.332(a) -1.192 .250 .087
X1
.105(a) 1.272 .221 .987
X1
41
X2
.081(a) .868 .398 .799
X2
X3
.189(a) .914 .373 .163
X3
X4
-.259(a) -.925 .368 .089
X4
X1
.099(a) 1.094 .289 .838
X2
X1
.224(a) 1.600 .128 .325
X3
X1
.040(a) .216 .831 .216
X4
X2
.115(a) .972 .345 .494
X3
X2
.078(a) .542 .595 .347
X4
a Variables predictoras en el modelo: (Constante), X3X4
b Variable dependiente: Y
También podemos visualizar en la siguiente tabla, que la única variable
que forma parte de este nuevo modelo de regresión lineal múltiple de segundo
orden es X3X4, porque su nivel de significancia (p) resulto igual a “0”,
rechazando así la hipótesis nula de que no existe correlación entre ella y la
variable dependiente:
Coeficientes(a)
Coeficient
es
Coeficientes no estandariz
estandarizados ados
Model Error
o B típ. Beta t Sig.
1 (Constant
-10.736 9.334 -1.150 .265
e)
X3X4 .011 .001 .936 11.242 .000
42
a Variable dependiente: Y
dispersión Y X3X4
X3X4
43
Correlacion
es entre la
variable
dependiente
y las demás
variables
Valor del
estadístico
de prueba F F = 28.768 F = 126.375
(en
ANOVA)
CONCLUSIONES
Un modelo de regresión lineal sea simple o múltiple permite establecer
una relación lineal entre dos variables (en caso de ser regresión lineal simple) ó
3 ó mas variables (en caso de ser regresión lineal múltiple), donde en el modelo
existe un variable dependiente y el resto deben ser variable independientes.
En el ejercicio planteado se observa cómo la correlación entre variables
depende del coeficiente de correlación de Pearson (R), y del valor de
significancia (P), donde el valor R vale 1 si las variables están perfectamente
correlacionadas y 0 si no hay correlación entre ellas; y P plantea la hipótesis
nula de que R es igual a “0”, por lo tanto al ser menor al alfa de 0,05; se
rechazará está hipótesis, estableciendo correlación entre las variables.
En el modelo de regresión lineal múltiple de segundo orden ocurre
generalmente la eliminación o exclusión de variables independientes por no
tener correlación con la variable dependiente o por aumentar la suma de
cuadrados de los errores.
Se debe recordar que R2 (coeficiente de determinación) no mide cuan
apropiado resulta ser el modelo, si no que establece que porcentaje de la
varianza es explicado por la recta de regresión.