Professional Documents
Culture Documents
Qu es la Estadstica?
La Estadstica es una ciencia que estudia las caractersticas de un conjunto de casos para hallar en ellos
regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.
La Estadstica tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un
conjunto de objetos, personas, procesos, etc. A travs de la cuantificacin y el ordenamiento de los datos
intenta explicar los fenmenos observados, por lo que resulta una herramienta de suma utilidad para la
toma de decisiones.
Bajo este contexto, la Estadstica se divide en dos reas: Estadstica Descriptiva y Estadstica
Inferencial.
ESTADSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de manera que
describan en forma precisa las variables analizadas haciendo rpida su lectura e interpretacin.
Obviamente, la materia prima de la Estadstica Descriptiva la constituyen los datos, que son el resultado
de las observaciones y/o experimentos.
Ejemplos:
1. Durante los ltimos dos das se ha informado de un total de trece homicidios diarios.
2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.
Aplicaciones de la Estadstica.
Mucha gente piensa que la Estadstica no tiene nada que ver con otras disciplinas que no sean las
ingenieras y economa. Otros nunca le encuentran aplicaciones tiles, y por eso tampoco les gusta.
Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad,
partiendo ante todo, lo relacionado con las ingenieras, economa, las ciencias biolgicas, ciencias
sociales e incluso en algunas ramas del rea Jurdica. Y, en definitiva, casi todos los campos de las
La Estadstica en la Poltica
Conocidas son las famosas encuestas de tipo poltico, que entregan una orientacin de la intencin de
voto, de la aceptacin de un candidato, del impacto de un programa o proyecto de estado, etc. de una
muestra estadstica representativa, sobre la opinin de las personas en un tiempo determinado, teniendo
esta herramienta una gran confiabilidad. As es que el uso de la estadstica es imprescindible para
determinar caminos a seguir para los candidatos de eleccin popular.
3.
La Estadstica en la Publicidad
Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas,
Laboratorios Lpez, etc. nos llenan de slogans, msica y colores en sus comerciales, lo nico que buscan
es que la gente adquiera los productos y/o servicios que ofrecen.
Se dedican, entonces, a realizar las llamadas campaas publicitarias, y, antes de lanzar una campaa,
hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el xito de
ventas deseado. Estos estudios son de carcter estadstico, es decir, hacen un diseo muestral y
seleccionan una muestra para inferir las caractersticas de la poblacin.
4.
En la administracin es una herramienta del control, como parte del proceso administrativo (o lo que es
lo mismo: planeacin, organizacin, direccin y control) ya que la estadstica ayuda a recolectar,
estudiar y al final interpretar los datos que obtienen al terminar el proceso administrativo, retroalimenta
con esta informacin y al final se observa en que pueden mejorar y que se est haciendo bien.
En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar con
datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la auditoria
administrativa cuando recabas datos para conocer en que puede mejorar una organizacin. En pocas
palabras te puede servir en cualquier rea de una organizacin debido a que muestra los resultados de las
actividades que bienes realizando.
En la economa se utiliza como una herramienta de prediccin para pronosticar el comportamiento
futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el
comportamiento pasado de los precios de los mismos. Tambin puede servir para estudiar el
comportamiento de la bolsa de valores, de ciertos productos bsicos, los economistas por lo regular se
sienten magos que creen predecir cosas. En general, la Estadstica suministra los valores que ayudan a
descubrir interrelaciones entre mltiples parmetros macro y microeconmicos, a travs de la evaluacin
de modelos economtricos para el establecimiento de polticas econmicas; anlisis del costo de la
canasta bsica, el poder adquisitivo de la poblacin, etc.
5. La estadstica en la Banca y Seguros
El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades
que habr de pagar la compaa en el caso de muerte del asegurado. En consecuencia, la prediccin
adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reduccin del riesgo
que se asume. Por ello, el objetivo de la Estadstica de Seguros es una presentacin exhaustiva de los
mtodos disponibles para ajustar tablas de mortalidad y tablas de seguros no vida, ejemplo,
aseguramiento de vehculos, viviendas, etc.
Por otra parte, algunas de las aplicaciones concretas de la Estadstica en el sistema bancario son las
siguientes:
Sistemas de concesin de tarjetas de crdito y fijacin de su lmite.
Sistemas de estimacin del potencial econmico de los clientes.
Definicin de tipologas comerciales de clientes.
Determinacin del pblico objetivo en campaas comerciales.
Modelizacin del riesgo segn las caractersticas de los clientes.
Aplicacin de la teora de colas para brindar un servicio de calidad.
Finalmente, es de mucha utilidad la tcnica de minera de datos para el anlisis de bases de datos del
sistema bancario.
6.
La investigacin en Psicologa, Sociologa y Educacin, al igual que ocurre en otras ciencias, en buena
medida se basa en el manejo de recursos estadsticos como elementos indispensables para llegar a
conclusiones aceptables por el resto de la comunidad cientfica. Dada la peculiaridad de su objeto de
estudio, inabordable en la mayora de los casos sino es a travs de perspectivas complejas de relacin
entre variables, la atencin de los investigadores en las ciencias humanas y sociales se concentra cada
vez ms en la llamada Estadstica Multivariante (Anlisis Cluster, Factorial, Discriminante, etc.).
Las ciencias sociales se han visto apabulladas en los ltimos aos por avances vertiginosos en
informtica y aplicaciones estadsticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de
Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes reas: Educativas,
Econmicas, Salud, entre otras. Tambin, se ha hecho investigacin sobre los factores que estn
asociados al rendimiento acadmico de los estudiantes, finalmente, se han utilizado diferentes tcnicas
para el anlisis de los resultados acadmicos de los estudiantes.
Las ciencias sociales: es un pilar bsico del desarrollo de la demografa y la sociologa aplicada, lo que
conlleva a:
Definicin de indicadores de fenmenos sociales.
Medicin de constructos o variables no directamente observables (la satisfaccin, la inteligencia,
...)
Medicin de los efectos entre constructos no observables para establecer polticas sociales.
Estudio de la evolucin de la demografa.
Estudios sociales sobre la integracin de la poblacin inmigrada.
Fenmenos sociales como las pandillas, criminalidad, delincuencia, contaminacin, entre otros.
7.
8.
En el rea de las ciencias biolgicas, interesa estudiar el comportamiento de ciertas plantas y sus cruces
a fin de determinar cmo se relacionan genticamente los padres con los hijos, hablando de Genotipo y
Fenotipo. En esta categora es tambin donde se realizan los mayores avances de la humanidad, en
descubrimientos. Cada ao se descubren miles de frmulas cientficas que relacionan fenmenos de la
naturaleza con modelos matemticos.
Los cientficos se dedican a realizar estudios estadsticos, recogiendo datos y muestras, investigando el
tiempo de reproduccin de un virus, el comportamiento migratorio de algunas aves o insectos, adems
de factores de tamao y volumen del crecimiento de ciertas especies de animales o vegetales. Todo esto
funciona con la idea de recopilar informacin, muestrear ciertas reas para ver cmo se han comportado
algunas aves, por ejemplo, se pueden dibujar o simular curvas que se supone que son relativamente
parecidas al comportamiento migratorio de aves. Con esta herramienta se podran determinar tambin
las pocas de mayor probabilidad de contagio, diseminacin de algn virus o bien enfermedades
transmitidas por insectos.
Algunas aplicaciones concretas en esta rea son: Determinacin del tamao de poblaciones naturales en
una regin; efectividad de la utilizacin de barreras naturales (filas de rboles plantados en los lmites
del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y as disminuir
la utilizacin de pesticidas: y, determinacin de los niveles ptimos de utilizacin de los fertilizantes.
Obviamente, en esta rea es donde ms se hace usos de la teora de Diseos de Experimentos.
9.
Permite establecer pautas sobre la evolucin de las enfermedades y los enfermos, los ndices de
mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etctera.
Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadstica, haciendo un
recorrido por diversas reas del conocimiento humano, con el fin, de conocer como se relacionan con las
diversas ciencias, formando una sola verdad. Evidentemente, existen, muchas disciplinas donde se aplica
la estadstica, que no han sido consideradas en este apartado, por ejemplo, las ingenieras, la pintura, la
msica, etc. Finalmente, es de resaltar que en todos los temas donde se analice informacin est presente
la estadstica.
Homogeneidad - que todos los miembros de la poblacin tengan las mismas caractersticas segn las
variables que se vayan a considerar en el estudio o investigacin. Por ejemplo, si se fuera a investigar la
incidencia de la drogadiccin entre jvenes mujeres adolescentes, entonces hay que definir claramente
las edades que comprenden la adolescencia y cuando se seleccione la poblacin asegurarse de que todas
las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define
operacionalmente como el periodo comprendido de edad que flucta entre 12 y 21 aos.)
Tiempo - se refiere al perodo de tiempo donde se ubicara la poblacin de inters. Determinar si el
estudio es del momento presente o si se va a estudiar a una poblacin de cinco aos atrs o si se van a
entrevistar personas de diferentes generaciones.
Espacio - se refiere al lugar donde se ubica la poblacin de inters. Un estudio no puede ser muy
abarcador y por falta de tiempo y recursos hay que limitarlo a un rea o comunidad en especfico.
Cantidad - se refiere al tamao de la poblacin. El tamao de la poblacin es sumamente importante
porque ello determina o afecta al tamao de la muestra que se vaya a seleccionar, adems que la falta de
recursos y tiempo tambin nos limita la extensin de la poblacin que se vaya a investigar.
MUESTRA - la muestra es un subconjunto fielmente representativo de la poblacin.
Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione depender de la calidad y cun
representativo se quiera que sea el estudio de la poblacin, en este sentido, la muestra puede ser:
Aleatoria - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.
Un procedimiento de extraer una muestra aleatoria de una poblacin finita es: enumerar todos los
elementos que conforman la poblacin, escribir esos nmeros en papelitos y echarlos en una urna o
bolsa mezclarlos bien removindolos y sacar uno a uno tantos como lo indique el tamao de la muestra.
En este caso los elementos de la muestra lo constituirn los elementos de la poblacin cuyos nmeros
coincidan con los extrados de la bolsa o urna.
El tamao de la muestra (MAS):
Al realizar un muestreo probabilstica nos debemos preguntar Cul es el nmero mnimo de unidades
de anlisis (personas, organizaciones, capitulo de telenovelas, etc), que se necesitan para conformar una
muestra n que me asegure un error estndar menor que 0.01 ( fijado por el muestrista o investigador),
dado que la poblacin es aproximadamente de N elementos.
En el tamao de una muestra de una poblacin se debe tener presente la varianza poblacional, error
mximo permisible prefijado (diferencia del parmetro y estimador), con un nivel de confianza de 1 .
Simblicamente se refiere a lo siguiente: P X d 1 , bajo este contexto podemos utilizar la
frmula:
=1.96
Determinar:
estrato i=1, 2, , k . No se entrar en detalle del clculo del tamao muestral, ya que supera el alcance
de esta asignatura.
MUESTREO SISTEMTICO - cuando
Personas
Grupos humanos
Poblaciones completas
Unidades geogrficas determinadas
Eventos o interacciones sociales (enfermedades, accidentes,
intrahospitalarias, etc)
Entidades intangibles, susceptibles de medir (exmenes, das, camas)
casos
de
infecciones
El tipo de anlisis al que se someter la informacin es determinante para elegir la unidad de anlisis.
Por ejemplo, si el objetivo es dar cuenta de la satisfaccin del usuario de un servicio mdico, la unidad
de anlisis natural es el paciente atendido, o la persona que se atiende en ese servicio mdico. Si el
objetivo es dar cuenta de la satisfaccin del alumno sobre el desempeo docente, la unidad de anlisis es
el alumno que recibe clases con el docente evaluado.
La unidad de muestreo corresponde a la entidad bsica mediante la cual se acceder a la unidad de
anlisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la prevalencia de
dao auditivo en relacin con niveles de ruido ambiental en una muestra de trabajadores de una fbrica,
la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro detallado de
cada sujeto. La unidad de anlisis es por cierto el trabajador de la fbrica.
VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como categoras o
atributos. Por ejemplo, el sexo, color, afiliacin poltica, nacionalidad, motivacin, rea acadmica o
profesin de una persona.
VARIABLES CUANTITATIVAS - son las que varan en trminos de cantidad y se registran o expresan
en forma numrica. Por ejemplo, edad, promedio acadmico, puntuaciones de exmenes, frecuencia de
delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas caractersticas que pueden
clasificarse o expresarse como variable cuantitativa y transformarla a cualitativa o viceversa. Por
ejemplo, nivel de aprovechamiento acadmico estudiantes de 4:00 puntos, o estudiantes de 3:00 puntos y
as sucesivamente. El investigador puede expresar mediante una escala numrica el aprovechamiento
acadmico al clasificar a los estudiantes, como tambin puede clasificarlos como variable cualitativa en
las categoras de excelentes, buenos, regulares y deficientes.
VARIABLES DISCRETAS - son aquellas que slo adquieren un valor absoluto o especfico que nunca
cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo tnico, entre otras.
VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir cualquier
valor. Por ejemplo, la edad, altura, peso, ndice acadmico.
En el campo de la investigacin, que se suele examinar las relaciones entre dos o ms variables al
investigar un asunto o problema, se clasifican las variables como:
VARIABLES INDEPENDIENTES - son las caractersticas controladas por el investigador y que se
supone tendrn efectos sobre otras variables.
VARIABLES DEPENDIENTES - son las caractersticas o aspectos que se alteran por consecuencia del
control que ejerce el investigador sobre otras variables.
Estos dos ltimos tipos de variables suelen darse ms en estudios o investigaciones experimentales, pero
tambin podemos considerarlas en estudios descriptivos. Por ejemplo, en un estudio experimental se
investiga si un nuevo medicamento mejora las condiciones del sida. A tales efectos se seleccionaron 30
pacientes, de los cules 15 reciban el nuevo medicamento (grupo experimental) y otros 15 continuaban
con su tratamiento tradicional (grupo control). El nuevo medicamento viene a ser la variable
independiente porque es la que los investigadores controlan y que luego examinarn sus efectos en la
condicin del sida, la cual viene a ser la variable dependiente, porque es la condicin que se va alterar o
quedar afectada por el nuevo medicamento.
En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el
aprovechamiento acadmico en las escuelas, entonces la clase social es la variable independiente y el
aprovechamiento acadmico la dependiente.
Una variable puede ser independiente en una investigacin y dependiente en otra, todo depender de la
finalidad de la investigacin. Por ejemplo, si se lleva a cabo un estudio para determinar cmo las
condiciones socio-econmicas influyen a la drogadiccin, en este caso, status socio- econmico es una
variable independiente. Por el contrario, si se lleva a cabo una investigacin para saber cmo la
drogadiccin afecta las condiciones sociales y econmicas, entonces, el status socio-econmico
resultara ser la variable independiente.
DATOS: son los hechos que describen sucesos y entidades.
10
escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar
si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posicin. Por ejemplo,
en un evento atltico de una carrera que no haya sido cronometrada, podemos saber quin lleg primero,
segundo y tercer lugar, pero no podemos saber con precisin la velocidad entre un corredor y otro. La
diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el
segundo y el tercero.
12
LIMITACIONES
CARACTERSTICAS
Se clasifican las personas, eventos u USOS/EJEMPLOS
Denominaciones religiosas, afiliacin No
Nominal
objetos en categoras.
Ordinal
Intervalo
Razones
de igual
la escala
ausencia
de igual
Distancia, peso,
estatura, tiempo
requerido para realizar una tarea escolar.
se
pueden
precisar
diferencias cuantitativas entre
las categoras.
Restringida para Identificar
diferencias relativas, pero no
precisa diferencias en cantidad
absoluta entre personas u
objetos.
Razones no tienen sentido ya
que el punto cero es establecido
convencionalmente.
Ninguna, excepto que su uso se
supedita mayormente a medir
cualidades fsicas ms que para
la medicin de aspectos
psicolgicos.
13
objetivo
es
obtener
Durante los ltimos dos das se ha informado de un total de cinco homicidios diarios en San
Salvador, este es un ejemplo de estadstica inferencial.
Escala nominal
Escala ordinal
Escala de intervalo.
Escala de razn
14
Variables
Las variables cualitativas o atributos son aquellas que no toman valores numricos. Describen diferentes
cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos, etc. Las variables
cualitativas estn formadas por datos que toman valores numricos y pueden ser discretas, si slo toman
un nmero entero de valores, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribucin de
frecuencias y b) la representacin grfica.
15
Datos
Frecuencias Absolutas
Simples
Acumuladas
N1 n1
n1
x1
Frecuencias Relativas
Simples
Acumuladas
f1 n1 / n
F1 N1 / n
x2
n2
N 2 n1 n2
f 2 n2 / n
F2 N 2 / n
.
.
.
xk
.
.
.
nk
.
.
.
.
.
.
.
.
.
Fk N k / n
f k nk / n
N k ni
i 1
Total
ni n
i 1
i 1
La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es
decir, el nmero de veces que se ha observado el correspondiente valor; la tercera columna recoge la
frecuencia acumulada (nmero de veces que se han observado valores menores o iguales que el que
corresponde a dicha fila). Las frecuencias relativas se obtienen a partir de las frecuencias absolutas,
dividiendo por el tamao de la muestra.
Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, an a
costa de perder informacin, agrupar los datos en clases, en lo que se denomina distribucin de
frecuencias agrupada en intervalos.
Clase
L1 L2
.
.
.
Lk 1 Lk
.
.
.
xk
L0 L1
.
.
.
nk
Frecuencias Relativas
Simples
Acumuladas
f1 n1 / n
F1 N1 / n
.
.
.
f 2 n2 / n
F2 N 2 / n
.
.
.
.
.
.
Fk N k / n
f k nk / n
N k ni
i 1
Total
ni n
i 1
i 1
A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de clculo
la marca de clase se elige como representante del intervalo. El nmero de clases en que se dividen los
datos no debe ser excesivo. A modo orientativo, el nmero de clases se puede obtener mediante la
siguiente frmula emprica, llamada de Sturges:
3 log(n)
nmero de clases
(Tomar la parte entera)
2 log(2)
16
Eda
Total
d
10188
4
36
10470
7
37
11010
6
38
11687
9
39
12231
7
40
12201
2
41
13533
7
42
14798
2
43
14003
6
44
13936
0
45
14490
8
46
14124
3
47
14692
8
48
13444
5
49
13882
3
50
12827
5
51
12351
0
52
12287
9
53
11617
4
54
10972
7
55
10532
8
56
Hombr
e
Mujer
97617
97435
16816 20974
14462 17853
57
58
31398 40111
31414 38801
29639 37419
29435 37454
31769 39411
24732 32964
26840 34653
24578 32639
24299 31746
24451 31422
21989 29308
22251 28713
20682 26481
20584 26241
22897 28057
17664 22874
19081 24360
17671 22344
17962 22824
17848 22561
17114 21361
17
Eda
Total d
7150
9
72
7021
5
73
6705
8
74
6688
9
75
7118
0
76
5769
6
77
6149
3
78
5721
7
79
5604
5
80
5587
3
81
5129
7
82
5096
4
83
4716
3
84
4682
5
85
5095
4
86
4053
8
87
4344
1
88
4001
5
89
4078
6
90
4040
9
91
3847
5
92
3779
0
93
3231 94
Hombr Muje
e
r
Total
1071 1930
8591
7
8
1698
7461 9522
3
1003 1804
8011
0
1
1795
8067 9886
3
1728
7535 9745
0
1576
6897 8872
9
1294
5825 7123
8
1203
5334 6700
4
1280
5717 7089
6
4124
5274 9398
3841
5220 9061
3438
4508 7946
3281
4378 7659
3263
4413 7676
3096
4286 7382
2750
3758 6508
1767
2358 4125
1595
2219 3814
1405
2091 3496
786
1143 1929
826
1206 2032
673
559
990
869
1663
1428
23
42864
24
42894
25
42616
26
41993
27
43473
28
39209
29
39672
30
41911
31
33494
32
35940
33
33124
34
33931
35
34628
9
4927
8
5112
6
5055
2
5070
7
5221
4
4807
6
4937
8
5074
4
4293
3
4531
2
4199
0
4287
0
4284
8
92142
59
15478 18608
94020
60
17461 19979
93168
61
12470 15424
92700
62
13590 17093
95687
63
12274 15528
87285
64
12412 15633
89050
65
12802 15513
92655
66
11774 14915
76427
67
11864 14597
81252
68
9694
12291
75114
69
9647
12060
76801
70
77476
71
10861 13101
8525
10638
5
3408
6
3744
0
2789
4
3068
3
2780
2
2804
5
2831
5
2668
9
2646
1
2198
5
2170
7
2396
2
1916
3
18
95
482
816
1298
96
416
674
1090
97
98
+
356
588
944
526
948
1474
Elaborar un grfico de barras para la poblacin total de Ayutuxtepeque segn su condicin de ocupacin.
Ejemplo. Con la informacin del VI Censo de Poblacin y V de Vivienda, El Salvador, 2007, se han
clasificado las mujeres de El Salvador de 12 aos y ms, segn el nmero de hijos varones, resultando
los siguientes datos.
19
N Hijos
Varones
0
1
2
3
4
5
6
7
8
9+
Madres
salvadoreas.
278290
509469
339180
177050
92233
50916
27791
15004
7328
7366
Grfico de sectores:
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en
representar sobre un crculo los diferentes atributos, mediante un sector circular de ngulo proporcional
a la correspondiente frecuencia. El ngulo de cada sector circular se calcula multiplicando por 360 la
frecuencia relativa.
Los grficos de sectores, tambin conocidos como diagramas de "tartas o pastel", se divide un crculo
en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de
crculo proporcional a su frecuencia absoluta o relativa. Si el nmero de categoras es excesivamente
grande, la imagen proporcionada por el grfico de sectores no es lo suficientemente clara y por lo tanto
la situacin ideal es cuando hay alrededor de cuatro categoras. En este caso se pueden apreciar con
claridad dichos subgrupos.
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en
representar sobre un crculo los diferentes atributos, mediante un sector circular de ngulo proporcional
a la correspondiente frecuencia. El ngulo de cada sector circular se calcula multiplicando por 360 la
frecuencia relativa.
Ejemplo.
La poblacin segn nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:
Superior
no
Tcnico
Superior
Parvulari Primaria Educaci universita universita universita Maestr Doctora
a
o bsica n media ria
rio
ria
a
do
Total
1168
15895
6842
499
363
4556
70
7 29400
Fuente: VI Censo de Poblacin y V de Vivienda, El Salvador, 2007.
Utilizar la mejor representacin grfica para la informacin anterior (Diagrama de barras e histogramas)
21
1
x1n1 x2 n2 . . . xk nk
n
Media geomtrica
G x1n1 x2 n2 . . . xk nk
Media armnica
1/ n
n
n1 n2
n
. . . k
xk
x1 x2
7 x5 x 4 5.192
La G da una cifra de ganancia ms conservadora porque no tiene una ponderacin alta para la tasa de
7%.
22
La mediana.
La mediana de una distribucin de frecuencia corresponde al valor, supuesto los datos ordenados de
menor a mayor, que deja a ambos lados el mismo nmero de observaciones. Para el caso de
distribuciones agrupadas en intervalos se utiliza una frmula aproximada. Se comienza calculando el
intervalo donde se encuentra la mediana, para lo cual se calculan las frecuencias acumuladas, y se
escoge el primer intervalo cuya frecuencia acumulada sea igual o superior a n/2. A continuacin se
aplica la frmula:
n / 2 N i 1
Mediana Li 1
Ci
ni
Quintiles
Se representan con la letra K. Su frmula aproximada es i*n/5.
El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda.
El segundo quintil. Es el valor que indica que el 40 % de los datos son menores.
El tercer quintil. Indica que el 60 % de los datos son menores que l.
El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.
Deciles
23
Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de forma
creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de
los resultados. Su frmula aproximada es i*n/10.
Es el decil i-simo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son valores
menores que l y el 100-(i*10) % restante son mayores.
Percentiles
Q j ;k Li 1
jn / k N i 1
Ci
ni
Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido
intercuartlico, que es la semidiferencia entre el tercer y el primer cuartil:
R1
Q3 Q1
2
24
Se define tambin la desviacin absoluta media como la media de los valores absolutos de las
diferencias de los datos a la media, es decir:
AM
1 k
xi x ni
n i 1
S X Varianza
La relacin entre la varianza de una variable X y la de una nueva variable definida como a+bX es:
S a2 bX b 2 S X2
Por lo tanto, si a los datos de la distribucin les sumamos una cantidad constante la varianza no se
modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa
constante.
En ocasiones puede interesar comparar la dispersin de dos muestras y la desviacin tpica no ser vlida,
si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el coeficiente de
variacin:
Desviacin Tpica
S
CV
X
Media
x
Que no depende de cambios de escala en la variable.
25
dependiendo que la rama larga de la distribucin se encuentra en el sentido positivo o negativo del eje de
las x. La medida ms popular de asimetra es el coeficiente de asimetra de Fisher, que viene dado por:
3
1 k
xi x ni
m
n i 1
g1 33
3/ 2
S
2
1 k
n xi x n i
i 1
1 k
xi x
n i 1
m
g 2 44 3
S
1 k
n xi x
i 1
ni
n i
1.1.6 Ejercicios.
1. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el n de
individuos que conviven en el domicilio habitualmente. Las respuestas obtenidas han
sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3,
4, 7, 2, 3.
a) Calcule la distribucin de frecuencias de la variable obteniendo las frecuencias
absolutas, relativas y sus correspondientes acumuladas.
b) Qu proporcin de hogares est compuesto por tres o menos personas? Qu
proporcin de individuos vive en hogares con tres o menos miembros?
c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.
26
5
7
6
1
6
5
6
9
6
6
7
2
6
5
7
3
6
8
6
7
7
7
5
7
6
1
7
6
6
5
5
8
8
0
7
5
5
9
6
2
6
2
6
7
6
8
7
2
6
5
7
3
6
6
7
5
6
9
6
5
7
5
6
2
7
3
5
7
7
6
5
5
8
0
7
4
5
5
7
5
6
3
6
9
6
5
7
5
6
5
7
3
6
8
6
6
6
7
6
2
5
5
6
7
6
2
6
8
5
8
7
9
5
5
6
8
6
5
6
3
6
4
6
8
7
5
8
1
6
5
8
1
6
6
7
3
6
7
6
3
6
0
5
9
8
0
6
4
6
4
5
6
7
1
6
5
6
3
5
9
27
Ventas
1,107
1,041
535
333
164
110
725
ni: N mujeres
13
20
25
20
11
7
4
Se pide:
a) Calcular el nmero medio de hijos, la mediana y la moda.
b) Calcular los cuartiles y el decil 7.
c) Analizar la dispersin de la distribucin, interpretando los resultados.
d) Analizar la forma de la distribucin calculando los coeficientes correspondientes.
Comente los resultados.
6. La siguiente distribucin expresa el nmero de vehculos vendidos durante un mes por
cada uno de las 50 sucursales que una determinada firma tiene en El Salvador:
xi: nmero de
vehculos
vendidos
1
3
4
6
10
ni: nmero
Sucursales
5
12
20
8
5
Se pide:
a) Media aritmtica, mediana y moda. Qu puede decir de la asimetra de la distribucin
con estos datos?
b) Desviacin tpica,
Coeficientes de asimetra de Fisher y curtosis. Comente los
resultados.
7. La siguiente tabla recoge la cifra de ventas (en miles de millones) y el nmero de empleados (en
miles) de las diez mayores empresas del sector de automvil durante el ao 1989:
Empresa
SEAT
Fasa Renault
General Motors
Ford
Ventas
457.3
449.7
372.7
356.1
28
Plantilla
23.8
19.2
9.4
9.5
Citroen
Peugeot
Nissan
Mercedes Benz
ENASA
224.6
198.0
161.1
110.7
97.3
7.6
6.7
6.6
3.4
5.5
Total produccin
15 5 20 8 30
= 8.07 Tm/hectrea.
Total hectrea
15 / 9 5 / 2 20 /10 8 / 4 30 / 20
Observe que la frmula aplicada coincide con la media armnica de los rendimientos ponderados por la
produccin de cada fila.
8. La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un
Distancia (km)
20
10
15
30
Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally.
Solucin.
La velocidad media total vendr dada por el cociente entre el total de la distancia y el tota del tiempo:
29
VM
= 90.32 Km/hora.
Total tiempo
20 /120 10 / 70 15 / 80 30 / 90
Observe que la frmula aplicada vuelve a ser la media armnica, de las velocidades ponderadas por la
distancia de cada tramo.
30
( x1 , y1 ), ( x2 , y2 ),. . ., ( xn , yn )
En este caso tenemos una variable estadstica bidimensional o distribucin bidimensional de frecuencias,
la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de
presentar la distribucin bidimensional es a travs de una tabla de doble entrada de la forma:
Tabla de doble entrada
X/Y
Total
y1 y 2
... yj ...
yk
x1
x2
.
.
.
xi
.
.
.
xl
Total
n11
n12
. . . n1 j
...
n1k
n1
n21
n22
. . . n2 j
...
n2 k
n2
.
.
.
ni 1
.
.
.
ni 2
.
.
.
. . . nij
.
.
.
nl 1
.
.
.
nl 2
n1
n2
.
.
.
...
nik
.
.
.
. . . nlj
...
.
.
.
nlk
.
.
.
ni
.
.
.
nl
. . . n j
...
n k
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensin.
En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de
contingencia.
La representacin grfica ms utilizada en el caso bidimensional es la nube de puntos o diagrama de
dispersin. Consiste en representar cada pareja de datos como un punto sobre unos ejes cartesianos.
4.1.1.
Dada una variable estadstica bidimensional, las distribuciones marginales permiten estudiar de un modo
aislado cada una de las componentes. A partir de una tabla de doble entrada, las distribuciones de
frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y por columnas.
Distribuciones marginales de X e Y.
X
ni
x1
n1
x2
n2
.
.
.
.
.
.
31
n j
y1
y2
.
.
.
yk
n1
n2
.
.
.
n k
xl
nl
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando la
otra permanece constante. Vienen dadas por:
Distribuciones condicionadas de X e Y.
ni / j
nj /i
Y/X= xi
X/Y= y j
x1
n1 j
x2
n2 j
.
.
.
.
.
.
nlj
xl
y1
y2
.
.
.
yk
ni1
ni 2
.
.
.
nik
Ejemplo:
Se desea investigar el ganado caprino y el ganado ovino de un pas. En la tabla de doble entrada adjunta
se presentan los resultados de un estudio de 100 explotaciones ganaderas, seleccionadas aleatoriamente
del censo agropecuario. Se proporcionan las frecuencias conjuntas del nmero de cabezas (en miles) de
cabras (X) y ovejas (Y) que poseen las explotaciones.
X\Y
0
1
2
3
4
0
4
6
9
4
1
1
5
10
7
4
2
2
7
8
5
3
1
3
5
5
3
2
1
4
2
3
2
1
0
a) Hallar las medias, varianzas y desviaciones tpicas marginales.
b) Hallar el nmero medio de cabras condicionado a que en la explotacin hay 2,000 ovejas.
c) Hallar el nmero medio de ovejas que tienen aquellas explotaciones que sabemos que no tienen
cabras.
d) Hallar la covarianza y el coeficiente de correlacin entre ambas variables.
Solucin:
Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.
X\Y
0
1
2
3
4
n j
4
5
7
5
2
23
6
10
8
5
3
32
9
7
5
3
2
26
4
4
3
2
1
14
1
2
1
1
0
5
32
ni
24
28
24
16
8
100
a) La media de X es:
X
0* 24 1* 28 2* 24 3*16 4*8
= 156/100= 1.56
100
La varianza de X es:
S 2X
100
S XY
=-
0.1876
33
S XY
S X SY
1 n
( xi x )( y i y )
n i 1
2
1 n
1 n
(
x
x
)
( y i y )2
i
n i 1
n i 1
De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos variables,
y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r est cercano a
cero, no existe dependencia lineal entre X e Y. Esto ltimo puede ser, bien porque X e Y son variables
independientes, o bien porque la dependencia existente entre ambas variables es de otro tipo diferente al
lineal.
Los modelos de regresin lineal constituyen una poderosa herramienta para analizar la relacin existente entre la pauta de
variabilidad de una variable aleatoria y los valores de una o ms variables (aleatorias o no) de las que la primera depende o
puede depender. El modelo fundamental se esquematiza en la siguiente tabla.
Tabla 1 Datos del problema
Observaciones
Variables a explicar
(aleatoria)
Y1
---Yj
---Yn
(aleatorios o no)
X11 Xi1.XIn
X1i Xii.Xin
X1n Xin.Xnn
34
Se trata en general de estudiar las posibles relaciones existentes entre la distribucin de Y j y los valores de las X ij . A la
Y se le denomina generalmente la variable dependiente, mientras que frecuentemente a
35
En este caso, existe claramente una fuerte relacin negativa, la mayor parte de los puntos caen en los cuadrantes II Y IV.
Cuando la relacin existente sea positiva la mayora de los puntos caern en los cuadrantes I y III
Si consideramos para cada punto xi , y i del diagrama el signo que tiene el producto xi x y i y vemos que ste
resulta positivo en los cuadrantes I y III y negativo en los cuadrantes II Y IV. Por lo tanto el producto anterior ser en
promedio positivo si existe una relacin creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X)
y negativo si la relacin existente es decreciente.
Por definicin la covarianza entre dos variables no es ms que el promedio de los productos de las desviaciones de ambas
variables respecto a sus medias respectivas. De forma similar a como se procedi a definir la varianza, el promedio se calcula
dividiendo por n-1 en vez de n.
x
n
Cov xy
i 1
x yi y
n 1
La covarianza presenta el inconveniente de que depende de las dimensiones en que se expresan las variables. As la
covarianza entre TEMPERATURA y COSTO ser mayor si se mide la temperatura en grados kelvin que si se mide en
Fahrenheit. Para obviar este problema se utiliza universalmente en Estadstica, como grado de relacin lineal entre dos
variables, el coeficiente de correlacin lineal que no es ms que la covarianza dividida por el producto de las desviaciones
36
Cov xy
SxSy
comprendido entre -1 y 1. Los valores extremos slo los toma en el caso de que los puntos del diagrama de dispersin estn
alineados exactamente en lnea recta. Cuanto ms estrecho es el grado de relacin lineal existente entre dos variables ms
cercano a 1 es el valor de r (o a -1 si la relacin es decreciente). Por el contrario un valor de r nulo o cercano a cero indicar
una relacin lineal inexistente o nula.
OBSERVACIONES
En general cuanto ms estrechamente se agrupen los puntos del diagrama de dispersin alrededor de una recta ms
fuerte es el grado de relacin lineal existente entre las dos variables consideradas.
Es importante resaltar que tanto la covarianza como el coeficiente de correlacin miden slo el grado de relacin
lineal existente entre dos variables. Dos variables pueden tener una relacin estrecha y sin embargo resultar r
cercano a cero por ser dicha relacin no lineal.
EJERCICIO 1.
Dada una alta inflacin, el seor Chvez ha cuidado mucho de su presupuesto. Como su casa tiene calefaccin elctrica, llev
un registro de la cuenta del consumo mensual de energa elctrica durante el ao pasado y del promedio mensual de la
temperatura exterior. Los datos aparecen en la siguiente tabla. La temperatura est dada en grados Celsius y el costo de la
energa est en dlares. TEMPERACOSTO.xls.
Tabla2. Registro mensual: TEMPERATURA-COSTO.
Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
Temperatura Promedio
10
18
35
39
50
65
75
84
52
40
25
21
costo de energa
120
90
118
60
81
64
26
38
50
80
100
124
Identificar las variables, dependiente y explicativa. Hacer sus conjeturas de la relacin entre las variables a partir del
siguiente grfico y calcular la Cov xy y rxy .
37
Descriptive Statistics
Mean Std. Deviation N
TEMPERATURA 42.83
COSTO
79.25
23.218 12
32.628 12
Correlations
TEMPERATURA COSTO
TEMPERATURA Pearson Correlation
Sig. (2-tailed)
.000
-.863**
Pearson Correlation
5929.667 -7188.500
539.061
-653.500
12
12
**
-.863
Sig. (2-tailed)
.000
-7188.500 11710.250
-653.500
1064.568
12
12
38
4.2.2.
En este tipo de regresin se desea caracterizar el efecto lineal de una nica variable explicativa sobre la variable respuesta.
Los pasos para efectuar un anlisis son los siguientes (JURAN y GRYNA, 1997, cap. 23):
1.
2.
3.
4.
5.
En este apartado se explica el modelo de regresin lineal simple, un modelo con un solo regresor x que tiene una relacin con
una respuesta y, donde la relacin es una lnea recta. Este modelo de regresin lineal simple es:
error. Se supone que los errores tienen promedio cero y varianza 2 desconocida. Adems se suele suponer que los errores
no estn correlacionados. Esto quiere decir que el valor de un error no depende del valor de cualquier otro error.
1 son desconocidos, y se debe estimar con los datos de la muestra. Supongamos que hay n pares
Estimacin de o y 1
Para estimar o y
1 se utiliza el mtodo de mnimos cuadrados. Esto es, se estima o y 1 tales que la suma de los
cuadrados de las diferencias entre las observaciones yi y la lnea recta sea mnima. La ecuacin se puede escribir
2
S 0 , 1 yi 0 1 xi . Los estimadores por mnimos cuadrados de o y 1 , que se designarn por
i 1
1 , deben satisfacer
39
0 y
n
n
S
S
yi xi xi 0 Simplificando estas
2
y
i
i
y
0
0
1
1
0 ,
1 ,
i 1
i 1
0 1
0 1
n
2
0 xi 1 xi xi yi
i 1
i 1
i 1
n xi yi ;
0
1 i1
i 1
Que son las llamadas ecuaciones normales de mnimos cuadrados. Su solucin es la siguiente:
n
y
i xi
n
i 1
i 1
yi xi
n
i 1
i 1
0 y 1 x ;
, en donde
1 n
yi
n i 1
1 n
xi
n i 1
y i y xi
i 1
una determinada x.
Otra
forma
S xx xi
i 1
ms
i 1
xi
n
compacta
de
escribir
i 1
n
y
i xi
n
n
2
i 1
i 1
xi x ; S xy yi xi
yi xi x
n
i 1
i 1
40
S xy
S xx
donde:
i 1,2,....n .
ei Tiene un papel importante para investigar la adecuacin del modelo de regresin ajustado.
LOS SIGUIENTES APARTADOS SON OPCIONALES, NO SERN CONSIDERADOS EN LA EVALUACIN
Tenemos que:
0 y 1 x
S xy y x
n
S xx
i 1
i 1
E 1 E
n
ci
i 1
n
ci xi
i 1
S xx
1 C i y i ; C
s xx
; i 1,2,...n
n
ci yi
i 1
c E( y )
i 1
Se
supone:
0
1
n
E 1 ci 0 1 xi
i 1
E 1
n
ci
i 1
n
ci xi
i 1
E yi
1 xi
41
n
i
i 1
se
demuestra:
n
yi
i 1
E 0 E y 1 x E
1
xE 1
n
i 1
1 xi x1
1
E 0 n 0 1 x x1 0
n
E 0 0
Var 1 Var
n
ci
i 1
yi c
i 1
Var ( yi ) ci
i 1
i 1
x
s 2 xx
2
s xx
2
Var 1
s xx
Var 0 Var y 1 x Var y 2 xCov y, 1 x Var 1
2
2
Var 0
x Var 1
n
2
2
x2
Var 0
n
s xx
2
1
x
2
Var 0
n
s xx
Propiedades tiles.
n
1.
i 1
y i y i ei 0
i 1
2.
y y
i 1
i 1
3.
La lnea de regresin de mnimos cuadrados siempre pasa por el centroide de los datos que es el punto y, x
4.
xe
i 1
i i
5.
i 1
42
y e
i
Estimacin de 2
Adems de estimar 0 y 1 , se requiere estimar . Se obtiene de la suma de cuadrados
2
SC Re s ei
i 1
yi yi
i 1
y i 0 1 x i
i 1
y i y 1 x 1 x i
i 1
y i y 2 1 y i y xi x 1
i 1
i 1
x
n
i 1
yi 2 yi y y 2 1 xi yi 2 1 yi x 2 1 xi y 2 1 x y 1 s xx
i 1
y i 2n
2
y y
i
i 1
i 1
i 1
i 1
2 1
n y 2 1 xi y i 2 1
2
i 1
i 1
i 1
yi n y 2 1
2
i 1
n
i 1
n
1 n
x
i yi
n i 1 i 1
y i 2 n y n y 2 1 xi y i 2 1
n
i 1
s
1
1
1 n
yi xi 2 1 n xi yi 1 . xx .s xx
n i 1 i 1
n i 1 n i 1
s xx
i 1
xi y i
i 1
1 n
xi yi 1 S xy
n i 1 i 1
1 n
i y i 1 S xy
n i 1 i 1
yi n y 2 1 S xy 1 S xy
2
i 1
n
SC Re s yi n y 1 S xy
2
i 1
y
n
Pero
i 1
y
n
2
2
i 1
n y SCT
SCRe s SCT 1 S xy
E SCRe s n 2 2
La suma de cuadrados residuales tiene n-2 grados de libertad, porque 2 grados de libertas se asocial con
los estimados
2
0 1
y
yi . El estimador insesgado de
es:
SC Re s
CM Re s (Cuadrado Medio Residual)
n2
43
2
Es un estimado de dependiente del modelo.
4.2.3.
Prueba de hiptesis
H 0 : 1 10
H1 : 1 10
ei son NID 0, 2
1 ); Var 1
2
(Varianza de 1 )
S xx
Estadstico:
z0
1 10
2
S xx
N 0,1
n 2 CM 2Re s
CM Re s y 1 Son independientes.
Estadstico t (Definicin)
N 0,1
Si Z
V v2
Z
1 10
Z
V
v
tv
t0
2
S xx
n 2CM Re s
2
n 2
1 10
CM Re s
S xx
con (n 2 gl )
44
Dentese a Se 1
CM Re s
: Como el error estndar estimado o error estndar de la pendiente,
S xx
entonces t 0
1 10
H 0 : 0 00
H 1 : 0 00
0 00
t0
CM Re s
Se 0
0 00
2
1 x
Se 0
n S xx
1 x2
Error estndar de la ordenada al origen.
CM Re s
n S xx
H 0 : 1 0
H1 : 1 0
El no rechazar H 0 : 1 0 implica que no hay relacin lineal entre x e y.
X tiene muy poco valor para explicar la variacin de Y, por lo tanto el mejor estimador para cualquier x
es y y
La verdadera relacin entre x e y no es lineal
Si se rechaza H 0 : 1 0 , explica que x tiene valor para explicar la variabilidad de y. Rechazar
t0
1
Se 1
45
yi y y i y yi y i
yi y
i 1
yi y
i 1
yi y i
i 1
2 y i y yi y i
i 1
n
n
n
2 y i y yi y i 2 y i yi y i 2 y yi y i
i 1
i 1
i 1
2 y i ei 2 y ei 0
i 1
i 1
yi y
Luego,
i 1
SCT
yi y
i 1
SCR
yi y i
i 1
SC Re s
SCR 1 S xy
La cantidad de grados de libertad se determina como sigue: la suma total de cuadrados SCT ,
tiene n-1 grados de libertad porque perdi un grado de libertad como resultado de la restriccin
n
yi y
i 1
SC Re s tiene n-2 grados de libertad porque se imponen dos restricciones a las desviaciones
SC Re s
n2
n22
CM Re s
2) Si H 0 : 1 0 es cierta, SCR
n22
46
3)
SCR
CMR
glR
F0
SC Re s CM Re s
gl Re s
Fuente
variacin
Regresin
de
Suma
cuadrados
de
Grados
libertad
1
1 S xy
Residual
S yy 1 S xy
n2
Total
S yy
n -1
Viene de la prueba t;
t0
t0
1
Se 1
de
Media
cuadrados
CMR
de
Fo
CMR
CM Re s
CM Re s
1
CM Re s
S xx
1 S xy
S
S
CMR
1 xx 1 1 xx
CM Re s CM Re s CM Re s CM Re s
t0 F
2
Intervalos de confianza de 0 , 1 y
Si los errores se distribuyen en forma normal e independiente, entonces la distribucin de muestreo tanto
1 1
0 0
de
y
es t con n-2 grados de libertad.
Se 1
Se 0
1 t
2 ,n 2
Se 1 1 1 t
2 ,n 2
1 es:
Se 1
0 t
2,n2
Se 0 0 0 t
2 ,n 2
Se 0
47
n 2 CM Re s
2
n22
n 2 CM Re s 2 n 2 CM Re s
2 2,n2
12 2,n2
E y
x0
. Se supone que x 0 es cualquier valor de la variable regresora dentro del intervalo de los
E y
x0
se
E
y x0 0 1 x 0
x
x0
E y
x0
es una variable aleatoria normalmente distribuida, porque es una combinacin lineal de las
observaciones y i . La varianza de y
Var y x0
x0
es:
2 2
Var
Var
y
x0 x
1 0
1
0
n
S xx
1
x x
Var y x0 2 0
S xx
48
La
distribucin
de
muestreo
de:
y / x0 E y / x0
y / x0 E y / x0
1 x x
0
Var y / x0
n
S xx
n 2 CM Re s
CM Re s
2
2
n2
y / x0 E y / x0
1 x x
CM Re s 0
n
S xx
x0 t
1
x x
0
n
S xx
. CM Re s
,n 2
x x
E y
t , n 2 . CM Re s 0
y
x
0
x0
n
2
S xx
x 0
Las mejores estimaciones de y se hacen con valores de x cerca del centro de los datos.
Var y 0 Var 0 1 x 0
2
1
x x
2 2 0
S xx
n
x x
1
Var 2 1 0
n
S xx
49
x x
1
y 0 t , n 2 . CM Re s 1 0
2
n
S xx
Lo anteriormente expuesto se puede observar en el siguiente grfico que muestra las bandas de confianza
y de prediccin para un conjunto de datos.
SCR
SC Re s
1
. Se llama coeficiente de determinacin.
SCT
SCT
Y su valor esperado:
SCT yi y
i 1
E R
1 S xx
1 2 S xx 2
regresora x.
2
consideracin a x.
SCR
1; 0 R 2 1 .
SCT
S 1 y i 1 xi
i 1,2,...n ,
i 1
50
yi xi
i 1
Siguiendo el proceso por mnimos cuadrados: 1
x i2
i 1
yi yi
El estimador de 2 es: 2
i 1
CM Re s
n 1
yi2 1 yi xi
i 1
i 1
n 1
1 : 1 t , n 1
2
CM Re s
n
x i2
i 1
x02 .CM Re s
y
E
: y x t , n 1
n
0
2
x0
xi2
i 1
y 0 t , n 1 CM Re s 1
yi y
i 1
yi y
n
x 02
x
i 1
2
i
i 1
n 2
yi
i 1
n
y i2
i 1
A veces, el diagrama de dispersin proporciona una gua para decidir si se ajusta o no el modelo sin
ordenada al origen. Tambin, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con la
calidad del ajuste obtenido. Si no se puede rechazar la hiptesis
51
4.3.
A partir de un diagrama de dispersin o de la teora sobre ciertas funciones, podemos conocer que la
relacin entre las dos variables puede representarse adecuadamente solo por cierta funcin matemtica
curvilnea (no lineal), por ejemplo la tendencia general del crecimiento poblacional sigue un modelo
exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial negativo, etc. En algunos
casos una funcin no lineal se puede lineal izar con una transformacin adecuada.
Funcin linealizable
Transformacin
Forma lineal
y 0 x 1
y log y, x log x
y log 0 1 x
y 0 e 1x
y ln y
y ln 0 1 x
y 0 1 log x
x log x
y 0 1 x
x
0 x 1
1
1
, x
y
x
y 0 1 x
EJEMPLO. Los datos siguientes se obtuvieron de observaciones peridicas hechas durante el crecimiento
de una poblacin de clulas de levadura. Se efectuaron recuentos cada dos horas.
n
1
2
3
4
5
6
7
Horas
(X)
2
4
6
8
10
12
14
Nmero
de clulas(Y)
19
37
72
142
295
584
995
El grfico de dispersin muestra que los datos provienen de una funcin exponencial
y 0 e 1x Con el
fin de transformar la curva en recta conviene hacer la transformacin, y ln y tomamos los logaritmos
de las clulas.: RUTA: Transform>Compute Variable (LOGNATURAL)>
n
1
2
3
4
5
6
7
Horas
(X)
2
4
6
8
10
12
14
Nmero de clulas
(Y)
19
37
72
142
295
584
995
Ln (Y)
2.944439
3.610918
4.276666
4.955827
5.686975
6.369901
6.902743
52
Como se esperaba, hoy los datos se ajustan a una lnea recta. El proceso manual para obtener la ecuacin
de prediccin es el mismo que el de regresin simple. En SPSS se obtiene siguiendo la RUTA:
Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok
ANOVAb
Model
1
Sum of Squares
Regression
Residual
Total
Df
Mean Square
12.627
12.627
.013
.003
12.640
Sig.
4936.297
.000a
Coefficientsa
95% Confidence Interval for
Unstandardized Coefficients Standardized Coefficients
Model
1 (Constant)
Horas
Std. Error
Beta
B
t
2.278
.043
53.287 .000
2.168
2.388
.336
.005
.323
.348
53
En el anlisis, ste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse para
determinar si hay dependencia de los residuos con la secuencia del tiempo de recoleccin
Para
realizar
una
regresin
no
lineal
mediante
SPSS
tenemos
que
elegir
los
mens
Analize>Regression>Curve Estimation.
Este men nos da la opcin de calcular los siguientes modelos de regresin.
Lineal, Y 0 1 X
Logartmica, Y 0 1 ln X
Inversa Y 0
2
Cuadrtico Y 0 1 X 2 X
Cubico. Y 0 1 X 2 X 3 X
1
X
54
Y 0 X 1 o ln Y ln 0 1 ln X
Potencia.
Compuesto
Curva S Y e
Crecimiento
Y e 0 1 X
Exponencial
Y 0 e 1 X o ln Y ln 0 1 X
X
Y 0 1 o ln Y ln 0 X ln 1
0
1
1
o ln Y 0
t
t
o ln Y 0 1 X
Para el caso anterior, elegimos exponencial, y los resultados son los siguientes:
Model Summary
R
Adjusted R
Square
R Square
.999
.999
.999
.051
df
Mean Square
12.627
.013
12.640
1
5
6
12.627
.003
F
4936.297
Sig.
.000
Std. Error
.336
9.755
.005
.417
Standardized
Coefficients
Beta
t
.999
70.259
23.394
Sig.
.000
.000
55
56
Ejercicios.
1. Determine una ecuacin que describa la relacin entre
la frecuencia de accidentes y el nivel de educacin
preventiva
X
150
200
300
450
500
600
800
900
3900
Y
8.00
7.00
6.50
5.20
6.40
4.40
4.00
3.10
44.60
XY
1200
1400
1950
2340
3200
2640
3200
2790
18720
X2
22500
40000
90000
202500
250000
360000
640000
810000
2415000
Metros 2
X
55
80
85
90
90
110
130
140
180
180
200
200
215
260
300
2315
Ingreso
Y
45
60
75
75
80
95
95
110
120
105
115
130
140
170
200
1615
XY
2475
4800
6375
6750
7200
10450
12350
15400
21600
18900
23000
26000
30100
44200
60000
289600
recopilado
de rea de
Trace una
un modelo
X2
3025
6400
7225
8100
8100
12100
16900
19600
32400
32400
40000
40000
46225
67600
90000
430075
57
Ingreso Prima
X
13
16
17
18
20
25
26
32
38
40
Y
5
15
20
10
10
12
15
30
40
50
XY
65
240
340
180
200
300
390
960
1520
2000
X2
169
256
289
324
400
625
676
1024
1444
1600
42
40
1680
1764
287
247
7875
8571
58
Sexo
Hombre
Mujer
25,097
12,849
11,384
19,587
21,264
16,219
4,834
111,234
23,858
12,490
11,810
23,372
28,725
21,645
8,269
130,169
Total
48,955
25,339
23,194
42,959
49,989
37,864
13,103
241,403
59
Porcentajes:
Los porcentajes se hacen para expresar las proporciones en base 100. En el
ejemplo anterior, los nios representan el 31%, los jvenes el 47%, los adultos
el 15% y los ancianos 4%.
Ejemplo: En el censo de poblacin de El Salvador, 2007, se encuentra que en
el Municipio de Mejicanos, tiene los siguientes sobre la condicin laboral, para
la poblacin mayor de 10 aos.
CONDICION LABORAL
NOMBRE DEL
LUGAR
Zona Urbana
CANTN
CHANCALA
CANTN
MIGUEL
CANTN
ROQUE
Poblacin
ocupada
Inactiv
os
Total
10647
46288
7
54295
5894
286
52
335
673
467
32
478
977
3739
494
3991
58787
6472
51092
8224
11635
1
SAN
SAN
Total
Si
109205
No
8872
Total
118077
672
123
795
916
8027
221
1343
1137
9370
SAN
SAN
60
ROQUE
Total
118820
10559
129379
Ejercicio.
La poblacin de 15 aos o ms segn su condicin de analfabetismo se
presenta en el siguiente cuadro.
Sexo
Soyapango
Ilopango
San Martn
No
161,155
66,240
43,033
10,801
5,420
5,376
Total
171,956
71,660
48,409
5.2.
Diferencia Relativa
X it X i 0
*100
X i0
Ejemplo:
El siguiente cuadro presenta el nmero de homicidios para los aos 2004, 2005, 2006,
2007 y 2008, para los municipios de Soyapango, Ilopango y San Martn.
Grupos
SOYAPANGO
ILOPANGO
SAN MARTN
de
edades Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
AO 2004
Total
15
167
182
12
78
90
11
42
53
AO 2005
Total
14
228
242
5
74
79
11
75
86
AO 2006
Total
16
246
262
15
69
84
6
48
54
AO 2007
Total
20
179
199
10
67
77
8
71
79
AO 2008
Total
10
128
138
9
66
75
7
54
61
Fuente: Fuente estadsticas de homicidios de Instituto de Medicina Legal. Los cadveres que no se pudo
identificar el sexo, no aparecen registrados en el cuadro anterior.
61
Obtener la diferencia relativa del nmero de homicidios por ao, sexo y municipio.
El rea de medicina tiene gran aplicacin de las diferencias relativas, tambin llamada
fraccin atribuible, se calcula como el cociente entre la diferencia absoluta de riesgo y
el riesgo en el grupo control.
Supongamos que se tiene la siguiente tabla de datos:
Casos
No casos
Total
Placebo
a0
b0
n0
Tratamiento
a1
b1
n1
a1
R
n1
RR
1
a0
R0
n0
El RR tiene las siguientes caractersticas:
No tiene dimensiones.
Si RR=1 no hay asociacin entre la presencia del factor (Tratamiento) y el
evento (Caso o No Caso).
Ejemplo:
Se realiza un ensayo clnico para investigar los efectos secundarios de un medicamento.
Al finalizar el estudio, se obtiene la siguiente informacin.
Casos
No casos
Total
Placebo
420
2634
3054
Tratamiento
307
2744
3051
307
RR 3051 0.73
420
3054
62
Indica que en los pacientes que se aplica el tratamiento experimental tienen una tasa de
incidencia del 73% respecto a los pacientes tratados con placebo.
AR n n
n
n1
R
R
AR
0
1
0
RRR
RRR
1 RR
1 RR
R 0
R 0
a0
a0
n0
n0
Ejemplo:
Para los datos del anterior calcular la reduccin del riesgo relativo
Placebo
Tratamiento
Casos
420
307
No casos
2634
2744
Total
3054
3051
La RRR es:
El RRR indica que el riesgo del grupo tratado se reduce en un 26,8% del riesgo del
grupo control.
5.3.
El nmero ndice es una cifra relativa, expresada en trminos porcentuales o al tanto por
uno, que sirve para indicar las variaciones que sufre una variable con respecto a un
valor de la misma, la cual es tomada como punto de referencia, denominada base.
Los nmeros ndices no miden, tan solo sirven para indicar las variaciones en los
precios, cantidades y valores de un periodo con respecto a otro. Por lo tanto, debe
63
tenerse mucho cuidado con su uso. Los nmeros ndices son muy usados en el anlisis
de las ventas, produccin, precios, costos, beneficios, aumento de capital y en especial
cuando se quiere comparar dos series de datos.
Definicin: Un ndice es una medida estadstica que tiene la propiedad de informar de los
cambios de valor que experimenta una variable o magnitud en dos situaciones, una de las cuales
se toma como referencia. La comparacin suele hacerse por cociente.
A la situacin inicial se le llama periodo base y a la situacin que queremos comparar periodo
actual o corriente.
X it
I t0 (i)
X it
*100
X i0
Mide la variacin en tanto por uno o tanto por cien que ha sufrido la magnitud X entre los dos
periodos considerados y pueden ser:
X it
*100
X i0
Pit
0
*100
b) Precio: I t (i )
Pi 0
qit
0
*100
c) Cantidad: I t (i )
qi 0
a) Valor: I t (i)
0
Yi
2001
2002
2003
2004
2005
2006
20
28
24
40
48
70
100
140
120
200
240
350
0
40
20
100
140
250
50
70
60
100
120
175
-50
-30
-40
0
20
75
100
140
85.71
166.66
120
145.83
0
40
-14.29
66.66
20
45.83
Observe que tomando de base el ao 2001, en el 2004 se tuvo un aumento del 100% y
en el 2006 se tuvo un aumento de precios del 250% con respecto al ao 2001; si
tomamos de base el ao 2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si
tomamos Base Variable en el ao 2006 hubo un aumento del 45.83% con respecto al
ao 2005.
EJERCICIO DE APLICACIN. En enero de 2006 una fbrica pag un total de $
99,200,000.00 a 120 empleados en nmina. En julio del mismo ao, la fbrica tuvo 30
empleados ms en nmina y pag $ 30,000,000 ms que en enero. Tomando el mes de
enero como base, hallar e interpretar:
a) El ndice de empleo (NIE)
b) El ndice del costo de mano de obra (ICMD)
c) Precio relativo
Solucin.
a) NIE= N de empleados en julio / N de empleados en enero
150
NIE
*100 125 . Durante los 6 meses hubo un incremento de empleados
120
del 25%
b) ICMD = Salarios pagados en Julio / Salarios pagados en enero
129, 200, 000
ICMD
*100 130.24 . Durante los 6 meses considerados en
99, 2000, 000
este estudio hubo un aumento de costo de mano de obra en la empresa de
30.24%, observe que no se ha considerado en aumento de empleados.
c) El precio relativo (PR) es equivalente al riesgo relativo utilizado en medicina
(RR), es decir,
129, 200, 000
129, 200, 000
150
150 1.04193
PR
1.04193
PR
. El
99, 200, 000
99, 200, 000
120
120
ndice de costo medio por empleado aument en un 4.10% para el mes de julio
en relacin con el mes de enero.
65
06
07
Informacin disponible: I 05 120, I 06 118 .
La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier ao, as:
I 007 174 adems sabemos que I 007 I 006 * R0607 , reemplazando 174 en la ltima expresin
se obtiene:
174
I 006
147.45 .
1.18
05
Para obtener I 0 , se realiza un procedimiento anlogo al anterior.
Estos ndices se calculan teniendo en cuenta la suma de los precios, cantidades o valores
de un grupo de artculos para un periodo, divida por la suma de los precios cantidades o
valores para ese grupo de artculos en otro periodo, considerado como base.
Matemticamente se expresan como:
n
I
t
0
X t (i)
i 1
n
X
i 1
I
t
0
*100
(i )
Pt (i)
i 1
n
P (i)
i 1
I
t
0
*100
q (i)
i 1
n
q (i)
i 1
*100
Las expresiones anteriores son muy tiles cuando no existen variaciones significativas
entre productos, ya estos ndices no se ven afectados por las variaciones en algn
producto. Para recoger las variaciones entre productos se recomienda calcular
primeramente los ndices simples y luego sumarlos y finalmente dividirlos por el
nmero de productos. Esto es,
n
I
t
0
I
i 1
t
0
(i )
*100
Ejemplo: Con los datos de la siguiente tabla, calcular el ndice agregativo de las
cantidades que resultaron en mal estado de
Artculos medida Defectuosas
conservacin, en un grupo de artculos,
mayo Junio
comparados en el mes de junio de 2009,
A
Kg
12
18
respecto a las cantidades comparadas, en mal
B
Lt
8
15
estado de conservacin, en el mes de mayo del
C
Docena 20
8
mismo ao.
D
Libras
14
20
E
Unidad 50
70
Total
104
131
Solucin:
Primer mtodo.
n
I
t
0
q (i)
i 1
n
q (i)
i 1
*100
131
*100 125.96 . Este mtodo es poco usual, ya que no es
104
afectado por las variaciones grandes que puede presenta uno varios artculos.
Segundo mtodo.
n
t
0
(i )
i 1
*100
67
Este ndice puede interpretarse, como la relacin existente, al comparar los precios
actuales de un grupo de artculos, con los precios de esos mismos artculos considerados
en el periodo base, mantenindose constante como ponderacin las cantidades del
periodo base. La expresin es la siguiente:
n
I 0t
P (i)q (i)
t
i 1
n
P (i)q (i)
0
i 1
*100
P (i)q (i)
I 0t
i 1
n
P (i)q (i)
0
i 1
*100
La diferencia entre las dos frmulas anteriores, radica nicamente en la base tomada
para las ponderaciones, en la primera se refiere a las cantidades del periodo base y en la
segunda, las cantidades corresponden al periodo que se investiga.
5.3.3.3 ndice de Fisher de precios.
Este ndice es un promedio geomtrico, que se define como la raz cuadrada del
producto del ndice de Laspeyres por el de Paasche, as:
n
I 0t
I 0t
L P
I 0t
Pt (i)q0 (i )
i 1
n
P (i)q (i)
i 1
n
P (i )q (i) P (i )q (i )
i 1
i 1
*100
68
I 0t
P0 (i)qt (i)
i 1
n
P (i)q (i)
i 1
P (i)q (i)
I 0t
*100
i 1
n
P (i)q (i)
i 1
I 0t
I 0t
P0 (i)qt (i)
I 0t
F L P
i 1
n
*100
P (i)q (i)
i 1
n
i 1
*100
Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo
de artculos dados para dos periodos.
Artculos Unidad
2006
2007
Precio Cantidad Precio Cantidad
A
Kg
26
10
38
8
B
Lt
6
5
10
7
C
Lbs
1
2
4
5
D
Docena 6
1
15
2
E
Unidad 3.6
2
2
1
Calcular los ndices de precios y de cantidad de las Laspeyres, Paasche y Fisher.
Solucin:
Ordenando los datos de la tabla anterior:
Articulos P06 q06 P07 q07 P06 q06
A
26 10 38 8
260
B
6
5
10 7
30
C
1
2
4
5
2
D
6
1
15 2
6
E
3.6 2
2
1
7.2
305.2
P07q07
304
70
20
30
2
426
P07q06
380
50
8
15
4
457
P06q07
208
42
5
12
3.6
270.6
I 0t
Laspeyres: L
P (i)q (i)
t
i 1
n
P (i)q (i)
0
i 1
I 0t
Paasche: P
P (i)q (i)
i 1
n
P (i)q (i)
i 1
Laspeyres: (270.6/305.2)*100=88.66
Paasche: (426/457)*100= 93.22
Fisher: 90.91
69
70
675
*100 122.73
550
Los artculos de primera necesidad aumentaron de junio de 2009 a enero de 2010 en un
22.73%, por lo tanto, tuvo que haber un incremento igual a este porcentaje o mayor,
para que las condiciones econmicas sean iguales o mejores en el ao 2010.
1600
*100 1,303.67 , esto indica que el aumento fue demasiado bajo,
Salario real=
122.73
es decir, que a pesar de estar recibiendo ms dinero que antes, este salario a penas
equivale a 1,303.67, el aumento esperado debi ser de $ 318.22 = 1400*0.2273, o sea
que su nuevo salario debera de ser de $1,718.22 en vez de $ 1,600.
I 010
Gua de ejercicios N 5.
1. Las cifras de ventas en millones de $ (dlares) de unos granos bsicos
almacenados desde 2002 hasta 2010 son los siguientes:
Aos
2002
2003
2004
2005
2006
2007
2008
2009
2010
Ventas
18
18
19
15
12
16
20
24
35
PRODUCCION (ton)
1300
1280
1189
1234
1100
1250
1310
1270
1140
1240
Se Pide:
a) Establezca una serie de nmeros ndice,
que permita estudiar la evolucin de dichas
producciones, considerando como base el
ao 1997.
c) Determine la tasa de crecimiento promedio (tcp) entre los aos 1997 y 2007.
4. La entrada de turistas Alemanes a nuestro Pas durante los ltimos 7 aos segn
SERNATUR viene dada por la tabla siguiente:
AO
2000
2001
2002
2003
2004
2005
2006
Nmero de Turistas
12565
13124
11897
14578
16243
14890
15321
Se Pide:
71
a) Establezca una serie de nmeros ndice, que permita estudiar todos los datos,
considerando como base el ao 2000.
b) Con respecto al ao 2003. Qu porcentaje de aumento o disminucin se dio en los
aos 2004 y 2005.
Se Pide:
a) Establezca una serie de nmeros ndice,
que permita estudiar todos los
consumos, considerando como base el
ao 2002.
b) Determine el porcentaje de variacin del consumo entre los aos 2002 y 2006.
c) Determine la tasa de crecimiento promedio (tcp) entre los aos 2002 y 2006.
6. Una fbrica de automviles chinos produce cuatro modelos distintos, todos en
versin econmica, cuyos precios expresados en millones de pesos y nmero de
unidades producidas en 1998 y 2000 son respectivamente:
Modelo
1
2
3
4
Precio (M$)
0.9
1.3
1.9
3.8
Ao 1998
N de unidades
3200
3200
3200
3200
Precio (M$)
1.2
1.5
2.1
4.3
Ao 2000
N de unidades
5600
4300
2000
1200
Se Pide:
a) Hallar el ndice de precios y de cantidad de LASPEYRE, con base el ao 1998.
b) Hallar el ndice de precios y de cantidad de PAASCHE, con base el ao 1998.
c) Hallar el ndice de FISHER para precio y cantidad, considerando el mismo ao
base.
7. Si, por ejemplo, el consumo final de un pas, expresado en miles de dlares
corrientes de cada ao, y el I.P.C. de los mismos aos son los siguientes,
expresar en dlares. Constantes el consumo final de ese pas:
Aos
2000
2001
2002
2003
2004
Consumo final
17
20
22
25
30
IPC
100
105
110
115
118
72