JOSE M.

CASAS SANCHEZ
Catedratico de Estadlstica Economlco y Empresarial
Universidad de Alcala de Henares. Madrid
Estadlstlco Facultativo del Estado.
JULIAN SANTOS PENAS
INTRODUCCION

A LA ESTADISTICA
PARA ADMINISTRACION
Y DIRECCION
DE EMPRESAS
Segundo edlclon
I EDITORIAL CENTRO OE ESTUDIOS RAM6N ARECES. S. Po.
Primer a edici6n: julio 1999
Segunda edici6n: julio 2002
Reservados todos los dereehos.
Ni la totalidad ni parte de este libro puede reproducirse 0
transmitirse por ningtin proeedirniento eleetr6nieo 0 me­
cameo, incluyendo fotoeopia, grabaci6n magnetica, 0
eualquier almaeenamiento de informaci6n y sistema de
reeuperaei6n, sin permiso eserito de Editorial Centro de
Estudios Ram6n Areces, S. A.
© EDITORIAL CENTRO DE ESTUDIOS RAMON ARECES, S. A.
Tomas Bret6n, 21. 28045 Madrid.
ISBN: 84-8004-522-1
Dep6sito legal: M. 31.204-2002
Compuesto e irnpreso por Fernandez Ciudad, S. L.
1\ ':,
'I' • I; Catalina Suarez, 19. 28007 Madrid
..~ I
Impreso en Espana / Printed in Spain
I
I
A nuestras [amilias
;
Indice
PR6LOGO 11
CAPfTULO 1. EL METODO ESTADfSTICO EN LA INTERPRE­
TACI6N DE LOS HECHOS ECON6MICOS 13
1.1.
1.2.
1.3.
1.4.
Las ramas de la Estadfstica y sus metodos cientificos
La Estadfstica Descriptiva y el estudio de los hechos econ6­
micos ..
EI Calculo de Probabilidades como herramienta matematica
de Inferencia Estadfstica. La Estadfstica Moderna
La Inferencia Estadfstica como metoda de estudio de los he­
chos econ6micos '......................
13
15
17
18
CAPfTULO 2. DISTRIBUCIONES DE FRECUENCIAS UNIDI­
MENSIONALES 21
2.1.
2.2.
2.3.
2.4.
Introducci6n
Conceptos fundamentales
Tareas a desarrollar en las grandes etapas de la investigaci6n
estadfstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Construcci6n numerica y grafica de las distribuciones de fre­
cuencias unidimensionales
2.4.1. Distribuciones de frecuencias unidimensionales con los
datos no agrupados
2.4.2. Distribuciones de frecuencias unidimensionales con los
, datos agrupados en intervalos de clases
2.4.3. Representaciones graficas para distribuciones de fre­
cuencias de datos cualitativos
21
22
24
33
34
43
47
9
8 CASAS-sANCHEZ,1. M. y SANTOS-PE:NAS, J.
fNDICE
2.4.4. Representaciones graficas para distribuciones de fre­
cuencias de datos cuantitativos. . '.' .
2.5. Medidas de posici6n .
2.5.1. La media aritmetica .
2.5.2. La media geometrica ..
2.5.3. La media arm6nica ..
2.5.4. La mediana .
2.5.5. La moda .
2.5.6. Otras medidas de posici6n no centrales: los cuantiles ..
2.6. Momentos \ .
2.7. Medidas de dispersi6n .
2.8. Medidas de asimetria y curtosis .
2.9. Medidas de concentraci6n .
Ejercicios .
50
61
62
70
73
77
84
90
95
97
102
104
109
4.5.
4.6.
4.7.
4.8.
4.9.
4.10.
4.11.
4.4.1. fndices simples de precios
4.4.2. fndices complejos de precios sin ponderar
4.4.3. fndices complejos de precios ponderados
Indices de cantidades 0 cuanticos
Propiedades que cumplen los indices complejos y ponderados
de precios y cantidades
fndices en cadena
Cambio de base en una misma serie de nnmeros indices
Renovaci6n y enlace de series de numeros indices con distintas
bases
Repercusi6n y participaci6n en las variaciones de un Indice .
lndices de valor y deflactaci6n de series econ6micas
4.11.1. fndices de valor
4.11.2. Deflactaci6n de series econ6micas
205
206
208
212
216
217
218
222
224
226
226
227
4.12. fndice de precios de consumo (IPC) 229
CAPfTULO 3. DISTRIBUCIONES
MENSIONALES
DE FRECUENCIAS BIDI­
. 121
4.12.1.
4.12.2.
4.12.3.
Caracteristicas principales
Metodo de calculo
Enlace de series. Coeficientes de enlace
230
240
242
3.1. Introducci6n . 121
4.13. fndice de precios de consumo armonizado (IPCA) 247
3.2. Tabulaci6n de variables estadfsticas bidimensionales: distribu­
4.14. Otros indices 0 indicadores de coyuntura elaborados 249
ciones bidimensionales de frecuencias . 122
Ejercicios 251
3.2.1. Tablas de correlaci6n .. 122
3.3.
3.4.
3.2.2. Tablas de contingencia
Dependencia funcional y dependencia estadtstica
Regresi6n y correlaci6n lineal simple
.
.
.
135
138
145
CAPfTULO 5. ESTUDIO CLAsICO 0
SERIES TEMPORALES
DESCRIPTIVO DE LAS
261
3.5.
3.4.1. La regresi6n lineal simple .
3.4.2. Correlaci6n lineal simple ..
Regresi6n y correlaci6n lineal multiple .
3.5.1. Ajustede un plano por el metoda mfnimo-cuadratico
145
151
160
160
5.1.
5.2.
5.3.
5.4.
Introducci6n.......................................................
Concepto de serie temporal y definici6n de sus componentes.
Determinaci6n de la tendencia
Determinaci6n de las variaciones estacionales
261
261
267
280
3.6.
3.5.2. Ajuste de un hiperplano mediante la
algebra matricial
Ajustes no lineales por minimos cuadrados
utilizaci6n del
.
.
171
179
5.5. Determinaci6n de las variaciones ciclicas
Ejercicios
288
290
3.7. Estudio de la asociaci6n entre variables cualitativas . 184
Ejercicios . 188
CAPfTULO 6. FEN6MENOS ALEATORIOS Y SUCESOS 297
6.1. Introducci6n . 297
CAPfTULO 4. NOMEROS fNDICES 201 6.2. Fen6menos aleatorios , . 298
4.1. Introducci6n . 201
6.3.
6.4.
Espacio muestral
Sucesos
.
.
299
303
4.2.
4.3.
4.4.
Clasificaci6n de los numeros indices
Propiedades de los mimeros indices
Indices de precios
..
.
..
202
203
204
6.5.
6.6.
Operaciones con sucesos
6.5.1. Propiedades de las operaciones con sucesos
Sucesiones de sucesos
.
.
..
305
313
315
- ~ '
1
,
I;
I:!
,.
10 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
i'
I:
I'
,
6.7.
6.8.
Algebra de sucesos
Metodos de enumeraci6n 0 conteo '
..
..
317
320
Prologo 0 10 Segundo edicion
I
6.8.1. Tablas de doble entrada ·
320
6.8.2. Principio de multiplicaci6n ..
321
6.8.3. Diagramas de arbol ..
321
6.8.4. Combinaciones, variaciones y permutaciones .
323
Ejercicios ., .
325
!:
i CAPiTULO 7. PROBABILIDAD . 331
il
III
7.1. Introducci6n .
331
q
I
7.2. Definici6n clasica de la probabilidad ..
332
~ 1
7.3. Definici6n frecuentista de la probabilidad .
335
!l 7.4. Interpretaci6n subjetiva de la probabilidad .
339
El presente libro esta plante ado para que sirva de texto base para el estudio "
Ji' 7.5. Defmici6n axiomatica de la probabilidad .
341
de un semestre de I ntroducci6n a la Estadtstica en la Licenciatura de Adminis­
7.5.1. Teoremas elementales 0 consecuencias de los axiomas.
342
II traci6n y Direcci6n de Empresas.
7.6. Probabilidad condicionada .
355
Los capftulos 1 y 2 pretenden introducir allector en el manejo de los datos
II
7.6.1. Teorema de la probabilidad compuesta 0 producto ..
361
Ii numericos, ensefiarle a organizar los resultados obtenidos de las observaciones
7.6.2. Teorema de la probabilidad total .
362
y a sintetizar la informaci6n con las diferentes medidas de posici6n, dispersi6n,
I
I
7.6.3. Teorema de. Bayes .
364
forma y concentraci6n.
!I· 7.7. Independencia de sucesos .
366
En el capftulo 3 se proporcionan los instrumentos necesarios para el estu­
Ejercicios . 370
I:
ii'
dio de las variables estadfsticas bidimensionales. Se introducen los conceptos
de tablas de correlaci6n, contingencia, distribuciones marginales y condicio­
385
•• 4 •••••••••••••••••••••••• ••••••••••••••••••••••••••• •••• BIBLIOGRAFiA
nadas, independencia estadfstica, regresi6n, correlaci6n, etc.
Dedicamos los capftulos 4 y 5 a dar algunos instrumentos que nos permitan
hacer comparaciones y a estudiar la evoluci6nde magnitudes econ6micas y
sociales, introduciendo para ello los numeros indices y el estudio de las series
temporales. Tambien dedicamos dos capftulos al estudio de los fen6menos alea­
torios y sucesos, asf como a los conceptos mas importantes sobre probabilidad.
En esta segunda edici6n se ha introducido la nueva unidad monetaria, el
Euro, se ha actualizado todo el capftulo de Ntimeros indices, recogiendo la
l
nueva metodologfa del Indice de Precios de Consumo y se ha suprimido la
i:
I,
Aplicaci6n Informatica IPD para Analisis Estadfsticos.
\
Por ultimo, deseamos agradecer a nuestros colaboradores, Mariano Ruiz
Espejo y Ana Isabel Zamora Sanz sus ayudas en la redacci6n de algunos
ejercicios practices y en la correcci6n de pruebas.
LOS AUTORES
Madrid, julio de 2002
'
K i
i
Capitulo 1
EI rnerodo estadfstico
r
en la interpretacion
I:
I:
de los hechos econornlcos
'.
I
III
;!
I
I,
,I 1. 1. Las romos de 10 estodistico y sus metodos
II.:: cientificos
, '
I
II
La Estadistica, en suacepci6n mas general, puede considerarse como la
I:
I: ciencia que estudia las «regularidades» que se observan en una serie de fen6­
!:;
menos que pueden expresarse a traves de la informaci6n numerica, Su propia
"1" I·
evoluci6n hist6rica favorece, como veremos, que la percibamos como un con­
1
junto de cifras, graficos, promedios, etc. En una segunda acepci6n la Estadfs­
tica es un conjunto de metodos cientfficos que nos permiten interpretar la
I"
informaci6n numerica, elegir muestras representativas para hacer inferencias,
II;
contrastar hip6tesis, estimar relaciones causa-efecto y hacer predicciones. La
Ii
agrupaci6n del conjunto de conocimientos que componen a la Estadfstica da
I
ii
II; origen a tres ramas claramente diferenciadas:
Ii:
~ ' .
• La Estadistica Descriptiva que se estudiara en los pr6ximos cinco capftuIos.
• El Calculo de Probabilidades que se desarrolla en el capitulo siete y en
i,
I',
I el texto del mismo autor: Estadistica I: Probabilidad y Distribuciones.
I: .
I, .
• La Inferencia Estadistica que se estudia en otra obra, tam bien del
! ~
mismo autor.
l La Estadistica Descriptiva es la que tiene sus rakes hist6ricas mas pro­
." !:.
fundas, ya que con una cierta ordenaci6n y sistematica fue empleada por las
t ~ Jj :.
. ~ I;! sociedades humanas mas primitivas. Su metodo cientffico es el deductivo ya
'1 Iii:
que plantea un conjunto de datos ordenados y genericos y va extrayendo
conclusiones particulares de los mismos. Va de 10 general a 10 particular que
es la esencia del metodo deductivo.
I
:1
,I,
1
I,'.. '.
i , ~
"
l
14 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
El Calculo de Probabilidades tambien empiea el metoda deductivo ya que
en esencia es un razonamiento puramente matematico, Arranca con la defi­
nici6n de probabilidad a traves de una serie de axiomas de los que se van
deduciendo un conjunto de teoremas. Este conjunto de conocimientos no
constituye en sf una rama de la Estadistica si no las herramientas materna­
ticas y modelizadoras en las que se apoyara la Inferencia Estadfstica para su
formulaci6n y desarrollo. El Calculo de Probabilidades empez6 a formali­
zarse a 10 largo de las siglos XVI y XVII tratando de resolver problemas de
juegos de azar y del mundo de la Astronomfa.
Por ultimo, sefialaremos que la Inferencia Estadistica empiea el metodo
inductivo basandose en el conjunto de instrumental matematico-deductivo que
Ie proporciona el Calculo de Probabilidades. Procede de las observaciones
particulares de una muestra representativa y llega a la inducci6n de propie­
dades generales para el conjunto del que se extrae la mencionada muestra. La
Inferencia Estadfstica es considerada como la Estadfstica moderna ya que se
"
ha desarrollado a 10 largo del siglo XX como uni6n y confluencia de la
;j
Descriptiva y el Calculo de Probabilidades.
i:;o
Utilizando las anteriores reflexiones podemos concluir que la Estadfstica,
en su conjunto, teniendo en cuenta todas sus ramas, emplea el metodo deductivo
ii, en unas determinadas etapas de su proceso de investigaci6n y el inductivo en
otras.
De manera muy general podemos decir que las etapas de toda investigaci6n
estadfstica son las siguientes:
1.1,
t,
:"
1.
8
Definicion de los objetivos que se persiguen con la investigacion
Esta primera fase es fundamental, ya que se definen los parametres pobla­
cionales que se pretenden investigar. Por ejemplo, supongamos que deseamos
conocer los hogares 0 familias que tienen mas de un autom6vil en la Comu­
nidad de Madrid; la poblaci6n a investigar son todos los hogares de la Co­
munidad y el parametro poblacional sera la proporci6n 0 porcentaje de los
mismos que tienen mas de un autom6vil.
2.
8
Recogida de los datos estadisticos para Uegar a conocer los parametres
ji
poblacionales
:Ii
,~ I'
Existen fundamentalmente dos formas de obtener los datos estadfsticos:
'ii
r'
,I
• Por la ejecuci6n de una encuesta censal. En el ejemplo de los hogaresde
!,I
la Comunidad de Madrid consistirfa en preguntar a todos ellos si poseen
il·'
'I': mas de un autom6vil. La caracterfstica de interes se mide en todos y
'I"
cada uno de los elementos de la poblaci6n. Cuando el estudio estadfstico
que se ejecuta es de naturaleza censal no existe ningun problema de
1:1
'Ii inferencia y el metodo empleado sera Integramente deductivo. Los estu­
::1
Ii,:
"" dios censales son excepcionales ya que tienen un elevado coste y un
perfodo largo de ejecuci6n.
:1·
I:
I
II
EL METODO ESTADfsTICO EN LA INTERPRETACI6N DE LOS HECHOS... 15
• Por la ejecuci6n de una encuesta muestral. Esta segunda alternativa es
la que se utiliza en la investigaci6n estadfstica ya que tiene las enormes
ventajas de un coste econ6mico reducido, un corto perfodo de ejecuci6n,
en comparaci6n con los censos, Y la calidad de los datos observados
puede controlarse mejor que en estes al ser vohimenes mas reducidos.
La caracterfstica que se esta investigando s610 se mide en un subconjunto
de la poblaci6n, muestra, y los resultados obtenidos se infieren al total
poblacional. El metoda por tanto es inductivo ya que de 10particular de
la muestra se generaliza al total de la poblaci6n. Siendo esta la raz6n
por la que la Inferencia Estadfstica adquiere toda su significaci6n: defi­
nicion de estimadores para los parametres poblacionales, modelos de
probabilidad que siguen, niveles de confianza en las estimaciones, errores
de muestreo que estamos dispuestos a admitir, tamafios de muestras, etc.
3.
8
Descrlpclon y estimackin de los parametres poblacionales
Si se ha utilizado la investigaci6n censal nuestro estudio finaliza con la
descripci6n de las caracterfsticas poblacionales a traves de tablas de frecuen­
cias y graficos, Se empleara el metodo deductivo siguiendo el camino de 10
general a 10 particular.
Si se ha utilizado la investigaci6n muestral hay que considerar dos niveles
de analisis: el de modelizaci6n probabilfstica del proceso a priori que es
deductivo-inductivo (definici6n del modelo y proceso de inferencia) y el de
descripci6n de los datos obtenidos 0 analisis a posteriori que es descriptivo 0
deductivo. Cuando se obtienen los datos de la muestra seleccionada por un
procedimiento probabilfstico, ya no tenemos estimadores que siguen una dis­
tribuci6n 0 modelo de probabilidad, sino estimaciones 0 datos concretos que
hay que describir 0 reducir de forma ordenada de 10 general ---conjunto de
los datos muestrales- a 10particular. Luego la Estadfstica Descriptiva con su
metoda deductivo interviene cuando tenemos un conjunto de datos a poste­
riori, bien provengan de una investigaci6n censal, bien de una muestral. Cuan­
do estemos en este ultimo caso, las descripciones de las estimaciones deben
venir acompafiadas de sus niveles de confianza y de sus respectivos errores de
muestreo.
1 . 2 ~ La estadistica descriptiva y el estudio
de los hechos economicos
La utilizaci6n de la Estadfstica en la interpretaci6n de los hechos econ6­
micos, hay que contemplarla a traves de la evoluci6n hist6rica de las tres
ramas que venimos considerando: la Estadfstica Descriptiva, el Calculo de
i
rr
i
I.
I
i!
ii
I'
I
"
I:
I:i',
II'
1.
!'
1
,:,
!I,!
I
Ii
1,1.
>.' 'Ii.,..
I,:
Iii
. il:i
.' !"i
Ii'
'I':
hi s.:
I.,
iii:
"
!,
, ,j
!I'
L :;
",
1
·1'
"I
11 ;i.
I, 'I
~ , ! , ~
~
"
,i,1
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J. 16
Probabilidades y la Inferencia Estadfstica, Empecemos por la primera. Es de
todos conocido que los egipcios, chinos, griegos y romanos realizaron recuen­
tos descriptivos de su poblaci6n y riquezas. Tenemos referencias del historia­
dor griego Herodoto (485-425 a. de J.e.) que en el afio 3050 a. de J.e. Egipto
elabor6 un censo de poblaci6n y riqueza con objeto de abordar la construe­
ci6n de las piramides, Tambien en Egipto Ramses II hizo un censo de tierras
con objeto de establecer una nueva politica de reparto de las mismas. Siguien­
do el enfoque descriptivo, los griegos y romanos efectuaban recuentos perio­
dicos de sus recursos econ6micos y humanos con claros fines tributarios y
militares.
En la Edad Media no se realizan operaciones estadisticas de descripci6n
econ6mica si se exceptuan los inventarios de posesiones de la Iglesia. Hay que
esperar al nacimiento de las escuelas mercantilistas de los franceses, alemanes
y anglosajones de los siglos XVI, XVII YXVIII. Las ideas mercantilistas de los
franceses Colbert, Buffon y Condorcet influyen tanto en la escuela alemana
formada por Seckendorff, Coring y Achenwall, como en la inglesa constituida
por Graunt, Petty, Halley, Davenant y King, principalmente.·
La preocupaci6n fundamental de la escuela inglesa eran los datos demo­
graficos, Graunt, a mitad del siglo XVII, se plante6 la estimaci6n de la pobla­
ci6n inglesa que estaba sometida a grandes fluctuaciones por causa de las
epidemias. Obtuvo tasas de mortalidad y de natalidad partiendo de una mues­
tra de la poblacion, A finales del siglo XVII Petty efectua estudios descriptivos
sobre demograffa, de rentas y traficos mercantiles.
En los siglos XVIII y XIX se produce un rapido crecimiento de datos
estadisticos iniciandose la elaboraci6n de los. primeros censos oficiales. En
EE.UU. se elaboran censos de poblaci6n cada diez afios desde 1790; a 10 largo
del siglo XIX se crean Oficinas de Estadistica en los principales Estados que
se dedican a elaborar estadisticas de forma peri6dica sobre temas econ6micos.
Tambien, durante el siglo xx la producci6n de estadisticas descriptivas ha
seguido una tendencia exponencial debido a la demanda de datos en los
modelos de planificaci6n y desarrollo econ6mico.
Vista la evoluci6n hist6rica de la Estadistica Descriptiva podemos concluir
con las siguientes reflexiones:
• El origen de la palabra Estadistica, en terminos filol6gicos, es estadista
que proviene a su vez del latin status. Es la ciencia que contabiliza las
cosas del Estado desde los tiempos mas remotos hasta nuestros dfas:
recoge, describe y analiza informaci6n de cualquier hecho 0 fen6meno.
Si es del mundo econ6mico estaremos ante una Estadistica Descriptiva
Econ6mica.
• Es una estadistica econ6mica que no contiene incertidumbre con 10 que
esta ausente la probabilidad como medida de aquella,
EL METODO ESTADfSTICO EN LA INTERPRETACI6N DE LOS HECHOS... 17
• La Estadistica Descriptiva 0 Deductiva la debe de dominar tanto el
economista de empresa como el general, ya que Ie ensefia c6mo debe
hacer un analisis primario y basico de un conjunto de datos que provie­
nen de haber efectuado una investigaci6n censal 0 muestral de un deter­
minado fen6meno econ6mico.
1.3. EI calculo de probabilidades como
herramienta mctemeftco de inferencia
estadistica. La estadistica moderna
Hemos apuntado anteriormente que ,la base cientffica de la Inferencia
Estadistica es el Calculo de Probabilidades que es una rama de las materna­
ticas que se basa en el razonamiento deductivo. Veremos posteriormente que
la Estadistica Moderna del siglo xx es el resultado de la fusi6n de la Descrip­
tiva y el Calculo de Probabilidades con 10 que es obligado efectuar un breve
desarrollo hist6rico de este, El origen del Calculo de Probabilidades esta
relacionado con la resoluci6n de problemas de juegos de azar. Las excavacio­
nes arqueol6gicas han demostrado que las culturas primitivas practicaban
juegos de azar cuyos resultados estaban ligados a la voluntad divina. Pero es
a partirdel siglo XVII, con pequefios antecedentes de Cardano (1501-1576) y
Galileo (1564-1642) cuando se empieza a formalizar esta rama de las materna­
ticas.
Los Matematicos Bias Pascal (1623-1662) y Pierre de Fermat (1601-1665)
empiezan con su famosa correspondencia la formalizaci6n del Calculo de
Probabilidades sobre juegos de azar que les planteaba el conocido jugador
Caballero de Mere. Christian Huygens recopil6 los trabajos de Fermat y
Pascal apareciendo en 1669 la primera sistematizaci6n del Calculo de Proba­
bilidades. Espoleados por la contrastaci6n empirica de las teorias sobre astro­
nomia y fisica siguieron las aportaciones de Jacobo Bernoulli (1654-1705);
Abraham de Moivre (1675-1750); Daniel Bernoulli (1700-1782); Pierre Simon
Laplace (1749-1827); Karl Friedrich Gauss (1777-1855); Simeon Denis Poisson
(1781-1840) y P. Chebychev como grandes impulsores de esta disciplina a 10
largo de los siglos XVIII y XIX. Durante el siglo xx son autores clasicos del
Calculo de Probabilidades Markov, Liapounoff y Kolmogoroff de la escuela
rusa; Borel; Levy, Lebesgue y Frechet de la francesa.
Durante los siglos XVII, XVIII YXIX el Calculo de Probabilidades se desa­
rrolla desconectado de la Descripci6n estadistica de los hechos econ6micos si
exceptuamos pequefias interrelaciones efectuadas fundamentalmente por Que­
telet a mediados del siglo XIX. Los matematicos dedicados a los problemas de
la ffsica y la astronomia emplean un lenguaje diametralmente opuesto al
utilizado por los estadisticos que describen los hechos econ6micos a traves de
CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
18
sus tablas, tasas de mortalidad y natalidad, mirneros indices, etc. La uni6n de
ambas tendencias se produce a comienzos del siglo xx ,consolidandose a 10
largo del mismo por 10que conocemos como la Inferencia Estadistica aplicada
a la economia, cuyo estudio requiere un conocimiento previo del cuerpo
fundamental del Calculo de Probabilidades ya que nos proporcionara los
instrumentos matematicos necesarios para que, siguiendo la l6gica inductiva,
las conc1usiones de una muestra las generalicemos a la poblaci6n a la que
pertenece.
1.4. La inferencia estadistica como metodo
II;:
II',
de estudio de los hechos econ6micos
!I:.I

La Inferencia Estadfstica tambien se empez6 a desarrollar a 10 largo del

siglo XVIII resolviendo problemas de estimaci6n y contraste en el mundo de
..

,
la astronomia. Combina la observaci6n de datos (Descriptiva) con la estima­
ci6n de determinados parametres de los modelos te6ricos del Calculo de

Probabilidades. Dentro del desarrollo de la Inferencia hay que considerar tres

I
: corrientes metodo16gicas que surgen de las distintas interpretaciones del con­
cepto de probabilidad. En primer lugar hay que considerar la «Inferencia

1, '
u
Clasicax que arranca con Laplace-Gauss con su problematica de las observa­
1
ciones astron6micas y culmina con la estimaci6n y contrastaci6n de hip6tesis
I
'I:' ":,'
de la Escuela Inglesa en el campo de las ciencias naturales --estudios funda­
j'l
r
mentalmente bio16gicos- formada por Karl Pearson (1857-1936), William S.

",1:
Gosset (Student) (1876-1937), Ronald A. Fisher (1890-1962) y Jerzy Neyman
il'I,:

(1894-1981). Esta corriente clasica de la Inferencia se apoya en el concepto

frecuencialista de la probabilidad obtenido de la informaci6n descriptiva mues­
'I
tral cuando el experimento aleatorio de la investigaci6n se realiza en las

mismas condiciones un nnmero elevado de veces.
Una segunda corriente es la denominada Inferencia Bayesiana. Sus bases
I
iniciales las formu16 el matematico ingles reverendo Thomas Bayes (1702­
Ii,
1761). La esencia del enfoque bayesiano esta en su famoso teorema que com­
'ii bina todo tipo de informacion a priori sobre los distintbs estados de la natu­
'il
raleza con la informaci6n muestral en sentido clasico para obtener 0 inferir el
',' modelo de distribucion a posteriori. A Bayes Ie siguen los modernos autores

:II,i
de la probabilidad subjetiva como son los estadfsticos .Frank Ramsey, Bruno
de Finetti y Leonard Savage cuyos enfoques son de gran utilidad en el mundo
econ6mico-empresarial.
La tercera corriente, de enorme aplicaci6n en el campo econ6mico-empre- ,
sarial, es 10que se conoce como Teoria de la Decisi6n. Su formulaci6n se debe
al estadfstico A. Wald (1902-1950) que aprovecha la inferencia bayesiana com­
binada con la noci6n de probabilidad subjetiva aportando el concepto de
EL METODO ESTADfSTICO EN LA INTERPRETACI6N DE LOS HECHOS... 19
funcion de perdida en el que se apoya el decisor para cuantificar sus expecta­
tivas y racionalizar el tratamiento de la incertidumbre econ6mica.
En 1912 Irving Fisher (1867-1947), economista americano conocido por su
dedicaci6n a la elaboraci6n de mimeros indices, inicia un movimiento para
incorporar los metodos inferenciales conocidos en el mundo de las Ciencias
Naturales al mundo de la economia. En 1930 funda con Charles F. Roos y
Ragnar Frisch la Sociedad de Econometria con el objetivo de que los econo­
mistas aceptasen que el cuerpo vigente de conocimientos estadfsticos prove­
nientes de los campos de la Fisica, Astronomia y Ciencias Naturales, podia
ser aplicado a los datos econ6micos.
A 10 largo de las siguientes decadas se ha ido implantado paulatinamente
el enfoque probabilistico en el estudio de los hechos econ6micos 10que permite
confrontar los modelos te6ricos con los datos estadfsticos 0 estudiar el modelo
que mejor se ajusta a los datos empfricos disponibles.
No cabe duda que la aparici6n y difusi6n de los potentes ordenadores
personales ha revolucionado la aplicaci6n y difusi6n de los metodos estadis­
ticos aplicados a la economia. Existen multitud de aplicaciones de facil manejo
que permiten dar un tratamiento descriptivo a uri conjunto de datos econ6­
micos en un tiempo record. En una segunda fase pueden ejecutarse tratamien­
tos multivariantes mas complejos: regresi6n y correlaci6n, analisis factoriales,
analisis de conglomerados y analisis discriminantes.
I
I
i
1:
I
I ;'
!
Ii:
"
I,
IL
'I'
I
i"
I
"
,I
I,
II '
Iii': ;
~ ::
III· . 'I
!;
. 1-: ..
i!
I
!
I'
t
Ii '
"
1:
! II!
i )1
I"
(:
)'
I
:.:
I,
I
;:1] .
l":'1
p!.!
II!,!
,i 11
1i
'
!II!
ll
l,
a d,I,
'Iii , '"II.
; nl:
Capitulo 2
Distribuciones de frecuenclos
unidimensionales
Ii
I
'j
!
I
I
,
1
l
2.1. Introduccion
j
j
I
l En este capitulo iniciamos 10 que hemos deriominado la Estadfstica Des­
criptiva 0 Deductiva que se ocupa de recopilar, organizar y analizar datos
numericos, El estudio 10 iniciamos con la presentaci6n de una serie de con­
I
ceptos previos fundamentales que se emplearan constantemente en el desarro­
I
llo de esta disciplina: poblaci6n, muestra, atributos, escalas de medici6n y va­
riables estadfsticas.
En segundo lugar se aborda la explicaci6n de las distintas tareas que
componen las tres grandes etapas de toda investigaci6n estadfstica: definici6n
j
de objetivos, recogida de los datos y estimaci6n y descripci6ti de los parame­
tros poblacionales.
I El tercer aspecto que se estudia, centrandonos en la tarea descriptiva de la
etapa denominada analisis descriptivo primario, es la elaboraci6n de 10 que se
denomina distribuci6n de frecuencias unidimensionales, tanto en su aspecto
numerico como grafico, En cuarta posici6n se anallzan de forma global las
distribuciones de frecuencias a traves de sus medidas de posici6n: medias,
mediana, moda y cuantiles.
Otras medidas que se introducen, en quinto lugar, en el estudio de las
distribuciones son los denominados momentos potenciales con relaci6nal ori­
gen y a la media aritmetica. En sexta posici6n se abordan las medidas de
dispersi6n: recorrido, intervalos intercuartflicos, varianza, desviaci6n tfpica,
coeficiente de apertura, recorrido relativo, recorrido semi-intercuartflico y coe­
ficiente de variaci6n. Le siguen la exposici6n de 10 que se conoce como
«medidas de forma»: asimetrfa y curtosis. Dos distribuciones que tengan la
misma media aritmetica y la misma varianza pueden diferir en la forma de sus
23 22 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
representaciones graficas, con 10 que se llega a un estudio mas profundo con
la utilizaci6n de las medidas de forma.
Por ultimo se abordan las medidas de concentracion 0 de desigualdad:
Indice de Gini y Curva de Lorentz. Estas medidas se conciben para medir la
equidad en la distribuci6n de ciertas caracterfsticas de contenido econ6mico:
rentas personales 0 familiares, salarios, beneficios, etc.
2.2. Conceptos fundamentales
Vamos a exponer de forma sencilla una serie de definiciones que constan­
temente las estaremos empleando en estadfstica,
Poblaci6n. Se entiende por poblaci6n, universo 0 colectivo cualquier conjun­
to de personas, objetos, animales, plantas, instituciones 0 entes en general que
son portadores de una serie de caracterfsticas que nos interesa estudiar.
Ejemplos de poblaciones:
• Las personas que trabajan en la Administraci6n Central.
• Las lavadoras automaticas que se han producido en nuestro pais duran­
te 1994.
• Los pinos existentes en la Comunidad de Madrid a 31 de diciembre
de 1994.
• Los autobuses de la E.M.T. a 30 de junio de 1995.
Las poblaciones estan compuestas de elementos 0 individuos por 10 que
deben de estar definidas con absoluta precisi6n de forma que siempre se pueda
discernir si un elemento pertenece 0 no pertenece a la misma. Se clasifican en
iii:'
finitas 0 infinitas segnn que el mimero de elementos que la componen sea de
una clase u otra. En el mundo econ6mico y social estaremos casi siempre ante
poblaciones finitas: habitantes de una regi6n, empresas de un sector, deman­
dantes potenciales 0 reales de un producto, etc.
Muestra. Llamamos muestra a todo subconjunto representative de la po­
blaci6n de forma que las conclusiones sacadas en aquella se generalizan a esta,
Las poblaciones se pueden estudiar bien realizando una investigaci6n exhaus­
tiva de todos sus elementos y entonces diremos que estamos realizando un
censo, 0 bien, investigando una parte 0 subconjunto de las mismas y entonces
diremos que estamos realizando un estudio muestraI.. #
Atributo. Es toda caraeterfstica poblacional no susceptible de ser medida
numericamente, La observaci6n de un atnbuto da lugar a distintas modalidades.
,II'
Son ejemplos de atributos:
• El sexo de una poblaci6n humana cuyas modalidades son: varon y mujer.
• Los colores de un semaforo cuyas modalidades son: rojo, verde y amarillo.
• La profesidn de un conjunto de personas activas.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Aunque los atributos no son susceptibles de ser medidos numericamente,
sus modalidades pueden relacionarse con 10 que se denominan escalas nomi­
nales y ordinales. Las observaciones de las distintas modalidades decimos que
estan en una escala nominal cuando los mimeros que Ie asignamos s610 se
emplean para diferenciar las distintas categorfas, Si al ejemplo de los colores
del semaforo Ie asignamos los digitos 1, 2 y 3, s610 cabe la interpretaci6n de
que el 1 #- 2 #- 3 sin que se pueda afirmar que uno es superior a otro y sin
que se puedan ordenar. La escala nominal es la forma de medici6n mas debit
y se utiliza s6lo para clasificar las distintas modalidades de un atributo. No
permiten ninguna relaci6n de orden ni operaciones aritmeticas de suma, resta,
multiplicaci6n y divisi6n. La medici6n de las caracterfsticas cualitativas 0
atributos tambien admite en ciertos casos 10 que se conoce como escalas
ordinales. Se podra emplear la escala ordinal cuando las distintas modalidades
admiten una determinada graduaci6n u ordenaci6n. En estudios de mercado
j y de opini6n se emplean con mucha frecuencia las escalas ordinales. La imagen
!
de un determinado politico podra calificarse de: muy mala, mala, regular,
I
buena y muy buena. Si se Ie asignan los dlgitos 1, 2, 3, 4 y 5 no quiere decir
que la imagen buena sea el doble que la mala, sino que esta en un orden
superior. Este tipo de mediciones con escalas ordinales es superior al nominal
ya que adem as de clasificar las distintas modalidades permiten ordenarlas,
perc tampoco admite, como en las nominales, las operaciones aritmeticas de
suma, rest a, multiplicaci6n y divisi6n.
Variables. Son las caracterfsticas poblacionales susceptibles de tomar valo­
res numericos a los que se les pueda aplicar 10· que se conocen como escalas
de intervalos y de razon 0 proporcion, Las primeras son aquellas que permiten
una unidad de medida con 10 que podemos cuantificar numericamente la
distancia existente entre dos observaciones cualesquiera. El orden de esta
escala es superior a las nominales y ordinales ya que ademas de clasificar y
ordenar las mediciones permite diferenciar con exactitud unas situaciones de
otras. En el mundo econ6mico-empresarial tenemos multitud de caracterfsticas
en las que pueden aplicarse escalas de intervalos: salarios de una empresa,
cualquier tipo de presupuesto, gastos, ventas, etc. Las escalas de proporci6n 0
razon, ademas de las cualidades de las de intervalo, se caracterizan por incor­
porar un punto de origen no arbitrario (un cero verdadero) como puede
ocurrir, con los pesos y las edades de las personas, litros de gasolina en
un dep6sito, etc. En conclusi6n podemos decir que las escalas de intervalo
admiten unidades de medida y un origen (cero) arbitrarios y las de raz6n
ademas de la unidad de medida tienen asignado un punto de origen no
arbitrario ya que es un verdadero cero 0 cero absoluto. En estas escalas sf
se permiten las operaciones aritmeticas de la suma, resta, multiplicaci6n y
divisi6n.
Las variables estadfsticas pueden clasificarse de distintas maneras. Tenien­
i
24
25 DISTRmUCIONES DE FRECUENCIAS UNIDIMENSIONALES
CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
,
I
CD Etapa: Definicion de objetivos
do en cuenta el nnmero de caracterfsticas que estudiamos en los elementos de
Ii una poblaci6n las variables pueden ser unidimensionales, 'bidimensionales 0
j
,
pluridimensionales. Por ejemplo, si en el colectivo 0 poblaci6n formado por las
Tareas:
empresas del sector qufrnico estudiamos solo su volumen de producci6n esta­
remos ante una variable unidimensional. Si estudiamos al mismo tiempo la
• Identificaci6n de caracterfsticas cualitativas 0 cuantitativas que
se desean estudiar.
I
I
j
I
1
1
I
i
i
j
producci6n y el numero de trabajadores de cada empresa sera bidimensional
(se observan dos caracterfsticas 0 variables cuantitativas en los elementos
poblacionales). Las variables tambien pueden ser discretas 0 continuas segun
tomen un mimero finito 0 infinito numerable, 0 bien infinito no numerable de
valores en un determinado intervalo de su campo de variaci6n.
• Definici6n de la poblaci6n portadora de las caracterfsticas a
investigar.
• Identificar el marco 0 listado de unidades poblacionales especifi­
cando sus soportes (magnetico, papel, documentos, etc.) y su
accesibilidad. '
1
• Decidir si la investigaci6n va a ser censal 0 muestral determinan­
do tamafio de la muestra y presupuesto necesario.
2.3. Tareas a desarrollar en las grandes etapas
i
de la investigacion estadistica
• Especificar el ambito del estudio y la forma de recoger los datos:
.
\
entrevistas personales, por correo, por telefono 0 mixtas.
@ Etapa: Recogida de los datos estadfsticos
I
l
I
1
I
En el primer capitulo hemos considerado, de forma muy generica, las tres '
grandes etapas que pueden considerarse en toda operaci6n 'estadfstica: defini­
ci6n de objetivos, recogida de datos y estimaci6n y descripci6n de resultados
finales. En el presente apartado vamos a comentar brevemente las distintas
tareas contenidas en las grandes fases tal y como estan relacionadas en el
1
iii: ·
cualitativas 0 cuantitativas que se desean estudiar. Debe existir una necesidad
I:j
' I·
grafico 2.1.
Tareas:
• Disefio del cuestionario.
En la definicion de objetivosla primera tarea es identificar las caracterfsticas
de realizar la investigaci6n estadfstica explicitando que datos son los relevantes ' 1 '" ,, :" '
• Diseiio muestral de acuerdo con el marco disponible.
para la toma de decisiones. El gobierno de un pais puede tener necesidad de
,
1
• Disefio del material auxiliar de la encuesta.
investigar a traves de una muestra representativa las siguientes caracterfsticas:
• Recogida de los datos.
- Altas y bajas de empleados en distintos sectores econ6micos por tipo­
• Tratamiento de los datos.
logfa de contratos (fijos, eventuales, por obra, de .formacion, a tiempo
completo, a tiempo parcial, etc.).
- Evoluci6n mensual de las ventas del comercio minotista.'
- Evoluci6n del transporte de mercancfas por carretera.
® Etapa: Estimacion y descripcion de los parametres
poblacionales especificados en los objetivos
Tareas:
• Analisis descriptivo primario.
• Estimaci6n de errores muestrales y no muestrales.
• Analisis especiales multivariantes.
1
l
I
l
I
Una empresa puede tener la necesidad de conocer:
- El mercado actual de un determinado producto a traves de su volumen
de ventas (caracterfstica cuantitativa). . •
I
I
I
I
I
I
1
:1
j - La motivaci6n fundamental por la que se compra un artfculo de una
determinada marca (caracterfstica cualitativa) que se consume en los
hogares.
El exito de toda investigaci6n estadfstica se basa en la correcta selecci6n
de las caracterfsticas que se van a analizar de forma que se alcancen los
GRAFIeo 2.1. Etapas y tareas de toda investigaci6n estadistica.
objetivos que nos hemos propuesto.
:i
27
I.. II!.:
I!
IIill·
Ii
:1: 26 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
La segunda tarea consiste en delimitar con absoluta precisi6n, sin ningun
tipo de ambiguedad, la poblaci6n en la que podemos estudiar las caracterfs­
ticas que nos interesan. En el caso de las altas y las bajas en el empleo senin
las empresas que conforman los distintos sectores, en el segundo ejemplo sera
todo el conjunto de establecimientos minoristas (tiendas tradicionales, auto­
servicios, supermercados, hipermercados y grandes almacenes), en el tercer
caso el censo de camiones y furgonetas de distintos tonelajes, en el cuarto caso
las empresas que fabriquen el producto en cuesti6n y en el quinto ejemplo los
compradores del producto.
La tercera tarea de la primera etapa es determinar el marco que contiene
a los elementos de la poblaci6n de nuestro estudio. En los ejemplos anteriores,
y siguiendo el mismo orden establecido los marcos suelen sec las bases de
datos existentes en soportes magneticos en el Ministerio del Trabajo (altas y
bajas de la Seguridad Social); los censos de establecimientos minoristas elabo­
rados por organismos piiblicos 0 empresas privadas; los ficheros del Ministerio
de Transportes que contengan las licencias de transporte de mercancfas vigen­
tes; anuarios de fabricantes por productos y los censos de poblaci6n elabora­
dos peri6dicamente por el INE. Los marcos deben estar actualizados y depu­
rados de unidades extrafias ya que de ellos se seleccionan de forma aleatoria
las unidades muestrales cuando la investigaci6n estadfstica no es exhaustiva.
En la cuarta tarea se decidira si la investigaci6n estadfstica va a ser ex­
haustiva o,no dependiendo del tamano de la poblaci6n, las disponibilidades
econ6micas, el plaza disponible, etc. Normalmente se acudira a investigaciones
muestrales (no exhaustivas) con 10 que se estableceran los tamafios muestrales
de acuerdo con los niveles de confianza que se deseen y los errores muestrales
que estemos dispuestos a admitir. Estas tiltimas cuestiones que se refieren a la
fiabilidad de la investigaci6n estan relacionadas con los costes de la misma ya
que a mayor nivel de precisi6n se requerira una mayor muestra y por tanto,
un mayor presupuesto. Tambien tendremos que establecer elambito de la
investigaci6n: nivel municipal, comarcal, regional, nacional, etc., asf como la
forma mas adecuada de recoger la informaci6n: entrevistas personales, por
correo, por telefono 0 mixtas.
La primera tarea de la segunda etapa (recogida de los datos estadfsticos)
es el diseiio del cuestionario. Para su elaboraci6n se parte de todos los antece­
dentes que nos proporciona la primera etapa: caractensticas que mediremos,
unidades que van a facilitar los datos: empresas, personas, organismos, etc., y
forma de recoger los datos: por correo, con agentes entrevistadores 0 por
telefono. Toda esta serie de antecedentes nos van determinando el formato del
cuestionario y la naturaleza de sus contenidos. Elaborar un cuestionario que
no tenga fallos es una tarea especializada que debe de desarrollar un grupo
de expertos en las materias correspondientes. Aquf nos vamos a limitar a dar
unas directrices para su buena confecci6n:
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
• Claridad en el lenguaje utilizado. El nivel cultural de los estrevistados es
heterogeneo en la mayorfa de los casos (se exceptuan las encuestas
realizadas a colectivos del mismo nivel cultural: medicos, abogados, in­
genieros, economistas, etc.) por 10 que hay que emplear un lenguaje
sencillo y directo evitando terminos tecnicos que solo son comprensibles
para los especialistas.
• Precision en las preguntas. Deben de ser concretas y cortas con objeto
de obtener respuestas precisas. Un ejemplo de pregunta no concreta es
lNo piensa Yd. que fuma mucho? El termino mucbo es subjetivo y tiene
distinto valor para distintas personas. La pregunta concreta serfa l C u a n ~
tos cigarrillos fuma Vd. diariamente?
• No se debe influir en la respuesta, Deben evitarse juicios de valor a la
hora de efectuar las preguntas que condicionan las respuestas. No serfa
correcto hacer preguntas del tipo lNo piensa Yd. que nuestra empresa
da un servicio posventa de gran eficacia? La pregunta correcta serfa:
lQu6 opina Yd. de nuestro servicio posventa?
• Deben evitarse las preguntas indiscretas que molestan al entrevistado. Hay
que tener en cuenta que determinadas preguntas pueden molestar al
entrevistado con 10 que podemos conseguir que se niegue a contestar a
la totalidad del cuestionario, 0 bien, que nos den respuestas falseadas.
Esta demostrado que no deben de pedirse directamente los ingresos de
una persona ni la edad. Es mucho mas eficaz pedirles que se situen
dentro de una escala previamente establecida. La pregunta zCuales son
I sus ingresos anuales?, debe de sustituirse por: Indique, por favor, dentro
de que tramo de la siguiente escala se encuentran sus ingresos anuales:
~
. menos de dos millones, entre dos y cuatro 0 mas de cuatro.
j
• Hay que cuidar el orden de las preguntas. Las preguntas mas sencillas
deben de ir al comienzo del cuestionario y las mas complejas 0 delicadas
j
al final. Con ello se consigue un mayor grado de respuesta y colabora­
ci6n por parte del entrevistado ya que una vez que se ha avanzado en
I
la cumplimentaci6n es mas dificil que se niegue a seguir contestando
i
aunque las preguntas sean mas comprometidas.
Las anteriores recomendaciones generales no agotan toda la normativa
l existente de como deben confeccionarse las preguntas de un cuestionario. Se
j
ponen a titulo de ejemplo para dejar constancia de que es una tarea compleja
1 que requiere verdaderos especialistas.
I
J
l
Las preguntas de un cuestionario pueden c1asificarse desde multiples as­
pectos. Si atendemos, por ejemplo, a la libertad de elecci6n de respuesta las
preguntas pueden ser:
• Abiertas: son aquellas cuya respuesta es totalmente libre para el entre­
vistado. Por ejemplo, a los cabezas de familia podna preguntarseles zQue
r
',j
i!
28 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 29
usos les darla Vd. a los ordenadores personales en su hogar? Senale todos
1
,
~
maciones para cada estrato 0 subpoblacion en los que hemos dividido la
"
los que Ie parezean.interesantes, En esta cuesti6n nos encontraremos una
'j poblaci6n objeto de estudio. La estratificaci6n consiste en dividir la poblaci6n
gama variada de respuestas: hacer un inventario de 'las existencias de en grupos que sean homogeaeos internamente respecto a la caracterfstica que
productos alimenticios, hacer un presupuesto por partidas de gastos con estemos estudiando y que existan grandes diferencias entre unos y otros estra­
1
un seguimiento semanal, hacer un listado de productos que se van ago­ tos. Si, por ejemplo, se desea investigar la renta de los hogares de la Comu­
tando para responerlos cuando vamos a la compra, confeccionar un
,I
nidad de Madrid se pueden agrupar en tres estratos 0 grupos: renta baja,
'I'
1 archivo con telefonos y direcciones de nuestras amistades y proveedores, media yalta. EI total de la muestra que se emplee puede distribuirse de forma
etc. En este caso el entrevistador anota literalmente las respuestas em­ proporcional a la poblaci6n de cada estrato 0 emplear otros criterios que
1
,j
j
j
pleando las mismas palabras del entrevistado.
• Cerradas: son aquellas cuyas posibles respuestas estan listadas. EI entre­
pueden estudiarse en los manuales de Muestreo de Poblaciones Finitas.
c) Muestreo por conglomerados: Los conglomerados son agrupaciones de
vistado escoge una 0 varias respuestas de las que se Ie presentan. Si
elementos de la poblaci6n de naturaleza heterogenea dentro de ellos respecto
a la caracterfstica que estemos estudiando. En el ejemplo de los hogares un
conglomerado debe tener unidades de renta baja, media yalta de forma que
si se efectua un muestreo dentro del mismo se obtenga informaci6n de los
]
I
j
queremos cerrar la pregunta de los usos que se dan a los ordenadores
personales en el hogar serfa: ;,Que usos dana Yd. a un PC en su hogar
de todos los siguientes?: D Para escribir cartas, D Hacer un invetario de
productos no perecederos, D Llevar la contabilidad del hogar, D Como
!
distintos niveles que pueden alcanzar los ingresos de las unidades familiares.
pasatiempo con videojuegos,
I
J
Se distinguen varios tipos de muestreo por conglomerados: de distintos tama­
Otros aspectos que permiten clasificar las preguntas son: por el numero de nos, de tamafios iguales, sin submuestreo, con submuestreo, etc. 'j
i respuestas que permiten: dieotemicas (dos respuestas) 0 de respuesta multiple;
1
d) Muestreo sistematico: Es una forma muy sencilla de selecci6n de la
por la forma de realizarse: directas 0 indirectas, etc. Un ejemplo de pregunta
dicot6mica y directa seria: ~ E s Yd. fumador?: D Si, D No.
Como recomendaci6n final en la elaboraci6n de un buen cuestionario hay
que hacer constar la absoluta necesidad de someterlo a una prueba piloto 0
'j
i
I

1
1
muestra dada en una poblaci6n numerada dell hasta N. EI procedimiento
consiste en las fases siguientes: se divide el tamafio de la poblaci6n N por el
de la muestra n; empleando una tabla de nnmeros aleatorios se elige uno que
este ·comprendido dentro del cociente dado por el resultado anterior (si
pretest con objeto de aseguramos su buen funcionamiento antes de proceder
II
a su edici6n.
r
N = 100 y n = 5, N In = 20, se elige de forma aleatoria un mimero entre 1 y
20) y por ultimo se obtienen los (n - 1) elementos muestrales restantes suman­
La segunda tarea que se relaciona en el grafico 2.1, dentro de la segunda
t
do al que se ha elegido de forma aleatoria el resultado del cociente (si en el
etapa, viene referida al diseno muestral en el supuesto de que la investigaci6n
1 ejemplo el aleatorio ha sido 12, el segundo seria 12 + 20 = 32, el tercero serfa
estadistica no tenga caracter de exhaustiva. EI disefio de muestras proba­
bilisticas, que son las que deben emplearse en toda toma de datos, requieren
~
I
1
32 + 20 = 52, el cuarto 52 + 20 = 72 y el quinto elemento muestral serfa
72 + 20 = 92). Este procedimiento sedenomina sistematico ya que 10 nnico
el dominio de la Teoria del Muestreo en Poblaciones Finitas que es una materia
1
que tiene aleatorio es el arranque. EI inconveniente de este disefio, igual que
compleja a la que se dedican cursos completos para obtener un nivel de
conocimientos adecuados. Los tipos de muestreo que se estudian son:
a) Muestreo aleatorio simple (m.a.s.): Es la forma de muestreo mas sen­
1
J
i
j
en el muestreo aleatorio simple, es que para utilizarlo es absolutamente nece­
sario tener numerados del 1 al N todos 10 elementos de la poblaclo», Esta
numeraci6n tiene que estar hecha alazar para evitar posibles sesgos sistema­
cilia. Los elementos de la poblaci6n objeto de estudio se numeran del 1 hasta ticos a la hora de medir la caracterfstica de interes en nuestro estudio.
1
N y se seleccionan n de forma aleatoria (empleando tablas de mimeros alea­
:1
e) Muestreo polietdpico 0 complejo: Es el que se aplica en la practica
tori os) que constituyen una muestra aleatoria sin reemplazamiento (un lnisnio
mimero aleatorio solo aparece una vez) representativa de todo el conjunto. EI
j
j
cuando se hacen estudios sociales. Los tipos de muestreo que hemos visto
anteriormente no suelen aplicarse en estado puro cuando deseamos medir
disefio tambien puede efectuarse conreemplazamiento (m.a.s.r.).
b) Muestreo estratificado: Es un disefio que se emplea mucho en la prac­
J
I
caracterfsticas de unidades de consumo (familias) 0 de producci6n (empresas)
por razones de carencias de marco (inexistencia de soportes que contengan
~
numerados todos los elementos de la poblaci6n) 0 por razones de coste (el tica ya que permite mejorar la fiabilidad de las estimaciones respecto al m.a.s,
para un mismo tamafio n de la muestra. Tambien nos permite obtener esti­
il
metodo de selecci6n conlleva tal dispersi6n en la localizaci6n de las unidades
30 31 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
de la poblaci6n que hacen inviable el estudio desde el punto de vista econ6­
mico). Por estas tazones en la practica hay que acudir al muestreo polietapico
o complejo.
Veamos esta problematica con un ejemplo. Supongamos que el Ministerio
de Cultura desea entrevistar a la poblaci6n espanola mayor de 18 anos para
conocer con que periodicidad se visitan los museos. Se considera que a nivel
nacional una muestra de 3.000 personas es suficiente. Para seleccionarlas por
un procedimiento puro de m.a.s, podrfa acudir a la Direcci6n General de la
Policfa y solicitar que de forma aleatoria, utilizando los nnmeros del D.N.I.,
se seleccionaran las 3.000 personas con su nombre completo, direcci6n y demas
datos personales. Estas personas estarfan muy dispersas por todo el territorio:
zonas rurales, pueblos pequenos, median os, capitales de provincia, etc. Habrfa
que entrevistar a una persona en un pueblo, a otra en una pedania, a dos en
una capital de provincia y asf sucesivamente se tendrfa un perfodo largo y
dificultoso en recogida de informaci6n con costes de desplazamientos y dietas
de los entrevistadores elevadfsimos. Tambien es probable que ni el Minis­
terio del Interior ni el Instituto Nacional de Estadfstica puedan por Ley
utilizar esa informaci6n para facilitar la muestra al Ministerio de Cultura.
Luego en este diseiio de m.a.s. existen dos graves impedimentos: elevado coste
y no disponibilidad de ficheros de poblaci6n para seleccionar aleatoriamente
la muestra.
La nnica soluci6n viable suele ser acudir a un muestreo polietapico ejecu­
tando el siguiente diseiio muestral complejo: en primer lugar se estratifican
(muestreo estratificado) los micleos de poblaci6n por cruce de Comunidades
Aut6nomas y tamano de habitat; en segundo lugar (primera etapa de se1ecci6n)
se eligen municipios con probabilidad proporcional a su tamafio (muestreo
por conglomerados). En esta etapa los municipios grandes de las capitales de
provincia suelen estar autorrepresentados eligiendose de forma aleatoria s610
los medianos y pequefios, Los municipios grandes elegidos en la primera etapa
se vuelven a estratificar (muestreo estratificado) en distritos de naturaleza
homogenea respecto a caracterfsticas socio-econ6micas. Se eligen en una se­
gunda etapa de selecci6n una serie de estos distritos 0 manzanas de naturaleza
equivalente a las secciones censales disenados por el INE (muestreo por con­
glomerados). En estas manzanas, elegidas en la segunda etapa hay que hacer
un listado de todas las viviendas que contienen y sobre e1 mismo elegir me­
diante m.a.s, las viviendas que correspondan. Una vez seleccionadas las vivien­
das, y tambien por un procedimiento de m.a.s. se selecciona las personas
mayores de 18 alios a entrevistar. Estos conglomerados nltimos (manzanas de
viviendas) que se han elegido suelen ser bastante homogeneos en cuanto a las
caracterfsticas socio-econ6micas de las personas con 10 que se aconseja realizar
en cada uno un maximo de 10 entrevistas.
En el esquema descrito anteriormente se observa que el muestreo que se
.'•..... r ~
-
'1­ , ; ~
.
. ~
\1
-.J
1
' . ~
1
1
,
,~ ,i
i
~
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
aplica realmente en los estudios socio-econ6micos es una mezcla de los distin­
ros tipos de muestreo que se estudian con 10 que los diseiios reales son
complejos y su puesta en practica requiere el concurso de verdaderos especia­
listas en la materia.
f) Muestreos no probabiltsticos: Los muestreos que se han comentado de
forma abreviada anteriormente son todos probabilisticos. Todos tienen en
comiin que los elementos de la poblaci6n que entran a formar parte de la
muestra se han obtenido por procedimientos de azar y todos tienen, a priori,
antes de ser seleccionados, una determinada probabilidad de ser elegidos.
Cuando en e1 proceso de se1ecci6n existan unidades poblacionales que no
tengan probabilidad conocida y utilizada en laselecci6n para entrar a formar
parte de la muestra, el muestreo no es probabilistico. Se pueden poner multitud
de ejemplos de muestreos no probabilisticos: un investigador de un lab oratorio
toma una muestra de conejillos introduciendo su brazo en una jaula con 10
que s610 eligira los que esten a su alcance; el sociologo de una empresa toma
una muestra de empleados para saber su edad cogiendo, segtin su criterio
personal, s610las 50 primeras fichas de un montante de 500; a un entrevistador
se le ordena que en una manzana de casas escoja al azar, segtin su criterio, a
20 personas para entrevistarlas con la nnica condici6n de que el 50 % sean
hombres y el 50 % mujeres. Este ultimo ejemplo es 10 que se conoce por
muestreo por cuotas que se emplea normalmente en los sondeos de opini6n y
estudios de mercado ya que no exige la elaboraci6n de listados previos de los
elementos que se van a se1eccionar. No es probabilistico al no seleccionar
unidades de acuerdo con probabilidades conocidas y preasignadas por el
investigador.
La principal ventaja de utilizar un muestreo no probabilistico por cuotas es
que abarata mucho la recogida de informaci6n. Tiene el grave inconveniente,
como todos los no probabilisticos, que carecen del rigor cientffico necesario
para estimar los posibles errores muestrales que se comenten al estimar carac­
terfsticas poblacionales a traves de subconjuntos muestrales ni se pueden
establecer intervalos de confianza para las estimaciones.
La tercera tarea que se resalta en la segunda etapa del grafico 2.1 es
elaborar el material auxiliar que sea necesario para que la recogida de infor­
maci6n tenga los menores errores posibles ajenos al muestreo propiamente
dicho: hojas de control del trabajo de campo que contienen listados de direc­
ciones donde hay que hacer las entrevistas, partes de incidencias que puedan
darse en el marco de la investigaci6n, material de inspecci6n, carnet de entre­
vistador, cartas de presentaci6n, instrucciones generales para cumplimentar los
cuestionarios, etc.
Como cuarta tarea de la segunda etapa aparece la recogida de los datos
propiamente dicha. Es la tarea esencial ya que la calidad de los datos depende
33 32 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
I
II,
de su correcto desarrollo mediante el adecuado manejo de sus multiples fac­
tores: entrenamiento del personal que interviene y modalidad empleada en la
recogida de los datos (entrevistas personales, por telefono, por correo, etc.).
El personal que interviene suele dividirse en: entrevistadores, jefes de grupo,
inspectores, codificadores, depuradores, grabadores, etc., que estan supervi­
sados por una Direcci6n de trabajos de campo. En las entrevistas personales
los agentes entrevistadores van provistos de los respectivos cuestionarios
editados en papeI. Otra variante que se utiliza actualmente son las entrevistas
personales asistidas por ordenadores portatiles, La entrevista se desarrolla
segun la secuencia que indica el ordenador en su programa de ejecuci6n que
tambien incorpora controles de inconsistencias, con 10 que se obtiene la
informaci6n de manera instantanea completamente depurada y coherente
enviandose por disquette 0 por m6dem a la central de procesamiento. Si se
emplea este moderno procedimiento los entrevistadores tienen que estar
entrenados en el manejo de estos costosos equipos, que requieren una inver­
si6n inicial considerable, que se ve compensada con el ahorro de grabaci6n y
validaci6n necesarias en los cuestionarios tradicionales editados en papeI. En
la modalidad de entrevistas telefonicas asistidas por ordenador se emplea el
mismo procedimiento metodo16gico indicado anteriormente con la enorme
ventaja que los agentes entrevistadores no tienen que desplazarse con la con­
siguiente reducci6n de costes y tiempo invertido.
La Ultima tarea de la segunda etapa del proceso de investigaci6n
estadistica es el adecuado tratamiento de los datos. En el caso de las entrevistas
personales 0 telef6nicas asistidas por ordenadores el tratamiento de la infor­
maci6n (grabaci6n y depuraci6n de inconsistencias) se realiza de forma auto­
matica, Tras acceder al entrevistado el entrevistador conecta su ordenador y
va ejecutando el programa de la entrevista de forma que automaticamente va
detectando las inconsistencias que han sido programadas previamente.
Si la encuesta se ejecuta por un procedimiento clasico (cuestionario editado
en papel y agente entrevistador sin ordenador personal), el tratamiento de la
informaci6n sigue el proceso siguiente: se agrupan los cuestionarios cumpIi­
mentados en la sede central del trabajo estadistico, se codifican las preguntas
que 10 exijan, se grab an de forma masiva, los ficheros se someten a un pro­
grama de validacion que saca los Iistados de inconsistencias, se corrigen y, por
ultimo, se almacenan los ficheros completamente depurados Iistos para some­
terlos al programa de tabulaci6n.
. La tercera y Ultima etapa denominada esttmacien y descripcion de parame­
tros poblacionales se compone de tres tareas fundamentales: analisis descriptivo
primario, estlmaeion de errores y analisis especiales multivariantes.
Una vez que los datos estan depurados de todo tipo de inconsistencia se
deben someter a un analisis descriptivo empleando los metodos de Estadistica
Descriptiva que se estudian en el presente capitulo y el siguiente. Para cada
I
,',­
~
I}
~
15
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
una de las variables que se han medido conviene obtener su distribucion de
frecuencias, su representacien graflca, sus medidas de posicion, de dispersion, de
forma, etc. _
Despues de obtener estas primeras descripciones y medidas, cuando el
estudio no es exhaustivo, hay que plantearse el grado de fiabilidad de las
estimaciones a traves del calculo de los errores de muestreo a posteriori. A
priori, en la primera etapa cuando se definen los objetivos de la investigaci6n,
se ha debido de definir el tamafio de la muestra que asegura unos errores
maximos de muestreo para un determinado nivel de fiabilidad. Estas defini­
ciones previas hay que contrastarlas con los calculos de errores muestrales
para los distintos ambitos del estudio y las distintas variables observadas una
vez que tenemos las primeras estimaciones. Tambien hay que tener presente
los errores ajenos al muestreo que hay que tratar de minimizarlos ya que los
sesgos que introducen en las estimaciones pueden llegar a invalidarlas: cues­
tionarios mal disenados, grabaci6n de datos deficiente (siempre hay que veri­
ficar con una doble grabaci6n), validaciones inadecuadas y mala actuacion de
los agentes entrevistadores.
Por ultimo, una vez que se han hecho los estudios descriptivos y de
fiabilidad correspondientes es cuando se pueden plantear los analisis especiales
multivariantes de los datos: modelos de reduccion de la dimension (analisis
factoriales, de componentes principales y correlaciones can6nicas); modelos
causales (regresiones de todo tipo y analisis de la varianza); modelos de agru­
paciones y clasificaciones (analisis de grupos y discriminante) y modelos dina­
micos 0 de series temporales (estocasticos y no estocasticos); etc. En estos
analisis especiales es donde se puede plantear la modelizaci6n estadistica en su
maximo nivel: postulado del modelo, contraste de las hipotesis iniciales del
modelo, estimacion de los parametres del modelo, validaclen y resultados finales.
2.4. Construccion nurnenco y grafica
de las distribuciones de frecuencias
unidimensionales
Una vez que se han precisado los distintos conceptos basicos que se
emplean en la elaboraci6n de datos estadfsticos, pasamos a analizar el proceso
de elaboraci6n de 10 que se llama en la Estadfstica Descriptiva distribuciones
de frecuencias unidimensionales. Son unidimensionales porque s6lo observamos
una caracteristica (sus valores pueden representarse en el espacio de una
dimensi6n) en los elementos de una poblaci6n (investigacion censal) 0 de una
muestra (encuesta muestral). Existen dos tipos fundamentales de distribuciones
de frecuencia: las de valores de la variable 0 datos no agrupados y las de datos
agrupados en intervalos de clases,
34 35 DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
2.4. 1. Distribuciones de frecuencias
unidimensionales con los datos'
no agrupados
Designemos con X la caracterfstica (puede ser una variable 0 un atributo)
que deseamos observar en los elementos de una poblaci6n 0 de una muestra.
Realicemos el siguiente proceso: se observan los distintos valores 0 modalida­
des de la caracteristica; si es una variable que admite ordenaci6n se ordena de
menor a mayor y como puede haber valores que se repitan se agrupan todos
elios. Si e1 valor 0 dato Xi se repite n
i
veces a este se le denomina frecuencia
absoluta de dicho valor. AI proceso que hemos descrito se le denomina tabula­
cion de datos y cuando se culmina se obtiene un conjunto formado por valores
ordenados de menor a mayor (caso de variables que admitan este proceso) que
tienen asociados el nnmero de veces que han aparecido (n,) que llamamos
distribucion de frecuencias unidimensional de datos 0 valores no agrupados.
Pueden darse dos tipos de distribuciones de frecuencias de datos no agru­
pados: las que no tienen valores repetidos 0 de frecuencias unitarias y las que
tienen valores repetidos y por tanto, alguna 0 algunas de sus frecuencias no
son unitarias.
Definicion 2.1. Distribuci6n de frecuencias unitarias.
Llamamos distribucion de frecuencias unidimensional unitaria de la
caracteristica X al conjunto de los r datos distintos y ordenados de
menor a mayor (Xl' X
z
, ..., Xi' •••, x
r
) de forma que ninguno esta repetido.
Este tipo de distribuciones surgen cuando la variable X toma pocos valores
y ninguno se repite, con 10 que las frecuencias absolutas n
i
son todas unitarias,
ponderando en el analisis de la misma forma todos los valores Xi. Se presentan
en tablas que tienen la siguiente forma:
TABLA 2.1. Distribuciones de
frecuencias unitarias.
;
Valores de la variable
Ii!
r.
Xi
'I:
"
In 'I' Xl
I,
I,

ii' Xi
il:
Ii
X,
Ii
I
·1,

I
....•'
1
I
'"
:····1·:·
I
':f


i,l


·f

'1
)


:i
1
4
i
1
i
,}
1
1
Puede observarse en la tabla 2.1 que no se expresan las frecuencias abso­
lutas ya que son todas unitarias.
Ejemplo 2.1
Supongamos que las rentas anuales de cinco familias, expresadas en miles
de euros son: 200, 150,300,250 Y175. Con esta informaci6n construir la tabla
de la distribuci6n de frecuencias.
Soluci6n:
La tabulaci6n es inmediata y simple ya que basta con ordenar la variable
de menor a mayor:
TA,BLA 2.2. Distribucion de frecuencias
de la renta de las familias.
Xi
150
175
200
250
300
Definicion 2.2. Distribuci6n de frecuencias unidimensional con los datos no
agrupados.
Llamamos distribucion de frecuencias unidimensional de la caracterfs­
tica X al conjunto de los r datos distintos, ordenados de menor a mayor,
acompafiados de sus respectivas frecuencias absolutas:
Xl' x
z,
..., Xi' •••, X
r
n
l
, n
z,
..., n
i
, ... , n,
Este tipo de distribuciones se elaboran cuando la caracterfstica X toma
pocos valores pero se repiten un gran numero de vecescon 10que las frecuencias
ya no son unitarias. Cada valor Xi esta ponderado por el mimero deveces que
ha aparecido, representado por su respectiva frecuencia absoluta n
i
. Los datos
estadisticos se presentan en la Tabla 2.3:
I
37
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J. 36
TABLA 2.3. Distribuciones de frecuencias unidimensional con los datos no agrupados.
Valores de la variable Xi Frecuencias abselutas n,
Xl
X
2
n
l
n
2
Xi nj
X, n,
Ejemplo 2.2
En una comunidad de vecinos se ha preguntado a las 20 familias que la
componen, el numero de personas que trabajan en cada una. Las respuestas
han sido recogidas en el siguiente cuadro:
1 024 1
3 20 1 1
1 2 1 1 0
o 1 1 1 2
A partir de esta informaci6n construir la tabla de la distribuci6n de fre­
cuencias.
Solucion:
Existen pocos valores de la variable 0 caracteristica numero de personas
que trabajan en la familia que la representamos por el sfmbolo matematico
X. Estos posibles valores x, son: 0, 1,2, 3 y 4 que se repiten un cierto mimero
de veces luego nos conviene calcular las frecuencias absolutas n
i
. Existen 4
familias en las que trabajan cero personas; trabaja 1 persona en 10 familias; 2
en 4 familias y por Ultimo, trabajan 3 y 4 personas en una sola familia respec­
tivamente. La Tabla 2.4 nos da la distribuci6n de frecuencias de esta situaci6n.
TABLA 2.4. Distribucion de frecuencias unidimensional con los datos no agrupados del
numero de personas que trabajan en 20 familias.
Xi ».
o 4
1 10
2 4
3 1
4 1
j ~
:1
;j
:1
i
: ~
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Vamos acontinuaci6n a establecer nuevos conceptos que aparecen en las
distribuciones de frecuencias.
Definicion 2.3. Total de datos 0 frecuencia total.
Llamamos total de datos 0 frecuencia total, y la denotaremos por N
ala suma de todas las frecuencias absolutas n
i
• 0 sea:
N= L
r
n
i
i= 1
En el ejemplo 2.1, al ser las frecuencias unitarias la columna de las n, ni
aparece con 10 que el total de datos sera el numero de valores de la variable:
N=5.
En el ejemplo 2.2
5
N= L n
i
= 20
i=1
Definicion 2.4. Frecuencia relativa de un determinado valor de la variable Xi'
Llamamos frecuencia relativa del valor de la variable Xi al cociente
entre la frecuencia absoluta de dicho valor y el numero total de datos N:
n
i
/;=N
De la definici6n anterior se deduce que la suma de las frecuencias relativas,
a1 ser taotos por uno, debe ser la unidad:
, r n· l' 1
L /;= L ~ = - L ni=-·N= 1
i= 1 i=1 N N i=1 N
Las frecueocias relativas se pueden expresar tambien en taotos por cien con
la simple multiplicaci6n 100. /; con 10 que expresamos el porcentaje de veces
que aparece el valor Xi en el conjunto de todos los datos. En este supuesto la
suma en vez de la unidad sera 100.
:'1
!.l
1
39 CASAS-sANCHEZ, J. M. YSANTOS-PEJ.\IAS, J.
Definicion 2.5. Frecuencia absoluta acumulada ascendente.
38
,
Llamamos frecuencia absoluta acumulada ascendente NI de un deter­
minado valor de la variable ordenado (de menor a mayor) Xi al numero
de datos que son menores 0 iguales a 61:
Nr = I
i
nj
j=l
Luego la Ni contabiliza el numero de observaciones que existen hasta
llegar al valor Xi bajo el supuesto, que es con el que venimos trabajando, de
que los valores estan ordenados de menor a mayor, 0 sea:
Xl < X
z
< ... < x,
Segun la definici6n 2.5 podemos escribir que:
Nl = n
l
N1 = Nl + n
z
.l,:
Ni = Ni-l + ni
NJ=N
Definicion 2.6. Frecuencia absoluta acumulada descendente.
Llamamos frecuencia absoluta acumulada descendente Nt de un de­
terminado valor ordenado Xi al nnmero de datos que son mayores que 61:
Nt = I
r
».
j=i+l
Por tanto la Nt contabiliza los datos que quedan a partir de Xi para llegar
al total de observaciones N. Con la definici6n 2.6 se establece 10 siguiente:
Ni = N - Nl
N ~ = N - N1
iI - ~
!i',
r .
"
,
'1
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
j
,j
I
1
Nt = N- Ni
1
I
j
N ~ = N - NJ = N - N = 0
De estas expresiones se deduce que:
,I
.1
1
Nr + Nt = N
l'
, Las frecuencias relativas acumuladas tanto ascendentes como descendentes
1 se definen de forma analoga s610 que se suman las I, en vez de las n/
j
1
1
I
'J
,I
:j
1
I
1
I
j
j
I
I
I
]
I
I
I
Verificandose que:
Fr = I
i
I,
j=l
Ft = I
r
fj
j=i+l
Fl = 11
F1=Fl+lz
Fi = Fr-l +1;
FJ = 1
Por otro lado las descendentes se van obteniendo de la forma siguiente:
Fi = 1 - Fl
F ~ = 1 - F1
F+ = 1 - FT
I I
F ~ = 1 - FJ = 1 - 1 = 0
De las expresiones anteriores tambien se deduce que:
Fr + Ft = 1
40
r


CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
I
..
41
Todos estos conceptos dan lugar a la siguiente tabla generica que nos
quinto. Las acumuladas, tanto ascendentes como descendentes si varian por
representa las diferentes distribuciones de frecuencia en su sentido mas amplio:
propia definici6n:

TABLA 2.5. Distribuciones de frecuencias con datos no agrupados.
TABLA 2.6. Distribuciones de frecuencias del ejemplo 2.1.
n.
xj n, N! Ft F!
i
j
x, n, h=....!.
N
NT N! FT F
l h Nl . .
. . . .
I
- 150 1 1/5 1 4 1/5 4/5
n
1
175 1 1/5 2 3 2/5 3/5
Nt Nl Ft Fl
Xl n
1 11 = N 1 1 1 1 200 1 1/5 3 2 3/5 2/5
250 1 1/5 4 1 4/5 1/5
300 1 1/5 5 0 1 0 n
2
Nl Ft Fl X
2
n
2 12= N m 2 2 2
N=5
n· Ejemplo 2.4
x, nj
J;=....!. NT
I Nt
FT
.
F+
• N
.
Con los datos del ejemplo 2.2 obtener las tablas de frecuencias absolutas,
relativas, absolutas acumuladas ascendentes, absolutas acumuladas descenden­
tes, relativas acumuladas ascendentes y relativas acumuladas descendentes.
n,
x, n,
f,.=N
N;=N N; = 0 F; = 1 F; = 0
Soluci6n:
N
Haciendo operaciones y teniendo en cuenta las definiciones dadas tenemos:
TABLA 2.7. Distribuciones de frecuencias absolutas, relativas. absolutas acumuladas as­
De esta tabla generica pueden obtenerse las tablas parciales que se deseen . cendentes, absolutas acumuladas descendentes, relativas acumuladas ascen­
con s610 relacionar los valores de la variable Xi con cualquiera de las frecuen­


dentes y relativas acumuladas descendentes.
cias: tabla de frecuencias absolutas (columnas Xi y n
j
) ; tabla de frecuencias
relativas (columnas Xi y fJ; tabla de frecuencias absolutas acumuladas ascenden­
1!
q
Xi n,
h Nl
M
. F1

.
te (columnas Xi y NJ) Yas! sucesivamente.

0 4 4/20 4 16 4/20 16/20
1 10 10/20 14 6 14/20 6/20
2 4 4/20 18 2 18/20 2/20
Ejemplo 2.3


[:.
3
4
1
1
1/20
1/20
19
20
1
0
19/20
1
1/20
0
Con los datos del ejemplo 2.1 obtener las distintas tablas de frecuencias


N=20
absolutas, relativas, absolutas acumuladas ascendentes, absolutas acumuladas
,@
descendentes, relativas acumuladas ascendentes y relativas acumuladas descen­ t
c'
Asf, por ejemplo, para X
3
= 2 se han obtenido:
dentes.
n
3
4
!
f3 = N = 20
Soluci6n: I,

3
I
N1 = I n
j
= n
1
+ n
z
+ n
3
= 4 + 10 + 4 = 18 Partiendo de los datos de la tabla 2.2 se van construyendo las distintas
j=l
columnas. La primera de las frecuencias absolutas son todas la unidad ya que
no se repite ningnn valor. Las frecuencias relativas /; son todas iguales a un
= N - N1 = 20 - 18 = 2
43
CASAS-sANCHEZ, 1. M. Y SANTOS-PENAS, J.
42
3 4 10 4 _ 18
F1 = L Jj = 20 + 20 + 20 - 20
j=l
18 2
F ~ = 1 - F1 = 1 - 20 = 20
y asf sucesivamente, para los distintos valores de la variable Xi'
Todo 10 dicho anteriormente esta referido a observaciones de naturaleza
cuantitativa. Si la variable es cualitativa, 0 sea, nos referimos a un atributo
que toma distintas modalidades, no tiene ninglin sentido el calcular frecuencias
acumuladas. La tabla de frecuencias se construye de la forma siguiente: en la
primera columna se describen las distintas modalidades, en la segunda se
registran las frecuencias absolutas y en la tercera las relativas.
TABLA 2.8. Tabla de frecuencias de datos cualitativos.
Modalidades de la
caracterfstica x
n
i
J;
M
1
n
1
ndN
M
2
n
2
n
2/N
M
i
n
i
njN
u,
n
r
nr/N
N 1
Ejemplo 2.5
En 100 personas mayores de edad se ha observado que 50 son casados, 25
solteros, 15 viudos y 10divorciados. Con los datos anteriores construir la tabla
de frecuencias de la variable cualitativa 0 atributo denominado estado civil.
TABLA 2.9.
Distribucion de frecuencias del estado civil.
x n
i
J; J; ~ 100
50
Casado 50 50/100
Viudo 15 15/100 15
25
Soltero 25 25/100
Divorciado . 10 10/100 10
100
N= 100 1
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
En este ejemplo las frecuencias relativas tambien se han expresado en
iantos por cien ya que muchas veces se suelen presentar de esta forma en vez
del tanto por uno que venimos calculando.
2.4.2. Distribuciones de frecuencios
unidimensionoles con los datos
ogrupodos en intervolos de closes
Este tipo de distribuciones se elabora cuando el nnmero de valores que
puede tomar la caracterfstica de interes es muy elevado con 10 que es necesario
agruparlos en intervalos de clases. Estos intervalos s610 tiene sentido en el caso
de variables cuantitativas en las que se puede aplicar las escalas que Bevan
este nombre 0 las de raz6n.
La agrupaci6n de los valores de la caracterfstica que se este analizando en
intervalos de clases tiene el inconveniente de producir una perdida de infor­
maci6n, ya que si sabemos que un dato se encuentra dentro de un determinado
intervalo, no podremos conocer su valor exacto sino s610 que se sittia dentro
de unos lfmites determinados. Esta perdida de informaci6n se compensa con
una mayor manejabilidad de la distribuci6n.
Los intervalos pueden construirse con amplitud -diferencia entre ellfmite
superior e inferior- constante 0 variable. Antes de senalar c6mo se elaboran
los intervalos vamos a definir 10 que se conoce como recorrido 0 rango de la
variable X en estudio que 10 designamos por R:
R = x, - Xl = max {X;} - min {X;}
i i
supuesto que los datos observados estan ordenados de forma creciente como
hacemos en las caracterfsticas cuantitativas.
Una vez determinados los datos maximo y mfnimo de una variable es­
tadfstica (x, YXl) podemos agrupar los datos en intervalos del modo siguiente:
[L
o
' L
1J,
(L
1
, L
2J,
(L
2
, L
3J,
..., (L
k- 2
, L
k- 1J
Y (L
k- 1
, LkJ
siendo L
o
= Xl Y L
k
= X
r
· Asf, la distribuci6n agrupada de frecuencias esta
determinada por el conjunto de elementos (intervalos, frecuencias) como se
indica en la tabla 2.10; siendo n, la frecuencia absoluta de datos contenidos en .
el intervalo (L
i
-
1
, LJ.
Llamamos amplitud del intervalo (L
i
-
1
, La ala cantidad C
i
,
c
i
= L
i
- L
i
-
1
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
44
verificandose que
k k
L c;= L (Li-Li_1)=Lk-Lo=xr-X1 =R
;=1 i=1
Si la amplitud de todos los intervalos es constante, e igual a c
C
i
= c, (i = 1, 2, ..., k)
entonces
L
k
c, = k-c = R
i=1
de donde la amplitud comun de los intervalos resultaria ser:
c=R/k
A efectos operativos, llamamos marca de clase del intervalo (L;-1' LJ a su
punto medio denotado Xi:
:! +L· +_
c
i
L;-1 1= L;-l 2
X i = 2
puesto que al ser c
i
la amplitud del intervalo,
L; = L
i
-
1
+ ci
La tabla de frecuencias con los datos agrupados en intervalos de clases equi­
valente a la tabla 2.5 de valores sin agrupar sera:
Tabla de frecuencias con los datos agrupados en intervalos de clases.
TABLA 2.10.
-
Intervalos Marca de
NT N"
Fi F"
n; J;
(L;-l' LJ
clase (x;)
I I I I
Nt
1
N"
Ft
F"
[L
o
, L
1
] Xl
n
1 11 ,1 1 1

Nt N"
Ft
F"
2 (L
1
, L
2
] X
2
n
2 12 2 2 2
(L
k- 2 , Lk-a X
k- 1 nk - 1 he-1 Nl- 1 Nk-1 F l ~ l Fk-1
Nt N" Fl F"
k
(Lk -
1
, LJ Xk n
k he k k
~ - , . " , ~
DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 45
Ejemplo 2.6
Un comercio ha abierto sus puertas al publico durante 25 dias de un mes
y ha obtenido las siguientes recaudaciones:
16.500 10.050 12.320 10.000 22.540
7.325 13.800 18.300 14.600 25.000
17.085 19.000 11.900 13.760 15.075
20.210 7.280 21.200 23.090 24.500
15.800 5.000 13.050 21.600 17.700
Dado que la recaudaci6n minima, en los 25 dias considerados, es de
5.000 y la maxima es de 25.000 podemos denotar por Xl = 5.000 y
x, = X
2 5
= 25.000. Los r = 25 datos observados pueden recogerse en una tabla
de frecuencias, como hemos visto previamente, 0 bien, dado que el recorrido
R = X - Xl = 25.000 - 5.000 = 20.000 Y los datos no tienen frecuencia ab­
2 5
soluta mayor que 1 en todos los casos, podemos agrupar estos datos de modo
homogeneo en cada grupo. Una posibilidad es elegir como amplitud de cada
clase, el valor comun c = R/k =;= 20.000/5 = 4.000; si queremos agrupar los
datos en k = 5 clases,
Otras posibilidades son: si k = 4, c = 5.000
si k = 2, c = 10.000
si k = 10, c = 2.000, etc.
Si la arnplitud comun a las 5 clases es 4.000, los intervalos son:
Para i = 1, 2, 3, 4 Y5:
L
o
= Xl = 5.000
L
1
= L
o
+ c = 5.000 + 4.000 = 9.000
L
2
= L
1
+ c = 9.000 + 4.000 = 13.000
L
3
= L
2
+ c = 17.000
L
4
= L
3
+ c = 21.000
L = L
4
+ c = 25.000, pues k = 5
5
= X
2 5
~
Las marcas de clase son:
L
o
+ L
1 5.000 + 9.000 = 7.000
X
1
=
2
2
L
1
+ L
2 9.000 + 13.000 = 11.000
X2 = 2
2
47 CASAS-sANCHEZ, J. M. y SANTOS-PEl'lAS, 1. 46
L
2
+ L
3
= 15.000
L
3
+ L
4
= 19.000, y
x
3
=
X4 = 2
L
4
+ L
s
= 23.000
Xs = 2
La tabla agrupada de frecueocias resultara:
Intervalos Marca de c1ase Frecuencias absolutas
:,
., [5.000, 9.000J 7.000 3
(9.000, 13.000J 11.000 4
(13.000, 17.000J 15.000 7
(17.000, 21.000J 19.000 5
(21.000, 25.000J 23.000 6
La frecuencia absoluta 3 del intervalo [5.000, 9.000] es debido a los 3 datos:
7.350 ; 7.280 ; 5.000
La amplitud de los intervalos puede no ser comtin, y podrfamos tener
intervalos de diferente amplitud.
Es sencillo advertir que agrupando datos se pierde informaci6n de la
variable estadfstica, aunque se gana en facilidad de uso. La tabla completa de
las distintas freeuencias sera la siguiente:
TABLA 2.11. Tabla defrecuencias con los datos agrupados en intervalos de clases.
pt
(L
i
-
1
, LJ Xi n
i 1;
Nt M P"
I I I 1
[5.000, 9.000] 7.000 3 3/25 3 22 3/25 22/25
(9.000, 13.000J 11.000 4 4/25 7 18 7/25 18/25
(13.000, 17.000J 15.000 7 7/25 14 11 14/25 11/25
(17.000, 21.000J 19.000 5 5/25 19 6 19/25 6/25
(21.000, 25.000J 23.000 6 6/25 25 0 1 0
N=25 1
Ejemplo 2.7
Una sociedad del sector maderero ha adquirido troneos de cierta variedad
forestal para su posterior transformaci6n. Al recibirlos, ha decidido c1asificar­
los segun tramos de metros ciibicos de volumen de madera por unidad. El
"r-:;"
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
resultado de esta operaci6n ha sido recogido en la siguiente tabla agrupada
de freeuencias:
Intervalos (en nr') Marca de c1ase (en m
3
) Frecuencias absolutas
[0, 0,25J 0,125 1.235
(0,25, 0,50J 0,375 187
(0,50, 1J 0,75 50
(1, 2J 1,5 18
(2, 5J 3,5 10
1.500
De esta tabla, se observa que las amplitudes de los intervalos de volumen
de madera es creciente, pasando de
C
1
= 0,25 - °= 0,25, a
c
2
= 0,50 - 0,25 = 0,25, a
c
3
= 1 - 0,50 = 0,50, a
c
4
= 2 - 1 = 1, hasta
C
s
= 5 - 2 = 3 metros cubicos
Tarnbien se aprecia que la mercancfa es tanto mas frecuente cuanto menor sea
su volumen. La tabla eompleta de los distintos tipos de frecuencias queda de
la forma siguiente:
TABLA 2.12. Tabla de frecuencias con los datos agrupados en intervalos de clases.
(Li - l' LJ Xi n,
J: NJ
Nl FJ
.
Ff
I
[0, 0,25] 0,125 1.235 1.235/1.500 1.235 265 1.235/1.500 265/1.500
(0,25, 0,50J 0,375 187 187/1.500 1.422 78 1.422/1.500 78/1.500
(0,50, 1J 0,75 50 50/1.500 1.472 28 1.472/1.500 28/1.500
(1, 2J 1,5 18 18/1.500 1.490 10 1.490/1.500 10/1.500
(2, 5J 3,5 10 10/1.500 1.500 0 1 0
1.500
2.4.3. Representaciones gr6ficas para
distribuciones de frecuencias
de datos cualitativos
En la Estadfstica Descriptiva las representaciones graficas tienen la ventaja
de que el impaeto visual nos proporciona de forma instantanea una visi6n
global del reparto de los datos observados, pero nunea deben sustituir al
48
49
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
estudio analitico que es el que nos proporciona las conclusiones definitivas del
fen6meno objeto de estudio. Los distintos tipos de graficos son simplemente
una forma complementaria, nunca sustitutiva, de describir la realidad que nos
interesa. Las figuras mas empleadas para los datos cualitativos son el diagrama
de reetangulos, diagrama de sectores 0 de pastel, pictogramas y cartogramas.
Las dos primeras se dibujan bajo el principio de proporcionalidad entre las
areas de los rectangulos 0 sectores y las frecuencias absolutas n; de cada
modalidad del atributo.
Los pictogramas consisten en reflejar las frecuencias de cada modalidad a
traves de dibujos artfsticos cuyo tamano tambien guarda proporcionalidad
con las frecuencias absolutas. Por ultimo los cartogramas son una representa­
ci6n por medio de un mapa que se utiliza cuando las modalidades estan
contenidas en areas geograficas,
Si la distribuci6n de frecuencias es unitaria (pocas modalidades y no se
repite ninguna) su representaci6n grafica carece de interes ya que los rectan­
gulos, los sectores 0 las figuras de los pictogramas tendrfan todas el mismo
tamafio, al tener todos la unidad por frecuencia absoluta, oon 10 que no se
puede realizar ningun analisis diferenciador de la importancia relativa de cada
modalidad ya que todos tienen el mismo peso 0 importancia. Ahora bien, si
los datos son los del ejemplo 2.5, con frecuencias no unitarias, podemos
construir los siguientes graficos:
- Diagrama de rectangulos, en donde todos los rectangulos tienen la
misma base y sus areas son proporcionales a las frecuencias absolu­
tas n;. Grafico 2.2.
ni
50
40
30
20
10
CASADO VllJDO SOLTERO DNORCIADO u,
GRAF"ICO 2.2. Diagrama de rectanqulospara la caracteristicacualitativa estado civil del
ejemplo 2.5.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Digrama de sectores, en donde el area de cada sector es proporcional
ala frecuencia de cada modalidad, casados: 50, solteros: 25, viudos: 15
y diverciados: 10. Grafico 2.3.
GRAFICO 2.3. Diagrama de sectores 0 de pastel para la caractertstica cualitativa
estado civil del ejemplo 2.5.
- Pictograma, en donde el tamano de las figuras es proporcional a las
frecuencias de cada modalidad. Grafica 2.4.
I
CASADOS SOLTEROS VllJDOS DNORCIADOS
GRAFICO 2.4. Pictograma para la caracteristica cualitatioa estado civil del ejemplo 2.5.
I
51
i··
I'
I
I
i"::
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J. 50
2.4.4. Representaciones gr6ficas para
distribuciones de frecuencias '
de datos cuantitativos
Vamos a estudiar en primer lugar las representaciones graficas de las
distribuciones de frecuencias no agrupadas. Es evidente que no tiene ningtin
sentido e1 efectuar una representaci6n grafica de la tabla 2.1 ya que al ser las
frecuencias absolutas todas la unidad no nos aportaria ninguna informaci6n
diferenciadora respecto a los distintos valores de la variable. En cambio en la
tabla 2.3 se representa mediante 10 que se conoce como diagrama de barras,
La figura se construye utilizando un sistema de ejes cartesianos de forma que
en el eje de abscisas se toman los distintos valores de la variable y en el eje de
ordenadas las frecuencias absolutas. Sobre cada valor de la variable cuantitativa
Xi (ordenados previamente de menor a mayor) se levanta una barra cuya altura
sea su frecuencia absoluta n
i
. Luego la grafica del diagrama de barras de la ta­
bla 2.3 tendra la forma del grafico 2.5. Analogamente se puede construir el
diagrama de barras para las frecuencias relativas, y se puede emplear en la misma
figura una doble esca1a en el eje deordenadas ya que de unas a otras se pasa
dividiendo por e1 total de observaciones, siendo asf ambas esca1as proporcionales.
ni Ii
n3
n2
nl
ns
o Xl X2 X3 --------------xr
X
GRAFICO 2.5. Diagrama de barras.
Ejemplo 2.8
Construir el diagrama de barras de la tabla 2.4 del ejemplo 2.2.
Solucion:
En el eje de abscisas del sistema cartesiano se anotan los cinco valores
de la variable: 0, 1, 2, 3 y 4. En el de ordenadas se pone la escala de las
DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
frecuencias absolutas dell (minima) hasta el 10 (maxima). Para Xl = °se
levanta una barra de altura 4, para X
z
= 1 de 10, para X
3
= 2 de 4, para X
4
= 3
de 1 y para X
s
= 4 de 1. El resultado de este proceso de construcci6n es el
grafico 2.6.
Ii ni
0,50 10
0,45 9
0,40 8
0,35 7
0,30 6
0,25 5
0,20 4
0,15 3
0,10 2
0,05 1
-
01 1 X
2 3 4
GRAFICO 2.6. Diagrama de barras de la tabla 2.4 del ejemplo 2.2. (La escala de las
frecuencias relativas, h' se obtiene dividiendo las absolutas n
i
por el total
de observaciones que en este caso son N = 20).
Con el grafico 2.6 podemos comprobar con gran rapidez y de un solo
vistazo que en la mayoria de las familias observadas (50 %) s610 trabaja una
persona. Esta es la gran ventaja de las representaciones graficas: obtener
conc1usiones con el impacto visual de la figura.
Como en las variables cuantitativas sf tienen sentido las columnas de las
frecuencias acumuladas, vamos a ver sus representaciones graficas a traves de
las figuras denominadas diagramas acumulativos de frecuencias. Ahora se trata
de representar las columnas NJ, Nt, Fi y Ft de la tabla 2.5. Las funciones que
las representan tienen forma de escalera ascendente 0 descendente, segun se
trate de Ni 0 Fi 0 bien de Nt 0 Ft. Se sube 0 se baja un peldafio al pasar de
cada valor de la variable al siguiente. La altura de cada peldafio viene deter­
minada por el valor de la frecuencia correspondiente (absoluta 0 relativa) y
como siempre en el eje de abscisas estan los valores de la variable y en el de
ordenadas las frecuencias acumuladas que corresponden a cada valor. En el
grafico 2.7 se representa e1 diagrama acumulativo ascendente correspondiente
a las columnas Ni y Fi de la tabla 2.5. Para cada valor de la variable Xi se
deterrnina el punta (Xi' ND Ydesde e1 mismo se traza una linea paralela al eje
53
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J. 52
de abscisas de trazo continuo hasta la vertical del siguiente punto (X
i
+l' NI+ 1)'
Este trazo continuo viene por la izquierda coincidiendo con el,eje de abscisas,
te6ricamente desde menos infinito, ya que ala izquierda de Xl (mfnimo valor
de la variable) no se puede acumular ninguna frecuencia y no existen los
peldafios de escalera. Justo en Xl tenemos n
l
= NI Y la altura del peldafio
coincide con su valor; de Xl a X
2,
sin incluir X
2,
no se acumula ninguna
frecuencia con 10 que la funci6n se mantiene en trazo grueso paralela al eje
de abscisas hasta IIegar a x
2
• En este punto, al existir la frecuenciaabsoluta
n
2
que se acumula a NI dando como result ado N1, hay un nuevo salto de
peldafio coincidiendo con el valor x
2
• As! sucesivamente hasta el Ultimo valor
X, en el que la escalera tiene su Ultimo peldafio de altura n.. A partir de
(x, N!) la funci6n se convierte en una paralela al eje de abscisas, te6ricamente
hasta mas infinito, ya que cualquier punto X del eje de abscisas con un valor
igual 0 mayor que x, la N! = N y la F! = 1, y no se vuelve a acumular ninguna
frecuencia con 10 que los peldafios de la escalera desaparecen.
Ft
I Nt
t
----------------------------------1 • F
r
I
I
I
I
t t
--------------------------
!
Fr-
l Nr-l
it
I
F! Nz
I I
_____
I
I
i
I
I
Ft Nt
I I I
I I I
I I I
I I I
. I
Xz---------- Xr-l x Xl X
r
°
GRAFICO 2.7. Diagrama aeumulativo de frecuencias ascendente. (La escala de las fre­
cuencias relativas acumuladas ascendentes se obtiene de las N[ dioidien­
dolas por el total de datos N).
Ejemplo 2.9
Construir el diagrama acumulativo de frecuencias asceridente,
los datos de la tabla 2.7.
Solucion:
De la tabla 2.7 hay que representar los datos de las columnas NI y F[ que
son los siguientes:
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Xi NT, FT
,
4 4/20 = 0,20
°1 14 14/20 = 0,70
2 18 18/20 = 0,90
3 19 19/20 = 0,95
4 20 20/20 = 1
Los datos anteriores se IIevan en forma de escala al eje de ordenadas y los
valores de la variable aleje de abscisas del sistema cartesiano. La curva, como
se indica en el grafico 2.8 viene por la izquierda desde menos infinito hasta
que encuentra el primer valor Xl = 0 en el que hay un saito de peldafio
n
l
"" NI = 4; sigue paralela al eje de abscisas a esa altura de 4 ya que no
acumula ninguna frecuencia hasta que IIega a x
2
= 1 donde se acumula
n
2
= 10 (nuevo saIto de peldafio) y pasa otra vez a ser paralela a la altura
total N1= nl + n
2
= 4 + 10 = 14. As! sucesivamente hasta X
s
= 4 donde se
da el ultimo saIto de peldafio de altura n
s
= 1 convirtiendose en una paralela
hast a mas infinito a la altura total N1 = N = 20 para la escala de N[ 0 la
unidad para F[.
Ft
I Nl
1 20
0,95 19
n_ : I ' 0,90 18
=======================,--------: .
I I
I I
I I
I I
I I
0,70 T:-----II : 14
I I I
I I I
I I I
I I I
I I I
I I I
I I I
I I I
I I
I I
I I
I I
I I
I I
I I
I I
4 I I : I 0,20
I
I
I
I
I
I
2 3 4 X
°
GRAFICO 2.8. «Diaqrama acumulativo defrecuencias relativas acumuladas ascendentes».
(La escala de las frecuencias relativas acumuladas ascendentes FJ se
obtiene dividiendo la NI por el total de datos N = 20).
- -
55
II":
,'1,
I,
ii,'

54 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
i
r.,
El diagrama acumulativo de frecuencias del grafico 2.8 nos indica que, del
;, total de familias observadas, las que tienen dos personas 0 menos trabajando,
son 18 que son el 90 % del total (dato dado por FI expresado en porcentajes,
o sea, 100 x FJ) y las que tienen tres 0 menos son el 95 % de las familias.
La representaci6n de las columnas Nt y Ft de la tabla 2.5 darla como
resultado el diagrama acumulativo descendente con la forma que se expresa en
el grafico 2.9. La funci6n descendente viene te6ricamente desde menos infinito
a la altura del total de datos N = N ~ para la escala de las frecuen­
cias absolutas y de la unidad para las relativas. Cuando llega a la vertical de
Xl baja un peldafio justo hasta la definici6n de Ni = N - Nl con 10que queda
cancelado el punto (Xl' Ni). A partir de este punto la funcion descen­
dente es paralela hasta encontrarse con la vertical de X
2
en la que vuelve
oj'
a bajar un nuevo peldafio hasta N ~ = N - N1. El proceso se repite sucesiva­
i mente hasta encontrarnos con la ultima vertical del maximo valor x, en la
que baja el ultimo peldafio, pasando al valor cero hasta mas infinito, ya que
:!
N; = N - N ~ = N - N = 0, como ya sabemos. ; ~ I
iii
~ .
:;1
~
J
;i:!
l
~ .
-J
- ~ I - . -
I'i
Fl
- I'
il!
~
Ii:
.!
F2
i
,j
Ii
I,
-I
Ii
~
A. ~
~
~
N2
,
,
,
,
,
,
,
~ :
Nr-l
II'
Fr- l
I,
N ~
~ i
Fi
N
,
,
,
,
, ~
N
l
_ - - - - - ~
, ,
, ,
, ,
, ,
, ,
_____ L .------­
, ,
, ,
, ,
, ,
, ,
, ,
, ,
, ,
, ,
, I
I ,
-----l------+--- -,
, ,
, ,
, ,
,
,
,
Ii
o
Xl
X2 ---------- X
r x Xr-l
GRAFICO 2.9. «Diagrama acumulativo de frecuencias descendente» ,
~ I, , 1­
Ejemplo 2.10
Construir el diagrama acumulativo de frecuencias descendentes utilizando
:i:
los datos de las columnas Nt y Ft de la tabla 2.7.
i;-::
l,i,:;
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Soluci6n:
De la tabla 2.7 hay que representar los datos de las columnas Nt y Ft que
junto con los valores de la variable son los siguientes:
Xi Nt ,
F+
,
0 16 16/20 = 0,80
1 6 6/20 = 0,30
2 2 2/20 = 0,10
3 1 1/20 = 0,05
4 0 0/20 = 0
En el grafico 2.10 la funci6n acumulada descendente viene siendo paralela
al eje de abscisas, te6ricamente desde menos infinito, ya que para cualquier
punto X del eje de abscisas, inferior al primer valor de la variable Xl = 0, los
superiores al mismo acumulan todas las observaciones 0 datos que ascienden
a 20. Justo al llegar a la vertical de Xl = 0, que coincide con el eje de orde­
nadas, los valores superiores al mismo acumulan 16 datos u observaciones
obteniendose la
Ni = N - Nl = 20 - 4 = 16
siendo 4 la magnitud del peldafio descendente en la mencionada vertical. La
funci6n se mantiene paralela hasta que encuentra la vertical de X
2
= 1 donde
vuelve a descender el montante de 14 observaciones con 10 que
N ~ = N - N1 = 20 - 14 = 6;
o sea, los datos superiores a X
2
= 1 ascienden a 6 manteniendose esta situaci6n
hasta X
3
= 2 que pasan a ser 2; X
4
= 3 que son 1 y para valores superiores a
X
s
= 4 no existe ninguna observaci6n con 10 que la funci6n coincide con el
eje de abscisas hasta mas infinito. La interpretaci6n de este diagrama acumu­
lativo de frecuencias descendentes es facil empleando la escala de Ft: el 80 %
(Fi x 100) de las familias observadas tienen alguna persona trabajando, el
30% tiene mas de una persona trabajando, el10 % tiene mas de dos personas
trabajando, el 5 % mas de tres y no hay ninguna familia que tenga mas de
cuatro personas trabajando. Esta claro que la informaci6n que suministran los
graficos 2.8 y 2.10 es complementaria ya que como sabemos
NI + Nt = N.
I
57
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1. 56
'[
Luego si el 80 % de las familias observadas tienen alguna persona trabajando,
';i.. un 20 % no tienen ninguna, si un 30 % tienen mas de una, un 7,0 % tiene una
o ninguna y asf sucesivamente; basta con observar las escalas F[ multiplicadas
por 100, 0 sea, expresadas en porcentajes.
Fr t Nt
1 N=20
0,80 + 16 I ,
0,30
0,10
0,05
01 1 2 3
6 +----- .... ; -----.,
I
r
,
,
I
I
2 + - - - - - - - ~ - - - - - - - : :
1 +-------+-------1--------·.. ,-­
4
!
x
GRAFICO 2.10. «Diaqrama acumulativo de frecuencias descendente».
Por ultimo, vamos a estudiar las representaciones graflcas de las distribu­
ciones de frecuencias agrupadas en intervalos de c1ases. Las tablas del tipo 2.10
se representan a traves de los llamados histogramas de frecuencias que tienen
la forma expresada en el grafico 2.11. Como los valores de la variable estan
ahora agrupados en intervalos se levanta un rectangulo cuya base es la am­
plitud de aquellos, En cada intervalo (L
i
-
1
, La de los definidos en la tabla
2.10 se levanta desde el eje de abscisas un rectangulo que, con dicha base (L
i
-
1
,
L
i
), llegue a la altura n[c, sobre el eje de ordenadas. De este modo el area del
rectangulo es proporcional 0 coincide con n
i
:

Area(i) = base- altura = c
i
· -!. = ni(i = 1, 2, ..., k)
c
i
Si todos los intervalos tienen la misma amplitud, las alturas de los rectan­
gulos seran las correspondientes frecuencias. A las alturas de cada rectangulo
n.fc, se le denomina densidad de frecuencia del intervalo z-esimo.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
n/ci
n3/c3
n21c2
nJ!ck
ni/ci
01
Lo LI ~ ~ Lk-l Lk Extremos de intervalos
GRAFICO 2.11. Histograma de frecuencias.
Ejemplo 2.11
Elaborar el histograma de frecuencias de los datos de la tabla 2.11.
Soluci6n:
Para elaborar el histograma s610 nos interesan los datos de las columnas
(Li - 1, La y n, de la tabla 2.11 que son los siguientes:
(Li ­
1
, La n,
-
[5.000, 9.000J 3
( 9.000, 13.000] 4
(13.000, 17.000] 7
(17.000, 21.000J 5
(21.000, 25.000] 6
Lo primero que hay que observar es si la amplitud de los intervalos es
. constante 0 es variable. En este caso es constante C = 4.000; luego las alturas
de los rectangulos del grafico 2.12 son directamente las frecuencias llevadas a
la escala de ordenadas.
58
59
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
ni
Ii
0,28 t7 f----------------------­
0,24 6 ----------------------­
0,20 5 ----------------------­
0,16 4 --------------;
0,12 3
o 5.000 9.000 13.000 17.000 21.000 25.000
x
GRAFICO 2.12. Histograma de frecuencias de los datos de la tabla 2.1 1. (La escala de
las frecuencias relativas se obtiene dividiendo las absolutas ni par el total
de observaciones N = 25).
Ejemplo 2.12
Los ingresos anuales de 50 familias expresados en miles de euros, y agru­
pados en intervalos de clases son los siguientes:
(L
i
-
I
, L;]
n
i
[40, 100]
10
(100, 200]
20
(200, 500]
15
(SOD, 1.000]
5
Elaborar su histograma de frecuencias.
Soluci6n:
Se observa que la amplitud de los intervalos es «variable»; luego hay que
calcular las alturas de los rectangulos hi = njc
i
como se indica en la tabla 2.13
con objeto de construir el grafico 2.13.
DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
TABLA 2.13. Cdlculo de densidades de frecuencias hi'
(L;_I' LJ n; cj
h=!!!
I
cj
. [40, 100] 10 60 0,17
(100, 200] 20 100 0,20
(200, 500] 15 300 0,05
(500, 1.000] 5 500 0,Dl
hi
0,20
0,17
0,05 -­
0,Dl-­
01
x 40 100 200 500 1.000
GRAFICO 2.13. Histograma de frecuencias cuando la amplitud de los intervalos es va­
riable.
En la construcci6n de los histogramas han intervenido las frecuencias
absolutas 0 relativas, pero sin acumular. Comoestamos tratando variables
cuantitativas hay que representar graficamente las frecuencias acumuladas (N
i
y FJ que en el caso de distribuciones agrupadas reciben el nombre de poligonos
acumulativos de frecuencias. Vamos a representar s610 las columnas Nl y F1
de la tabla generica 2.10. En el eje de abscisas se expresan los lfmites de los
interval os y en el de las ordenadas la NI y Fl tal y como se representa en el
grafico 2.14.
Puede observarse que el poligono acumulativo se obtiene uniendo median­
te rectas cada par consecutivo de los siguientes valores:
(L
o
' 0), (L
I
, Nl), (L
2
, N1), ..., (L
k
-
I
, Nk-l)' (Lk' Nk = N).
61
60 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
f
t
t
}Vk Fk
-----
---------------------------------1.

t t
Fk-I
:t
Ft }V2
Ft }V!
01
l.Q LI --------- Lk-I Lk L;
GRAFICO 2.14. Poliqono acumulativo de frecuencias ascenclentes.
El poligono acumulativo descendente puede tambien representarse a traves
de los datos de las columnas Nf y Ff uniendo los puntos consecutivos siguien­
tes mediante segmentos:
(L
o
, N), (L
1
, Nt>, ..., u.; 0)
Ejemplo 2.13
Construir el poligono acumulativo de frecuencias ascendentes y descenden­
tes con los datos de la tabla 2.11.
Soluci6n:
.;:. , De la tabla 2.11 obtenemos los datos de las columnas NJ, FJ, Nf YFf que
·1' ,
'!.:I
son los siguientes:
: (L
i
-
1
, LJ NT,
FT
, Nt, F+
,
[5.000, 9.000] 3 3/25 = 0,12 22 . 22/25 =
,j.'·1
( 9.000, 13.000] 7 7/25 = 0,28 18 18/25 = 0,72
,"j
(13.000, 17.000] 14 14/25 = 0,56 11 11/25 = 0,44
(17.000, 21.000] 19 19/25 = 0,76 6 6/25 = 0,24
(21.000, 25.000] 25 25/25 = 1
° °
i'
El grafico 2.15 se construye uniendo, para la escala de NI, los puntos
!i
Ii
J,:
'I'
h'
l
i:,c
I .•,.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
.-.Y
'siguientes mediante segmentos: (5.000, 0), (9.000, 3), (13.000, 7), (17.000, 14),
..' (21.000, 19) Y(25.000, 25). A partir del ultimo punto la funci6n es paralela al
.'eje de abscisas. .
Si se emplea la escala de FI el poligono es identico s610 que en ordenadas
se reduce el tamafio 25 veces que son el total de observaciones para las que
se han dividido las NI para obtener las FJ. Luego basta con poner la escala
de FI en el eje de ordenadas allado de NI como se indica en el grafico 2.15.
2.5. Medidas de posicion
Cuando disponemos de una distribuci6n de frecuencias asociada a cierta
variable estadistica, esta puede ser resumida 0 reducida por unas medidas que
dan una idea global de c6mo es la distribuci6n sin tener que recordar todos
los datos con sus frecuencias absolutas 0 relativas.
Entre estas niedidas se encuentran las de posici6n que situan la distribuci6n
entorno a dichos parametres, dando una idea de en que valores se distribuye
la variable estadistica.
}Vi
25
oj
A
t
19
0,56+ 14
0,28 7 +-----------------------i
0,12
3+--------------""'"
o
5.000 9.000 13.000 17.000 21.000 25.000
t;
GRAFICO 2.15. Poliqono acumulativo de frecuencias.
La mayoria de las medidas de posici6n son mimeros que se obtienen por
operaciones aritmeticas una vez que se han ordenado los valores de la variable.
5610 tienen sentido en el caso de «datos cuantitativos» si exceptuamos 10 que
I
62 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
Ilamaremos «moda» que sf puede obtenerse y tiene pleno sentido en el estudio
de caracterfsticas cualitativas 0 atributos. ,
En el estudio de las medidas de posici6n trabajaremos con distribuciones
de frecuencias de tipo unitario, de datos no agrupados (valores observados
junto con sus frecuencias absolutas) y con datos agrupados en interval os de
clases (considerando las marcas de clase y sus frecuencias absolutas). Estudia­
remos la media aritmetica, la media geometrlca, la media armonica, la mediana,
la moda y los cuantiles.
2.5.1. La media orltrnetlcc
El concepto de media aritmetica de una distribuci6n de frecuencias es uno
de los mas importantes en la descripci6n de datos al ser el mas usado cuando
representamos al conjunto de la distribuci6n por una sola medida de posici6n
central. Se debe utilizar, ya que 10 exige su propia definicion.icuando los datos
observados son de naturaleza aditiva (rentas, salarios, beneficios, pesos, esta­
turas, puntos, etc.) de tal forma que una suma representa el total de los
recursos repartidos entre todos los elementos de la distribuci6n.
Definicion 2.7. Media aritmetica,
Llamamos media aritmetica a la suma de todos los valores de la
distribuci6n dividida por el mimero total de observaciones.
Para las distribuciones de tipo unitario sera:
_ Xl + X
z
+ ... + X 1
r
X = = - L
r
Xi [2.1]
N N i=l
Para las distribuciones no unitarias tanto agrupadas como no agru­
padas:
_ x
1n1
+ xzn
z
+ ... + xrn
r
1 r
X= [ ~ . 2 J
N
N.L Xini
,=1
En las no agrupadas los Xi son los valores de la variable estadfstica
directamente observados y en las agrupadas en intervalos de clase son
10 que hemos denominado marcas de cIase.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
63
Ejemplo 2.14
Obtener la media aritmetica de la distribuci6n de tipo unitario referidas a
las rentas anuales de cinco familias expresadas en miles de euros, contenida en
la tabla 2.2. Los datos de dicha tabla son:
Xi
150
175
200
250
300
Soluci6n:
150 + 175 + 200 + 250 + 300 1.075
x= =--= 215
5 5
La media aritmetica de las rentas anuales es de 215.000 euros y nos
representa al conjunto de los cinco valores de la distribuci6n.
Ejemplo 2.15
Obtener la media aritmetica de la distribuci6n de frecuencias no agrupada
del mimero de personas que trabajan en 20 familias contenida en la tabla 2.4
cuyos datos son:
Xi n
i
- -
0 4
1 10
2 4
3 1
4 1
Soluci6n:
1 4 1 1 5
x = - Lxini = - (0· 4 + 1· 10 + 2· 4 + 3 . 1 + 4 . 1) = -. 25 = - ~ 1
N i=O 20 20 4
Por termino medio trabaja aproximadamente una persona por familia ya
que al ser una variable cuantitativa de naturaleza discreta (no admite deci­
males) la soluci6n se expresa en mimeros enteros de forma aproximada.
65
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J. 64
Ejemplo 2.16
Obtener la media aritmetica de la distribuci6n de frecuencias agrupada de
las recaudaciones diarias de un comercio expresadas en la tabla 2.11. De dicha
tabla las columnas que necesitamos son la de las marcas de clase Xi y la de
las frecuencias absolutas que son:
Xi n
i
- -
7.000 3
11.000 4
15.000 7
19.000 5
23.000 6
Soluci6n:
1
x = 25 (7.000·3 + 11.000·4 + 15.000·7 + 19.000·5 + 23.000·6) =
1.000
= ~ (21 + 44 + 105 + 95 + 138) = 40·403 = 16.120
Hay que resaltar que la media aritmetica viene expresada en las mismas
unidades de medida que los datos originales observados. En el caso de las
distribuciones agrupadas en intervalos de clases la media la obtenemos utili­
zando las marcas de clases, ya que los valores observados son desconocidos,
con 10 que difiere de la que podrfa obtenerse si se utilizaran los valores no
agrupados. En este caso se trabaja bajo la hip6tesis de que los valores obser­
vados se distribuyen dentro de cada intervalo de forma uniforme con 10 que
su punto medio (marca de clase) es representativo de todo el conjunto.
La expresi6n [2.1] se conoce con el nombre de media aritmetica simple ya
que al ser las frecuencias unitarias todos los valores de la variable tienen la
misma importancia 0 peso a la hora de calcular x. Por el contrario, la expre­
si6n [2.2] recibe el nombre de media aritmetica ponderada ya que cada Xi
aparece ponderado 0 multiplicado por su respectiva frecuencia absoluta n
i
que
al ser distinta de la unidad da distinta importancia 0 relevancia a cada Xi'
Existen otras formas de ponderar que son distintas a las frecuencias absolutas
n
i
• Estas situaciones aparecen cuando en distribuciones de tipo unitario, en las
correspondientes expresiones del tipo [2.1] se introducen unos «coeficientes de
ponderacion» denominados Wi que son distintos de n, con 10 que la media
aritmetica ponderada serfa:
H-Wi"­
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
I
XiW
i
i= 1
x=--- [2.3]
r
I
Wi
i= 1
Puede observarse en la expresi6n [2.3] que los Wi hacen la rnisma funci6n
que las n
i
de la f6rmula [2.2], ya que como sabemos
N= I
r
n
i
i= 1
Estos coeficientes de ponderaci6n son valores positivos que representan el
numero de veces que un valor de la variable es mas representativo 0 mas
importante que otro en el que su correspondiente Wi sea la unidad.
Ejemplo 2.17
El examen final de una asignatura puntua el doble que los examenes
parciales. Un alumno ha obtenido las siguientes calificaciones: primer parcial
no liberatorio 5 puntos sobre 10; el segundo 9 y el examen final 6. Obtener
su nota media a final de curso.
Soluci6n:
AI tener distinta importancia 0 peso las distintas calificaciones la media
que nos piden como calificaci6n final es una media aritmetica ponderada:
Calificaciones Coeficientes de ponderaci6n
Xi Wi
5 1
9 1
6 2
5· 1 + 9 . 1 + 6·2 26
x= =-=65
4 4'
Observese que los Wi establecidos s6lo indican la iniportancia de cada valor
de la variable y s610 son nnmeros reales positivos. AI mismo resultado llega­
mos si los Wi son Wi = 2, 2, 4, ya que:
5 . 2 + 9 . 2 + 6· 4 52
x= =-=65
8 8'
1
1
1...
Ilr
1,
1H,;::
66 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
1
ii1
.,\""
if'
':"1 .
La nnica condici6n que exige el problema es que W
3
(peso del examen final)
iiji
sea el doble que W
1
Y W
z
(pesos de los examenes parciales),
! : - ~ i '
! r ~ : r..'
Propiedades de la media aritmetica
lilt
,I·,
I. Si a la variable estadistica Xi la sometemos al mismo tiempo a un
cambio de origen at Y a un cambio de escala C mediante la trans­
formaci6n:
IVii
!!::
t:L!: x·- at
Yi = T (siendo at Y C constantes) [2.4]
entonces resulta que
x= cy + at [2.5]
Demostraci6n:
De la expresi6n [2.4] se deduce que
Xi = CYi + at
Sustituyendo Xi en la f6rmula de la media aritmetica para el caso de
distribuciones no unitarias (sin agrupar 0
es identica en las unitarias:
1 r 1 r
X= N .2: xin i = N .2: (CYi + 0t)n; =
,=1 ,=1
agrupadas) ya que la demostraci6n
r r
.2: Yini .2: ni
1
C '=IN + at '=N = Cy + at
Esta propiedad nos manifiesta que la media aritmetica es sensible a los
cambios de origen 0 de escala. Si C = 1 entonces x= y + at y diremos que
se ha realizado un cambio de origen. Esta operaci6n se realiza para facilitar
los calculos y se toma como Origen de trabajo at el valor central de la
distribuci6n en el caso de ser impares 0 uno de los centrales si son pares. Asi
en la distribuci6n del ejemplo 2.15 se tomaria como origen de trabajo at = 2
transformando Xi en Yi de la forma siguiente:
Xi Yi = Xi - 2 n
i
0 -2 4
1 -1 10
2 0 4
3 1 1
4 2 1
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 67
113
Y = - [(- 2)· 4 + (- 1). 10 + O· 4 + 1. 1 + 2· 1] = - (- 15) = __
W W 4
x = y + at = - ~ + 2 = -3 + 8 5
4 =­
4 4
Si at = 0 la expresi6n [2.5] se transforma en x = Cy y diremos que se ha
efectuado un cambio de escala en la variable X. Esta operaci6n se suele
efectuar tambien para facilitar los calculos cuando los valores observados 0
las marcas de c1ase (en las distribuciones agrupadas) son muy elevados y tienen
un maximo comiin divisor. En los datos del ejemplo 2.16 el cambio de escala
podria ser C = 1.000 quedando
Xi
n,
Xi
Yi = 1.000
-
7.000
7
3
11.000
11
4
15.000
15
7
19.000
19
5
23.000
23
6
1
Y = -
25
(7·3 + 11· 4 + 15·7 + 19·5 + 23.6) =
1 403
= 25 (21 + 44 + 105 + 95 + 138) = 25 = 16,12
x = cy = 1.000·16,12 = 16.120
Si en la distribuci6n anterior hacemos al mismo tiempo un cambio de
origen y escala, que es 10 que nos dice la expresi6n [2.5] de la propiedad I,
tendremos que, por ejemplo, si at = 15.000, C = 4.000:
Xi
-
7.000
11.000
15.000
19.000
23.000
1
Y = - [(- 2)· 3 + (- 1). 4 + o· 7 + 1. 5 + 2· 6] = ­
25 25
X
i-
at
Yi=-C-
».
-2
3
-1
4
0
7
1
5
2
6
7
69
CASAS-sANCHEZ, J. M. y J.
68
de donde
7 '
x = Cy + at = 4.000· 25 + 15.000 = 16.120
II. La suma de las desviaciones .de los valores 0 datos a su media
aritmetica es cero:
L
r
(x, - x)n; = 0 [2.6J
;=1
Demostraci6n:
En efecto:
r r r
L (x, - x)n; = L xin
i
- x L n, = xN - xN = 0
;=1 ;=1 ;=1 .
ya que como
_ 1 r
x - N L.." " x;n.
xN = L
r
x;n; y L
r
n;=N
i=l l ;=1 ;=1
III. La suma de los cuadrados de las desviaciones de los valores obser­
vados unitarios respecto a una constante arbitraria C es minima
cuando esa constante C coincide con la media aritmetica x:
S(C) = L
N
(x, - C)2 [2.7J
;=1
mfnimo cuando C = x.
Demostraci6n:
Como sabemos para obtener el mfnimo de la expresi6n S(C) se halla su
primera derivada y se iguala a cero. La condici6n suficiente es que la
derivada sea positiva. En efecto:
d L
N
(Xi - C)2
)
N .
(
dS(C) = ;= 1 = 2 L Jx; - C)( -1) = 0
dC dC ;=1
DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Dividiendo por dos y desarrollando el parentesis:
N
L x, = NC
I C=x I
;= 1
La segunda derivada es:
2S(C)
d = 2 £(-1)(-1) = 2N > 0
dC
2
i=1
con 10 que se cumple la condici6n suficiente de mfnimo.
IV.
Si el total de datos u observaciones se estratifica en L grupos
distintos, la media aritmetica del total es una media aritmetica de
las distintas medias de los estratos ponderadas por el nnmero de
observaciones que tienen los mismos:
_ x
1N1
+ x
2N2
+ ... + xLN
L
x=----"--'=-----=---"-------"=-----::
[2.8J
N
1
+ N
2
+ ... + N
L
Demostraci6n:
Las observaciones las dividimos en L estratos quedando:
(Xl!' X 12' X 13' ... , X 1N)' (X2 1, X 2 2' X 2 3' ... , X 2N)' ... , (XLI' X
L2'
X
L3'
... , X
LN)
La media total 0 global sera
- (Xl! + x
12
+ ... + X
1N
) + ... + (xL! + X
L2
+ ... + X
LN
)
x= 1 L=
N
1+N2+·
.. +N
L
s, NL
L Xli + ... + L XL;
;=1
x
1N1
+ ... + xLN
L
N
1
+ N
2
+ ... + N
L
N
1+N2+
.. ·+N
L
i=1
70
71
CASAS-sANCHEZ, J. M. YSANTOS-PEN-AS, J.
ya que como sabemos
N1
I Xli
i= 1 etc.
X l = ~ '
con 10 que
N1
I Xli = x
1
N
1
, etc.
i=l
Ventajas e inconvenientes de la media aritmetica
Las ventajas que podemos senalar de la media aritmetica como mas rele­
vantes son:
- Es calculable en las variables de naturaleza cuantitativa.
- Para su calculo se utilizan todos los valores de la distribucion,
- Esta perfectamente definida de forma objetivayes iinica para cada
distribuci6n de frecuencias.
- Tiene un claro significado ya que al ser e1 centro de gravedad de toda
la distribuci6n nos representa a todo el conjunto de valores observados.
Entre los inconvenientes hay que sefialar que es una medida de posici6n
muy sensible a los valores extremos de la distribuci6n con 10 que puede llegar
a ser poco representativa del conjunto si la dispersi6n de los datos es muy
elevada. A pesar de este inconveniente, por sus multiples ventajas, es la medida
de posici6n central mas utilizada.
2.5.2. La media geometrica
En muchas ocasiones los valores de la distribuci6n no son de naturaleza
propiamente aditiva como ocurre en los casos de los mimeros indices 0
porcentajes que representan la evoluci6n de una caracterfstica con respecto
al valor que tiene en un perfodo 0 situaci6n que llamamos base. Cuando se
desea obtener promedios de magnitudes tales como tipos de interes, tasas,
porcentajes, mimeros indices, etc., la media aritmetica pierde la propiedad de
tener un claro significado ya que la suma de dichas magnitudes no representa
un total de recurs os como en las magnitudes de naturaleza aditiva. En estos
casos debe de emplearse la media geometrica como la medida de posici6n
central mas representativa cuando la variable presenta variaciones acumula­
tivas.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Definicion 2.8.
Llamamos media geometrica de una distribuci6n de frecuencias y la
denotaremos por Gala raiz N-esima del producto de los N valores
observados:
Para las distribuciones unitarias:
r
G = VXl • X
2
. '" . x, = n Xi [2.9]
i= 1
m:;
Para las distribuciones no unitarias (agrupadas 0 no)
G
= N IX" 1 'X"2 . • X", =
[2.10]
....;. 1 2'" r
Como propiedad fundamental de la media geometrica damos la siguiente:
«Ellogaritmo de la media geometrica es igual a la media aritmetica de los
logaritmos de los valores de la variable,»
10gG = -
1
I
r
nilogx
i
[2.11]
N i=l
Demostracion:
Njr 1 [r ] r
log G = log _ n X?i = - log n X?i = -
1
I [log (xi)]n
i
c.q.d.
i=l N i=l N i=l
Ejemplo 2.18
Los tipos de interes que ofrece una entidad bancaria durante tres afios
consecutivos para dep6sitos a plazo son: 4,5, 5 y 5,5 por 100. Hallar el tipo
medio anual que ofrece el banco.
Solucion:
Los tipos de interes actiian sobre un capital inicial Co que 10 convierten
al cabo de tres afios en otro final C, por un proceso «acumulativo». Luego el
promedio mas representativo para este caso es la «media geometrica»,
En el primer ano obtenemos un capital C
1
tal que:
C
1
= C
o
(1 + 0,045)
73
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
72
En el segundo afio:
C
2
= C
l
(l + 0,05)
En el tercer y ultimo afio:
C = Ci1 + 0,055) = C
o(1
+ 0,045)(1 + 0,05)(1 + 0,055)
3
EI tipo medio de interes i sera aquel que verifique:
C (1 + i)3 = C
o(l
+ 0,045)(1 + 0,05)(1 + 0,055)
o
o sea
(1 + i) = V(l + 0,045)(1 + 0,05)(1 + 0,055) = 1,049992
Puede observarse que (1 + i) es la media geornetrica de los valores
(1 + 0,045), (1 + 0,05) Y (1 + 0,055) siendo las cantidades (0,045, 0,05 y 0,055)
las que operan intemamente de forma «multiplicativa» en Co para transfor­
marlo en C • EI promedio de estas cantidades de 0,049992 con 10 que la tasa
3
media del tipo de interes que hace el mismo efecto que las tres tasas anuales,
expresada en porcentajes es
i = 4,9992 por 100
Si se calcula la media aritmetica:
4,5 + 5 + 5,5
i = = 5
3
vemos que no coinciden siendo esta menos representativa del fen6meno ya que
no tiene en cuenta el efecto multiplicativo de las tasas de interes.
EI ejemplo 2.18 tambien puede resolverse aplicando la expresi6n [2.11] en
el caso de frecuencias de tipo unitario:
1 3 1 [ ]
= log G ="3 i ~ l log Xi ="3 10g(1 + 0,45) + 10g(1 + 0,05) + log (1 + 0,055)
1 . 00686032
="3 [0,1613680 + 0,0211892 + 0,0232524] = ' 3 =0,022867
y su antilogaritmo:
Antilog (0,022867) = 1,054064
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Ventajas e inconvenientes de la media geometrica
Entre las ventajas de las media geometrica podemos senalar:
- Es mas representativa que la media aritmetica cuando Ia variable evo­
luciona de forma acumulativa con efectos multiplicativos.
- Esta definida de forma objetiva y es unica, si existe.
- Tiene en cuenta en su calculo todos los valores de la distribuci6n.
- Los valores extremos tienen menor influencia que en la media aritme­
tica por estar definida a traves de productos en vez de sumas.
Los inconvenientes que hay que resaltar son:
- Su calculo es mas complicado que en la media aritmetica.
- No puede caIcularse si algun Xi es cero ya que se anula al definirse
como productos. Tampoco puede determinarse con valores negativos
ya que dana lugar a que apareciesen numeros de naturaleza imaginaria
con 10 que el problema no quedarfa resuelto, salvo que el radicando
sea negativo y el fndice de la rafz sea impar. Asf en la distribuci6n del
ejemplo 2.15 no es que no exista la media geometrica sino que no es
un buen promedio al ser Xl = 0 con 10 que dana:
G = 2V0
4.1 1o
.2
4
• 3
1.41
= 0
En cambio sf puede obtenerse la media geometrica en la distribuci6n del
ejemplo 2.16:
G = 2.y7.000
3
.11.000
4.15.0007.19.0005.23.0006
= 15.132
Si comparamos la media aritmetica del ejemlo 2.16 con la geometrica: Ia
x = 16.120 y G = 15.132 vemos que G < x. Igual ocurre en el ejemplo 2.18 en
el que x= 5 Y G = 4,9992. Demostraremos mas adelante que para datos no
negativos
G ~ x
2.5.3. La media ormonlco
Existen situaciones en las que no es adecuado el empleo de la media
aritmetica ni de la media geometrica ya que los datos observados no son de
naturaleza aditiva ni multiplicativa. Esto ocurre en los casos en los que se
desea promediar velocidades, rendimientos, productividades, etc., en los que
hay que combinar una serie de conceptos tales como: «entidades de produc­
74
75 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
ci6n» (recorridos, fincas, empresas, secciones, etc.), «recursos producidos» por
cada entidad (n
l
, n ) , «total de recurs os» (N = it 'n} «ritmo de ..., n
r z,
l
producci6n» de cada entidad (Xl' X
z
, ..., x
r
) que se expresa en producto obte­
nido por unidad de producci6n y unidades de producci6n de cada entidad que
se obtienen dividiendo la producci6n de cada entidad por su ritmo de produc­
nl nz nr )
ci6n -, -, ..., - . El problema que tenemos que resolver es obtener un
(
Xl X
z
x,
promedio de los ritmos de producci6n (Xl' x
z,
..., x
r
) que multiplicando por
las unidades de producci6n nos de el total de recursos producidos. A este
producto H se le denomina media arm6nica:
n
l
n
z
n,
H·- + H·- + ... + H·- = n
l
+ n
z
+ ... + n
r
= N [2.12]
Xl X
z
x,
Despejando H en la expresi6n [2.12] tenemos:
Definici6n 2.9.
Dada una distribuci6n de ritmos de producci6n Xl' X Z, ... , x, Y las
producciones de r entidades: n
l
, n
z,
..., n" lIamamos media arm6nica de
aquellos a:
N N
H= =-- [2.13]
n
l
n
z
n, ~ n,
-+-+ ... +- L.­
Xl X
z
x, i=l Xi
Ventajas e inconvenientes de la media arm6nica
Entre las ventajas de la media arm6nica hay que destacar las siguientes:
- Esta definida de forma objetiva y es unica,
- Su calculo es sencillo.
- Intervienen todos los val ores de la distribuci6n.
- Es mas representativa que las otras medias en los casos de obtener
promedios en velocidades, rendimientos y productividades.
Como inconvenientes hay que citar:
- No debe de usarse para valores de la variable muy pequefios (cercanos
a cero) ya que sus inversos pueden aumentar muchisimo haciendo
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
despreciable frente a ellos la informaci6n de otros valores de Xi que
sean mayores.
- No es posible calcularla cuando existen valores iguales a cero.
Relaci6n entre las medias arm6nica, geometries y aritmetica
Vamos a demostrar que para una misma distribuci6n de frecuencias con
todos sus datos positivos ocurreque:
[ H ~ G ~ x I
Consideremos el caso mas sencillo de una distribuci6n con dos valores de la
variable con frecuencias unitarias y que con dichos valores pueden calcularse
los tres promedios:
2 2 2x
lxZ
H= 1 1
Xl + X
z Xl + X
z
-+­
Xl X
z
xlX
Z
G= JxlX
Z
Xl + X
z
X = 2
Vamos a demostrar en primer lugar que H ~ G, 0 sea:
2x
lxZ
~ Jxlxz
Xl + X
z
Elevando al cuadrado los miembros de la anterior desigualdad y operando:
4 x i x ~ ~ X1Xz{X
l
+ xz)Z ; 4x
lxZ
~ (Xl + Xz)Z
4x
lxZ
~ xi + x ~ + 2x
lxZ
; 0 ~ xi + x ~ - 2x
lxZ
o~ (Xl - xzf
Con 10 que queda demostrado que H ~ G. Por otro lado G ~ x ya que:
rr.: Xl +xz z
V X1X
Z
~ 2 ; 4x lxZ ~ (xl + Xz)
77 76 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Con 10 que
o~ (Xl - XZ)Z
Por tanto, queda demostrado que H ~ G ~ x. Esta demostraci6n puede gene­
ralizarse para cualquier mimero de valores de la variable. La media arm6nica
del ejemplo 2.16 sent:
25
H = 3 4 7 5 6 = 14.022
--+--+--+--+-­
7.000 11.000 15.000 19.000 23.000
Vemos que se cumple que
H<G<x
ya que
14.022 < 15.132 < 16.120
Ejemplo 2.19
Un autom6vil realiza los siguientes recorridos 200, 300 y 400 km a las
velocidades medias de 50, 60 y 80 km por bora. Calcule la velocidad media
para el recorrido total.
Solucion:
En este ejemplo los ritmos de producci6n 0 valores de la variable son las
velocidades medias del vehiculo en cada recorrido (entidades de producci6n)
(Xl = 50, X
z
= 60 y X
3
= 80). Los recursos producidos son las distancias que
se ban recorrido (n
l
= 200, nz = 300 y n
3
= 400) con 10 que la distribuci6n de
frecuencias sent:
Xi n
i
50 200
60 300
80 400
H= 900
200 300 400 = 64 kmfhora
-+_._+
50 60 80
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Ejemplo 2.20
Cuatro fincas ban producido 100, 120, 150 y 200 quintales metricos de trigo
con unos rendimientos de 10, 15, 12 y 18 quintales metricos de trigo por
hectarea. Calcular el rendimiento medio.
Solucion:
En este ejemplo los ritmos de producci6n son los rendimientos obtenidos
por hectarea y los recursos producidos son los montantes de quintales metricos
de trigo obtenidos en cada una de las fincas que son las entidades de produc­
cion, La distribuci6n de frecuencias sera:
Xi n
i
10 100
12 150
15 120
18 200
570
2.5.4. La mediana
Las anteriores medias que hemos estudiado (aritmetica, geometrica y ar­
m6nica) son medidas de posicion central que representan al conjunto de valores
observados de la distribuci6n equilibrando los mas elevados, los intermedios y
los pequenos ya que en su c6mputo intervienen todos ellos. El problema que
tienen estas medias es que son sensibles a los valores extremos muy altos 0
muy bajos y cuando existe mucha dispersi6n son poco representativas del
conjunto de observaciones. Con objeto de superar esta dificultad vamos a
definir otra medida de posici6n central en cuyo calculo no intervienen todos
los valores de la variable Xi' En vez de equilibrar valores de la variable para
determinar e1 centro de gravedad de la distribuci6n equilibra las frecuencias
observadas a ambos lados de su valor.
78
79
CASAS-sANCHEZ, J. M. y SANTOS-PE:NAS, J.
Definicion 2.10. Mediana
Dada una distribuci6n de frecuencias con los valores ordenados de
menor a mayor, llamamos mediana y la representamos por Me al valor
de la variable que deja a su izquierda el mismo numero de frecuencias
que a su derecha.
Determinacion de la mediana en las distribuciones de tipo unitario
Pueden ocurrir dos casos:
a) Que el mimero de valores de la variable sea impar: la mediana es el
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
a) Si N[ supera a NI2 la mediana es el Xi que corresponde a ese NI-
b) Si N[ es igual a N12 la mediana es la media aritmetica de Xi y el
siguiente Xi + 1• Si este resultado no fuese admisible porque la distribuci6n es
discreta y no admite decimales; la mediana seria los dos valores conjuntamente.
Ejemplo 2.21
Obtener la mediana de la distribuci6n de frecuencias no agrupada del
ejemplo 2.2referido al numero de personas que trabajan en 20 familias. La
distribuci6n es:
valor central. Por ejemplo, si la distribuci6n unitaria es Xi: 1, 3, 9, 13, 14 la
mediana es Me = 9 ya que es el valor que deja a su izquierda los mismos datos
u observaciones que a su derecha; 0 sea, dos datos.
b) Que el mimero de valores de la variable sea par: la mediana es la media
aritmetica de los dos valores centrales. Por ejemplo, si la distribuci6n unitaria
es Xi: 2, 3, 4, 5, 7, 8 la mediana es
4+5
M
e=-2-=4,5
ya que es un punto del campo de variaci6n de la variable que deja tres
observaciones por debajo de el (2, 3 y 4) y otras tres por encima (5, 7 y 8). Si
la variable que se esta estudiando es de naturaleza discreta (por ejemplo,
mimero de personas) y no admite decimales, la Me = 4,5 no seria admisible
con 10 que las medianas serian conjuntamente los dos valores centrales (4 y
5) ya que valores menores 0 iguales a 4 hay tres y valores iguales 0 superiores
GRAFICO 2.16.
Ni
N
I
I
I
I
I
I
I
I
I
I
I
I
'
L.-,
I
I
I
I
I
I
I
I
..
• '1'
I
I
I
I
I
I
I
I
----------,
N
o
Xl X2 Me Xr-l X
r x
a 5 tambien hay tres.
Determinaci6n qrafica de la mediana a traces de los diagramas acumu­
lativos ascendente y descendente.
Determinacion de la mediana en distribuciones no unitarias
y con los valores no agrupados en intervalos de clase.
Si la distribuci6n de frecuencias no es unitaria hay que acudir al concepto
de frecuencias acumuladas para determinar la mediana. Si de la correspondien­
te distribuci6n se representan en el mismo sistema de ejes cartesianos los
diagramas acumulativos ascendentes y descendentes, la abscisa del punta
donde se encuentran corresponde con la mediana ya que por encima del
mismo hay un 50 % de observaciones y por debajo otro 50 % como indica el
grafico 2.16. El procedimiento de determinaci6n numerica es el siguiente: se
calcula NI2 y se construye la columna de las NI- A continuaci6n se observa
cual es la primera N[ que supera 0 iguala a NI2 distinguiendose dos casos:
Xi n
i
NT,
0
1
2
3
4
4
10
4
1
1
4
14
18
19
20
Soluci6n:
Observando en la columna N[ que el primero que supera a
NI2 = 10 es N1 = 14.
--------------------
80
----__

I
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
Luego la mediana es su correspondiente valor de la variable que es Me = 1.
Este resultado nos indica que las familias con un ocupado, al tener, una
frecuencia acumulada de 14 incluyen a las observaciones que ocupan los
lugares deeimo y decimo-primero que cumplen la definici6n de mediana para
este ejemplo con un total de 20 observaciones.
Ejemplo 2.22
Los salarios mensuales de 100 empleados de unos grandes almacenes son
los siguientes:
Salarios (Xi) N.O empleados (nJ NT,

1.000 euros
1.250 euros
2.000 euros
3.000 euros
50
30
15
5
50
80
95
100
Solucion:
Observando Ni vemos que el primero que iguala a NI2 = 50 es Nl = 50.
Luego estamos en el caso en el que la mediana sera
M = x t + x2
1.000 + 1.250 = 1.125 euros
e
2 2
Puede observarse que un salario mensual de 1.125 euros tiene por debajo
de el al 50 % de los salarios de los trabajadores y por encima al otro 50 %.
Determinacion de la mediana en distribuciones con los datos agrupados
en intervalos de clase.
En este caso no tenemos valores observados de la variable al estar incluidas
en intervalos de clase. Luego la mediana la obtendremos siguiendo el metodo
de observar la columna de frecuencias acumuladas hasta encontrar un valor
de NI que supere 0 iguale a N12. Graficamente si de una distribuci6n agrupada
represent amos sus poligonos acumulativos ascendentes y descendentes, donde
se cortan ambas funciones su correspondiente abscisa nos dana la mediana
como se indica en el grafico 2.17. Observando la columna de Ni nos podemos
encontrar con los casos:
DISTRIBUCIONES DE FRECUENCIAS UNlDIMENSIONALES
81
a) Que Ni supera a NI2 el intervalo mediano sera (L -
t
, LJ que corres­
i
ponde a ese NI > N12. Puede observarse en el grafico 2.17 que el valor de la
abscisa que se corresponde con Me tiene una ordenada de N12. Para obtener
el valor de la mediana al lfmite inferior del intervalo mediano hay que afiadir
la distancia d que es un trozo de la amplitud del intervalo C . Luego:
i
Me =L
i
-
t
+ d
Para determinar la distancia d se adopta la hip6tesis de que los valores de
la variable Xi que pertenecen al intervalo mediano se distribuyen de forma
uniforme a 10 largo del mismo. Luego podemos establecer una relaci6n direc­
tamente proporcional entre la frecuencia absoluta del intervalo mediano (n ) ,
N
N
i
N


+-----hhh
N,


Nt

i
o
1.0 ----- Ll
Li-2 L
i- 1
Me
i

,
,
,
,
,
,
,
,
,
4/
Li------Lk
x
GRAFICO 2.17. Determinaci6n qrafica de la mediana a traces de la representaci6n de los
pol(gonos ascendentes y descendentes de una distribuci6n de frecuencias
agrupada en intervalos de clase.
su amplitud (ci), la longitud desconocida (d) y la frecuencia que le corresponde
(N12 - NI-t):
c, d
;;; = NI2 - Ni-t'
de donde
NI2
d =
I
,:

- NT ),"
,-t
·C·

n· , '

rl,
I
'll
II!
Ii

i
82
83
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Sustituyendo:
M =L. NI2 - NT
e ,-1+
n
,-1
• Ci
i
b) Que Nt es igual a N12. En este caso se toma por convenio como
mediana el lfmite superior del intervalo mediano.
Ejemplo 2.23
Los ingresos anuales de las 50 familias del ejemplo 2.12 expresados en miles
de euros y agrupadas en intervalos de clases son:
NT,
(L
i
-
1
, LJ
n
i
10
10
[40, 100]
20 30
(100, 200]
15 45
(200, 500]
50
(500, 1.000]
5
Calcular la mediana.
Solucion:
Observando la columna Nt vemos que el primer Nt que iguala 0 supera
(en este caso supera) a NI2 = 25 es N1 = 30 con 10 que el intervalo mediano
es (100, 200]. Por tanto:
25 - 10
M = 100 + ·100 = 175
e 20
La conclusi6n que obtenemos es que el ingreso de 175.000 euros deja por
debajo al 50 % de las familias y por encima al otro 50 %.
Ejemplo 2.24
Cien pequeiios comercios se agrupan segun su mimero de empleados, en
la siguiente distribuci6n:
DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
N.O de empleados
(L
i
­
1
, L
i
)
N.O de comercios
n
i
Nt
i
[0, 1]
(1, 2]
(2, 4]
(4, 6]
( 6, 10]
(10, 15]
20
30
20
15
10
5
20
50
70
85
95
100
Calcular la mediana.
Solucion:
El primer NI que iguala 0 supera a NI2 = 50 (en este caso iguala) es
N1 = 50 con 10 que el intervalo mediano es (1, 2] y la mediana es su limite
superior Me = 2.
Ventajas e inconvenientes de la mediana.
Como ventajas de la mediana cabe destacar:
- Es la medida mas representativa en el caso de variables que s610
admiten la escala ordinal.
- Es una medida de posici6n central sencilla de calcular.
- Tiene una facil interpretaci6n al ser un valor de la variable en el caso
de las distribuciones de frecuencias unitarias 0 las no unitarias no
agrupadas. En el caso de las agrupadas esta dentro del campo de
variaci6n del intervalo mediano.
- En la mediana s610 influyen los valores centrales de la distribuci6n y
es insensible a los valores extremos. La Me puede calcularse en distri­
buciones en las que los valores extremos son desconocidos siempre y
cuando tengamos informaci6n sobre sus frecuencias (casos de interval os
iniciales y finales de naturaleza abierta).
El unico inconveniente que se le puede senalar ala mediana es que en su
determinaci6n no intervienen todos los valores de la variable. Este inconve­
niente se transforma en ventaja cuando son desconocidos los valores extremos
o existe una enorme dispersi6n entre los mismos que invalidan las. medias
como medidas de posici6n central al no ser representativas del conjunto de la
distribuci6n por la enorme influencia que ejercen los mencionados valores
extremos en su calculo,
i
85
CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1. 84
2.5.5. La moda
Igual que la mediana es una medida de posici6n central que esta funda­
mentada en las frecuencias de la distribuci6n y no en el conjunto de los valores
de la variable como ocurre con las distintas medias. La moda siempre estara
definida en relaci6n a valores de la variable asociados a sus distintas frecuen­
cias con 10 que no tiene sentido hablar de moda en las distribuciones de
,

frecuencias de tipo unitario.
Definicion 2.11. Moda absoluta
Dada una distribuci6n no unitaria llamamos moda absoluta, que
representaremos por M
o'
al valor de la variable (0 los valores) con mayor
frecuencia absoluta. En el caso de existir dos, tres 0 mas valores con la
mayor frecuencia absoluta, la distribuci6n se dira que es bimodal, trimo­
dal 0 multimodal.
t
,'
/
Determinacion de la moda en distribuciones no unitarias y no agrupadas
lit
;1:'
En este caso la determinaci6n de la moda es inmediata ya que basta con
observar la columna n
i
de frecuencias absolutas.
Ejemplo 2.25
En la distribuci6n de frecuencias del ejemplo 2.2 referido al mimero de
personas que trabajan en 20 familias obtener la moda. Los datos de la distri­
buci6n (tabla 2.4) son los siguientes:
Xi n
i
o 4
1 10
2 4
3 1
4 1
Solucion:
Observando la columna de frecuencias absolutas la mayor corresponde a
n
2
= 10, siendo la moda absoluta su correspondiente valor de la variable M0 = 1.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Ejemplo 2.26
Las puntuaciones de 100 alumnos en un examen fueron recogidas en la
siguiente distribuci6n de frecuencias:
Xi n
i
2 15
6 40
7 40
9 5
Determinar su moda.
Solucion:
Observando la columna n
i
vemos que es una distribuci6n bimodal 0 con
dos modas absolutas ya que la maxima frecuencia, 40, se repite en dos valores
de la variable con 10 que sus modas absolutas son M
o
= 6 puntos, 0 bien,
M0 = 7 puntos.
Definicion 2.12. Moda relativa
Dada una distribuci6n no unitaria llamamos moda relativa a aquel
valor de la variable (0 los valores) cuya frecuencia absoluta no es supera­
da por las de sus valores contiguos.
Ejemplo 2.27
Las puntuaciones de 120 alumnos en un examen fueron recogidas en la
siguiente distribuci6n de frecuencias:
Xi n
i
1 20
3 30
4 20
5 40
7 7
9 3
Obtener las posibles modas de la distribuci6n.
86 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
Soiucion:
Observando la columna n, la moda absoluta es M
o
= 5.' Tambien existe
una moda relativa M 0 = 3 ya que su frecuencia asociada n
2
= 30 no es supera­
da por sus valores contiguos que tienen unas frecuencias absolutas de 20
observaciones.
Determinacion de la moda en distribuciones agrupadas en intervalos
Al estar los valores de la variable agrupados en intervalos s610 obtendre­
mos una aproximaci6n al valor de la moda como ocurrfa con las medias (se
utilizaban las marcas de c1ase al no disponer de los valores realmente obser­
vades) y la mediana (se utiliz6 la hip6tesis de la proporcionalidad directa entre
frecuencias absolutas y amplitudes del intervalo mediano). Para determinar la
moda pueden emplearse distintas hip6tesis perc las mas utilizadas son las
siguientes:
- La moda se encuentra en el intervale que tiene mayor frecuencia ab­
soluta dividida por su amplitud (es decir, mayor densidad de frecuencia)
que recibe el nombre de intervalo modal.
- La moda estara mas cerca de aquel intervalo contiguo que tenga mayor
frecuencia absoluta. Luego dentro del intervalo modal la moda se en­
cuentra en un punto para el cual las distancias a los extremos inferior
y superior del intervalo son inversamente proporcionales a las frecuen­
cias absolutas de los intervalos adyacentes a dichos extremos.
Teniendo en cuenta las hip6tesis anteriores vamos a considerar dos casos:
a) Que los intervalos tengan todos una amplitud constante c.
Para determinar la moda se observa la columna ni de frecuencias absolutas
concretando que la mayor de todas nos determina e1 intervalo modal. Supon­
gamos que es como se indica en e1 grafico 2.18 el intervalo (L
i
-
1
, LJ con una
frecuencia absoluta n
i
• Los intervalos contiguos al modal tienen unas frecuen­
cias absolutas de n
i
-
1
el anterior y n
i
+1 el posterior. Luego la moda sera:
(siendo Oes d s c) M
o=Li
_
1+d
La hip6tesis que hemos establecido de proporcionalidad inversa de las
distancias d y (c - d) a las frecuencias n
i
-
1
Y n
i
+1 nos permite escribir:
d c - d
-1-=-1­
n;-1 n;+1
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 87
ni
c C o
x
Lo Lk-1 t;
GRAF1eo 2.18. Determinaci6n de la moda a traces del histograma de frecuencias.
Teniendo en cuenta las propiedades de las proporciones de suma de ante­
cedentes y consecuentes queda:
d c-d c
--=--=-­
1 1 1 1
-- -- --+-­
n;-1 ni+1 n;-1 n;+1
Tomando el primer y ultimo miembro de estas igualdades y despejando
nuestra inc6gnita que es la distancia d queda:
1 1 n;-1' n;+1
n;-1 n;-1 n;-1 n;+ 1
d= c= c= c= c
1 1 n;+1 + n i - 1 n;-1 + ni+1 n;-1 + n;+1
-+­
n;-1 n;+1 n;-1 . n;+ 1
Sustituyendo d por su valor en funci6n de las frecuencias de los intervalos
adyacentes al modal y de su amplitud constante c queda la expresi6n de la
moda:
ni+1 c
M
o
= L
i
-
1
+ n;-1 + n
i+ 1
c Mo c
LC--- Li-2 Li-1 Li Li+1
88 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
89
Ejemplo 2.28
Ejemplo 2.29
Los salarios anuales de 200 ejecutivos de un pafs expresados en miles de Las recaudaciones mensuales expresadas en miles de euros de 100 estable­
euros se recogen en la siguiente distribuci6n de frecuencias: cimientos comerciales se reflejan en la siguiente distribuci6n de frecuencias:
Salarios anuales N.D de ejecutivos
Recaudaciones N.Dde comercios Densidad de frecuencias
(L
i
-
1
-LJ n
i

I
(L
i
-
1
-LJ n
i
h. =-'
I c
i
[75-125] 25
(125-175] 100
[75-200] 50 0,40
(175-225] 50
(200-250]
40 0,80
(250-300] 7 (225-275] 25 0,14
(300-400]
3 0,03
Solucion: I
Soluci6n:
Podemos observar que la amplitud de los intervalos es una constante
Puede observarse que utilizando la columna n, el intervalo modal sena
C = 50. Observando la columna n, vemos que la mayor es n
2
= 100.con 10 que
[75-200]. Pero esta conclusi6n es err6nea ya que la amplitud de los intervalos
el intervalo modal es (125-175]. Por tantoel valor de la moda es:
es variable y las frecuencias absolutas directamente no son validas, Hay que
obtener la columna hi de densidades de frecuencias siendo la mayor h = 0,80
50 ~ 2
M
o
= 125 + 2 ·50 = 158,33 miles de euros con 10 que el intervalo modal sera (200-250] y la moda:
5 + 50
Conclusi6n: el salario que mas se repite en los 200 ejecutivos es de 158.333
euros.
b) Que los interval os sean de amplitud variable C
i
.
En este caso nos encontramos con el mismo problema que cuando se
construian histogramas con intervalos de amplitud variable que habra que
calcular previamente las densidades de frecuencias:

hi=.......!
C
i
El intervalo modal sera el que tenga una «mayor densidad de frecuencias».
Una vez determinado el correspondiente (L
i
-
1
, LJ basta con sustituir las
frecuencias absolutas de los intervalos adyacentes por sus correspondientes
densidades de frecuencias con 10 que la expresi6n de la moda en este caso
sera:
0,14 .
M o = 200 + ·50 = 213 miles de euros
0,40 + 0,14
Conclusi6n: la recaudaci6n que mas se repite en los establecimientos
comerciales es de 213.000 euros.
Ventajas e inconvenientes de la moda
La moda tiene una serie de ventajas tales como:
- Es la unica medida de posici6n central que puede obtenerse en las
variables de tipo cualitativo que s6lo admiten la escala nominal ya
siempre podemos determinar la modalidad que mas se repite en el
estudio de un determinado atributo.
- Es de sencillo calculo,
- Es de facil interpretaci6n ya que nos da directamente el valor de la
variable que mas se repite.
Como inconveniente hay que sefialar que en su determinaci6n no intervie­
hi+1 nen todos los valores de la distribuci6n (caso de las medias) ni todas las
-- ·c
i
M
o
= L
i
-
1
-r h - + h +1
frecuencias (caso de la mediana) centrandose s6lo en la mayor frecuencia
i 1 i
absoluta de un determinado valor de la variable.
91
90 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
2.5.6. Otras medidas de posicion no centrales:
los cuantiles
Hasta ahora hemos estudiado las medidas de posici6n central ya que de
una forma u otra se ha buscado un valor representativo de todo el conjunto
de la distribuci6n. Las medidas que denominamos cuantiles son valores de la
variable que dividen a la distribuci6n en partes proporcionales, 0 sea, en
intervalos que contienen el mismo numero de observaciones. Es evidente que
la medida de posici6n central que hemos llamado mediana es un cuantil ya
que es un valor de la variable que la divide en dos partes iguales a la dis­
tribuci6n.
Definicion 2.13. Cuantiles
Llamamos cuantiles a aquellos valores de la variable que dividen a
la distribuci6n en intervalos que tienen un mimero de frecuencias abso­
lutas proporcional a una constante comprendida entre 0 y 1. Los mas
conocidos son:
- Los cuartiles (Q;) que son tres valores que dividen ala distribuci6n
en cuatro partes iguales.
- Los deciles (D;) que son nueve valores que dividen a la distribu­
ci6n en diez partes iguales.
- Los percentiles (P;) que son noventa y nueve valores que dividen
a la distribuci6n en cien partes iguales.
Calculo de cuantiles en distribuciones no agrupadas en intervalos de clase
Como la mediana es un caso particular de cuantil, ya que divide a la
distribuci6n en dos partes iguales, las reglas de calculo que se vieron para
rN
obtener Me son validas para obtener los distintos cuantiles: se calcula ­
q
siendo r el cuantil correspondiente, q el numero de intervalos con iguales
frecuencias en que se divide la distribuci6n y N el numero total de datos,u
observaciones; seguidamente se construye la NJ (los valores de la variable
siempre estan ordenados de menor a mayor) y se observa cual de los NJ supera
rN
o iguala a -. Recordemos que en el caso de la mediana r = 1 y q = 2 con
q
rN
10 que la expresi6n es N12. Si NJ supera a - el cuantil es el correspondiente
q
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
valor de la variable y si 10 iguala es la media aritmetica de ese valor y el
siguiente igual que ocurria cuando se obtenia la mediana. En el caso de los
tres cuartiles (Ql' Qz y Q3) la expresi6n
rN IN 2N
sera
para Ql' para Qz
q 4 4
que como coincide con la Me simplificando es
NI2 Y 4
3N
para Q3'
En el caso de los nueve deciles las expresiones de las frecuencias acumu­
ladas ascendentes que nos 10 determinan seran:
IN
Para D
1
la frecuencia absoluta acumulada 10
2N
Para u, la frecuencia absoluta acumulada 10
. 9N
Para D
9
la frecuencia absoluta acumulada 10
Para los percentiles:
IN
Para P1 la frecuencia absoluta acumulada 100
2N
Para Pz la frecuencia absoluta acumulada 100
99N
Para P99 la frecuencia absoluta acumulada 100
92
93
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Ejemplo 2.30
En la distribuci6n del ejemplo 2.27 de las puntuaciones de 120 alumnos
determinar los tres cuartiles, el septimo decil y el 99.
0
percentiI.
Xi ni
NT,
1 20
20
3 30
50
4 20
70
5 40 110
7
7 117
9
3 120
Soluci6n:
Las frecuencias absolutas acumuladas ascendentes que nos determinan los
tres cuartiles son: .
IN _ 120 = 30 para Ql
4-4
2N 240 = 60 para Q2
4=4
3N _ 360 = 90 para Q3
4-4
Luego observando en la columnas NI los tres cuartiles son:
Ql = 3 , Q2 = 4 Y Q3 = 5
ya que son los tres valores de la variable Xi que se corresponden con
N1 = 50 , N1 = 70 y Nl = 110
que son las frecuencias absolutas acumuladas que cumplen las condiciones de
ser las primeras mayores 0 iguales que las respectivas
IN 2N 3N
"4 ' 4 y 4'
DISTRIBUCIONES DE FRECUENCIAS UNlDIMENSIONALES
Puede observarse que Q
z
coincide con la mediana ya que
120
N/2=-=60
2
y observando en NI es N1 =70 el que cumple la condici6n de ser la primera
igual 0 mayor que N/2 con 10 que su correspondiente valor de la variable a
mediana es Me = 4.
La frecuencia absoluta acumulada ascendente que nos determina el septi­
mo decil sera:
7N 7·120 840
10=10=10= 84
Observando en la columna Ni es Nl = 110 el que cumple la condicioin
con 10 que el septimo decil es el valor de la variable correspondiente:
D
7
= 5.
La frecuencia absoluta acumulada ascendente que nos determina el 99.
0
percentil sera:
99N 99 ·120
100 = ----wo = 118,8
Observando la columna N[ es el ultimo valor N ~ = 120 el que cumple la
condici6n con 10 que:
P99 = 9.
Caleulo de cuantiles en distribuciones agrupadas en intervalos
Este problema se resuelve de forma identica que en el caso de la mediana.
Luego la f6rmula de determinaci6n es la misma s610 que en vez de una
frecuencia absoluta acumulada ascendente de N /2 sera en terminos genericos
la de los cuantiles hasta rN. Por tanto, para determinar el cuantil de orden r
q
y numero de intervalos iguales q, 0 sea C
r
/
q
, sera:
rN _ Ni-l
q
C
r
/q = L
i
-
1
+ 'C;
n
i
95
CASAS-sANCHEZ, J. M. y J. 94
Todo el procedimiento de determinaci6n estudiado en la mediana es apli­
cable al cien por cien al caso de los cuantiles.
Ejemplo 2.31
En la distribuci6n de frecuencias del ejemplo 2.29 referida a las ventas
mensuales de 100 establecimientos comerciales. Calcular: a) El nivel de venta
que no es superado por el 25 % de los establecimientos. b) El nivel de venta
mfnimo que recaudan el15 % de los comercios que mas venden.
Soluci6n:
En la distribuci6n del ejemplo 2.29 hay que obtener la columna de las
frecuencias absolutas acumuladas ascendentes quedando:
(L
i
- - LJ n
i
Nt
1 l
[75-200J 50 50
(200-250J 40 90'
(250-300J 7 97
(300-400J 3 100
a) El nivel de ventas que nos piden corresponde al valor del primer
cuartil; luego la frecuencia absoluta acumulada que nos determina el intervalo
donde se encuentra es:
IN 100 = 25
4= 4
Observando en la columna Ni cumple la condici6n de igualarla 0 superarla
por primera vez el primer valor Nl = 50 con 10 que el intervalo es el primero
[75-200]:
IN _ t
1
4 N
i
- 25-0
Ql = L
i
-
1
+ n, c; = 75 + = 137,5 miles de euros.
l
Puede observarse que al aplicar la f6rmula de determinaci6n, al ser el
primer intervalo de la distribuci6n donde se encuentra el primercuartil, el
Ni-l = 0 ya que antes del primero no existe ninguna frecuencia acumulada.
La respuesta al problema planteado es que son 137.500 euros el nivel de ventas
que no es superado por el 25 % de los establecimientos comerciales.
,

...­

DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
b) El nivel de ventas mfnimo que nos piden nos 10 proporciona el per­
centil 85 ya que es el valor que nos deja a su derecha, por encima de el, un
15 % de los comercios con las mayores ventas. La frecuencia absoluta acumu­
lada ascendente que 10 determina es:
85N 85·100
100 =100=85
Observando en la columna Ni vemos que = 90 nos determina el inter­
valo donde se encuentra el percentil 85 que es (200-250]. Aplicando la f6rmula
de determinaci6n:
85N
N
i 1
100 - - 85 - 50
P
8
5 = L, - 1 +
n,
Ci = 200 + dO . 50 = 243,75 miles de pesetas.
Conc1usi6n: el nivel de ventas mfnimo que corresponde al 15 % de los
comercios que mas venden es de 243.750 euros.
2.6. Momentos
Los momentos son medidas obtenidas a partir de todos los datos de una
variable estadfstica y sus frecuencias absolutas. Estas medidas caracterizan a
las distribuciones de frecuencias de tal forma que si los momentos coinciden en
dos distribuciones diremos que son iguales, siendo mas semejantes cuanto
mayor sea el numero de momentos que coinciden.
Se define el momento de orden h respecto al origen de una variable es­
tadfstica a la expresi6n:
h n1 h nz h n, h n,
ah = Xl - + X
z
- + ... + X - = L, x· ­
N N 'N i=l l N
Algunos ejemplos son: si h = 1, a
1
= X que como sabemos es la media
aritmetica; si h = 0, ao = 1; a
h
es la media aritmetica de los valores observados
elevados a la potencia h.
El momento de orden h respecto a la media aritmetiea 0 central de una
variable estadfstica es:
n
h l hnZ ». .».
m
h
= (Xl - x) N + (x z - x) N + '" + (X, - x) N = ;:--1 (Xi - x) N'
siendo x la media aritmetica de la variable estadfstica,
97
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
96
Ejemplos: si h = 1,
1 r 1 r 1
m = - L (Xi - x)n
i
= - L xin
i
- - X L ni = X - X = 0;
1
N j=1 N i=1 N j=1
si h = 2, se denota m = 8
2
Yse llama «varianza» que es la medida de disper­
2
si6n absoluta que se estudiara mas adelante.
Relaciones entre los momentos
Todo momento respecto a la media puede expresarse en funci6n de los
mementos respecto al origen de 6rdenes menores 0 igual al orden del primero,
Para ello usamos el binomio de Newton:
(X
j
- X)h = ±
j=O ]
Asf:
[h (h). 'J 1 r 1 r JxJ
n
j=
mh=N.
L
(Xi-x)hni=N.
L
.L (-IY . x7­
,=1 ,=1 =0 ]
x
J
N c:
.) ·C)
.'-'

(-1)1
.(h)
.
.( 1
x
h
j -Jnj

. ah_jXJ.
.
= =.'-' (-1)1
J=O ] ,=1 J=O
Tambien cualquier momento respecto al origen, ah' se puede expresar en
funci6n de m
h
- j Y X.
Un caso particular de especial relevancia es m2:
i
m
2
= it(-lyG)a2-f = - G)a1
X
+ =
= a
2
- 2x
2
+ x
2
= a
2
- x
2,
es decir, Ia varianza coincide con el momento de orden 2 respecto al origen
menos la media aritmetica elevada al cuadrado.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Los cambios de escala y origen en el calculo de los momentos
respecto a la media
Los moment os respecto a la media se yen afectados por los cambios de
escala pero no por los cambios de origen. Si se realiza la transformaci6n
siguiente:
X j ­ °t
Yj= C
x, = O, + CYi
resulta que
I mh(xi) = Chmh(YJ I
Demostraci6n:
1 r 1 r
mh(xi) = N (Xi - X)hni = N [Ot + CYi - (Ot + Cji)Jh ni =
1 r - y-)hn ]
= N [C(yj - y)Jhni = c i N i = Chmh(Yi)
En la demostraci6n anterior se ha tenido en cuenta que los cambios de escala
Yorigen sf afectan ambos a los momentos respecto al origen ya que como se
vio en la primera propiedad de la media aritmetica, que es un momento de
orden uno respecto al origen,
X = O, + Cy.
Los momentos se utilizan constantemente en la Estadistica Descriptiva en
el calculo de medidas de dispersi6n, de asimetria y de apuntamiento 0 curtosis
como se vera en los pr6ximos epfgrafes.
2.7. Medidas de dispersion
,
Las medidas de dispersi6n tratan de medir 10 mas 0 menos esparcida que
se encuentra la variable estadfstiea entorno a una medida de posici6n 0 de
tendencia central, indicandonos 10 representativa que es la medida de posici6n.
A mayor dispersi6n, menor representatividad de la medida de posici6n, y
viceversa.
98
99
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Algunas medidas de dispersi6n absolutas (dependen de las unidades de
medida de 1a variable) 0 relativas (estan definidas por cociente y nodependen
de las unidades de medida de 1a variable) vamos a definirlas a continuaci6n.
Las medidas de dispersi6n absolutas s610 tienen sentido cuando vienen acom­
pafiadas de un promedio. Las relativas permiten comparar la dispersi6n de
distintas distribuciones.
a) Recorrido, rango 0 intervalo de variaci6n:
R = x, - Xl = max {x,} - min {Xi} para 1 ~ i ~ r
b) Intervalos intercuantflicos:
• Intervalo intercuartflico, I = Q3 - Qr­
• Intervalo semiintercuartflico, (Q3 - Qd2.
• Intervalo intercuartflico relativo, (Q3 - Ql)IM
e
.
• Intervalo 10 - 90 por 100, D
9
- D
1

• Intervalo 7 - 93 por 100, P93 - P7'
etc.
c) Medidas de dispersi6n respecto a la media aritmetica:
• Desviaci6n absoluta media respecto a la media, do = -
1
L
r
IX
i
- xln
i
.
N i=l
1 r
2.
• Varianza, S2 = N i ~ l (Xi - xfni = m2 = a2 - x
• Desviaci6n tfpica, s = ~ = Ja
2
- x
2

• Coeficiente de variaci6n de Pearson, six, que es la medida de disper­
si6n relativa que mas se utiliza para comparar la dispersi6n de
distintas distribuciones.
Las unidades en que se miden las medidas de dispersi6n son las mismas
de los datos (por ejemplo: do' s, R, I, etc.), 0 en unidades al cuadrado (por
ejemplo: S2) 0 son magnitudes escalares independientes de las. unidades de
medida (por ejemplo: intervalo intercuartflico relativo, six, etc.).
A efectos de comparar las dispersiones de dos 0 mas variables estadfsticas
en las mismas 0 distintas unidades, se realiza habitualmente a traves del
coeficiente de variaci6n de Pearson, six, como hemos indicado anteriormente.
Existen otras muchas medidas de dispersi6n, pero las mas usadas utilizan
la varianza, por 10 que la vamos a estudiar algo mas.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Propiedades de la varianza, S2
a) La varianza siempre es positiva:
o~ S2 < 00
Para probarlo:
Vi = 1, 2, ..., r: 00 > (Xi - xfn
i
~ 0
por 10 que dividiendo entre N, y sumando en todos los valores de la variable
tenemos:
1 r
00 > S2 = - " (x, - X)2
n
. >- 0
L..." t > .
N
;= 1
La. varianza S2 = 0 cuando Xi - X= 0 V i = 1, ..., r , 0 sea los valores de
la variable coinciden con la media aritmetica,
b) La desviaci6n cuadratica media de una variable estadfstica respecto de
una constante k, se hace minima en k = x en cuyo caso la desviaci6n cuadra­
tica media respecto a xes la varianza S2. Veamoslo: sea
f(k) = -
1
L
r
(Xi - k)2
ni
N i=l
1 r
j'(k) = N i ~ l 2(xi - k)( -l)n; = 0 => k = x
2 r
j"(k) = N i ~ l ni = 2 > 0, 1uego xes mfnimo.
Queda comprobado que: f(x) = S2.
c) Metodo abreviado de calculo de S2:
Como en el metodo abreviado de calculo de la media aritmetica vimos que:
Xi = CYi + O, => X = Cy + at,
ahora
1 r 1 r
s; = N i ~ l (Xi - X)2
ni
= N i ~ l (CYi + O, - Cy - 0t)2
ni
=
1 r
= C
2
N ; ~ 1 (y; - y)2ni = C
2
s;
100
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
uti! cuando 0, es un valor 0 dato central de la variable estadfstica X YC es
la distancia 0 separaci6n entre dos datos consecutivos de la variable,estadistica
X. Como la 8z es un momento de segundo orden respecto a la media, volvemos
a comprobat que a estes no les afecta el cambio de origen pero sf el de escala.
d) Calculo de la varianza a traves de los momentos respecto al origen:
Como ya se demostr6 en el apartado de los momentos:
z
sZ = m = (- 1)i(2)a = (2)a - (2)a x + (2)x = .x)
Z . j Z - J 0 Z 1 1 2
Z
X
Z
= a
z
- 2x
z
+ x = az ­
Z
[ sZ = az - X I
Relaci6n muy importante desde el punta de vista practice.
Ejemplo 2.32
La varianza de la variable estadfstica presentada en el ejemplo 2.15 se
puede obtener asi;
SZ == a
z
- X
Z
donde
1 z z z z z 1 51
az=-(O ·4+1 ·10+2 ·4+3 ·1+4 .1)=-51=­
W W W
y por el mismo ejemplo 2.15 la media aritmetica es:
5
x=4;
luego
z == 51 _ = 51 _ 25 = 204 125 = 79
8 20 4 20 16 80 80
La desviaci6n tipica sera:
s = -
80 '
!lo
9
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 101
El coeficiente de variaci6n de Pearson es:
8 J79186 0,7949842
i= 5/4
En la variable estadistica presentada en la distribuci6n agrupada de fre­
cuencias del ejemplo 2.16,
1
a
z
= 25 (7.000
z
. 3 + 11.000
z
. 4 + 15.000
z
. 7 + 19.000
z
. 5 + 23.000
z
. 6) =
1
= - 10
6(49.3
+ 121· 4 + 225·7 + 361· 5 + 529·6) =
25
= 4.10
4
. (147 + 484 + 1.575+ 1.805 + 3.174) =40.000· (7.185) =287.400.000;
Sabemos, por el mismo ejemplo 2.16 que la media aritmetica es:
x = 16.120;
por todo ella, la varianza resulta ser:
8
Z
= a
z
- X
Z
= 287.400.000 - 16.120
Z
=
= 287.400.000 - 259.854.400 = 27.545.600
La desviaci6n tipica es:
8 = p 5.248,3902
y el coeficiente de variaci6n de Pearson:
8
::- 0,3255825.
x
Como se ha comentado, la desviaci6n tipica, como medida de dispersi6n
absoluta, expresada en las mismas unidades que la variable estadfstica, tiene
significado si se compara con el valor de la media aritmetica, En este caso
supone aproximadamente 1/3 de la media con 10 que podemos concluir que
esta es bastante representativa de todo el conjunto de datos, ya que se puede
considerar que la dispersi6n es baja. EI coeficiente de variaci6n de Pearson
por su definici6n por cociente nos indica 10 que representa la dispersi6n (s) en
raz6n al promedio (x). Cuanto mas se aproxime a la unidadmayor dispersi6n
existira en los datos observados y peor sera la representatividad del promedio.
102
103
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
A partir de la unidad el promedio no representa bien como medida de ten­
dencia central al conjunto de datos y debe descartarse.
2.8. Medidas de asimetria y curtosis
Una distribuci6n es simetrica si y s610 si el diagrama de barras que la
representa es simetrico respecto de la recta x = X, siendo x la media aritmetica.
Es facil comprobar ademas que si una distribuci6n es simetrica, el momento
m
3
= 0, perc no al reves, es decir, de que m
3
= °no se deduce que la distri­
buci6n es simetrica.
Se han propuesto distintas medidas de asimetrfa para variables estadfsticas;
entre elias destacamos el «coeficiente de asimetrfa de Fisher»:
m
3
e. =7"
Si g1 > 0, la distribuci6n es asimetrica positiva 0 a la derecha:
ni
I •
o x
Si gl = 0, la distribuci6n puede ser simetrica 0 no; si esta es simetrica se
dara siempre gl = 0.
Si gl < 0, la distribuci6n es asimetrica negativa 0 a la izquierda, 10 mos­
tramos en la figura de la pagina siguiente.
La simetrfa en una distribuci6n implica que Me = X. Si ademas es unimo­
dal, Me = X = Mo.
Cualquier cambio lineal es una variable estadfstica y = ax + b, a > °y b
constantes, transforma distribuciones simetricas en otras simetricas (y asime­
tricas en asimetricas),
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
La curto sis 0 apuntamiento surge al comparar la forma de una variable
ni
o
x
estadfstica con respecto a la distribuci6n lIamada normal. Se mide fundamen­
talmente por el coeficiente de curtosis de Fisher:
- m4 _ 3
gz - 8
4
Si gz > 0, tiene mas apuntamiento que la distribuci6n normal, y se llamara
Ieptocurtica, (El grado de apuntamiento de la normal es tres como se indica
en la anterior expresi6n de Fisher.)
Si gz = 0, la distribuci6n tiene un apuntamiento similar a la distribuci6n
normal, y se Ilamara mesocurtica.
Si gz < 0, tiene menos apuntamiento que la distribuci6n normal, y se
llamara platicurtica.
Ejemplo 2.33
Sea la variable estadfstica asimetrica siguiente:
X I n,
°
5/9
1
2
3
1
105

I
·;r-'l
, r
i'
I'
I
CASAS-sANCHEZ, J. M. y SANTOS-PEN"AS, J. 104
Veamos que su coeficiente de asimetria es cero, por ser m
3
= O. En efecto:
x = G+ 1) =
m3 = [ (0 - ·2 + G- .3 + (
1
- =
1 1 1 1
= 6'93 [( - 4)3 ·2 + 1
3.
3 + 53] = 6'9
3
. ( - 128 + 3 + 125) =
_ 1 1
- 6'93.0 = O.
Este ejemplo comprueba que si el coeficiente de asimetria de Fisher 91 = 0,
la variable no necesariamente es simetrica. Aunque la simetria implica m
3
= 0,
y por tanto, 91 = O. Luego una condici6n necesaria, aunque no suficiente, para
que una variable estadfstica sea simetrica, es que su coeficiente de asimetria
de Fisher 91 sea igual a cero. Simetria implica 91 = 0 pero 91 = 0 no implica
simetria.
2.9. Medidas de concennoclen
En esta secci6n trataremos el fndice de concentraci6n de Gini y la curva
de Lorentz, como instrumentos validos para analizar la mayor 0 menor con­
centraci6n en una distribuci6n de rentas de los individuos que las reciben.
:lndice de concentraci6n de Gini
Consideremos la variable estadfstica X {(Xi' n;): i = 1, 2, ..., r}, donde Xi es
la renta de los n, individuos, que ordenados en sentido creciente de rentas,
ocupan los lugares NI-
1
+ 1 hasta NJ, Llamamos
U; = I, xjn
j,
(i = 1, 2, ..., r)
j=l
a la renta total percibida por los NJ primeros rentistas, supuesto el orden de
rentas
Xl X
2
... Xi ... X,.
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
Denotando
NT

Pi = J.l' 100 Y
qi =
u,
(i = 1, 2, ..., r)
donde P, = 100 y q, = 100, el fndice de concentraci6n de Gini es
'-1
L (Pi - qi)
i= 1
I G = '1
L Pi
i=l
Para obtener el fndice de Gini es conveniente construir la tabla 2.14 ya
que por un proceso sucesivo de calculo obtenemos las columnas qi y Pi que
nos definen dicho indice. La columna xin
i
da el reparto del total de
r
nos
recursos L xin
i
entre los distintos elementos de la distribuci6n dados por las
i=l
frecuencias absolutas n; Las columnas NT Y u, nos dan la evoluci6n acumulada
de recursos (u;) y de individuos que se los reparten (NJ). Por Ultimo, qi y Pi
nos representa dicha evoluci6n expresada en porcentajes.
TABLA 2.14. Elaboraci6n del tndice de Gini,
Xi ». xin
i NT
. uj = I xjn
j
U
i NT
qj = -·100
p. = -'-·too
j=l
U, • N
Xl n
l x
ini
Nt
1 ui = x
ini
u
l Nt
qi =-·100
PI =----.!·too
u,
N
X
z n
z xzn
z
Nt U
z Nt
z Uz = + x x
ini Zn2 q2 = -·too
P2
u,
N
i
Xi n,
xin
i ». NT

Uj = I xjn
j qj = -·100
NT
p. = -'-·100
l> 1
U, . N
X, n,
.s»:
N
u, = I
,
xjn
j
too
j=1
r
N
.L xin
i
i=1
100
107
CASAS-sANCHEZ, J. M. y SANTOS-PE:N"AS, J.
106
Si la concentraci6n de renta es minima, es decir, si la renta esta repartida
por igual entre los N individuos, Xi = X = cte., 10que implica: ui = xNI, yesto
implica a su vez qi = Pi' por 10 que la renta esta equidistribuida, e
I
G
= 0.
Si la concentraci6n de renta es maxima, es decir, s610 el ultimo individuo
percibe toda la renta: .
Ql=q2=···=qr-l=0,
por 10 que
I
G
= 1.
°a 1, segun pase de la equidistribuci6n hasta el caso opuesto de concentraci6n
El indice de concentraci6n de Gini puede tomar gradualmente valores de
maxima de la renta en un solo individuo. .
Curva de Lorentz
Es la grafica 2.19 de los puntos (Pi' qJ, i = 1, 2, ..., r en e1 plano cartesiano.
La curva parte de (0,0) y llega a (100, 100). El caso de equidistribuci6n de la
renta corresponde a la diagonal que une (0, 0) con (100, 100), y e1 caso de
qi%
100-+ (100, 100)
A
(100, 0) .Pi%
(0,0)
GRAFIco 2.19. Curva de Lorentz.
DISTRlBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
concentraci6n maxima de la renta corresponde a la curva que partiendo de
(0, 0) llega a (100, 0) mediante un segmento, y de (100, 0) llega a (100, 100)
mediante otro segmento,
Conviene anadir que e1 fndice de Gini es aproximadamente e1 area som­
breada (entre la diagonal y la curva de Lorentz) dividida por e1 area del
triangulo de vertices (0, 0), (100, 0) y (100, 100).
Ejemplo 2.34
En una empresa existen cuatro categorfas profesionales y cada una tiene .
unos niveles de ingresos mensuales diferentes. La distribuci6n de frecuencias
que expresa los niveles de ingresos y el numero de personas en cada categorfa
es la siguiente:
Xi (nive1es de ingresos
expresados en euros) n,{ N.O de personas)
1.000 25
2.000 10
3.000 4
4.000 1
Obtener el indice de Gini y la curva de Lorentz.
Soluci6n:
Vamos a construir las columnas que se necesitan para resolver el problema:
N! u·
NT p. = ---'-. 100 u, q . = ~ · 1 0 0
I
I N
• Ur
25 62,5 25.000 40,98
35 87,5 45.000 73,77
39 97,5 57.000 93,44
40 100,00 61.000 100,00
El Indice de Gini sera:
(62,5 - 40,98) + (87,5 - 73,77) + (97,5 - 93,44)
I
G
= 62,5 + 87,5 + 97,5 = 0,159
I
108
. - ~ , .
'1"""
CASAS-sANCHEZ, 1. M. y SANTOS-PEJ'lAS, 1.
que al tomar un valor pr6ximo a cero se puede concluir que existe una buena
equidistribuci6n en los ingresos.
La curva de Lorentz sera:
qi
93,44-1-------------------------------------::;
73,77 -1-----------------------------:,
40,98+--------------­...
o 62,5 87,597,5 Pi
Ejercicios
1. Para asistir a un partido de futbol hay dos tipos de entradas: adultos a
40 euros y nifios a 5 euros. Sabiendo que el precio medio result6 de 12 euros.
iCual fue la proporci6n de asistentes adultos?
Soluci6n:
La variable estadfstica esta compuesta por dos datos: Xl = 40 euros y
x
2
= 5 euros., con frecuencias relativas respectivamente de: fl y f2 = 1 - fl'
La media aritmetica es:
1n1
~
2n2
12 = x x = XJ'l + X,j2 = 4.0fl + 5(1 - fl)'
es decir:
12 = 40fl + 5(1 - fl) = 35fl + 5.
Luego:
12 - 5 = 2- = 0,2
'<:«: 35
es la proporci6n de asistentes adultos. (Por tanto f
2
= 1 - fl = 0,8 fue la
proporci6n de nifios espectadores entre el total.)
2. Una empresa tiene cuatro areas de producci6n. Cada area produce un
mimero distinto de bienes 0 servicios, que llamamos productos. Los ingresos
totales y el rendimiento por producto de cada area son:
Area I
Ingresos totales
(euros.)
Rendimiento/producto
(euros.jproducto)
1
2
3
4
100.000
720.000
500.000
360.000
500
1.000
25.000
90.000
110
~ ' I ~
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
DISTRIBUCIONES DE FRBCUENCIAS UNIDIMENSIONALES
,111
Calcular el rendimiento medio por producto para el total de areas de la
Solucion:
empresa.
mimero productos)
Solucion: Los ritmos medios de producci6n i't =. Yde control
(
tiempo t
1
El rendimiento medio por producto sera:
x= L
4
X
i N
n
i
, siendo n, el numero de productos del area i( = 1, 2, 3, 6 4) YXi
i= 1
el nnmero de ptas. por producto del area i.
donde:
100.000
n
1
= 500 = 200 productos, Y Xl = 500 euros/producto
720.000
n
z
1.000 = 720 productos, Y X
z
= 1.000 euros/producto
500.000
n3 = 25.000 = 20 productos, Y x
3
= 25.000 euros.zproducto
360.000
n4 = 90.000 = 4 productos, Y x4 = 90.000 euros.zproducto
4
N = L n, = 200 + 720 + 20 + 4 = 944 productos en total de todas
i= 1
las areas.
Luego
41
x = N
1
i ~ l Xi n, = 944 (100.000 + 720.000 + 500.000 + 360.000) =
1
= 944 1.680.000 ~ 1.779,66 euros/producto para el total de areas
de la empresa.
3. Un sistema industrial realiza dos tipos de transformaciones: «producci6n»
Y «control de calidad». El ritmo 0 velocidad media de producci6n es de 30
bienes/hora, El ritmo 0 velocidad media de control de calidad de la producci6n
es de 60 productos/hora, Calcular la velocidad 0 ritmo medio de ambas
transformaciones, supuesto que el control de calidad afecta a toda la produc­
ci6n.
numero productos)
de calidad l'z =. son:
(
tiempo t
z
1'1 =E =30 (= t1 = ! = ~ )
t1 r. 30
Y
1'2 =E = 60 (= t
z
=! = ~ )
t z r
z
60
El ritmo medio de tranformaci6n es:
- mimero transformaciones en total p + P 2p 2
r= =__= = _
tiempo en reaIizarlas t
1
+ t P P 1 1
z
-+- -+­
1'1 1'
z
1'1 1'
z
2 2 120
1 -1- = 2 + 1 = -3- = 40 transformaciones/hora.
-+- -­
30 60 60
Que es la media arm6nica de los ritmos medios de producci6n Ycontrol
de calidad.
4. En cierta comunidad se han censado los establecimientos hoteleros segnn
el mimero de empleados, y los datos se han presentado en una tabla agrupada
de frecuencias:
N.°de empleados
N.O de hoteles
Oa5
125
5 a 15
60
15 a 50
:1, 13
50 a 200 I
2
'I
i
200
ii'
!I
i'l'
II!
Iii'
lill
113
i1!l''I\''
112 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
Se pide:
a) El nnmero de hoteles con mas de 5 empleados de esa comunidad.
b) El numero de hoteles con mas de 5, y menos 0 igual de 15 empleados.
c) Representar graficamente la variable mimero de empleados.
d) Calcular la mediana del mimero de empleados y explicar en que hipo­
tesis nos basamos para realizar dicho calculo.
Soluci6n:
a) El numero de hoteles con mas de 5 empleados es el total de hoteles
(200) menos el numero de hoteles con 5 0 menos de 5 empleados (125):
Es decir: 200 - 125 = 75 hoteles tienen mas de 5 empleados
b) Nos piden la frecuencia absoluta del intervalo (5, 15] de «mimero de
empleados». En la tabla agrupada de frecuencias, se asigna a este intervalo la
frecuencia absoluta 60 hoteles.
c) Mediante el histograma de frecuencias:
N.O de hoteles
Amplitud Int.O
1;5 =25 125
6
13/35
2 2/150
150
50 200
N." de empleados '
d) La frecuencia total es N = 200. Luego debemos calcular la posici6n de
N/2 = 200/2 = 100. Pero 100 verifica:
0:::;100<N
1=125,
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
luego la mediana, Me se encuentra en el primer intervalo (0, 5], y bajo la
hip6tesis de que en este intervalo la distribucion del «nnmero de empleados
por hotel», es uniforme:
100 - 0
Me = 0 + 125 ·5 = 4 empleados
5. Una empresa distribuidora de bienes de consumo conoce el numero de
clientes que demandan estos bienes, segun su cantidad distribuida
Distribuci6n
Clientes
0-1.000
8
1.000-2.000
15
2.000-4.000
45
4.000-6.000
30
6.000-8.000
2
100
Calcular:
a) El porcentaje de clientes que demandan mas de 1.000 bienes de con­
sumo, y 6.000 0 menos.
b) El mimero de bienes mas demandado.
Soluci6n:
a) De 1.000 a 2.000 hay 15 clientes
De 2.000 a 4.000 hay 45 clientes
De 4.000 a 6.000 hay 30 clientes
De 1.000 a 6.000 hay 90 clientes
Como en total hay 100 clientes, 90 clientes representan el 90 % de los
clientes. Si en total hubiera N clientes, se obtendrfa por una regla de tres el
porcentaje:
90 - N} x _ 9.000 0
x-100 -N%
114
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
b) La moda, bajo el supuesto contemplado en la teoria, se calcula asf
0,015 .
M
o
= 2.000 + 001 01. 2.000 = 3.000 bienes,
, 5 + 0, 5
6. Dada la siguiente distribuci6n que refleja la variable estadfstica «produc­
tividad» en cierto sector econ6mico:
Intervalos Frecuencias
0-10 32
10-30 8
30-50 10
Calcular la media, mediana y moda.
Solucion:
1 720
Media' a=-(5·32+20·8+40·10)=-'-=144
. 50 50 '
25 - 0 125
Mediana: M = 0 + --·10 =- ~ 78125
• e 32 16'
8/20
Moda:
M; = 0 + 0 + 8/20 ·10 = 10; se puede calcular segun se ve en teorfa,
pues de existir, la moda se situana en el intervalo 0-10, pero no existe
frecuencia no nula para ningun intervalo inferior.
7. Demostrar que si los datos Xl y X
z
son positivos, entonces
H ~ G ~ x ,
siendo H, G y x, las medias arm6nica, geometrica y aritmetica respectivamente,
para dichos datos.
Solucion
N 2 2 2x
lxz
=-­
H= =
n
l
n
z
1 1 Xl + X
z
Xl + X
z
-+- -+-
Xl X
z
Xl X
z
xlX
Z
G = Jxlxz x = 2
1
(Xl + xz)
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 115
Ahora:
2x lxZ r:": ~
H ~ G ¢> ~ Y xlX
Z
¢> 2y xlX
Z
~ Xl + X
z
¢>
Xl + X
z
¢> 4x
lxZ
~ xi + 2x
lxZ
+ x ~ ¢>
¢> xi - 2x
lxZ
+ x ~ = (Xl - Xz)Z ;;:, 0 cierto.
Tambien:
1
G ~ x ¢> JxlX
Z
~ 2(x
l
+ x
z)
¢>
. 1 z z
¢> xlX
Z
~ 4(x
l
+ 2x
l
Xz + x
z)
¢> 4xlXz ~ xi + 2x
lxZ
+ X ~ ¢>
¢> xi - 2x
lxZ
+ X ~ = (Xl - Xz)Z ;;:, 0 cierto.
8. Los pesos en gramos de cierto producto agricola, han sido anotados, asf
como la frecuencia de presentaci6n en un cierto lote del producto.
Pesos: 70 74 78 82 86 90 94 98 102
Frecuencia: 4 9 16 30 44 36 20 12 6
Calcular la media y la desviaci6n tfpica de los pesos, con y sin cambio de
variable.
Solucion:
Media:
1
x = -(70·4 + 74· 9 + 78 ·16 + 82·30 + 86·44 + 90·36 + 94·20 +
177
1
+ 98· 12 + 102·6) = 177(280 + 666 + 1.248 + 2.460 + 3.784 +
1
+ 3.240 + 1.880 + 1.176 + 612) = 17715346 ~ 86,700565
Con cambio de origen y escala:
Sea O, = 86 y C=4 X =4y + 86
' r : : . ~
CASAS-sANCHEZ, J. M. y SANTOS.PE:NAS, 1.
116
1
Y= -« _4)·4 + (- 3)·9 + (- 2)·16 + (-1)·30 + 0·44 + 1· 36 + 2·20 +
177 .
1
+ 3 . 12 + 4·6) = 177(- 16 - 27 - 32 - 30 + 36 + 40 + 36 + 24) =
1
= -. 31::= 01751412
177 '
Entonces
31
X = 4y- + 86 = 4·- + 86::= 86700565
177 '
Desviaci6n npica:
rs r:": 1339364 (15346)
8 = y 8 = ya
2
- a
2
= I - -- 2 ~ 70739122
"\ 177 177 -,
donde
2.20+
2.44 2.36
1
a = 177(702.4+ 74
2.9
+ 78
2.16
+ 82
2.30+
86 + 90 + 94
2
1
+ 982.12 + 1022.6) = 177(19.600 + 49.284 + 97.344 + 201.720 + 325.424 +
1.339.364
+ 291.600 + 176.720 + 115.248 + 62.424) = 177 ::= 7567,0282
Con cambio de origen y escala:
x = 4y + 86
C=4
Sea Of = 86 y
2.44 2.36
a = 177«- 4)2.4 + (- W.9 + (- 2)2 . 16 + (-1)2.30 + 0 + 1 +
1
. .
2(y)
1
+ 22.20 + 32.12 + 42.6) = 177(64 + 81 + 64 + 30 + 36 + 80 + 108 +
1
+ 96) = 177559::= 3,1581921
DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 117
_ G _ J -2 ;559 (31)2
Sy - ySy - a 2(y) - Y =, 177 - 177 ::= 1,7684789
Entonces:
S = C· Sy = 4sy ~ 7,0739156
La variaci6n en rnillonesimas, entre las dos formas de calcular la desviaci6n
tipica de la variable x, se debe a la correspondiente aproximaci6n de decimales.
9. En un determinado pais se sabe que la renta media es de 2.000.000 de
'u.m.zafio y su varianza es 90.000 (u.m.)2 en ese afio. Cinco alios despties, la
renta media se elev6 a 2.600.000 u.m.jafio, y su varianza result6 ser 125.000
(u.m.j", Determinar:
a) iEn que afio, inicial 6 5 alios despues, hubo mayor dispersi6n ab­
soluta?
b) l,En que afio hubo mayor dispersi6n relativa?
Solucion:
a)' La dispersi6n absoluta se mide por la varianza:
90.000 = s ~ < s; = 125.000 (hubo mayor dispersi6n absoluta 5 afios despues).
b) La dispersi6n relativa se mide usualmente por el coeficiente de varia­
cion de Pearson:
J9MOO So 8
1
J125.000
0,00015 = 2.000.000 = X > Xl = 2.600.000 ~ 0,00013598207
o
(hubo mayor dispersi6n relativa el afio inicial)
Aunque la dispersi6n absoluta ha aumentado tras los cinco anos, y por
ello cabria suponer que las desigualdades en la renta han aumentado, con la
dispersi6n relativa se constata una disminuci6n en las desigualdades econ6mi­
cas de la renta percibidas, por 10 que podriamos conc1uir que se ha avanzado
en la disminuci6n relativa de las «desigualdades sociales» 0 «no redistribuci6n
de la renta», en cuanto ala renta percibida en relaci6n a las medias de la renta
de cada afio, segtin la informaci6n del enunciado del problema.
119
118 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
10. Una variable estadfstica, que mide el saldo de una cuenta corriente a
fin de afio, presenta los siguientes datos en tres afios consecutivos:
10.000 euros
80.000 euros
- 10.000 euros
Obtener la media geometrica y comentar el resultado.
Soluci6n:
g = V10.10
3
• 80.10
3
. ( -10).10
3
= 10
3
V-8.000 = -20.10
3
=
= -20.000 euros < mfn{10.000; 80.000; -10.000}
Para estos datos, la media geometrica es una mala medida de posici6n pues
se sinia muy a la izquierda de, 0 inferior a, cualquiera de los tres datos
disponibles y no entre ellos, como serfa deseable en una medidade posici6n.
11. Los datos de una variable estadfstica recogen las tarifas, de una com­
pafifa de transportes y distribuci6n, cobradas en un penodo temporal, y son
recogidas en tres tipos de albaranes segtin la cuantfa econ6mica de la mer­
cancfa. Los tres tipos de albaranes contienen todas las facturas cobradas a los
clientes y cada factura, segiin su cuantfase recoge en un solo tipo de albaran.
Si el numero de facturas, en ese perfodo, han sido de N 1 = 700, N2 = 500 y
N3 = 25, para cada tipo de albaran, y en media aritmetica el ingreso ha sido
de Xl = 3.500 euros; x
2
= 15.000 euros Y x
3
= 225.000 euros para cada tipo
de albaran. Se pide: hallar el ingreso medio por factura del total de cobros.
Soluci6n:
Llamando N = N
l
+ N
2
+ N
3
= 700 + 500 + 25 = 1.225,
al total de facturas 0 albaranes, la media aritmetica pedida es:
1 3 1
X = - L N, Xi = --(700·3.500 + 500· 15.000 + 25 . 2 ~ 5 . 0 0 0 ) =
N i=l 1.225
1
= -1-(2.450.000 + 7.500.000 + 5.625.000) =
.225
1
= 1.22515.575.000 ~ 12.714,286 euros
DISTRlBUCIONES DE FRECUENCIAS UNIDIMENSIONALES
pues
_ 1 N·
x
i
= - f
i j (i = 1, 2, 0 3)
Nii=lX
denotando por xii la factura j-esima cobrada en el albaran tipo i;
i = 1, 2 0 3 y
j = 1, 2, ..., N;
12. Una empresa vende dos productos X e Y. En su entorno, la distribuci6n
de ventas de estos productos tiene las siguientes frecuencias (numero de em­
presas con tal nivel de ventas):
Ventas del
producto X
Frecuencia
Ventas del
producto Y
Frecuencia
0-40
40-100
100-300
25
54
21

0-100
100-500
500-2.000
52
63
85
100
-
200
Si la empresa vende 72 productos X, y 700 productos Y, len que producto
X 6 Y tiene mayor penetraci6n relativa entre las empresas del mercado en su
entorno?
Soluci6n:
100px - 25 1 [ 54J
72 = 40 + 54 ·60 => Px = 100 25 + (72 - 40) 60 = 0,538
200py - 115
700 = 500 + 85 . 1.500 =>
1 [ 85 ] _
=> Pr = 200 115 + (700 - 500)1.500 = 0,6316
120
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
De este modo hemos calculado Px Y Pr que son las proporciones de
empresas del entorno que venden menos del producto X, e Y; pues 72 es un
cuantil Q de la variable estadfstica «Ventas de X», y 700 es otro cuantil Qpr
px
de la variable «Ventas de Y».
En X la empresa supera en ventas al 53,8 % de las empresas competidoras.
En el producto Y, la empresa supera en ventas al 63,16% de las empresas
de la competencia.
Luego tiene mayor penetraci6n en el sector del producto Y, que en el sector
de vendedores del producto X.
Capitulo 3
Distribuciones de frecuencias
bidimensionales
3.1. Introducci6n
A 10 largo del Capftulo 2 hemos estudiado con detenimiento el comporta­
miento de una sola caracterfstica 0 variable estadfstica que hemos medido u
observado en un conjunto de elementos 0 individuos que formaban una po­
blaci6n estadfstica 0 una muestra representativa de la misma. Pero podemos
estudiar para cada elemento de la poblaci6n dos 0 mas caracteristicas de tipo
cualitativo (que como sabemos vienen dadas en escalas nominales u ordinales)
o cuantitativo (medidas en escalas de intervalo 0 de raz6n). Como sabemos
estas variables 0 caracterfsticas pueden ser de naturaleza continua (toma infi­
nitos valores no numerables) 0 discreta (toma un numero finito 0 infinito
numerable de valores).
Lo habitual es que se estudien al mismo tiempo varias caracterfsticas de
los elementos de una poblaci6n estadfstica. Consideremos, por ejemplo, que
nuestro objetivo es estudiar las causas que originan los distintos niveles de los
gastos de los individuos varones mayores de 18 afios de la Comunidad de
Madrid. Ademas de la mencionada variable, que normalmente se medira en
una muestra representativa de la poblaci6n estadfstica (individuos varones
mayores de 18 afios en Ia provincia de Madrid), nos interesara medir otras
caracterfsticas que pensamos que estan relacionadas con ella: ingresos del
individuo (variable cuantitativa continua), estado civil (variable cualitativa),
numero de habitantes del municipio donde vive (variable cuantitativa discreta),
forma de locomoci6n que emplea con mas frecuencia (variable cualitativa),
aficiones que tiene (variable cualitativa), edad (variable cuantitativa continua
o discreta si se expresa en afios enteros).
122
123 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
Todas estas caracterfsticas influiran en distinto grado en los niveles de
gastos y nos podran explicar su comportamiento. En general" a mayores
ingresos existira un mayor gasto, los tramos de edad mas bajos gastaran mas
ya que tendran mas movilidad y mayores aficiones Iudicas que comportan un
mayor dispendio. Como es 16gico podra estudiarse separadamente cada carac­
terfstica construyendo su distribuci6n unidimensional y calculando sus medi­
das de posici6n y dispersi6n, como se ha indicado en el Capitulo 2; pero 10
normal e ~ presentar conjuntamente mas de una caracterfstica con el objetivo
de estudiar sus posibles relaciones y responder a cuestiones como las siguien­
tes: l,en que medida el nivel de ingresos determina el nivel de gastos?, l,existe
relaci6n entre el nivel de gastos y la edad?, l,Y el estado civil?, l,y el tamafio
del municipio?, etc. En los apartados que siguen se estudiaran cuestiones tales
como las distintas tabulaciones de las variables estadfsticas bidimensionales y
los nuevos conceptos que generan (distribuciones de frecuencias marginales
y condicionadas), el concepto de independencia estadfstica, y la regresi6n y
correlaci6n entre variables;
3.2. Tabulacion de variables estadisticas
bidimensionales: distribuciones
bidimensionales de frecuencias
Vamos a considerar dos tipos de tabulaciones: para variables cuantitati­
vas y para variables cualitativas. En el primer caso el resultado de la tabu­
laci6n recibe el nombre de tabla de correlacicn y en el segundo tabla de
contingencia.
3.2.1. Tablas de correlaci6n
Partimos de una poblaci6n estadistica en la que se estudian simultanea­
mente dos variables 0 caracterfsticas cuantitativas que nos definen una varia­
ble estadistica bidimensional.
Llamando X e Ya las variables consideradas, podemos construir la llama­
da tabla de correlacion, Los datos en que se presenta la variable X, los
denotamos Xi (i = 1, 2, , r). Los datos en que se presenta la variable Y, los
denotamos Yj U= 1, 2, , s). Sea n
i j
la frecuencia absoluta con que se presenta
el par simultaneo (Xi' Yj)' La distribuci6n conjunta 0 bidimensional sera la de la
tabla 3.1. .
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
TABLA 3.1. Tabla de correlaci6n
~
Y! Yz
...
Yj
...
Y. ni.
x! n
ll
n
12
..,
n!j
...
n
ls nl.
x
2
n
21
n
22
...
n
2j
...
n
2s n2.
... ... ... ... .., ... .., ...
Xi nil n
i2
...
n
ij
...
"is

..
... ... ... ... ... ... ... ...
x, nr!
n
r2
...
n
rj
...
n.. nr.
n.j n.! n.2
...
n.j
...
n.s N
r •
Asi N = L L n
i j
es la frecuencia absoluta total 0 mimero de unidades
i=1 j=1
en la poblaci6n. Tambien: n.
j
= L
r
n
i j
Y n
i
. = L
s
nij
i=1 j=1
Con 10 que se construyen la ultima fila y la ultima columna de la tabla de
correlaci6n que se denominan frecuencias marginales.
Considerando estas expresiones es evidente que:
r s r s
"L. n,r. = " L. n , .J = " L. ." L. n.. IJ = N
i=1 j=1 i=1 j=1
Las tablas de correlaci6n del tipo de la 3.1 se construyen cuando el numero
de observaciones es elevado y existe tambien un elevado numero de pares de
valores (Xi' Yj) en los que i = j 6 i '# j. Tambien puede darse el caso que sea
conveniente, para hacer la distribuci6n mas manejable, agrupar los valores de
las variables en intervalos de clases con 10 que los respectivos (Xi' Yj) serfan
las correspondientes marcas de clase,
Ejemplo 3.1
Se ha efectuado una encuesta a 100 familias preguntandoles sus ingresos
anuales (X) y el numero de miembros (Y) que los aportan. Los ingresos se han
expresado en 'miles de euros y se han agrupado en cuatro intervalos de clases
con 10 que Xi son las respectivas marcas de clases. Los resultados de la
tabulaci6n han sido los de la tabla 3.2
En la tabla 3.2 se observa que de las 100 farnilias s6lo hay, por ejemplo,
15 en las que el dinero 10 aparta una sola persona y sus ingresos estan com­
prendidos entre 10.000 y 15.000 euros; 30 en las que los ingresos los aportan
0"
124
CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 125
TABLA 3.2. Tabla de correlaci6n de los ingresosjamiliares Y el numero de miembros que
Tambien se verifica que:
los aportan
los aportan (Yj)
~
Ingresos en miles
de euros
L
i
-
1
- L,
10-15
15-20
20-30
30-50
n.j
X
12,5
17,5
25,0
40,0
1
15
10
12
1
38
2
2
20
30
2
54
3
1
2
4
1
8
r s r s
I h. = I t, = I I hj = 1
i=1 j=l i=lj=1
ni.
Ejemplo 3.2
A partir de la Tabla 3.2 obtener la tabla de correlaci6n de frecuencias
18
relativas.
32
46
Soluci6n:
4
Dividiendo todas las frecuencias absolutas por el total de observaciones la
100.
tabla sera la siguiente:
dos personas y estan comprendidos entre 20.000y 30.000euros y asf sucesiva­ TABLA 3.3. Tabla de correlacion de frecuencias relativas
mente se interpretan las frecuencias absolutas conjuntas nij . • Las marginalesn;
y n. nos sefialan el numero de veces que se repiten los valores de Xi e Yj por
j
separado sin que se establezca entre elias ninguna relaci6n conjunta. Asf de
las 100 familias 38 tienen un solo miembro que ingresa dinero, 54 dos miem­
bros y 8 tres. Al observar los niveles de ingresos representados por Xi vemos
que 18 estan en el primero, 32 en el segundo, 46 en el tercero y s6lo 4 familias
pertenecen al cuarto nivel de mayores ingresos.
Tambien se puede construir la tabla de correlaci6n de frecuencias relativas
sin mas que dividir toda frecuencia absoluta por el nnmero total de observa­
ciones N:
~
1 2 3
h.
12,5
17,5
25,0
40,0
0,15
0,10
0,12
0,01
0,02
0,20
0,30
0,02
0,01
0,02
0,04
0,01
0,18
0,32
0,46
0,04
fj 0,38 0,54 0,08
Cuanto existen pocas observaciones y las frecuencias son unitarias no tiene
hj =
n
N
i j
sentido construir una tabla de correlaci6n ya que muchas de las celdillas de
las frecuencias absolutas serfan cero. En este caso, la distribuci6n bidimensio­
Es inmediato comprobar que la suma de todas las frecuencias relativas es
nal es simplemente dos columnas que se expresan de la forma siguiente:
la unidad:
r s r S n.. 1 r s N
Xi Yi
I I hj=" I I --!l=_ I I nij=-=1
- -
i=1 j=1 i=1 j=l N N i=1 j=l N
Xl Yl
X
z Yz Las frecuencias re1ativas marginales seran:
s
Xi Yi
"
L.
n..
lJ S S
_
n
i. _ j= 1 _" n
i j
_ "
h. - N - -N-.L. N - .L.hj
J=l J=l
X
r Yr
r
Asi, por ejernplo, el valor de la producci6n (yJ expresado en millones de
" n..
L.,.zJ r r euros y el mimero de trabajadores (xJ de cinco empresas del sector de la .
n
_....J._ i = l _"n
i j
_ "
construcci6n se tabulara de la forma siguiente: L, - N - -N-.L. N - .L. hj
1.=1 1-::::1
1
--
126
127
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Yi Xi
1.500 350
2.500 500
5.000 800
10.000 1.500
15.000 1.700
Aunque las frecuencias conjuntas no sean unitarias, si el numero de pares
de valores de la variable bidimensional es reducido, tarnpoco es necesario
construir una tabla decorrelaci6n ya que es suficiente una tabulaci6n a tres
columnas de la forma siguiente:
Xi
-
Yi
n
i
Xl
X
z
Yl
Yz
n
l
n
Z
Xi Yi
X
r
n
Yr r
N
Asi, por ejemplo, la siguiente tabla es una tabulaci6n de 500 empresas en
las que se ha estudiado su nivel de producci6n en tres intervalos expresados
en millones de euros, y su numero de trabajadores:
Producci6n (yJ N.O de trabajadores (Xi) n
i
[100-200] [20-50] 300
(200-400] (50-80] 150
(400-1.000] (80-200] 50
• Distribuciones marginales de frecuencias
Definicion 3.1. Distribuciones marginales de frecuencias.
Dada una distribuci6n bidimensional de las variables (X, Y), llama­
mos distribuciones marginales de dichas variables a los conjuntos:
{(Xi' n;,): i = 1, 2, , r}, distribucion marginal de X
{(yj' n): j = 1, 2, , s}, distribucion marginal de Y
Luego las marginales de una distribuci6n bidimensional es el estudio
unidimensional de cada componente con independencia del otro.
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Expresadas en forma de columnas las distribuciones marginales de frecuen­
cias de la Tabla 3.1 sedan:
Xi
-
»;
--
Yj n·
.J
Xl
X
z
n1.
nz .
Yl
Yz
n.l
n.
z
Xi ni.
~ j

;J
X
r »;
Y. n.s
De estas distribuciones marginales, como en esencia son distribuciones
unidimensionales ya que expresan el estudio de cada variable con independen­
cia de la otra, pueden obtenerse todas las medidas de posici6n, dispersi6n, etc.
que se han estudiado en el Capitulo 2 de las variables unidimensionales
(medias marginales, varianzas marginales, etc.).
Ejemplo 3.3
De la tabla de correlaci6n 3.2 obtener las distribuciones de frecuencias
marginales, la moda de Y y la media aritmetica de X.
Soluci6n:
a) Distribuciones marginales de frecuencias:
Xi n·
-
-
r. Yj n·
.J
12,5 18
1 38
17,5
32
2
25,0 46
54
40,0 4
3
8
b)
Moda de Y: M; = 2.
c)
Media aritrnetica de X:
_ 1 r
X=- L x.n, =
N
i= 1
".
1
= 100 [12,5·18 + 17,5·32 + 25,0·46 + 40,0·4] = 20.950 euros
128
129
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
Dada una tabla de correlaci6n bidimensional siempre se pueden obtener
sus dos distribuciones marginales con la simple suma por filas y columnas de
sus frecuencias conjuntas. Pero la inversa no es siempre cierta; 0 sea, dadas
las distribuciones marginales no siempre puede elaborarse de modo tinico la
distribuci6n conjunta (X, Y) = {(Xi' Yj; n
ij):
i = 1, 2, ..., r; j = 1, 2, ..., s}.
Veamoslo con un ejemplo:
Si
n1. = 6} n.
l
= 6}
n
2
. = 9 y n.
2
= 15
n
3
. = 15 n.
3
= 9
son las frecuencias marginales de la variable estadfstica bidimensional
(X, Y) = {(Xi' Yj; n
ij)
: i,j = 1,2, 3}, esta no esta determinada; para ella podemos
proponer dos posibles variables bidimensionales distintas con las mismas dis­
tribuciones marginales:
~
Xl
x
2
x
3

.J
b)
.:
a)
Y3 ni·
0 6
1 9
8 15
9 30
Yl Y2 Y3 Yt Y2
0 6 0
2 6
0 6 Xl
3 3 3
4 3
x
2
3 6 6 x
3
6 15 6 15 9 n·
.J

I.
6
9
15
30
Esto comprueba que dadas las distribuciones marginales, no siempre se
puede reconstruir la variable estadfstica bidimensional conjunta de modo unico.
• Distribuciones condicionadas de frecuencias
Definicion 3.2. Distribuciones condicionadas de frecuencias.
Dada una variable estadfstica bidimensional (X, Y), llamamos varia­
ble X condicionada a que Y = Yj' Ydenotaremos (XIY = Y) a la variable
estadfstica que toma los valores Xi con frecuencia absoluta nil:
(X IY = Y) = {(Xi' nij) : i = 1, 2, ..., r} para cualquier j = 1, 2, ..., s.
La frecuencia total de (X IY = Y) es n.j = L
r
nij·
i= 1
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Analogamente se define la variable estadfstica Y condicionada a que
X = Xi' denotandola
(YIX = Xi) = {(yj' ni) : j = 1, 2, ..., s} para cualquier i = 1, 2, ..., r
La frecuencia total de (YIX = xJ es n
i
. = L
s
n
ij
.
j=l
Las frecuencias relativas condicionadas de las variables (X IY = Yj) e
(YI X = xJ seran respectivamente:
nij
I' n··
hfj = - y
Jjti =....!l.

.J ni.
Puede observarse que pueden definirse tantas distribuciones de frecuencias
condicionadas como valores tienen las variables X e Y ya que cada una queda
determinada por la fila 0 la columna del correspondiente valor que condiciona.
Las distribuciones condicionadas tambien son unidimensionales y por tanto
pueden obtenerse todas las medidas de posici6n y dispersi6n de las mismas.
Ejemplo 3.4
De la tabla de correlaci6n 3.2 obtener: a) La distribuci6n de Y condicio­
nada a que X = 175. b) Obtener la moda, media aritrnetica, la desviaci6n
tipica, y el coeficiente de variaci6n de dicha distribuci6n.
Solucion:
a) El valor que condiciona X = 175 nos define la segunda fila de frecuen­
cias absolutas conjuntas nij que son las que formaran la distribuci6n junto con
los valores de la variable Y. Luego la distribuci6n pedida es una unidimensio­
nal formada por las siguientes columnas:
Y= YjlX = x
2
= 175
n
2j
1 10
2
20
3
2
n
2
. = 32
130 CASAS,sANCHEZ, J. M. y SANTOS-PENAS, J.
b) La distribuci6n obtenida anteriormente se manipula como una unidi­
mensional para obtener las distintas medidas de posici6n y dispersion:
Mo(Y IX = 175) = 2
Lo que nos indica que 10 mas frecuente son dos miembros por familia los
que aportan ingresos dentro del segundo intervalo 15-20.
- 1 56
r, I 175 = 32(1· 10 + 2·20 + 3·2) =32 = 1,75
Son 2 miembros por familia los que aportan ingresos dentro del inter­
valo comprendido entre 15.000 y 20.000 euros. Recordemos que cuando la
variable es de tipo discreto, como en este caso (Y son individuos) no tienen
sentido los decimales dando el resultado por exceso 0 defecto en mimeros
enteros.
I 175 = [(1 - 1,75)2·10 + (2 - 1,75)2·20 + (3 - 1,75)2·2] =
1
= 32 [5,625 + 1,25 + 3.125] = 0,3125
0,56
El coeficiente de variaci6n de Pearson sera:
0,56
-=--,=--=....:...:: - 0,32
1,75
Este coeficiente nos indica, expresado en tantos por 100, que la desviaci6n
tipica supone un 32 % de la media aritmetica con 10 que podemos admitirla
como promedio que nos representa al conjunto de la distribuci6n. Hasta un
50 % de participaci6n de la dispersi6n en el promedio se considera como
aceptable la representatividad. Algunos autores son mas estrictos y no aceptan
promedios en los que el coeficiente de variaci6n sea superior al 10 %.
• Momentos en las distribuciones bidimensionales
Igual que en las unidimensionales los momentos son medidas que reducen
los datos de una variable estadistica, que en este caso sera bidimensional,
permitiendo tener una idea general de la distribuci6n sin tener que enumerar
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
131
todos los pares de valores (Xi' Y) con sus frecuencias absolutas n
ij.
Podemos
distinguir dos tipos principales de momentos: con relaci6n al origen 0 con
respecto a las medias.
a) M omentos respecto al origen
LIamamos momento de orden h, k respecto al origen de la distribuci6n
conjunta (X, Y) al valor:
h knij
ahk = L, L, Xi Yj N (h, kEN)
1 1
Algunos casos de este tipo de momentos con relieve son:
r n.
a10 = L Xi ;; (media marginal de X)

S n.
a0 1 =
"
L, Yj N
.J
(media marginal de Y)
i> 1 .
S n.
a
2 0 " 2--'.!. y
=
L
r
xf;;
n.
a0 2 = L, Yj N

1
r S nij
all = L .L ».v, N (momento producto)
1 1
b) Momentos respecto a las medias
El momenta de orden h, k respecto a las medias de la variable estadistica
bidimensional (X, Y) es:
r S n..
mhk = L L (Xi - alO)h (Yj - a
0 1)k
;.;
(h, kEN)
I i» I
Como ejemplo, m10 = mOl = 0. El momento m
20
es la varianza de X, S2(X),
Ym0 2 = S2(y). Es directo comprobar que m
2 0
= a - aio y m = a -
2 0 0 2 0 2
El momento mIl recibe el nombre de covarianza de las variables X e Y, y
Ie denotamos Cov (X, Y) 6 SXY'
r S n..
mll = Cov(X, Y) = L L(Xi - alO)(Yj - a
0 1
) -!l. =
N
r S n.. S n . r n.
-"" IJ " .J " I. + _
- i:-l j:-I XiYj N - a
lO
j:-l Yj N - a0 1 i:-l Xi N a 10a0 1 - all - a10a0 1
'
132
133
I"
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
Ejemplo 3.5
Disponemos de la siguiente tabla de correlaci6n que recoge la variable
estadistica bidimensional (X, Y) donde X es e1 numero de transferencias reci­
bidas por una sucursal bancaria al dfa, e Y el numero de transferencias
enviadas desde la misma sucursal el mismo dfa. Los datos se han anotado
durante un total de 18 dfas habiles,
~
1 2 3
2 1 4 1 6
3 2 4 2 8
4 1 2 1 4
4 10 4 18
Obtener algunos momentos de relieve.
Soluci6n:
1 1 26
alO = -(2·6 + 3·8 + 4·4) =-·52 =­
18 18 9
1 1
a
0 1
=-(1.4+2.10+3·4)=-·36=2
18 18
1
all =- (2. 1. 1 + 2 . 2 . 4 + 2 . 3 . 1 + 3 . 1. 2 + 3 . 2 . 4 + 3 . 3 . 2 + 4· 1. 1 +
18
1 104 52
+4.2·2 + 4·3·1) = -(24 + 48 + 32) = - = ­
18 18 9
52 26
mll = all -a
10a01
=9-9.
2=0
1 2 2 2 1 160 80
a = - (2 ·6 + 3 ·8 + 4 ·4) = - (24 + 72 + 64) = - = ­
20
18 18 18 9
80 (26)2 720 - 676 44
m 20 = a 20 - aiD = 9 - 9 = 81 = 81
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
1
. = 18(1
2.4
+ 2
2
·10 + 3
2.4)
= 80 = 40 a
02
18 9
m = a - a ~ 1 = 40 _ 22 = 40 - 36 4
02 02 9 =­
9 9
• Independencia estadistica
Dos variables estadfsticas X e Y son independientes entre sf cuando la
variaci6n de una de ellas no influye en la distribuci6n de la otra condicionada
por el valor que tome la primera. Por el contrario existira dependencia cuando
los valores de unacondicionan la distribuci6n de los valores de la otra. Acudien­
do a la definicion que se dio de frecuencia re1ativa condicionada tenemos que:
nij
n., N Ii"
/;. =....!:l...=_=....!1
i/j n , n , f .
•J --:.l. .J
N
Ii} = h/J-fj
[3.1]
La expresi6n [3.1] nos indica que la frecuencia relativa conjunta de
(X = Xi' Y = Y) es el producto de la frecuencia relativa de Xi condicionada por
Y = Yj' por la frecuencia relativa marginal j , cuando existe independencia
estadfstica; 0 sea que el valor Yj que condiciona influye en la distribuci6n de
la variable Xi' Si existe independencia estadfstica es evidente que las frecuencias
re1ativas de X condicionadas por los distintos valores de Yj' serfan todos
iguales entre sf e iguales a la frecuencia relativa marginal de X ya que dichos
valores Yj no influyen para nada en la distribuci6n de la variable Xi' 0 sea, se
cumplira que:
h/1 = h/2 = h/3 = ... = h/J = ... = J./. = h.
[3.2]
o 10 que es 10 mismo:
nil n
i2
n
i
• nil + n
i 2
+ ... + n· n,
_=_= =_= IS_.....!.:.._/r.
[3.3]
n.
1
n.
2
'" n.. n.
1
+ n.
2
+ ... + n.s - N - i,
Sustituyendo en la expresi6n [3.1] la frecuencia relativa condicionada hlj
por la marginal/;, de la expresi6n [3.2], ya que estamos bajo la hip6tesis de
independencia estadfstica, tenemos que:
n., n
i
. n.
j
1'.. = I'. f· 0 bien N'
J
= N . N
Ji} Ji ..J
135
. ~ , :::«\'
134
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Definici6n 3.3. Independencia estadfstica.
Dadas las variables estadfsticas X e Y, la condici6n necesaria y sufi­
ciente para que sean independientes es:
Y If j = 1, 2, ..., s)
n
i j
n, n ,
N=N'N,J (lfi=12 r , , ...,
Una propiedad de interes es que si X e Y son independientes, entonces la
covarianza entre ellas es nula. Veamos para ello que
r S n.. r S n. n. r n. S n .
_"" 'J _ "" '..J _ " ,." .J _
all - i ~ l j ~ l xiYj N - i ~ l j ~ l xiYj N' N - i ~ l Xi N j ~ t Yj N - alOa
o t,
perc como = all - alOa
OI
= alOa
OI
- alOa
0 1
= 0, que es 10 que que­ m
ll
rfamos probar.
Sin embargo, que COy(X, y) = 0 no implica que X e Y sean independientes.
Esto puede comprobarse con un contraejemplo en que X e Y sean dependien­
tes (0 no independientes) y ademas m
ll
= O.
Ejemplo 3.6
En 1a tabla de correlaci6n presentada en el Ejemplo 3.5, las variables X e
Y son dependientes, pues por ejemplo:
n
2.
n.l . 2 8 4 32
Ii =f. N' N' 0 bien 18 =f. 18'18 = 18
2
n
21
La independencia estadfstica entre X e Y, exige que para todo i = 1, 2 y 3,
y todo j = 1, 2 y 3, se verifique:
n.. n, n ,
J.j _ I.. .J.
N- N'N'
como esto no se da para algiin par (i, j), concretamente para i = 2 y j = 1,
concluimos que X e Y son dependientes.
Ademas, vimos en el Ejemplo 3.5 que mIl = Cov(X, Y) = 0, por 10que este
es un contraejemplo de que «mIt = 0 equivale a que X e Y son independien­
tes». Efectivamente, hemos demostrado que si X e Y son independientes, esto
implica que mIl = Cov(X, Y) = O. Pero no ocurre 10 recfproco: si mIl = °no
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
necesariamente X e Y son independientes, como ocurre en el ejemplo presen­
tado en el que m
ll
= °y las variables X e Y son dependientes.
3.2.2. Tobias de contingencia
En los estudios socioecon6micos se analizan en muchas ocasiones variables
de tipo cualitativo que s610 admiten escalas nominales y como mucho ordina­
les (sexo, nacionalidad, profesiones, niveles de estudios, imagen de polfti­
cos, etc.). Como ya se coment6 en los analisis unidimensionales, en las varia­
bles cualitativas no tiene sentido la obtenci6n de promedios si se exceptua la
moda en las de escala nominal y 1a mediana en las de escala ordinal. Luego
en este tipo de analisis no tiene ninguna 16gica la definici6n de momentos
respecto al origen 0 respecto a la media.
Lo que sf se puede es obtener sus respectivas tablas de frecuencias que en
el caso de las bidimensionales se las denomina tablas de contingencia. Es una
tabla de doble entrada como la 3.4 en la que en la primera columna y primera
fila se expresan las modalidades de ·los atributos M y M'; en las celdillas
centrales estan las frecuencias absolutas conjuntas nij' La Ultima columna y la
ultima fila nos definen 10mismo que en las tablas de correlaci6n las frecuencias
marginales del atributo Myel M' con las que pueden construirse las dos
distribuciones marginales 0 unidimensionales representadas por los conjuntos
{(M;; n;,) para i = 1, 2, ..., r} y {(Mj; n.) para j = 1, 2, ..., s}. Tambien pueden
definirse las correspondientes distribuciones condicionadas de frecuencias da­
das por los conjuntos
{(MIM' = Mj); n
i j
para i = 1, 2, , r}, y
{(M'IM = M;); n
i j
para j = 1,2, , s}.
TABLA 3.4. Tabla de contingencia
Oo.
M' M ~
...
1 Z J
M
s
Atributo M
::s::
M'
... ...
M
1
n
ll
n
12
n
1j
n
ts
Oo.
n
Zj
...
M
2
n
21
n
zz
n
zs
M
i
Oo. ...
nil n
i 2 "ij n..
M
r
Oo'
n
rl n,z nr j
...
n
rs
... ...
n.j n.l n.z n.j n.s
n.
I.
nl.
nz.
ni.
n,.
N
136
137
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
Como a las variables cualitativas no se las puede someter a las operaciones
de sumas, restas y divisiones, a1 venir expresadas en escalas nominales u
ordinales, no tiene sentido el hablar de medias marginales 0 condicionadas 0
de varianzas 0 desviaciones tfpicas, Lo que sf cabe es establecer el concepto de
independencia estadistica entre variables cualitativas ya que como vimos en las
tablas de correlaci6n de las variables cuantitativas, en su definici6n solo inter­
vienen determinadas propiedades de las frecuencias relativas tanto conjuntas
como marginales. Luego la condici6n necesaria y suficiente para que los
atributos M y M' sean independientes es que la frecuencia relativa conjunta
sea igual al producto de las frecuencias relativas marginales:
ni j = nii , n.j
V i,j
N N N
La deducci6n de la anterior expresion es identica a la efectuada para las
tablas de correlaci6n de variables cuantitativas.
Ejemplo 3.7
Se han observado 100 conductores de turismo de los cuales 40 estan
casados y 60 solteros. De los primeros 5 han sufrido algun tipo de accidente
en el ultimo ano y de los segundos han sido 15. Obtener: a) La tabla de
contingencia. b) Las distribuciones marginales y sus respectivas modas, c) La
distribuci6n de los accidentes condicionada a que sean solteros con su respec­
tiva moda. d) Comprobar si los dos atributos son independientes.
Soluei6n:
a) Tabla de contingencia
Accidentes (M')
Estado civil M I Con accidente
Sin accidente n.
I.
Casados
Solteros
, 5
15
35
45
40
60
n,j I 20 80 100
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
b) Distribuciones marginales
M
». M'
».
Casados 40 Con aceidente 20
Solteros 60 Sin accidente 80
La moda del atributo estado civil es solteros y de los accidentes es sin acci­
dente.
e) La distribuci6n de los accidentes (M') condicionada a que sean solteros
sera:
M'/M = Solteros
nij
Con accidente 15
Sin accidente 45
I 60
La moda es sin accidente.
d) Independencia estadfstica, Se construye una tabla de frecuencias rela­
tivas
n,.
M I Con accidente Sin accidente
N
~
Casados 0,05 0,35 0,40
Solteros 0,15 0,45 0,60
n,
.....:l.
0,20 0,80 1
N
Como en la primera comprobaci6n
nll n.! n1.
N =/= N' N' ya que 0.05 =/= 0.20·0.40,
se puede decir que los dos atributos M y M' no son independientes estadfsti­
camente hablando.
Tambien se pueden elaborar tabIas de contingencia combinando caracterfs­
ticas cualitativas con cuantitativas: sexo con edad, habitat donde viven las'
familias (rural 0 urbano) con niveles de renta, etc.
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 139
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
138
En las distribuciones bidimensionales tambien pueden establecerse repre­
sentaciones graficas. Como las marginales y condicionadas son unidimensio­
nales todos los graficos estudiados en el capitulo 2 son aplicables a las mismas,
En las conjuntas se acudira a las tres dimensiones. En un eje se representa la
variable X, en el otro la Y y en el tercero la frecuencia conjunta nij' Si los
valores de la variable no estan agrupados la figura sera un diagrama de barras
en tres dimensiones. Si estan agrupados (s610 para variables de tipo cuantita­
tivo que admitan las escalas de intervalo 0 raz6n) seran histogramas tridimen­
sionales que nos generan estereogramas formados por una serie de parale­
lepipedos cuyos respectivos vohimenes son proporcionales a las nit
3.3. Dependencia funcional y dependencia
estadistica
Es frecuente encontrarse cuando se estudian conjuntamente dos caracteris­
ticas 0 variables que exista una relaci6n de dependencia entre las mismas. Esta
dependencia tiene dos naturalezas: dependencia funcional que es cuando existe
una relaci6n matematica exacta entre las dos variables y dependencia es­
tadistica que se caracteriza por una relaci6n aproximada entre los dos feno­
menos. La dependencia funcional se puede representar segtin indica el grafi­
co 3.1 en el que los pares de valores observados de una variable bidimensional
(Xi' yj pertenecen exactamente a la funcion matematica que liga a las dos
variables que en este caso es una recta. Podrfa representar un fen6meno ffsico
Y
Ys
Y4-I-- ---------~ --------------------A
Y3+ - - - - - - - - - - - - - - - - - - - - - - - ~
Y2+--------------K
Yl
X
Xl X2 x3 x4 xs
GRAFIeo 3.1. Dependenciajuncional exacta de tipo lineal.
que es el espacio (y;) que recorre un vehfculo que va a una velocidad constante
(b) en distintos perfodos de tiempo (xJ A cada valor Xi Ie corresponde un s610
valor Yi dado por la funci6n matematica que liga a las variables.
La dependencia estadfstica, expresada en terminos aproximados, ocupa en
la teorfa del conocimiento econ6mico un lugar preponderante a la hora de
constrastar determinadas hip6tesis de dependencia funcional formuladas por
la teorfa econ6mica. Luego debe haber un planteamiento te6rico previa al
estudio estadfstico para no liegar a conclusiones que no tengan sentido. Puede
darse el caso, por ejemplo, que exista dependencia estadfstica, por puro azar,
entre la evoluci6n del mimero de accidentes de autom6viles y la producci6n de
queso manchego. De ella no podemos sacar la conclusi6n de que una variable
determina a la otra ya que no tiene ningun sentido. Sf parece Iogico formular
que el nivel de gasto de los hogares esta dependiendo .de su renta disponible.
Pero esta dependencia no es de tipo matematico-funcional sino estadfstica. Si
se observan un conjunto de pafses de valores de renta disponible y niveles de
gastos nos encontraremos que para un mismo nivel de renta pueden darse
distintos niveles de gastos ya que existen otra serie de caracterfsticas, ademas
de la renta, que influyen en el gasto aunque sea de forma rnenos relevante.
Este tipo de fen6menos se representan en un sistema de ejes, a traves de
una nube de puntos como se indica en el Grafico 3.2. Por ejemplo, la figura
a) representa una dependencia lineal positiva (al crecer la renta disponible X
tambien crece el consumo familiar Y). Puede observarse que en la dependencia
estadfstica los pares de valores observados (Xi' Yi) ya no estan alineados como
se indica en el Grafico 3.1 con la dependencia funcional. Tambien nos indica
la nube de puntos que la relaci6n entre X eyes de distinta naturaleza: lineal
positiva representada por la figura a); lineal negativa expresada en la figura
b); curvilfnea segtin la forma de la figura c); sin ninguna relaci6n como se
indica en la figura d); etc.
Existen tres motivos fundamentales por los que una variable que vamos a
llamar dependiente 0 end6gena esta influida por otra que aetna como indepen­
diente 0 ex6gena: la casualidad 0 el azar ha hecho que ambas variables esten
relacionadas estadfsticamente (por ejemplo, como se ha sefialado, el ntimero
de accidentes de autom6vil y la producci6n de queso manchego); una tercera
variable esta determinando a las que estamos estudiando (por ejemplo el
consumo de caviar y la compra de yates de recreo estan determinadas por la
renta disponible de las personas) y, por ultimo, puede existir una relaci6n
causa-efecto como el ejemplo de que los niveles de consumo estan determina­
dos fundamentalmente por la renta disponible. En los estudios estadfsticos de
los fen6menos socioecon6micos s610 nos deben preocupar las relaciones de
causa-efecto que son las que tienen una base te6rica.
Las nubes de puntos de la forma del Grafico 3.2 nos sefialan el tipo de
ligaz6n existente entre .las dos variables. La regresi6n es una parte de la
140 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
Y Y
x x
x
Xx x x
x x x x x
x x x
x x x
x x x
x x
Xx x
x x
Xx
x x
x x
x x
(a) (b)
Y Y
x
x x
x x
x
x x
x x x
x
x
x
x
x Xx
x
x
x
x x x
x x x x
x x
..
x x
(c) (d)
GRAFICO 3.2. La dependencia estadistica expresada por las nubes de puntos de las
observaciones.
Estadistica Descriptiva que nos ensefia a determinar la linea hacia la que
tiende la nube puntos. Luego la Teena de la Regresi6n nos permite pasar de
la dependencia estadfstica representada en una nube de puntos a la dependen­
cia funcional dada por una linea de regresion, Existen dos formas de obtener
la linea de regresi6n: a traves del empleo de las distribuciones de frecuencias
condicionadas 0 a traves de los ajustes mfnimo-cuadraticos,
Veamos como se construirfa por el primer metodo la linea de regresien de
Y sobre X cuando Y es la variable dependiente 0 efecto, y la X es la indepen­
diente 0 causa. Para ella, si hay r observaciones consideramos todas distribu­
ciones condicionadas:
Y/X
1
, Y/x
2
, •••, Yjx;
En estas distribuciones, al ser unidimensionales se obtienen las correspon­
dientes medias aritmeticas:
Y/X
1
, f/x
2
, ... , f/x
r
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
141
formando la siguiente linea quebrada de puntos
P1(X 1, f/x
1
); P
2
(X
2,
f/x
2
); ••• Pr(x
r,
f/x )
r
que es la linea de regresi6n tal y como se indica en el Grafico 3.3. Hemos
pasado de la nube de puntos en la que a cada valor Xi Ie pueden corresponder
varios valores de Yi (por ejemplo a un mismo nivel de renta pueden corres­
ponderle varios niveles de consumo ya que este no depende s610 de aquella),
a una linea de regresion en la que a cada Xi Ie corresponde un s610 valor de
la ordenada que es la media aritmetica de Y condicionada a dicho valor.
,
Y
,
,
,
,
,
,
!
,
,
Ys ,
, lie
,
• PrCx,., flx
r
)
t
,
,
f P2(X2, YIX2)
Y2
t
!
lie
1
t
YI
t
Xl X2 X
X r
GRAFICO 3.3. Ltnea de reqresion de Y/X obtenida por el metoda de las medias aritme­
ticas condicionadas.
Por identico procedimiento puede obtenerse la linea de regresi6n de X
sobre Y actuando en este caso la X como dependiente y la Y como indepen­
diente. Las distribuciones de frecuencias condicionadas sertan:
X/Yl, X/Y2, ..., X/Ys
Las medias aritmeticas serian:
X/Yl, X/Y2, ..., X/Ys
con 10 que se generan los punt os de la linea:
Yl); Y2); ... Ys)
: PI(x!> :fIXI)
r r
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 143
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, 1.
142
Y
------ --- -----)(-------- - ------- ---­ Ys ;<XlY.. s» Ys)
Y2
---- --__ -)(- ----------------- ----- --)(- ----- -------------­
YI
PHXlYbYI)
X2 x- X
Xl
GRAFICO 3.3'. Linea de regresi6n de X/Y obtenida por el metoda de las medias aritme­
ticas condicionadas.
Ejemplo 3.8
De la tabla de correlaci6n del Ejemplo 3.5 obtener las lineas de regresi6n
de Y/X y X/Y por e1 metodo de las medias aritmeticas condicionadas.
Soluci6n:
a) Linea de regresi6n de Y/X:
_ 1
(Y/X = 2) = -(1 . 1 + 2·4 + 3·1) = 2
6
_ 1
(Y/X = 3) = -(1· 2 + 2·4 + 3·2) = 2
8
_ 1
(Y/X = 4) = -(1· 1 + 2·2 + 3 ·1) = 2
4
Los puntos de la linea son: P1(2, 2), Pz(3, 2) y P3(4, 2) que es una paralela
al eje de abscisas. EI que las medias aritmeticas condicionadas sean todas
iguales y su uni6n de una paralela no implica independencia estadistica entre
las variables como se comprob6 en e1 Ejemplo 3.6. La inversa si es cierta, si
existe independencia las condicionadas son todas iguales e iguales a las mar­
ginales como se senala en la Expresi6n 3.2.
Y
3
l :
2
b) Linea de regresi6n de X/Y:
- 1
(X/Y = 1) = -(2·1 + 3·2 + 4 ·1) = 3
4
_ 1
(X/Y = 2) = 10(2 . 4 + 3·4 + 4 . 2) = 2,8
_ 1
(X/Y = 3) = -(2·1 + 3·2 + 4 ·1) = 3
4
Los puntos seran: P'l(3, 1), 2) y 3). EI Grafico 3.4 contiene las
dos lineas.
Otra forma mas utilizada en la obtenci6n de las lineas de regresion Y/X y
X/Yes el denominado ajuste mmimo-cuadratico. Esta segunda versi6n es me­
nos pura que la de las medias condicionadas pero es mucho mas manejable
ya que se obtiene una funci6n estimada en el ajuste y no una linea de puntos
p'
• 3
,
,
,
,
.
p'
2,

,
.
PI '. P2 P
3
\
\
\
• Pi
x
2 3 4
GRAFICO 3.4. Lineas de reqresion del ejemplo 3.8.
como ocurre con las medias aritmeticas condicionadas, ya que en la realidad
siempre tendremos una serie de observaciones discretas que nos proporcionara
una linea de puntos mas 0 menos pr6ximos, pero no una curva continua como
nos proporciona el ajuste mfnimo-cuadratico,
Dada una distribuci6n de frecuencias bidimensional expresada por el con­
junto {(Xi' Y¥ n
i
) el ajuste mfnimo-cuadratico consiste en desarrollar el pro­
ceso siguiente:
144 145 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
- Representar la nube de puntos dada por los valores observados (Xi' Yj)
Yelegir la funci6n del tipo Yti =f{x
i
, a
l
a
z'
..., an) que mas se aproxime
a dicha nube. El mimero de parametres (a
l
, a
z,
...) tiene que ser inferior
al mimero de observaciones para que el ajuste tenga grados de libertad
que es la diferencia entre el nnmero de observaciones y el nnmero de
parametres. En el Grafico 3.5 10 que mejor puede ajustarse a la nube
de puntos es una parabola de tercer grado de tipo
Y = ax
3
+ bx
z
+ ex + d.
- Para cada Xi se define un error 0 residuo que es la diferencia entre la
variable dependiente observada Yj y el valor te6rico
Yti = ax; + bxf + ex, + d
dado por la funci6n: e
j
= Yj - Ytj' Estos residuos son unos positivos (el
representado en el Grafico 3.5) y otros negativos (cuando las observa­
ciones esten por debajo de la funci6n) y para que no se anule su suma
se eleva al cuadrado:
S = L(Yi - Ytl
[3.4]
y
)( )(
yi+---------------------------¥
:l e'
)( : I J
y t i - l - - - - - - - - - - - ~ ~ )( x
)( ~
)(
)(
x
o
X
Xi
GRAFIeo 3.5. Ajuste minimo-cuadratico.
- El metodo del ajuste minima cuadratico consiste en que la expre­
si6n 3.4 de los errores 0 residuos cuadraticos.sea un mfnimo (que la
funci6n ajustada pase 10 mas pr6xima posible a todos los puntos que
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
forman la nube). Aplicando la condici6n necesaria de mfnimo que es
que se anulen las derivadas parciales de [3.4] respecto a los parametres
desconocidos (al' a
z,
a
3,
...) de la funci6n Yti tendremos un sistema
llamado de ecuaciones normales que nos resuelve el problema pasando
de la dependencia estadfstica a la funcional. Al estudiar la regresi6n
lineal simple en el pr6ximo apartado veremos algnn caso practice del
ajuste mfnimo-cuadratico.
3.4. Regresion y correlcclon lineal simple
3.4.1. La regresi6n lineal simple
En la mayorfa de los fen6menos de naturaleza econ6micosocialla nubede
puntos nos indica que la relaci6n entre las variables es de naturaleza lineal.
La regresi6n lineal simple nos permitira pasar de la dependencia estadfstica a
la funcional con las siguientes caracterfsticas:
a) La funci6n a estimar es lineal es decir una recta.
b) Existe una sola variable explicativa 0 ex6gena y por ello recibe el
nombre de simple.
e) En la exposici6n vamos a referirnos a una tabla de correlaci6n de
frecuencias unitarias del siguiente tipo:
Xi Yi
Xl Yl
X
z Yz
Xi Yi
X
N YN
d) Se empleara e1 ajuste mmimo-cuadratico para estimar la ecuaci6n de
la recta:
Y = a + bx
de modo que llamamos:
Yti = a + b Xi
Siguiendo el proceso de todo ajuste mtnimo-cuadratico se realizaran las
siguientes operaciones:
- Representar la nube de puntos dada por los pares de observaciones
(Xi' yJ como se indica en el Grafico 3.6.
146
147
Xi
GRAFICO 3.6. Ajuste lineal minimo-cuadratico.
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
Y
Y =a + bx
Yi
Yti
o X
- Ajustar la recta Y = a + bx de forma que la suma de todos los errores
e
i
elevados al cuadrado, sea minima:
N N N
S = L e ~ = L (Yi - Ytif = L (Yi - a - bx;)Z ~ minima [3.5]
i=l i=l i=l
Para minimizar la expresi6n [3.5] se tiene en cuenta la condici6n necesaria
de todo minimo que es que se anulen las derivadas respecto a las inc6gnitas
que son los coeficientes de regresi6n lineal a y b:
as N
- = 2 L [Yi - a - bxJ (-1) = 0
aa i=l
as N
ab = 2.L [Yi - a - bxJ (- x;) = 0
l= 1
que nos permite llegar al siguiente sistema de ecuaciones normales minimo
cuadrliticas:
N N
L Yi = N a + b L Xi
i=l i=l
[3.6]
N N N
L XiYi = a L Xi + b LX;
i=l i=l i=l
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Si en la expresi6n [3.6] dividimos por N podemos expresarlo en funci6n de
los momentos respecto al origen:
aol=a+ba
l O
(3.7)
au = a·a
l O
+ b·a
zo
Resolviendo el sistema correspondiente a la expresi6n [3.7] obtendremos
su solucion:
a=aol-ba
lO
Sustituyendo en la segunda ecuaci6n
all = (a
Ol
- b alO) a
l O
+ b a
zo
= a
l O
a
Ol
+ b (azo - aio)
au - alO· al O ~ 1 l
b= = ­
a
ZO
- aiD m
ZO
Luego las estimaciones mfnimo cuadraticas de los coeficientes de regresi6n
lineal simple se resuelven por el siguiente sistema:
b = m
u
= SXY
mzo S ~
[3.8]
a=a
01
-ba
10
- SXY­
=Y--·X
s;
Si sustituimos a y b en la recta Y = a + bx queda:
Y = a
Ol
m
u
m
u
- --alO + --X
m
ZO
m
ZO
"*
[
Y ­ a
Ol
mll
= -(X
m
ZO
- alO) [3.9]
que es la recta de regresi6n mfnimo cuadratica de Y sobre X.
148
149
CASAS-sANCHEZ, J. M. y SANTOS-PEN-AS, J.
La recta de regresi6n mtnimo cuadratica de X sobre Y, por analogia resulta
ser;
x - = - (y - [3.10] a
lO
a
0 1
)
m
0 2
­
Ambas rectas pasan porel punto del plano xy (a
10
, a
0 1
)' Ysus pendientes
. mll m
ll
" .
son repectivamente - y -. Como m
2 0
Y m
0 2
son vananzas positivas (salvo
m
2 0
m
0 2
casos triviales), ambas pendientes tienen el signo comtin de la covarianza m
ll
;
de aquf, ambas rectas son crecientes, 0 ambas son decrecientes.
Si las variables estadfsticas X e Y son independientes, entonces m
1 1
= 0
por 10 que las rectas de regresi6n seran
y
[F};]
respectivamente, es decir, paralelas a los ejes coordenados X e Y.
El coeficiente de regresi6n lineal simple b es la pendiente angular de la
recta de regresi6n, 0 sea, es la derivada de Y con respecto a x y tiene un
significadomuy concreto: nos determina en cuanto varia la variable dependiente
o endogene cuando la independiente 0 exogena varia en una unidad. Si la recta
que se ajusta es una funci6n de consumo en relaci6n con la renta, el coeficiente
b serfa 10 que se conoce en teona econ6mica como la propensi6n marginal a
consumir. El significado del a, que es la ordenada en el origen de la recta, a
veces puede tener sentido econ6mico y a veces no.
El Ejemplo 3.9 es un caso de ajuste lineal simple por el metodo de los
mfnimos cuadrados cuando la distribuci6n bidimensional es de naturaleza
unitaria y el Ejemplo 3.10 es una tabla de correlaci6n donde las frecuencias
ya no son unitarias.
Ejemplo 3.9
En 10 familias se han observado sus ingresos (xJ y sus gastos (Yi) anuales
expresados en millones de pesetas dando lugar a las siguientes cantidades (Xi:
2, 3, 4, 5, 6, 7, 8, 8, 9, 10) e (Yi: 2, 3, 3, 4, 4, 5, 6, 5, 7, 9). Obtener la recta
regresi6n del gasto en funci6n de los ingresos e interpretar los valores estima­
dos de los coeficientes de regresi6n.
Solucion:
Para estimar a y b empleamos la fonnulaci6n de la expresi6n 3.8; luego los
calculos conviene establecerlos de la forma siguiente ya que tenemos que
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
obtener las medias aritmeticas marginales (X, Y), la covarianza y la varianza
de la variable independiente:
Yi Xi XiYi


2 2 4 4
3 3 9 9
3 4 12 16
4 5 20 25
4 6 24 36
5 7 35 49
6 8 48 64
5 8 40 64
7 9 63 81
9 10 90 100
10
L Yi = 48
10
L X
i
= 62
10
L XiYi = 345
10
L xf = 448
i= 1 i=l i=l i=l
_ 1 10 62 _ 1 10 48
X = a10 = 10 xi = 10 = 6,2 Y = a0 1 = 10 Yi = 10 = 4,8
10
L XiYi
i=l
_ 345
all -
N
-10= 34.5
m
ll
= SXY = all - a
10a0 1
= 34.5 - 4,8·6,2 = 34.5 - 29.76 = 4,74
1 10 448
a2 0 = 10 xf = 10 = 44,8
m
2 0
= S; = a
2 0
- aio = 44,8 - 38,44 = 6,36
b = mll _ SXY 4.74
m - S; = 6.36 0.745
2 0
a = - 4,8 - 0,745· 6,2 4,8 - 4,621 = 0,179 a
0 1
ba
10
I y=0.179+0.745x I
150 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
El significado de b = 0,745 es que cuando los ingresos aumentan en una
unidad el gasto aumenta en 0,745 unidades. El significado del termino inde­
pendiente es que cuando e1 ingreso es cero existe un consumo aut6nomo de
179.000pesetas aunque esta interpretaci6n carece de sentido econ6mico ya que
sin ingresos no puede existir gasto sino existe un endeudamiento parale1o.
Ejemplo 3.10
Obtener las rectas de regresion minimo cuadraticas asociadas ala siguiente
tabla de correlaci6n:
~
0 3 6
1 1 5 2 8
2 4
5
4
9
1
3
9
17
Solucion:
Empleando la notaci6n de los momentos respecto al origen y respecto a la
media tenemos:
1 26
= -(1· 8 + 2· 9) =­ a
10
17 17
1 45
= -(0·5 + 3·9 + 6·3) = ­ a
Ol
17 17
1 63
all = -(1· 0·1 + 1· 3·5 + 1· 6·2 + 2· 0·4 + 2· 3·4 + 2· 6 ·1) =­
17 17
63 26 45 1071 - 1170 -99
mll = all - a10aOl = 17 - 17'17 = 289 = 289
1
= 17
W
.8 + 2
2.9)
= 44 a
2 0
17
1
a = 17(0
2.5
+ 32.9 + 6
2.3)
= 81 + 108 = 189
0 2
17 17
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 151
44 (26)2 748 ­ 676 72
m 2 0 = a 2 0 - ato = 17 ­ 17 = 289 = 289
_ 2 _ 189 (45)2 _ 3.213 ­ 2.025 _ 1.188
m0 2 - a 0 2 - a Ol - 17 ­ 17 - 289 - 289
Con estos calculos, las rectas de regresi6n de Y sobre X, y de X sobre Y
son respectivamente:
26 99 ( 45)
Y - ; ~ = - ~ : (x - ~ ~ ) x - 17 = - 1.188 Y - 17
3.4.2. Correlaci6n lineal simple
A traves de la regresi6n hemos estudiado la forma funcional de la relaci6n
entre dos variables pero no se ha tratado el grado 0 la intensidad de esa
relaci6n. Corresponde a la teoria de la correlaci6n el estudiar el grado de
asociaci6n existente entre las dos variables; es decir, el medir la intensidad de
la dependencia entre las mismas. Una vez que se ha realizado cualquier tipo
de ajuste nos interesa conocer en que media la variable end6gena 0 depen­
diente queda determinada por el modelo matematico que se ha estimado al
pasar de la dependencia estadfstica a la funcional. Si nos fijamos en el Grafico
3.6, sea cual sea la funci6n que pretendemos ajustar a la nube de puntos (recta,
parabola, exponencial, etc.) el valor observado de la variable end6gena Yi es
igual al valor te6rico 0 estimado por la funci6n Yti mas el correspondiente
residuo 0 error; 0 sea:
Yi = Yti + e, [3.11J
La variable dependiente observada Yi tiene una determinada variabilidad
o dispersi6n que como sabemos se mide por su varianza S;. Los valores
estimados por el modelo ajustado Yti constituyen una serie que se obtiene, una
vez estimado el modelo, para los distintos valores de la variable ex6gena 0
explicativa que se van introduciendo en el mismo, con una determinada va­
riabilidad dada por su varianza S; que la vamos a denominar varianza de la
variable end6gena Yi explicada por fa regresi6n. EI tercer elemento de Ia expre­
si6n [3.11J es e1 residuo que tambien tiene su correspondiente variabilidad que
la vamos a medir a traves de 10 que vamos a Hamar varianza residual 0
varianza de los errores 0 residuos S;Y'
152
153
CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
• Relaci6n entre la varianza de la variable dependiente, la varianza
explicada por la regresi6n y la varianza residual
Vamos a demostrar que estas tres varianzas se relacionan de la forma
siguiente:
8
2
8
2 2
[3.12]
J
Y
=
Yt
+ 8
ry
Si en la expresi6n [3.11] elevamos al cuadrado ambos miembros y suma­
mos para N pares de observaciones de frecuencias unitarias tendremos:
N N N N
[3.13]
L yf = L y ~ + L ef + 2 L Yaei
i=l i=l i=l i=l
N
Vamos aver seguidamente que vale la expresi6n L Yaei en el caso de
ajustar una recta a la nube de puntos: i= 1
N NN N
L Yaei = L (a + bXJei = a L ei + b L eixi
i=l i=l i=l i=l
El L
N
e
i
= 0 ya que:
i=l
e
i
= Yi - Ya = Yi - a - b Xi
sumando para los N valores:
N N N
L el = L Yi - N a - b L Xi = 0
i=l i=l i=l
para que se cumpla la primera ecuacion normal de la expresi6n [3.6].
N
Veamos que vale L eixi
i= 1
N N N N N
L eix
i
= L (Yi - a - bXJX
i
= L XiYi - a L Xi - b L xf ,= 0
i=l i=l i=l i=l i=l
para que se cumpla la segunda ecuaci6n normal mfnimo-cuadnitica de la
expresi6n. Luego la expresi6n [3.13] queda reducida a
N N N
[3.14]
L yf = L Y;; + L ef
i=l i=l i=l
DlSTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Si en la expresi6n [3.14] a cada valor de las tres variables se le resta su
media aritmetica y se divide por el total de observaciones N, recordando que
N
la media de los residuos es cero, e= 0, ya que L e
i
= 0 Y que la media de
i=l
Yti coincide con la media de Yi' 0 sea:
1 N 1 N
- L Yti = - L (a + b xJ = a + b X = y
N i=l N i=l
al tener en cuenta que la recta de regresi6n pasa por (X, Y); tendremos:
1 N _ 1 _ 1
- " (y. - Y)2 = - L (y . - Y)2 + - L e
2
N i ~ l ' N lJ N i
con 10 que demostramos que:
8
2
= 8
2
+ 8
2
Y Y
t
rv
Las varianzas 8; y 8;y pueden obtenerse una vez que se ha realizado
el ajuste minimo cuadratico para obtener las series de Yti Y e
i
= (Yi - YtJ,
y poder operar con elIas. No obstante existen otras formas de obtenerlas
sin necesidad de efectuar el ajuste en funci6n de las varianzas y covarianza
deXeY:
2_!; 2_
1
; 2
8r y - N L" ei - N L" (Yi - Yti)
i= 1 i=l
Sustituyendo Yti por 10 que vale a traves de la expresi6n [3.9],
m
ll
Yti = a
Ol
+ -(Xi - a
10
)
m
20
queda:
2 _ 1 N [ mll J2
8
r y
- N L Yi - a
Ol
- - (Xi - a
10
) =
i= 1 m20
m
ll
1 ; [ J2
=N L" (YI - a
0 1
) - - (Xi - a
10
) =
i=l m2 0
_ 1 N 2 1 N m
ll
- N L (Yi - - 2 -'N L (Xi - a10)(Yi - a0 1) + a
0 1
)
1=1 m2 0 i=l
2 1 N 2 2
mll " 2 _ mll mll
+ -2-'- L" (Xi - a
10
) - m
0 2
- 2 - + -2-· m20
m
20
N 1= 1 m2 0 m2 0
mil
= - -- = ­ m
0 2
m
0 2
bm
ll
m20
155
CASAS-sANCHEZ, J. M. y SANTOS-PE:N"AS, 1.
154
Luego:
~ mll _
(3.15)
Sry - m0
2
- --·m
ll
- m
0 2
- bmll
m
20
~
La varianza explicada se obtiene despejandola de la expresi6n [3.12]
2
ll
S
2
-
S2
-
S2
-
-
--
- b
m l l
[3.16J
y
-
y ry m
0 2
- m
0 2
+
m
­
r m
2 0
Ejemplo 3.11
Utilizando las varianzas y covarianza del Ejemplo 3.10 obtener la varianza
explicada por la regresi6n y la varianza residual comentando sus resultados.
Soluci6n:
99 72
Del ejemplo 3.10 la m
ll
= - 289 ~ -0.343, la m2 0 = 289 ~ 0.249 Y la
1.188
m0 2 = 289 ~ 4.1
2 mil 0,117
Sry = m
0 2
- m ~ 4,111 - 0,249 ~ 4,111 - 0,469 = 3,642
20
S;
,
= S; - S;y ~ 4,111 - 3,642 = 0,469
Si se observa el valor de S;y se llega a la conclusi6n de que es muy elevado
en relaci6n con la varianza total de Yi representada por S; con 10 que la
varianza explicada por la regresi6n es muy reducida y la Ifnea de regresi6n no
es representativa del conjunto de valores observados de Y;·
• Coeficientes de determinacion y de correlaci6n lineal simple
Se observa en la expresi6n [3.12] que la varianza de la end6gena observada
Yi' 0 sea S;, se obtiene como suma de la varianza explicada por la regresi6n
S;,Y la varianza no explicada 0 varianza residual S;y. Si no existiesen errores
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
o residuos e, la S;y = 0 con 10 que S; = S;, las varianzas de la variable depen­
diente 0 end6gena Yi se deberan unica y exclusivamente a las variaciones de
la variable independiente 0 ex6gena Xi' existiendo nnicamente una dependencia
funcional 0 exacta. Como esta situaci6n no suele ocurrir en los fen6menos
econ6micos y sociales, vamos a definir 10 que se conoce como coeficiente de
determinacion.
Se denomina coeficiente de determinaci6n ala participaci6n de la varianza
explicada por la regresi6n en la varianza marginal de la variable dependiente
observada:
S2 S2 - S2 S2
R2 = ---11 = y ry = 1 _ ~
[3.17]
S2 S2 S2
y y y
Al estar definido por cociente entre varianzas es un parametro indepen­
diente de las unidades de medida y permite comparar resultados entre distintas
asociaciones entre variables, cosa que no ocurre con las varianzas explicadas
o residuales, como indicadores de grados de asociaci6n, al venir influidas por
las .unidades de medida de las variables. El significado del coeficiente de
determinaci6n es que nos proporciona el porcentaje de causas comunes que
tienen las dos variables relacionadas para explicar su variabilidad 0 evoluci6n
si se expresa en tantos por 100. Si 10 expresamos en tantos por uno, como
indica la formulaci6n [3.17J, sin multiplicar por 100 su resultado, su signifi­
cado es que nos indica el tanto por uno de varianza de Yi explicado por la
variable independiente Xi a traves de la funci6n ajustada Yti.
Como las varianzas que definen a R
2
son siempre positivas llegamos a la
conclusi6n que R
2
~ O. Por otra parte las varianzas que intervienen S; y S;y
como mucho seran iguales a la total marginal S; cuando exista una relacion
exacta 0 funcional entre las variables (S;, = S;) Y las causas comunes son el
100 por 100 (S;y = 0) 0 cuando las causas comunes son nulas (S;y = S;) Y el
R
2
= O. Conclusi6n: el campo de variaci6n del coeficiente de determinaci6n es
0;:( R
2
;:( 1. Cuando las causas comunes a X e Y llegan al 0,75 expresadas en
tantos por uno, 0 el 75 % en tantos por cien, el modelo ajustado suele acep­
tarse. Si el porcentaje es inferior se llega a la conclusi6n de que la relaci6n
elegida (en este caso lineal) no es buena, debiendose ensayar con otras fun­
crones.
El coeficiente de determinaci6n de la expresi6n [3.17] es una formulaci6n
generica y sirve para cualquier tipo de regresi6n ya sea lineal 0 no lineal.
Vamos a determinar seguidamente otra formulaci6n para elcaso de la regre­
si6n lineal simple. Si en la expresi6n [3.17] se sustituye la varianza residual
156 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
por 10 que vale en funci6n de la covarianza y las varianzas marginales segun
se vio en la expresi6n [3.15] tendremos:
m
2
mil
- + -- 2
02
m
02
m
0 2
R = 1 _ S;y m - -----.!.!
2
20 ______m----"2"'0 = m ll
S2 = 1 - m [3.18]
y m0 2
m
02
m
20
·m
0 2
Resumiendo, en la regresi6n lineal simple el coeficiente de determinaci6n
puede obtenerse con las siguientes formulaciones equivalentes:
S2 S;y _ mll ·mll = b-b'
2 Y'-l--­
[3.19]
R = 2 - S2 m . m
Sy y 20 0 2
Si en la segunda formulacion equivalente despejamos la varianza residual:
I S;y = m
0 2
(1 - R
2
[] [3.20]
Vamos a definir el coeficiente de correlaci6n lineal simple como la raiz
cuadrada del de determinaci6n:
n
2
S
R=+ 1 - ~ = ~ = + ~ [3.21]
- S2 S. S - V u . u
y x y
EI coeficiente de correlaci6n se usa para determinar el grado de dependencia
lineal de la variable end6gena ante los valores de la ex6gena. Esta dependencia
puede ser directa 0 positiva, 0 indirecta 0 negativa, segun sea el signo de la
covarianza Sxy' Si la covarianza es positiva la corre1aci6n tambien 10 es y su
coeficiente tomara valores entre cero y uno: 0 ~ R ~ 1. Si R = 1 implica que
la S;y = 0 y los valores te6ricos 0 estimados Yti coinciden con los observados
Yi exitiendo una dependencia exacta 0 funcional. Si R = 0 implica que S;y = S;
no existiendo ninguna dependencia 0 asociaci6n entre las variables de tipo
lineal, aunque sf puede haberla de otra naturaleza (parab6Iica, exponencial,
etc.), convirtiendose las rectas de regresi6n en dos paralelas a los ejes de
coordenadas a las alturas Yti = Y Y X
ti
= X ya que SXy = 0 con 10 que en las
expresiones [3.9] y [3.10] los valores estimados de las rectas coinciden con las
medias aritmeticas marginales.
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 157
y
y
x x
a) R =1. "Dependencia exacta 0 b) R = -1. "Dependencia exacta 0
funcional positiva'', funcional negativa",
y
y
xa = x
x
Xx
x
x
XX
x
XX
x
X y'_y
X ¥ u-
x x
x Yti = Y xxx
x xiX x
x x x x
x x
x
x x
x x
c) R =O. "Con independencia entre d) R= O. "Con independencia lineal
las variables". pero con dependencia exponencial.
Las variables son dependientes".
Y
y/x = x/y
y
x/y
y/x = x/y
x x
e) 0 < R < 1. "Dependencia no exacta f) -1 < R < O. "Dependencia no exacta
positiva'', negativa".
GRAFICO 3.7. Rectas de regresi6n para distintos valores del coeficiente
de correlacion R.
158 159
CASAS-sANCHEZ, 1. M. Y SANTOS-PENAS, J.
Si la covarianza es negativa la correlaci6n tambien 10 es y su coeficiente
tomara valores entre menos uno y cero: - 1 ::::; R ::::; 0. Si R = - 1 la correla­
ci6n es perfecta existiendo una dependencia funcional pero negativa. Las rectas
de regresi6n coincidirian en una sola que seria decreciente al tener una pen­
diente negativa. Concluyendo diremos que el campo de variaci6n total del
coeficiente de correlaci6n es: - 1 ::::; R ::::; 1. Cuando varia de - 1 a cero estamos
en una correlaci6n negativa y la dependencia sera mayor cuanto mas se
aproxime a - 1. Si la variaci6n esta entre cero y + 1 la correlaci6n es positiva
y el grado de asociaci6n 0 dependencia sera mayor cuanto mas se aproxime
a mas uno. A partir de ±0.75 diremos que la dependencia es fuerte 0 acepta­
ble. Si el valor es inferior se rechaza el modelo estimado para hacer predic­
ciones ya que son poco fiables. El Grafico 3.7 recoge las distintas posibilidades
de representaci6n segun el valor de R. Las figuras e) y f) son las que se dan
en los casos reales.
• Predicci6n
Uno de los objetivos que persigue la regresi6n y correlaci6n es hacer
predicciones de la variable dependiente 0 end6gena en funci6n de los que toma
la independiente 0 ex6gena. Las predicciones se efectuan utilizando la recta
. estimada Yli = a + bXi' Obtenemos valores de Yti' que son promedios de los
observados, mediante valores dados de Xi y la actuaci6n de los coeficientes de
regresi6n a y b estimados. La predicci6n sera mas fiable cuanto mayores sean
los coeficientes de determinaci6n 0 de correlaci6n ya que menor sera la va­
rianza de los residuos que es la que nos indica la cuantia de la separaci6n
entre 10 observado y 10 estimado.
Hay que tener presente que la fiabilidad de las predicciones disminuye a
medida que los valores de la variable ex6gena Xi se alejan de su recorrido.
Ejemplo 3.12
Aprovechando los momentos respecto a la media del ejemplo 3.10 obtener
los coeficientes de correlaci6n y determinaci6n lineal.
Soluci6n:
~ 1 - ~ .
R = = ~ -0,3385,
.s:.s; J72. J1.i88
R
2
~ 0,11458,
Segun estos datos la fiabilidad 0 confianza del ajuste lineal, presentado en el
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
ejemplo 3.10, es del 11,45 % (porcentaje de causas comunes entre las variables
X e Y en dichos ajustes lineales: de X sobre Y, y de Y sobre X) no siendo
suficiente la forma funcional estimada para representar la dependencia entre
las dos variables (el mimero debe ser un 75 %).
En cuanto a la correlaci6n, medida por R = - 0.3385, es negativa y por
ella una de las variables tiende a aumentar cuando la otra variable disminuye,
y viceversa: una tiende a disminuir cuando la otra tiende a aumentar.
En el ejemplo 3.11 se obtuvo la varianza residual para el mismo supuesto
y vimos que era muy elevada con 10 que el ajuste no podia ser bueno. Los
bajos valores de los coeficientes de correlaci6n y determinaci6n nos confirman
este hecho.
Ejemplo 3.13
Obtener los coeficientes de determinaci6n y correlaci6n del ajuste lineal
efectuado con los datos del Ejercicio 3.9.
Soluci6n:
Empleando la expresi6n R
2
= b- b', ya se obtuvo el coeficiente b = 0.745. Para
obtener b' se efectua la regresi6n X/YO Esta regresi6n tiende sentido estadistico
pero carece de sentido econ6mico en la relaci6n causa (gasto) y efecto (ingre­
sos) ya que los niveles de gasto no determinan los niveles de ingresos sino
todo 10 contrario. Para calcular
m
l1
1 I 2
b' = --, s6lo nos falta ca cu ar = a
0 2
- a ' m
0 2 Ol
m
0 2
El a
Ol
= 4,8 segun el Ejercicio 3.9.
1 N 1
a0 2 = 10 i ~ yf = 10 270 = 27.
m
l1
m = 27 - 2304 = 396 b' _ 4,74
0 2
, , , --=--= 119
m
0 2
3,96 '
R
2
I = b·b' = 0,745·1,19 = 0,89 I
I R = JO,89 = 0,94 I
160 161 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
Conc1usi6n: El nivel del ingresos determina el 89 % del nivel del gasto
siendo la correlaci6n positiva y de nivel elevado con 10 que el modelo estimado
es fiable para hacer predicciones.
Ejemplo 3.14
Con la informaci6n que nos proporcionan los Ejercicios 3.9 y 3.13 predecir
el nivel de gasto para unos ingresos de 12 y 15 millones de pesetas comentando
la fiabilidad de dichas predicciones.
Soluci6n:
Las predicciones se realizan con la recta estimada:
- Para Xi = 12; Yti = 0,181 + 0,745 ·12 = 9,121 millones de pesetas
- Para Xi = 15; Yti = 0,181 + 0,745 ·15 = 11,356 millones de pesetas
Ambas predicciones son fiables ya que el coeficiente de correlaci6n es
R = 0,94; pero la primera es mas fiable que la segunda ya que el valor Xi = 12
esta mas cerca de X = 6,2 que el valor segundo de Xi = 15, al alejarse del
recorrido de X en la nube de puntos.
3.5. Regresion y correloclon lineal multiple
Aunque este capftulo esta dedicado fundamentalmente a las distribuciones
bidimensionales, vamos a realizar una introducci6n al analisis multidimensio­
nal explicando el sentido de nuevos conceptos como son los coeficientes de
determinaci6n y correlaci6n parcial y el problema de la multicolinealidad.
3.5.1. Ajuste de un plano par el metoda
rnlnlrno-cuoorottco
Para que didacticamente se comprendan mejor los conceptos vamos a
empezar por el estudio de la regresi6n y correlaci6n de la funci6n de un plano
generalizando seguidamente al caso del hiperplano. Se parte de la nube de
puntos tridimensionales en la que se recogen las observaciones de frecuencias '
unitarias de tres caracteristicas estudiadas en una poblaci6n (por ejemplo: '
gastos familiares Yi' ingresos farniliares Xli y mimero de miembros de la fa­
milia XZi).
Si el mimero de observaciones tridimensionales es N, la nube de puntos la
formaran las siguientes ternas:
(Y1' Xu, x
21
), (yz, X
12,
x
zz),
(Y3' X
13,
X2 3), ..•, (YN' X 1N' X2N)·
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Vamos a ajustar por el metodo mfnimo-cuadratico la ecuaci6n de un plano a
esta nube de puntos:
Y = b
o
+ b
1x1
+ b
2x2
[3.22J
El sistema de ecuaciones normales surge de minimizar la expresi6n:
N
S = L(Yi - b
o
- b
1
x
1i
- b
2
x
2i
f [3.23J
i=l
Derivando la Expresi6n 3.23 respecto del termino independiente b
o
tene­
mos la primera ecuaci6n normal:
N N N
LYi = N bo + b1 L Xli + b2 L X2i
[3.24J
i=l i=l i=1
Dividiendo por N:
y= b
o
+ b
1
X
1
+ b
2
X
2
[3.25J
La expresi6n [3.25J nos indica que el plano pasa por el punto tridimen­
sional (Xl' X2' Y) llamado centro de gravedad de la distribuci6n. Tambien nos
sirve para obtener el termino independiente de la funci6n, conocidos los coe­
ficientes de regresi6n parcial de Y/X
1
que es el b
1
Yel de Y/X
2
que es b
z
y las
medias marginales de las tres caracterfsticas en estudio (Xl' X2' Y):
b
o
= Y- b
1
X
1
- b
2
X
2
[3.26J
Para deterrninar los coeficientes de regresi6n parcial b, y b
2
se vuelve a
derivar en la expresi6n [3.23J. Para hacer mas manejable el sistema vamos a
tomar como variables las desviaciones a sus correspondientes medidas aritme­
ticas llamando Y; = Yi - Y, X ~ i = Xli - Xl Y X ~ i = X
2i
- X
2
·
Luego si restamos ordenadamente la expresi6n [3.25J de la [3.22J tendre­
mos la f6rmula del plano que pasa por el nuevo origen (Xl' X2' Y):
Y;i = b1 X ~ i + b2 X ~ i
con 10 que la expresi6n que hay que minirnizar para obtener b
1
y b
2
sera:
N
S = L (y; - b
1
X'li - b
2
x ~ Y
i=l
162 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Derivando parcialmente respecto a las inc6gnitas b
1
Y b
2
e igualando a
cero tendremos el siguiente sistema de ecuaciones normales que junto con la
expresi6n [3.26] resuelven nuestro problema: '
N N N
'\' " - b '\' /Z + b '\' ' /
L. Y,x
li
- 1 L. Xli 2 L. X liX2,
,:1 ,:1 ,:1
[3.27]
N N N
'\' ' , - b '\' / / +. b '\' /2
L. Y, X
2,
- 1 L. Xli X2 i 2 L. X 2i
i:1 i=l i:1
El sistema de la expresi6n [3.27] 10 podemos expresar en funci6n de las
respectivas covarianzas y varianzas marginales dividiendo por N todos sus
elementos:
Sy1 = b
1
Si + b
2
S
12
(3.28)
Sy2 = b
1
S12 +
Empleando la RegIa de Cramer se despejan las inc6gnitas del sistema [3.28]:
8 Y1
8
12
1
Sy2
1
_ -: Sy2S12
[3.29]
b
1
= lSi
S12\- Si2
I
S
l z
S2
2
y analogamente de la b
2

La expresi6n [3.29] se puede poner en funci6n de los coeficientes de
correlaci6n lineal simple si dividimos numerador y denominador por Sy Si
b = Sy.
[3.30]
1 s, 1 - Ri2
Por analogia la expresi6n para calcular el otro coeficiente de regresion
parcial sera:
_ - Sy R
yz
R
y 1·R12
[3.31]
b2 - -8' 1 - R2
2 12
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 163
Las expresiones [3.26], [3.30] y [3.31] resuelven nuestro problema de
estimaci6n del plano de regresi6n. El significado de los coeficientes de regre­
si6n b
1
y b
2
se obtiene observando que con las derivadas parciales de Yti son
respecto a Xl Y Xz- Luego b
1
mide la variaci6n de la variable end6gena Yt, al
variar Xl en una unidad permaneciendo constante la otra variable ex6gena X 2'
El b
z
mide la variaci6n de Yt, cuando X
2
varia en una unidad pennaneciendo
constante la Xl'
• EI problema de la multicolinealidad en el ajuste de un plano
Este problema surge s610 en la regresi6n multiple cuando las variables
explicativas, ex6genas 0 independientes tienen entre sf una fuerte relaci6n de
dependencia. Si esta dependencia entre Xl YX
2
fuese exacta, es decir Riz = 1,
entonces:
R
12
= ±1 :> R
Y1
= ±Ry2
ya que si:
R
12
= 1 = R
Y1
= R
Y2
R
12
= -·1 = R
y1
= -R
y2
Y entonces para R
12
= 1 resulta que:
_ -
2
. R12 _ S;
1
- R
Y1
. R
Y
Sy R
Y1
- R • 1 _ 0 Sy R
Y1
R
Y
R
Y 2
_
Y1
b
1
- - · --. --. -­
. s, 1 - Ri2 8
1
1 - Ri2 Sl 1 - 1 0
y para R
12
= - 1:
b = Sy. Ry1 + Ry1(-1) =
1 8
1
1 - 1 0
De manera analoga se tiene que
o
b2 = 0
Como se ha visto si existe multicolinealidad perfecta es imposible calcular
los coeficientes de regresion parcial con 10 que nos llevaria a cambiar la
estructura del modelo eliminando una de esas variables. Pero si la multicoli­
nealidad no es perfecta pero elevada, por ejemplo un +0.8 < IRd < + 1,
aunque sf pueden obtenerse los b
1
y b
2
, ya que ya no se da la indeterminaci6n
matematica, la fiabilidad de los coeficientes de regresi6n parcial se ve mermada
ya que las variaciones de Yti ante variaciones unitarias de Xli Y X
2 i
estan
mezcladas con 10 que obliga a cambiar el disefio del modelo matematico que
liga a las tres variables.
165 164 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, 1.
• Coeficientes de determinacion y correlaci6n multiple
en el ajuste de un plano
EI significado de estos coeficientes es el mismo que se ha dado en la
correlaci6n simple. Se sigue cumpliendo que la varianza marginal de la varia­
ble dependiente 0 end6gena S; es igual a la varianza explicada por la regresi6n
S;"12 (se denota con los subfndices 1 y 2 al existir dos variables explicativas)
mas la varianza residual S;Y'12' EI coeficiente de determinaci6n multiple sera
la participaci6n de la varianza explicada por la regresi6n en la varianza de los
valores observados de Yi 0 varianza marginal de Yi'
Por tanto, partiendo de la igualdad
S; = S;"12 + S;Y'12
el coeficiente de determinaci6n multiple sera:
R2 = S;"12 = S; - S;Y'12 = 1 _ S;Y'12
[3.32]
y'12 S2 S2 S2
Y Y Y
Por las mismas causas que se expusieron en la correlaci6n simple su campo
de variaci6n sigue siendo el mismo: 0 R;. 12 1.
Este coeficiente se puede obtener bien por su definici6n generica dada en
[3.32], que como sabemos es valida para cualquier tipo de ajuste sea lineal 0
no, bien haciendo una transformaci6n para el ajuste del plano. La definici6n
de varianza residual en la regresi6n de un plano con las variables expresadas
en desviaciones a sus medias aritmeticas (se hace un cambio de origen de forma
que el plano pasa por el nuevo origen dado por Xl' X2' Y2) es:
1 N 1 N
S2 - "2- " (y' b' b' )L
rY'12 - N L, ei - N L, ei i-I Xli - 2 X2i r
i=l i=l
N N N N
1 1 1 1
= - L eiy; - b
1-
L eAi - b
2
- L = - L e;y; =
N i=l N i=l N i=l N i=l
=N
1
L
N
(y; - b
1x'li
- =
i=l
1 N 1 N 1 N
- "'2 b ", I b ", ,_
- N i=-l Yi - 1 N i=-l XliYi - 2 N i=-l X
2iYi­
= S; - b
1
. Sy1 - b
2Sy2
[3.33]
En la anterior demostraci6n se ha tenido en cuenta la definici6n del error
e
i
como diferencia entre la end6gena observada y la estimada por el plano
e
i
= (y; - b
1x'li
- y el sumatorio de los errores por las ex6genas son
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
nulos como se demostr6 en la correlaci6n simple al deducir la expresi6n [3.12],
o sea
N N
.L eix'li = 0 y L = 0
i=1 i=1
o para que se cumplan las ecuaciones normales de la regresi6n, es decir las
expresiones [3.28].
Sustituyendo 10 que vale la varianza residual en el ajuste de un plano dado
por [3.33] en [3.32] tenemos:
2 _ [S; - b
1Syl
- b
2Sy2]
_
Ry . 12 - 1 - S2 ­
y
_S; - S; + b
1Syl
+ b
2SY2
_ b
1Syl
+ b
2Sy2
[3.34]
- S2 - S2
y y
La expresi6n [3.34] puede utilizarse para obtener R;'12 s6lo exc1usiva­
mente en el caso de la regresi6n lineal multiple de un plano.
La varianza residual la obtenemos de la expresi6n [3.33] y conocida esta
puede obtenerse la varianza explicada por la regresi6n S; '12 por diferencia
con la S;: '
S2 - S2 S2
[3.35]
y,'12 - y - rY'12
El coeficiente de correlaci6n es la raiz cuadrada del de determinaci6n. En
la correlaci6n multiple no tiene ningun sentido el estudio de la dependencia
positiva 0 negativa y por tanto el signo de su coeficiente ya que la pendiente
del plano puede ser positiva repecto a Xl y negativa respecto a X
2
0 viceversa:
1 _ S;y'12
[3.36]
R
Y
• 12 =
S2
y
• Coeficientes de determinacion y correlacion parcial en el ajuste de un plano
Al existir mas de una variable explicativa puede estudiarse la evoluci6n
conjunta 0 causas comunes entre la variable dependiente Ya Y la primera
independiente Xli permaneciendo constante la otra explicativa X
2i
< Luego s610
se estudia la influencia de Xli en Yti' Vimos en la correlaci6n lineal simple que
el coeficiente de determiaci6n se podfa obtener como producto de los coefi­
cientes angulares de la recta y]» de la xiy. Por analogfa el coeficiente de
\
166 167 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
determinaci6n parcial de Yti/Xli permaneciendo constante la Xz; sera el pro­
ducto de
b = oy,;
OXli .
1 OX
li
por b
'
1 oy,;
R;1.2 = b
1
. b; [3.37J
Sustituyendo el valor b
1
dado por la expresi6n [3.30J y por analogfa
cuando la Xli aetna de dependiente la Y,; de independiente sera donde pone
en la expresi6n [3.30J el subfndice uno poner Y y donde pone y poner uno:
b' = S1 . _R-,-,y
Sy 1 - R;z
Sustituyendo en 3.3 tendremos:
RZ - b b _ (RY1 - Ryz· R12f
' [3.38J
y1.Z - 1 1 - (1 - Riz) (1 - R;z)
El coeficiente de determinaci6n parcial de Y,Jx
z;
permaneciendo constante
XZi sera:
z _ I _ (R
yz
- R
y1·R12)Z
[3.39J
R
y
2.1 - b
z
. b
z
- (1 - Riz) (1 - R;l)
Los coeficientes de correlaci6n parcial son como siempre la raiz cuadrada
de los de determinaci6n:
R = RY1 - Ryz ·R12
[3.40J
y1.Z Jl - R
Z
. !1=-R
Z
i z V -. yZ
R = Ryz - Ry1"· R 12
[3.41J
yZ.l Jl - R
Z
. !1=-RZ
i z V 1 -. y1
Estos coeficientes variaran 10 mismo que en la correlaci6n simple entre -1
y + 1 dando sentido al signo de la dependencia parcial.
Ejemplo 3.15
Se han observado en cinco individuos varones mayores de 18 afios sus
niveles de gastos totales anuales, sus niveles de ingresos y el mimero de
habitantes que tienen las ciudades donde viven. Los gastos e ingresos vienen
expresados en millones de pesetas y los habitantes de las ciudades tambien en
millones. Los valores observados de las tres variables son los siguientes: Yi
(gastos): 1, 2, 3, 2, 4; Xli (ingresos): 1, 3, 4, 4, 5; XZi (habitantes): 1, 1, 2, 3, 4.
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Estos ejemplos son a titulo didactico ya que en los casos practicos reales se
manejan cientos de observaciones ya que una muestra representativa tiene
muchas mas observaciones de las caracterfsticas,
Se pide:
a) Estimar el plano de regresi6n de los gastos en funci6n de los ingresos
y el numero de habitantes de las ciudades donde viven, comentando el pro­
blema de la multicolinealidad.
b) Descomponer la varianza marginal de los gastos observados en varian­
za explicada par la regresi6n del plano y en varianza no explicada.
c) Obtener los coeficientes de determinaci6n y correlaci6n multiples.
d) Obtener los coeficientes de determinaci6n y correlaci6n parcial.
Solucion:
a) Para estimar el plano y = b
o
+ b
1
Xl + bzx
z
emplearemos las expresio­
nes [3.26J, [3.30J y [3.31]. Luego dispondremos los datos para obtener las
medias marginales, las varianzas y covarianzas que requieren dichas expresiones:
Yi Xli XZi yf xii xii Yi
X
l i YiXZi
X
1iXZi
1 1 1 1 1 1 1 1 1
2 3 1 4 9 1 6 2 3
3 4 2 9 16 4 12 6 8
2 4 3 4 16 9 8 6 12
4 5 4 16 25 16 20 16 20
12 17 11 34 67 31 47 31 44
Medias marginales:
_ 1 N 12
y = - L Yi = - = 2,4 Xl =3,4 X
z
= 2,2
5 i=l 5
La expresi6n [3.26J es:
b
o
= Y- b
1X1
- bzX
z
= 2,4 - b
13,4
- b
z2).
El valor de b
1
se calcula con la expresi6n [3.30J:
b = 8y. RY1 - Ryz . R12 .
1 8
1
1 - Riz '
168
169
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
luego hay que ca1cular las varianzas marginales S; y Si, S ~ asf como los
coeficientes de correlaci6n lineal simple: R
y 1
, (para calcular otros R
Y2
y R
12
coeficientes hay que obtener las covarianzas):
Varianzas marginales:
1 N _ 34
S2 = - L Y ~ - y2 = - - (24f = 6 8 - 5 76 = 104
y N i= I ' 5' , , ,
1 N 67
2
X
2
S2 = - L x . - = - - (34f = 134 - 11 56 = 184
1 N ;=1 11 1 5 ' , , ,
1 N _ 31
S2 = - L x
2
. - X
2
= - - (22f = 6 2 - 4 84 = 1 36
2 N i=l 2, 2 5 ' , , ,
Desviaciones tipicas:
!i84 = 136 fi36 s, = J1,04 = 1,02 S1 = V 1.,0'1' ., S2 = = 1,17.
Covarianzas:
Syl = N
1
.L
N
Yhi - YX
1
= 9,4 - 8,16 = 1,24
.=1
1 N
Sy2 = N i ~ 1 Yi X2i - YX2 = 6,2 - 5,28 = 0,92
1 ~ - _
S12 = N i:--l X liX2i - XIX2 = 8,8 - 7,48 = 1,32
Coeficientes de correlaci6n lineal simple:
s., 1,24 1,24
RY1 = s-:s = 102· 1 36 = 1 39 = 0,89
)l 1 , , ,
Sy2 0,92 0,92
R =--= =-=077
y2 s; S2 1,02·1,17 1,19 '
S12
1,32 1,32
--=-=083
R
12
= Sl,
S
2
1,36, 1,17 1,59 '
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Hay que resaltar que estos coeficientes de correlaci6n lineal simple s610 se
ca1culan a efectos de emplearlos en las expresiones [3.30] y [3.31] que nos
determinan los coeficientes de regresi6n parcial b
1
y b
2
• AI existir una fuerte
correlaci6n 0 multicolinealidad en sentido amplio entre Xli Y X
2;,
al ser
R
12
= 0,83, los R
Y1
y R
Y2
no nos pueden indicar el grade de dependencia entre
la variable end6gena y cada una de las ex6genas por separado. Para ella Xli
Y X
2i
tendrfan que estar incorrelacionadas cosa que no suele ocurrir en la
evoluci6n de caracteristicas socioecon6micas. Lo que hay que perseguir es que
la correlaci6n sea la menor posible entre las variables explicativas con objeto
de que b
l
y b
2
representen con la mayor nitidez posible las variaciones de Yti
ante variaciones unitarias de las variables explicativas.
Empleando las expresiones [3.30], [3.31] y [3.26], los coeficientes de re­
gresi6n parcial son:
Sy R
Y1
- R
Y2
. R
12
1,02 0,89 - 0,77·0,83
bl=S' 1-R2 =136' 1-069 =0,61
I 12' ,
_ Sy R
Y2
- ' _ 1,02 0,77 - 0,89·0,83 _ R
Y1
R
12
b
2
- S' 1 - R2 - 117' 1 - 069 - 0,084
2 12' ,
b
o
= 2,4 - 0,61· 3,4 - 0,084·2,2 = 0,215
El coeficiente b
1
es la derivada parcial de Yti respecto de Xli y significa que
al variar Xli en una unidad, permaneciendo constante X
2i
, la Yt; varia en 0,61
unidades. El b
2
de la variaci6n de Yti cuando la X
2i
varia en una unidad
permaneciendo constantes los ingresos Xli' Como se observa una elevada
multicolinealidad entre las variables explicativas estos coeficientes son inesta­
bles con 10 que su significado como propensiones marginales al gasto en
relaci6n con los ingresos 0 con el numero de habitantes no tienen excesiva
pureza. Seria conveniente modificar el diseno del modelo eliminando de la
regresi6n la variable numero de habitantes, que como se observa, al tener un
coeficiente de regresi6n parcial muy pequeno, no es relevante en la determi­
naci6n del gasto.
b) Derterminar la varianza explicada y la varianza residual.
Se parte de la igualdad S; = S;"12 + S;y'12'
La varianza marginal observada de la variable dependiente Yi ya la hemos
obtenido S; = 1,04. Luego si obtenemos la residual esta resuelto el problema.
Empleando la expresi6n [3.33];
S;y'12 = S; - b, Syl - b
2
S
y2
= 1,04 - 0,84 = 0,2
S;"12= S; - S;y .12 = 1,04 - 0,2 = 0,84
170
171
CASAS-sANCHEZ, J. M. y SANTOS-PEl'ilAS, J.
c) Coeficientes de determinaci6n y correlaci6n multiples.
• Coeficiente de deterrninaci6n multiple
2 = S;,oI2 = 0,84 = 081
RY· 12
S2 104 '
y ,
• Coeficiente de correlaci6n multiple
JR;.12 = 0,90 R
Y. 12
=
Como el coeficiente de determinaci6n es relativamente elevado podemos
conducir que el grado de fiabilidad del modelo como instrumento de predicci6n
es aceptable. Lo mismo ocurre con la dependencia global del gasto en relaci6n
con los ingresos y el numero de habitantes que se eleva, a un 90 % si el
coeficiente de correlaci6n multiple 10 expresamos en porcentajes.
<i) Coeficientes de deterrninaci6n y correlaci6n parcial.
Recurriendo a las expresiones [3.38] Y [3.39] tenemos:
(Ryl - R
y2'
Rd
2
(0,89 - 0,77· 0,8W
R2 - - - 050
yl.2 - (1 - Ri2)(l - R;2) - (1 - 0,69)(1 - 0,59) - ,
2 _ (R - ) 2 _ 0,77 - 0,89·0,77)2 _
Y2
R
YI
. R
12
RY2 ' 1 - (1 _ Ri2)(l - R;l) - (1 - 0,69)(1 - 0,79) - 0,10
Como sabemos el coeficiente de deterrninaci6n parcial R;1.2 estudia las
causas comunes que tienen las variables Yti YXli (niveles de gastos e ingresos)
permaneciendo constantes las que tengan Yti Y X2i, 0 sea una vez que se ha
efectuado la regresion de Yti sobre X
2i
. Una vez que hemos efectuado la regre­
si6n de los gastos sobre el numero de habitantes quedara una determinada
varianza residual 0 no explicada S;y'2 que debe reducirse con la introducci6n
en el modelo de la variable Xli; pues bien el que R;1'2 = 0,50 significa que al
incorporar Xli la S;y'2 queda explicada en un 50 % demostrandonos que es
una variable con un fuerte sentido explicativo dentro del modelo. Por el
contrario la incorporaci6n de X
2i
al modelo, una vez efectuada la regresi6n
con Xli' s610 reduce la varianza no explicada S;y'l en un 10 %. Loscoeficientes •
de correlaci6n parciales tienen signa positivo ya que todas las covariaciones
son positivas y seran:
JR;1.2 = 0,70 R
Y1' 2
=
= JR;2.1 = 0,32 R
YH
DISTRlBUCIONES DE FRECUENCIAS BIDIMENSIONALES
3.5.2. Ajuste de un hiperplano mediante
la utilizaci6n del algebra matricial
La regresi6n lineal multiple se estudia empleando el algebra matricial por
10 que recomendamos al lector que se ponga al ilia de los conocirnientos
basicos en esta materia: operaciones con matrices, reglas de trasposici6n,
determinantes, matriz inversa, rangos, etc. En este epfgrafe s610 daremos unas
nociones generales en una primera aproximaci6n al problema de la regresi6n
lineal multiple desde unpunto de vista descriptivo ya que en los cursos de
Introducci6n a la Econometrfa se estudia esta teorfa en profundidad introdu­
ciendose en el modelo probabilfstico.
Vamos a considerar la ecuaci6n de un hiperplano con una variable end6­
gena 0 dependiente (y) y k variables ex6genas 0 explicativas (x., X
2,
•••, X
k):
Y = b
o
+ blx
l
+ b
2x2
+ ... + bkx
k
[3.42]
Por otro lado sabemos que el valor i-esimo de la endogena observada es
igual al valor estimado 0 te6rico del modelo Yti mas el error 0 residuo e;
Yi = Yti + e
i
= b
o
+ b
lx1i
+ b
2x2i
+ ... + bkx
ki
+ e
i
[3.43]
Al tener en cuenta todas las observaciones muestrales de las variables, 0
sea para i = 1, 2, 3, ..., N, la expresi6n [3.4] se transforma en el siguiente
sistema de ecuaciones:
Yl = b
o
+ b
1
x
U
+ b
2
x
21
+ + b
kxk1
+ e
1
Y2 = b
o
+ b
1x12
+ b
2x22
+ + b
kxk2
+ e
2
[3.44]
YN = b
o
+ biXIN + b
2x2N
+ '" + bkx
kN
+ eN
El sistema [3.44] se puede expresar matricialmente:
[ ~ J [ i
Xu
X
12
X
1N
X2\
X
2 2
X2N
.
Xkl] [bO] [e
1]
X ~ 2 ~ 1 + e.
2
. . .
. . .
X
kN
i; e
k
es decir
Y = X b + e [3.45]
Como xb es la end6gena estimada la expresi6n [3.45] tambien toma la
forma matricial:
Y = Yt + e [3.46]
172
173
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, 1.
En las expresiones [3.45] y [3.46] existen los siguientes elementos matri­
ciales:
• El vector columna de las observaciones de la end6gena Y de dimensiones
(N x 1) ya que tiene N filas y una columna:
y{:]
• El vector columna de los (k + 1) coeficientes de regresi6n parcial b de
orden [(k + 1) x 1] ya que tiene k + 1 filas y una columna:
b ~ m
• El vector columna de los errores 0 residuos e de orden (N x 1) ya que
tiene N filas y una columna:
,{:]
• La matriz de las observaciones de las k variables explicativas x de orden
[N x (k + 1)] ya que tiene N filas y (k + 1) columnas. La primera co­
lumna es de unos ya que serfa el factor del coeficiente constante de la
ex6gena ficticia que afecta al termino independiente del hiperplano:
Xu
X
21
Xk1]
X
12
X
22
X
k2
x ~ [i
X
1N
X
2N
X
kN
DISTRIBUCIONES DE FRECUENCIAS BIDIMf:NSIONALES
• El vector columna de la variable end6gena estimada por el modelo 0
hiperplano de orden (N x 1) ya que es el resultado del producto xb cuyos
6rdenes son [N x (k + 1)] y [(k + 1) xI], resultando xb de orden
(N x I):
Yt1]
Yt 2
Yt = .
[
Y,N
Estos cinco elementos matriciales intervienen en todo .el proceso de la
regresi6n en sus variadas operaciones y transformaciones como se vera a
continuaci6n.
Nuestro problema consiste, como siempre, en estimar el vector de los
coeficientes de regresi6n parcial b empleando el metoda de los minimos cua­
drados. Hay que minimizar la suma de los cuadrados de los errores de las
distintas observaciones:
N N N
S = L e? = L (Yi - Yti)2 = L (Yi - b
o
- b
1xli
- ... - bkxkl [3.47]
i=1 i=1 i=1
Derivando parcialmente la expresi6n [3.47J respecto a las inc6gnitas que
son los coeficientes tenemos:
-
as
= 2 I
N
(Yi - b
o
- b
1xli
- ... - b
kxkJ(-I)
= 0
abo i= 1
as N
-;-b = 2 L (Yi - b
o
- b
1xli
- .,. - bkxkJ(-X
li
) = 0
u 1 i= 1
-
as
= 2 L
N
(Yi - b
o
- b
1xli
- ... - bkxkJ(-XkJ = 0
abk i= 1
Simplificando y operando tendremos el siguiente sistema de ecuaciones
normales minima cuadraticas:
N N N N
L Yi = Nb
o
+ b
1
L Xli + b
2
L X2i +... + bk L Xki
i=1 i=1 i=1 i=1
I
175
CASAS-sANCHEZ, J. M. Y J.
174
N N N N N
L XliYi = b
o
L Xli + b
1
L xL + b2 L X liX2i + ... + bk L XliXki
i=1 i=1 i=1 i=1 i=1'
.............................................................................................
N N N N N
L XkiYi = b
o
L X
ki
+ ». L x
1
h i + b2 L X 2hi + ... + bk L
i=1 i=1 i=1 i=1 i=1
Este sistema podemos expresarlo de forma matricial:
1 1
...
Y1
Xu
...
Xu
...
X
21
Xklli::
...
Xu X
12 1N
II Y2
X
12
li ...
X
12 X22
X
k2
X
... =
x
21
X
22
X
2N
• Y3 X21
X
22
...
X 2N
...
X 1N
X
2N
I I b XkN
x
k1
... •• 11 k ...
xk2
Xkl Xk2 x kN I I YN
[(k + 1) x N]
[N· (k + 1)], [(k + 1) x 1)
[(k + 1) x N], (N x 1)


/
[(k + 1) x 1)] [(k + 1) x (k + 1)] --..
[(k + 1) x 1]
x'y = x'xb
[3.48]
A la expresion [3.48] tambien se puede llegar operando directamente con
elementos matriciales. La suma de los errores e1evados al cuadrado puede
ponerse, segiin el algebra matricial, como producto del traspuesto del vector
de los errores por dicho vector:
L
N
ef = e'e = [y - xb]' [y - xb] = [y' - b'x'] [y - xb] =
i= 1
= y'y - y'xb - b'x'y + b'x'xb = y'y - 2y'xb + b'x'xb
[3.49]
En la demostraci6n anterior se ha tenido en cuenta que y'xb = b'x'y ya que
los escalares, como son los anteriores terminos, son iguales a sus traspuestos.
Derivando la expresi6n matricial [3.49] respecto al vector de las inc6gnitas
b e igualando a cero, como condici6n necesaria de minimo, tendremos el
sistema de ecuaciones normales mfnimo cuadraticas:
ae:«
ab = -2x'y + 2x'xb = 0
o sea
x'xb = x'y
[3.50]
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Si el sistema de ecuaciones normales [3.50] 10 ponemos de forma semide­
sarrollada, obteniendo los productos x'x y x'y, se vera el significado de sus
elementos:
N N N
N
L Xli
...
L X ki
b
o L Yi
i= 1 i=1 i=1
N N N N
L Xki L xt
...
L XliXki
b
1 L XliYi
i=1
...
i= 1
... ...
i= 1
.. .
=
i= 1
I
[3.51]
N N N N
L Xki L XkiX li
...
L
b
k L XkiYi
i= 1 i=1 i= 1 i=l
[(k + 1) x (k + 1)] ([k + 1) x 1] (k + 1) x 1]
En la expresi6n [3.51] se observa que la matriz x'x es cuadrada de orden
[(k + 1) x (k + 1)] Ydividiendo por N sus elementos obtenemos los momentos
de primer 0 segundo orden respecto al origen de las variables explicativas. El
producto x'y origina un vector columna que dividiendo por N nos proporcio­
na los momentos de primer orden de las end6genas respecto al origen y los
de segundo orden entre esta y las explicativas.
Como x'x es una matriz cuadrada podemos obtener su determinante [x'x]
y si es distinto de cero implica que es una matriz no singular y puede obtenerse
su inversa [x'xF
1
. Premultiplicando la expresi6n [3.50] por dicha inversa y
teniendo en cuenta que el producto de la inversa por la matriz dada es la
unitaria, tenemos que:
[x'xF
1
[x'x] b = [x'xF
1
x'y
[b = [x'xF
1
x'y I [3.52]
La expresi6n [3.52] nos proporciona las estimaciones de los elementos del
vector columna b que son los coeficientes de regresi6n parcial del hiperplano
[3.42]. La interpretaci6n de estos coeficientes es la misma que se ha dado en
el ajuste de un plano.
• EI problema de la multicolinealidad en el ajuste de un hiperplano
Para que se pueda aplicar la expresi6n [3.52] no puede existir ninguna
relackin lineal exacta entre cualquier subconjunto de variables ex6genas 0
176 177 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
explicativas. Si esto ocurre sabemos por eI algebra matricial que la matriz
[x'x] serfa singular, 0 sea que tendrfa determinante nuIo, [x'x] = Q, 10 que
imposibilitarfa el calculo de la matriz inversa [x' xJ -1 y como consecuencia
es imposible obtener el vector columna de los coeficientes de regresi6n parcial.
Ejemplo 3.16
Obtener los coeficientes de regresion parcial del plano del Ejemplo 3.15
utilizando la expresi6n [3.52].
Soluci6n:
b ~ [:} [xxr'xy
5 5
N
I Xli I X2i
5 17 11
i ~ 1 i ~ 1
5
.[x'xJ = I I Xli
5
I xii
5
I xliXU
17 67 44
i=l i ~ 1 i ~ 1
5 5 5
I X2i I X2iXli I X ~ i
11 44 31
i ~ 1 i ~ 1 i ~ 1
Vamos a calcular la [x'xr t. En primer lugar se obtiene el determinante
de la matriz por la regIa de Sarrus:
5 17 11
Ix'xl = 17 67 44J = 5·67·31 + 17·44·11 + 17·44·11-11·67·11­
11 44 31
I
- 17· 17·31 - 5·44·44 = 10.385 + 8.228 + 8.228 - 8.107 - 8.959 - 9.680 =
= 26.841 - 26.746 = 95
En segundo lugar obtenemos la matriz de adjuntos (menores complemen­
tarios con su signo):
141 -43
Adj [x'xJ = -43 34 -33
11]
[
11 -33 46
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Como es una matriz simetrica coincide con su traspuesta:
Adj [x'xJ = {Adj [x'x]}'.
Como sabemos, la inversa es:
141
-
95
43

95
11
-
95
[x'xr
1
=
{Adj [x'x]}'
=
Ix'xl
43

95
34
-
95
33

95
11
-
95
33

95
46
-
95
Veamos el valor de x'y que segun el sistema [3.51J es:
5
I
i ~ I
Yi I
I 12
5
x'y = I I
i ~ 1
XliYi I = I 47
5
I
i ~ 1
X2iYi I I 31
141
-
95
43
-
95
!! I 112\
95
10,13
b = [x'xr
1x'y
= j -
43
95
34
-
95
- 33 I. I 47 I =
95
I 0,62
11
-
95
33

95
46 I 131 I
95
10,074
Las diferencias de estos coeficientes de regresion parcial y los obtenidos en
el ejemplo 3.15 son debidas a los errores de redondeo ya que son coeficientes
muy pequenos con gran sensibilidad en su calculo.
• Forma matricial del coeficiente de determinacion mUltiple en el ajuste
de un hiperplano
La bondad del ajuste la obtenemos con el calculo del coeficiente de deter­
minacion multiple que sigue siendo la participaci6n de la varianza explicada
179
178
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
por la regresi6n sobre la varianza total de la end6gena observada. Estas
varianzas se pueden obtener tambien empleando el calculo matricial con los
elementos del modelo. Como sabemos los valores observados del vector co­
lumna Y son iguales a los estimados por el modelo Yt mas el vector columna
de las desviaciones 0 errores e:
Y = Yt + e = xb + e
Operando niatricialmente con estos elementos se demuestra igual que en
la regresion lineal simple que la varianza total de la end6gena S; es igual a
la varianza estimada por la regresi6n S;,.123 ...k mas la varianza residual S;Y·123 ..,k,
o sea:
S; = S;"123°O'k + S;Y'I23°O'k
El coeficiente de determinaci6n multiple sera:
S;"123°o.k
2 - 2
Ry·123°o.k - Sy
La varianza explicada por la regresi6n en su forma matricial sera:
2 1;' - 1 [N -J
SYl'123"'k = N .1. (Yti - Yf = N .L y ~ - NP = ..1
,=1 ,=1
1 ,72 1 - 1 ­
= N [Y;Yt - N r] = N [(xb)' (xb) - Ny
2]
= N [b'x'xb - Ny
2]
=
1 1 - 1 ,72
= - [b'x'x(x'x)- x'y - Nr] = - [b'x'y - N r]
N N
La varianza total de la variable end6gena sent:
1 N - 1 [N -J 1 -
Sy
2
= - L (Yi - Y)2 =- L yf - Ny2 = - [y'y - Ny2]
N i=1 N i=1 N .
Luego la expresi6n matricial del coeficiente de determinaci6n multiple en
la regresi6n de un hiperplano con termino independiente b
o
es:
R
2
_ bxy - Ny2
y' 123 ,.. k - - - - = - - - - - - - = . ~ [3.53]
y'y - Nr
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Ejemplo 3.17
Con los datos del Ejemplo 3.16 obtener la bondad del ajuste del plano.
Soluci6n:
Para obtener el coeficiente de determinaci6n multiple empleamos la expre­
si6n [3.53]:
b'xy ~ (0,13 0,62 0,074)(:;) ~ 32,994 ~ 33
Ny2 = 5· (2,4)2 = 5· 5,76 = 28,8
b'x'y - Ny2 ~ 33 - 28,8 = 4,2
5
y'y = I yf = 34
i=l
y'y - Nr = 34 - 28,8 = 5,2
2 4,2
R
Y
' 12 ~ 52
,
= 0,81
3.6. Ajustes no lineales por minimos cuadrados
En los eptgrafes anteriores se ha estudiado en profundidad la regresi6n
lineal ya que es la adecuada para explicar la mayorfa de los fen6menos de
naturaleza socioecon6mica. No obstante existen otras ocasiones en las que la
nube depuntos de los datos observados no se ajustan a funciones de natura­
leza lineal. Asi, por ejemplo, en el Grafico 3.8 figura a) representa una nube
de puntos a los que se ajusta un polinomio de segundo grado, a la b) una
funci6n exponencial, a la c) un polinomio de tercer grado y a la d) una
hiperbola equilatera, EI planteamiento de estos ajustes por el metodo de los
mfnimos cuadrados es analogo al estudiado en los casos lineales.
• Ajuste de una parabola 0 polinomio de segundo grado
El modelo que se pretende ajustar es:
y=a
O+a1x+a2
x2
[3.54]
181
180 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, 1.
y y
X x
XJX
x x
x/x
) X x XX
X
X X X X
xxXA
x
x x
(a) (b)
y y
X X
X X
X X
X X X
X X
X X
X X
X
X
XX
XX
X
X"';; X X v
x ~
X X
x
(c) (d)
GRAFICO 3.8. Los ajustes no lineales.
Para obtener los coeficientes se minimiza la expresi6n:
N
S = L [Yi - (a
o
+ a
1xi
+ azx;)]Z
i=l
obteniendo el sistema de ecuaciones normales del modo siguiente:
~ = o
oa
o
~ = o
oa
1
as = 0
oa
z
x
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Operando da lugar al siguiente sistema de ecuaciones normales:
N N N
L Yi = Nao + a1 L Xi + a
z
L X;
i=l i=1 i=l
N N N N
L Yi Xi = ao L Xi + a1 L X; + az L x ~
i=1 i=l i=l i=l
N N N N
L Yi X; = ao L X; + a1 L x ~ + az L xi
i=l i=l i=l i=l
Resolviendo el sistema obtendriamos los coeficientes de la parabola que
sustituidos en la expresi6n [3.54J da lugar al modelo ajustado. En este ajuste
el numero de observaciones tiene que ser mayor que tres que es el numero de
coeficientes a estimar. El ajuste puede generalizarse a polinomios de grado r
en general, para r + 1 < N, ya que habria r + 1 inc6gnitas 0 coeficientes.
• Ajuste de una hiperbola equilatera
La ecuaci6n de una hiperbola equilatera es la siguiente:
1
Y = a
o
+ a
1
­ [3.55J
X
Como sabemos la end6gena observada sera igual a la estimada mas el
error:
1
Yi = Yti + e
i
= a
o
+ a
1
- + e
i
Xi
Efectuando el siguiente cambio de variable:
1
z=­
X
nos quedarfa la ecuaci6n de una recta de Y sobre Z cuyo ajuste ya hemos
estudiado:
y=a
O+a1
z
182
183
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
• Ajuste potencial
La ecuaci6n de una funci6n potencial es:
al
y = aox [3.56]
La expresi6n [3.56] tiene la peculiaridad respecto a los que hemos estu­
diado hasta ahora de que no es lineal en los parametres, Cuando las funciones
son lineales en los parametres, como por ejemplo la hiperbola equilatera, basta
con hacer una transformaci6n en la variable para aplicar el metodo de los
minimos cuadrados. Si la funci6n que se desea estimar no es lineal en los
parametres, hay que transformarla en lineal previamente. En el caso que nos
ocupa basta con tomar logaritmos: .
logy = Iogc., + allogx
Si hacemos el siguiente cambio:
logy = u
logx = z
Iogz, = a
aplicamos el metodo minimo cuadratico al modelo lineal simple de U sobre Z:
u = a + bz
Una vez estimados a y b se sustituyen en la expresi6n [3.56] donde
a
o
= antilog a, Y al = b.
• Ajuste exponencial
La ecuaci6n de la funci6n exponencial es:
y = a
o
·al
Se transforma en lineal tomando logaritmos
logy = loga
o
+ x log a,
Haciendo el cambio de variable
logy = u
loga
o
= a
Iog a, = b
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Se ajustaria por minimos cuadrados el modelo lineal simple de U sobre X,
u = a + bx
Una vez estimados a y b se obtienen los verdaderos parametres deshacien­
do el cambio: a
o
= antilog a Y a
l
= antilog b.
En los casos del ajuste de una hiperbola equilatera, potencial y exponencial
vistos, el metoda de Gauss 0 de minimos cuadrados se aplica previa transfor­
maci6n de las variables.
Ejemplo 3.18
Disponemos de los datos siguientes del consumo X y precio Y de un
producto:
~ 1 2 3
Y 5 3 2
Ajustar a estos datos:
a) Una hiperb6la equilatera del precio sobre el consumo.
b) Una funci6n potencial.
c) Una funci6n exponencial.
Soluci6n:
Construimos la siguiente tabla
1
Xi Yi
z·=- z; = log Xi u, = log Yi
I Xi
1 1 5 1 0 1,6094379
2 2 3 1/2 0,6931471 1,0986123
3 3 2 1/3 1,0986123 0,6931471
1 1
a) Y = a
o
+ a
l
~ = ao + alz = 0,6538 + 4 , 3 8 4 6 ~
donde
ll
Y- -Z = 0,6538 a
o
=
- m - }
m
zo
m
ll
es la covarianza entre Y y Z
zo
es la varianza de Z
a
= m
ll
= 4 3846 m
1 ,
m
zo
184
185
CASAS.sANCHEZ, 1. M. YSANTOS-PENAS, J.
' b) y = ao·x
Q
= 6,3843·x-
l
, Z0 5 7
donde
u = log y = log a
o
+ b -Iog x = log a
o
+ bz'
siendo
- m ~ l -, m ~ l
log a, = U - -,-Z = 1,8538 y b = -,- = -1,2057,
m
zo
m
20
donde m'll es la covarianza de U y Z', Y m ~ o la varianza de Z'.
c) y = a
o
. ai = 1,2429· 0,6325
x
donde
- m ~ l -) m ~ l
u = log y = log a
o
+ x log a
l
= U - - X + x - =
(
m
zo
m
zo
= 0,2174418 - 0,4581453x,
siendo m'{ 1 la covarianza de U y X.
3.7. Estudio de la csoclcclen entre variables
cualitativas
En e1 estudio que hemos realizado de la regresi6n y correlaci6n se ha
tratado s610 el casu de variables cuantitativas (ingresos, gastos, precios, sala­
rios, etc.) a las que se les puede someter a todo tipo de calculos numericos
(sumas, restas, divisiones, etc.). Vimos en el Apartado 3.2.2 que con variables
de tipo cualitativo pueden construirse las denominadas tablas de contingencia
y a traves de las mismas se podia estudiar la independencvia estadistica entre
distintos atributos. Si dos atributos son dependientes estadisticamente pode­
mos construir una serie de coeficientes que nos midan e1 grado de asociaci6n 0
dependencia entre los mismos.
Partimos de la tabla de contingencia 3.4 en la que existen r modalidades
del atributo M y s del M'. El total de observaciones sera:
r •
N = L L nij
i= 1 j= 1
DlSTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
Como vimos la independencia estadistica se dara entre los dos atributos
si y s610 si:
nij = ni .. n.j
V i.] [3.57J
N N N
Si la expresi6n [3.57J no se cumple se dira que entre los mencionados
atributos existe un determinado grado de asociaci6n 0 dependencia estadistica.
Existe asociaci6n por ejemplo entre el myel educativo y los puestos de respon­
sabilidad ocupados en las empresas. Si de la expresi6n [3.57J despejamos la
frecuencia absoluta conjunta y la denotamos por n;j tendremos:
n
i
. ·n. j
n ; j = ~ [3.58J
Este valor n;j es la frecuencia teorica que existiria si los dos atributos fuesen
independientes. Vamos a Hamar nij a la frecuencia absoluta conjunta observada.
La diferencia al cuadrado entre estas dos frecuencias es un indicador del grado
de asociaci6n entre los dos atributos. Un primer coeficiente de asociaci6n 0
contingencia es el Ilamado cuadrado de contingencia:
2 r (' s
i j
X =.L L n - nil
[3.59J
,= 1 j= 1 n;j
Este coeficiente tiene un campo de variaci6n variable desde cero --cuando
existe independencia y n;j = n.r: hasta determinados valores, todos positivos,
que dependeran de las magnitudes de las frecuencias absolutas que 10 compo­
nen. Este inconveniente de limites variables se elimina con el empleo del
coeficiente de contingencia debido a K. Pearson que se define como:
IT
[3.60J
C=.vli+?
Su campo de variaci6n es de cero a uno. El valor cero se dara en el casu
de independencia al coincidir las frecuencias te6ricas con las observadas:
n;j = nij' A medida que se va aproximando a la unidad el grado de asociaci6n
entre los dos atributos es mayor. S610 alcanzara la unidad en el supuesto limite
de que el cuadrado de contingencia es muy grande ya que el limite de C
cuando X
Z
tiende a infinito es uno.
186
187
CASAS-sANCHEZ, J. M. y SANTOS-PE:t\lAS, J.
Ejemplo 3.19
A partir de la tabla del Ejemplo 3.7 determinar el grado de asociaci6n entre
los atributos estado civil y aceidentes automovihsticos,
Solucion:
La tabla de contingencia es:
Accidentes
Sin accidente n.
I.
Estado civil I Con accidente
I 5 35 40
Solteros
Casados
15 45 60
n.
j
20 80 100
En primer lugar construimos la tabla de frecuencias te6ricas n;j:
, nl.·n.
1
40 · 20
n =--=--=8
11 N 100
, nl. . n.
2
40·80
n =--=--=32
12 N 100
, n
2
. ·n.
1
60·20
n21 = ~ = 1 0 0 = 12
n
2
.: n.
2
60·80
n ~ 2 =~ =100 =48
TABLA. n;J
M:
J M'
I
M'
2
u,
M
1
8 32
M
2
12 48
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
En segundo lugar se obtienen los elementos de la X
2
:
( n ~ 1 - n11f = (8 - 5)Z = 1,125
n'
11
8
( n ~ 2 - nd
2
_ (32 - 35f = 0281
n'
12
- 32 '
( n ~ 1 - n21V= (12 - 15)2 = 0,750
n'
21
12
( n ~ 2 - nzz)2 _ (48 - 45)2
n ~ 2 - 48 = 0,188
(n;J - n
i
/
TABLA.
n ~ j
M'
M. <,
M'
J I I
M'
2
1
-
M
1
1,125 0,281
M
z I
0,750 0,188
El cuadrado de contingencia sera:
2 2 (n' - n )2
x
2
= L L ij , ij = 2,344
i= 1 j= 1 nij
A no ser cero este coeficiente nos indica que existe asociaci6n 0 dependencia
entre el estado civil y los accidentes. Para ver el grado en la escala de cera a
uno obtenemos el coeficiente de contingencia de Pearson:
c = _X_ _ 2,344
N + X2 -, H\O -l- '1 'lAA = )0,0229 = 0,1513 M; I
Como el coeficiente C esta muy pr6ximo a cera, se llega a la conclusion
de que la asociaci6n entre los dos fen6menos es muy baja.
189
Ejercicios
1. Un jefe de un establecimiento comercial quiere saber si el aumento en el
mimero de clientes potenciales que entran en sus almacenes, supone un aumen­
to en sus ventas. Para ella observa las variables estadisticas X (numero de
clientes potenciales) e Y (importe de las ventas), durante los seis dias de una
semana; los datos son:
Oia L M x J v S
X 87 63 70 55 90 105
Y 120 85 90 63 110 150
Sepide:
a) Las medias aritmeticas y varianzas marginales de X e Y.
b) La covarianza de X e Y.
c) Coeficiente de correlaci6n entre X e Y.
cl) La dependencia 0 independencia estadfstica entre X e Y.
e) Las rectas de regresi6n lineal de X sobre Y, y de Y sobre X.
Soluci6n:
- 1 1 235 _
a) X = 6(87 + 63 + 70 + 55 + 90 + 105) = 6 470 = 3 = 78,3 = a
l O
- 1 1
Y= 6(120 + 85 + 90 + 63 + 110 + 150) = 6618 = 103 = a
Ol
2 38.588 (470)2 ­
m
2 0
= a
2 0
- a
lO
= -6- - 6 ~ 295,2
1
a = -(87
2
+ 63
2
+ 70
2
+ 55
2
+ 90
2
+ 105
2)
=
20 6
1
= 6(7.569 + 3.969 + 4.900 + 3.025 + 8.100 + 11.025) =
1 _
= 638.588 = 6431,3
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
_ _ 2 _ 68.294 _
m 0 2 - a 0 2 a
Ol
- -6- - 103
2
= 773,3
1
a0 2 = -(120
2
+ 85
2
+ 90
2
+ 63
2
+ 110
2
+ 150
2)
=
6
1
= 6(14.400 + 7.225 + 8.100 + 3.969 + 12.100 + 22.500) =
1 _
= 668.294 = 11382,3
b) m ll = all - alOa
Ol
= 8.535 - 78,3. 103 = 466,6
1
all = 6 (87· 120 + 63·85 + 70·90 + 55·63 + 90· 110 + 105· 150) =
1
= 6(10.440 + 5.355 + 6.300 + 3.465 + 9.900 + 15.750) =
1
= 651.210 = 8.535
m l l 466,6 466,6
c) R = = ~ ~ 09766723
~ ~ J2952J773,3 17,182932·27,808871 '
Existe un grado de correlaci6n entre clientes potenciales y ventas del 97,6 %.
cl) R i= 0 => x e y son variables dependientes.
_ 466,6
e) X sobre Y: x - 78 3 = ---(y - 103)
, 773,3
466,6 _
Y sabre X: y - 103 = --(x - 78 3)
295,2 '
2. Calcular la varianza residual de Y sabre X, y de X sobre Y, asi como el
coeficiente de determinaci6n para los datos del problema anterior.
Soluci6n:
R
2
= 0,9538887 => 95,39 % de concasualidad.
S;y = m 0 2 (1 - R
2
) ~ 35,659342 varianza residual de Y sobre X
R
2
S;x = m20 (1 - ) ~ 13,61308 varianza residual de X sabre Y
190
191 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
3. Si b
x y
Yb
yx
son las pendientes de las rectas de regresi6n de X sobre Y, Y
de Y sobre X, demostrar que el coeficiente de determinaci6n, R
2
= bt>:y b
rx'
Soluci6n:
ll
bxy = mm } 2
02 2 _ m
ll
_ m
ll
m
ll
_
R - - --.-- - byxb
xy
m
ll
m
20m0 2
m
2 0
m
0 2
b =­
yx m
20
debido a la propiedad conmutativa del producto de mimeros reales.
4. Justiffquese si debe aceptarse 0 rechazarse que de unos datos relati­
vos a cierta variable bidimensional se ha obtenido que m
ll
= 40, m
2 0
= 16 Y
= 25. m
0 2
Soluci6n:
De ser ciertos estos momentos, podremos calcular el coeficiente de corre­
laci6n:
R = mll _ 40 40 40
~ . ; ; ; ; ; - Ji6J25 = 4:5 = 20 = 2 > 1,
que contradice que el coeficiente de correlaci6n debe estar comprendido entre
- 1 y 1: - 1 ~ R ~ 1. Debe rechazarse, por ser imposibles los datos.
5. A partir de un conjunto de datos sobre una variable estadfstica bidimen­
sional, se ha calculado la recta de regresi6n de X sobre Y, obteniendose los
siguientes resultados:
x = 2y - 18 ; R
2
= 0,9 ; a
Ol
= 19
Obtener por deducci6n logica la recta de regresi6n de Y sobre X.
Soluci6n:
La recta buscada es:
m
ll
y - = - (x - a
10
)' a
Ol
m
20
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
de la que conocemos a
Ol
= 19; por otro lado,
= m
ll
. m
ll
= m
ll
09 = R
2
. 2
, ,
m
20
m
0 2
m
20
siendo 2 la pendiente de la recta de regresi6n de X sobre Y, de donde la
pendiente de la recta de regresi6n de Y sobre X,
ll
9
m = 0,9/2 = 0,45 = 20
m
2 0
Luego s6lo queda determinar a
10
' pero la recta de regresi6n dada es
x - = 2(y - = 2(y - 19), a
lO
a
0 1
)
y coincide con
x = 2y - 18
de donde:
-18 = a
10
- 2·19 = a
1 0
- 38 = a
10
= -18 + 38 = 20
por 10 que la recta pedida, sustituyendo sent
y - 19 =
9
-(x ­
20
20) =
9
-x - 9
20'
o bien:
y =
9
-x + 10
20 '
o equivalentemente:
[! = 0,45x + 10 I
6. Entre los empleados de cierta empresa se dispone de la informaci6n de
sus salarios brutos al afio, que se han clasificado en dos intervalos: de 1 a 3
y de 3 a 7 millones de pesetas. Por otro lado se han encuestado a los asala­
riados sobre el numero de vehfculos a motor (incluyendo autom6viles, moto­
192 CASAS-sANCHEZ, 1. M. YSANTOS-PEN-AS, 1.
cicletas, camionetas y similares) adquiridos en los ultimos 5 alios. Los resul­
tados han sido:
Vehfculos, Y
<, I
0 1 2 3
Salario, X
1-3 2 3 1 0 6
l 3-7 0 0 1 2 3
9 2 3 2 2
Obtener:
a) La recta de regresion de Y sobre X.
b) La recta de regresi6n de X sobre Y.
c) El coeficiente de correlacion y el de detenninaci6n.
d) Si son ambas variables independientes 0 no.
e) La varianza residual de Y sobre X.
Soluci6n:
m
ll
13 11
a) Y - a
OI
= ;;;- (x - alO) ~ Y - - = -(x - 3)
20
9 18
1 1
a
l o
=-(2·6 + 5·3) = -(12 + 15) = 3
9 9
1 1 13
a
o
I = - (0· 2 + 1· 3 + 2·2 + 3 . 2) = - (0 + 3 + 4 + 6) = ­
999
m
2
0 = a20 - aio = 11 - 3
2
= 11 - 9 = 2
1 1
a
2
0 = 9"(2
2.6
+ 5
2.3)
= 9"(24 + 75) = 11
2 29 261 - 169 92 (13)2
m02 = a02 - aOI = 9' - 9 = 81 = 81
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 193
1 '1 29
cio2 = - (0
2
. 2 + 1
2
• 3 + 2
2
• 2 + 3
2
. 2) = - (0 + 3 + 8 + 18) = ­
999
50 13 50 - 39 11
mU=all-aIOaOI=9'-3'9= 9 =9'
9
1
all = - (2· 0 . 2 + 2· 1. 3 + 2· 2 . 1 + 2 . 3 ·0 + O· 5 ·0 + 1. 5. 0 +
1 50
+ 2·5·1 + 3·5·2) = - (6 + 4 + 10 + 30) =­
9 9
b) Aprovechando los calculos ya efectuados,
m
ll
x - -
~ x - 3 = 11/9 (Y _13) =
alO = -(y a
ol)
m
0 2
92/81 9
= 99 (Y _ ~ ) ~ x _ 3= 99 (Y _13)
92 9 92 9
c) Coeficiente de determinaci6n:
R
2
= ~ . 99 _ 1.089
18 92 - 1.656 ~ 0,6576087
Coeficiente de correlaci6n:
)1.089
R = sig(m
ll
).jR2 = + 1.656 ~ 0,8109307
d) R #- 0 ~ Variables estadfsticas dependientes. El salario de los emplea­
dos influye en el numero de vehfculos a motor adquiridos en
los ultimos 5 anos.
2 _ 2 _ 92 ( 1.089) ­
e) Sry - mo2(1 - R ) - 81 1 - 1.656 ~ 0,38
La variabilidad de Y no explicada por la recta de regresi6n de Y sobre X,
es del 38,8 %.
194
195
I
»
CASAS-sANCHEZ, J. M. Y SANTOS-PE"NAS, J.
7. De una variable estadfstica bidimensional (P, V) = (precio, ventas en tm.)
de cierto producto de consumo en diferentes dfas, se han ajustado las siguien­
tes rectas de regresi6n:
4P+ V=2}
25P + 16V= 9
Calcular el coeficiente de correlaci6n.
Solucion:
Las rectas seran:
I 1 25 9
P=--V+- y V=--P+- (1)
4 2 16 16
o bien:
16 9
V= -4P + 2 y P=--V+- (2)
25 25
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES
100 100
L c; = 100.000 L cf = 150.000.000
i= 1 i=1
100
L hic, = 50.030.000
;=1
HalIar:
a) La recta de regresi6n de C sobre H.
b) EI coeficiente de determinaci6n.
c) La varianza explicada por la recta obtenida de C sobre H.
Solucion:
m
ll
c - 1.000 = 190.300
a) c - = -(h - => a
OI
a
1 0
)
1.903.900(h - 310)
m
20
Donde
Si fueran ciertas la rectas de P sobre V y de V sobre P de (1), entonces:
~
100.000 = 1.000 litros 31.000 = 310 boras
aOI = 100 a
lO
= 100
R= - J( - ~ ) ( - ~ ~ ) = - ~ E [-1, 1] I
I.
Mientras que si las rectas de V sobre P y de P sobre V fueran respectiva­
mente las recogidas en (2), se deducirfa:
J
(
- 16) 8
R = - (- 4) 25 = -"5 rt [ - 1, 1],
donde - 8/5 no puede ser nunca un coeficiente de correlaci6n.
Luego:
R = -"8
5
= - 0,625.
8. De las estadfsticas de una variable bidimensional (H, C) = (horas de
trayecto, consumo de combustible en litros) de cierta flota mercante, se han
obtenido estos valores:
100 100
N = 100, L h; = 31.000 L ht = 200.000.000
;= 1 t> 1
j
m
20
= a
zo
- aio = 2.000.000 - 310
z
= 1.903.900
200.000.000 = 2.000.000 (horas)"
a
zo
= '"''
m
ll
= all - a
1 0
a
OI
= 500.300 - 310·1.000 = 190.300
50.030.000 = 500.300
all = 100
Z
b) R
Z
=
m
11 ~ 0,038042
mZom
oz
m
0 2
= a
0 2
- a ~ 1 = 1.500.000 - 1.000
2
= 500.000
150.000.000 = 1.500.000
a
oz
= 100
I
-- -- --
196 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
La explicaci6n puede deberse a que los buques de gran tamano y consumo
de combustible hagan muy frecuentemente trayectos breves, mientras que
los de menor tamafio y con sumo hagan tambien los trayectos largos en
horas.
c) S;c = m
0 2
(1 - R
2
) 480.978,996 es la variabilidad de C no explicada por
la recta de C sobre H.
Por todo ella, la varianza explicada por la recta de C sobre H, es:
m - S;c = m R2 = mi 1 = (190.300f
0 2 0 2 m 1.903.900 19.021,004 (litrosf
2 0
9. De la distribuci6n de una variable bidimensional se sabe que:
R=0,8 , , ' a
i 0
=3 , a
oi
= 4.
Obtener las rectas de regresi6n de Y sobre X, y de X sobre Y.
Solucion:
Y sobre X:
i i(x
y - = m - a
i 0)
= a
Oi m m x - ai 0) *
20 20
_0,8.j2.J8( -3)=1,6(x-3) * y=I,6x-O,8
y-4- " x
X sobre Y:
. 3,2 m
ll
x - a
i 0
=-(y - a
Oi
) * x - 3 =-(y - 4) = 0,4(y - 4)
m0
2
8
* x = 0,4y + 1,4
10. Estudiar si las siguientes variables, X == sexo, e Y == estado civil, son 0
no independientes. En el caso de haber dependeneia obtener el «cuadrado de
la contingencia»,
DlSTRIBUCIONES DE FRECUENCIAS BlDIMENSIONALES 197
Y
nij:
I
S C v
I

..
X
Y 80 52 20 152
H 48 52 12 112

.J
I 128 104 32 264 =N
Solucion:
Y
n;/
<,
j S C
.y
X
19.456 15.808 4.864
Y I -- -- -­
264 264 264
H
I
14.336 11.648 3.584
264 264 264
donde para ver si son X e Y independientes se debe verificar:
ni . -n,

i = 1,2 ; j = 1, 2, 3.
Por ejemplo:
19.456
= =1= n
ll
= 80 * X e Y son variables dependientes.
El cuadrado de la contingencia es:
2 3 (n'
j
- n )2
X
2
= L L i , ij 0,5390749 + 1,0366826 + 0,1347687 + 0,7316017 +
i= 1 j= 1 ni j
+ 1,4069264 + 0,1829004 = 4,0319547
I
;:}
198
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J. j
DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 199
j
11. Ajustar una parabola a los datos relativos al precio P y demanda D de
:1
cierto articulo si se han observado ambas variables conjuntamene en 4 dfas
-9=b· 351-
4
+c 3.403-37'4
:1 372) ( 351) I
(
consecutivos: . ,
1
351·37 351
2
~ . ' j l - 163 = b (3.403 - -4-) + c (33.603 - -4-)
Dfa i 1 2 3 4
. ~
. . ~ ~
D
PI 10 7 11 9
I 6 9 5 8
Soluci6n:
Debemos ajustar la funci6n D = a + bP + cp
2
, para ello resolvemos el
sistema de ecuaciones normales
444
L DI = 4a + b L Pi + C L Pf
i=l i=1 i=1
4 4 4 4
L o, Pi = a L PI + b L Pf + C L N
i=1 i=1 1=1 1=1
444 4
" D. p ~ = a " P ~ + b " P ~ + C " p ~
1...11 L.-t c: .. c:>,
i=1 i=1 i=1 i=1
que resulta ser:
28 = 4a + 37b + 351C}
250 = 37a + 351b + 3.403c
2.294 = 351a + 3.403b + 33.603c
37 351 ( 37 351 ) )
a = 7 - -b - -c = 250 = 37 7 - -b - -c + 351b + 3403c
4 4 44'
37 351 )
2.294 = 351 7 - 4""b - 4c + 3.403b + 33.603c
(
.j
j
( ~
9-- 35 b-- 625) c -36 = 35b + 625c }
"
'"
- - 4 4 = -652 = 625b + l1.211c
625 11.211
-163=4 b+-- c

1
b = - ( - 625c - 36)
35
625
- 625 =35 (- 625c - 36) + 11.211c
- 22.820 = c{- 390.625 + 392.385) - 22.500
de donde:
- 22.820 + 22.500 - 320 ~
c = 1.760 = 1.760 = - 0,18
y
1
b = - (-625c - 36) c:,; 221818
35 '
37 351
a = 7 - 4""b - 4c c:,; 7 - 20,518165 + 15,954545 = 2,43638
La parabola de regresi6n de D sobre P es aproximadamente:
I D = 2,43638 + 2,21818P - 0,181818p
2
I
12. Con los datos del problema anterior, calcular la varianza residual de D
sobre P y el coeficiente de determinaci6n R
2

200 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
Soluci6n:
,
1 4 1
S2 = - L (D. - D<!<f ~ - (0369
2
+ 01444
2
+ 0058
2
+ 0 4492
2)
~
rD 4 i=1 I I 4' , , , ­
1
~ 40,362157 = 0,09054,
donde:
Dr = a + bP 1 + cPi ~ 6,7273 + 1,2336· 10 - 0,1269· 10
2
~ 6,369
D ~ = a + bP2 + c P ~ ~ 6,7273 + 1,2336·7 - 0,1269· 7
2
~ 9,1444
D ~ ~ 4,942
D! ~ 7,5508
EI coeficiente de determinaci6n se calcula asf:
S;D 0,09054
R
2
= 1 - - ~ 1 - --= 0,963784,
m
0 2
2,5
donde
2 _ 206 2 _ 206 - 196 _ 10
m0 2 = - a0 1 - 4 - 7 - 4 - 4' a0 2
1 1 206
a
0 2
= 4(6
2
+ 9
2
+ 52 + 82) = 4(36 + 81 + 25 + 64) = 4
1 28
a0 1 = 4(6 + 9 + 5 + 8) = "4 = 7
Por tanto existe una concausalidad parab6lica del 96,38 % entre las varia­
bles estadfsticas P y D.
Capitulo 4
Numeros Indices
4. 1. Introducci6n
A 10 largo de los capftulos 2 y 3 se ha estudiado la descripci6n de variables
aisladas tanto cuantitativas como cualitativas asf como las relaciones entre
distintas variables a traves de la regresi6n y la correlaci6n. Las distribuciones
de frecuencias tanto unidimensionales como multidimensionales estan referidas
a un s610 perfodo temporal, 0 sea no se ha tenido en cuenta la variable tiempo
en el estudio de las variables economico-sociales. En el presente capitulo y el
que le sigue vamos a tratar de la descripci6n de fen6menos econ6micos a 10
largo del tiempo a traves de la construcci6n de 10 que se denominan mimeros
indices y el tratamiento clasico 0 descriptivo de las series temporales.
Existen un gran mimero de fen6menos econ6micos cuyo significado y
estudio alcanza distintos niveles de complejidad. Ejemplos de estos fen6menos
son 10 que se conoce como coyuntura econ6mica, nivel de inflaci6n, nivel de
desarrollo, etc. Los numeros indices que estudiaremos en el presente capitulo
constituyen el instrumental analftico mas adecuado para estudiar la evoluci6n
de una serie de magnitudes econ6micas que nos den respuesta a cuestiones
tales como si la coyuntura econ6mica es positiva 0 negativa, si el nivel de
inflaci6n es adecuado 0 no 0 si nuestro ritmo de crecimiento econ6mico
permite 0 no permite crear empleo neto positivo.
Un nnmero indice puede definirse como una medida estadistica que nos
proporciona la variaci6n relativa de una magnitud simple 0 compleja a 10
largo del tiempo 0 del espacio. Lo mas corriente es que se estudie la evoluci6n
de la magnitud a 10 largo del tiempo con 10 que hay que establecer 10 que se
conoce como periodo inicialo base sobre el que se va comparando la evoluci6n
de la magnitud 0 variable estadfstica. EI procedimiento de comparaci6n es
muy sencillo. Supongamos, por ejemplo, que queremos estudiar la evoluci6n
:1
I
202 203
"I
CASAS-sANCHEZ, 1. M. Y J.
de la producci6n de autom6viles, siendo X; el valor de la misma en el periodo
base (un afio determinado) y X, los autom6viles fabricados en otro perfodo t
distinto del base que se denomina periodo de comparaci6n. El Indice de evo­
luci6n de 0 a t expresado en tantos por cien sera:
X
I'. = ---! x 100 [4.1]
° X;
La expresi6n [4.1] toma el valor 100 en el periodo base ya que X, = X; Y
en los demas periodos fluctuara de acuerdo con la evoluci6n X; El hecho de
que < 100 implica que X, < X; (en el periodo de comparaci6n se han
producido menos autom6viles que en el base). Si > 100, X, > X
o
' indicando
que la evoluci6n ha sido positiva en el recorrido del periodo base 0 al periodo
de comparaci6n t.
La elaboraci6n de mimeros indices tienen sentido en las variables de
naturaleza cuantitativa. La expresi6n [4.1] esta definida por cociente con 10
que el Indice es independiente de las unidades de medida en que venga expre­
sada la variable con 10que se pueden efectuar agregaciones de distintos indices
construyendose indicadores de evoluci6n general de fen6menos econ6micos.
4.2. Clasificacion de los nurneros indices
Los nnmeros indices se clasifican atendiendo a la naturaleza de las mag­
nitudes que miden (simples 0 complejas) y a la importancia relativa de cada
componente dentro del conjunto en el caso de las complejas. Luego segiin esto
tendremos:
- Numeros indices simples que surgen cuando se estudia la evoluci6n a
10 largo del tiempo de una magnitud que tiene un s6lo componente (no admite
desagregaci6n). Seria e1 caso, por ejemplo, de estudiar la evoluci6n del precio
del queso manchego puro de oveja, de una determinada marca en los iiltimos
diez anos. Luego dada una magnitud simple Xi su mimero indice simple sera
en el periodo t el siguiente:
X.
I. =_,t X 100
[4.2]
It X
io
Siendo:
NUMEROS 1NDICES
- Niimeros indices complejos sin ponderar que surgen cuando se estudia
la evoluci6n de una magnitud que tiene mas de un componente y a todos se
les asigna la misma importancia 0 peso relativo. Asi, por el ejemplo, la mag­
nitud compuesta puede ser el precio de un conjunto de productos lacteos
(queso, leche y mantequilla) estableciendose la hip6tesis, por otro lado nada
realista, que los tres componentes tengan la misma importancia 0 peso en el
consumo de los hogares. Como en la realidad los componentes de una mag­
nitud compleja tienen pesos distintos, estos indices tienen poca utilidad en el
mundo econ6mico-empresarial.
Su elaboraci6n no plantea ninguna dificultad. Supongamos que la magni­
tud compleja que nos interesa tiene N componentes (1, 2, ..., i, ..., N). En primer
lugar se elaborarian los indices simples de cada componente I It' I
2t,
... , lit' ... ,
siendo el Indice complejo sin ponderar la media aritmetica simple todos I
Nt
;
ellos:
1 N 1 N x;
It = - L lit = - L - x 100 [4.3]
N i=1 N i=1 X io
- Numeros indices complejos ponderados surgen cuando a los componen­
tes de la magnitud compleja que se esta estudiando se Ie asigna a cada uno
un determinado coeficiente de ponderaci6n Wi' Este tipo de nnmeros indices
son los que realmente se emplean en el analisis de la evoluci6n de los fen6­
menos complejos de naturaleza econ6mica: fndice de precios de consumo
(IPC), indice de producci6n industrial (IPI), etc.
Su formulaci6n general es inmediata ya que basta con introducir en la
expresi6n [4.3] los coeficientes de ponderaci6n de los N componentes (WI' W
2
,
..., Wi' ..., W
N
):
N N
Xii X 100. Wi
L lit Wi
L
x;
i=1 i=1
It = N
N
[4.4]
L Wi L Wi
i= 1 i=1
4.3. Propiedades de los nurneros indices
1." Existencia: Todo numero fndice debe existir y se puede calcular para
cualquier valor de la variable, tomando un valor real y distinto de cero. I
lit = Numero indice en el periodo t de la magnitud i.
2." Identidad: Si se hacen coincidir los perfodos base y de comparaci6n el
Xit = Valor de la magnitud en el periodo t.
I
fndice vale la unidad si se expresa en tantos por uno 0 cien si es en
X
io
= Valor de la magnitud en el periodo base.
tantos por 100:
Los mimeros indices simples se emplean con gran difusi6n en el mundo de
X. X.
la empresa a 1a hora de estudiar las producciones y ventas de los distintos
lit = -----.!!. x 100 = x 100 = 100
articulos que fabrican y lanzan al mercado. x.; x;
'iI"-' '
:?,!
I
I
i
NUMEROS fNDICES 205
204 CASAS-sANCHEZ, 1. M. y SANTOS.PENAS, 1.
3." Inversion: El producto de dos indices en los que se han invertido los
periodos base y de comparaci6n es igual a la unidad:
1
l
it -_
= 1 => io - Iio
it
4." Cicular: Es una genralizaci6n de la de inversi6n. Si generalizamos a
tres perfodos t', t, 0, tendremos:
I!t' . I!' I!O = 1 => r: .I!t = = I!t
1.0 It' It 10 It' 10
5." Proporcionalidad: Si la magnitud varia en proporci6n 1 + K, y fijado
el perfodo de comparaci6n, el numero indice tam bien varia en la
misma proporci6n. Sea X;t = Xit + KX
it
= (1 + K) X
it
X;t _ (1 + K)X
it
= Xit + K.. Xit = lit + Kl; = (1 + K)I
it
I;t = -X. - X· X X
10 10 io' iO
Estas propiedades, que se cumplen en general para los numeros indices
simples, no suelen cumplirse todas en el caso de los indices complejos 0 de
varias componentes.
En los apartados siguientes nos ocuparemos de la elaboraci6n de indices
concretos; indices de precios, de cantidades, de valor, etc., que son los que mas
se utilizan en el campo econ6mico.
,
4.2. Indices de precios
La magnitud que vamos a considerar en este caso concreto es el precio,
los mimeros indices de precios se clasificaran tambien en:
Simples' (se estudia el precio
de un s610 productoo servicio)
Ntimeros
Sauerbeek
indices de
. {Sin ponderar {
(se Bradstreet-Dutot
precios
a un precio con vanos
Laspeyres
componentes)
Paasche
Ponderados
Edgeworth
{
Fisher
4.4.1. Indices simples de precios
Be designa la magnitud precio del unico componente del indice simple i
por Pi' Luego la expresi6n del Indice simple de un precio para el perfodo t sera:
P, = Pit X 100 [4.5]
.t Pio
Siendo:
Pit = Numero Indice simple de precios del componente i en el periodo t.
Pit = Precio del componente i en penodo t.
Pio = Precio del componente i en el periodo base.
Ejemplo 4.1
Los precios expresados en pesetas corrientes del litro de leche entera de
una determinada marca, en el periodo 1995-2000, han sido: 75, 77, 85, 89, 97
y 105. Obtener la sene de mimeros indices simples de la magnitud precio del
litro de leche tomando como periodo base 1990.
'I
206 CASAS-sANCHEZ, J. M. YSANTOS-PEI'lAS, 1. NUMEROS iNDICES 207
Si se observa la sene de los mimeros indices simples vemos la evoluci6n Solucion:
de la magnitud a 10 largo del perfodo observandose que de 199,5 a 1996 el
En primer lugar se obtienen los indices simples de los tres componentes:
precio ha crecido un 2,6 por 100 de 1995 a 1998 un 18,6 por 100 y en todo el
periodo un 40 por 100. Como se ha comentado anteriormente los indices, al
estar definidos por cociente no dependen de las unidades de medida,
II
Indices simples 1997 1998 1999
85 89 97
PI' = PH X 100 - x 100 = 100
85 x 100 = 104,7 85 x 100 = 114,1
4.4.2. Indices complejos de precios
PlO
85
sin ponderar
II
2.100 2.300 2.400
En este caso la magnitud precio es compleja ya que intervienen en su
definici6n varios componentes. Nos podemos plantear la evoluci6n de los
precios de los productos lacteos a traves de tres componentes: leche, queso y
mantequilla. El indice complejo se puede definir empleando dos criterios: el
de la media aritmetica simple 0 de Sauerbeck 0 el de la media agregativa simple
ode Bradstreet-Dutot.
a) Iodice media aritmetica de indices simpleso de Sauerbeck
En primer lugar si tenemos N componentes del precio se obtienen los
indices simples, Pit> para cada una, siendo el indice de Sauerbeck la media
'"\
aritmetica no ponderada de los mismos:
1 N 1 N .
P = - L: P, = - L: P,t x 100
[4.6J
s N i=l It N i=l Pio
Ejemplo 4.2
Los precios de la leche, el queso y la mantequilla, de una determinada
,.!:
marca, que ha pagado una familia en el periodo 1997-1999 han sido los :;{,
siguientes:
Artfculos 1997 1998 1999
1. Leche (ptas.zlitro) 85 89 97
2. Queso (ptas.zkg) 2.100 2.300 2.400'
3. Mantequilla (ptas.jkg) 900 1.200 1.400
Tomando como periodo base 1997 obtener laserie de los numeros indices
. complejos sin ponderar de Sauerbeck del precio de los productos lacteos
consumidos en la familia.
Pz,=PZt x 100 -- x 100= 100 --0 x 100 = 109,5 - ~ x 100 = 1143
Pzo
2.100 2.10 2.100 '
900 1.200 1.400
P = P3t X 100
- x 100 = 100
3'
900 x 100 = 133,3 900 x 100 = 155,6
900
P30
.En segundo lugar se aplica la expresi6n 4.6 para las tres componentes
siendo la serie de los indices de Sauerbeck:
1 N Pi'
Alios P, = -. L - x 100
N ;=1 Pio
1 3 Pia 1
1997 - L - x 100 = -·300 = 100
3 i= 1 Pia 3
1 3 Pit 1
1998 - L - x 100 = -. 347 5 = 1158
3 ;=1 Pia 3' ,
1 3 Pit 1
1999 - L - x 100 = -·3840 = 1280
3 ;=1 Pm 3' ,
Observando esta serie de indices complejos sin ponderar vemos que el
precio de los productos lacteos ha aumentado un 28 por 100 en el perfodo
1997-1999.
b) Iodice media agregativa simple 0 de Bradstreet-Dutot
El concepto de media agregativa se emplea s610 en la elaboraci6n de
mimeros indices. En el indice de Sauerbeck se obtiene una media aritmetica
de indices de precios simples relativos ya que los indices simples son cocientes
de precios de los penodos de comparaci6n con el base. La media agregativa
208 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS. J. NUMEROS 1NDrcEs 209
se define como el cociente entre la media aritmetica simple de los N precios
en el momenta t de comparaci6n y la misma media en el perfodo base 0:
1 N N
N.I .I Pit Pit
P
BD
= 1 ';1 X100= ';1 X100 [4.7]
N .I I Pio Pio
• =1 i=l
Ejemplo 4.3
Obtener el Indice de Bradstreet-Dutot para los datos del ejemplo 4.2
tomando como periodo base 1997.
Soluci6n:
En primer lugar obtenemos el numerador y denominador de la expresi6n
[4.7] sumando simplemente las column as del ejemplo 4.2:
Aiio
L
3
Pi'
i=l
PHD = -3-- X 100
L Pio
i=1
3.085
1997
3.085 X 100 = 100
3.589
1998
3.085 X 100 = 116,3
3.897
1999
3.085 x 100 = 126,3
4.4.3. Indices complejos de precios
ponderad6s
Este tipo de indices son los mas representativos del fen6meno que se
pretende estudiar y por tanto son los que se utilizan realmente. Los indices
complejos sin ponderar tienen el grave inconveniente que a todos los compo­
nentes se les da el mismo peso cuando en los casos reales de los fen6menos
econ6micos esto no ocurre. Lo que se gastan las familias en leche es mucho
mayor que 10 que se gastan en queso 0 mantequilla, por ejemplo.
Otro grave inconveniente que tiene el Indice de la media agregativa es que
al sumar precios absolutos, no relativos, depende de las unidades de medida
de la variable. Asi si el precio de la mantequilla en vez de expresarse en kilos
se refiere a 250 gramos, evidentemente el sumatorio varia y el indice agregativo
tam bien. Estos problemas se eliminan con la construcci6n de indices complejos
y ponderados que vamos aver seguidamente.
a) Iodice de precios de Laspeyres
La distinta tipologfa de indices de precios complejos y ponderados surge
en relaci6n con los coeficientes de ponderaci6n que se utilizan para cada
componente. Estos coeficientes asignan a cada elemento la importancia rela­
tiva que tiene dentro del conjunto. Los indices de precios que pueden elaborarse
son muy variados si tenemos en cuenta el circuito de las transacciones econ6­
micas: precios de salida de fabrica, al por mayor, al consumidor, etc. Las
ponderaciones que se utilicen estaran basadas en el valor de las traosaceiooes en
la fase comercial que se considere. Si son precios al por mayor, sera el valor de
las transacciones entre mayoristas y minoristas; si son precios al consumidor
seran los valores de los intercambios entre el comercio minorista y los con­
sumidores.
El Indice de precios de Laspeyres utiliza como coeficientes de ponderaci6n
el valor de las transacciones en el periodo base. En economia entendemos por
valor el producto del precio por la cantidad: Vio = Pio' qio' Luego si en la
expresi6n 4.6 que es el complejo sin ponderar introducimos estos coeficientes
de ponderaci6n Wi = Pio' qiopara cada componente tendremos:
N h N h N
I - Wi I - Pioqio I Pitqio
P = i=l Pio X 100 = i=l Pio X 100 = i=l X 100 [48]
L N N N •
I Wi I v;qio I Pio s;
i=l i=l i=l
El Indice de precios de Laspeyres tiene la ventaja de que las ponderaciones
Pio qio del periodo base se mantienen fijas para todos los periodos considerados;
pero por contra aparece el inconveniente de que su representatividad dismi­
nuye a medida que nos alejamos de dicho periodo.
b) Iodice de precios de Paasche
Este Indice surge cuando en una media de indices simples se introduce
como coeficientes de ponderaci6n la expresi6n Wi = Pio qit; 0 sea las cantidades
210 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
del periodo de comparaci6n qit se valoran con precios del periodo base Pio:
N Pit N Pit N
L - Wi L - Pioqit L Pitqit
P = i=l Pio X 100 = i=l Pio X 100 = i=l X 100 [49]
p N N N •
L Wi L Pio qit L Pio s«
i=l i=l i=l
En la expresi6n [4.9] puede observarse que las ponderaciones ya no son
fijas sino variables. EI Indice de Paasche tiene la ventaja de que los pesos
relativos de los distintos componentes se actualizan en cada perfodo, con el
agravante de complejidad y costes de tener que contabilizar precios y canti­
dades en cada perfodo, mientras que en la expresi6n [4.8] s610 se actualizan
peri6dicamente los precios Pit.
c) Iodice de precios de Edgeworth
En este Indice se utiliza como coeficientes de ponderaci6n la suma de los
utilizados en los casos de Laspeyres y Paasche:
Wi = Pioqio + Pioq,t
Luego su expresi6n sera:
N Pit N Pit
L - Wi L - (Pio qio + Pio q,t)
P = i=l Pio X 100 = i=l Pio X 100 =
E N N
L Wi L (Pio «: + Pio qit)
i=l i=l
N
L Pit(qio + qit)
i;l x 100 [4.10]
L P,o(qio + q,t)
i= 1
La expresi6n [4.10] tambien puede adquirir la forma siguiente que es mas
practica para su calculo:
N N
L Pitq,o + L Pitqit
P
E
= i=
N
1 i=
N
1 X 100
[4.11]
L P,o qio + L Pio qit
,=1 i=l
NUMEROS fNDICES 211
d) Iodice de precios de Fisher
Este Indice se define como la media geometrica de los indices de Laspeyres
y Paasche:
PF=JPL·PP
[4.12]
Ejemplo 4.4
Ademas de los precios de la leche, el queso y la mantequilla, para el perfodo
1997-1999 del Ejemplo 4.2, tenemos las cantidades que ha consumido la fami­
lia en dicho perfodo concentrandose la informaci6n estadfstica en la siguiente
tabla:
Utilizando los datos del anterior cuadro obtener los indices de precios de
Laspeyres, Paasche, Edgeworth y Fisher de 1999 tomando como perfodo base
1997.
Solucion:
En primer lugar vamos a obtener una tabla de calculos donde se incluyan
los valores de los numeradores y denominadores de las expresiones [4.8], [4.9]
y [4.11].
Artfculos
Pi97' qi97 Pi99' qi97 Pi99' qi99 Pi97' %99
1. Leche 51.000 58.200 67.900 59.500
2. Queso 63.000 72.000 108.000 94.500
3. Mantequilla 13.500 21.000 28.000 18.000
Sumas 127.500 151.200 203.900 172.000
213
212 CASAS-sANCHEZ, J. M. y SANTOS-PEf.l"AS, J.
3
"'-9' qi97 L
i=1
PL = t X 100 = 127.500 X 100 = 118,6
Pi97' qi97
i= 1
3
"'-9' qi99 L
P
P -
_
-:3:;----- X =
i=1
100
I 172.000 X 100 = 118,5
Pi97' qi99
i=1
3 3
I Pi99' qi97 + I Pi99' qi99
151.200 + 203.900
P = i=1 i=1
E 3 3
X 100 = 127.500 + 172.000 X 100 =
I Pi97 • qi97 + I Pi97' qi99
i= 1 i=1
_ 355.100
- 299.500 X 100 = 118,6
P
F
= J118,6 X 118,5 = 118,5
4.5. indices de cantidades 0 cuenftcos
Para cualquier magnitud, y por supuesto para las cantidades, siempre se
podran elaborar mimeros indices simples (se analiza un s610 componente),
complejos sin ponderar (utilizando cualquier tipo de media sin ponderar en
los indices simples relativos 0 utilizando el concepto de media agregativa).
Luego en los indices complejos sin ponderar siempre se podran construir
indices de Sauerbeck y de Bradstreet-Dutot cuando exista homogeneidad entre
los componentes incluidos en el Indice, Para no ser repetitivos al tratar las
cantidades vamos a formular s610 los indices complejos ponderados de Las­
peyres, Paasche, Edgeworth y Fisher.
En economia existe una gran variedad de cantidades, pero las mas rele­
vantes son los volumenes producidos por las empresas de una serie de artfculos
que son demandados bien por las propias empresas (bienes intermedios 0 de
producci6n) 0 por las familias (bienes de consumo fmal). Los indices cuanticos,
complejos y ponderados miden la evoluci6n de estas magnitudes a 10 largo
del tiempo estableciendose los adecuados coeficientes de ponderaci6n.
NUMEROS fNDICES
• Indice cuantico de Laspeyres
Los coeficientes de ponderaci6n que se introducen en la f6rmula de la
media aritmetica de indices cuanticos simples son Wi = qio' Pio' siendo qio las
unidades producidas 0 consumidas del componente i en el perfodo base y Pio
puede ser el precio final de venta si nos referimos a cantidades vendidas 0
consumidas 0 puede ser el valor aiiadido por unidad producida si nos referimos
a un Indice de cantidades producidas. Hay que tener en cuenta que el valor
anadido por unidad es equivalente a un precio que nos da la verdadera
importancia relativa del componente. La formulaci6n sera:
N qit N qit N
I -'Wi I -'qioPio I qitPio
Q
= i=1 qio X 100 = i=1 qio X 100 = i=1 X 100 [413]
L N N N •
I Wi I qio Pio I qio n;
i=1 i=1 i=1
Esta expresi6n de Laspeyres es la que mas se utiliza, ya que nos da la
evoluci6n de la cantidad en terminos reales 0 constantes al utilizar los precios
del perfodo base.
• Indice cuantico de Paasche
En este caso los coeficientes de ponderaci6n, con el mismo sentido econ6­
mico del Indice de Laspeyres, de precio fmal 0 valor afiadido por unidad, segun
sean cantidades consumidas 0 producidas, seran Wi = qio' Pit. La formulaci6n
sera la siguiente:
N qit N qit N
I -'Wi I -'qioPit I qitPit
= i=1 qio X 100 = i=1 qio X 100 = i=1 X 100
Q [4.14]
P N N N
I Wi I qioPit I qioPit
i= 1 i= 1 i= 1
En la expresi6n [4.14] de Paasche puede observarse que se utilizan los
precios de cada perfodo de comparaci6n, al variar t.
• Indice cuantico de Edgeworth
En este caso, igual que ocurrta en el fndice de precios, el coeficiente
de ponderaci6n es la suma de los utilizados por Laspeyres y Paasche:
Wi = qio' Pio + qio Pit· Su desarrollo sera:
214 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J. NUMEROS iNDICES 215
N qit N qit
3
L: -. Wi L: -(qioPio + qioPit)
L:
i= 1 qitPio . 155.450 X 100 = 122,00
= i=l qio X 100 = i=l qio X 100 =
QE N N
QL=3
-- X 100 = 127.500
L: Wi L: (qio Pio + qioPit) L: qioPio
i= 1 i=1 i=1
N N N
3
L: qit (Pio + Pit) L: s« Pit qit Pit
.)0 = ,_. qitPio + L:
L:
i= 1 X 1
1
•• .. i= 1
i=1 1/1."tJV
N "
N
[4.15J Qp = 3 X 100 = .. ~ . ~ ~ X 100 = 122,12
L: qio(Pio + Pit) L: qioPio + L: qioPit
L: qioPit
i=l i=l i=l ;= 1
3 3
• Iodice cuantico de Fisher
L: s« Pio + L: qitPit
155.450 + 171.450
QE = ;;1 i ~ l
Como sabemos sera la media geometrica de los indices cuanticos de Las­ x 100 = 127.500 + 140.400 X 100 =
peyres y Paasche: L: qioPio + L: qioPit
i=1 ;= 1
QF= JQL·Qp [4.16J
326.900
267.900 x 100 = 122,02
Ejemplo 4.5
De la tabla de precios y cantidades del Ejemplo 4.4 obtener los indices
QF= JQL' Qp = J122 X 122,12 = 122,06
cuanticosQv Qp, QE y QF de 1998 tomando como perfodo base 1997.
Solucion: Ejemplo 4.6
Los datos que hay que manejar de la mencionada tabla son:
En una industria auxiliar del autom6vil se fabrican tres componentes. La
estadfstica de las unidades producidas en los afios 1998 y 1999 y de los valores
1997 1998
afiadidos (v.a.) por unidad expresados en pesetas son los siguientes:
Artfculos
Pio qiO
Pi'
qt,
1. Leche 85 600 89 650
2. Queso 2.100 30 2.300 40
3. Mantequilla 900 15 1.200 18
Con est os datos obtenemos los numeradores y denominadores de las Ex­
presiones [4.13J, [4.14J Y [4.15].
Artfculos
q;o'PiO q,,'PiO qiO' Pit qi,'Ptt
Obtener los indices de producci6n de Laspeyres y Paasche de 1999 con
1. Leche 51.000 55.250 53.400 57.850
base 1998 = 100.
2. Queso 63.000 84.000 69.000 92.000
3. Mantequilla 13.500 16.200 18.000 21.600
Solucion:
Sumas 127.500 155.450 140.400 171.450
Seguidamente obtenemos los numeradores y denominadores de QL y Qp:
216 217 CASAS-sANCHEZ, J. M. Y SANTOS-PEN"AS, J.
Componentes qto'PIO qto'Pil qt,'PiO qt,'Pi'
1
2
3
100.000
80.000
180.000
125.000
96.000
210.000
120.000
100.000
300.000
150.000
120.000
350.000
Sumas 360.000 431.000 520.000 620.000
3
L,qitPio
QL = i ~ l X 100 = JL,V.VVV
L 360.000 x 100 = 144,4
qioPio
i=l
3
L qitPit
Qp = i ~ l X 100 = OL,V.VVV
.L qioPit 431.000 x 100 = 143,9
,=1
4.6. Propiedades que cumplen los indices
complejos y ponderados de precios
y cantidades
Al estudiar de una forma generica los numeros Indices se coment6 que
debenan de cumplir una serie de propiedades ideales: existencia, identidad,
inversi6n, circular y de proporcionalidad. Asf como los indices simples las
cumplen en su gran mayorfa, los complejos y ponderados no cumplen algunas
de ellas.
En el cuadro siguiente se resume el cumplimiento de las propiedades
indicadas en el apartado 4.2 para los diferentes fndices.
es
Proporcio-
Existencia Identidad Inversi6n Circular
nalidad
Sanerbeek Sf Sf No No Sf
Bradstreet-Dutot Sf Sf Sf Sf Sf
Laspeyres Sf Sf No No Sf
Paasche Sf Sf No No Sf *
Edgeworth Sf Sf Sf No Sf *
Fisher Sf Sf Sf No Sf *
NUMEROS fNDICES
La propiedad de proporcionalidad en los indices de Paasche, Edgeworth
y Fisher se verifica pero con cierta limitaci6n en el campo econ6mico, pues al
variar los precios en una cierta proporci6n k diffcilmente las cantidades per­
maneceran constantes. Luego para que se verifique esta propiedad en estos
tres indices sera necesario que las cantidades no vanen frente a los cambios
de precios.
En resumen, el Indice de Bradstreet-Dutot es el que cumple todas las
propiedades pero su utilizaci6n es muy limitada por tratarse de un indice no
ponderado.
EI Indice mas utilizado sera el de Laspeyres, pues de los ponderados es el
nnico que cumple la propiedad de proporcionalidad.
El Indice de Laspeyres, tanto de precios como cuantico, es el mas utili­
zado en los indicadores generales de precios y producci6n que elaboran
todos los pafses. Su disefio y posterior calculo exige una rigurosa selecci6n
de sus componentes para que sea representativo del fen6meno que se pre­
tende estudiar a traves de su estructura de coeficientes de ponderaci6n que
como sabemos se refieren al perfodo base. Ahora bien, la actividad econ6­
mica esta sujeta a cambios continuos con 10 que a medida que en la serie de
nnmeros indices nos alejamos del perfodo base, la estructura de los coeficien­
tes de ponderaci6n es cada vez menos representativa con 10 que hay que fijar
un nuevo perfodo base y establecer con las investigaciones adecuadas una
nueva estructura de ponderaciones. En los enlaces de series de numeros
indices que tienen distinta base nos apoyamos en la propiedad de inversi6n
que como se ha indicado anteriormente no la cumple el Indice de Laspeyres;
pero se actua en la practica como si se cumpliera ante la necesidad de
efectuar dichos empalmes.
..
4.7. Indices en cadena
Los indices estudiados anteriormente y, en concreto, el de Laspeyres y el
de Paasche, frecuentemente los mas utilizados para hacer un estudio a corto
plazo, pero si el estudio es a largo plazo estos Indices no son los mas adecua­
dos, pues las ponderaciones quedan desfasadas con el paso del tiempo y no
corresponden a la situaci6n actual y la base se aleja perdiendo actualidad y
en consecuencia calidad.
Para evitar esto se introducen los indices en cadena, que se obtienen a partir
de una generalizaci6n de enlaces 0 emplames de indices para los cuales la base
de cada Indice es siempre el perfodo de comparaci6n del fndice precedente, es
decir:
I ~ = I ~ .Ii· .... I ~ - l
218
219 CASAS-sANcHEZ, J. M. Y SANTOS-PENAS, J.
10 cual nos permite obtener una serie de indices referidos todos ellos a la
misma base.
1
1
o
I; = I:. Ii
I; = I: .Ii .
r" = I:·Ii· ... .1:-
1
Ejemplo 4.7
Los precios de un determinado articulo han sido 20, 22, 26, 28 y 32 euros
para el periodo 1998-2002, respectivamente. Obtener la serie de indices refe­
ridos a! ano base 1998 y el indice para esos precios.
Soluci6n:
Aplicando la definici6n de Indice en cadena mediante la generalizaci6n de
valores tenemos:
1999-,22_ 0
1 19 9 8 - 20 - 105,5 Vo
2000 _ 1999 2000 _ 22 26 _ 0
1 19 9 8 - 11998.11999 - 20'22 -130 Vo
1
20 0 1
= 11999.12000.12001
1998 1998 1999 2000
20 0 2 11999 12000 12001
22 26 28
= -.-.- = 140%
20 22 26
1
1998 -
_
1998' 1999' 2000' 2001
Al mismo resultado se Began mediante
32
1
20 0 2
= - =
1998 20
12002 _ 22 26 28 32 _ 1600 /
- 20' 22' 26' 28 - /0
160%
4.8. Cambio de base en una misma
de numeros indices
Si se tiene una serie de mimeros indices cuyo periodo base es cero: I:,
I;, ..., ..., I:, puede interesarnos cambiar la base 0 si esta muy alejada en el
tiempo del perfodo t de comparaci6n. Este cambio del periodo base no
irnplica efectuar un profundo estudio para determinar nuevos coeficientes de
NUMEROS iNDICES
ponderaci6n en el caso de los indices complejos, sino sirnplemente apoyarse
en las propiedades de inversi6n y circular que nos permiten obtener el coefi­
ciente tecnico que transforma la serie dada en la nueva con un perfodo base
distinto.
Supongamos que la serie dada con perfodo base 0 se quiere transformar
,
: .
en una nueva con un periodo base t' que este mas cercano en el tiempo al
perfodo actual de comparaci6n. Esta claro que en la serie dada existirfa un
nnmero Indice que corresponde a! nuevo perfodo base que se ha elegido t'.
Pues bien, este es el elemento fijo que nos sirve de enlace tecnico en la
transformaci6n de una serie en otra. Al considerar los tres perfodos (t', t, 0),
la propiedad circular nos dice:
[4.17]
De la expresi6n [4.17] nos interesa despejar la nueva serie de indices con
el nuevo perfodo base t', 0 sea:
1
1(1'=,---=1'
[4.18]
o ( 0
La expresi6n [4.18] surge de la propiedad de inversi6n que dice = 1 (el
producto de dos indices en los que se han invertido los penodos de compa­
raci6n y base es igual a la unidad). Despejando en la expresi6n [4.18]:
I'
o

[4.19]
o
La expresi6n [4.19], al ser un cociente de indices expresados en tantos por
100, nos da resultados en tantos por uno. es el terrnino general de la serie
dada de nnmeros indices y varfa desde I: = 100 hasta
Es decir, si tenemos la serie de numeros indices referidos a! perfdo base
oy queremos efectuar un cambio de base del periodo 0 al nuevo perfodo base
t', tendrfamos la serie I:,:
Periodo
o
1
Indice

0
11
0
Indice I:.


r.
0
I:.
t' I"
0
I:: = 100
It
0
I:.
220
,
CASAS-sANCHEZ, J. M. y SANTOS-PE:&AS, 1.
en donde:
Ii
I;, = --f, , i = 0, 1, ..., t', ..., t
1
0
el termino es fijo ya que es el valor que toma la serie dada justo en t', que
es el nuevo perfodo base.
Se denomina coeficiente de transformacion 0 coeficiente de enlace tecnico de
la serie dada en base °a la nueva serie en base t', al cociente:
= = 100
[4.20]
P' ----;t'
o 1
0
luego para pasar una serie en base °a un nuevo perfodo base t', bastara
multiplicar cada uno de los elementos de la serie original, por el coeficiente
de transformaci6n a la nueva base t', es decir, por
Ejemplo 4.8
Dada la siguiente serie de numeros indices conperfodo base 0, efectuar un
cambio de base al perfodo 5.
Periodo (t) Indices (n)
o 100
1 108
2 112
3 114
4 115
5 117
6 119
7 123
Soluci6n:
El problema se puede resolver de dos maneras:
a) Aplicando la expresi6n [4.19] expresada en tantos por 100:
I
221 NUMEROS iNDICES
P

5
100
1° = - = - x 100 = 85 5
5 117 '
I: 108
1
1
= - = - x 100 = 92 3
5 117 '
1
2
112
1
2
= = - x 100 = 95 7
5 117 '
3 _ I; _ 114 _
Is - IS - 117 x 100 - 97,4
I:
o
115
1
4
= - = - x 100 = 98 3
5 117 '
5 _ _ 117 _
Is - IS - 117 x 100 - 100,0
o
6 119
I = - = - x 100 = 101 7
5 117 '
7 IJ 123
Is = IS = 117 x 100 = 105,1
o
b) Aplicando a la serie dada el coeficiente de transformaci6n que en este
caso sera, segnn la expresi6n [4.20]:
100
1
0
= - = - = 0855
5 117 '
= r. x 0,855
100 x 0,855 = 85,5
108 x 0,855 = 92,3
112 x 0,855 = 95,8
114 x 0,855 = 97,5
115 x 0,855 = 98,3
117 x 0,855 = 100,0
119 x 0,855 = 101,7
123 x 0,855 = 105,2
222
223
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Hay que resaltar que, en los cambios de base de una serie de mimeros
indices, el coeficiente de transformaci6n se aplica a todos y cada uno de los
componentes de la serie.
4.9. Renovaci6n y enlace de series
de numeros indices con distintas bases
• Renovaci6n de componentes y de coeficientes de ponderaci6n
en los mimeros indices complejos
En el mundo de la economia los ntimeros indices representan fen6menos
complejos: la evoluci6n general de los precios del conjunto de bienes y servi­
cios que adquieren las familias 0 unidades de consumo final, la evoluci6n del
Producto Interior Bruto de un pais, el comportamiento de un mercado de
valores mobiliarios (indices bursatiles), etc. Por tanto, el proceso de elabora­
ci6n de un numero indice complejo y ponderado implica la adopci6n de una
serie de decisiones: elecci6n de los componentes que entraran a formar parte
del Indice para que este sea representativo del conjunto, elecci6n del perfodo
base y tipo de indice que se va a utilizar (Laspeyres, Paasche, etc.) teniendo
en cuenta elcoste asociado a la formaci6n elegida. Precisamente teniendo en
cuenta el coste es la formulaci6n de Laspeyres la mas empleada ya que, como
vimos, sus coeficientes de ponderaci6n, cuya determinaci6n requiere costosfsi­
mos analisis y toma de datos, estan referidos al perfodo base. Luego a medida
que nos alejamos de dicho perfodo, como la actividad econ6mica esta sujeta
a una constante evoluci6n por cambios en los habitos de consumo y en los
procesos tecnol6gicos, el conjunto de los componentes y sus coeficientes de
ponderaci6n dejan de ser representativos del fen6meno objeto de estudio. La
soluci6n es someter al fndice a una profunda revisi6n de forma peri6dica,
volviendo a elegir los componentes mas representativos y sus nuevos coeficien­
tes de ponderaci6n.
• Enlace 0 empalme de series de numeros indices con distinta base
La necesidad de la renovaci6n peri6dica, justificada como se ha senalado
anteriormente por una variaci6n del contexto socioecon6mico que pretende
medir, nos lleva a contar con dos series de indices que tienen perfodos base
distintos y hay que enlazarlos 0 empalmarlos para poder estudiar el fen6meno
comparando su evolucion con una nnica base. El perfodo base que se mantiene
es el de Ia serie que 10 tiene mas cercano al momenta actual de comparaci6n
aplicando el coeficiente de enlace oempalme a la serie mas antigua.
"'"
NUMEROS tNDICES
El concepto 0 definici6n de este coeficiente de enlace es el mismo que
hemos dado en los cambios de base dentro de una misma serie, aplicandose
ahora s6lo a los elementos de la serie que tenga la base mas antigua, ya que
nos interesa hacer el estudio de la evoluci6n con la base mas modema que es
la mas representativa. Si la serie con base mas antigua es 1 ~ , 1 ~ , 1;, ..., 1 ~ , ...,
1 ~ Y1 ~ coincide con el perfodo base de la serie mas modema, el coeficiente de
enlace sera:
1 ~ 100
1 ~ = J!' =](
o 0
que es identico a la expresi6n [4.20].
I
Ejemplo 4.9
\
Para un conjunto de artfculos, se tienen dos series de mimeros indices de
l
.. precios de Laspeyres que son las siguientes:
Afios Base 1980 Base 1990
1987 250
1988 260
1989 280
1990 290 100
1991 115
1992 122
1993 127
1994 135
Enlazar las dos series con base 1990.
Solucion:
El coeficiente de enlace sera:
1
1 9 80
100
1
19 80 - 1980 = - = 0345
1990 -: 1
1990
290 '
1980
Aplicando este coeficiente de enlace a la serie mas antigua con base 1980,
la serie enlazada sera:
224
225
I
!
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Aiios
1987 250 x 0,345 = 86,3
1988 260 x 0,345 = 89,7
1989 280 x 0,345 = 96,6
1990 290 x 0,345 = 100
1991 115
1992 122
1993 127
1994 135
Observese que el coeficiente de enlace s610 se aplica ala serie con base en
1980 para que quede conectada con la que tiene base mas actualizada que es
la de 1990. Tambien hay que resaltar que se aetna como si el fndice de precios
de Laspeyres cumpliese la propiedad circular aunque sabemos que no es cierto.
4.10. Repercusion y participacion en las
variaciones de un indice
Frecuentemente nos interesa conocer la repercusi6n que tiene la subida de
precios de uno 0 varios artfculos en el Indice general, por ello aquf vamos a
considerar un Indice tipo Laspeyres y examinaremos la repercusi6n y par­
ticipaci6n de un productoen las variaciones del indice.
Sabemos que un fndice de Laspeyres tiene la forma:
N
N Pit
L Pi,qio L p-'Pioqio
N
I' = _ i=l io
" I. '·w.
o N N L.J J,O I
L Pioqio L Pioqio
i=l
i=l i=l
donde w, son las ponderaciones de cada indice I, dentro del fndice general,
expresadas en tantos por uno. .
Si suponemos que en las diferentes magnitudes simples (precios) se produ- '
cen variaciones, expresadas por:
Ap1" Ap2" ..., ApN'
entonces el nuevo Indice sera:
NUMEROS fNDICES
N
L (Pi' + Api,)qio
N
I
, + A I' = :...i=-.:10-0=- _
o u 0 N L +
L Pioqio
i=l
i=l
Y restando ambas expresiones, tendremos la variaci6n del Indice general:
N
L Api,qiO N
AI' - i= 1 _ " AI t
L.l 0 - N - L. L.l it e ' Wi
L Pioqio i=o
,=1
de donde se deduce que la repereusion R, producida por la variaci6n de la
i-esima componente en el Indice general sera:
Api,qio = M. Wi
Ri-
-
N
'.
L Pioqio
i= 1
Evidentemente la suma de todas las repercusiones individuales de cada
componente sera:
N N
L R
i
= L
i=l i=l
que coincide con la variaci6n total del Indice general.
La variaci6n en porcentaje del fndice general sera:
N N
M' Api"qio L
-0.100 = .-1 100 _ '--i=_l=--- _
I:' • ­ N N
.L Pi,'qio L
.=1 i=l
La repercusi6n en porcentaje de la componente i-esima en el Indice general
sera:
R. Api" q,o . 100 = ,100
----!·100= N
N
I:' L Pi,.qio
"
L...
I
i,o
'. w.
I
,=1 =1
226
227 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
Tambien se verifica que la suma porcentual para todas las componentes
sera igual a la variaci6n porcentual del Indice general.
Para terminar, definimos la particpacion, en terminos porcentuales, de cada
componente i-esima en el fndice general como:
R. Apit' qio
Pi = -N-'-· 100 =
N
·100
L Ri
L Apit·qio
i= 1 i=1
Evidentemente se verifica que:
N
L P
i
= 100
i=1
4. 11. indices de valor y deflactacion
de series eccnerntccs
4. 11 .1. Indices de valor
En economfa se produce un gran nnmero de bienes y servicios que son
adquiridos por las familias, las empresas, el gobierno, etc. Estos bienes y
servicios gozan de una gran heterogeneidad y para agregarlos hay que some­
terlos a un proceso de homogeneizaci6n a traves de la obtenci6n de su valor
aplicando un sistema de precios. Este proceso de multiplicar cantidades de
bienes por sus respectivos precios nos transforma cantidades ffsicas heteroge­
neas (leche, pescado, fruta, autom6viles, ordenadores, etc.) en valores ecouomi­
cos que son homogeneos al estar expresados en la misma unidad de cuenta
(pesetas, d6lares, marcos, etc.), y por tanto sumables 0 agregables.
Los indices de valor nos permiten estudiar la evoluci6n a 10 largo del
tiempo la cuantificaci6n monetaria de un conjunto de bienes. Este valor se
llama nominal 0 en pesetas corrientes 0 de cada afio cuando los precios son
los del perfodo de comparaci6n:
N
V; = L Pitqit
i= 1
El valor en el perfodo base sera:
N
Vo = L Pioqio
i=1
[4.211
[4.22]

NUMEROS iNDICES
El indice complejo de valor para N componentes sera:
N
L Pitqit
=
i=
N
1
[4.23] I
Vt
L Pioqio
i= 1
La evoluci6n de la expresi6n 4.23 a 10largo del tiempo esta motivada por
j
las variaciones conjuntas de los precios y las cantidades no pudiendo aislarse
la influencia de cada una. En economfa interesa analizar la evoluci6n del valor
1

del conjunto de mercancfas N bajo la 6ptica de 10 que se denomina a precios
I
1 constaates, 0 sea, sin que se produzcan variaciones en los precios de los dis­
tintos componentes. Para conseguirlo se realiza la operaci6n conocida como
deflactacion de series de valores expresados en precios 0 pesetas corrientes de
cada afio,
Deflactaci6n de series econ6micas 4.11.2.
Como se ha indicado anteriormente para poder comparar el valor de un
conjunto de bienes en dos perfodos distintos, interesa aislarlo de la subida,
inflacion,o de la bajada, deflaci6n, de sus respectivos precios. Todos sabemos
que el problema que tienen la mayorfas de los gobiernos en los distintos pafses
es el control de la inflaci6n, ya que distorsiona las relaciones entre los distintos
agentes econ6micos. Con las subidas de precios que no sean debidas a una
mejora en la calidad de los bienes y los servicios, el poder adquisitivo de la
moneda disminuye, ya que con un billete de 5.000 ptas. en 2000 no pueden
comprarse las mismas cosas que en 1990. Para poder efectuar analisis compa­
rativos de una serie de valor entre distintos perfodos hay que pasarla de
pesetas corrientes 0 de cada ano a pesetas constantes 0 del perfodo que se
considere como base. Esto es 10que se denomina deflactar la serie dividiendola
por el fndice de precios que se considere mas adecuado. El Indice elegido recibe
el nombre de deflactor de la serie.
Veamos a continuaci6n el papel que juegan los indices de precios que mas
se utilizan como son los de Laspeyres y Paasche como deflactores de series
economicas,
Si la expresi6n [4.21], que es una serie de valor a precios corrientes, se
divide por un fndice de precios de Laspeyres tendremos:
228 229 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
N N
L Pitqlt
1;1
-=N
P
L
L Pltqio
1;1
N L Pltqlt
" .:...,1
L, Ploqlo' N =
1= 1 "
L, Pilqlo
1= 1
Vo' Qp [4.24]
N
L Ploqio
i; 1
Segtin nos indica la expresi6n [4.24] podemos concluir que al deflactar una
serie de valor a precios corrientes por un Indice de precios de Laspeyres no
nos da una serie de valor a precios constantes, sino V,,' Qp que es el producto
del valor en el ano base por un fndice cuantico de Paasche. Luego PL no es
un verdadero deflactor, aunque en la practica se utiliza como tal ya que es el
Indice que se suele elaborar siendo el nnico disponible.
El que SI es un verdadero deflactor es el fndice de Paasche ya que:
N
L Pitqit
N
Vt i;1
=
---,;- L Pioqlt
[4.25]
Pp i;1
L Pitqit
1;1
N
L Pio'qit
1;1
es decir:
Serie de valores monetarios = Serie de valores reales (precios constantes)
lndice de precios
La expresi6n [4.25] nos da el valor actual de un conjunto de mercancias
1, 2, ..., i, ..., N a precios constantes Pio del afio base.
Segnn seala serie econ6mica que se desea deflactar aSI habra que elegir el
Indice de precios mas adecuado.Si se desea expresar la renta disponible de las
familias en pesetas constantes de un determinado ano, el deflactor adecuado
sera el Indice de precios de consumo (IPC); si se desea deflactar una serie del
valor de un conjunto de productos industriales, su deflactor adecuado sera un
Indice de precios industriales (IPI), etc.
Ejemplo 4.10
La renta disponible de una familia durante cinco periodos de tiempo
expresada en pesetas corrientes ha sido la siguiente 250.000, 275.000, 300.000,
325.000 Y 350.000. Para el mismoperiodo el indice de precios deconsumo ha

NUMEROS fNDICES
sido el siguiente: 100, 105, 107, 110 Y 112. Obtener la serie de la renta dispo­
nible en pesetas constantes del primer periodo.
Soluci6n:
En las expresiones [4.24] y [4.25] al dividir la serie econ6m.ica dada V
t
por
los indices de precios, estes estan expresados en tantos por uno; luego la serie

de la renta disponible expresada en pesetas corrientes se divide por la serie

)1
de los indices de precios expresados en tantos por uno: 1,00; 1,05; 1,07; 1,10

y 1,12:
1

1
J
Renta disponible en pesetas constantes
250.000/1,00 = 250.000
275.000/1,05 = 261.905
300.000/1,07 = 280.374
325.000/1,10 = 295.455
350.000/1,12 = 312.500
, .
4.12. Indice de precios de consumo (IPC) 1
EI fndice de Precios de Consumo (IPC) es el indicador general mas cono­
cido por la influencia y efecto que produce en el mundo econ6m.ico, se elabora
y se publica mensualmente y su objetivo es medir la evoluci6n del nivel de
precios de losbienes y servicios consumidos por todos los hogares residentes
en Espana.
Todo IPC debe de tener doscualidades:
- la representatividad, y
- la comparabilidad temporal
EI nivel de representatividad del IPC vendra determinado por el grado de
adaptaci6n de este indice a la realidad econ6m.ica del momento. Asi pues los
bienes y servicios seleccionados deberan ser los mas consumidos por la mayo­
ria de la poblaci6n, los establecimientos donde se recogen los precios deben
de ser los mas visitados y la importancia 0 ponderaci6n de los diferentes bienes
y servicios debe responder a las tendencias de consumo de los hogares.
La segunda cualidad se refiere a la comparabilidad temporal, 10 cual quiere
decir que todos los elementos que definen el IPC deben permanecer estables
1 Se reproducen los conceptos y definiciones publicados en la Metodologfa del IN.E. Ano
2002.
230 CASAS-sANCHEZ, J. M. y SANTOS-PEl'IAS, J.
a 10 largo del tiempo excepto, 16gicamente, los precios que se recogen men­
sualmente. Asi pues, se consigue que cualquier variaci6n en el IPC sea debida
solamente a cambios en los. precios de los bienes y servicios que fueron
seleccionados.
A continuaci6n, resumimos la Metodologia del Indiee de Precios de Consu­
mo con base 2001, elaborada por el Instituto Naconal de Estadistica (lNE).
4.12.1. Caracteristicas principales
a) Periodo base
Es aquel cuyos precios sirven de referencia para medir la evoluci6n de los
mismos durante el periodo de vigencia del sistema. El perfodo base es el afio
2001,10 cual quiere decir que todos los indices que se calculen estaran referidos
a este ano, y ademas la media aritmetica de los indices mensuales para este
ano base se hace igual a 100.
b) Periodo de referencia de Jas ponderaciones
Es el perfodo durante el cual se desarrolla la ECPF (Encuesta Continua
de Presupuestos Familiares) que nos proporciona la informaci6n basica, sobre
los gastos de las familias en bienes y servicios de consumo, para la obtenci6n
de las ponderaciones. Este nuevo sistema se ha realizado con la informacion
obtenida de la ECPF, que nos proporciona informacion basica sobre gastos
de las familias en bienes y servicios de consumo, durante el periodo segundo
trimestre de 1999 al primer trimestre de 2001 (1 de abril de 1999 al 31 de
marzo de 2001).
c) Campo de consumo, cesta de Ja compra y ponderaciones
El campo de consumo del IPC esta constituido por todos los bienes y
servicios que los hogares destinan al consumo, quedando excluidos los gastos
en bienes de inversi6n, los autoconsumos, los autosuministros y los alquileres
imputados.
Los bienes y servicios en la ECPF han sido clasificados segun la clasifica­
ci6n internacional de consumo COICOP (Classificastion of Individual Con­
suption by Purpose), de tal manera que cada parcela de consumo de la ECPF
estara representada en el IPC por uno 0 mas artfculos, de manera que la
evoluci6n de sus precios represente la de todos los elementos que integran
dicha parcela.
. ,
r
NOMEROS fNDICES
I
231
Se define la cesta de la compra como el conjunto de bienes y servicios para
los que se recogen los precios mensualmente, y cuya evoluci6n representa la
de todos los precios de consumo de la economia. La selecci6n se realiza segtin
i
1
la importancia de cada uno, medida a partir del gasto realizado por las
familias residentes en Espana y que se obtiene de la ECPF. El numero to­
j
tal de artfculos que componen esta nueva cesta de la compra es de 484,
agrupados en 12 grupos, 37 subgrupos, 80 clases y 117 subclases. Ademas se
1
mantienen las 57 nibricas existentes y se amplia el mimero de grupos especiales
J
hasta 27.
La muestra para la recogida de la informaci6n necesaria se ha disefiado
teniendo en cuenta:
- selecci6n de municipios
- selecci6n de zonas comerciales y establecimientos
- determinacion del nnmero de observaciones.
En resumen la muestra de municipios esta formada por 141 municipios
para artfculos de alimentaci6n y 157 para el resto, recogiendo aproximada­
mente 180.000 precios mensuales.
Cada uno de los artfculos estan perfectamente descritos y muy bien espe­
cificados con el fin de facilitar al agente encuestador su identificaci6n y per­
mitir la correcta recogida de los precios.
Las ponderaciones, representan la importancia relativa que tiene cada
articulo de la cesta de la compra frente a los demas, asi pues, si designamos
por Wi la ponderaci6n del articulo i-esimo, esta se obtiene como cociente del
gasto realizado en las parcelas representadas por dicho articulo durante el
periodo al que hace referencia la ECPF y el gasto total realizado en ese
periodo.
Gasto realizado en las parcelas representadas por el articulo i
W. = - - - - - - - ~ - - - ~ - - - - - ' - - - - -
• Gasto total
Las ponderaciones permanecen fijas a 10 largo del periodo de vigencia del
sistema de fndice de precios de consumo. Un mismo articulo puede tener
ponderaciones diferentes en las distintas agrupaciones geograficas-provincias,
comunidades aut6nomas y total Nacional, segun el gasto que refleja la ECPF
en cada uno de estos conjuntos.
En las Tablas 4.1, 4.2, 4.3 y 4.4 aparecen las diferentes agrupaciones y las
ponderaciones de losdiferentes artfculos, En la Tabla 4.5 se dan las pondera­
ciones por grupos de articulo para las diferentes Comunidades Aut6nomas.
Analogamente se tienen las restantes ponderaciones para las Comunidades
Aut6nomas. Ver metodologia INE.
233
232 CASAS-sANCHEZ,J. M. y SANTOS-PE:N"AS, J.
TABLA 4.1. Namero de articulos por grupo del IPC-Base 2001
Grupos Ponderaci6n
01. Alimentos y bebidas no alcoh6licas 171
02. Bebidas alcoh6licas y tabaco 12
03. Vestido y calzado 67
04. Vivienda 18
05. Menaje 60
06. Medicina 13
07. Transporte 31
08. Comunicaciones 3
09. Ocio y cultura 40
10. Enseftanza 8
11. Hoteles, cafes y restaurantes 24
12. Otros 37
Total 484
Fuente: INE.
TABLA 4.2. Ponderaciones pOTgrupos, subgrupos, closes y subclases de arttculos
del IPC-Base 2001 para el total Nacional.
Ponderaciones
Grupos Subgrupos Clases Subclases
01 Alimentos y bebidas no alcoh6licas 218,63
011 Alimentos 206,452
0111 Pan y cereales 33,784
01111 Arroz 1,125
01112 Pan 18,639
01113 Pasta alimenticia 1,328
01114 Pasteleria, bolleria y masas cocinadas 10,880
01115 Harinas y cereales 1,811
0112 Carnes 56,460
01121 Came de vaca 1,222
01122 Carne de temera y aftojo 11,236
01123 Came de porcino 4,683
01124 Came de ovino 7,701
01125 Carne. de ave 8,892
01126 Charcuterfa 17,910
01127 Preparados de came 2,984
01128 Otras carnes y casqueria 1,832
0113 Pescados, crustdceos y moluscos 31,238.
01131 Pescado fresco y congelado 17,163
01132 Crustaceos y moluscos 7,655
01133 Pescado en conserva y preparados 6,420
0114 Productos ldcteos, quesos y huevos 30,829
01141 Leche 12,869
01142 Otros productos lacteos 7,689
01143 Quesos 7,807
NUMEROS 1NDICES
TABLA 4.2. (Continuaci6n)
Ponderaciones
Grupos Subgrupos Clases Subclases
01144 Huevos 2,463
0115 Aceites y grasas 8,152
01151 Mantequilla y margarina 0,597
01152 Aceites 7,554
0116 Frutas 17,813
01161 Frutas frescas 15,093
01162 Frutas en conserva y frutos secos 2,720
0117 Legumbres, hortalizas y patatas 17,602
01171 Legumbres y hortalizas frescas 9,480
01172 Legumbres.y hortalizas secas 1,249
01173 Legumbres y hortalizas congeladas y
en conserva 3,549.
01174 Patatas y sus preparados 3,324
0118 Azucar. chocolates y confituras 7,192
01181 Azl1car 1,339
01182 Chocolates y configuras 5,853
0119 Otros productos alimenticios 3,383
012 Bebidas no alcoh61icas 12,178
0121 Cafe, cacao e infusiones 4,062
01211 Cafe, cacao e infusiones 4,062
0/22 Agua mineral, refrescos y zumos 8,116
01221 Agua mineral, refrescos y zumos 8,116
02 BebidBs alcoh6licas y tabaco 32,17
021 Bebidas alcoh6licas 8,999
0211 Espirituosos y licores 1,755
02111 Espirituosos y licores 1,755
0212 Vinas 4,445
02121 Vinos 4,445
0213 Cervera 2,799
02131 Cerveza 2,799
022 Tabaco 23,171
0221 Tabaco 23,171
02211 Tabaco 23,171
03 Vestido y calzado 99,28
031 Vestido 79,258
0311 Prendas de vestir 76,337
03111 Prendas exteriores de hombre 27,476
03112 Prendas interiores de hombre 1,729
03113 Prendas exteriores de mujer 33,508
03114 Prendas interiores de mujer 2,863
03115 Prendas de vestir de nino y bebe 10,761
0312 Complementos y reparaciones de prendas
de vestir 2,921
03121 Complementos y reparaciones de pren­
das de vestir 2,921
235
234
, ~ « , . ,
,
....
J
Ponderaciones
1 Grupos Subgrupos Clases
J
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
TABLA 4.2. (Continuaci6n)
Ponderaciones '
Grupos Subgrupos Clases Subclases
032 Calzado y sus reparaciones 20,023
0321 Calzada 19,833
03211 Calzado de hombre 7,406
03212 Calzado de mujer 8,758
03213 Calzado de nino y bebe 3,669
0322 Reparacion de calzado 0,189
03221 Reparaci6n de calzado 0,189
04 Vivienda 110,26
041 Alquiler de vivienda 22,073
0411 Alquiler de vivienda 22,073
04111 Alquiler de vivienda 22,073
042 Conservacion de la vivienda 17,146
0421 Materiales para la conservaci6n de la vi­
vienda 3,373
04211 Materiales para la conservaci6n de la
vivienda 3,373
0422 Servicios para la conservacion de la vi­
vienda 13,774
04221 Servicios para la conservaci6n de la vi­
.. vienda 13,774
043 Otros servicios relacionados con la vi­
vienda 29,991
0431 Distribucion de agua 8,725
04311 Distribuci6n de agua 8,725
0432 Recogida de basura, alcantarillado y
otros servicios 21,266
04321 Recogida de basura, alcantarillado y
otros servicios 21,266
044 Electricidad; gas y otros combustibles 41,049
0441 Electricidad 25,426
04411 Electricidad 25,426
0442 Gas 11,484
04421 Gas 11,484
0443 Otros combustibles 4,139
04431 Otros combustibles 4,139
OS Menaje 63,571
051 Muebles y otros enseres 19,547
0511 Muebles y otros enseres 19,54?
05111 Muebles 16,557
05112 Otros enseres 2,990
052 Articulos textiles para el hogar 5,626
0521 Artfculos textiles para el hogar 5,626
05211 Artfculos textiles para el hogar 5,626
053 Electrodomesticos y reparaciones 10,795
0531 Electrodomesticos y reparaciones 10,795
'j
1
NUMEROS fNDICES
1
1
il
1
j
TABLA 4.2. (Continuaci6n)
06 Medicina 28,062
061 Medicamentos, otros productos farmaceu­
ticos y material terapeutico 16,203
0611 Medicamentos, otros productos farmaceu­
ticos y material terapeutico 16,203
06111 Medicamentos y otros productos far­
maceuticos
06112 Material terapeutico
062 Servicios medicos, dentales y paramedicos
no hospitalarios 10,841
0621 Servicios medicos y paramedicos no hos­
pitalarios ..
4,344
06211 Servicios medicos y paramedicos no
hospitalarios
0622 Servicios dentales 6,498
06221 Servicios dentales
063 Servicios hospitalarios 1,018
0631 Servicios hospitalarios 1,018
06311 Servicios hospitalarios
Subclases
4,606
1,833
2,464
1,038
0,855
0,782
1,190
1,820
12,546
3,191
8,074
j
, 05311 Frigorfficos, lavadoras y lavavajillas
'I 05312 Cocinas y homos
1
~ 05313 Aparatos de calefacci6n y de aire aeon­
j
dicionado
05314 Otros electrodomesticos
j
05315 Reparaci6n de electrodomesticos
054 Utensilios de cocina y menaje
1
-'i
0541 Utensilios de cocina y menaje
~
05411 Cristaleria, vajilla y cuberteria
J
05412 Otros utensilios de cocina y menaje
j
055 Herramientas y accesorios para calla y
1 jardin
i 0551 Herramientas y accesorios para casa y
jardin
1
l 05511 Herramientas y accesorios para casa y
jardin
056 Otros bienes y servicios para el hogar
0561 Artfculos no duraderos para el hogar
05611 Artfculos de limpieza para el hogar
05612 Otros artfculos no duraderos para el
hogar
0562 Servicio domestico y otros servicios para
el hagar
05621 Servicio domestico y otros servicios
para el hogar
1,972
1,972
1,820
1,82
23,810
15,736
8,074
10,779
5,425
4,344
6,498
1,018
236 CASAS-sANCHEZ, 1. M. YSANTOS-PE:NAS, J.
NUMEROS fNDICES 237
r
TABLA 4.2. (Continuaci6n)
TABLA 4.2. (Continuaci6n)
1 Ponderaciones Ponderaciones
Grupos Subgrupos Clases Subclases
07 Transporte 155,76
071 Vehiculos 71,769
0711 Autom6viles 69,286
07111 Autom6viles 69,286
0712 Otros vehiculos
07121 Otros vehiculos
072 Bienes y servicios relativos a los vehiculos
0721 Repuestos y accesorios de mantenimiento
07211 Repuestos y accesorios de manteni­
miento
0722 Carburantes y lubricantes
07221 Carburantes y lubricantes
0723 Servicios de mantenimiento y reparaciones
07231 S.ervicios de mantenimiento y repara-
Clones
0724 Otros servicios relativos a los vehiculos
07241 Otros servicios relativos a los vehiculos
073 Servicios de transprote
0731 Transporte por ferrocarril
07311 Transporte por ferrocarril
0732 Transporte por carretera
07321 Transporte por carretera
0733 Transporte aereo
07331 Transporte aereo
0734 Otros servicios de transporte
07341 Otros servicios de transporte
08 Comunicaciones
081 Comunicaciones
0811 Servicios postales
08111 Servicios postales
0812 Equipos y servicios telefonicos
08121 Equipos y servicios telef6nicos
09 Ocio y cultura
091 Equipos y soportes audiovisuales, fotogra­
ficos e informdticos
0911 Equipos de imagen y sonido
09111 Equipos de imagen y sonido
0912 Equipos fotograficos y cinematogrdficos
09121 Equipos fotograficos y cinematograficos
0913 Equipos informaticos
09131 Equipos informaticos
0914 Soporte para el registro de imagen y so­
nido
09141 Soporte para el registro de imagen y
sonido
2,483
2,483
72,912
1,383
1,383
53,075
53,075
15,255
15,255
3,198
3,198
11,079
1,585
1,585
5,945
5,945
1,934
1,934
1,615
1,615
25,729
25,729
0,311
0,311
25,417
25,417
67,263
13,651
4,721
4,721
0,788
,
0,788
4,333
4,333
3,136
3,136
I
I
I
'j
. ~
J
i
J
,
·1
I
.,
"
j
I
I
.\
I
0915 Reparaci6n de equipos audiovisuales, fo­
togrdficos e informdticos
09151 Reparacion de equipos audiovisuales,
fotograficos e informaticos
092 Articulos recreativos y deportivos; floriste­
rio y mascotas
0921 Articulos recreativos y deportivos
09211 Juegos y juguetes
09212 Otros aruculos recreativos y deportivos
0922 Floristeria y mascotas
09221 Floristerfa y mascotas
093 Servicios recreativos, deportivos y cultu­
rales
0931 Servicios recreativos y deportivos
09311 Servicios recreativos y deportivos
0932 Servicios culturales
09321 Servicios culturales
094 Libros, prensa y papeleria
0941 Libros
09411 Libros
0942 Prensa y revistas
09421 Prensa y revistas
0943 Material de papeleria
09431 Material de papelerfa
095 Vioje organizJulo
0951 Viaje organizado
09511 Viaje organizado
10 Enseiianza
101 Enseiianza
1011 Educaci6n infantil y primaria
10111 Educaci6n infantil y primaria
1012 Enseiianza secundaria
10121 Enseiianza secundaria
1013 Enseiianza superior
10131 Enseiianza superior
1014 Otras enseiianzas
10141 Otras ensefianzas
11 HoteIes, cafes y restaurantes
111 Restaurantes, bares y cafeterias
1111 Restaurantes, bares y cafeterias
11111 Restaurantes, bares y cafeterias
112 Hoteles y otros alojamientos
1121 Hoteles y otros alojamientos
11211 Hoteles y otros alojamientos
Grupos Subgrupos Clases Subclases
0,672
0,672
10,379
6,146
5,467
0,679
4,233
4,233
14,526
5,713
5,713
8,813
8,813
17,200
7,098
7,098
7,792
7,792
2,310
2,310
11,507
11,507
11,507
17,444
17,444
3,447
3,447
3,59
3,590
5,913
5,913
4,494
4,494
112,708
106,217
106,217
106,217
6,490
6,490
6,490
239
238 CASAS-sANCHEZ, J. M. YSANTOS-PE:&AS, J.
TABLA 4.2. (Continuacion}
Ponderaciones:
Grupos Subgrupos Clases Subclases
12 Otros bienes y servicios 69,124
121 Bienes y serivicios para el cuidado per­
sonal 22,531
1211 Servicios para el cuidado personal 10,241
12111 Servicios para el cuidado personal 10,241
1212 Articulos para el cuidado personal 12,290
12121 Articulos para el cuidado personal 12,290
122 Articulos de uso personal 5,173
1221 Joyeria; bisuteria y relojeria 3,342
12211 Joyerfa, bisuteria y relojeria 3,342
1222 Otros articulos de uso personal 1,831
12221 Otros artfculos de uso personal 1,831
123 Servicios sociales 2,314
1231 Servicios sociales 2,314
12311 Servicios sociales 2,314
124 Seguros 34,693
1241 Seguros para la vivienda 4,447
12411 Seguros para la vivienda 4,447
1242 Seguros medicos 6,725
12421 Seguros medicos 6,725
1243 Seguros de automovil 18,534
12431 Seguros de autom6vil 18,534
1244 Otros seguros 4,986
12441 Otros seguros 4,986
125 Servicios financieros 0,278
1251 Servicios financieros 0,278
12511 Servicios financieros 0,278
126 Otros servicios 4,135
1261 Otros servicios 4,135
12611 Otros servicios 4,135
Fuente: INE.
TABLA 4.3. Ponderaciones por nibricas de11PC-Base 2001 para
el total N acional
NOMEROS iNDICES
TABLA 4.3. (Continuaci6n)
Grupos Ponderaci6n
09. Crustaceos, moluscos y preparados de pescado 14,074
2,463
10. Huevos
12,869
11. Leche
15,496
12. Productos lacteos
13. Aceites y grasas
8,152
15,093
14. Frutas frescas
15. Frustas en conserva y frutos seeos
2,720
16. Legumbres y hortalizas frescas
9,480
17. Preparados de legumbres y hortalizas 4,799
18. Patatas y sus preparados
3,324
19. Cafe, cacao e infusiones
4,062
1,339
20. Azucar
21. Otros preparados alimenticios 9,236
22. Agua mineral, refrescos y zumos 8,116
23. Bebidas aIcoh6licas
8,999
24. Tabaco
23,171
25. Prendas de vestir de hombre 29,205
26. Prendas de vestir de mujer 36,371
27. Prendas de vestir de nino y bebe
10,761
28. Complementos y reparaciones de prendas de vestir 2,921
29. Calzado de hombre
7,406
30. Calzado de mujer
8,758
31. Calzado de nino
3,669
32. Reparaci6n de calzado
0,189
33. Viviendas en alquiler
22,073
34. Calefacci6n, alumbrado y distribuci6n de agua 49,774
35. Conservaci6n de la vivienda 38,412
36. Muebles y revestimientos de suelo 19,225
37. Textiles y accesorios para el hogar 5,948
38. Electrodomesticos y reparaciones 10,795
39. Utensilios y herrarnientas para el hogar 3,792
40. Aruculos no duraderos para el hogar 17,214
41. Servicios para el hogar
12,520
42. Servicios medicos y similares 18,584
43. Medicamentos y material terapeutico 16,203
44. Transporte personal 163,215
45. Transporte publico urbano
5,824
46. Transporte publico interurbano 5,255
47. Comunicaciones
25,729
48. Objetos recreativos
24,030
Grupos Ponderaci6n 11,879
49. Publicaciones I
1 50. Esparcimiento
14,526
01. Cereales y derivados 15,144
j
i
51. Educaci6n infantil y primaria
4,684
02. Pan 18,639 4,828
52. Educaci6n seeundaria
03. Carne de vacuno 12,458
J
6,337 .J 53. Educaci6n universitaria
04. Carnedeovino 4,683
54. Otros gastos de ensenanza 5,761
05. Carne de porcino 7,701
J
55. Artfculos de uso personal
21,053
06. Carne de ave 8,892 56. Turismo y hosteleria
124,214
07. Otras carnes 22,727 .~ ,
57. Otros bienes y servicios .
18,043
08. Pescado fresco y congelado 17,163
J
]
Fuente: INE.
j

(D'
o
Q.
o
Q.
(D
o
0'
o
c
o
.. wa;,;l"21·<i TTIRWGi!!,,"*,
TABLA 4.5. Ponderaciones por grupos de articulos del IPC-Base 2001 para el total Nacional y Comunidades Aut6nomas
Castilla- Castilla-
Nacional Andalucfa Arag6n Asturias Baleares Canarias Cantabria Le6n La Mancha
General Base2001 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
Alimentos y bebidasno alcoh6licas 218,630 237,973 217,498 216,700 197,884 222,791 218,708 239,175 239,250
Bebidas alcoh6licas y tabaco
Vestido y calzado
Vivienda
Menaje
Medicina
Transporte
Comunicaciones
Ocio y cultura
Enseilanza
Hoteles, cafes y restaurantes
Otros bienes y servicios
General Base2001
Alimentos y bebidas no alcoh6­
licas
Bebidas alcoh6licas y tabaco
Vestido y calzado
Vivienda
Menaje
Medicina
Transporte
Comunicaciones
Ocio y cultura
Enseilanza
Hoteles, cafes y restaurantes
Otros bienes y servicios
Fuente: INE.
Cataluila
1.000
213,766
29,941
88,982
119,976
58,404
29,908
149,067
25,521
78,205
25,203
107,177
73,849
32,170
99,280
110,260
63,571
28,062
155,760
25,729
67,263
17,444
112,708
69,124
Comunidad
valenciana
1.000
210,876
34,961
93,447
102,352
67,061
31,235
162,910
27,872
67,081
11,637
115,320
75,248
39,351
103,535
101,803
64,405
26,154
160,406
24,501
59,043
9,918
109,565
63,346
Bxtre­
madura
1.000
253,461
34,889
113,631
94,792
65,962
27,263
156,063
25,389
54,409
8,307
104,772
61,060
32,209
111,695
116,334
71,807
26,677
140,750
27,971
69,054
14,492
107,059
64,454
Galicia
1.000
234,773
31,828
114,926
96,466
70,672
27,493
162,053
22,499
59,243
14,240
99,956
65,850
28,867
107,895
110,829
63,748
26,505
161,305
26,439
61,244
15,684
113,830
66,956
Comunidad
de Madrid
1.000
193,122
28,580
92,276
119,264
57,335
27,724
153,954
26,820
75,371
24,751
128,098
72,706
33,463
90,989
107,832
64,870
34,479
176,282
28,310
59,098
21,213
105,972
79,609
Comunidad
de Murcia
1.000
215,028
43,577
99,212
99,950
73,416
23,432
172,502
23,384
62,120
8,819
105,462
73,096
30,286
83,964
104,409
66,637
35,364
166,754
25,811
75,953
19,949
107,128
60,954
Navarra
1.000
188,242
25,754
113,839
102,932
79,493
30,582
169,382
22,248
73,700
18,605
111,291
63,932
29,773
121,718
118,695
60,357
31,268
148,845
27,022
61,839
10,611
103,265
67,898
Pais
Vasco
1.000
210,050
28,387
99,091
107,540
65,400
25,661
147,368
24,192
66,435
21,520
132,728
71,627
28,359 32,699
108,934 lll,472
116,057 lll,728
66,059 60,819
22,897 27,610
146,555 159,386
28,200 24,867
57,476 53,067
14,979 8,745
108,095 107,531
63,216 62,826
Ceuta y
La Rioja Meli11a
1.000 1.000
223,861 290,189
34,453 50,038
98,757 117,779
113,123 105,805
65,625 60,037
29,285 17,557
138,750 98,189
26,364 29,219
69,940 58,617
15,161 5,051
119,611 99,268
65,070 68,251
,

Z
C
s::
tI1
i':l
0
tzl

-o
tI1
CZl
tv
.j::o.
-
0-0.. 0.. N
8 g >-3 er
'"
gerSl;'pj'< I:'> I:'> (I)

I:'> I:'>
g' I:'> I:'> '" '" 0 0..'" 8 tv S S
--'
g:tr.lrit'"" '"

o '" '0 n
- - - 0..

0.. ..... (I) ..... '" =
I\)
, I I (I)
1l '8
0 I:'> -..-1'> '" '" o
I:'>
'"'1:l<:T '" '" '" .,J:::.. _. \0 CI'J
........
I:'> 0 I:'> ..... ..... .....
1". " '"
I:l I:l "
. =10 '"

8 -..0 0 (I) ­
8 [
CJ.)
<;lll

8 n
I'> ..... '0 ....
e e
o (I) I:'> e; =
'" tr.I 0
§l
-"'0
II 8"'=0 .... 0..
-, ...., E..
I:l
m I:'>
nl:l,o
0
0'"
(I)
S' S'
(I) 0 o' (I)
o..tr.l°
= 0 =
o
er-"'= ...·o..
(I) '" 0 l:l ::J e:[e:
EoI"c:: ozg..e.
0..0..
_'0 = E3
S I:'> 0
8 (I) 8

§o s"
(I) (I) ;:t 0.. I:'> er
o
0.. ... (JQ
-"", o o. :i I:'>
I:'> (I)
9 N::t"le(l)go o
I
CIl 0..0..
g I:'> S Pi'
O. l:S
08::t1g-
o 0
00......· tr.I ..... 8
CD o 0. (I)
E..
: 8 '" I:'> O. '" So°o.. (I)

0..-
0
0..0..

'0 '" (I) (I)
0=..,
E.
I:;;o..ari
",(t..,1:'>0..= .., '" Q. S 0.. E..
'"
S I" 000 0: 0:
(I) 0.. I:;; S. '0 g.. (I)
i p)
'"
" I" "
'"
Cil tr.I 0.. 0

0..(1)",,,,(1)0.. CD
0 ........ n '"
S 8 =
'"
§ o' c:: f"+ f"+ _. j

en <;lll (JQ ='" 0 g'
erer
(I) 0 g..

... ..,
§le.::I£a
s
CD - s.
::1.'"
&!l 0 s (I) 0
(I) I:'> .... (I) I'>
..... 1:'>
..,
a S tj
..., e. 0 II
(I) '0 p II
t:l:'t:l:'t:l:'t:l:'t:l:'t:l:' '0 &!l 0 I:'>
o 2' s o '" I'> 0..0.. 01'>="'-
I:'> I:'> I:'> I:'> I'> I'> o 0 =, <5"
-. 0 CD

a
r-tt:SB. o 0
:g 8
tIJ CI'J CI'J \I'.) 00 00 (I) = '" o :i g. 8 S
(I) (I) (I) (I) (I) (I) C/)
go;'
::t11'>_E..
'" s..oO
0
(I)",
= 0
= (I) 3
w


........
N ...........................
(I) ::1. f!J. 0..
(I) a
i
I:l'<j ... 0 (JQ (I)
0.'0 tt. 00
.. ..., 0 0 ::I.
01010101010 - (I) 0.. -e
Eoo
..- ..­
" I:l
o I:'> '0
e ::t[(I)§-&!l
OlOooo\v\W
0.. 0 ..,
o S -..

0- 0
..-NwooooO\
'" 0
el .... (I) '"
o' *' o
(I) ... I'>
.
];
"
&!l (S' I'> =' =
II .... 0- 0..
'" (I) ::ll
f!l, &!l n'< (I) g sr g Cil
<D
0..1'> =erer 3 ct' 0
I
P>g- -+.
o - 0.. I'> I:'> g (I) g .., S '" .., ::l
0.. g;
.... CIl
I'> 0 '" '" t:r" (I) o.

[g. o '" 0 0
g.. 0 Cil

e.", £N..-
I:'> o. g


n ­
_= N ..,
I'> I'> ct'
c:: 0 I'>Sl 0..010
00
'" ::l l:; (I)
<D
l-1 Z>
Eo·",
=:u ­
0 .... · I'> 0 10 o I'> sa. I'> I'>
o ....
:>
o 0 ..- N 6.:01:'>= ::J
'" er ... I'> 0..
.CIl
. '" ..
o '" (I)
-+ .... ::ll I'>

S'I'>Q.o.g
g'
>-30.. ::l

_0== <D .., 0 I'>
I'> 0 0
en
g., ­
o '"
g:S' 0..
@' (I) '0
::;;";!J.
(I) I I:'>
.....
g-
0
os,g.§o..s
qg '" 0 S <D
§- 0

I:'> 0.. 0 '" = 0
'"
-000
-(I) -
(")
'"
(1)
Q. ::I. =,
" 0
;'I 00 \I'J
00.. t:::: .... (I) a I:'>
I:l '" = _. -- (') (I) .... e:..
sP> ::It:r''=o..
<D
I:'>

..... I:'> (I)

[
[ I:'> '" .... (I) .... ::J
=" ..­
o .
"'(I)J'""O£
gE. :'lSo..S'


(1)=,0..=­
J'l o I:'> 0..
o

tOo (I).&!l 8 e: 0.. ....
'<,0

'" o N
:::10..8
0\


s .............. l-1 , (I) '"
<D --
l-J
e r ••
;1
TABLA 4.6. fndice General Nacional. Sistemas fPC-Base 1992
Aiio Enero Febrero Marzo Abril Mayo Junio Juilio Agosto Septiem, Octubre Noviem. Diciem.
1954 - - 3,289 3,289 3,289 3,277 3,280 3,267 3,269 3,286 3,314 3,344
1955 3,365 3,376 3,389 3,408 3,410 3,401 3,401 3,408 3,431 3,459 3,474 3,485
1956 3,489 3,532 3,566 3,604 3,621 ·3,609 3,598 3,604 3,630 3,662 3,713 3,779
1957 3,848 3,869 3,889 3,906 3,916 3,906 3,967 4,023 4,080 4,166 4,234 4,279
1958 4,309 4,313 4,397 4,491 4,520 4,514 4,544 4,574 4,646 4,689 4,732 4,787
1959 4,794 4,817 4,843 4,873 4,888 4,860 4,860 4,868 4,894 4,909 4,926 4,969
1960 4,930 4,926 4,920 4,924 4,909 4,905 4,903 4,913 4,943 4,956 4,962 4,969
Z
1961 5,020 4,979 4,957 4,970 4,957 4,930 4,930 4,938 4,942 4,961 5,038 5,047 C
s=
1962 5,038 5,061 5,105 5,177 5,243 5,270 5,270 5,257 5,289 5,340 5,477 5,547
tI:l
1963 5,560 5,604 5,713 5,709 5,741 5,635 5,695 5,754 5,741 5,757 5,829 5,851

0
1964 5,842 5,846 5,864 5,886 5,901 5,980 6,109 6,205 6,266 6,369 6,516 6,592
CIl
1965 6,657 6,771 6,824 6,874 6,902 6,871 6,880 6,915 6,981 7,018 7,169 7,210

1966 7,197 7,191 7,191 7,260 7,366 7,380 7,376 7,389 7,366 7,411 7,540 7,589 ....
("J
1967 7,593 7,652 7,684 7,791 7,818 7,750 7,755 7,868 7,890 7,922 8,087 8,087 tI:l
1968 8,110 8,110 8,193 8,265 8,238 8,261 8,193 8,198 8,185 8,211 8,265 8,320
Ul
1969 8,301 8,251 8,301 8,399 8,399 8,301 8,366 8,392 8,408 8,440 8,515 8,605
1970 8,646 8,613 8,679 8,727 8,670 8,703 8,867 9,007 9,048 9,138 9,162 9,188
1971 9,285 9,278 9,376 9,475 9,533 9,573 9,573 9,590 9,704 9,811 9,944 10,074
1972 10,082 10,074 10,172 10,172 10,222 10,246 10,386 10,493 10,641 10,714 10,731 10,814
1973 10,895 10,912 11,002 11,158 11,322 11,494 11,617 11,808 12,012 12,202 12,217 12,350
1974 12,423 12,465 12,736 13,015 13,179 13,236 13,393 13,614 13,828 13,975 14,361 14,558
1975 14,762 14,903 15,000 15,264 15,452 15,494 15,740 15,987 16,241 16,241 16,347 16,610
1976 16,807 16,997 17,391 17,743 18,556 18,442 18,556 18,713 19,065 19,329 19,690 19,894
1977 20.542 20.849 21,348 21,736 21.926 22.539 23.278 24,033 24,368 24,747 24,947 25,144
- I
tv

W
- -- .
... - ----_._-­
TABLA 4.6. (Continuaci6n)
ADo Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiem. Octubre
1978 25,545 25,796 26,127 26,677 26,944 27,216 27,806 28,291 28,524 28,785
1979 29,806 30,037 30,349 30,807 31,167 31,442 32,121 32,437 32,864 33,305
1980 34,804 35,115 35,304 35,645 35,892 36,449 36,964 37,397 37,795 38,098
1981 39,818 40,020 40,817 41,223 41,415 41,451 42,263 42,778 43,118 43,603
1982 45,572 45,927 46,378 46,988 47,668 48,126 48,744 49,082 49,139 49,631
1983 51,761 52,021 52,337 53,056 53,276 53,588 53,779 54,501 54,937 55,682
1984 58,007 58,227 58,696 58,973 59,292 59,712 60,629 61,050 61,174 61,543
1985 63,438 63,898 64,296 64,959 65,163 65,052 65,422 65,520 66,239 66,580
1986 69,308 69,617 69,852 70,022 70,217 70,862 71,570 71,773 72,516 72,787
1987 . 73,489 73,802 74,231 74,399 74,307 74,325 75,078 75,045 75,737 76,187
1988 76,768 76,978 77,536 77;166 77,262 77,562 78,586 79,363 80,060 80,150
1989 81,680 81,738 82,260 82,481 82,598 83,048 84,396 84,590 85,485 85,830
1990 87,144 87,697 88,018 88,218 88,211 88,483 89,672 90,065 91,013 91,821
1991 93,025 92,895 93,197 93,399 93,664 93,934 95,100 95,453 96,233 96,838
1992 98,576 99,233 99,592 99,485 99,745 99,726 100,050 100,962 101,795 101,856
1993 103,185 103,218 103,581 104,035 104,322 104,581 104,955 1Q5,583 106,180 106,576
1994 108,346 108,385 108,743 109,171 109,394 109,512 109,941 110,651 110,988 111,229
1995 113,074 113,628 114,290 114,896 114,942 115,051 115,069 115,394 115,848 116,064
1996 117,462 117,782 118,200 118,871 119,281 119,181 119,340 119,678 119,970 120,134
1997 120,847 120,765 120,825 120,869 121,045 121,041 121,263 121,798 122,401 122,356
1998 123,215 122,927 122,984 123,289 123,450 123,530 123,986 124,318 124,410 124,421
1999 125,111 125,185 125,737 126,202 126,198 126,225 126,772 127,312 127,557 127,509
2000 128,712 128,894 129,405 129,943 130,159 130;553 131,346 131,897 132,238 132,576
2001 133,413 133,851 134,415 135,113 135,624 136,081 136,415 136,745 136,726 136,584
'"
Fuente: INE. Estos datos tienen caraeter olicia! a los efectos regulados por la Ley 29/94, de 24 de noviembre, de Arrendamientos Urbanos,
Noviem. Diciem.
28,911 29,303
33,385 33,872
38,487 39,025
43,981 44,647
49,793 50,901
56,249 57,122
61,859 62,278
67,093 67,371
72,620 72,930
76,012 76,284
80,105 80,742
85,969 86,304
91,729 91,955
96,985 97,038
101,921 102,227
106,755 107,262
111,422 111,914
116,372 116,748
120,141 120,497
122,599 122,925
124,309 124,653
127,714 128,290
132,906 133,366
136,483 136,978
tv
t
o
>
v.>
>
'f'
v.>

Z
o
::I:
ttl
.N
~
~
'<
v.>
~
..,
0
v.>
>1:l
ttl
Z.
>
JI'
~
246 247 CASAS-sANCHEZ, J. M. Y SANTOS-PE:NAS, J.
c) Actualizaci6n de rentas entre dos meses ambos anteriores a enero
de 2002 0 ambos posteriores a enero de 2002
La expresion a utilizar para actualizar rentas utilizando el IPC, en ambos
casos es:
fPC mes final
[4.27]
Renta actualizada = Renta inicial x fPC mes inicial
Ejemplo 4.11
Se desea actualizar la renta de una vivienda de 600 €, utilizando el IPC,
desde agosto de 1998 a diciembe de 2001.
Soluci6n:
Sabemos que
Renta inicial antes de actualizar = 600 €
IPC agosto 1998 (Tabla 4.6) = 124,318
IPC diciembre 2001 (Tabla 4.6) = 136,483
Utilizando la expresi6n [4.27] tenemos:
136,483
Renta actualizada = 600 € x 124,318 = 658,71 €
d) Actualieaclon de rentas desde meses anteriores a enero de 2002 a enero
de 2002 y meses posteriores
Para ella hay que utilizar el fndice de la Ley de Arrendamientos Urbanos
(Indice LAU), que se obtiene muItiplicando el IPC general del mes por el
coeficiente LAU de ese mismo mes, asf pues se tendrfa la Tabla 4.8.
TABLA 4.8. indices LAU para el ana 2002
Mes Coeficientes LAU IPC afio 2002 Indice LAU 2002
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
1,357700
1,361911
1,356739
1,351849
1,351895
1,353461
1,366497
1,368930
1,361919
1,353368
1,349495
1,350862
101,262
101,350
102,188
103,575
103,948
137,490
138,036
138,642
140,018
140,527
Fuente: INE.
NUMEROS iNDICES
La expresi6n a utilizar sent
. fndice LAU mes finals
Renta actuahzada = Renta iniciaI . • • [4.28] TnE" • •
mes 11l1Cla
Ejemplo 4.12
Se desea actualizar el alquiler de una vivienda de 700 € con el IPC, desde
enero de 2001 a marzo de 2002.
Solucion:
Sabemos que
Renta inicial antes de actualizar = 700 €
IPC de enero de 2001(Tabla 4.6) = 133,413
Indice LAU de marzo de 2002 (Tabla 4.8) = 138,642
Utilizando la expresi6n [4.28] tenemos:
138,642
Renta actualizada = 700 € x 133413 = 727,435 €
,
El IPC es el indicador de la inflaci6n 0 perdida del poder adquisitivo de
las rentas disponibles de las familias ya que s610 incluye bienes y servicios
destinados al consumo final de los hogares. En el IPC no se contempla las
subidas de precios de los bienes y servicios de naturaleza intermedia adquiri­
dos por los sectores en el proceso productivo.
La inflaci6n subyacente es e1 IPC sin los alimentos no elaborados ni los
productos energeticos,
,
4. 13. Indices de Precios de Consumo
Armonizado (IPCA)6
Es un indicador estadfstico cuyo objetivo es proporcionar una medida
cormin de la inflacion que permita realizar comparaciones internacionales.
Para llegar a este fndice, y a 10 largo de un perfodo transitorio, ano 1996, se
reaIizaron las modificaciones y ajustes necesarios sobre los II>C de cada pafs
s Esta expresi6n no es valida para comparar perfodos inferiores a un afio,
6 Metodologfa INE.
249
248
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
miembro de DE hasta conseguir un Indice con unas caracterfsticas esenciales
comunes a todos los paises. EI primer Indice, despues del perfodo .transitorio,
se refiere a enero de 1997 con base en 1996
7

EI IPCA de cada pafs cubre las parcelas que superan el uno por mil del
gasto total de gasto de la cesta de la compra naeional, siendo excluidos del
IPCA los seruiciosmedicos y la ensefianza reglada.
Ademas la ponderaci6n de algunas parcelas no se incluye totalmente, es el
caso de los seguros, para los que solo se consideran los gastos ligados a las
primas netas, los autom6viles, de los cuales se elimina los gastos correspon­
dientes a ventas entre consumidores, 0 los medicamentos y productos farmaceu­
ticos, que solo incluyen los no subveneionados. Asf pues, despues de estas .
exclusiones, la ponderaei6n total eliminada de la estructura del IPC espanol
es aproximadamente del 5 %.
EI IPCA esta formado por doce grandes grupos cuyas respectivas ponde­
raeiones aparecen en la Tabla 4.9.
TABLA 4.9. Grupos y ponderaciones que inteqran elIPCA
Grupos Ponderaciones %
01. Alimentos y bebidas no alcoh6licas
27,5
02. Bebidas alcoh6licas y tabaco
3,2
03. Vestido y calzado
11,4
04. Vivienda
11,2
05. Menaje
6,5
06. Medicina
0,8
07. Transporte
14,6
08. Comunicaciones
1,6
09. Ocio y cultura
6,9
10. Enseiianza
0,1
11. Hoteles, cafes y restaurantes 11,8
12. Otros
4,4
Fuente: INE.
La f6rmula que se utiliza para obtner el IPCA, es la misma que para
obtener el IPC espafiol, la f6rmula de Laspeyres:
I=I W;Ii
i
donde el fndice de cada articulo I, se obtiene como coeiente de las medias
aritmeticas de sus preeios. Las ponderaeiones Wi permanecen fijas mes ames.
7 El Reglamento del Consejo.nnmero 2494/95 de 23 de octubre de 1995 establece las directrices
para la obtenci6n de indices comparables.
NUMEROS iNDICES
A partir de las IPCA de los quince paises miembros, la oficina de estadfstica
de la Uni6n Europea (EUROSTAT) obtiene un lndice de Precio de Consumo
de la Union Europea como media ponderada de los IPCA de dichos indices.
,
4. 14. Otros Indices 0 Indicadores de Coyuntura
elaborados
Ademas del IPC, que sin duda es el indicador mas relevante ya que la
subida generalizada de los precios al consumo tiene una enorme repercusi6n
en los ambitos soeioecon6micos, existen otra serie de indices que nos comple­
tan el panorama coyuntural de nuestra economfa.
a) lndice de Producci6n Industrial (IPI)8
Es un Indice de naturaleza cuantica que mide la evolucion mensual de la
actividad productiva de las ramas industriales, excluida la construcei6n. Mide
la evolucion conjunta de Ia cantidad y de la calidad, eliminando la influencia
de los precios.
Para su obtenei6n se elabora una encuesta continua de periodicidad men­
sual dirigida a mas de 9.000 establecimientos.
EI organismo responsable de su elaboraei6n es elINE, en donde puede
encontrarse la metodologfa completa.
b) Indice de Precios Industriales (IPRl)9
Completa con el anterior la panoramica coyuntural de la industria en
nuestro pais. Mide la evoluei6n mensual de los precios de los productos
industriales, fabricados y vendidos en el mercado interior, en el primer paso
de su comercializacion, es decir, de los preeios de venta a salida de fabrica
obtenidos por los establecimientos industriales en las transaceiones que estes
efectuan, excluyendo los gastos de transporte, comercializacion e IVA fac­
turado.
Para su obtencion se realiza una encuesta continua de periodieidad men­
sual, que investiga todos los meses mas de 6.000 estableeimientos indus­
triales.
8 fndice de Producci6n Industrial (lPI). Base 1990. INE.
9 fndice de Precios Industriales (lPRI). Base 1990. INE.
--
250 CASAS-sANCHEZ, J. M. y SANTOS-P:-INAS, J.
c) indices de Comercio al por Menor (ICM)IO
,
El objetivo principal de estos fndices de Comercio al por Menor es conocer
las caracterfsticas fundamentales de las empresas dedicadas al comercio al por
menor en Espana, pennitiendo medir a corto plazo, la ev ilucion de la activi­
dad en el sector.
d) indice de Precios Hoteleros (IPH)l1
Es una medida de la evoluci6n mensual de los precios que los empresarios
hoteleros aplican a sus clientes.
Para su obtenci6n se utiliza la Encuesta de Ocupaci6n en Alojamientos
Turisticos: Establecimientos Hoteleros. Se investigan mensualmente alrededor
de 8.500 establecimientos hoteleros.
e) indices de cotizacion bursdtil
Miden las fluctuaciones de las cotizaciones de las acciones que se registran
diariamente en los diferenteS mercados bursatiles, haciendo referencia a la
cotizaci6n de los valores en el momenta de cierre de la sesi6n. A partir de las
cotizaciones de cada valor se elaboran indices de grupos (bancos, alimentaci6n,
construcci6n, etc.). Estos indices, convenientemente ponderados segun el volu­
men, y utilizando f6nnulas tipo Laspeyres nos lIevan a obtener el indice
general de la bolsa 0 un indice tipo IBEX-35.
10 Indice de Comercio al por Menor (ICM). Base 2001. INE.
11 Indice de Precios Hoteleros (IPH). Base 2001. INE.

Ejercicios
1. Los precios y cantidades anuales producidos en cierta factoria han resul­
tado ser, para e1 perfodo 1990-1994, los siguientes:
Ano t Precio Pt Cantidad qt
199O 200 35
1991 210 38
1992 225 39
1993 235 36
1994 250 40
Determinar en tantos por uno:
I
a) La variaci6n relativa de precios con base 1991.

b) Los indices cuanticos con base 1991 y 1990.
c) El valor del producto en pesetas constantes de 1991 como base.
Soluci6n:
a) = mimero indice simple de precios con base 1991,
P91
t = 90,91, ..., 94.
b) =!f!.... y =!f!.... (t = 90, 91, 92, 93, 94)
q91 q90
c) = P91Qt
Recogidos en una tabla resultan ser:
i',
I-l
Ano Precio relativo fndice cuantico fndice cuantico Valor
t

r
i]
-- --

0,9523809 0,9210526 1 7.350
i
I
,
,
tl
1 91 1 1 1,0857143 7.980

1992 1,0714286 1,0263158 1,1142857 8.190
1993 1,1190476 0,9473684 1,0285714 7.560
1994 1,1904762 1,0526316 1,1428571 8.400
252 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
2. El numero fndice de producci6n en tantos por uno en el afio 1994, con
base 1980, fue 2,38. Sabiendo que en 1980 la producci6n fue de kilogra­
mos del producto, calcular la producci6n en toneladas metricas (1 tm = 1.000
kg) en el ano 1994.
Soluci6n:
Q
94 = 238 = q94 = ' q94 => q = 3.200.238 = 7616 kg
80 , q80 3.200 kg 94 ,.
= 7,616 tm
3. Una marca de electrodomesticos fabrica, en cierta cadena industrial,
cuatro tipos de exprimidores automaticos que reciben el nombre de modelo
A, B, C Y D. En los afios 1997, 1998 y 1999, los precios recomendados de
venta y el nnmero de unidades de cada modelo producidas se recogen en
esta tabla:
1997 1998 1999
Modelo
Precio N.O de Precio N.O de Precio N," de
(u.m.) unidades (u.m.) unidades (u.m.) unidades
A 35 5.000 37 5.200 40 5.400
B 40 3.000 45 2.500 47 2.500
C 50 1.500 55 1.700 58 1.800
D 65 1.000 68 1.200 70 1.300
Se pide en tantos por uno:
a) Los indices de precios de Laspeyres con base 1997.
b) Los indices de precios de Paasche con base 1997.
c) Los indices cuanticos de Laspeyres con base 1997.
d) El valor en pesetas constantes de 1997 de la producci6n en los tres
afios.
e) El valor en u.m. corrientes.
f) El fndice de precios de Fisher con base 1997.
NOMEROS iNDICES 253
Soluci6n:
a) 4
Pi, t qi,97 35.5.000 + 40. 3.000 + 50· 1.500 + 65· 1.000
Pi. 97 =;,. . =35.5.000 + 40.3.000 + 50. 1.500 + 65· 1.000
c: q,,97 .
+ 120.000 + 75.000 + 65.000 9
= = 1 si t = 19 7
435.000 '

p = 37· 5.000 + 45·3.000 + 55· 1.500 + 68· 1.000
98
i

L,97 435.000

185.000 + 135.000 + 82.500 + 68.000
I
435.000
, 470.500
435.000 1,0816092 si t = 1998
p99 = 40·5.000 + 47·3.000 + 58·1.500 + 70·1.000
L,97 435.000
I
200.000 + 141.000 + 87.000 + 70.000
435.000
!
498:000 .
-- 1,1448276 SI t = 1999
b) 4
I PitQit
i=1
35 . 5.000 + 40· 3.000 + 50· 1.500 + 65· 1.000
97 = --='4---=--­
435.000
I Pi,97Qit
i=1
= 1, si t = 1997
98 _ 37 . 5.200 + 45 . 2.500 + 55 . 1.700 + 68· 1.200
pr. 97 - 35.5.200 + 40.2.500 + 50·1.700 + 65·1.200
192.400 + 112.500 + 93.500 + 81.600
182.000 + 100.000 + 85.000 + 78.000
480.000 .
445.000 1,0786517, SI t = 1998
254
255
CASAS-sANcHEZ, J. M. y SANTOS·PENAS, 1.
99 _ 40·5.400 + 47·2.500 + 58·1.800 + 70·1.300
PP, 97 - 35.5.400 + 40.2.500 + 50. 1.800 + 65. 1.300
216.000 + 117.500+ 104.400+ 91.000
189.000 + 100.000 + 90.000 + 84.500
528.900
= 463.500 1,1411003, si t = 1999
c)
4
L qi,tPi,97
Qt97 = = 1, si t = 1997
L qi, 97Pi, 97
i=l
445.000
435.000 = 1,0229885, si t = 1998
463.500
= 435.000 = 1,0655172, si t = 1999
d) Y= V9 7 + V
9 8
+ V
9 9
= 1.343.500 u.m. de 1997
donde
4
V9 7 = L Pi, 97qi, 97 = 435.000 u.m. de 1997
i= 1
4
V9 8 = L Pi, 97Qi, 98 = 445.000 u.m. de 1997
i=l
4
V9 9 = L Pi, 97Qi, 99 = 463.500 u.m. de 1997
i=l
e) V = + + = 1.535.000 u.m. corrientes
donde
4
= L Pi, 99Qi, 97 = 498.000 u.m. de 1999
i= 1
4
= L Pi, 99Qi, 98 =
i= 1
= 40·5.200 + 47·2.500 + 58· 1.700 + 70· 1.200 =
= 208.000 + 117.500+ 98.600 + 84.000= 508.100 u.m. de 1999

NUMEROS fNDICES
4
= L Pi, 99Qi, 99 = 528.900 u.m. de 1999
i= 1 '
f)
P},97 = Jpi, 97 97 = 1, si t = 1997
J1,0816092.1,0786517 = 1,0801294, si t = 1998
J1,1448276.1,1411003 = 1,1429624, si t = 1999
4. Una nave industrial ha sido aIquilada para su explotaci6n aI precio de
750.000 u.m. en eI ano 1996. Si el Indice de precios al consumo ha evolucio­
nado de este modo:
Afio fndice de Precios aI Consumo (Base 1996)
t P91 en tantos por uno
1996 1
1997 1,06
1998 1,11
1999 1,20
lCmU sera el precio de alquiler para 1999, si en ese ano se revis6 el precio
de acuerdo con los incrementos de precios al consumo?
Soluci6n:
Sera el nuevo precio para 1999:
750.000· = 750.000· 1,2 = 900.000 u.m.
5. Demostrar que: PL' Qp = Pp' Q
L
= PF' QFsiendo PLY QL los indices de
Laspeyres de precios y cantidad, Pp Y Qp los indices de Paasche de precios
y cantidad respectivamente, y PF Y QF los indices de Fisher de precios y
cantidad.
,
t1
I, NUMEROS fNDICES 257
256 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
~ ~
B export6 a A
Soluci6n:
L Pitqio L qitPit L Pitqit
i i i 1990 1994
P
L
= L Pioqio' Qp = L qioPit :;. PLQp = L Pioqio Productos
I
i
Precio Cantidad Precio Cantidad
~ ~
l' 15 600 20 750
~
L Pitqit L qitPio
_ i , i ~ 2' 35 200 45 400
:;. PpQL= PLQp
~
r, - L Pioqit QL = L qioPio
i
L Pitqit
.i. _
P
F
= JpLP
P
=
L Pitqio
i
----. L Pioqit'
i
L qitPit
i
QF = JQLQp =
L qioPit
i
De donde
L Pitqit
PF. QF = .:... = PL" Qp = Pp. QL
Pioqio
6. EI intercambio comercial entre dos paises A y B, se recogen en la infor­
maci6n siguiente (en miles de u.m.)
A export6 a B
1990 1994
Productos
Precio Cantidad Precio Cantidad
1 10 500 15 500
2 25 150 32 200
3 30 400 35 500
Se pide:
a) Calcular los indices de precios de Laspeyres y Paasche de exportaci6n
de A y B, y de B a A, con base 1990 (en tantos por uno).
b) Calcular los indices cuanticos respectivos (en tantos por uno).
e) l,Existe deficit 0 superavit comercial para el pais A, en 1990 y 1994?
Soluci6n:
a) fndice de Precios de Exportaci6n de A a B
94 _ 15·500 + 32· 150 + 35·400 7.500 + 4.800 + 14.000
PL, 90 - 10. 500 + 25. 150 + 30.400
5.000 + 3.750 + 12.000
26.300
= 20.750 ~ 1,2674699
= 15·500 + 32·200 + 35·500 7.500 + 6.400 + 17.500 p
94
P,90 10. 500 + 25·200 + 30·500 5.000 + 5.000 + 15.000
31.400
= 25.000 ~ 1,256
fndices de Precios de Exportaci6n de B a A
194 = 20·600 + 45·200 = 12.000 + 9.000 = 21.000 ,...., 2
PL, 90 15.600 + 35.200 9.000 + 7.000 16.000 - 1,31 5
194 = 20· 750 + 45·400 = 15.000 + 18.000 = 33.000 ,....,
PP, 90 15.750 + 35.400 11.250 + 14.000 25.250 - 1,306930
7
258
CASAS-sANCHEZ, 1. M. y SANTOS-PEJ'l"AS, J.
b) Indices Cuanticos de Exportaci6n de A a B
94 25.000 12048193 ,
QL,90 - 20.750
94 ,
31.400 11939163
Qp, 90 - 26.300
Indices Cuanticos de Exportaci6n de B a A
'94 25.250 1 578125 ,
QL,90 - 16.000
Q'94 33.000
P,90 = 21.000 1,5714286
c) Valor exportado de A a B en 1990: V
90
= 20.750, en miles de u.m. de 1990.
Valor exportado de B a A en 1990: = 16.000, en miles de u.m. en 1990.
Luego, en 1990 hubo superavit para A valorado en 4.750, miles de u.m.
de 1990.
Valor exportado de A a B en 1994: V
94
= 31.400, en miles de u.m. de 1994.
Valor exportado de B a A en 1994: = 33.000, en miles de u.m. de 1994.
Luego, en 1994 hubo deficit para A valorado en 1.600, miles de u.m. de
1994.
7. Una moneda se deprecia anualmente en un 8 % respecto del afio prece­
dente. Disponemos de los valores (en millones de u.m.) del patrimonio de cierta
compaiifa; estos son:
,
Afio t 11990 1991 1992 1993 1994
Valor Yr (en millones de u.m.) 30 35 38 40 46
Deflactar estos valores teniendo en cuenta la depreciaci6n anual de la
monedautilizada.
NUMEROS iNDICES 259
Soluci6n:
El valor de 1 mill6n de u.m. de 1990 sera de valor diferente que 1 mill6n
de u.m. de 1991 0 1992, etc. Concretamente se deprecia en un 8 % cada afio
respecto del anterior; luego el valor de 1 mill6n de u.m. de 1990, pasa a ser:
a) 0,92 millones de u.m. en el afio 1991, pues 0,92 =
b) 0,8464 millones de u.m. en el afio 1992, pues 0,8464 = 0,92
2
=
c) 0,778688 millones de u.m. en el afio 1993, pues 0,778688 = 0,92
3
=
d) 0,7163929 millones de u.m, en el afio 1994, pues 0,7163929 = 0,92
4
=
Luego, en millones de u.m. constantes de 1990, la valoraci6n del patrimo­
nio de la compaiifa es:
Afio t 1990 1991 1992 1993 1994
Valor Yr (en millones de
u.m. de 1990) 30 32,2 32,1632 31,14752 32,954073
Donde:
V; = = Yr(0,92y-1990, t = 1990, 1991, 1992, 1993 y 1994.
Siendo el Indice de precios que produce la depreciaci6n de la moneda en
el afio t en base 1990.
8. El tndice de precios al consumo en tantos por uno, en tres anos consecu­
tivos ha sido:
Afto t 1992 1993 1994
1,05 1,04 1,032 IPC:_
1
Obtener el Indice medio en estos tres afios.
Soluci6n:
El fndice medio pedido, al que denotamos IPC, debe de verificar que:
1994 1994
Il IPC:_
1
= Il IPC = (IPC)3
t= 1992 t= 1992
260 CASAS-sANCHEZ, 1. M. y SANTOS-PE:I'rAS, 1.
Luego:
1994
IPC = 3/ TI IPQ-1 = Vl,05 ·1,04 ·1,032 Vl,126944
t= 1992
1,0406406 (media geometrica de los indices anuales)
De este modo el fndice de precios alconsumo en el perfodo 91-94 sera:
IPC
1994
= (IpC)3
1991
ya que
IPC
1994
= IPC
1992
IPC
1993
IPC
1994
= IPC·IPC·IPC = (IPC)3
1991 1991' 1992' 1993
Es decir, la evoluci6n de los precios al consumo en tres alios consecutivos
ha elevado los precios de 1991 a 1994 una cantidad igual al producto de los
tres indices de la tabla; pero esta elevaci6n de precios habna resultado la
misma, a efectos de 1994, si hubieramos tenido un fndice constante interanual
igual al promedio geometrico IPC.

Capitulo 5
Estudio closlco 0 descriptivo
de las series temporales
5. 1. lntroducclen
En el presente capitulo, igual que ha ocurrido con la elaboraci6n de. los
numeros indices, vamos a seguir tratando de estudiar los fen6menos econ6mi­
cos (el consumo familiar, la inflaci6n, los tipos de interes, el paro, etc.) a 10
largo de la variable tiempo, As! como con los mimeros indices se estudia la
evoluci6n de una magnitud en una serie de perfodos de tiempo, con el estudio
descriptivo de las series tratamos de hacer predicciones del fen6meno en
estudio teniendo en cuenta sus caracterfsticas hist6ricas 0 del pasado. Lo
denominamos estudio clasico 0 descriptivo de las series temporales ya que se
ha venido empleando en exc1usividad desde la segunda mitad del siglo XIX
hasta 1970 en que aparece un nuevo enfoque debido a los estadfsticos Box y
Jenkins con sus conocidos modelos univariantes de series temporales. Estos
modelos se estudian en profundidad en los cursos de Econometna ya que
requieren un conocimiento previo de procesos estocasticos y de las distribu­
ciones de probabilidad que siguen dichos procesos.
En el tratamiento clasico 0 descriptivo que se desarrollara en el presente
capitulo se empleara el metodo tradicional de aislar 10 que se conoce con el
nornbre de componentes de una serie econ6mica temporal.
5.2. Concepto de serie temporal y definicion
de sus componentes
Se define como serie temporal (tambien denominada hist6rica, cronol6gica
o de tiempo) a un conjunto de datos, correspondientes a un fen6meno econ6­
262
CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
mico, ordenados en eI tiempo. As! seran series temporales las ventas de nuestra
empresa en cada uno de los ultimos diez alios, los costes financieros, la renta
disponible de nuestros clientes potenciales, etc. Es fundamental que los datos
esten ordenados en eI tiempo de forma que cada observaci6n debera estar
asociada a un determinado periodo. Luego en esencia una serie de tiempo es
una distribuci6n de frecuencias bidimensional (y" t) donde la variable end6­
gena Yt es la magnitud en estudio y la ex6gena 0 independiente es el tiempo
t. Pero s6lo existe una sola variable Yt que constituye 10 que se conoce como
modeIo univariante de serie temporal que se autoexplica por su propio pasado,
no existiendo ninguna variable explicativa 0 ex6gena que nos permita estable­
cer una relaci6n causa-efecto como se estudi6 en la regresi6n y correlaci6n. Se
estudia eI pasado hist6rico de Yt (sus componentes) de forma descriptiva y bajo
el supuesto de que su estructura va a permanecer constante se hacen predic­
ciones para el futuro.
En la representaci6n grafica de las series temporales se utilizan los ejes
cartesianos de la misma forma que se vio en la regresi6n bidimensional. En el
eje de abscisas se representa el tiempo t y los valores de la magnitud observada
Yt en ordenadas con 10 que se obtiene una serie de puntos (t, Yt) que, al unirlos
nos dan un impacto grafico de la serie del que se puede sacar unas primeras
conclusiones de la evoluci6n hist6rica de la magnitud.
Ejemplo 5.1
La cifra de las ventas trimestrales de un supermercado en el periodo
1990-1994, expresadas en millones de pesetas constantes de 1990, han sido los
siguientes: 60, 70, 50, 80, 70, 80, 60, 100, 50, 60, 30, 70, 40, 50, 25, 60, 90, 95,
80,110. Efectuar su representaci6n grafica comentando la evoluci6n de la serie.
Soluci6n:
En el grafico 5.1 sobre eI eje de abscisas se han llevado los 20 trimestres
de los cinco alios considerados y en el de ordenadas el valor de las ventas
expresadas en millones de pesetas. Puede observarse que las ventas oscilan de
unos trimestres a otros y que en 1991 (trimestres 5, 6, 7 Y 8) aumentan en
relaci6n con los de 1990 (trimestres 1, 2, 3 y 4). En 1992 (trimestres 9, 10, 11
Y 12) la magnitud baja de nivel comparada con los datos de ·los trimestres de
los dos alios anteriores ocurriendo 10 mismo en 1993 (trimestres 13, 14, 15 Y
16). En cambio la magnitud recupera unos niveles que estan por encima de
todos los anteriores en 1994 (trimestres 17, 18, 19 y 20).
En el estudio clasico de las series temporales se considera que la concreci6n
de la magnitud en un determinado valor y en un determinado periodo es
consecuencia de la actuaci6n de cuatro componentes 0 fuerzas: la tendencia
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 263
Yt
110
100
90
80
70
60
50
40
30
20
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 t
GRAFleo 5.1. Serie de tiempo de las ventas trimestrales de un supermercado.
secular, las variaciones ciclicas, las variaciones estacionales y las variaciones
accidentales. 0 sea el que las ventas del 19.
0
trimestre del ejemplo 5.1 sean 80
millones de pesetas tiene su origen en la actuaci6n conjunta de estas cuatro
componentes. Vamos a definirlas.
- Tendencia (1'): Es una componente de la serie que refleja su evoluci6n
a largo plazo. Este largo plazo sera distinto segun sea la naturaleza de la serie,
pero cuantos mas periodos se tengan mejor sera el analisis, En el ejemplo 5.1
la tendencia se obtendria teniendo en cuenta la evoluci6n de las ventas a 10
largo de todo el periodo de cinco alios. En el grafico 5.2 se representa por una
linea recta creciente, ya que puede observarse que al considerar todo el con­
junto de observaciones las de los ultimos trimestres superan, en lfneas gene­
rales, las alcanzadas en los anteriores. Esta componente, en eI conjunto de
toda serie, puede ser de naturaleza estacionaria 0 constante (se representarfa
por una paralela al eje de abscisas), de naturaleza lineal (creciente 0 decreciente
segun que eI coeficiente angular de la recta sea positivo 0 negativo), de natu­
raleza parab6lica, de naturaleza exponencial, u otras posibles.
- Las variaciones ciclicas (C): Es una componente de la serie que recoge
las oscilaciones peri6dicas de amplitud superior a un afio. Estas oscilaciones no
son regulares y se presentan en los fen6menos econ6micos cuando se dan de
forma alternativa etapas de prosperidad 0 de depresi6n. En el grafico 5.2 se
264 CASAS-sANCHEZ, 1. M. Y SANTOS-PENAS, 1.
observa una variaci6n cfclica en las venta del supermercado con una amplitud
de unos dos anos y medio (la amplitud se mide trazando una paralela al eje
de abscisas equidistante en los extremos de las ondas del cicIo y contando los
perfodos de tiempo existentes entre los puntos consecutivos que surgen al
cortar dicha paralela al grafico del cicIo C). La cafda de las ventas del super­
mercado en los afios 1992 y 1993 tiene su origen en la recesi6n econ6mica que
sufri6 nuestro pais en los mencionados afios y que afect6 al consumo familiar.
Pero la tendencia creciente de la serie hace que en 1994 las vent as alcancen
niveles superiores, en pesetas constantes, a los que existian en 1990 y 1991.
- Las variaciones estacionales (E): Es una componente de la serie que
recoge las oscilaciones que se producen en perfodos de repetici6n iguales 0
inferiores a un ano, Su nombre proviene precisamente de las estaciones clima­
tol6gicas: inviemo, primavera, verano y otoiio. Si se considera el afio como el
periodo marco 0 de repetici6n pueden observarse las fluctuaciones de la mag­
nitud a 10 largo de sus trimestres como ocurre en el ejemplo 5.1, de sus meses,
de sus cuatrimestres, etc. Si el perfodo de repetici6n es el mes pueden obser­
varse las fluctuaciones en sus distintos dfas, decenas, etc. (por ejemplo, debido
ala disponibilidad monetaria de los individuos, el consumo de gasolina para
los autom6viles aumenta en la primera decena del mes y disminuye en la
Ultima). Si es una semana existen una serie de comportamientos fluctuantes a
10 largo de sus dfas provocados por las costumbres, habitos individuales: hacer
las compras los viemes y sabados, ir a los espectaculos, etc. Pueden ponerse
multitud de ejemplos en los que se dan las variaciones estacionales como una
serie de oscilaciones que suelen ser repetitivas y regulares en perfodos cortos.
En cambio las oscilaciones ciclicas no guardan regularidad y se dan en perfo­
dos largos superiores al afio.
El origen de las variaciones estacionales puede estar en facto res ftsico­
naturales como son las estaciones climatol6gicas 0 en facto res culturales y de
tradici6n: fiestas navidenas, vacaciones, horarios comerciales, etc. El clima
afecta a la venta de una serie de productos: los helados y refrescos se venden
. fundamentalmente en verano y la ropa de abrigo en inviemo. Si nos fijamos
en las fluctuaciones trimestrales de las ventas del supermercado del ejemplo
5.1 puede observarse que de forma regular son mayores sistematicamente en
los segundos y cuartos trimestres en comparaci6n con los primeros y terceros.
Ello es debido a la estacionalidad de las compras de las familias. En verano
estan las vacaciones y la clientela del supermercado se desplaza a otros lugares
de esparcimiento quedando la poblaci6n de la zona de influencia del mercado
muy disminuida. En el cuarto trimestre se ·da un aumento sensible por las
compras navidenas, En el primer trimestre el consumo se retrae por la famosa
cuesta de enero al haberse quedado agotadas las disponibilidades y la paga
extra en el mes de diciembre. El segundo trimestre se suele comportar con un
";;:tn'·-'
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 265
cierto nivel de recuperaci6n respecto al primero. En consecuencia podemos
concIuir que las ventas del supermercado a los hogares fluctuan de acuerdo
con facto res de tipo cultural y de tradici6n (vacaciones, fiestas navideiias, etc.).
- Las variaciones accidentales (A): Es una componente de la serie tempo­
ral que recoge las fluctuaciones erraticas que se dan por la ocurrencia de
fen6menos imprevisibles (un pedido extraordinario a nuestra empresa, una
huelga, una catastrofe, etc.). Tambien reciben el nombre de variaciones irregu­
lares, residuales 0 erraticas, Ademas de los fen6menos imprevisibles 0 extra­
ordinarios tambien existen perquefias variaciones de origen aleatorio cuyas
causas pueden ser multiples. En el ejemplo 5.1 una variaci6n accidental pro­
ducida por una causa extraordinaria (un gran pedido de una fabrica para que
el supermercado facilite las cestas de Navidad de su personal) es el enorme
salto de la magnitud que en el octavo trimestre pasa a ser 100 millones de
pesetas. En cambio las variaciones accidentales son muy pequenas y afectan a
cada valor de la magnitud teniendo su origen en multiples causas.
En el grafico 5.2, aunque los valores de las componentes de la serie tem­
poral del ejemplo 5.1 son desconocidos, se realiza una representaci6n te6rica
de las mismas. La tendencia T la representamos por una recta creciente a 10
largo de todo el perfodo de forma que el crecimiento constante para cada valor
de t vendra dado por el coeficiente angular de dicha recta. La otra componente
que tambien se manifiesta a largo plazo es la variaci6n ciclica C. Las variaciones
estacionales E tienen una gran importancia y sus oscilaciones siguen los pe­
nodes trimestrales de forma repetitiva. Las de menor importancia cuantitativa
son las variaciones accidentales A ya que en terminos genericos son pequefias
fluctuaciones debidas a una multitud de causas si se exceptna el movimiento
extraordinario del perfodo numero ocho debido a un fen6meno unico y no usual
(el gran pedido de cestas de navidad que ha realizado la fabrica),
Ahora cabe hacerse una pregunta basica: l.C6mo actuan los cuatro com­
ponentes para que como resultado den los distintos valores de la serie obser­
vada? En el estudio clasico de las series temporales se han manejado dos
hip6tesis de trabajo:
- Los valores observados de cualquier serie temporal son el resultado de
la adicion de las cuatro componentes:
Yt = T+ C + E + A [5.1]
La expresi6n [5.1] se conoce con el nombre de esquema 0 hip6tesis aditiva
para descomponer la serie observada en sus cuatro componentes. Si nos
centramos en los datos del ejemplo 5.1 significa que los valores observados de
las ventas (60, 70, 50, 80, 70, etc.) son el resultado de sumar la componente
tendencial, la ciclica, la estacional y la accidental.
266 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
Yt
110
100
c
90
80
70
60
50
40
30
20
10
GRAFICO 5.2. Representaci6n te6rica de las componentes de La serie temporal
del ejemplo 5.1.
- Los valores observados de cualquier serie temporal son el resultado de
la multiplicaci6n de las cuatro componentes:
Yt = T x ex E x A [5.2]
Esta expresi6n [5.2] admite variantes para recoger el supuesto de que la
componente accidental 0 erratica es independiente de las demas y no sigue
ninguna regularidad periodica como ocurre con los demas. Esta independencia
implica que la componente A aparezca de forma aditiva:
Yt = T x ex E + A . [5.3]
Los metodos que se utilizan para aislar las componentes de las series
temporales estan basados en algunos de los anteriores esquemas aunque no
puede establecerse una generalizaci6n del problema ya que no en todas las •
series temporales aparecen todas las componentes. Asi, por ejemplo, si la serie
tiene periodicidad anual esta exenta de las variaciones estacionales. Para re­
solver el problema de cual debe ser el esquema 0 hipotesis a utilizar en cada
caso, si aditiva 0 multiplicativa, habra que efectuar un analisis previo de la
. serie por metodos graficos 0 analiticos. Estos procedimientos se basan en el
comportamiento de la componente estacional. Si por ejemplo se realiza una
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
ESTUDIO cLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 267
representacion grafica de la serie y se observa que las oscilaciones aumentan
a 10 largo de los periodos con una tendencia creciente, puede afirmarse que
esta actuando el esquema multiplicativo. Si las oscilaciones son regulares, no
expansivas a 10 largo de la serie, puede concluirse que esta actuando un
esquema aditivo. Una forma analitica de determinar el esquema de trabajo
mas adecuado es obtener las diferencias absolutas y relativas de los valores
observados entre periodos consecutivos (Yt+1 - Yt Y Y;'l). Seguidamente
se calcularia los coeficientes de variaci6n de estas dos series y si el de la
primera (Yt+ 1 - Yt) es inferior que el de la segunda Yt+ 1, se dira que la hip6tesis
Yt
aditiva es la mas adecuada. Por el contrario, si el coeficiente de variaci6n del
cociente es mas pequefio diremos que el esquema valido es el multiplicativo.
No obstante estos posibles analisis previos con la componente estacional,
debemos concluir que la inmensa mayoria de las magnitudes econ6micas se
adaptan perfectamente al esquema multiplicativo. Seguidamente vamos aver
los distintos metodos para aislar 0 determinar los componentes de una serie
temporal.
5.3. Determinacion de la tendencia
La tendencia es una componente fundamental en el estudio de las series
temporales ya que nos proporciona el hilo conductor de la evoluci6n del
fen6meno a largo plazo. Su determinacion s610 debe efectuarse cuando se
disponga de una larga serie de observaciones (se aconseja a partir de doce 0
quince afios), ya que en otro caso se podrian obtener conclusiones erroneas.
De los multiples metodos que se han ideado para tratar de aislar la tendencia
de las demas componentes vamos a tratar los mas sencillos y conocidos.
a) M etodo qrafico
Es el metodo mas sencillo para obtener una linea de tendencia de una serie
temporal sin necesidad de hacer operaciones aritmeticas, Por esta raz6n es el
mas impreciso, aunque puede darnos una primera aproximaci6n al sentido de
la tendencia. El metodo tiene las siguientes fases:
- Se efectua la representaci6n grafica de la serie observada Yt.
- Se unen mediante segmentos rectihneos todos- los puntos altos de la
serie obteniendose la linea poligonal de cimas,
- Idem con los puntos bajos obteniendose la linea poligonal de Condos.
- Se trazan perpendiculares al eje de abscisas por los puntos de cima y
de fondos.
268 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
- La tendencia viene dada por la linea amortiguada que une los puntos
medios de los segmentos, es decir la linea de tendencia tiene, por orde­
nadas la media aritmetica de las ordenadas de las dos lineas anteriores.
Ejemplo 5.2
La serie trimestral de las ventas de una empresa son las siguientes expre­
sadas en millones de pesetas.

Trimestres
1991 1992 1993 1994
1.0
2.°
3.°
4.°
50
80
70
60
20
50
40
30
50
70
50
40
70
100
90
60
Representar la tendencia de forma grafica,
Solucion:
En el grafico 5.3 pueden observarse los siguientes elementos: a) La repre­
sentaci6n grafica de la serie observada. b) La linea poligonal C de cimas
Yt
,/,C
100
T
90
80
70
60
50
40
30
20
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
GRAFlCO 5.3. Serie de tiempo de las ventas trimestrales de un supermercado.
i
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 269
o puntos altos. c) La linea poligonal de fondos F 0 de puntos bajos. d) Los
puntos medios de los segmentos de uni6n (P l' P2' P3' P4' Ps, P6 YP 7) de las
lineas C y F. e) Y, por Ultimo la linea que une dichos puntos medios que nos
indica la direcci6n de la tendencia que es predominantemente creciente.
b) Metoda de las medias m6viles
Es un metodo de naturaleza mecanica que consiste en sustituir la serie
temporal observada por una amortiguada 0 suavizada obtenida por el calculo
reiterado de valores medios y que nos representa la tendencia. Su aplicaci6n
consiste en 10 siguiente:
- Partimos de la serie temporal observada Yt.
- Se obtienen sucesivas medias aritmeticas para cada Yt con un numero
de observaciones anteriores y posteriores que se ha fijado de antemano.
Si el numero de observaciones utilizado es impar la media .vt obtenida
coincide (esta centrada) con el perfodo t. Si el mimero utilizado es par
la .vt no coincide con el perfodo t (esta descentrada) y hay que volver
a calcular una nueva media aritmetica }It utilizando los .vt con 10 que
se obtiene una serie de medias m6viles centradas con los perfodos de
tiempo. Las observaciones que se utilizan para obtener las medias
aritmeticas suele coincidir con los perfodos inferiores al afio que con­
tiene la serie (por ejemplo seran tres si son cuatrimestres, cuatro si son
trimestres, doce si son meses, etc.); si el perfodo de repetici6n fuese la
semana, las medias se obtendrfan con todos sus dfas,
- La serie formada por .vt 0 por }It, segun sea impar 0 par el mimero de
observaciones utilizadas, nos indica la linea amortiguada de la ten­
dencia.
Ejemplo 5.3
Las ventas trimestrales de una fabrica de calzado expresadas en millones
de pesetas para los afios 1992, 1993 y 1994 son las siguientes:

Trimestres
1992 1993 1994
1.er trimestre 150 155 160
2.° trimestre 165 170 180
3.
er
trimestre 125 135 140
4.° trimestre 170 165 180
270 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
Obtener las series de tendencia por el metoda de las medias m6viles em­
pleando tres y cuatro observaciones. Comentar las ventajas e inconvenientes de
utilizar mas 0 menos observaciones en el calculo de las medias aritmeticas,
Soluci6n:
Empleando tres observaciones
Como se ha indicado anteriormente la ventaja es que al ser datos impares
la serie de medias m6viles esta centrada con los periodos de las observaciones.
El inconveniente es que al ser trimestres deberian tomarse cuatro observacio­
nes para promediar todas las variaciones de las cuatro estaciones con objeto
de eliminarlas (no se olvide que nuestro objetivo es aislar la componente
tendencial de todas las demas). No obstante como ejercicio vamos a emplear
s610 tres observaciones de forma sucesiva ya que al ser impares la serie }it
queda automaticamente centrada con los distintos perfodos 0 valores de t.
- Yl + Y2 + Y3
150 + 165 + 125 _
Y2 = 3
3 = 146,6
165 + 125 + 170 _
- Y2 + Y3 + Y4
Y3 = 3
3 = 153,3
- Y3 + Y4 + Ys
125 + 170 + 155
---3--- = 150
Y4 = 3
- Y4 + Ys + Y6
170 + 155 + 170
Ys = 3 3 = 165
155+170+135 _
- Ys + Y6 + Y7
Y6 = 3
3 = 153,3
170 + 135 + 165 _
- Y6 + Y7 + Ys
Y7 = 3
3 = 156,6
- Y7 + Ys + Yg
135 + 165 + 160 _
Ys = 3
3 = 153,3
- Ys + Yg + Yl0
165 + 160 + 180 _
Yg = 3 3 = 168,3
- Yg + Yl0 + Yl1
160 + 180 + 140
Yl0 = 3 3 = 160
- Yl0 + Yll + Y12
180 + 140 + 180 _
Yll = 3
3 = 166,6
,,,,-,,.;,,,":'
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 271
Puede observarse que en esta nueva serie de medias m6viles cada }it se
obtiene del anterior sin mas que suprimir el primer valor y anadir el siguiente.
Tambien observamos que para el perfodo uno y el doce no existe ningun valor
de }it, con 10 que a medida que se aumenta el mimero de observaciones
utilizados para obtener las medias m6viles, mas valores se pierden por los
extremos, aunque frente a este incoveniente existe la ventaja de obtener una
serie mas amortiguada 0 suave para indicar la tendencia. Esta viene dada
graficamente teniendo los puntos determinados por }i2' }i3, ..., }ill como puede
observarse en el grafico 5.4.
Yt
Yt
200
s.
175
150
125
100
2 3 4 5 6 7 8 9 10 11 12
GRAFIeo 5.4. Representaci6n de la tendencia a traces de las medias m6viles Y, obtenidas
con tres observaciones.
Empleando cuatro observaciones
En este ejemplo al ser datos trimestrales, 10 mas correcto es emplear cuatro
observaciones para obtener las sucesivas medias m6vi1es. El inconveniente es
que al ser un mimero par de datos la primera serie }it' esta descentrada respecto
a los perfodos de tiempo y hay que volver a promediar los distintos }it' dos a
dos para obtener una nueva serie de medias m6viles }It que se corresponden
con los periodos de los datos observados. La serie }it' descentrada sera:
CASAS-sANCHEZ, 1. M. Y SANTOS-PENAS, J. 272
_ Yl+Y2+Y3+Y4150+165+125+170
Y2,s = 4 = 4 = 152,5
_ _ Y2 + Y3 + Y4 + Ys 165 + 125 + 170 + 155
Y3,s - 4 = 4 = 153,75
__ Y3+Y4+YS+Y6 125+170+155+170
Y4,S - 4 = 4 = 155
__ Y4+YS+Y6+Y7 170+155+170+135
Ys,s - 4 = 4 = 157,5
__YS+Y6+Y7+YS 155+170+135+165
Y6,S - 4 = 4 = 156,25
_ _ Y6 + Y7 + Ys + Yg 170 + 135 + 165 + 160
Y7,s - 4 = 4 = 157,5
_ Y7 + Ys + Yg + YIO 135 + 165 + 160 + 180
Ys,s = 4 = 4 = 160
_ _ Ys + Yg + YlO + Yll 165 + 160 + 180 + 140
Yg,S - 4 = 4 = 161,25
-,
_ _ Yg + YIO + Yll + Y12 160 + 180 + 140 + 180
YIO,S - 4 = 4 = 165
En esta serie de medias m6viles con cuatro observaciones (mimero par)
puede verse que dichas medias se corresponden con periodos ficticios, que no
existen en la serie observada que son t' = 2,5; 3,5; ...; 10,5. 0 sea, que la primera
media aritmetica 152,5 corresponde a un periodo irreal que esta justo entre el
periodo dos y el tres; la segunda 153,75 esta en un t' = 3,5 que esta entre el
tres y el cuatro, etc. Para centrar estas medias con los periodos reales de las
observaciones se vuelven a promediar los valores Yt' dos ados obteniendose
la serie Yt que esta centrada en los periodos observados t:
= _ Y2,s + hs 152,5 + 153,75
Y3 - 2 = 2 . = 153,125
= _ hs + Y4,S 153,75 + 155
Y4 - 2 = 2 = 154,375
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS'SERIES TEMPORALES 273
= Y +-
Ys = 4,5 Ys,s 155 + 157,5 = 156,25
2 2
= _ Ys,s + hs 157,5 + 156,25
Y6 - 2 = 2 = 156,875
= _ hs + Y7.s 156,25 + 157,5
Y7 - 2 = 2 = 156,875
= _ Y7,S + Ys,s 157,5 + 160
Ys - = = 15875
22'
= _ Ys,s + Yg,S 160 + 161,25
Yg - 2 = 2 = 160,625
= _ Yg,S + YlO,S 161,25 + 165
YlO - 2 = 2 = 163,125
Esta serie Yt centrada en los periodos t es la que nos representa la tendencia
como se indica en el grafico 5.5. Puede verse que se han perdido cuatro
observaciones: las de los dos primeros periodos y las de los dos nltimos. Si la
comparamos con la serie Yt que nos indica la tendencia utilizando tres valores
observados vemos que es mucho mas suave 0 amortiguada ya que sus valores
maximos y minimos son 163,125 y 153,125 mientras que en aquella son 168,3
y 146,6; pero en esta se pierden cuatro valores y en aquella s610 dos.
En resumen se debe resaltar que el metodo mecanico de las medias m6viles
tiene como objetivo aislar la componente tendencial de todas las demas me­
diante la suavizaci6n 0 amortiguamiento de la serie observada. Al ir prome­
diando los valores observados de forma sucesiva se eliminan los efectos de las
otras componentes cuando existan: variaciones estacionales, accidentales y
ciclicas. Si los datos se observan en periodos inferiores al afio, en el supuesto
de que el periodo de repetici6n sea este (meses, trimestres, cuatrimestres, etc.)
es conveniente que para calcular las medias m6viles se emplean tantas obser­
vaciones como estaciones consideradas (12 para los meses, 4 para los trimes­
tres, 3 para los cuatrimestres, etc.) ya que se consigue una adecuada elimina­
ci6n de la componente estacional que normalmente se presentara de una forma
regular en dichos periodos. Hay que tener presente centrar la serie de medias
m6viles cuando los datos sean pares ya que cualquier dato se debe correspon­
der con toda exactitud con su periodo correspondiente.
Otra cuesti6n muy distinta es cuando los datos de la serie son anuales y
queremos obtener la tendencia a traves de las medias m6viles. AI ser observa­
ciones de perfodo anual no existe componente estacional ya que no se dan
274 CASAS-sANCHEZ, J. M. y SANTOS-PEN'AS, J.
YI
YI
200
YI
175
150
125
100
2 3 4 5 6 7 8 9 10 11 12
GRAFICO 5.5. Representacion de la tendencia a traces de medias m6viles Yt obtenidas
con cuatro observaciones.
perfodos inferiores al aiio. i., Cuantos aiios se deben tomar para calcular las
medidas m6viles? Lo ideal es tomar los mismos aiios que tenga la amplitud
del cicIo completo pero no siempre es facil determinarlo. Lo que sue1e hacerse
es obtener varias series de medidas m6viles con distinto mimero de observa­
ciones (tres afios, cinco, siete, etc.) y elegir la que este mas suave 0 amortiguada
observando sus valores extremos.
Como se ha indicado en la introducci6n al presente capftulo el objetivo
fundamental del estudio de las series de tiempo es hacer predicciones de la
correspondiente magnitud. El principal inconveniente del metoda mecanico de
las medias m6viles es que no permite efectuar dichas predicciones ya que no
obtenemos la estimaci6n de la tendencia a traves de una funcion matematiea
sino a traves de una serie amortiguada. Este hecho hace que se utilice poco
para determinar la tendencia cuando se quieran realizar pron6sticos de evo­
luci6n de cara al futuro; pero sf se utiliza cuando queremos obtener fndices
de variaci6n estacional como se vera en e1 pr6ximo epfgrafe al estudiar dicha
componente. Los programas de ordenador para desestacionalizar series de
tiempo estan basados en el principio de las medias m6viles.
'F!'':--·'''­
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 275
c) El metoda analitico de los minimos cuadrados
Este metodo tiene la ventaja, en comparaci6n con e1 de las medias m6viles,
de que expresa la tendencia a traves de una funci6n matematica que relaciona
la magnitud que se esta estudiando con el tiempo t que aetna como variable
independiente. El ajuste 10realizamos por e1 metoda de los mfnimos cuadrados
que ya se estudi6 en la regresi6n entre dos variables estadfsticas. En primer
lugar conviene representar graficamente la serie temporal observada con ob­
jeto de decidir que tipo de funci6n es la mas adecuada: de tipo lineal, para­
b6lico, etc. Aquf s610 vamos a tratar el ajuste lineal ya que representa a la
mayorfa de los fen6menos econ6micos. Como ya sabemos e1 metodo mfnimo
cuadratico consiste en minimizar la soma de los cuadrados de las diferencias
entre los valores observados en los distintos perfodos y los estimados por la
ecuaci6n de la recta..
Y
t
= a + bt [5.4]
siendo las ecuaciones normales:
n n
L Yt= na + b L
t; 1 t; 1
[5.5]
n n n
2
L Yt' t = a L t + b L t
t;l t;l t;l
donde n es el total de observaciones que coincide con el nnmero de perfodos
de tiempo.
El sistema de ecuaciones normales [5.5] se simplifica efectuando un cambio
de variable t' = t - O, si e1 nnmero de perfodos es impar siendo O, el valor
que ocupa el lugar central de la serie de instantes 0 perfodos t, y t' = 2(t - 0;)
cuando es par de forma que L
n
t' = O. El origen de trabajo 0; es en e1 caso
t';l
de los pares la media aritmetica de los dos valores que ocupan los dos lugares
centrales de la serie de perfodos t. Haciendo este cambio de variable e1 siste­
ma [5.5] al ser L
n
t' = 0 queda reducido a:
t'=l
L
n
Yt = na
t=l
[5.6]
L
n
Yt' t' = b L
n
t,2
t= 1 t'= 1
276 CASAS-sANCHEZ, 1. M. y SANTOS-PEJIlAS, 1.
Despejando los parametres de la recta que son las inc6gnitas del sistema
queda:
n
L Yt
t= 1
a=--- [5.7]
n
n
L Y/
b = ~
n
[5.8]
L
' 2
t
t'= 1
que nos permite establecer la recta estimada:
Yt = a + bt' [5.9]
y deshaciendo el cambio de variable tendremos la ecuaci6n que nos da la
tendencia:
Yt = a + b(t - Ot) [5.10]
Yt = a + 2b(t - 0;) [5.11]
segnn que el numero de instantes 0 periodo sea impar 0 par respectivamente.
Cuando las observaciones estan en periodos inferiores al ano (meses, tri­
mestres, cuatrimestres, etc.) antes de hacer el ajuste conviene calcular las
medias anuales para eliminar la componentes estacional que nos puede dis­
torsionar el mismo empleando en las expresiones [5.7] y [5.8] dicha media Yt
en vez de los datos observados Yt. Esta operacion se efectna como se indica
en el ejemplo 5.4. Si las observaciones son anuales se utilizan directamente
dichos datos ya que no existe el problema estacional.
Como se ha indicado al principio la gran ventaja de este metodo es que
nos permite hacer predicciones de cara al futuro de la magnitud en estudio,
puesto que basta sustituir en las expresiones [5.10] y [5.11] eJ valor de t gor
esos periodos futuros que nos interesan, Tambien podemos dar una medida
de fiabilidad de dichas predicciones a traves del coeficiente de determinaci6n
que en este caso sera:
R2 = (St,Yt
[5.12]
S;.S2
Y,
ESTUDIO cLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 277
siendo:
L
n
t'y,
St'Y = ~ - (l'y) [5.13]
, n
' 2
L
n
t
S; = !..=..!....- - (l'f [5.14]
n
L
n
Y;
_ t = 1 -2
S
2
Y, - --n-- - Yt [5.15]
El significado de las anteriores expresiones ya se estudio en su momento
cuando la regresi6n y correlaci6n lineal simple entre dos variables estadisticas.
La unica diferencia es que aqui la variable independiente no es una magnitud
econ6mica sino el tiempo.
Ejemplo 5.4
En los datos de la serie temporal del ejemplo 5.3 obtener la tendencia lineal
ajustando la correspondiente recta por el metoda de los mfnimos cuadrados.
En la funci6n estimada hacer una predicci6n de las ventas medias trimestrales
para 1997 comentando la fiabilidad de la misma.
SoLuci6n:
a) Estimaci6n de La tendencia
La tendencia vendra dada por la recta Yt = a + bt siendo Yt la media anual
de las observaciones trimestrales del ejemplo 5.3:
- Yl + Y2 + Y3 + Y4
150 + 165 + 125 + 170
Yl = 4
4 = 152,5
- Ys + Y6 + Y7 + Ys
155 + 170 + 135 + 165
Y2 = 4
4 = 156,25
- Yg + YIO + Yu + Y12
160 + 180 + 140 + 180
Y3 = 4
4 = 165,00
278
CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
Como e1 mimero de perfodos es impar para facilitar los calculos hacemos
e1 siguiente cambio de variable:
t
'
= t - 0, = t - 1993
obteniendose la siguiente tabla:
t .v, t'
.v" t'
t'2
-2
Y,
1992
1993
1994
152,50
156,25
165,00
3
I.v, = 473,75
.=1
-1
0
1
3
I t'= 0
t' :=: 1
-152,50
0
165,00
3
I Y,' t' = 12,5
'=1
1
0
1
3
I t,2 = 2
,'=1
23.256,25
24.414,06
27,225,00
3
I y; = 74.895,31
'=1
Aplicando las expresiones 5.7 y 5.8 tenemos
3
L.v, 473,75 = 157,92
= 3­
3 I
L .v" t 12,5 = 6,25
,=1 =
b = 3 2
L t'2
,'=1
Luego:
.v, = a + bt' = 157,92 + 6,25t'
Deshaciendo el cambio de variable segtin la expresi6n [5.10J tendremos la
siguiente estimaci6n de la tendencia:
.v, = 157,92 + 6,25(t - 1993) = 157,92 - 12.456,25 + 6,25t =
= - 12.298,33 + 6,25t
b) Predicci6n de las ventas para 1997
Se obtienen sustituyendo en la tendencia estimada el parametro t por 1997:
YI997 = -12.298,33 + 6,25 x 1997 =
= -12.298,33 + 12.481,25 = 183 millones de pesetas

ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 279
Luego la predicci6n de las ventas medias trimestrales para 1997 es de 183
miUones ?e pesetas. Multiplicando por cuatro tendremos los de todo el ana:
183 x 4 = 732 millones de pesetas
c) Fiabilidad de fa predicci6n
Para conocer la fiabilidad de la predicci6n calculamos el coeficiente de
determinaci6n a traves de las expresiones [5.12J, [5.13J, [5.14J y [5.15].
L
3
.v,. t '
,=1 -
Srji, = all - a
10a0 1
= 3 - r .y =
12,5 473,75
=--0·--=416
3 3 '
3
L
' 2
t
- 1 2 2
S2 = ---- - (1')2 = - - 0 = 0 66
"
"3 3 '
3
L .v; 74.895,31 _ (157,9f =
S2 = !..=..!....- - .v
2
= 3
ji, 3
= 24.965,10 - 24.932,41 = 32,69
2 _ (SrjiY _ (4,16f _ 17,30 _
R - S2.S2 - 066 x 3269 - 21 79 - 0,7939
t"t' , ,
Se observa que el coeficiente de determinaci6n esta en el minimo aceptable
con 10 que el grado de fiabilidad de la predicci6n no es muy elevado.
Como ya se indic6 al definir la componente tendencial, esta puede seguir
un modelo estacionario 0 de media constante, siendo una paralela a la altura
de la ordenada en origen ya que e1 coeficiente angular de la recta sena cero.
La estimaci6n de media constante se realizarfa por minimos cuadrados a
traves.de la expresi6n [5.7]. La [5.8J sena nula. Puede seguir un modelo lineal
y como hemos visto la estimamos globalmente ajustando una recta por el
metoda de los minimos cuadrados.
Si la tendencia es exponencial seguira un modelo de la forma:
y, = e
a
+
b
' [5.16J
280 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Tomando logaritmos neperianos en la expresi6n [5.16] el modelo de ten­
dencia exponencial pasa a ser lineal en el logaritmo neperiano de la variable:
In Yt = (a + bt)lne = a + bt [5.17]
En la expresi6n [5.17] se aplica el metodo de los minimos cuadrados como
ya conocemos para estimar a y b.
En la estimaci6n de la tendencia y con objeto de hacer predicciones en
periodos mas cortos que los que se suelen emplean en los ajustes de funciones
de forma global, se emplean los alisados exponenciales de la serie observada.
Aunque estos metodos de analisis de la tendencia no los vamos a desarrollar,
indicaremos que el suavizado de la variable observada se obtiene calculando
una media ponderada con los datos de los distintos periodos anteriores a t y
la observaci6n de dicho periodo. Las observaciones mas cercanas a t son las
que mas se ponderan.
5.4. Determinacion de las variaclones
estacionales
Cuando se defini6 esta componente se estableci6 que eran oscilaciones de
la magnitud en estudio en periodos de repetici6n de un afio (cuatrimestres,
trimestres y meses) 0 inferiores (por ejemplo el periodo de repetici6n puede
ser el mes y sus componentes las semanas, etc.). Cuando se pretende en los
fen6menos econ6micos analizar su evoluci6n real hay que eliminar la compo­
nente estacional ya que sus fluctuaciones pueden distorsionarla. Este proceso
recibe el nombre de desestacioualizacien de la serie observada. Por ejemplo si
se observan las ventas trimestrales del supermercado del ejemplo 5.1 vemos
que en 1990 al pasar del tercer trimestre al cuarto aumentan en 30 millones.
l.Q6e ha ocurrido?, l.este aumento se debe a la eficacia publicitaria y de
personal de la empresa 0 a que en el cuarto trimestre estan las fiestas de
Navidad y el consumo familiar aumenta? Esta claro que si se observa la serie
el segundo y cuarto trimestre son estacionalmente altos y el primero y el
tercero son estacionalmente bajos. Luego si se quiere analizar la evelucien real
de las ventas del supermercado hay que desestacionalizar la serie con 10 que
se podran comparar los distintos trimestres.
Antes de proceder a la determinaci6n de las variaciones estacionales hay
que asegurarse de que existen haciendo una representaci6n grafica de los
valores observados y viendo la regularidad en las oscilaciones. En ciertas
ocasiones la estacionalidad no tiene regularidad variando de posici6n y am­
plitud en las oscilaciones de un periodo de repetici6n a otro. Por otro lado
hay que determinar si la que aetna es la hip6tesis aditiva, multiplicativa 0
ESTUDIO cLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 281
mixta (multiplicativa en los componentes a largo plazo y aditiva en las varia­
. ciones accidentales). En los dos metodos que se van a explicar seguidamente
para determinar las variaciones estacionales se establecen las hip6tesis de que
la estacionalidad es regular 0 estable en el tiempo y 10 que aetna es el esquema
multiplicativo, al que se adaptan la mayoria de los fen6menos econ6micos, en
el metodo de las medias m6viles y el aditivo cuando se hace un ajuste mmimo
cuadratico para determinar los componentes a largo plazo.
a) Metoda de la raz6n a la media m6vil para determinar la componente
estacional en una serie temporal
Este metodo aisla la componente estacional mediante la eliminaci6n suce­
siva de las demas componentes. En la aplicaci6n del metodo se siguen los
siguientes pasos:
- Se determina la tendencia por el metoda de medias m6viles centradas
en los periodos LYt).
- Se divide (hip6tesis .multiplicativa de actuaci6n de las componentes) la
serie observada Y
t
por su correspondiente media m6vil centrada con 10
que estamos eliminando de forma conjunta las componentes del largo
plazo (tendencia y ciclo). Se esta considerando que la tendencia a traves
de las medias m6viles nos representa tambien a la componente cfclica
con 10 que se esta eliminando de la serie observada el conjunto T x C:
Yt TXCXEXA=EXA
[5.18]
TxC TxC
Como se observa en la expresi6n [5.18] en la serie observada, una vez que
se ha eliminado la componente mixta tendencia-ciclo (T x C) sigue quedando
la componente accidental A. Luego el paso siguiente sera:
- Con objeto de eliminar la componente accidental de la serie ~ se
Yt
calculan las medias aritmeticas a nivel de cada estaci6n (la media de
todos los cuatrimestres, trimestres, meses, etc.). Si las observaciones son
trimestrales tendremos cuatro medias (Ml' M2' M3 YM4); si son cuatri­
mestrales seran tres; si son mensuales seran doce, etc. Estas medias nos
representan de forma aislada la importancia de la componente estacional.
- Obtenci6n de los indices de variaci6n estacional: Se calcula la media
aritmetica anual MA de las medias estacionales M l' M2' M3' ... que sera la
base de los indices de variaci6n estacional expresados en tantos por 100:
M
1
M
2
1
1
= MA x 100, 1
2
= MA x 100; ...; etc.
282 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.
Habra tantos indices como estaciones 0 medias estacionales tengan las
observaciones y nos indicaran la importancia de la variaci6n estacionalal
pasar a un perfodo a otro. Si un Indice expresado en tantos por 100 nos da
80 qui ere decir que por el mero hecho de ser esa estaci6n la magnitud en
estudio es un 20 por 100 mas baja de su tendencia media. Una vez obtenidos
los indices de variaci6n estacional puede desestacionalizarse la serie observada
dividiendo cada valor de la correspondiente estaci6n por su Indice correspon­
diente expresado en tantos por uno.
Ejemplo 5.5
De la serie de ventas trimestrales del ejemplo 5.3 obtener los indices de
variacion estacional por el metodo de la raz6n a la media m6vi1. Desestacio­
nalizar con dichos indices la serie observada.
Soluci6n:
Las medias m6viles centradas utilizando las cuatro observaciones, }It, ya
estan calculados en el ejercicio 5.3 y son las siguientes:
~
Trimestres
1992 1993 1994
1.0
- 156,25 160,625
2.° - 156,875 163,125
3.° 153,125 156,875 -
4.° 154,375 158,75 -
Esta serie nos representa las variaciones de los componentes a largo plazo
T x C. Dividiendo la serie observada Yt del ejercicio 5.3 por }It tenemos:
~
Trimestres
1992 1993 1994

1.0
- 155/156,25 160/160,625
2.° - 170/156,875 180/163,125
3.° 125/153,125 135/156,875 -
4.° 170/154,375 165/158,75 -
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 283
Realizando las sucesivas divisiones queda:
~
Trimestres
1992 1993 1994
1.0
- 0,9921 0,9970
2.° - 1,0837 1,1035
3.° 0,8163 0,8606 -
4.° 1,1012 1,0400 -
Esta serie recoge de forma aislada la componente estacional pero todavfa
unida a la accidental que no ha sido eliminada. En definitiva es un Indice
expresado en tantos por uno en el que la base de comparaci6n es la tendencia
y el cicIo representados por las medias m6viles centradas en los perfodos de
tiempo. Estos indices brutos ya nos arrojan mucha informaci6n sobre la
componente estacional. Puede observarse que los trimestres primero y tercero
son estacionalmente bajos al ser los indices menores a la unidad y los segundos
y cuartos son altos al superar la mitad. Estas variaciones presentan regularidad
ya que se mantienen en los distintos anos.
Las variaciones accidentales las eliminamos obteniendo las medias aritme­
ticas de los cuatro trimestres:
0,9921 + 0,9970 = 0,9945
M1 = 2
1,0837 + 1,1035 = 1,0936
Mz = 2
0,8163 + 0,8606 = 0,8385
M3 = 2
1,1012 + 1,0400 = 1,0706
M4 = 2
A partir de las anteriores medias calculamos la media aritmetica anual que
sera la base para obtener los indices de variaci6n estacional:
MA=M1+Mz+M3+M4
-----"----=-4-....::....--..::::
0,9946 + 1,0936 + 0,8385 + 1,0706
- 4 = 0,9993
284
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Tomando como base de comparaci6n esta media aritmetica anual obtenemos
los verdaderos indices de variaci6n estacional expresados en tantos por uno:
11 = M1 = 0,9946 _
MA 0,9993 - 0,9953
1 = M2 = 1,0936 _
2
MA 0,9993 - 1,0944
"I·
1 = M3 = 0,8385 _
3
MA 0,9993 - 0,8391
1 = M4 = 1,0706 _
4
MA 0,9993 - 1,0714
Expresados en tantos por 100 seran:
11 = 99,53; 1
2
= 109,44
i
1
3
= 83,91; 1
4
= 107,14
El 11 significa que en los primeros trimestres las ventas realizadas practi­
camente no estan sujetas a las variaciones estacionales ya que el indice es
practicamente la unidad en tantos por uno 6 100 en tantos por 100; s610
'1 descienden un insignificante 0,47 por 100. El 1
2
significa que por el hecho de
1
r
!,I
'<
i
ser segundos trimestres, con independencia de la polftica comercial que siga
la empresa, las ventas aumentan en un 9,44 por 100. El1 significa que en los (
3
Iii:!
terceros trimestres la estacionalidad afecta de forma significativa las ventas de
la empresa ya que bajan un 16,09 por 100. Por ultimo observando el1 vemos
4
que la estacionalidad en dicho trimestre es alcista empujando a las ventas en
un 7,14 por 100.
Por ultimo vamos a desestacionalizar la serie observada en el ejemplo 5.3.
Como estamos dentro de la hip6tesis multiplicativa para eliminar la influencia
estacional en las ventas observadas las dividimos en cada estaci6n por su
respectivo indice de variaci6n estacional expresado en tantos por uno:
~
Aiios
Trimestres
1992 1993
,
1994
1.0
2.°
3.°
4.°
150/0,9953
165/1,0944
125/0,8391
170/1,0714
155/0,9953
170/1,0944
135/0,8391
165/1,0714
160/0,9953
180/1,0944
140/0,8391
180/1,0714
. > · ~ r ;
ESTUDIO cLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 285
Efectuando las divisiones queda la siguiente serie de ventas desestaciona­
lizada:
~ s
Trimestres
1992 1993 1994
1.0
150,71 155,73 160,76
2.° 150,77 155,34 164,50
3.° 148,97 160,89 166,85
4.° 158,67 154,00 168,00
La anterior serie representa las ventas de la empresa prescindiendo de las
oscilaciones estacionales pudiendose comparar los datos de los distintos pe­
nodes, Se llega a la concIusi6n que existe una tendencia real alcista con
pequenas oscilaciones motivadas por causas accidentales.
b) Metoda de la tendencia por ajuste mlnimo cuadrdtico para determinar
la componente estacional en una serie temporal bajo la hip6tesis aditioa"
Nuestro objetivo sigue siendo aislar la componente estacional de la serie
por eliminaci6n sucesiva de todos los demas, La diferencia con el metodo de
la raz6n a la media m6vil es que en este caso las componentes a largo plazo
(tendencia junto con cicIo) las obtenemos mediante un ajuste por minimos
cuadrados de las medias aritmeticas anuales )it y se aetna bajo la hip6tesis
aditiva. Luego los pasos a seguir son los siguientes:
- Se calculan las medias anuales de los datos observados Yt: )iI' )i2' )i3' ...
Si las observaciones son trimestrales estas medias se obtienen con cua­
tro datos, si son mensuales con doce, etc. Serfa el caso de que el perfodo
de repetici6n es el afio. Si es otro las medias se obtendrfan con sus
componentes.
- Se ajusta una recta por minimos cuadrados )it = a + bt empleando el
proceso y formulaci6n [5.7J y [5.8J que ya se estudi6 en su momento
que nos representa a la tendencia. Sabemos que el coeficiente angular
b de la recta nos mide el incremento medio annal de la tendencia que
influira de distinta forma al pasar de una estaci6n a otra como se vera
mas adelante.
- Se calculan con los datos observados las medias estacionales (M l' M2'
M 3' ... , etc.) con objeto de eliminar la componente accidental. Estas
medias aritmeticas son brutas ya que siguen incIuyendo los componen-
I Existe tam bien el metodo de la raz6n a la tendencia que es equivalente al de las medias
m6viles y acnian con la hip6tesis multiplicativa.
286 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
tes a largo plazo (tendencia y cicIo) y tienen que someterse a una
correcci6n de las mismas.
- Empleando el incremento medio anual dado por el coeficiente se ob­
tienen las medias estacionales corregidas de las componentes a largo
plazo (M'l' M ~ , M ~ , ..., etc.) bajo el esquema aditivo (se resta):
M', = M 1 ya que estamos en la primera estacion y no esta influida por
la tendencia con 10 que no hay que restar nada.
1· b
M ~ = M 2 - ° d . ya que hemos pasado de la primera es-
n. e estaciones
taci6n a la segunda hay que restar la parte proporcional del
incremento anual de la tendencia.
2·b
M ~ = M 3 - d . ya que como M ~ pertenece a la tercera
n." e estaciones
estaci6n han transcurrido dos estaciones luego hay que restar de
la media sin corregir M 3 dos proporciones del incremento anual
2·b
de la tendencia, 0 sea n." de estaciones
Para la r-esima estaci6n la media estacional corregida de la tendencia
interestacional sera:
(r - l)b
M; = M, - n." de estaciones
- Los indices de variaci6n estacional se obtienen con la misma sistema­
tica utilizada en el metodo de Ia raz6n a la media m6vi1: con las medias
estacionales corregidas se obtiene la media aritmetica anual M'A que
sirve de base para calcular los indices:
II =
M'
1 M ~ x 100; ..., etc.
M'A x 100; 1
2
= M'A
Obtenidos estos indices de variaci6n estacional estamos en condiciones
de desestacionalizar la serie como se ha efectuado anteriormente.
Ejemplo 5.6
Con los datos de la serie temporal del ejercicio 5.3 obtener los indices de
variaci6n estacional por el metoda de ajustar una recta a las medias anuales.
ESTUDIO cLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 287
Soluci6n:
El ajuste de la recta por minimos cuadrados esta resuelto en el ejemplo 5.4
siendo:
Yt = 12.296,33 + 6,25t
El incremento medio anual es b = 6,25.
Con los datos observados en el ejemplo 5.3 calculamos las medias estacio­
nales sin corregir de la componente extraestacional (T + C). De esta forma
eliminamos la componente accidental:
150 + 155 + 160
M
l
= = 155
3
165+170+180 _
M = =1716
2 3 '
125 + 135 + 140 _
M = = 1333
3 3 '
170 + 165 + 180 _
M = = 1716
4 3 '
Seguidamente se obtienen las medias aritmeticas estacionales corregidas de
la parte que les corresponde a cada una del incremento medio anual de la
tendencia:
M ~ = M
l
= 155
l·b _
M ~ == M 2 - 4 = 171,6 - 1 x 1,5625 = 170,1041
2·b _
M ~ = M 3 - 4 = 133,3 -r- 2 x 1,5625 = 130,2083
3·b _
M ~ = M 4 - 4 = 171,6 - 3 x 1,5625 = 166,9791
La media aritmetica anual para que sirva de base en el calculo de los
indices de variaci6n estacional sera:
M ~ + M ~ + M ~ + M ~ 155 + 170,1041 + 130,2085 + 166,9771
M'A = = ------_'-----__'-----_
.4 4
= 155,5673
288 CASAS-sANCHEZ, 1. M. Y SANTOS-PENAS, J.
Los indices de variaci6n estacional expresados en tantos por uno son:
11 = M ~ = 155
M'A 155,5673 = 0,9964
M ~
170,1041 = 1,0934
1
2
= M'A
155,5673
M ~
130,2083 = 0,8370
1
3
= M'A
M ~ 166,9791
14 = M'A = 1555673 = 1,0733
,
Puede observarse que si se comparan estos indices con los obtenidos por
el metodo de la raz6n a la media m6vil son practicamente iguales (existen
pequefias diferencias a partir del tercer decimal) 10 que indica que la estacio­
nalidad es muy regular y no expansiva con 10 que es indiferente el metodo
que se aplique.
5.5. Determinacion de las variaciones
ciclicas
Cuando hemos definido esta componente se ha dicho que recoge las osci­
laciones periodicas de larga duraci6n. El problema es que estos movimientos
no suelen ser regulares como los estacionales y su determinaci6n encierra
dificultades de forma que como se ha apuntado en los casos practices se suelen
tratar conjuntamente con la tendencia llamando componente extraestacional al
efecto de (T x C) si estamos en el marco multiplicativo 0 (T + C) si es el
aditivo. A pesar de estas dificultades se puede tratar de aislar el cicio bajo la
hip6tesis multiplicativa dejandolo como residuo con la elirninaci6n de la ten­
dencia y la variaci6n estacional. Los pasos serfan:
- Estimar la tendencia.
- Calcular los indices de variaci6n estacional.
- Se desestacionaliza la serie observada.
, ,
- Se elirnina la tendencia dividiendo cada valor desestacionalizado por la
serie de tendencia.
Expresando el proceso en forma de cociente serfa:
Y
t
T x E x C x A
--= =CxA
TxE TxE
j ~ ' . - .
ESTUDIO cLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 289
El proceso finalizarfa intentando eliminar la componente accidental A y
determinando el perfodo de los ciclos que nos llevarfa a un tratamiento de
analisis arm6nico que superana el myel descriptivo que estamos dando al
tratamiento clasico de las series temporales.
Ejercicios
1. En e1 ejemplo 5.4 hemos estimado la siguiente tendencia:
)it = -12.342,08 + 6,25t
Suponiendo que esta tendencia lineal recoge e1 efecto 0 componente
extraestacional (representa la tendencia y el cicIo conjuntamente); predecir el
valor de los trimestres primero y segundo del afio 2002 teniendo en cuenta la
variaci6n estacional bajo la hip6tesis aditiva y admitiendo que la componente
accidental es irrelevante.
Solucion:
Primero hacemos la predicci6n trimestral media que sent:
h002 = -12.342,08 + 6,25 x 2.002 =
= 170 millones de ventas medias trimestrales
Teniendo en cuenta los indices de variacion estacional del ejemplo 5.6
tenemos:
Y1 = 170 x 0,9964 = 169,38 millones de ptas.
Y2 = 170 x 1,0934 = 185,87 millones de ptas.
Y3 = 170 x 0,8370 = 142,29 millones de ptas.
Y4 = 170 x 1,0733 = 182,46 millones de ptas.
2. La fabrica de calzado del ejemplo 5.3 ha tenido las siguientes ventas anuales
en los ultimos seis anos (perfodo 1996-2001) expresadas en millones de pesetas:
Aiios Ventas (millones de ptas.)
1996 540
1997 565
1998 580
1999 610
2000 625
2001 660

ESTUDlO CLAslCO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 291
Predecir las rentas en 2004 y su nivel de fiabilidad comparando los resul­
tados con los obtenidos en el ejercicio 5.4.
Solucion:
Como el mimero de perfodos es par hacemos el siguiente cambio de variable:
t' = 2(t - OJ
siendo:
1998 + 1999 = 1998,5
0;= 2
En este caso como las observaciones son anuales no existe el problema de
la estacionalidad no teniendo que obtener ningtin tipo de media anual reali­
zandose el ajuste con las ventas anuales.
t ( = 2(t - 1998,5)
s, y,'(
(2
y;
1996
1997
1998
1999
2000
2001
-5
-3
-1
1
3
5
6
It' =0
1'=1
540
565
580
610
625
660
6
I Y, = 3.580
r=l
-2.700
-1.695
-580
610
1.875
3.300
6
I Y,t' = 810
'=1
25
9
1
1
9
25
6
I 1"2 = 70
,'=1
291.600
319.225
336.400
372.100
390.625
435.600
6
I Y; = 2.145.550
1=1
Empleando las expresiones 5.7 y 5.8 tenemos:
6
YI = 3.580 = 596,66
a= -6 6
6
I y,t'
810
6 =
I t,2 70 = 11,57
t'=1
2001
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 293
CASAS-sANCHEZ, J. M. YSANTOS-PE"&AS, 1.
292
3. Un concesionario de una determinada marca de automoviles ha vendido
Luego la estimaci6n de la tendencia para predecir las ventas de 2004 es:
,
los siguientes vehiculos en los ultimos tres afios:
Yt = a + bt' = 596,66 + 11,57t'
Deshaciendo el cambio de variable tenemos
Yt = 596,66 + 11,57· 2(t - 1998,5) =
= 596,66 - 46.245,29 + 23,14t = -45.648,63 + 23,14t
~ s Trimestres
1.0
2.°
3.°
4.°
1999
6
12
4
5
2000
10
15
7
12
14
25
12
16
La predicci6n de las ventas anuales para 2004 sera:
Y2004 = -45.648,63 + 23,14 x 2004 =
;=: - 45.648,63 + 46.372,56 = 723,93 millones de ptas.
El nivel de fiabilidad nos 10 da el coeficiente de determinaci6n:
(St'Y/ (135)2 18.225
R
2
= 2 Z = ~ = = 0,988
St" s;
,
11,66 x 1580,64 18.440,7
Siendo los calculos de la covarianza y varianzas:
6
"
f- Yt'
t'
810
- tl r-
St'y, - au - a
10
' a
0 1
= n -.Y =6 - 0 = 135
6
L t'2 2 _ 70 _ 0 = 11,66
~ - f -6
S; = 6
6
t ~ l Y; _y- Z = 2,145,550 - (596,66f = 1588,51
S
2
= -- 6
y, 6
Si se comparan estos resultados con los obtenidos en el ejemplo 5.4 obser­
vamos que allf la predicci6n Cue de 732 millones de pesetas con un coeficiente
de determinacion del 0,7939. En cambio al haber utilizado aqui el doble de
observaciones (seis en vez de tres) la fiabilidad ha aumentado enormemente.
Luego la predicci6n de 723,93 millones de ventas para 2004 es la que deben
considerar los directivos de la empresa en su toma de decisiones.
Obtener:
a) Los indices de variaci6n estacional aplicando el metoda de la tendencia
par minim os cuadrados bajo la hip6tesis aditiva (si se trabajara can
la hip6tesis multiplicativa habrfa que aplicar el metoda de la raz6n a
la media m6vil 0 bien el metoda de la raz6n a la tendencia por
minimos cuadrados, que no se ha explicado en esta obra),
b) Desestacionalizar la serie observada Y
t

c) Predecir el nnmero de autom6viles vendidos para cada trimestre de
2003.
Solucion:
a) Obtenci6n de los indices de variaci6n estacional:
- Se calculan las medias anuales:
- Yl + Y2 + Y3 + Y4
6 + 12 + 4 + 5 = 6,75
Yl = 4
4
- Ys + Y6 + Y7 + Yg
10 + 15 + 7 + 12 = 11,00
Y2 = 4
4
- Y9 + YlO + Yu + Y12 14 + 25 + 12 + 16
Y3 = 4 4 = 16,75
- Se estima la tendencia ajustando una recta por minimos cuadrados.
Para ello, al ser datos impares se hace el cambio de variable
t' = t - 0t = t - 2000.
294 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, 1.
t t'=t-2000 y, t'y,
t'?
-2
Y,
45,56
121,00
280,56
3
L: y; = 447,12
t= 1
1992
1993
1994
-1
0
1
3
L: t'=O
t'=1
6,75
11,00
16,75
-6,75
0
16,75
3
L: y, = 10
t=1
1
0
1
3
L: (2 = 2
t'=1
3
L: y, = 34,5
'=1
Aplicando las expresiones [5,7] y [5.8] tenemos:
3 3
t ~ l t'Yt. 10
t=l
L Yt
=
34,5 = 11,5
b=--=-=5
a= -n 3
f t'2 2
t'=1
Luego la recta con el cambio de variable sera:
Yt = a + bt' = 11,5 + 5t'
Deshaciendo el cambio se tendra la estimaci6n de la tendencia (sera la esti­
maci6n de la componente extraestacional, 0 sea tendencia y cicIo ya que no
los diferenciamos):
Yt = 11,5 + 5(t - 2000) = 11,5 - 10.000 + 5t = - 9.988,5 + 5t
El parametro b 0 coeficiente angular nos da el incremento medio anual que
sufre Y
t
al pasar de un afio a otro (como sabemos Yt es la media anual obtenida
con los cuatro trimestres).
- Se calculan las medias estacionales sin corregir por filas en los datos
observados Y':
6 + 10 + 14
M
1
= = 10
12 + 15 + 25 ~
M
2
= 3 = 17,33
4 + 7 + 12 ~
M
3
= 3 = 7,66
5 + 12 + 16
M
4
= 3 = 11,00
\
- Las anteriores medias se corrigen de la tendencia empleando de forma
adecuada (restando al estar en la hip6tesis aditiva) eI incremento medio
anual de tendencia (b):
ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 295
M ~ = M
1
= 10
l·b ~ 1x5 _
M ~ = M
2
- 4 = 17,33 - -4- = 16,083
2·b ~ 2 x 5 ~
M' = M - - = 766 - --= 5 16
3 3 4 ' 4 '
3· b 3 x 333
M ~ = M4 - 4 = 11,00 - 4' = 7,25
- Por ultimo los indices de variaci6n estacional se obtienen en tantos
por uno tomando como base la media anual corregida:
M' A = M ~ + M ~ + M ~ + M ~
4
1 = M ~ = ~ _
1
M'A 9,625 - 1,039;
1 _ M ~ 5
3 - M'A = 9,625 = 0,537;
10 + 16,083 + 5,16 + 7,25
4 = 9,625
M ~ 16,083
1
2
= M'A = 9,625 = 1,671
M ~ 7,25
/4 = M'A = 9625 = 0,753
,
b) Desestacionalizaci6n de la serie observada: a cada valor observado se Ie
resta (por ser el esquema aditivo) su correspondiente «componente esta­
cional», que es:
E
k
= M
k
- E:
donde k = 1, 2, 3, 4 denota el trimestre considerado, y E: es la «compo­
nente extraestacional» 0 media de los valores ajustados por la recta
Y = a + b, (i = 1, 2, ..., 12) en los indices i = 1, 5 y 9 para el primer
trimestre, i = 2, 6 y 10 para el segundo trimestre, i = 3, 7 y 11 para el
tercero y finalmente i = 4, 8 y 12 para el cuarto trimestre.
La recta ajustada a los 12 datos es:
Y = a
0 1
+ b(i ­ a
10
)
donde
- 138 = 11,5 1.047 = 87,25
a01 - 12 all = 12
650
a
10
= 6,5
a20 = 12 = 54,16
b = mll = all - a lOa0 1 _ 87,25 - 6,5·11,5
m a - aio - 54,16 - 6,5? = 1,048
20 20
296 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, 1.
y sustituyendo tenemos:
y = 11,5 + 1,048 (i - 6,5)
de donde:
Ei = 11,5 + 1,048(5 - 6,5) = 9,9266
Ei = 11,5 + 1,048(6 - 6,5) = 10,9755
E; = 11,5 + 1,048(7 - 6,5) = 12,0245
E: = 11,5 + 1,048(8 - 6,5) = 13,0734
y de aqui, como E
k
= M; - E: resuIta:
E
1
= 0,0734, E
2
= 6,3578, E
3
= -4,3578 Y E
4
= -2,0734
La serie desestacionalizada sent:

Trimestres .
1999 2000 2001
1.0
Yl - E
1
= 6 Ys - E
1
10 Y9 - E
1
14
2.° Y2 - E
2
6 Y6 - E
2
9 YIO - E
2
19
3.° Y3 - E
3
8 Y7 - E
3
11 Yll - E
3
16
4.
0
Y4 - E
4
7 Ys - E
4
14 Y12 - E
4
18
c) Para predecir el mimero de autom6viles que se van a vender en 2003
empleamos la tendencia lineal estimada para el afio 2003, admitiendo la
hip6tesis de que la tendencia permanece estable:
Y1996 = -9.988,5 + 5 x 2003 =
= 26,5 27 autom6viles como media anual de los trlmestres
Como la hip6tesis es aditiva, solo queda afiadir la componente estacional
E
k
al valor Y1996 para asf obtener las predicciones trimestrales en 1996:
Y2003,1.0 = Yl996 + E1 27
Y2003,2.0 = Yl996 + E2 33
Y2003,3.0 = Yl996 + E3 22
\
Y2003.4.0 = Yl996 + E1 24
autom6viles, respectivamente.

Capitulo 6
Fen6menos aleatorios
y sucesos
6. 1. Introduccion
El prop6sito de este capitulo sera dar unos conceptos basicos y fundamen­
tales para poder introducir en el capitulo siguiente el concepto y teona de la
probabilidad.
Cuando estudiabamos la Estadfstica Descriptiva, decfamos que dentro de
la Estadfstica podfamos considerar dos grandes ramas, perfectamente diferen­
ciadas, no s610 por los objetivos que se persiguen, sino tambien por los
metodos que se utilizan. Estas son: la Estadistica Descriptiva 0 Deductiva y la
Inferencia Estadistica 0 Estadistica Inductiva.
La Inferencia Estadistica la utilizaremos cuando la observaci6n de la po­
blaci6n no es exhaustiva, sino que s610 observamos un subconjunto 0 muestra
de la misma, de tal manera que los resultados 0 conclusiones obtenidas de la
muestra los generalizamos a la poblacion, La muestra se toma para obtener
un conocimiento 0 informaci6n de la poblaci6n, pero nunca nos proporciona­
ra una informaci6n exacta sino que incluira un cierto nivel de incertidumbre.
Asi, por ejemplo, supongamos que un nuevo producto se lanza al mercado y
seleccionamos una muestra de comercios para realizar una cierta evaluaci6n
sobre la reacci6n hacia ese producto por parte del consumidor, con el fin de
poder conocer la posible demanda y si el producto serfa consumido a nivel
nacional.
Evidentemente y basandonos en la informaci6n que nos proporcionara esa
muestra es imposible conocer con exactitud la reacci6n de la poblaci6n com­
pleta y cualquier medida sobre el comportamiento del consumidor contendra
inevitablemente incertidumbre.
298 CASAS-sANcHEZ, J. M. y SANTOS-PENAS, 1.
Pero sin embargo, sf sera posible, a partir de la muestra, hacer afirmaciones
sobre la naturaleza de esa incertidumbre, quevendra expresada en ellenguaje
de Probabilidad, siendo por ello un concepto necesario y muy importante en
la inferencia estadfstica, ya que nos permitira pasar de las afirmaciones hechas
con certeza a partir de la muestra a pronosticar en terminos de probabilidad
situaciones en la poblaci6n.
Si consideramos la definici6n de Estadfstica dada por V. Barnett (1982)
«la Estadfstica es la ciencia que estudia c6mo debe emplearse la informaci6n
y como dar una gufa de acci6n en situaciones practicas que envuelven incer­
tidumbre» observamos que aparece el termino «situaciones practicas que en­
vuelven incertidumbre» que equivale a 10 que nosotros llamaremos experimen­
tos aleatorios, de gran interes en el calculo de probabilidades y en la Estadfstica
en general.
6.2. Fen6menos aleatorios
La idea de experimento se utilizaracon cierta frecuencia en este y en los
pr6ximos los primeros capftulos. Un experimento es cualquier situaci6n u
operaci6n en la cual se puede presentar uno 0 varios resultados de un conjunto
bien definido de posibles resultados, por ejemplo, registrar el valor de una
acci6n de bolsa en un instante determinado, 10 cual puede dar Ingar a un
conjunto de posibles resultados, lanzar una moneda al aire, 0 un dado, etc.
En la actividad diaria nos encontramos con ciertos tipos de fen6menos 0
experimentos que se pueden reproducir un gran mimero de veces, en condi­
ciones similares dando lugar a un conjunto de dos 0 mas posibles resultados.
Estos experimentos pueden ser de dos tipos deterministicos y aleatorios.
Diremos que el experimento es deterministico cuando al repetirlo bajo
identicas condiciones iniciales se obtienen siempre los mismos resultados. Por
ejemplo, si tenemos una regia milimetrada y una barra metalica, un experi­
mento puede consistir en preguntarle a un individuo la medida en milimetros
de la barra. Si repetimos, varias veces, el experimento bajo identicas condicio­
nes y obtenemos la misma medida en milfrnetros diremos que se trata de un
experimento determinfstico.
Sin embargo, si el experimento 10 repetimos bajo identicas condiciones
iniciales y no se obtienen siempre los mismos resultados diremos que estamos
ante un experimento aleatorio. Por ejemplo:
- El lanzamiento de una moneda observando la sucesi6n de caras y
cruces que se presentan.
- El lanzamiento simultaneo de dos dados observando la sucesi6n de
resultados.
FEN6MENOS ALEATORIOS Y SUCESOS
299
- El cambio diario del valor del dolar observando la sucesi6n de valores
en pesetas.
- El numero de llamadas a un telefono durante perfodos de cinco minutos.
- El preguntar la intenci6n del voto.
- Entrevistar a una persona para determinar la marca que prefiere de un
producto determinado, etc.
Para ser mas precisos podemos citar, como caracterfsticas de un experi­
mento aleatorio, las siguientes:
1.0 El experimento se puede repetir indefinidamente bajo identicas condi­
ciones.
2.° Cualquier modificaci6n mfnima en las condiciones iniciales de la re­
petici6n puede modificar completamente el resultado final del experi­
mento.
3.° Se puede determinar el conjunto de los posibles resultados del ex­
perimento, pero no se puede predecir previamente un resultado par­
ticular. .
4.° Si el experimento se repite un nnmero grande de veces, entonces apa­
rece algun modelo de regularidad estadfstica en los resultados obte­
nidos.
El significado de las tres primeras caracterfsticas no tiene dificultad alguna,
y la cuarta nos indica que cuando el experimento se realiza un mimero grande
de veces tienden a estabilizarse los resultados del experimento aleatorio, en el
sentido de que cada uno de los posibles resultados tiende a salir un nnmero
similar de veces.
Asf pues, si el experimento aleatorio consiste en el lanzamiento de una
moneda perfecta al aire, en donde todos los posibles resultados son cara 0
cruz, y realizamos 100 repeticiones (lanzarnientos) podremos comprobar que
el mimero de veces que aparece cara serfa similar al de cruz, es decir, la
frecuencia relativa de cara tenderfa a aproximarse a 1/2. Analogamente sucede
si en una urna introducimos 2 bolas blancas y 3 negras, identicas salvo en su
color, sin rnirar sacamos una bola anotamos el color y la devolvemos a la
urna y realizamos esta operaci6n un mimero grande de veces, entonces podre­
mos comprobar que las frecuencias relativas de obtener bola blanca tendera
a estabilizarse bacia 2/5 y la de bola negra hacia 3/5.
6.3. Espacio muestral
Asociado a todo experimento aleatorio tendremos el conjunto de los po­
sibles resultados que se pueden obtener cuando tiene lugar el experimento
aleatorio.
300 301
i
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
A cada uno de los posibles resultados del experimento aleatorio se Ie llama
resultado basieo 0 elemental, comportamiento individual 0 punto muestral; y el
registro sistematico de los resultados obtenidos en sucesiones de experimentos
aleatorios da lugar a un conjunto de datos estadisticos. Los resultados basicos
e1ementales seran definidos de tal manera que no puedan ocurrir dos simul­
taneamente, pero sf ocurrira uno necesariamente.
Al conjunto de todos los resultados elementales del experimento aleatorio
Ie llamaremos conjunto universal, espacio muestral 0 espacio de comportamien­
tos y 10 designaremos por E. .
Ejemplo 6.1
Consideremos el experimento aleatorio consistente en lanzar un dado al
aire.
Los resultados basicos 0 elementales seran que aparezca un 1, 2, 3, 4, 5 6
6. No pueden ocurrir dos resultados conjuntamente, sino que necesariamente
debe ocurrir uno.
El espacio muestral es el conjunto formado por los seis posibles resultados
elementales:
E = {I, 2, 3, 4, 5, 6}
El conjunto de posibles resultados elementales de un experimento aleato-'
n"
rio, y por tanto el espacio muestral, dependera de c6mo sea observado 0 del
enfoque que Ie demos al experimento. Asf pues, se podran asociar diferentes
:1
.;j
, espacios muestrales a un mismo experimento aleatorio. En efecto, considere­
mos el ejemplo siguiente:
Ejemplo 6.2
Sea el experimento aleatorio consistente en lanzar dos veces una moneda
al aire.
Si deseamos observar las caras y cruces obtenidas en una repetici6n del
experimento, entonces el espacio muestral correspondiente, que 10 designare­
mos por E, tendra los cuatro puntos siguientes:
E = {(HIl), (HI), (TIl), (TT)}; H = cara, T = cruz
donde HT, por ejemplo, indica que en el primer lanzamiento ha aparecido cara
y en el segundo cruz.
Pero si en el experimento aleatorio no nos interesan los resultados indivi­
" " . ~ ~ 1 : ' " " ' ~ 1 . '
FEN6MENOS ALEATORIOS Y SUCESOS
duales, sino que deseamos observar el numero de caras en los dos lanzamien­
tos, entonces tendremos un segundo espacio muestral E1:
E
1
= {a, 1, 2}
donde 1, por ejemplo, indica que se ha obtenido solamente una cara en los
dos lanzamientos.
Luego hemos visto que un experimento aleatorio puede tener diferentes
espacios muestrales, dependiendo de la.observacion que nos interese del expe­
rimento. En este ejemplo concreto existe una correspondencia entre los puntos
de ambos espacios muestrales, asf pues:
E
1
-+E
0-+ (TT)
1 -+ (HT), (TIl)
2 -+(HIl)
Los espacios muestrales asociados a un experimento aleatorio pueden ser
de tres clases:
- Espacio muestral finito.
- Espacio muestral infinito numerable.
- Espacio muestral continuo.
Veamos en que consiste cada uno de ellos.
Espacio muestral finito
Un espacio muestral diremos que es finito, cuando tiene un mimero finito
de elementos. Por ejemplo, los espacios muestrales asociados a los experimen­
tos aleatorios descritos en los ejemplos 6.1 y 6.2.
Espacio muestral infinito numerable
Un espacio muestral sera infinito numerable si tiene un ntimero infinito
numerable de elementos; 0 dicho de otra forma, si se puede establecer una
aplicaci6n biyectiva entre los elementos del espacio muestral y la sucesi6n
de numeros naturales.
Tambien se suele llamar espacio muestraldiscreto indistintamente a los
casos finito e infinito numerable.
302
303
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Ejemplo 6.3
Sea el experimento aleatorio consistente en lanzar un dado basta que sea
obtenido ell, y que estamos interesados en todas las posibilidades, es decir,
el 1 puede ser obtenido en el primer lanzamiento, 0 bien en el segundo
lanzamiento pero despues de haber obtenido un 2, 0 un 3, 0 un 4, 0 un 5, 0
un 6, 0 bien en el tercer lanzamiento pero despues de haber obtenido (2, 2),'
(2, 3), (2, 4), (2, 5) 0 (2, 6), etc.
El espacio muestral sera:
E = {(1),
(2, 1), (3, 1), (4, 1), (5, 1), (6, 1)
(2, 2, 1), (2, 3, 1), (2, 4, 1), (2, 5, 1), (2, 6, 1),
(3, 2, 1), (3, 3, 1), (3, 4, 1), (3, 5, 1), (3, 6, 1),
(4, 2, 1), (4, 3, 1), (4, 4, 1), (4, 5, 1), (4, 6, 1),
.. u •••••••••••••••••••••••••••••••••••••• ••••••••••••••••••••••••••••
(2, 2, 2, 1), (2, 2, 3, 1), (2, 2, 4, 1), (2, 2, 5, 1), (2, 2, 6, 1), }
Si el experimento aleatorio consiste en lanzar el dado hasta que aparezca
ell, 0 sea, que puede aparecer el 2, 3, 4, 5 6 6 pero no ell, entonces el espacio
muestral correspondiente sena:
E = {(1), (1, 1), (1, 1, 1), (1, 1, 1, 1), (1, 1, 1, 1, 1), ...}
1
en donde por 1 representamos cualquier nnmero diferente al 1.
Pero los elementos del espacio muestral E, nos estan indicando el numero
de lanzamientos que podemos hacer con el dado antes de que nos aparezca
ell, por tanto podremos establecer una correspondencia con la sucesi6n de
mimeros naturales y tendremos este otro espacio muestral E2 •
E
2
= {1, 2, 3, 4, 5, 6, 7, 8, ...}
cuyos elementos nos indican el mimero de tiradas para que aparezca el 1 por
primera vez.
Los espacios muestrales obtenidos en este ejemplo son infinitos numerables
o simplemente numerables.
Espacio muestral continuo
Si el espacio muestral tiene un mimero infinito no numerable de elementos,
diremos .que es de tipo continuo. Es decir, si no se puede establecer una
correspondencia biunivoca entre los elementos del espacio muestral y la suce­
si6n de numeros naturales.
FEN6MENOS ALEATORIOS Y SUCESOS
Ejeinplo 6.4
Supongamos que el experimento aleatorio consiste en tirar una bola muy
perfecta sobre el suelo totalmente pulido y horizontal de una habitaci6n y
estamos interesados en la posici6n que ocupara esa bola sobre la superficie
del suelo. Es evidente pensar que la bola pueda quedarse parada en cualquier
punta de la superficie del suelo, luego el espacio muestral correspondiente sera:
E = {toda la superficie del suelo de la habitaci6n}
y es de tipo continuo, no pudiendo establecer correspondencia alguna entre
los puntos de la superficie del suelo de la habitaci6n y la sucesi6n de numeros
naturales.
6.4. Sucesos
En muchos casos cuando realizamos un experimento aleatorio no nos intere­
san, directamente, los resultados elementales del experimento aleatorio, sino que
10 que nos puede interesar es algiin subconjunto de esos resultados elementa­
les, es decir un conjunto contenido en el espacio muestral. Por ejemplo, en el
caso dellanzamiento de un dado nos puede interesar saber si el resultado ha
side un numero impar, que ocurrira si al realizar el experimento aleatorio ha
aparecido 1, 3 6 5, es decir, nos interesa el subconjunto A = {1, 3, 5} del espacio
muestral E = {1, 2, 3, 4, 5, 6}. A tales subconjuntos se les llaman sucesos.
Luego un suceso S es un subconjunto del espacio muestral, es decir, un
subconjunto de resultados elementales del experimento aleatorio. Y diremos
que ocurre 0 se presenta el suceso, cuando al realizarse el experimento aleatorio
da lugar a uno de los resultados elementales pertenecientes al subconjunto que
define el suceso.
Podemos considerar cuatro tipos de sucesos, segun el numero de elementos
que entren a formar parte del suceso:
a) Suceso elemental, suceso simple 0 punto muestral es cada uno de los
resultados posibles del experimento aleatoric; luego un suceso elemen­
tal consta de un solo elemento del espacio muestral E. Es decir los
sucesos elementales son subconjuntos del espacio muestral formados
por un solo elemento,
b) Suceso compuesto, es el que consta de dos 0 mas sucesos elementales.
c) Suceso seguro, cierto 0 universal, es el que consta de todos los sucesos
elernentales del espacio muestral E, es decir, coincide con el espacio
muestral E, por ello 10 notaremos tambien por E.
305
!!
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, 1.
304
A este suceso se le llama seguro 0 cierto porque ocurre siempre, ya
que al realizar el experimento aleatorio se obtendra con seguridad uno
de los posibles resultados 0 sucesos elementales de E, y por tanto
.,:" ocurrira E.
d) Suceso imposible,es el que no tiene ningun elemento del espacio mues­
'I
I,·
tral E, y por tanto no ocurrira nunca. Lo notaremos por 4J.
I',
I ,
I" !
Ejemplo 6.5
Supongamos el experimento aleatorio de lanzar un dado al aire y observar
el numero que aparece.
El espacio muestral sera el formado por todos los posibles resultados, 0
sea, que aparezca 1, 2, 3, 4, 5 6 6, y 10 indicaremos como
E = {1, 2, 3, 4, 5, 6}
Algunos posibles sucesos seran:
A
l
= que aparezca el 1 = {1}
A
z
= que aparezca el 2 = {2}
A
3
= que aparezca el 3 = {3}
A
4
= que aparezca e14 = {4}
As = que aparezca el 5 = {5}
A
6
= que aparezca el 6 = {6}
A
7
= que aparezca mimero par = {2, 4, 6}
A
g
= que aparezca un mimero menor que 3 = {1, 2}
A
g
= que aparezca un mimero mayor que 4 = {5, 6}
A = que aparezca un numero mayor que 6 = 4J
l O
etc.
Los sucesos A , A
z,
A
3
, A
4
, As, A
6
son simples, pues constan de un solo
l
elemento 0 resultado posible del experimento.
El suceso A , ocurrira si ocurre el suceso A
z,
A4 0 A6, 0 sea, si aparece
7
un 2, un 4 6 un 6, luego sera un suceso compuesto, pues consta de dos 0 mas
sucesos elementales.
Analogamente los sucesos Ag y Ag son compuestos.
El suceso A serfa el suceso imposible, pues no tiene ningun elemento del
l O
FEN6MENOS ALEATORIOS Y SUCESOS
espacio muestral, por tanto no ocurrira nunca, pues no es posible obtener un
mimero mayor que 6 en el lanzamiento del dado.
Ejemplo 6.6
Consideremos un experimento aleatorio que consiste en lanzar tres veces
una moneda al aire. Si realizamos una vez el experimento y deseamos observar
las caras y cruces obtenidas, entonces el espacio muestral correspondiente sera
el formado por todos los posibles resultados:
E = {(HHH), (HHY), (HTH), (THH), (HTI), (THY), (ITH), (TTl)}
donde, por ejemplo, el resultado (HTH) significa que en el primer lanzamiento
ha aparecido cara, en el segundo cruz y el tercero cara.
Seran posibles sucesos, por ejemplo, los siguientes:
A
l
= {(HHT), (THH), (THT)}
A
z
= {(HHH), (TTH)}
A
3
= {(HTH), (THH), (TTH)}
A
4
= {(THH)}
en donde los sucesos A
l
, A
z
Y A
3
son compuestos ya que constan de dos 0
mas elementos, el suceso A
4
es simple 0 elemental, y el suceso cierto 0 seguro
serfa el propio espacio muestral E, pues contiene todos los posibles resultados
del experimento.
Sin embargo, si consideramos el suceso A que incluye el resultado (HHTT),
tendremos que
A=4J
serfa un suceso imposible, en este experimento aleatorio, ya que estamos con­
siderando tres lanzamientos de una moneda al aire, y como vemos no contiene
ningun elemento 0 resultado de los incluidos en el espacio muestral E, siendo
por tanto imposible que se verifique un suceso cuyos elementos no pertenecen
al espacio muestral E.
6.5. Operaciones con sucesos
Con los sucesos operaremos de manera similar a como 10 hacfamos con
los conjuntos y las operaciones se definen de manera analoga.
306
307 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
Los sucesos que consideramos, evidentemente, seran los correspondientes
a un experimento aleatorio y por tanto seran subconjuntos del.espacio mues­
tral E.
Suceso contenido en otro
Dados dos sucesos A y B de un experimento aleatorio, diremos que el
suceso A esta contenido en B, y 10 indicaremos por A c B, si cada suceso
elemental perteneciente a A pertenece tambien a B, es decir si siempre que
ocurre el suceso A, tambien ocurre el suceso B.
Considerando el experimento aleatorio del lanzamiento de un dado, si
designamos por:
A = que aparezca el 2 6 el 4 = {2, 4}
B = que aparezca un numero par = {2, 4, 6}
el suceso A c B, pues los resultados o sucesos elementales 2 y 4 de A, perte­
necen a B.
Diremos tambien que A implica a B y 10 denotaremos por A => B.
Igualdad de sucesos
Dados dos sucesos A y B, diremos que son iguales, si siempre que ocurre
e1 suceso A tambien ocurre el suceso B, y siempre que ocurre el suceso B
ocurre e1 suceso A, y 10 indicaremos por A = B. Es decir se verifica:
ACB}
A=B ¢> BcA
Sean los sucesos:
A = obtener un numero par allanzar un dado = {2, 4, 6}
B = obtener un nniltiplo de 2 = {2}
aquf se verifica que:
A c B pues siempre que ocurre A ocurre B,
B c A pues siempre que ocurre B ocurre A,
luego A = B.
FENOMENOS ALEATORIOS Y SUCESOS
Union de sucesos
Dados dos sucesos A y B, se define la union de ambos sucesos A y B,
como otro suceso, que indicaremos por Au B, compuesto por los resulta­
dos 0 sucesos elementales pertenecientes a A, 0 a B, 0 a los dos a la vez, as!
pues:
Au B = al suceso que se presenta cuando A 6 B, 0 ambos ocurren.
Graficamente 10 representaremos utilizando e1 diagrama de Venn, como se
ve en el grafico 6.1.
E
A u B = zona sombreada
GRAFICO 6.1. Union de sucesos.
Sean los sucesos:
A = obtener, en el lanzamiento de un dado, un mimero impar = {l, 3, 5}
B = obtener, con el lanzamiento de un dado, un numero mayor que 4 = {5, 6}
el suceso uni6n sera:
Au B = {l, 3, 5}u {5, 6} = {l, 3, 5, 6}
o sea, obtener un 1, un 3, un 5 6 un 6 en ellanzamiento del dado.
En general, dados n sucesos A
l
, A
z
, ..., An' su uni6n A
l
u A
z
U A
3
U •.• u An
es otro suceso formado por los resultados 0 sucesos elementales que pertene­
cen al menos a uno de los sucesos Ai (i = 1, 2, ..., n).
308
309
r
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
Analogamente a1 caso de dos sucesos, representaremos por
n
U Ai = al suceso que se presentara cuando al menos
i=1 uno de los sucesos Ai ocurre.
De manera analoga podrfamos definir la uni6n de sucesos para un mimero
infinito numerable 0 no numerable de sucesos.
Interseccion de sucesos
Dados dos sucesos A y B, se define la mterseccion de ambos sucesos A y
B, como otro suceso, que indicaremos por A (I B, compuesto por los resultados
o sucesos elementales que pertenecen simultaneamente a A y a B, es decir:
A (I B = suceso que se presenta cuando A y B ocurren a la vez.
Graficamente aparece en el grafico 6.2:
GRAFICO 6.2. Intersecci6n de sucesos.
Considerando los dos mismos sucesos que hemos utilizado como ejemplo
en el caso de la uni6n, ahora, para el caso de la intersecci6n, tendremos:
A (I B = {l, 3, 5}(I {5, 6} = {5}
En general, dados n sucesos A
1
, A
2
, ..., An' su intersecci6n
A
1
(I A
2
(I ... (I An
E
A B
A n B = zona sombreada
FEN6MENOS ALEATORIOS Y SUCEsbs
es otro suceso, formado por los resultados 0 sucesos elementales que pertene­
cen a todos los sucesos Ai (i = 1, 2, ..., n).
Representaremos por
n
n
Ai = al suceso que se presentara cuando todos los sucesos Ai
i= 1
ocurren.
Sucesos disjuntos, incompatibles 0 excluyentes
Dados dos sucesos A y B, diremos que son disjuntos, incompatibles 0
mutuamente excluyentes si su intersecci6n A (I B = </J; es decir, si no tienen
ningun suceso elemental en comnn, 0 bien, dicho de otra forma, si al verificarse
uno de los sucesos no se verifica el otro, 0 sea, la ocurrencia de uno excluye
la posibilidad de que ocurra el otro.
En el grafico 6.3 tenemos su representaci6n.
A B
GRAFICO 6.3. Sucesos disjuntos.
En el ejemplo que venimos considerando sean los sucesos
A = obtener un numero par al lanzar un dado = {2, 4, 6}
B = obtener un numero impar allanzar un dado = {l, 3, 5}
A (I B = {2, 4, 6}(I {l, 3, 5} = </J
luego A y B son excluyentes, pues su intersecci6n es el conjunto 0 suceso vacfo.
310 311 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Sistema exhaustivo de sucesos
Si los sucesos A
l
, A
z,
A
3
, ••• An son tales que verifican que la union de
todos ellos
A
l
U A
z
U A
3
U ... U An = E
es igual al espacio muestral E, diremos que forman una colecci6n 0 sistema
exhaustivo de sucesos; y si ademas verifican que
AJ' A
j
= <P, V i # j (i, j = 1, 2, ..., n)
entonces diremos que forman un sistema complete de sucesos 0 una partici6n
de E.
En general, dados n sucesos A
l
, A
z
, ..., An diremos que son mutuamente
excluyentes, disjuntos 0 incompatibles dos a dos, si cada pareja de sucesos son
mutuamente excluyentes, es decir, si
Ai n A
j
= <P, Vi#- j (i, j = 1, 2, ..., n)
Si .consideramos el conjunto de todos los sucesos element ales que consti­
tuyen un espacio muestral, podemos decir que forman una colecci6n de sucesos
mutuamente excluyentes y exhaustivo, ya que de todos ellos s610 debe de
ocurrir uno y no pueden ocurrir dos simultaneamente.
Suceso complementario 0 contrario
Dado un suceso A, se define el suceso complementario 0 contrario de A,
como otro suceso que ocurre cuando no ocurre el suceso A. 0 bien, es el
suceso constituido por los sucesos elementales del espacio muestral E que no
pertenecen a A. Lo representaremos por A.
En el grafico 6.4 tenemos su representaci6n.
Si consideramos el suceso
A = obtener, en ellanzamiento de un dado, un mimero par.= {2, 4, 6} I
el suceso complementario sera:
A = {1, 3, 5} = obtener en ellanzamiento de un dado un nnmero impar.
Los sucesos A y A constituyen tambien un sistema completo de sucesos.
GRAFICO 6.4. Suceso complementario.
Diferencia de sucesos
FEN6MENOS ALEATORIOS Y SUCESOS
A= zona sombreada
Dados dos sucesos A y B, se define la diferencia de ambos sucesos A y B,
que representaremos por A - B, como otro suceso constituido por los sucesos
elementales que pertenecen a A y no pertenecen a B. Se puede expresar:
A-B=AnB
Analogamente
B-A=BnA
Observemos que
A-B#-B-A
Sus representaciones aparecen en el grafico 6.5.
Diferencia simetrica de sucesos
Dados dos sucesos A y B, se define la diferencia simetrica de ambos sucesos
A y B, que la representaremos por Ad B, como otro suceso constituido por
los sucesos elementales que pertenecen a A, 0 a B pero que no pertenecen
simultaneamente a ambos.

313
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J. 312
E
A - B =zona sombreada
E
A
"):[
f
B - A = zona sombreada
f:
"1:"
ji
L
F'
~ . : .
1.;"
La representaci6n grafica de la diferencia simetrica de sucesos aparece en
l'
r
el gnifico 6.6.
:i~ .
GRAFICO 6.5. Diferencia de sucesos.
E'
,,!,
A ~ B = zona sombreada

GRAFICO 6.6. Diferencia simetrica de sucesos.
FEN6MENOS ALEATORIOS Y SUCESOS
Como ejemplo, consideremos los siguientes sucesos:
A = obtener, en ellanzamiento de un dado, un 1, un 2 6 un 4 = {1, 2, 4}
B = obtener, en el lanzamiento de un dado, un 2, un 5 6 un 6 = {2, 5, 6}
la diferencia simetrica sera:
A.1.B = (A n B) u (B n A) = ({1, 2, 4}n {1, 3, 4}) u ({2, 5, 6}n {3, 5, 6}) =
= {1, 4}u {5, 6} = {1, 4, 5, 6}
efectivamente, el suceso que nos da la diferencia simetrica esta constituido por los
sucesos elementales que pertenecen a A 6 B pero no a la intersecci6n de ambos.
6.5. 1. Propiedades de las operaciones
con sucesos
Los sucesos asociados a un experimento aleatorio verifican las siguientes
propiedades:
1. E = <P, <P = E, A = A
2. .E u A = E, <p u A = A, A u A = E,
En A = A, <p n A = <p, An A= <p,
3. Propiedad idempotente
AuA=A
AnA=A
4. Propiedad conmutativa:
AuB=BuA
AnB=BnA
5. Propiedad asociativa:
Al u (A
2
u A
3
) = (AI u A
2
) U A
3
Al n (A
2
n A
3
) = (AI nA
2
) nA
3
6. Propiedad distributiva:
Al u (A
2
n A
3
) = (AI u A
2
) n (AI u A
3
)
Al n (A
2
u A
3
) = (AI n A
2
) u (AI n A
3
)
7. Propiedad simplificativa:
Au(AnB) =A
An(AuB)=A
314
315 CASAS-sANCHEZ, 1. M. YSANTOS-PEN"AS, 1.
8. Leyes de Morgan:
- n ) n,
(A u B) = A II B; en general
(
i ~ i Ai = Di Ai
(A liB) = AuB; en general COi Ai) = iQi Ai
Ejemplo 6.7
Sean Ai' A
2
Y A
3
tres sucesos del espacio muestral E de un experimento
aleatorio. Expresar las siguientes afirmaciones utilizando los sucesos anterio­
res.
1. Los tres sucesos oeurren.
2. Ninguno de los tres sucesos oeurre.
3. Exaetamente uno de los sucesos oeurre.
4. Exactamente dos de los sucesos oeurren.
5. Oeurre A
2
0 A
3
pero no Ai'
6. Oeurre Ai' y A
2
0 A
3
pero no ambos.
Teniendo en euenta los eoneeptos anteriores tendremos:
1. Los tres sueesos oeurren, 0 sea oeurre el Ai' el A
2
yel A 3, 10 expresa­
remos por la interseeei6n:
Ai II A
2
11 A
3
2. Ninguno de los tres sucesos oeurre
Ai II A
2
II A
3
= (Ai U A
2
u A
3
)
3. Exaetamente uno de los sueesos oeurre, 0 sea, puede oeurrir el sueeso
Ai' pero ni el A
2
ni el A
3
, 0 bien oeurrir el A
2
, pero ni Ai ni el A 3, 6
tambien puede oeurrir el A
3
, pero ni el Ai ni el A
2
, y 10 expresaremos
como:
{Ai II (A
2
u A
3
)} U {A
2
II (Ai u A
3
)} U {A
3
II (Ai u A
2
)}
4. Exaetamente dos de los sucesos oeurren, 0 sea, puede oeurrir los
sueesos Ai y A
2
pero no A
3
, 0 bien oeurrir eI Ai YeLA
3
pero no 142,
o tambien A
2
y A
3
pero no Ai' Y10 expresaremos como:
{(AIII A
2
) II A
3
) u {(AI II A
3
) II A
2
} u {(A
2
II A
3
) II Ai}
5. El suceso que oeurra A
2
0 A
3
pero no el Ai 10 expresaremos como:
(A
2
u A
3
) II Ai
FEN6MENOS ALEATORIOS Y SUCESOS
6. EI sueeso que oeurra Ai' YA
2
0 A
3
pero no ambos simultaneamente
10 expresaremos como:
Ai II (A
2
u A
3
) II (A
2
II A
3
)
6.6. Sucesiones de sucesos
LIamaremos sucesi6n de sucesos, a una familia de sueesos Ai' A
2
, A
3
, ... en
la que los sueesos aparecen ordenados por el subfndice n. La representaremos
por {An}, n = 1, 2, 3, ...
Sucesi6n creciente
Una sucesi6n de sucesos {An} diremos que es creciente si se verifiea:
Ai C A
2
C A
3
C ...
Y la representaremos por {Ann.
Sucesi6n decreciente
Una sucesion de sucesos {An} diremos que es decreciente si se verifiea:
Ai ::J A
2
::J A
3
::J ...
Y la representaremos por {An!}'
Limite de una sucesi6n
Si tenemos una sucesi6n ereciente {Anj} el limite sera:
00
lim An = U An
"-'00 n==1
Y si tenemos una sucesi6n deereciente el limite sera:
00
lim An = n An
n-e co n=1
317
316
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Mas generalmente, para cualquier sucesi6n de sucesos {An} defmimos los
limites ioferior y superior:
Ao = lim inf An = D1 (Dn Ak )
AO = lim sup An = n
01
C9n Ak )
Veamos que significado tienen estos sucesos:
A
o
= lim inf An = = U(n Ak )
n ~ 1 k ~ n
= (A
1
11 A
z
11 A
3
...) u (A
z
11 A
3
11 A
4
•••) U (A
3
11 A
4
11 As ...) u ...
Si tenemos un resultado 0 suceso elemental S E A
o
, esto implicara que el
suceso elemental s pertenecera a uno de los parentesis de la expresi6n anterior,
10 cual implica tambien que pertenece a la infinidad de sucesos Ak excepto
quiza a un mimero fmito. Asf pues si perteneciera por primera vez al tercer
parentesis, ello significarfa que pertenece a los sucesos A
3
, A
4
, As, ... excepto
a los sucesos A
1
y A
z
·
Luego el limite inferior A
o
de la sucesi6n es un suceso constituido por los
resultados 0 sucesos elementales que pertenecen a todos los sucesos de la
sucesi6n excepto quiza a un mimero fmito de sucesos.
Analogamente
AO = 1fm sup An = n01 (Dn Ak ) =
= (A
1
U A
z
U A
3
.•. ) 11 (A
z
U A
3
U A
4
•.. ) 11 (A
3
U A
4
U As ...) 11 ...
si tenemos un resultado 0 suceso elemental S E AO, esto implicara que el suceso
elemental S pertenecera a toda la infmidad de los parentesis de la expresi6n
anterior, y por tanto a una infinidad de sucesos Ak•
Asf pues diremos que el limite superior A°de la sucesi6n es un suceso
constituido por todos los resultados 0 sucesos elementales que pertenecen a
una infinidad de sucesos de la sucesi6n.
En el supuesto de que se verifique:
A
o
= lim inf An = 1fm sup An = AO = A
diremos que la sucesi6n es coovergeote, y se suele expresar como:
An--+ A, 0 lim An = A
n-+ 00
1 " ' ~
FENOMENOS ALEATORIOS Y SUCESOS
..
6.7. Algebra de sucesos
Como hemos venido observando los sucesos los consideramos como con­
juntos, siendo valido para los sucesos todo 10· estudiado en la teorta de
conjuntos, con la siguiente tabla de correspondencias:
Teorfa de sucesos Teoria de coojuntos
- Suceso. - Subconjunto del conjunto universal.
- Suceso elemental. -Punto del conjunto universal.
- Suceso seguro 0 espacio muestral. - Conjunto universal.
- Sucesos incompatibles. - Conjuntos disjuntos.
- Suceso contrario. - Conjunto complementario.
- Suceso imposible. - Conjunto vacfo,
- Uni6n de sucesos. - Uni6n de conjuntos.
- Intersecci6n de sucesos. - Intersecci6n de conjuntos.
- Un suceso A implica a B. - El conjunto A esta contenido en B.
Para llegar a la construcci6n axiomatica del Calculo de Probabilidades,.
necesitamos dar unas estructuras algebraicas basicas construidas sobre los
sucesos de la misma manera que se construian sobre los conjuntos.
Llamaremos colecclon de coojuotos a un conjunto cuyos elementos son
conjuntos. Asf pues el conjunto de las partes de E, d = W>(E), que es el
conjunto formado por todos los subconjuntos de E, 0 por todos los sucesos
contenidos en el espacio muestral E, sera una coleccion de conjuotos 0 sucesos.
Luego una colecci6n de sucesos es un conjunto cuyos elementos a su vez son
conjuntos 0 sucesos.
Para llegar a la estructura de Algebra de Sucesos 0 Algebra de Boole,
partimos de una colecci6n de sucesos, d = W>(E), entre cuyos elementos tene­
mos definidas las operaciones:
- union de sucesos,
- intersecci6n de sucesos, y
- complementario de un suceso,
que ademas, verifican las propiedades que indicamos al exponer las operacio­
nes con sucesos.
Diremos que la colecci6n de sucesos, d, no vacfa, tiene estructura de
Algebra de Sucesos 0 Algebra de BooIe, si d es una clase cerrada frente a las
operaciones de complementario, uni6n e intersecci6n de sucesos en nnmero
finito, es decir si se verifican las condiciones siguientes:
I. V A E d se verifica que su complementario AE d.
II. V A
1,
A
z
Ed se verifica que A
1
U A
z
E d.
318
319
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Estas dos condiciones son suficientes para definir el Algebra de Sucesos,
pues la condici6n I, nos pone de manifiesto que la operaci6n complementaria
de un suceso es cerrada, ya que si un suceso pertenece a la colecci6n de suce­
sos .sfl., tambien pertenece a ella su complementario. Analogamente la condi­
ci6n II, indica que la operaci6n uni6n de sucesos es cerrada, pues si dos
sucesos pertenecen a SIl, tambien pertenecera el suceso uni6n.
Lo relativo a que la intersecci6n sea cerrada y que el numero de sucesos
sea finito se obtiene como consecuencia de las condiciones anteriores, como
ahora indicaremos.
De las dos condiciones anteriores, se deducen las siguientes consecuencias:
1. EI espacio muestral E E SIl.
En efecto, sea un suceso A E SIl entonces:
por la condici6n I se verifica que AE S I l ~
por la condici6n II se verifica que A u A E SIl,
pero A u A = E, luego E E SIl
2. Si los sucesos A y B E SIl, se verifica que An B E SIl.
En efecto, como A, B E SIl,
por la condici6n I se verifica que A_E sf!.:. y Ii E SIl;
por la condici6n II se verifica que Au B E SIl;
de nuevo, en virtud de la condici6n I:
(A u B) E SIl
pero segiin las leyes de Morgan:
(A u B) = A n B = A n B E SIl
3. EI suceso imposible, 4J E SIl.
La demostraci6n es analoga a la consecuencia 1.
4. Si los sucesos AI' A
z
, A
3
, ..., A. E SIl se verifica que
Al U A
z
U A
3
U ... u A. = U

Ai E SIl
i=I
Al n A
z
n A
3
n ... n A. = n

Ai E SIl
i= 1
Para demostrar esto, bastara aplicar sucesivamente la condici6n II y
la consecuencia 3, respectivamente.
Lo cual prueba que, efectivamente, las operaciones union e intersecci6n de
un numero finito de sucesos son cerradas.
FEN6MENOS ALEATORIOS Y SUCESOS
Si hacemos la extensi6n al caso de un mimero infinito numerable de
sucesos, entonces nos aparece una nueva estructura algebraica que recibe el
nombre u-Algebra 0 Campo de Borel.
Diremos que un conjunto 0 coleccion de sucesos no vacfo, SIl = \P(E), tiene
estructura de u-AIgebra 0 Campo de Borel, si se verifican las dos condiciones
siguientes:
I. Si V A E SIl se verifica que su complementario A E SIl.
II. Si V AI' A
z
, A
3
, ... E SIl se verifica que
Al U A
z
U A
3
U ... =
00
U Ai E SIl
i=I
Aplicando las Leyes de Morgan tambien se deduce que la intersecci6n de
un numero infinito numerable de sucesos pertenecientes a SIl, tambien perte­
nece a SIl.
Antes de concluir este apartado hemos de indicar que cuando el espacio
muestral E es finito todos los subconjuntos de E se pueden considerar como
sucesos. Pero esto no ocurre cuando el espacio muestral es infinito, pues en
este caso es muy diffcil considerar el conjunto formado por todos los subcon­
juntos posibles, existiendo subconjuntos que no pueden considerarse como
sucesos. Por ella nos vamos a referir a espacios muestrales finitos 0 infinitos
numerables en donde no tendremos dificultad para fijar los sucesos,
En el caso de un espacio muestral finito nos basaremos en la estructura de
Algebra de Boole, en donde podemos realizar las operaciones de union, inter­
seccion y complementario de sucesos, teniendo la certeza de que son opera­
ciones cerradas, es decir que nos daran sucesos pertenecientes al conjunto 0
colecci6n SIl I.
Si el espacio muestral es infmito numerable entonces recurriremos a la
estructura de e-Algebra 0 Campo de Borel, en donde las operaciones de uni6n,
intersecci6n y complementario de sucesos son cerradas aplicandolas una infi­
nidad numerable de veces, es decir dan sucesos que pertenecen a la misma
colecci6n de sucesos SIl.
Resumiendo podemos decir que a partir del espacio muestral E hemos
llegado a definir la colecci6n de sucesos SIl que tiene la estructura de Algebra
de Sucesoso Algebra de Boole si el espacio muestral es finito, 0 bien tiene la
estructura de u-Algebra si el espacio muestral es infinito.
Al par (E, SIl) en donde E es el espacio muestral y SIl, una u-Algebra, sobre
E, le llamaremos espacio 0 conjunto medible, en el cual sera posible establecer
una medida 0 probabilidad, como despues veremos.
1 Se puede demostrar que toda Algebra de Boole construida sobre un espacio muestral de
dimensi6n finita es una a-Algebra.
1\
"
Ii
320 CASAS-sANCHEZ, J. M. y SANTOS-PE'I'IAS, J.
\1
.)
1
1
'I
6.8. Metodos de enumeraci6n 0 conteo
11 '
En este apartado daremos algunas tecnicas utiles para contar el mimero
de resultados 0 sucesos de un experimento aleatorio, que despues seran de
II
gran aplicaci6n para resolver ejercicios y problemas de probabilidades.
Ii
d.
~ i
6.8.1. Tobias de doble entrada
La tabla de doble entrada, como su propio nombre indica, es util para
relacionar dos pruebas, indicandonos los resultados que integran el espacio
muestral al realizar los correspondientes experimentos, pudiendo indicar sobre
la tabla determinados sucesos en los que estemos interesados.
Ejemplo 6.8
Consideremos el experimento aleatorio consistente en lanzar dos dados al
aire. La correspondiente tabla de doble entrada serfa:
2
1
2
3
4
5
6
1 2 3 4 5 6
*
*
*
*
*
*
* * * * *
en donde los asteriscos representan los resultados posibles, que en este caso
son 36 parejas, cuya primera componente es la de la columna marginal y la
segunda componente es la fila marginal.
Cuando estemos interesados en algun resultado concreto, por ejemplo,
mimero de resultados 0 sucesos elementales en los que aparece una pareja que
sume 6, no tenemos nada mas que observar los valores marginales y obten­
FEN6MENOS ALEATORIOS Y SUCESOS
321
dremos los cinco resultados que aparecen dentro de la region recuadrada, 0
bien observando dentro de la tabla las parejas que sumen 6.
En general, con m elementos a
1
, a
2
, a
3
, ... , am Yn elementos b , b , b , ..., bTl'
1 2 3
es posible formar m- n pares, (a" b
s
) tales que cada par tiene al menos algiin
elemento diferente de cada grupo.
6.8.2. Principio de multiplicaci6n
Si tenemos los conjuntos C
1
, C
2
, ... , C
k
, que tienen respectivamente
n1, n2, ..., nk elementos podemos formar en total n • n • n ..... n , k-uplas,
1 2 3 k
donde en cada k-upla el primer elemento pertenece a C , el segundo a C , el
2
tercero a C
3
... y el ultimo a C •
1
k
En el caso particular de que = '" = n = n, el mimero posible n
1
= n
2 k
de k-uplas sera n
k
• Asf pues en el ejemplo anterior del lanzamiento de
dos dados al aire el nnmero de posibles parejas hemos visto que ha sido
6
2
= 36.
Este principio es de utilidad en el caso de un experimento aleatorio com­
puesto por otros k experimentos aleatorios. En efecto, sea E el espacio mues­
tral correspondiente al experimento aleatorio compuesto, y sean E , E , ..., E
1 2 k
los k espacios muestrales correspondientes a los experimentos que integran el
experimento compuesto, siendo n
1
, n
2
, ..., n
k
el nnmero de posibles resultados
de los espacios muestrales E
1
, E
2
, ..., E
k
, respectivamente, entonces el numero
de posibles resultados para el espacio muestral E sera n • n ..... n •
1 2 k
6.8.3. Diagramas de orbot
Este diagrama nos permite indicar de manera sencilla el conjunto de po­
sibles resultados en un exprimento aleatorio, siempre y cuando los resultados
del experimento puedan obtenerse en diferentes fases sucesivas. Para ello
bastara con seguir todos los recorridos posibles del diagrama de arbol,
Ejemplo 6.9
Sea el experimento aleatorio compuesto consistente en lanzar al aire un
dado y despues tres veces consecutivas una moneda, de manera que un
posible resultado de este experimento aleatorio recogera el result ado del
dado y los resultados posibles del lanzamiento de la moneda. El espacio
muestral correspondiente tendra 6· 2 . 2 . 2 = 48 resultados posibles, segun el
principio de multiplicaci6n.
322
323
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
El diagrama de arbol correspondiente sera:
Tirada
Terceratirada Segundatirada Primera tirada
de del
moneda dado
HC
T ~
2::::­ I
HC
TC
6::::­ I
HC
TC
de
moneda moneda
de
H
H
T
I
H
T
T
H
I
: d = = ~
T
H
H
T
I
H
T
T
I
H
H
T
I
H
T
T
H
H
T
I
H
T
T
I
I
H
H
T
H
T
T
FEN6MENOS ALEATORIOS Y SUCESOS
El espacio muestral sera:
E = {(I, H, H, H), (1, H, H, T), (1, H, T, H), (1, H, T, T)
(1, T, H, H), (1, T, H, T), (1, T, T, H), (1, T, T, T)
(2, H, H, H), (2, H, H, T), (2, H, T, H), (2, H, T, T)
(2, T, H, H), (2, T, H, T), (2, T, T, H), (2, T, T, T)
(3, H, H, H), (3, H, H, T), (3, H, T, H), (3, H, T, T)
(3, T, H, H), (3, T, H, T), (3, T, T, H), (3, T, T, T)
(4, H, H, H), (4, H, H, T), (4, H, T, H), (4, H, T, T)
(4, T, H, H), (4, T, H, T), (4, T, T, H), (4, T, T, T)
(5, H, H, H), (5, H, H, T), (5, H, T, H), (5, H, T, T)
(5, T, H, H), (5, T, H, T), (5, T, T, H), (5, T, T, T)
(6, H, H, H), (6, H, H, T), (6, H, T, H), (6, H, T, T)
(6, T, H, H), (6, T, H, T), (6, T, T, H), (6, T, T, T)}
que efectivamente tiene 48 sucesos.
6.8.4. Combinaciones, variaciones
y permutaciones
Combinaciones
Llamaremos cornbinaciones de m elementos tornados de n en n, al ndmero
de subconjuntos de n elementos que se pueda formar con los m elementos del
conjunto inicial; de manera que dos subconjuntos seran distintos si difieren,
al menos, en uno de sus elementos. Las representaremos por:
e = C. = (m) = m(m - 1)(m - 2) .. · (m - n + 1) = __m_!_
m,. m n n! n!(m - n)!
Las diferentes combinaciones n-arias que se pueden formar a partir de m
elementos, van a diferir, unas de otras, por 10 menos en un elemento, es decir
los diferentes subconjuntos se diferenciaran por 10 menos en un elemento.
Combinaciones con repeticion
Si en los subconjuntos anteriormente formados se pueden repetir los ele­
mentos entonces tenemos las combinaciones con repeticion. Es decir, a partir
de los m elementos, formamos subconjuntos de n elementos, tales que dos
de sus elementos, tres, cuatro, ..., hasta n elementos, pueden ser el mismo.
El mimero total de subconjuntos de este tipo seran las combinaciones con
324 CASAS.sANCHEZ, J. M. y SANTOS.PENAS, J.
repetici6n, que las representamos por:
m + n - (m + n - I)! 1)
C' = C
'"
= = -'--__---'0­
m," m ( n n!(m - 1)1
Variaciones
Dado un conjunto de m elementos, llamaremos variaciones de orden n, a
los distintos subconjuntos que se pueden formar con los m elementos, tornados
de n en n; de manera que dos subconjuntos seran distintos si difieren, bien en
algun elemento, 0 bien en el orden de colocaci6n cuando tienen los mismos
elementos. Los representaremos por:
m!
V
m
" = m·(m - 1)·(m - 2)· ...·(m - n + 1) = ( )'
' m-n.
Variaciones con repetici6n
Si en los subconjuntos anteriores se pueden repetir los elementos, 0 sea, que
dos de sus elementos, tres, cuatro, ... hasta los n elementos pueden ser el mismo,
entonces tenemos las variaciones con repetici6n, que las representaremos por:
V'
m."
=m"
Permutaciones
Llamaremos permutacionesde orden n, a las distintas ordenaciones que se
pueden obtener con los n-elementos, tornados de n en n; de manera que dos
permutaciones formadas a partir de los mismos elementos s6lo se diferenciaran
en el orden de colocaci6n de sus elementos. Las representaremos por:
p" = n! = 1·2·3· ... ·(n - 1)·n
Permutaciones con repeticion
Las permutaciones de n elementos, k-distintos, de los cuales uno se repite
Xl veces, otro se repite X
2
veces, etc., de manera que Xl + ... + X
k
= n reciben
el nombre de permutaciones con repeticion de n elementos. Las representamos
poc . •
P
n!
X
lo X2, .... Xk = I X r. . x !
" Xl" 2' •.. k
donde
Xl + X
2
+ ... + X
k
= n
Ejercicios
1. Una empresa contrata hombres y mujeres que podemos c1asificar en
menores 0 mayores de 25 anos. Expresar los cinco sucesos que corresponden
al perfil de contratado:
a) Hombre contratado.
b) Menor de 25 alios.
e) Mujer mayor de 25 alios.
tl) Hombre mayor de 25 6 mujer menor de 25 alios.
e) Mujer mayor de 25 afios y hombre menor de 25 alios.
Soluci6n:
a) Podemos denotar A al suceso {hombre contratado}.
b) Llamando B al suceso {menor de 25 alios contratado}, el suceso pedido
es: B.
e) AnB = AuB
tl) (A n "8) u (:4 n B) = A ~ B
e) (:4 n B) n (A n B) = ¢J
2. Un sistema productivo requiere, para su funcionamiento, el trabajo de
producci6n y de control de calidad. De hecho, trabajan 2 productores, aunque
con uno solo de ellos se puede producir, y 1 controlador de calidad. Se pide
caracterizar los sucesos:
a) Un dfa se produce.
b) Un dfa se controla la calidad.
e) Un ilia funciona el sistema productivo (produce y controla).
tl) Un ilia se produce, pero no se controla la calidad.
e) Un ilia no se produce ni se controla.
1) Un dia s6lo se produce 0 s6lo se controla.
,{
;i
i
327
326 CASAS.sANcHEZ, J. M. y SANTOS-PE"NAS, J.
Soluci6n:
Sean los sucesos:
Suceso P1: el productor 1 acude al trabajo un dfa.
Suceso P 2: el productor 2 acude al trabajo un dfa,
Suceso C: el controlador acude al trabajo un dfa.
Con esta notaci6n de los sucesos P l' P 2 Y C, los sucesos pedidos son:
a) P
1
uP
2
b) C
c) (P1 uP
2)"
C
d) (P1 U P2)"C=(P1 U P2)-C
e) P1"P2"C={P
1UP2UC)
f) [(P 1 U P2)" CJ U [(P1 U P2)" C] = (P1 U P2)A C
3. En una empresa hay 2 subdirectores nacionales y 1 subdirector extranjero.
De entre ellos (los tres subdirectores) se promociona uno a director. La em­
presa dispone de tres directores, 2 nacionales y 1 extranjero, a los cuales se
aiiade el directorpromocionado. Obtener un sistema completo de sucesos del
subdirector promocionado; tambien, un sistema completo de los directores
resultantes.
Solucion:
Sistema completo de sucesos: S. y S. (subdirector nacional y subdirector
extranjero).
Sistema completo de sucesos: D. yD. («director nacional» y «director
extranjero»).
4. Sean los sucesos:
S1: Se lanzara al mercado un nuevo producto.
S2: Habra crecimiento econ6rnico nacional.
S3: Se contratara a mas empleados en la empresa.
Los tres referidos a una fecha futura. Determinar el suceso S, consistente
en que se den dos de ellos exactamente.
Soluci6n:
S = (Sl" S2" S3) U (Sl "S2" S3) U (Sl "S2" S3)
FENOMENOS ALEATORIOS Y SUCESOS
5. En el ejercicio anterior, determinar los sucesos:
a) Sa: No se da ninguno de los sucesos Sl' S2 Y S3'
b) Sb: Se da uno exactamente.
c) Sc: Se dan los tres sucesos.
Soluci6n:
a) Sa = Sl "S2 "S3 = (Sl uS
2
uS
3)
b) s, = (Sl "S2 "S3) U (Sl "S2" S3) U (Sl "S2" S3)
c) Sc=Sl"S2"S3'
6. Simplificar los sucesos:
a) [(A" B) u C] "[{B,, C) u A] = s,
b) [(A u B)" C] "A = S2
Solucion:
a) Sl = [(A u C)" (B u C)] ,,[(B u A)" (A u C)] =
= (A u C) " (A u B) " (B u C) =
= (A " B " C) u (A " B " C) u (A " B" C) u (A " B " C),
expresado este Ultimo suceso como uni6n de sucesos incompatibles 0 disjuntos.
b) S2 = [(A u B)" A] " C = [(A" A) u (B" A)] " c =
= [¢ u (B " A)] " C = (B " A) " C = A" B " C.
7. Una compaiiia de seguros de autom6viles, asegura vehfculos segun el sexo
del propietario, su edad (inferior a 30 0 mayor 0 igual a esa edad), el tipo de
vehfculo (utilitario 0 de lujo) y la antigiiedad del vehiculo (menos de 3 aiios
o de antigiiedad mayor 0 igual). "Cmintas p6lizas sedan necesarias para
asegurar cualquier caso posible?
Soluci6n:
Por el principio de multiplicaci6n los distintos tipos de polizas, son en
2
4
numero: 2·2·2·2 = = 16, por haber 2 sexos, 2 intervalos de edad, 2 tipos
de vehfculos y 2 tipos de antiguedad.
329
328
CASAS-sANCHEZ, J. M. y SANTOS-PE:&AS, J.
8. Calcular los limites de las sucesiones de sucesos en forma de intervalos:
_1 1)
a) [n + i:
b) [0, 1+ 2n ~ 1)
--
1 1 J
c 1+-­
)
[
n
2
+ l' n + 1
Solucion:
a) La sucesi6n es creciente,
lim [ ~ 1 ' 1) = U[ ~ 1 ' 1) = (0,1).
n.... co n+ n=l n+
b) La sucesi6n es decreciente,
lim [0, 1 + -2 1 1) = 1 1) = n[0, 1 + -2 [0, 1].
n.... oo n+ n=l n+
c) No es creciente ni decreciente,
0000[1 IJ 00[1 J
Ao = nV
1
Dn k2 + r 1 + k + 1 = nVl n
2
+ r 1 = (0, 1].
A
O 0000[1 1J oo( 1J
= nu -k2r 1 + -k1 = n 0, 1 + --1 = (0, 1].
n=lk=n + + n=l n+
Como:
1 1 J ' ,
A = A
O
=> lim -2--1,1 + --1 = A
o
= A
O
= (0,1].
o [
n ....oo n + n +
9. Una linea de ferrocarril tiene 22 estaciones. l,Cuantos billetes diferentes
pueden imprimirse con origen y destino distinto?
"FI'!'Tr(":
FEN6MENOS ALEATORIOS Y SUCESOS
Solucion:
EI nnmero de billetes diferentes que pueden imprimirse con origen y des­
tino distinto sera:
22) 22! 22·21
V2 2 , 2 = C2 2 , 2 . P2 = 2 2! = 2120! 2! = -2-2 = 22·21 = 462 tipos de billetes
(
10. En una divisi6n de una empresa hay 12 empleados. l,Cuantos grupos de
tres empleados pueden formarse como jefes, y en cuantos entrara un empleado
concreto?
Solucion:
- (12) = 121 = 12·11·10 = 2.11.10 = 220 posibles grupos de
a) C
12
, 3 - 3 3!9! 6
3 jefes
11) 11·10
b) C
U
, 2 = 2 = -2- = 55 grupos que inclurn a un empleado con­
(
creto.
11. En el parking de la UNED hay 13 plazas de garaje alineadas para un
Departamento y existen dos plazas de garaje prefijadas para el director y el
subdirector de un Departamento. Si ademas hay 11 profesores, l,de cuantas
formas pueden colocarse sus coches?
Solucion:
P
u
= 11! = 39.916.800 colocaciones
12. Una empresa textil vende sus telas en lotes de 3 rollos. Sabiendo que
dispone de 11 tipos de estampados diferentes, l,cuantos posibles lotes puede
ofrecer?
Solucion:
/ _ (11 + 3 - 1) _ (13) _ ~ _ 13· 12· 11 _
CU , 3 - 3 - 3 - 10!3! - 6 - 286 lotes
330
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
13. En el ejercicio anterior, l.cmintos posibles lotes pueden formarse con '2
rollos iguales y 1 de distinto color?
Soluci6n:
V
l1
, 2 = C
l1
, 2 P2 = = 110 lotes diferentes
14. En el disefio de un parking alineado de 13 plazas, se reservan 2 plazas
grandes para el director y el subdirector, y 11 medianas para los profesores,
pero ahora pueden ordenarse alineadas arbitrariamente, l.cuantas posibles
ordenaciones pueden disefiarse?
Solucion:
13! d'
p
l1
, 2 =--= 78 or enaciones
13 11!2!
15. .Si se disponen seis bombos, que contienen cada uno 5 mimeros diferen­
tes del 0 al 4 y se extrae un numero de cada uno de los bombos ordenados
de izquierda a derecha, cuantos boletos pueden salir ordenando los dlgitos
extrafdos en el mismo orden en que se disponen los bombos?
Soluci6n:
VS,6 = 56 = 15.625 boletos
16. En el ejercicio 13, la empresa textil dispone de 11 tipos de rollos de tela
estampados diferentes. Un lote consiste en 3 rollos. l.Cuatitos lotes puede
ofrecer que incluya un rollo determinado?
Soluci6n:
11 + 2 - 1) (12)
C' = = = 66 lotes
11,2 ( 2 2 .

Capitulo 7
Probabilidad
7.1. tntroducclon
En el capitulo anterior hemos introducido, entre otros, los conceptos de
experimento aleatorio, sucesos, operaciones con sucesos, etc. Indicabamos que
cuando un experimento aleatorio se repite un gran mimero de veces los posibles
resultados tienden a presentarse un mimero muy parecido de veces, 10 cual
indica que la frecuencia con que aparece cada resultado tiende a estabilizarse.
El concepto 0 idea que generalmente se tiene del termino probabilidad es
adquirido casi de manera intuitiva, siendo suficiente para manejarlo en la vida
corriente. Pero debido a la gran importancia del concepto en sf, a la gran
aplicaci6n y desarrollo que ha recibido en los mas variados campos de la
ciencia (ffsica, economfa, biologfa, etc.) es por 10 que se considera imprescin­
dible su estudio, y a 61 vamos a dedicar este capitulo dando la terminologfa
y estructura basica necesaria para poder lIegar a dar una teorfa sobre la
probabilidad.
Ahora nos va a interesar una medida numerica de la posibilidad de que
ocurra un suceso A cuando se realiza el experimento aleatorio. A esta medida
la lIamaremos probabilidad del suceso A y la representaremos por P(A).
La probabilidad es una medida sobre la escala 0 a 1; correspondiendo el
valor cero al suceso imposible, 0 sea el que no ocurre nunca, y el valor 1 al
suceso seguro. Para los restantes sucesos, daremos una probabilidad compren­
dida entre 0 y 1, de tal manera que sera tanto mas probable que ocurra un
suceso cuanto mayor sea su probabilidad. Asf pues, frecuentemente decimos
que el hecho de que ocurra un accidente de autom6vil es mas probable en
ciertas epocas del afio que en otras.
332
333
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
Hechas estas indicaciones, nos surge la necesidad de dar un concepto de
probabilidad, de tal forma que podamos asignar probabilidades ados diferen­
tes sucesos de un experimento aleatorio. Este concepto de probabilidad no
sera tinico, ya que se pueden considerar diferentes enfoques 0 puntos de vista,
asf pues, aqui expondremos el punto de vista objetivo y el subjetivo. Dentro
del enfoque objetivo se puede considerar una definici6n claslca 0 a priori de
la probabilidad y otra frecuentista 0 a posteriori.
7.2. Definicion clasica de la probabilidad
Consideremos un experimento aleatorio, cuyo correspondiente espacio
muestral E esta formado por un numero n, finito, de posibles resultados
distintos y con la misma posibilidad de ocurrir {e
1
, e
2
, e
3
, •••, en}. Entonces si
n
1
resultados constituyen el subconjunto 0 suceso A l' n
2
resultados consti­
tuyen el suceso A
2
, ••• Y n
k
resultados constituyen el suceso A
k
de tal manera
que:
n
l
+ n
2
+ ... + n
k
= n
y las probabilidades de los sucesos A
l
, A
2
, ..., A
k
seran:
n
l
n
2
n
k
P(A
l
) = -; P(A
2
) = -; ...; P(A
k
) =­
n n n
Es decir, la probabilidad de cualquier suceso A es igual al cociente entre
el nnmero de resultados favorables 0 resultados que integran el suceso A yel
mimero total de elementos 0 posibles resultados del espacio muestral E. Luego
una f6rmula para calcular la probabilidad de un suceso cuando todos los
posibles resultados tienen la misma probabilidad de ocurrir sera:
Numero de casos favorables de A
P(A) = Numero de casos posibles de E
que se conoce con el nombre de regia de Laplace para espacios muestrales
finitos.
Veamos ahora c6mo se aplica la regla de Laplace para algun caso concreto.
Supongamos el experimento aleatorio «lanzar un dado al aire», en donde
el dado se supone que es perfecto y el lanzamiento totalmente imparcial,
teniendo todos los posibles resultados la misma posibilidad de aparecer, y cuyo
correspondiente espacio muestral es:
E = {e
l
, e
2
, e
4
, = {1, 2, 3, 4, 5, 6} e
3
, e
s,
e
6
}
PROBABILIDAD
Cada uno de los posibles resultados tendra la misma posibilidad, es decir
todas las caras del dado tienen la misma posibilidad de aparecer y sera un
1/6; siendo este valor la probabilidad de cada uno de los sucesos elementales
que integran el espacio muestral:
1
P(e
l
) = P(l) = 6"
1
P(e
2
) = P(2) = 6"
1
P(e
6
) = P(6) = 6"
que se interpreta como el cociente entre el mimero de casos favorables para
cada resultado 0 suceso elemental que es 1, y el numero total de posibles
resultados que es 6.
Si ahora consideramos un suceso
A = {1, 3, 5} = que aparezca cara impar
la probabilidad del suceso A sera:
Niimero de casos favorables 3 1
P(A) = =-=-
Niimero de casos posibles 6 2
Si el suceso considerado fuera:
A = {5, 6} = que aparezca un resultado mayor que 4
P(A) = 6"
2
= 3
1
No siempre resulta tan facil y directa la aplicaci6n de la regla de Laplace,
pues los sucesos del espacio muestral deben ser distintos y tener todos ellos
la misma posibilidad de ocurrir. Supongamos, por ejemplo, que realizamos un
experimento aleatorio que consiste en lanzar al aire dos monedas simultanea­
mente y estamos interesados en conocer la probabilidad de que aparezcan dos
cruces. Para ella empezanamos por obtener los posibles resultados que se
pueden presentar al lanzar las dos monedas al aire que sedan:
- Dos caras.
- Dos cruces.
- Una cara y una cruz.
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
334
y como uno de estos resultados es el suceso, dos cruces, cuya probabilidad nos
interesa, se podrfa decir que la probabilidad buscada es 1/3. Pero esto no es
cierto ya que los tres resultados no tienen la misma posibilidad de ocurrir,
pues el resultado cara-cruz puede aparecer tambien como cruz-cara, siendo
por tanto el espacio muestral 0 conjunto de posibles resultados
E = {HH, HT, TH, TT}
todos distintos con la misma posibilidad de ocurrir. La probabilidad correcta
del suceso, dos cruces, serfa 1/4.
Mas concretamente, si consideramos el espacio muestral finito E = {el' ez,
..., en}, para que se pueda aplicar la regIa de Laplace es necesario que todos
los sucesos elementales sean equiprobables, es decir:
P(e
l
) = P(e
z
) = ... = P(e
n
)
y como
P(E) = L
n
P(ej ) = 1
i ~ l
resulta que:
1
P(e
i
) = -, Vi = 1, 2, 3, ..., n
n
y si designamos por A = {e ..., e
k
} el suceso formado por k sucesos
l
, e
z,
elementales, siendo k :( n, tendremos:
~ k nnmero de casos favorables
P(A) = L, P(e) = - = -------­
j ~ I j n ntimero de casos posibles
Observemos que la probabilidad verifica las siguientes condiciones:
1.0 La probabilidad de cualquier suceso es siempre un numero no nega­
tivo comprendido entre °y 1. En efecto, dicha probabilidad viene

dada por ~ en donde n
j
es menor que n, y ambos son no negativos,
n
2.0 La probabilidad del suceso seguro, E, vale 1, pues en este caso ni sera
igual a n, ya que el suceso segura E 0 espacio muestral contiene todos
n
los posibles resultados y la probabilidad sera - = 1. Par ejemplo, la
n '
probabilidad de obtener un resultado inferior a 9 al lanzar un dado
sera 1.
Analogamente la probabilidad del suceso imposible, <jJ, es cero. Por
ejemplo, la probabilidad de obtener un 8 allanzar un dado sera cero.
PROBABILIDAD 335
3.° La probabilidad de la union de varios sucesos incompatibles 0 ex­
cluyentes es igual a la suma de las probabilidades de cada uno de los
sucesos. En efecto, sean los sucesos AI' A
z
, ..., A" compuestos cada
uno de ellos por n
l
, n
z,
..., n, resultados elementales del espacio muestral
E, y tales que Ai n A
j
of. <jJ, V i, j = 1, ..., r, entonces resulta que como
n
l
+ n
z
+ '" + n, n
l
n
z
n,
-=----=-------'- = - +- + ... +­
n n n n
tendremos:
P(A
I
U A
z
U ... u A,) = P(A
I
) + P(A
z)
+ ... + P(A,)
Esta definicion de la probabilidad clasica fue una de las primeras que se
dieron, alrededor del afio 1900, y se conoce con el nombre de regIa de Laplace
ya que se Ie atribuye a el, Tambien se Ie suele liamar probabilidad a priori,
pues para calcularla .es necesario conocer, antes de realizar el experimento
aleatorio, el correspondiente espacio muestral y el nnmero de resultados 0
sucesos elementales que entran a formar parte del suceso cuya probabilidad
pretendemos determinar; pudiendo calcular la probabilidad de cualquier suce­
so antes de realizar el experimento aleatorio.
La aplicaci6n de la definici6n clasica de probabilidad puede presentar
dificultades de aplicaci6n en algunos casos. Concretamente, cuando el espacio
muestral es infinito, 0 bien cuando los posibles resultados de un experimento
no son igualmente probabIes. Por ejemplo, en un proceso de fabricaci6n de
un determinado tipo de piezas, pueden aparecer algunas piezas defectuosas,
siendo la mayorfa buenas, y en este caso si quisieramos determinar la proba­
bilidad de que una pieza fuera defectuosa no podriamos utilizar la definici6n
clasica de probabilidad, pues necesitarfamos conocer previamente el resultado
del proceso de fabricaci6n (experimento aleatorio). Otro ejemplo serfa el de­
terminar la probabilidad de que una mujer muera antes de una determinada
edad, etc.
Para resolver, entre otros, estos problemas se hace una extensi6n de la
definicion de probabilidad, de manera que se pueda aplicar con menos restric­
ciones. Llegando a la definicion frecuentista de la probabilidad.
7.3. Definicion frecuentista de la probabilidad
Dados dos sucesos incompatibles Al y A
z
tales que Al u A
z
= AcE
entonces cada vez que se presente el suceso A, se presentara necesariamente
uno y s6Io uno de los sucesos Al 0 A
z
, Y si realizamos n repeticiones del
336
337
- ~ ..
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
experimento aparecera n' veces el suceso A de tal forma que
n' = n
l
+ n
z
siendo:
n
l
: el mimero de veces que aparece Al Y
n
z:
el nnmero de veces que aparece A
z
.
Luego tendremos que:
n' n
l
n
z
- = - + - :;. f,.(A) =f,.(A
1
u A
z)
= f,.(A
1
) +f,.(A
z)
n n n
Esta propiedad se puede generalizar al caso de n sucesos incompatibles.
La teorta frecuentista de la probabilidad asegura que existe el siguiente
limite cuando n tiende a infinito:

lim .2 = P(A
i
) , i = 1, 2, 3, ..., k
n-+C() n
siendo P(A
i)
la probabilidad del suceso Ai'
Luego la definicion frecuentista de la probabilidad consiste en definir la
probabilidad como el limite cuando n tiende a infinito de la proporci6n 0
frecuencia relativa del suceso.
En general, si realizamos un experimento aleatorio cuyo correspondiente
espacio muestral es E y designamos por A cualquier suceso perteneciente al
espacio muestral E y repetimos en las mismas condiciones, n veces el experi­
mento aleatorio, tendremos que la frecuencia relativa del suceso A sera:
n(A)
n
en donde n(A) es el nnmero de veces que ha aparecido el suceso A en las n
repeticiones del experimento.
Cuando el mimero n de repeticiones del experimento se hace muy grande,
o sea, cuando n tiende a infinito, la frecuencia relativa converge hacia un valor
que llamaremos probabilidad del suceso A, P(A), 0 sea: •
P(A) = lim n(A)
n-+ co n
Pero como es imposible llegar a este .lfmite, ya que no podemos repetir el
experimento un numero infinito de veces, 10 que sf podemos hacer es repetir
PROBABILIDAD
el experimento muchas veces y observarfamos que lasfrecuencias relativas
tienden a estabilizarse. Pero esta estabilizaci6n es relativa, pues en algunos
casos las frecuencias relativas tienden a estabilizarse muy pronto, es decir, con
pocas repeticiones del experimento aleatorio se observa la estabilizaci6n y sin
embargo en otros casos la estabilizaci6n de las frecuencias relativas es mas
lenta, teniendo que repetir muchas veces el experimento aleatorio para que
aparezca esa estabilizaci6n. Asf pues, consideremos un experimento aleatorio
que consiste en lanzar una moneda equilibrada al aire, 0 sea, una moneda muy
perfecta, siendo los posibles resultados cara (H) 0 cruz (T); si repetimos 200
veces el experimento obtenemos los resultados de la tabla 7.1.
TABLA 7.1.
Resultados de 200 lanzamientos de una moneda al aire.
Numero de caras
Numero de
Soma
Frecuencia
cada 10
acumulada
lanzamientos relativa
lanzamientos
de caras
de caras
1
0
0
0
10
6
6
0,600
20
2
8
0,400
30
6 14
0,467
40
5 19
0,475
50
6
25 0,500
60
6 31
0,517
70
7
38 0,543
80
5 43
0,537
90
3
46
0,511
100
5
51 0,510
110
5
56 0,509
120
7
63 0,525
130
5
68 0,523
140
4
72
0,514
150
3
75
0,500
160
3
78 0,487
170
5
83 0,488
180
6
89 0,494
190
6
95 0,500
200
6
101 0,505
La cuarta columna de la tabla 7.1 nos da la frecuencia relativa de aparici6n
del suceso cara. Por ejemplo, cuando hemos realizado 40 repeticiones del
experimento la frecuencia relativa de caras es
19 .
40 = 0,475
---
338
. , . . ~ . ,
CASAS-sANcHEZ, J. M. y SANTOS-PENAS, J.
y cuando se han realizado 170 repeticiones la frecuencia relativa es
83
- ~ 0 4 8 8
170 '
10 cual nos indica que cuando el numero n de repeticiones del experimento
aumenta la amplitud de las variaciones disminuye. Es decir, la frecuencia
relativa tiende a estabilizarse 0 a presentar regularidad estadfstica en torno a
un valor, en nuestro ejemplo, 0,5, a medida que n crece.
Si representamos graficamente la primera y cuarta columna de la tabla 7.1,
llevando en el eje de abscisas el mimero de lanzamientos Y en el eje de
ordenadas la frecuencia relativa de las caras, grafico 7.1, observamos que
efectivamente la amplitud de las variaciones decrece cuando n aumenta, ten­
diendo a fluctuar alrededor del valor 0,5.
----_.. ---_...----_....----_._---_..... ---_.. --_... --_.....--...--- ... _.-....-.-._..---- ..--- ..... --.....---....---...... ----_....
..----_..---...---_....----.....---_...---- ...---_...---_..-----_._--_..._-_..... _--_.... _-_ .....---_.....---_....-----.-----_...------....--­
0,9
..... -_ ..... __ ........... ----_..... __ ..._---_...----_...--_....--- ...-----..----_...--_......--_..... ---.....--- .....---_......-....... ---_....
0,8
--_...--_..-.__....-.--_......-_...---- ....--_....---_.-----_..---...-- --....---_....----_...- - - ~ _...-- .....---_..... ~ - - _ ...------_..- ----­
~ 0,7
'Q
..---_....-- -_.... -_..-..-_. _...- ~ - _ ....- ~ - - _ ...-.--_ ..... ---_...---_.... ---_.....-- -_..
~
... 0,6
..
... _.... --_.. 'g
oj
--_ _.... ---_....----....- - _ . ~ _ ...
~ 0,5
..._-_._..---_....--_..... -_......--_...------_...----..... ---_.....-----....----_...---
Ii: 0,4
-_..~ - - - - _ ..- -_....----_.....----_...- ---...---_...---_.... -_.... ---- ..---_.....-- - ~ ....--_..... - - - _ . ~ ....---_......-_._....----_..--.----_.
0,3
----...--_....--_._..-----_.....----_..-----....--_....----....--_....--_...----_....---_..... --_.....---_....----_....----_....-----_..._----_.
0,2
..-----_..---_....--_.....- --_..... ---_..------_.- - -_ ...-- - ...---_....---_...----_...------ ...~ --_....~ - - .... - ---_...------ ...-----_..--­
0,
_ _
0' !
o 10
I
20 30 40 50 60 70
J
80
I
90 100 110 120 130 140 150 160 170 180 190 200
I I I I I I I I I I
Numero de lanzamientos
< •
GRAFICO 7.1. Representacion grafica del numero de lanzamientos de una moneda al aire
y frecuencia relatiua de las caras.
Este valor 0,5, al cual tiende la frecuencia re1ativa cuando el numero de
repeticiones se hace muy grande, es 1a probabilidad del suceso cara.
El hecho de que las frecuencias relativas tiendan a estabilizarse en torno
del valor 0,5 es debido a que 1amoneda que hemos utilizado estaba totalmente
PROBABILIDAD 339
equilibrada, 0 sea, era imparcial, y los dos posibles sucesos, cara y cruz, son
igualmente pro babIes.
Si la moneda hubiera sido doblada 0 golpeada, al repetir muchas veces e1
experimento aleatorio (lanzamiento al aire de la moneda) nos podia haber
llevado a un valor diferente del 0,5, como podfan haber sido del 0,61, 0,48,
0,71, ... siendo estes los valores a1rededor de los cua1es se hubieran estabilizado
las frecuencias relativas, resultando entonces que la probabilidad del suceso
cara no hubiera sido 0,5, sino que serfa 0,61, 0,48, 0,71, ...
A esta definicion frecuentista de la probabilidad se Ie llama tambien proba­
biIidad a posteriori ya que s610 podemos dar 1a probabilidad de un suceso des­
pues de repetir y observar, un nnmero grande de veces, el experimento aleatorio
correspondiente. Algunos autores tambien las Haman probabilidades teerieas,
7.4. Interpretacion subjetiva de la probabilidad
Hemos visto que tanto la definicion clasica como la frecuentista de 1a
probabilidad se basan en las repeticiones del experimento aleatorio, pero hay
muchos experimentos que no se pueden repetir bajo las mismas condiciones,
y por tanto habra muchas situaciones donde la interpretaci6n objetiva de la
probabilidad no puede ser aplicada, teniendo que recurrir a un punto de vista
alternativo que no depende de las repeticiones del experimento aleatorio sino
que consiste en considerar la probabilidad como un concepto subjetivo que
expresa el grado de creencia 0 confianza individual sobre 1aposibilidad de que
el suceso ocurri6. Es decir, la probabilidad subjetiva representa un juicio
personal sobre el resultado de un experimento aleatorio, pudiendo ser muy
diferente del juicio personal 0 probabilidad subjetiva asignada por otra per­
sona. Luego la probabilidad subjetiva es la evaluaci6n personal de la proba­
bilidad de un fen6meno a1eatorio. '
Con e1 fin de aclarar 10que entendemos por grado de creencia 0 confianza
individual consideremos el siguiente ejemplo, que va a consistir en un partido
de futbol entre dos equipos A y B que juegan por primera vez; no disponemos
de informaci6n sobre resultados anteriores puesto que es 1a primera vez que
van a jugar, solo se tiene informacion sobre algunos jugadores de ambos
equipos, Como no han jugado en ocasiones anteriores no podemos atribuirle
probabilidad objetiva al posible resu1tado del partido, es decir como no existen
resultados de partidos anteriores, no podemos asignarle probabilidad de tipo
frecuentista 0 a posteriori ni de tipo clasico 0 a priori a los tres posibles
resultados del partido:
- que gane el equipo A,
- que gane el equipo B, 0
- que empaten.
340 CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
Sin embargo, basandonos en el conjunto de la posible informaci6n que'
podamos tener aeerea de los diferentes jugadores 0 aun sin ella, se puede emitir
un juicio personal 0 grado de creencia sobre el posible resultado, que sena la
probabilidad subjetiva que se asigna a eada posible resultado. Asf pues un
determinado observador puede asignar las siguientes probabilidades subje­
tivas.
Probabilidad de que gane el equipo A = 0,7
Probabilidad de que gane el equipo B = 0,2
Probabilidad de que empaten = 0,1
Otro observador puede asignar diferentes probabilidades subjetivas:
Probabilidad de que gane el equipo A = 0,3
Probabilidad de que gane el equipo B = 0,2
Probabilidad de que empaten = 0,5
Siendo, por tanto, posible que diferentes observadores tengan diferentes
grados de creencia sobre los posibles resultados emitiendo juicios personales
o probabilidades subjetivas diferentes e igualmente validas,
De esta forma hemos emitido un juicio (un numero) que refleja nuestra
opini6n sobre el posible resultado, y que es la probabilidad subjetiva asignada
a ese resultado. Siendo este mlmero 0 probabilidad subjetiva una propiedad
caracterfstica que depende del propio observador.
Para el objetivista las cosas sueeden de diferente forma: admite que la
probabilidad es una propiedad caracterfstica de cada acontecimiento y no
depende del observador, limitandose este a ealeular su valor a partir de un
conjunto de informaci6n impuesto por el propio acontecimiento e indepen­
diente del observador. Es decir, dos observadores diferentes pueden dar para
un mismo sueeso dos valores distintos desde el punto de vista subjetivo, sin
embargo, esto no puede oeurrir en el punta de vista objetivo, pues en este caso
. uno de los dos 0 ambos han medido malla probabilidad y un ser infinitamente
inteligente dana el valor exacto.
En 10sucesivo nos referiremos a la probabilidad objetiva aunque en algtin
apartado, como por ejemplo en teona de la decisi6n podremos utilizar poo­
babilidades subjetivas, perc entonces 10 indiearemos expresamente',
1 Como autores representantes del punto de vista objetivo tenemos: Gournot, Borel, Berstein,
Keynes, Kolmogorov, Jeffreys, Von-Misses y Reichenbard.
Como representantes del punto de vista subjetivo: Ramsey, De Finetti, Koopman, Savage,
Good, etc.
PROBABlLIDAD
341
7.5. Definicion axiomOtica de la probabilidad
La definici6n axiomatica de la probabilidad es quizas la mas simple de
todas las definiciones y ciertamente es la menos controvertida ya que, esen­
cialmente, es una definiei6n basada en un conjunto de axiomas que estableeen
los requisitos mfnimos para dar Una definiei6n de probabilidad. La ventaja
fundamental de la definici6n axiomatica de la probabilidad es que nos permite
llegar a un desarrollo riguroso y matematico de la probabilidad. Esta aproxi­
maci6n axiomatica de la probabilidad fue introducida, inicialmente, por el
matematico ruso A N. Kolmogorov y posteriormente aceptada por estadfsti­
eos y matematicos en general2.
Dado el espacio muestral E y la e-algebra d = Q1>(E), diremos que una
funcion de conjunto P definida sobre d y con valores en [0, 1],
P: d --+ [0, 1]
es una probabilidad, si satisface los siguientes axiomas de KoImogorov:
A.I. P(A) ~ 0, para cualquier sueeso A E d.
All. P(E) = 1.
AlII. Dada una sucesi6n numerablede sucesos incompatibles, A
l
, A , '" E d,
se verifiea que
2
P(A l U A
2
U ... ) = P(A
l)
+ P(A ) + P(A ) + ...
2 3
o bien
P(9l Ai) = i ~ l P(A;)
Si la funcion de eonjunto P asigna el valor p = P(A) al sueeso A, entonees
diremos que p 0 P(A) es la probabilidad del suceso A.
La terna formada por el espacio muestral E, la o-algebra d y la probabi­
lidad P, (E, d, P), recibe el nombre de espacio probabilfstico.
2 Un axioma es una afirmaci6n que se admite como verdadera; mientras que un teorema es
una afirmaci6n que puede ser deducida de axiomas 0 de otras propiedades y teoremas previos.
En la definicion axiomatica de la probabilidad, admitiremos como verdaderas varias afirmaciones
simples sobre la probabilidad, y estas afirmaciones seran los axiomas de probabilidad.
342
343
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, 1.
7.5. 1. Teoremas elementales 0 consecuencias
de los axiomas '
Los siguientes resultados se deducen directamente de los axiomas de pro­
babilidad de Kolmogorov.
Teorema 7.1
l.La probabilidad dol suceso imposible es nula
P(¢) = °
Demostraci6n:
Sabemos que
Eu¢=E y En¢=¢
Por el axioma III (A.IlI), resulta que
P(Eu ¢) = P(E) + P(¢) = 1
y como por el axioma II (A.II), P(E) = 1,
P(E) + P(¢) = 1 + P(¢) = 1
resulta que
P(¢) = °
Es decir, la probabilidad del suceso imposible es cero, pero si para cual­
quier suceso A resulta que P(A) = 0, diremos que A es un suceso nulo, pero
esto no implica que A = ¢. Analogamente sucede con el suceso E, pues si para
cualquier suceso A se verifica que P(A) = 1, diremos que A es un suceso casi
seguro, pero esto no implica que A = E.
Un diagrama grafico de la demostraci6n viene dado por el grafico 7.2.
PROBABILIDAD
An AlII An 1
l l l r--- ,
1 + P (0) I = P (E) +P (0) = : P (E u 0) :
1 1
GRAFICO 7.2. Demostracion del teorema 7.1.
Teorema 7.2
Para cualquier ~ u c e s o A E d se verifica que la probabilidad de su
complementario P(A) es
P(A) = 1 - P(A)
Demostraci6n:
Teniendo en cuenta que:
AuA=E y AnA= ¢
Aplicando los axiomas A.Il y A.IlI tenemos:
1 = P(E) = P(A u A) = P(A) + P(A)
de donde se deduce que
P(A) = 1 - P(A)
344
345
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
o bien que
P(A) = 1 - P(A)
Un diagrama grafico de la demostraci6n viene dado por el grafico 7.3.
AuA=E
A.ID A.n
t
i' - - - - - -_- ­ - - - - - :
t
P(A) +P(A) : P(A uA) =P(E) I
=
, - - - - - - - - - - - - - _I
GRAFICO 7.3. Demostraci6n del teorema 7.2.
Teorema 7.3
La probabilidad P es mon6tona no decreciente, es decir
V A, B e sl, con A c B => P(A):::;; P(B)
y ademas
P(B - A) = P(B) - P(A)
Demostraci6n:
Observando el diagrama de Venn del grafico 7.4.
PROBABILIDAD
E
B
GRAFICO 7.4. Diagrama de Venn.
si, A c B, entonces podemos expresar B como
B = Au(B - A)
pero A y B - A son disjuntos, luego por A.III tendremos:
P(B) = PEA u (B - A)] = P(A) + P(B - A) =>
=> P(B - A) = P(B) - P(A)
y como por el axioma A.I,
P(B - A) ~ 0
resulta que
P(B) - P(A) ~ 0
de donde
P(B) ~ P(A)
Yconsecuentemente
P(A):::;; P(B)
347
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
346
Teorema 7.4
Para cualquier suceso A E .54., se verifica que P(A) 1.
Demostraci6n:
l
Ya que AcE, por el teorema 7.3 resulta que
P(A) P(E) = 1 P(A) 1
Teorema 7.5
P",. do' sucesos cualesquiera A, BE'" se verifica que
P(A u B) = P(A) + P(B) - P(A n B)
Demostraci6n:
Observando el diagrama de Venn del grafico 7.5 podremos escribir
E
GRAFICO 7.5. Diagrama de Venn.



y como los sucesos
(A n B), (A n B), (A n B)
PROBABILIDAD
son disjuntos, por el axioma A.I1I tendremos que:
P(A) = P(A n B) + P(A n B) [7.1]
P(B) = P(A n B) + p(J n B) [7.2]
P(A u B) = P(A n B) + P(A n B) + P(A n B) [7.3]
De las expresiones [7.1] y [7.2], sumando miembro a miembro y pasando
al primer miembro P(A n B) tendremos
P(A) + P(B) - P(A n B) = P(A n B) + P(A n B) + p(J n B) [7.4]
y comparando la expresi6n [7.3] con la [7:4] resulta que los segundos miem­
bros son iguales, luego se verifica que:
P(A u B) = P(A) + P(B) - P(A n B)
Este teorema se puede generalizar a mas de dos sucesos, as! pues para el
caso de tres sucesos A, B, C E .54. tendremos
P(A u B u C) = P(A) + P(B) + P(C) - P(A n B) - P(A n C) - P(B n C) +
+ P(AnBnC)
En general para n sucesos A
l,
A
z
, ..., An E .54. se verifica que
n ) n n n
P
(
iV Ai = P(AJ - P(Ai ri Aj) + kt:k P(A; n Aj n AJ+
l
+ ... + (_l)n+l
p
(6Ai)
Teorema 7.6
Para dos sucesos cualesquiera A y B E .54. se verifica que
P(A u B) P(A) + P(B)
Demostracion:
Es una consecuencia inmediata del teorema 7.5.
349
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1. 348
En general podemos eseribir que
P(QI Ai) ~ JI P(A;)
En eI easo de que los sueesos fueran disjuntos entonees se verifiea la
igualdad
P(VI Ai) = itl P(A;)
Teorema 7.7
Dada una sueesi6n ereeiente de sueesos {AI' A
z
, A
3
, •••} que abrevia­
damente representaremos por {Anj} entonees se verifiea que:
';:', n ~ ~ P(A
n)
= p ( ~ ~ An) = P(91 An)
i,
Demostracion:
i
f'
Denotemos por
A = Al U A
z
U A
3
U ..• = lim An = U An
n-e cc n=1 j;
co
con 10 eual
iti
I,,::
':;,1
P(A) = p ( ~ ~ An) = P(91 An)
Como la sueesi6n es ereeiente se verifiea
I:.
Al c A
z
C A
3
c···
I
t'
y los sucesos
:[\. 'I'
I'
AI' A
z
- AI' A
3
- A
z
, A
4
- A
3
, •••, An - An-I' ...
son disjuntos entre sf y tales que:
An = Al U (A
z
- AI) u (A
3
- A
z
) U (A
4
- A
3
) U ... U (An - An-I) [7.5]
tomando limites euando n tiende a infinito tenemos:
lim An = Al u (A
z
- AI) u (A
3
- A
z
) U ...
n....co
PROBABILIDAD
y por el axioma A.III
p(lim An) = P(A I) + P(A
z
- AI) + P(A - A ) + ... =
n....co 3 z
= lim [P(AI) + P(A z - AI) + P(A
3
- A
z
) + ... + P(A - An-I)] =
n....co n
= lim PEAl U (Az - AI) U (A
3
- A
2
) U '" U (An - An-I)]
n....<Xl
y teniendo en euenta la expresion [8.5] resulta que:
p C ~ ~ An) =n ~ ~ P(AJ
con 10 que queda demostrado.
Teorema 7.8
Dada una sucesion deereeiente de sueesos {AI' A
2
, A
3
, ... } 0 abrevia­
damente {An!}, entonees se verifiea que:
n ~ P(A
n)
= p C ~ ~ An) = PCOI An)
Demostraci6n:
Designamos por
A = Al n Az n A
3
n ... = lim An = n
co
An
[7.6]
n--+oo n=l
Y eonseeuentemente
P(A) = p C ~ An) = PCOI An)
Como la sueesi6n {An!} es deereciente, entonces la sueesi6n de sus sueesos
complementarios {Anj} es ereeiente y, eonseeuentemente, el eomplementario
del sueeso A representado en la expresi6n [7.6], aplieando las leyes de Morgan,
sera:
eo
A = Al U Az U A
3
U ... = lim An = U An
n-+oo n==1
350
CASAS-sANCHEZ, J. M. YSANTOS-PEr::lAS, 1.
y segun el teorema 7.7
P(A) = p(lim An) = p( UAn)
n-e co n=1
y por el teorema 7.2
P(A) = 1 - P(A) = 1 - lim P(AJ = 1 - lim [1 - P(An)] = lim P(An)
n-+ 00 n-+ 00
n-+ 00
luego
P(A) = ~ ~ P(AJ = p ( ~ ~ An) = p(C\ An)
como querfamos demostrar.
Ejemplo 7.1
Sean los sucesos A, By C con probabilidades
1 1 1
P(A) = 2:' P(B)="3 y P(C)=4
y tales que
1
P(AnB) =6
AnC=¢
BnC=¢
Obtener
1. P[(A n B)],
2. P(AnB),
3. P[(A u B)],
4. P(AnB) y
5. P[AuBuC].
Soluci6n:
1. Teniendo en cuenta el teorema 7.2, tenemos:
__ 1 5
P[(A n B)] = 1 - P(A n B) = 1 - 6= 6
PROBABILIDAD
351
2. Segtin vimos en el teorema 7.5, tenfamos la expresi6n:
A = (AnB)u(AnE)
Luego
P(A) = P[(A n B) u (A n E)] = P(A n B) + P(A u B)
1 1 ­
- = - + P(AnB)
2 6
- 1 1 2 1
P(A n B) == - - - = - = ­
2 6 6 3
3. Aplicando el teorema 7.2, tenemos:
P[(A u B)] = 1 - P(A u B)
Pero segrin el teorema 7.5
1 1 1 2
P(A u B) = P(A) + P(B) - P(A n B) = - +- - - = ­
236 3
Por tanto, sustituyendo se tiene:
2 1
P[(A u B)] = 1 - "3 ="3
4. Teniendo en cuenta las leyes de Morgan, sabemos que:
AnB=AuB
luego
- - -- 1
P(A n B) = P(A u B) = "3
5. Sabemos que:
AnC=ljJ
BnC= ¢
Pero
(A u B) n C = (A n C) u (B n C) = ljJ
352
353
CASAS-sANCHEZ, J. M. YSANTOS-PENAS, J.
luego (A u B) Y C son sucesos disjuntos y teniendo en cuenta el axioma
A.lII resulta:
2 1 11
P(A u B u C) = P[(A u B) u C] = P(A u B) + P(C) = - + - = ­
3 4 12
EjempJo 72
Analizadas las estadisticas de visitantes a los museos de una ciudad durante
el afio 2000 se ha observado que 1.000.000 de personas han visitado el total
de museos. En particular se sabe que 700.000 personas han visitado el museo
A y 500.000 han visitado el museo B, y no se tiene informaci6n del resto.
Obtener:
1. La probabilidad de que un visitante visite el museo A.
2. La probabilidad de que un visitante visite el museo B.
3. La probabilidad de que visite los dos museos A y B.
4. La probabilidad de que visite al menos uno de los dos museos.
Solucion:
Designamos por A el suceso de visitar el museo A, analogamente por B el
suceso de visitar el museo B, y llamamos C al suceso visitar otros museos.
1. Teniendo en cuenta la definici6n de probabilidad, tenemos que:
700.000 = 0,7
P(A) = 1.000.000
2. Analogamente
500.000 = 0,5
P(B) = 1.000.000
3. EI suceso «que visite los dos museos A y B» 10 designamos por A n B,
luego tenemos que calcular P(A n B).
Sabemos que
A = ~ n ~ u ~ n ~
B = ~ n ~ u ~ n ~
Luego
P(A nB) ~ P(A nB) + P(A nB) = P(A) = 0,7
P(A n B) ~ P(A n B) + P(A n B) = P(B) = 0,5
Por tanto podemos decir que
P(A nB) ~ 0,5
PROBABILIDAD
Pero por el teorema 7.5 tenemos
P(A u B) = P(A) + P(B) - P(A n B)
Y por el teorema 7.4,
P(A uB) ~ 1
Luego
P(A) + P(B) - P(A n B) ~ 1
0,7 + 0,5 - P(A n B) ~ 1
0,2 ~ P(AnB)
Resulta que
0,2 ~ P(A nB) ~ 0,5
4. El suceso «que visite al menos uno de los museos» 10 representamos
por Au B, luego tenemos que calcular P(A u B).
Razonando de manera analoga al apartado anterior tenemos:
0,7 = P(A) :( P(A) + P(A nB) = P(A u B) :( I
0,5 = P(B) :( P(B) + P(A n B) = P(A u B) :( 1
luego
0,7 ~ P(A u B) ~ 1
EjempJo 7.3
La probabilidad de que un estudiante A apruebe el examen final de Esta­
dfstica es 0,7, la de otro estudiante B es 0,5 y la probabilidad de que aprueben
los dos estudiantes es 0,4. Obtener las probabilidades de los siguientes sucesos:
1. Que al menos uno de los dos apruebe el examen.
2. Que ninguno apruebe eI examen.
3. SoIamente uno apruebe el examen.
Soluci6n:
Designamos por:
- Suceso A: el estudiante A aprueba.
- Suceso B: el estudiante B aprueba.
354
CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
Entonces
peA) = 0,7
PCB) = 0,5
peA nB) = 0,4
1. El suceso «que al menos uno de los dos apruebe el examen» sera:
Al = AuB
Iuego
peAl) = peA u B) = peA) + PCB) - peA n B) = 0,7 + 0,5 - 0,4 = 0,8
2. El suceso «que ninguno apruebe e1 examen» sera:
A
2
= AnB = AuB
Luego
P(A
2
) = peA u B) = 1 - peA u B) = 1 - 0,8 = 0,2
3. El suceso «que solamente uno apruebe el examen» sera
A
3
= (A n B) u (A n B) = A 6. B
pero como estos sucesos (A n Ii) y (Ii'- n B) son disjuntos
P(A
3
) = peA n B) + peA n B)
Sabemos que
A = (AnB)u(AnB) => peA) = P(AnB) + P(AnB)
B = (A n B) u (:4 n B) => PCB) = peA n B) + peA n B)
de donde se deduce que
P(AnB) = peA) - P(AnB)
P(AnB) = PCB) - P(AnB)
y sustituyendo en la expresi6n de P(A
3
) tenemos:
P(A
3
) = peA) - 2· peA n B) + PCB) = 0,7 - 2·0,4 + 0,5 = 0,4
PROBABILIDAD 355
7.6. Probabilidad condieionada
En los apartados anteriores hemos introducido el concepto de probabi­
lidad considerando que la unica informaci6n sobre el experimento era el
espacio muestral. Sin embargo, hay situaciones en las que se incorpora infor­
maci6n suplementaria respecto de un suceso relacionado con el experimento
aleatorio en cuestion cambiando su probabilidad de ocurrencia. As! pues, el
hecho de introducir mas informaci6n, como puede ser que otro suceso ha
ocurrido, conduce a que determinados resultados no pueden haber ocurrido,
variando el espacio de resultados y cambiando consecuentemente sus proba­
bilidades.
Consideremos dos sucesos relacionados de tal manera que la probabilidad
de que ocurra un suceso depende de si e1 otro suceso ha ocurrido 0 no. Por
ejemplo, sea un experimento que consiste en observar si el dolar sube (aumenta
de valor) frente a la peseta. Designamos por A e1 suceso «el dolar sube frente
a la peseta en el mercado espafiol antes de que nuestro mercado abra a las
nueve de la manana» y sea B el suceso «el dolar sube en el mercado americano
despues de abrir». Ambos sucesos, A y B estan relacionados, ya que los
mercados se rnoveran probablemente en la misma direcci6n muchos dfas, pero
no necesariamente todos los dfas. Por 10 tanto la PCB) de que el dolar subirfa
frente a la peseta en el mercado americano no es igual que la probabilidad de
que ocurra el suceso B (que e1 dolar suba en el mercado americano despues
de abrir) cuando se conoce que el dolar ha subido en el mercado espanol,
suceso A.
Por ejemplo, supongamos que el d61ar sube frente a la peseta el 70 % de
los dfas en el mercado espafiol y e1 60 % de los dfas en ambos mercados, el
americano y el espafiol, es decir: ­
peA) = 0,7
P(AnB) = 0,6
Entonces, si se sabe que el d61ar sube, frente a la peseta, en el mercado
espanol, 1a probabilidad de que habiendo sucedido esto suba en el mercado
americano sera:
peA n B) = ~ ~ 0,86
peA) 7
A este cociente
P(AnB)
peA)
357
356 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, J.
se le llama probabilidad condicionada del suceso B, cuando el suceso A ha
ocurrido y se denota de la forma
P(B/A) = P(A n B)
P(A)
Definicion 7.1. ProbabiIidad condicionada.
Dados un espacio probabilfstico (E, .stJ., P) asociado a un experimento
aleatorio, y un suceso A E .stJ., tal que P(A) > O. Para cualquier suceso B
E .stJ., se define la probabilidad condicionada de B dado A 0 probabilidad
de B condicionada a A como sigue'
P(A nB)
P(B/A) = ~ / " , P(A) > 0 [7.7]
Se puede probar facilmente que la probabilidad condicionada cumple los tres
axiomas de Kolmogorov. En efecto:
AI.
P(A nB)
V B E .stJ., P(B/A) = P(A) ~ 0
pues el cociente entre dos cantidades no negativas es otra no ne­
gativa.
Ademas, como:
P(BnA)
BnAcA
= P(B nA) ~ P(A) = P(A) ~ 1
Luego:
o~ P(B/A) ~ 1
') All.
\
P(E/A) = 1
En efecto:
P(En A) _ P(A) = 1
P(E/A) = P(A) - P(A)
3 Observemos que si P(A) = 0, entonces no tiene sentido esta definici6n, pues Ia P(B/A) se
hace infinito. Esto se puede evitar haciendo una definici6n mas rigurosa (Wilks, pag, 25).
PROBABILIDAD
AlII. Sea {AJ una sucesi6n de sucesos disjuntos dos a dos, entonces
p(9 AjA) = ; ~ 1 P(AjA)
1
En efecto:
p(.0 AjA) = p[(9
1
A;)nA] _ p[.9 (A;nA)]
'-1 P(A) - ~ ' - - = 1 __~
P(A)
y como los sucesos Al n A; A
2
n A, ... son disjuntos dos ados se verifica que
P[91 (A;nA)]= ; ~ 1 P(A;nA)
y sustituyendo, resulta:
co
p(.u AjA) = f P(A; n A)
L P(AjA)
'=1 ;=1 P(A)
;=1
Este axioma tambien se verifica para el caso de que tengamos un mimero
finito de sucesos en sl,
Luego efectivamente se verifican los axiomas de Kolmogorov.
Partiendo de la definici6n de la probabilidad condicionada P(B/A), dada
por la expresi6n [7.7], podemos escribirla en forma de producto, llegando a
obtener la regIa de multiplicacion de probabilidades 0 probabilidad compuesta,
dada por:
P(A n B) = P(A)· P(B/A)
[7.8]
Analogamente, considerando la probabilidad condicionada P(A/B):
P(A nB)
P(A/ B) = P(B) , P(B) > 0
tendriamos que:
P(A n B) = P(B) . P(A/B)
[7.9J
de donde igualando las expresiones [7.8] y [7.9] tendremos:
P(A)·P(B/A) = P(B)·P(A/B) [7.10]
- - --
358
359
CASAS-sANcHEZ, J. M. Y SANTOS-PENAS, 1.
La definici6n de probabilidad condicionada dada por la expresi6n [7.7] se
puede extender a cualquier numero finito de sucesos del espacio muesjral, Asf
pues, para el caso de tres sucesos A, B Y C tendremos:
P(A n B n C) P(B n C) > °
P(AIB n C) = P(B n C) ,
o bien:
P(AnBn C)
P(A n BIC) = P(C) , P(C) > °
Ejemplo 7.4
Una entidad bancaria pretende introducir un sistema casi automatico de
concesi6n de prestamos para autoconsumo de importe maximo 10.000 euros,
y para ello analiza su fichero de los prestamos, de caracterfsticas parecidas,
que han sido concedidos en los ultimos alios llegando a obtener la siguiente
".
informaci6n:
- El 5 % de los prestamos que se concedieron en ese penodo presentaron
algun problema en el pago.
- El 70 % de las peticiones de prestamo que se habfan hecho en el
perfodo analizado, se informaron favorablemente, cuando no ha habido
incumplimiento de pagos segun se sabe en la actualidad, y se concedie­
ron de acuerdo con los baremos exigidos en aquella epoca por el banco.
En la actualidad el 80 % de las solicitudes de este tipo de prestamos
cumplen automaticamente las condiciones fijadas por el banco, informandose
favorablemente. Determinar la probabilidad de que estas peticiones que son
informadas favorablemente no presenten ningun problema en e1 momenta de
la cancelaci6n del prestamo.
Soluci6n:
Designemos los siguientes sucesos:
A: Suceso incumplimiento en el pago, P(A) = 0,05.
B: Suceso informe favorable de la solicitud, P(B) = 0,80.
B/A: Suceso informe favorable cuando no ha habido incumplimiento de •
pago, P(B/A) = 0,7.
AlB: Suceso cumplimiento en el pago cuando el informe ha sido favorable.
La probabilidad que se pide es: P(AIB), la cual se obtendra utilizando la
expresi6n:
pa)· P(BIA) = P(B)· P(AIB)
PROBABILIDAD
de donde se tiene que:
- ) = P(A). P(BIA) = 0,95·0,7 = 0,665 ~
P(AIB P(B) 0,8 0,8 - 0,83 .
Ejemplo 7.5
El duefio de una tienda de ropa para hombres ha observado el comporta­
miento de sus clientes durante un largo perfodo de tiempo. Como consecuencia
de ese perfodo de observaci6n afirma que la probabilidad de que un cliente
que entra a la tienda compre una camisa es 0,4, pero de los que compran una
camisa el 50 % compran tambien una corbata, y solamente un 10 % compran
la corbata cuando no han comprado la camisa. Obtener las probabilidades de
que los clientes compren 10 siguiente:
1. Una camisa y una corbata.
2. Una corbata.
3. Una camisa 0 una corbata.
4. Una corbata pero no una camisa.
Solucion:
Consideraremos los dos sucesos basicos:
C: Compra una camisa.
B: Compra una corbata.
Sabemos que
P(C) = 0,4
P(BIc) = 0,5
P(B/f) = 0,1
El espacio muestral para este experimento aleatorio sera:
E= {CnB, CnB, CnB, CnB}
Las probabilidades de los sucesos que nos piden son:
1. Probabilidad de comprar una camisa y una corbata:
P(C n B) = P(C). P(BIc) = 0,4·0,5 = 0,2
360
361
T
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
2. Probabilidad de eomprar una eorbata
P(B) = P[(C n B) u (C n B)] = P(C n B) + p(C n B) =
= 0,2 + 0,06 = 0,26
ya que
P(Cn B) = p(C)· P(B/C) = 0,6·0,1 = 0,06
3. Probabilidad de eomprar una eamisa 0 una eorbata
P(CuB) = P[(CnB)u(CnB)u(CnB)] =
= P(C n B) + P(C n B) + p(C n B) =
= 0,2 + 0,2 + 0,06 = 0,46
pues
P(CnB) = P(C)·P(B/C) = 0,4·0,5 = 0,2
o bien, direetamente
P(C u B) = P(C) + P(B) - P(Cn B) = 0,4 + 0,26 - 0,2 = 0,46
4. Probabilidad de eomprar una eorbata pero no una eamisa:
P(C n B) = P(C)· P(B/C) = 0,6·0,1 = 0,06
El eorrespondiente arbol de probabilidad seria:
B
CnB p(CnB)=0,2

1'\.0/ _ -. _____ LI -I
CnB P(CnB)=0,2
B
CnB p(CnB) =0,06 .
<,
_'1-\- -. __ •
p(e)
"'Q6
-------

::::0,9 Cnii P(Cn ii) =0,54
PROBABILIDAD
7.6.1. Teorema de la probabilidad compuesta
o producto
Sean n-sueesos AI' A
2,
..., An E sl, y tales que
pCo: A) >0
entonces se verifiea que:
P(A
I
n A
2
n ... nAn) =
= P(AI)·P(A2/AI)·P(A3/AI nA
2)·
... ·P(AjA
I
n ... nAn-I) [7.11]
Demostraci6n:
Veamos en primer lugar que las probabilidades eondicionadas que inter­
vienen estan definidas, para ello podemos eseribir:
Al n ... nA
n- 1
c: Al n ..· nA
n- 2
c: ... c: Al
y teniendo en euenta el Teorema 8.3, tendremos:
0< P(A
I
n .. · nAn-I)::::; P(A
I
n .. · nA
n- 2)::::;
... ::::; P(A
I)::::;
1
10 eual prueba que efeetivamente las probabilidades que intervienen en las
probabilidades eondieionadas de la expresi6n [7.11] estan bien defmidas, es
deeir, son mayores que cero las probabilidades de los sueesos que eondicionan.
Para demostrar la expresi6n [7.11], 10 haremos por reeurrencia, partiendo
del easo de dos sucesos AI' A
2
, sabemos que:
P(A = P(A
I
n A
2)
2/AI)
P(A
I
)
de donde:
P(A
I
n A
2)
= P(A
I)·
P(A
2/AI)
Analogamente, para tres sueesos tendremos:
P(A
I
n A
2
n A
3)
= P[(A
I
n A
2)
n A
3]
= P(A
I
n A
2)·
P(A
3/AI
n A
2)
= P(A
I)·
P(A
2/AI)·
P(A
3/AI
n A
2)
362 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
y en general se tiene:
P(A
1
n ... n AJ = P[(A
1
n nAn-I) n AJ
= P(A
1
n nAn-I)' P(A,jA
l
n ... nAn-I)
= P(A
1)·
P(A
2/A1)·
P(A
3/A1
n A
2
) · •••• P(A,jA
l
n ... nAn-I)
7.6.2. Teorema de la probabilidad total
Sean n-sucesos disjuntos, AI' A
2
, •••, An E st, con
P(AJ > 0, i = 1, 2, ..., n
y tales que forman un sistema completo de sucesos, es decir, que
AinA
j
= ep, i;f.j
n
U Ai=E
i= 1
Entonces para cualquier suceso BEst, cuyas probabilidades condi­
cionadas P(B/A;) son conocidas, se verifica que:
P(B) = L
n
P(AJ· P(B/A
i)
[7.12]
i= 1
Demostraci6n:
Sabemos que:
B = B n E = B n CQ1 Ai) = (B n AI) u (B n A2) u ... u (B n AJ=
n
U (B n Ai)' uni6n de sucesos disjuntos
i=l
luego
P(B) = P[Q1 (B n Ai)] = it1 P(AJ· P(B/Ai)
PROBABILIDAD
363
Ejemplo 7.6
Una empresa constructora dedicada a la construcci6n y venta de viviendas
en tres grandes municipios de Madrid M l' M2 Y M 3' vende en el municipio
M 1 el 60 % de las viviendas, en el municipio M 2 el 30 % y en el municipio M3
el 10 % de las viviendas construidas. De experiencias anteriores tanto de esta
empresa como de otras se sabe que un detenninado porcentaje de familias no
efectiian el pago de las letras mensuales que previamente habfan aceptado;:
siendo este porcentaje del 2 %, del 4 % y del 6 %, en cada municipio respec­
tivamente. Determinar la probabilidad de que una familia cualquiera pague
sus letras.
Soluci6n:
Sean los sucesos:
M
1
: la familia es del municipio M
1
M2: la familia es del municipio M2
M 3: la familia es del municipo M3
B: la familia paga las letras.
Del enunciado se deduce:
P(M1) = 0,6, P(M2) = 0,3, P(M3) = 0,1,
P(B/M
1)
= 0,02, P(B/M
2
) = 0,04, P(B/M
3
) = 0,06
y consecuentemente:
P(B/M1) = 0,98, P(B/M2) = 0,96, P(B/M3) = 0,94
II
II
t
1
I
I
l!
it
~ f
Podemos aplicar el teorema de la probabilidad total, pues los tres sucesos
forman un sistema completo de sucesos, ya que los tres sucesos son disjuntos,
pues cada familia que compra una vivienda es solo de uno de los tres muni­
cipios y la uni6n de los tres sucesos nos da el suceso segura E. Luego tendre­
mos que la probabilidad de que una familia cualquiera pague sus letras sent:
3
P(B) = L P(MJ. P(B/MJ=P(M1)' P(B/M1)+P(M2)' P(B/M2)+P(M3)' P(B/M
3
)
i=l
= 0,6·0,98 + 0,3·0,96 + 0,1· 0,94 = 0,97
364 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
7.6.3. Teorema de Bayes
Admitimos las mismas hip6tesis de partida del teorema de la proba­
bilidad total. Es decir, sean n-sucesos disjuntos A
1
, •••, An E d, con
P(A;) > °y tales que forman un sistema completo de sucesos, entonces
para cualquier suceso BEd, se verifica:
P(A;) . P(B/ AJ
P(AJB) =
n
[7.13]
L P(Ai)·P(B/A
i)
i=l
Demostraci6n:
Teniendo en cuenta las expresiones [7.8] y [7.9], tenemos que:
P(A; 11 B) = P(AJ·P(B/AJ = P(B)·P(AJB)
y de aquf deducimos que
P(AJB) = P(AJ·P(B/AJ
P(B)
y teniendo en cuenta el valor dado a P(B), en el teorema de la probabilidad
total [7.12], resulta:
P(A;)· P(B/AJ
P(AJB) =
n
L P(AJ·P(B/A;)
;=1
Examinando ambos teoremas se pone de manifiesto que el teorema de
Bayes, en cierto modo, responde a la inversa de como 10 hace el teorema de
la probabilidad total, pues en este ultimo se han realizado los sucesos Ai y
entonces hacemos inferencia sobre la realizaci6n del suceso B, sin embargo, en
el teorema de Bayes de la realizaci6n del suceso B inferimos sobrela realiza- '
ci6n de cada A;.
En ambos teoremas partimos de un sistema completo de sucesos A;, i = 1,
2, ..., n, los cuales pueden ser interpretados como bip6tesis, a sus probabilidades
P(AJ se les llama probabilidades a priori, ya que son las que se asignan
inicialmente a los sucesos Ai' y a las probabilidades P(B/AJ se les considera
como verosimilitudes del suceso B admitiendo la hip6tesis A;. Estas verosimi­
!
'I
PROBABILIDAD 365
litudes nos permiten modificar nuestro grado de creencia original, obteniendo
la probabilidad a posteriori P(AJB). En resumen, diremos que es muy corriente
llamar a las probabilidades que aparecen en la expresi6n [7.13] del teorema
de Bayes como sigue: .
P(AJ: Probabilidades a priori, se asignan inicialmente al suceso.
P(AJB): Probabilidades a posteriori.
P(B/A;): Verosimilitudes.
Podemos decir que el teorema de Bayes, ademas de ser una aplicaci6n de
las probabilidades condicionadas, es fundamental para el desarrollo de la
estadistica bayesiana, la cual utiliza la interpretaci6n subjetiva de la probabi­
lidad, es decir, considera que la probabilidad viene afectada por la experiencia
previa, la cual va a influir en nuestro grado de creencia y consecuentemente
en la probabilidad que Ie asignamos al suceso en cuesti6n, y esta serfa una
probabilidad subjetiva.
Ejemplo 7.7
Un banco analiza las fechas de los cheques que emiten sus clientes y llega
a la conclusi6n de que las personas que tienen fondos en su cuenta corriente
emiten cheques con fecha posterior, solamente en un 0,2 % de los casos. Sin
embargo, el 95 % de las personas que no tienen fondos en su cuenta corriente
emiten cheques con fecha posterior. Tambien se conoce que en general la
proporci6n de cheques que llegan ala ventanilla del banco y que tienen fondo
es del 92 %. En un determinado instante se recibeun cheque en caja con fecha
atrasada, determinar la probabilidad de que ese cheque sea de un cliente que
no tiene fondos en su cuenta.
Soluci6n:
A
1
: El cheque que se recibe es de un cliente sin fondos.
A : El cheque que se recibe es de un cliente con fondos.
z
B: El cheque que se recibe tiene fecha atrasada.
Del enunciado tenemos que:
P(A
1
) = 0,08; P(A
z
) = 0,92; P(B/A
1
) = 0,95; P(B/Az) = 0,002
Nos piden P(AdB) que sera segnn la expresi6n [8.12] del teorema de
Bayes:
P(A
1
) · P(B/A
1
)
P(AdB) = P(A ) . P(B/A ) + P(A
z
)' P(B/A
z
)
1 1
0,08· 0,95 ~ 0,98
0,08·0,95 + 0,92·0,002
366 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, 1.
7.7. Independencia de sucesos
En el apartado 7.6 defmiamos la probabilidad del suceso B condicionada
por el suceso A, P(B/A), Yconsiderabamos que la informaci6n que se tiene del
suceso A tiene algun efecto sobre la probabilidad del suceso B, de tal manera
que podremos decir:
Cuando P(B/A) > P(B) entonces el suceso A favorece al B, y
Cuando P(B/A) < P(B) entonces el suceso A desfavoreee al B.
Si admitimos que la ocurrencia del suceso A no tiene ningun efecto sobre
el suceso B, y consecuentemente la P(B/A) es igual ala probabilidad marginal,
P(B), es decir
P(B/A) = P(B)
entonces el suceso B es independiente del suceso A, surgiendo as! el concepto
de independencia estocastiea 0 independencia de sucesos.
Diremos que dos sucesos A y B son independientes si se
cualquiera de las siguientes condiciones equivalentes:
1. P(B/A) = P(B), si P(A) > O.
2. P(A/B) = P(A), si P(B) > O.
3. P(A n B) = P(A)· P(B).
Estas tres condiciones son equivalentes, en efecto:
P(AnB)
P(B/A) = P(A) , si P(A) > 0
si B es independiente de A,
P(B/A) = P(B) = P(A n B)
P(A)
de donde
P(A n B) = P(A)· P(B)
pero, tambien sabemos que
P(AnB) .
P(A/B) = P(B) , SI P(B) > 0
de donde
P(A n B) = P(B)· P(A/B)
verifica una
[7.14]
I
t
[7.15]
I
PROBABILIDAD 367
igualando las expresiones [7.14] y [7.15],
P(A)· P(B) = P(B)· P(A/B)
luego
P(A) = P(A/B)
y las tres condiciones son equivalentes.
Por tanto, podemos decir que si el suceso B es independiente del suceso
A, entonces el suceso A tambien es independiente del suceso B, 10 que equivale
a decir que ambos sucesos son mutuamente independientes.
La definici6n de independencia se puede extender a mas de dos sucesos.
As! pues, diremos que los sucesos A, B Y C son independientes si se verifican
las siguientes condiciones.
1. P(A n B) = P(A). P(B).
2. P(A n C) = P(A)· P(C).
3. P(B n C) = P(B)· P(C)
4. P(A n B n C) = P(A)· P(B)· P(C).
Las tres primeras condiciones indican la independencia dos a dos, y para
que sean los tres sucesos independientes en su conjunto 0 mutuamente fide­
pendientes se tiene que verificar tambien la cuarta condici6n.
En general, diremos que n-sucesos AI' A
2
, ..., An son mutuamente indepen­
dientes, 0 en su conjunto, si se verifican para

las siguientes condiciones:
P(A
i
n A
j
) = P(A
i
) · P(A)
P(A; n A
j
n A
k
) = P(AJ' P(A
j
) . P(A
k
)
P(A
1
n A
2
n .. , nAn) = P(A
I)·
P(A
2
) · ... • P(AJ
El mimero de condiciones seran:
2
n
(;) + G) + ... + (:) = - n - 1
368 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
PROBABILIDAD 369
ya que del binomio de Newton tenemos:
2" = (1 + i)" = ±(n)
x=o x
= ( ~ ) + G) + xtz (:)
= 1 + n + ±(n)
x=z x
Si solo se verifican las G) primeras condiciones entonces diremos que son
independientes dos ados.
Ejemplo 7.8
En una gran ciudad se venden tres periodicos, y se sabe por diferentes
estudios que el 20 % leen el peri6dico A, el 30 % el periodico B, el 40 % el
peri6dico C, el 6 % leen el A y el B, el 7 % leen el Bye y el 12 % leen el A
y C. Decir si son independientes los sucesos «leer cada uno de los periodicos»,
Soluci6n:
Sean los sucesos:
A: Leer el periodico A.
B: Leer el periodico B.
C: Leer el periodico C.
Las respectivas probabilidades son:
P(A) = 0,2, P(B) = 0,3, P(C) = 0,4
P(A n B) = 0,06, P(B n C) = 0,Q7, P(A n C) = 0,12
P(A n B) 0,06 "
P(A/B) = ( = - = 0,2 = P(A) => A Y B independientes
P B) 0,3
P(A n C) 0,12 . .
P(A/C) = ( = - = 0,3 ¥= P(A) => A Y C no independientes
PC) 0,4
P(B n C) 0,07 . \.
P(B/C) = P(C) = 0,4 = 0,175 ¥= P(B) => By C no independientes
Una consecuencia inmediata de la definicion de independencia de sucesos
la podemos dar mediante el siguiente teorema.
Teorema 7.9
Si A YB son dos sucesos independientes entonces tambien 10 son los
sucesos
A y B, A YB yAy B
Demostraci6n:
Si A Y B son independientes entonces se verifica que
P(A/B) = P(A)
P(B/A) = P(B)
P(A n B) = P(A)· P(B)
y tendremos:
P(A/B) = 1 - P(A/B) = 1 - P(A) = P(A) => A y B independientes
P(B/A) = 1 - P(B/A) = 1 - P(B) = P(B) => A y B independientes
- - P(A n B) P(AuB) 1 - P(A U B)
P(A/B) = P(B) = P(B) = P(B)
1 - [P(A) + P(B) - P(A n B)] =
P(B)
1 - P(A) - P(B) + P(A)· P(B) =
P(B)
[1 - P(A)] [1 - P(B)] =
P(B)
= p(:4). P(B) = P(A) => A y B independientes
P(B)

1. En una divisi6n empresarial trabajan 18 hombres y 12 mujeres. Se selec­
cionan 3 persona al azar y con igual probabilidad para cada trabajador. Hallar
la probabilidad de que todas las personas seleccionadas sean mujeres.
Soluci6n:
Sean los sucesos: S;: ser mujer la seleccionada en la i-esima extracci6n,
i = 1, 2, 3.
3
El suceso cuya probabilidad nos piden es: nS;.
;=1
Aplicando la regIa del producto:
3 . 12 11 10 _ 44 _
pen S) = P(S1)P(S21 S1)P(S31S1 11 S2) = 30' 29' 28 - 812 - 203'
Hemos aplicado la regIa de Laplace para el calculo de cada probabilidad,
de S1' (S21 S1) y (S31 S1 11 S2)'
El suceso (S21 S1)indica que en la segunda selecci6n se obtiene a una mujer,
siempre que en la primera selecci6n se obtuvo otra mujer que no podra ser
seleccionada en sucesivas extracciones. El suceso (S31S1 11 S2) indica que se
selecciona una mujer, supuesto que previamente se seleccionaron otras dos que
no podran volver a ser seleccionadas en la tercera extracci6n.
2. En un pedido de 10 electrodomesticos se sabe que uno de ellos esta
defectuoso de fabrica. En un dfa se venden 3 de ellos. Calcular la probabilidad
de que se vendan tres en buen estado.
Soluci6n:
Sean los sucesos: B;: el i-esimo electrodomestico vendido esta en Buen
estado, i = 1, 2, 3.
El suceso cuya probabilidad nos piden es B
1
11 B
2
11 B
3.
1
I
I,
.1
PROBABILIDAD 371
Razonando de modo similar al ejercicio anterior,
3 ) 9 8 7
P D1B; =P(B1)P(B2IB1)P(B3IB1I1B2)=1O·9·S=0,7.
(
3. Un lote de 5 piezas tiene una defectuosa. En el envfo dellote de la fabrica
al comerciante, se pierde una de las 5 piezas en el transporte. De las cuatro
piezas que llegan se examina una de elIas y resulta ser no defectuosa. "Cual
es la probabilidad de que la pieza perdida sea la defectuosa?
Solucion:
De fabrica hay 4 buenas y 1 defectuosa.
Se pierde una en el transporte, con 10 que pueden llegar:
A
1
== 4 buenas, con probabilidad 1/5,
P(A
1
) = 1/5.
A
2
== 3 buenas y 1 defectuosa, con probabilidad 4/5,
P(A
2
) = 4/5.
Se selecciona una pieza de A
1
0 A
2
Y resulta ser buena (Suceso que
llamamos B). La pro babilidad pedida es:
P(A
1IB).
Es decir, si la seleccionada al final es buena, la probabilidad del suceso A 1
es la de que haya al final 4 buenas y por ello la 5." perdida era defectuosa.
A y A son dos sucesos mutuamente excluyentes y exhaustivos. Por ello
1 2
podemos aplicar la f6rmula de Bayes con n = 2,
P(A
1)
P(BIA
1)
P(A
1I
B)
= P(A
1)
P(BIA
1)
+ P(A
2)
P(BIA
2)
1/5 ·1

1/5· 1 + 4/5·3/4 1/5 + 3/5 4
Podemos deducir tam bien que:
1 3
P(A
2
1B) = 1 - P(A 11B) = 1 - 4= 4'
372 CASAS-sANCHEZ, 1. M. Y SANTOS-PEl'TAS, J.
es decir, si la pieza examinada dellote que se recibe es buena, la probabilidad
de que se haya perdido en el transporte una pieza buena, es 3/4.
4. Una empresa dispone de tres factorfas que producen 1.000, 2.000 y 4.000
productos respectivamente. La proporci6n de productos que no superan el
control de calidad es de 0,01; 0,02 y 0,03 respectivamene.
Calcular: .
a) La probabilidad de que un producto de la empresa no supere el control
de calidad.
b) Si se observa un producto y supera el control de calidad, l.cmil es la
probabilidad de que haya sido fabricado en la 3.
a
factorfa?
Soluci6n:
a) Cualquier producto ha sido fabricado en la La, 2.
a
0 r factorfa y s610
en una de elias. Llamamos F l' F2 Y F 3 al suceso «El producto ha sido
fabricado en la P, 2.
a
6 3.
a
factorfa respectivamente».
Llamamos C at suceso «supera el control de calidad de la empresa» y C sera
su complementario.
Por el teorema de la probabilidad total,
p(C) = P(F
1)P(CIF1
) + P(F
2)P(CIF2
) + P(F
3)P(CIF3
) =
1.000 2.000 4.000
= 7.000' 0,Q1 + 7.000. 0,02 + 7.000.
0,03
=
1 4 12 17
=-+-+-=­
700 700 700 700
4
b) P(F31C)=P(F3)P(CIF3)=P(F3)[I-P(CIF3)] 7 (1-0,03)
P(C) 1 - P(C) = 17
1-­
700
4
7.
0
,97 388

700
Aplicando la definici6n de probabilidad condicionada, y usando la propie­
dad P(S) = 1 - P(S), Yel apartado a) de este mismo ejercicio.
PROBABILIDAD 373
5. En una exposici6n nautica se han presentado 30 embarcaciones de recreo
y 38 de tipo industrial, pesquero 0 de servicios (policfa, Cruz Roja, etc.), Un
visitante ha hecho un pedido de 2 embarcaciones distintas, entre las expuestas.
Sabiendo que cada embarcaci6n tiene la misma probabilidad de que se ad­
quiera, y ademas que una de la 2 embarcaciones pedidas es de recreo, calcular
la probabilidad de que la otra tambien sea de recreo.
Soluci6n:
Llamamos R; al suceso consistenteen pedir una embarcaci6n de recreo en
i-esimo lugar, sin reemplazo de otra similar a la exposici6n antes del siguiente
pedido unitario «i + 1».
Nos piden la probabilidad del suceso:
29
P(R
2IR1
) = 67 (por la regia de Laplace),
o bien por la definici6n de probabilidad condicionada
P(R,IR,) p(R, "R,) C,.., /c..., I _
P(R1) C
3 0
, 1 / C
6 8
, 1 Ct
O
) / (6
18)
­
30· 29/68.67
2 2 29
30/68 = 67'
6. En un pals, la probabilidad de que una empresa industrial contamine, si
hay ley ecol6gica, es de 0,01. La probabilidad de que se promulgue una ley
ecol6gica es 0,5, y la probabilidad de que una empresa industrial contamine
es 0,1. Calcular:
a) La probabilidad de que la empresa no contamine y haya ley ecol6gica.
b) La probabilidad de que contaminando la empresa, haya ley ecol6gica.
A
c) La probabilidad de que no habiendo ley ecol6gica, la empresa no
t contamine.
d) La probabilidad de que habiendo ley ecologica, la empresa no conta­

mine.
f
374 CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J. PROBABILIDAD 375
Soluci6n:
Llamamos L al suceso «se promulga ley ecologica», y C al suceso «la
empresa contamina», Datos del problema:
P(CIL) = 0,01 ; P(L)=0,5 ; P(C) = 0,1
a) p(C 11 L) = P(L) P(CIL) = 0,5· [1 - P(CjL)] = 0,5· [1 - O,OlJ =
= 0,5· 0,99 = 0,495
P(L 11 C) P(L) - P(C 11 L) 0,5 - 0,495 0,005 1
b) P(LIc)- - - -­
P(C) P(C) 0,1 0,1 20
- - P(C ilL) 0,405 0,405 0,405 405 81
c) P(CIL) = P(L) = 1 - P(L) = 1 - 0,5 = o:s = 500 = 100 = 0,81
Puesto que:
1 - P(C) = P(C) = P(CI1L) + P(CI1L) = 0,495 + P(CI1L) =>
=> p(C 11 L) = 0,9 - 0,495 = 0,405.
d) P(CIL) = P(CI1L) = 0,495 _ 495 99
0,5 - 500 = 100 = 0,99.
De este ejemplo te6rico se deduce que de no haber ley eco16gica a haberla,
la probabilidad de que la empresa no contamine aumenta del 81 % (aparta­
do c)) al 99 % (apartado d)).
7. Una estantena del jefe de contabilidad de una empresa tiene 10 libros de
facturaci6n de bienes de consumo familiar y 11 libros de facturas de bienes de
servicios y maquinaria para otras empresas. AI pasar el servicio de limpiezas
deja en desorden esta c1asificaci6n. El jefe de contabilidad, al consultar un libro
de facturas del primer grupo de 10 observa que esta mal c1asificado pues
corresponde al segundo grupo. l.eua! es la probabilidad de que sea el unico
libro mal c1asificado del primer grupo de 10 libros?
Solucion:
Si llamamos A
1
al suceso «el primer grupo tiene un solo libro mal c1asifi­
cado» y B al suceso «al extraer un libro del primer grupo, el libro esta mal
clasificado», la probabilidad pedida es:
P(A 1B) = P(A 1 11 B) = P(A 1) P(B IA 1)
1
P(B) 10
I P(A
i)
P(B IA.)
i=O J
llamando Ai al suceso «el primer grupo tiene i libros mal clasificados»,
i = 0, 1, 2, ..., 10. {A
i
}f2
0
es una colecci6n de sucesos mutuamente exc1uyentes
y exhaustiva, por 10 que aplicamos el teorema de la probabilidad total:
P(B) = P(A;) P(B IAi) = (ya que P(B lAo) = 0)
-i) i
- I
10

- i=1 10
y
P(A = P(Ai)P(BIA.) = i) i
iI1B)
, '10
Luego aplicando el teorema de Bayes tenemos:
(\1)C9
0
) 1
21) '10
(
P(A
1)P(B
I A
1
) 10
P(A 1 1B) = P(B) = ----,(;-:-"11-?-)----;(:----:--:1O::---7")­
10 i 10 - i
I .
i=1
10
C
1
1)C9
0
)
110
1.847.560 0,000059
10 (11)( 10 )
i 10 - ii
8. Un editor cuenta con dos procesadores de texto, A y B. Las probabilida­
des de que fallen son la misma, P, para A y B, pero el procesador A admite
un fallo, mientras que B admite dos fallos antes de averiarse. l.Que probabili­
dad tiene el suceso «A se avena antes que B»? Determinarla si P = 0,05.

".]'j
'1.
1
376 CASAS-sANCHEZ, J. M. y SANTOS-PEf.lAS, 1. PROBABILIDAD 377
Soluci6n:
Sean FAY FBIos sucesos «falla A» y «falla B dos veces». Sus probabilidades
son:
P(F
A)
= P y P(F
B
) = p
2
,
respectivamente. El suceso cuya probabilidad se pide es: FAn F
B

P(FAn FB) = P(FA) - P(FAn FB) = P - P(FA)P(FB)
donde hemos supuesto la independencia de los sucesos FAY FB' Yde aquf:
P(FAnF
B
) = P - p.p
2
= P - p
3
=
= P(l - p
2
) = 0,049875 (si P = 0,05)
9. Una publicidad sobre cierto producto consta de 10 paginas con precios.
Antes de proceder a su reproducci6n impresa, un experto en marketing ha
detectado un error tipografico en el precio de un accesorio del producto,
ademas de que asegura que es el unico error. Un empleado descuid6 anotar
d6nde estaba el error por 10 que debe revisar las paginas, Si ha revisado 2
paginas y no tienen error, j,cual es la probabilidad de que el error este en una
3.
a
pagina?
Soluci6n:
Llamamos E al suceso «el error esta en la 3.
a
pagina que revisa» P(E) = 8
1
(aplicando la regla de Laplace).
, Como suceso condicionado, sea D el suceso «no hay error en las dos
paginas revisadas», y asf la probabilidad pedida es:
9 8 1
P(E ID) = P(E n D) = 10' 9.8_ 1
P(D) ~ . ~ - 8'
10 9
ya que D = D
1
n D
2
siendo D, =: «no hay error en la i-esima pagina revisada»
(i = 1, 2). Por ello:
9 8 1
P(E n D) = P(E n D
1
n D
2)
= P(D
1)
P(D
2ID1)P(EID1n D2) = 10'9'8 = 10
y
9 8 8
P(D) = P(D1n D2) = P(D1)P(D2ID 1)= 10'9 = 10'
10. Un tetraedro regular tiene 4 caras (triangulos equilateros) numeradas
con los mimeros 1, 2, 3 y 4 respectivamente. Se lanza at aire y se observa la
cara inferior (base) al detenerse. El tetraedro esta bien construido y por ello
la probabilidad de cada cara es la mismagSon independientes en probabilidad
los sucesos S1 = {I 0 2}, S2 = {I 0 3} y S3 = {2 0 3}?
Soluci6n:
1 1 1
P(S1 n S2) = P({l}) = 4= 2'2 = P(S1)P(S2)
P(S1 n S3) = 4
1
= P(S1)P(S3)
P(S2n S3) = 4
1
= P(S2)P(S3)
pero:
1 1 1 1
P(S1 n S2 n S3) = P(¢) = °'# 8= 2'2'2 = P(S1)P(S2)P(S3)
Luego son sucesos (S1' S2 y S3) estocasticamente dependientes 0 dependientes
en probabilidad. Aunque, eso sf, son independientes dos ados.
11. Una empresa distribuye productos agrfcolas, ganaderos y pesqueros,
para la alimentaci6n. Su calidad puede ser de primera 0 no. Las probabilidades
de que un articulo agrario, ganadero 0 pesquero, sea de primera calidad, son
respectivamente 0,6, 0,5 y 0,7. Las proporciones de productos agrfcolas, gana­
deros y pesqueros son del 45 %, 35 % y 20 %, respectivamente.
378
379
CASAS-sANCHEZ, J. M. y SANTOS-PENAS, J.
Se pide:
a) La probabilidad de que un producto de primera calidad de la empresa,
sea agrario.
b) Idem, sea ganadero.
e) Idem, sea pesquero.
Soluci6n:
Sean los sucesos A, GyP (productos Agrarios, Ganaderos y Pesqueros).
Sea I el suceso «el producto es de primera calidad».
Sabemos que:
P(I IA) = 0,6} P(A) = 0,45}
P(II G) = 0,5 P(G) = 0,35
P(IIP) = 0,7 P(P) = 0,2
Ademas A, GyP constituyen una colecci6n de sucesos mutuamente
excluyentes y exhaustiva. Por todo ella, aplicando el teorema de Bayes,
tenemos:
P(A) P(I IA) 0,45·0,6 0,27 270 54 18 6
a) P(A II) = P(I) = 0,585 = 0,585 = 585 = 117 = 39 = 13'
P(I) = P(A)P(IIA) + P(G)P(IIG) + P(P)P(IIP) =
= 0,45·0,6 + 0,35·0,5 + 0,2·0,7 = 0,27 + 0,175 + 0,14 = 0,585
P(G)P(I IG) 0,175 35
b) P(G II) = P(I) = 0,585 = 117
P(P)P(II P) 0,14 140 28
e) P(P II) = P(I) = 0,585 = 585 = 117
o tambien podia calcularse asf:
54 35 28
P(P II) = 1 - P(A II) - P(G II) = 1 - ill - 117 = ill
dado que P u AuG es el suceso universal, y los sucesos P, A YG son disjuntos
dos ados.
PROBABILIDAD
12. En un taller hay 3 maquinas 1a primera se avena al mes con probabi­
lidad 0,04, la segunda con 0,06, y 1a tercera con 0,1. Sus averfas son indepen­
dientes en probabilidad. Se pide:
a) Probabilidad de que se averfe una sola maquina en e1 meso
b) Probabilidad de que se averfen las tres maquinas,
e) Probabi1idad de que se averfen 1a primera y segunda, pero no la
tercera.
Soluci6n:
Teniendo en cuenta que si los sucesos I, II y III son independientes en
probabilidad, tambien 10 son cua1quier combinaci6n de ellos 0 sus comple­
mentarios tomados de 3 en 3. (Vease el ejercicio 15).
a) E1 suceso a calcular su probabilidad, es:
A = (I f) II f) III) u (i f) II f) III) u (i f) II f) III)
donde representamos por I, II 0 III a los sucesos se avena 1a maquina
primera, segunda 0 tercera, respectivamente.
P(A) = P(I f) II f) III) + p(i f) II f) III) + p(i f) II f) III) =
= P(I) P(II) P(II I) + p(i) P(II) P(III) + p(i) P(II) P(III) =
= 0,04·0,94·0,9 + 0,96·0,06·0,9 + 0,96·0,94·0,1 =
= 0,03384 + 0,05184 + 0,09024 = 0,17592
b) P(I f) II f) III) = P(I) P(II) P(III) = 0,04·0,06·0,1 = 0,00024
e) P(I f) II f) III) = P(I) P(II) P(III) = 0,04·0,06·0,9 = 0,00216
13. De un producto de consumo basico ofrecido por una empresa, se sabe
que 1a probabilidad de satisfacer las exigencias del posible cliente es 0,901, la
de que un cliente vue1vaa serlo es 0,91, y la probabilidad de satisfacer a1 cliente
si este ha vuelto a serlo (cliente), es de 0,99. Se pide:
a) La probabilidad de que habiendo satisfecho al cliente, este vue1va a
serlo (cliente).
b) La probabilidad de que no habiendo satisfecho a1 cliente, este vuelva
a ser cliente.
- - -
380 CASAS-sANCHEZ, J. M. Y SANTOS-PENAS, 1.
Soluci6n:
Llamamos S al suceso «cliente satisfecho» y Val suceso «vuelve a adquirir
el producto».
P(v)P(SIv) _ 0,91· 0,99 ~ 0,999889.
a) P(V1s) = P(S) - 0,901
- P(v)P(SIv) = 0,91· 0,01 ~ 0,0919191.
b) P(V1s) = P(s) 0,099
La satisfacci6n del cliente practicamente asegura que vuelva a ser cliente,
mientras que si no se Ie satisface no vuelve a serlo (cliente) en mas del 90 %
de los casos.
14. Probar, que si los sucesos A y B son independientes en probabilidad,
tambien 10 son:
a) A y B.
b) A y B.
e) A y B.
Soluci6n:
A y B son independientes si y s610 si P(A n B) = P(A) P(B).
a) A y B son independientes si y s610 si verifican
P(A n B) = P(A) P(B).
Como B = (A n B) u (A n B), uni6n de sucesos disjuntos. Luego
P(B) = P(AnB) + P(AnB) =>
P(A n B) = P(B) - P(A n B) = P(B) - P(A) P(B) =
= [1 - P(A)] P(B) = P(A) P(B),
al ser A y B independientes en probabilidad.
PROBABILIDAD 381
b) A y B independientes => B Y A independientes ~ B Y A inde­
pendientes => A y B independientes.
e) A y B independientes ~ A y B independientes ~ A y B inde­
pendientes.
15. Probar, que si los sucesos A, B y C son independientes en probabilidad,
tambien 10 son:
a) A, B Y C.
b) A, B Y C.
e) A, B Y C.
d) Ay Bn C.
e) A y BuC.
f) A y BAC.
g) A y B - C.
h) A y C - B.
Soluei6n:
A y B independientes
. . A y C independientes
a) A, B Y C independientes ¢> • d di
B Y C 10 epen entes
{
y ademas: P(A n B n C) = P(A) P(B) P(C).
Por el ejercicio 14, entonces: A y B independientes
A y C independientes
B y C independientes y ademas:
B n C = (A n B n C) u (A n B n C),
382 CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.
uni6n disjunta, por 10 que de la axiomatica de Kolmogorov (axioma III),
P(B n C) = P(A n B n C) + p(1i.n B n C) ~
P(A n B n C) = P(B n C) - P(A n B n C) = P(B) P(C) - P(A) P(B) P(C) =
= [1 - P(A)J P(B) P(C) = P(A) P(B) P(C),
por 10 que A, B Y C son independientes en probabilidad.
b) A, Bye independientes :;. A, B Y C independientes ~ B, A
y C independientes :;. B, Aye independientes ~ A,· Bye indepen­
dientes.
c) A, Bye independientes ::; A, Bye independientes ~ C, A
y B independientes :;. C, A y B independientes ~ A, Bye
independientes.
d) PEA n (B n C)J = P(A)· [P(B) P(C)J = P(A)· P(B n C).
e) PEA n (B u C)J = P[(A n B) u (A n C)J =
= P(A n B) + P(A n C) - P(A n B n C) =
= P(A)P(B) + P(A)P(C) - P(A) P(B) P(C) =
= P(A) [P(B) + P(C) - P(B)P(C)J = P(A)[P(B) + P(C) - P(B n C)J =
= P(A) P(B u C).
f) PEA n (BLl C)J = P{A n [(B n C) u (B n C)J} =
= P[(A n B n C) u (A n B n C)J =
= P(A n B n C) + P(A n B n C) = P(A) P(B) P(C) + P(A) P(B) P(C) =
= P(A)[P(B) P(C) + p(ii) P(C)J = P(A)· P[(B n C) u (B n C)J =
= P(A) P(B Ll C).
g) PEA n (B - C)] = P(A n B n C) = P(A)P(B n C) = P(A)P(B - C).
h) A, Bye independientes ~ A, C YB independientes ~ Aye - B
independientes.
PROBABILIDAD 383
16. Un sistema de seguridad tiene una probabilidad 0,05 de que se produzca
un peligro al dia. La probabilidad de que se active el sistema un dfa, habiendo
peligro es de 0,99. La probabilidad de que se active el sistema un dfa, no
habiendo peligro es del 0,02. Calcular:
a) La probabilidad de que habiendose activado el sistema de seguridad,
haya efectivamente peligro.
b) La probabilidad de que haya peligro pero no se active el sistema.
Solucion:
Llamamos: P al suceso «se produce peligro» un dia,
A al suceso «se activa el sistema de seguridad».
Datos: P(P) = 0,05
f(A If) = 0,99
P(A IP) = 0,02
P(P) P(AIP) 0,0495 495 99
a) P(P IA) = P(A) = 0,0685 = 685 = 137 ~ 0,7226277.
P Y P son una coleccci6n de sucesos mutuamente excluyentes y ex­
haustivos por 10 que podemos hacer uso del Teorema de la Probabi­
lidad Total:
P(A) = P(P) P(AIP) + p(P) P(A(P) = 0,05·0,99 + 0,95·0,02 =
= 0,0495 + 0,019 = 0,0685
b) P(P n A) = P(P) P(AIP) = P(P) [1 - P(AIP)] = 0,05(1 - 0,99) =
= 0,Q5· 0,Q1 = 0,0005
Bibliografia
ARANDA, 1., G6MEZ, J.: Introducci6n a la Estadistica Econ6mica y Empresarial.
DM PPU, 1992.
ARNAIZ, G.: Introducci6n a la Estadistica Te6rica. Lex Nova, 1986.
BARO, S.: Estadistica Descriptiva. Parram6n, 1985.
CALOT, G.: Curso de Estadistica Descriptiva. Paraninfo, 1982.
CASA ARUTA, E.: 200 Problemas de Estadistica Descriptiva. Vicens Vives, 1990.
CASAS, J., CALLEALTA, J., NuNEZ, J., TOLEDO, 1, URENA, C: Curso Bdsico de
Estadtstica Descriptiva. Instituto Nacional de Administraci6n Publica,'
1986.
CASAS, J., SANTOS, J.: Introducci6n a la Estadtstica para Economia y Adminis­
tracion de Empresas. Ed. Centro de Estudios Ram6n Areces, 1996.
COQUILLAT, F.: Estadistica Descriptiva: Metodoloqta y Cdlculo. Tebar Flores,
1991.
DuRA, J. M.; L6PEZ, J. M.: Fundamentos de Estadtstica. Ariel, 1988.
ESCUDER, R.: Introducci6n a la Estadistica Econ6mica. Tebar Flores, 1986.
FREMANO, L.: Elementos de Estadtstica Aplicada. Euramerica, 1971.
INE: Metodoloqia. fndice de Precios de Consumo. Base, 1992.
KAZMIER-DfAZ, M.: Estadistica Aplicada en Administraci6n y Economia.
McGraw Hill, 1992.
L6BEZ URQufA, J.: Estadtstica lntermedia: Descriptiva, Probabilidades y Te6­
rica, Muestreo, Actuarial. Vicens-Vives, 1989.
MONTIEL, A, RIus, F., BAR6N, F.: Elementos Basicos de Estadistica Econ6mica
y Empresarial, Prentice Hall, 1997.
PENA, D., ROMO, S. Introducci6n a la Estadistica para las Ciencias Sociales,
McGraw-Hill, 1997.
386 BIBLIOGRAFfA
PEREZ SUAREZ, R.: Andlisis de Datos Eeon6mieos I. Metodos Deseriptivos.
Piramide, 1993.
PULIDO, A., SANTOS, 1..: Estadistica Aplieada para ordenadores personales.
Piramide, 1998.
SIERRA BRAVO, R.: Ciencias Sociales: Andlisis Estadistico y Modelos Matema­
ticos. Paraninfo, 1981.
URIEL, E., MuNlZ, M.: Estadistica Eeon6miea y Empresarial. AC, 1988.
WONNACOTI, T.: Fundamentos de Estadistica para Administraci6n y Economia.
Limusa, 1981.
LmROS DE EJERCICIOS
BARO, J.: Estadistica Deseriptiva. Aplieaeiones Economico-Empresariales. Parra­
mon, 1985.
CASA ARUTA, E.: 200 Problemas de Estadistica Descriptiva. Vicens-Vives, 1979.
CASAS, J. M., GARdA, C., RIVERA, L. F., ZAMORA, A. I.: Problemas de Es­
tadistica Deseriptiva. Probabilidad e Inferencia.
FERNANDEZ, C, FUENTES, F.: Curso de Estadtstica Descriptiva, Te6rieo y Prac­
tiea. Ariel, 1995.
GARCiA BARBANCHO, A.: Ejercieios de Estadistica Descriptiva para Eeonomis­
tas. Ariel, 1975.
LOPEZ ORTEGA, J.: Problemas de Estadtstica para Ciencias Economicas y Em­
presariales: Cdlculo de Probabilidades. Tebar, 1994.
Mu1Iioz VAzQUEZ, A. y otros: Problemas de Estadistica Descriptiva, 1992.
MURGUI, J. S., AYBAR, C, y otros: Estadistica para Economta y Administracion
de Empresas: Aplieaciones y Ejercicios. Puchades, 1992.

Primer a edici6n: julio 1999 Segunda edici6n: julio 2002

A nuestras [amilias

Reservados todos los dereehos. Ni la totalidad ni parte de este libro puede reproducirse 0 transmitirse por ningtin proeedirniento eleetr6nieo 0 me­ cameo, incluyendo fotoeopia, grabaci6n magnetica, 0 eualquier almaeenamiento de informaci6n y sistema de reeuperaei6n, sin permiso eserito de Editorial Centro de Estudios Ram6n Areces, S. A.

© EDITORIAL CENTRO DE ESTUDIOS RAMON ARECES, S. A.
Tomas Bret6n, 21. 28045 Madrid. ISBN: 84-8004-522-1 Dep6sito legal: M. 31.204-2002 Compuesto e irnpreso por Fernandez Ciudad, S. L. Catalina Suarez, 19. 28007 Madrid Impreso en Espana / Printed in Spain

':,

'I'
~

. I
I

• I;

1\

I

;

Indice

PR6LOGO CAPfTULO 1. EL METODO ESTADfSTICO EN LA INTERPRE­ TACI6N DE LOS HECHOS ECON6MICOS 1.1. Las ramas de la Estadfstica y sus metodos cientificos 1.2. La Estadfstica Descriptiva y el estudio de los hechos econ6­ micos .. 1.3. EI Calculo de Probabilidades como herramienta matematica de Inferencia Estadfstica. La Estadfstica Moderna 1.4. La Inferencia Estadfstica como metoda de estudio de los he­ '...................... chos econ6micos CAPfTULO 2. DISTRIBUCIONES DE FRECUENCIAS UNIDI­ MENSIONALES 2.1. Introducci6n 2.2. Conceptos fundamentales 2.3. Tareas a desarrollar en las grandes etapas de la investigaci6n estadfstica . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . 2.4. Construcci6n numerica y grafica de las distribuciones de fre­ cuencias unidimensionales 2.4.1. Distribuciones de frecuencias unidimensionales con los datos no agrupados 2.4.2. Distribuciones de frecuencias unidimensionales con los ,datos agrupados en intervalos de clases 2.4.3. Representaciones graficas para distribuciones de fre­ cuencias de datos cualitativos

11 13 13 15 17 18

21 21 22 24 33 34 43 47

3. 6.7.5. 3.1. 5.10...1.. Tablas de correlaci6n .5.4. Deflactaci6n de series econ6micas 4.5. Medidas de dispersi6n ... 297 298 299 303 305 313 315 . 2..5.8. 4. Otras medidas de posici6n no centrales: los cuantiles . CASAS-sANCHEZ.8 2. Tabulaci6n de variables estadfsticas bidimensionales: distribu­ ciones bidimensionales de frecuencias .5. La media aritmetica . 3.12... Repercusi6n y participaci6n en las variaciones de un Indice ..4. 2.11..5.1.. MENSIONALES 50 61 62 70 73 77 84 90 95 97 102 104 109 121 121 122 122 135 138 145 145 151 160 160 171 179 184 188 201 3.2. 2.2.1. 2. fndices complejos de precios ponderados 4.2.. 2. 2. 6. La moda .4. Ajustede un plano por el metoda mfnimo-cuadratico 3.5. CAPfTULO 4.6. 2. .. DISTRIBUCIONES DE FRECUENCIAS BIDI­ . fndices de valor 4. CAPfTULO 3.. FEN6MENOS ALEATORIOS Y SUCESOS Introducci6n Fen6menos aleatorios Espacio muestral Sucesos Operaciones con sucesos 6.8. . 6. Enlace de series. 4. . fndices en cadena 4. . Otros indices 0 indicadores de coyuntura elaborados Ejercicios CAPfTULO 5. Determinaci6n de las variaciones ciclicas Ejercicios CAPfTULO 6.4.. 5. La regresi6n lineal simple .6.. Introducci6n . Cambio de base en una misma serie de nnmeros indices 4. Propiedades que cumplen los indices complejos y ponderados de precios y cantidades 4. Indices de cantidades 0 cuanticos 4.... Medidas de concentraci6n .2..2..12. J.2.14. 3... 4..... Ejercicios ..4..5. Momentos \ .1. .2. ESTUDIO CLAsICO 0 DESCRIPTIVO DE LAS SERIES TEMPORALES 261 261 261 267 280 288 290 297 5. Dependencia funcional y dependencia estadtstica . Determinaci6n de la tendencia 5..1. Introducci6n Clasificaci6n de los numeros indices Propiedades de los mimeros indices Indices de precios 201 202 203 204 6.9. .2. La media arm6nica . 4. Regresi6n y correlaci6n lineal multiple .6.. .4. fndices simples de precios 4.. Caracteristicas principales 4.5. 4.6.5. 3. 2. 3. Sucesiones de sucesos 4.... fNDICE 9 205 206 208 212 216 217 218 222 224 226 226 227 229 230 240 242 247 249 251 Representaciones graficas para distribuciones de fre­ cuencias de datos cuantitativos.. . Estudio de la asociaci6n entre variables cualitativas .2.. La media geometrica . Medidas de asimetria y curtosis . 3. La mediana . Correlaci6n lineal simple . 2..5.3.11..7.1.3.13.1.. ... lndices de valor y deflactaci6n de series econ6micas 4.3. Determinaci6n de las variaciones estacionales 5..4. 2. Coeficientes de enlace 4. Renovaci6n y enlace de series de numeros indices con distintas bases 4. 3.3. Propiedades de las operaciones con sucesos 6..9. .1..12. Ejercicios . ... Introducci6n.2.2.3. .7.5. Ajuste de un hiperplano mediante la utilizaci6n del algebra matricial .. 3.3.5. Medidas de posici6n ...4.. 6. 3.. Ajustes no lineales por minimos cuadrados .1..1.5. y SANTOS-PE:NAS.11.' . 2.4.4. fndice de precios de consumo (IPC) 4. NOMEROS fNDICES . fndice de precios de consumo armonizado (IPCA) 4.. Tablas de contingencia .1..2... 3. '.6. 3.12. M.4..2.4.1. Regresi6n y correlaci6n lineal simple .. Metodo de calculo 4.5. fndices complejos de precios sin ponderar 4. Concepto de serie temporal y definici6n de sus componentes....

7. Por ultimo. 317 320 320 321 321 323 325 Prologo 0 10 Segundo edicion i !: I 1 il q CAPiTULO 7. correlaci6n. . variaciones y permutaciones Ejercicios .5. Algebra de sucesos ' 6. Teorema de la probabilidad total . i: El presente libro esta plante ado para que sirva de texto base para el estudio de un semestre de I ntroducci6n a la Estadtstica en la Licenciatura de Adminis­ traci6n y Direcci6n de Empresas. Probabilidad condicionada . •• 4 •••••••••••••••••••••••• ••••••••••••••••••••••••••• •••• BIBLIOGRAFiA l \ I. .4.5.. Ejercicios .8. 7. 7.7. el Euro. 6. i' I: I' . 7.2. Metodos de enumeraci6n 0 conteo 6. Se introducen los conceptos de tablas de correlaci6n. independencia estadfstica. dispersi6n. julio de 2002 .3. recogiendo la nueva metodologfa del Indice de Precios de Consumo y se ha suprimido la Aplicaci6n Informatica IPD para Analisis Estadfsticos. Mariano Ruiz Espejo y Ana Isabel Zamora Sanz sus ayudas en la redacci6n de algunos ejercicios practices y en la correcci6n de pruebas.. Teorema de. Dedicamos los capftulos 4 y 5 a dar algunos instrumentos que nos permitan hacer comparaciones y a estudiar la evoluci6nde magnitudes econ6micas y sociales. I CASAS-sANCHEZ. 7. Principio de multiplicaci6n 6.6. Teorema de la probabilidad compuesta 0 producto .2. Definici6n clasica de la probabilidad .6. etc.3.7. deseamos agradecer a nuestros colaboradores.2. 7. J.1. · . J. 7. . . Bayes . 7. Tambien dedicamos dos capftulos al estudio de los fen6menos alea­ torios y sucesos... En el capftulo 3 se proporcionan los instrumentos necesarios para el estu­ dio de las variables estadfsticas bidimensionales.-~' I. regresi6n. forma y concentraci6n. M. LOS AUTORES Madrid. distribuciones marginales y condicio­ nadas.6.8. . Independencia de sucesos . se ha actualizado todo el capftulo de Ntimeros indices.1.4.1.6. Los capftulos 1 y 2 pretenden introducir allector en el manejo de los datos numericos. contingencia. Interpretaci6n subjetiva de la probabilidad .8..8. ensefiarle a organizar los resultados obtenidos de las observaciones y a sintetizar la informaci6n con las diferentes medidas de posici6n. Defmici6n axiomatica de la probabilidad . y SANTOS-PENAS.. 7. 331 331 332 335 339 341 342 355 361 362 364 366 370 385 III ~ !l " Ji' II Ii II II !I· i I:' Introducci6n . introduciendo para ello los numeros indices y el estudio de las series temporales. PROBABILIDAD 7. 10 I:! .3.. Definici6n frecuentista de la probabilidad . Combinaciones. 1 . Tablas de doble entrada 6. Teoremas elementales 0 consecuencias de los axiomas.1. asf como a los conceptos mas importantes sobre probabilidad.. . 7.8. Diagramas de arbol 6. En esta segunda edici6n se ha introducido la nueva unidad monetaria.

Las romos de 10 estodistico y sus metodos cientificos La Estadistica. En una segunda acepci6n la Estadfs­ tica es un conjunto de metodos cientfficos que nos permiten interpretar la informaci6n numerica.' K ii Capitulo 1 r I: I: EI rnerodo estadfstico en la interpretacion de los hechos econornlcos I '. 1 I· "1" I: I" I II. I'. I . tam bien del mismo autor. elegir muestras representativas para hacer inferencias. La agrupaci6n del conjunto de conocimientos que componen a la Estadfstica da origen a tres ramas claramente diferenciadas: • La Estadistica Descriptiva que se estudiara en los pr6ximos cinco capftuIos. III I. .~ t~ J j :.! ." !:. • La Inferencia Estadistica que se estudia en otra obra. ! ~ . contrastar hip6tesis. i. La Estadistica Descriptiva es la que tiene sus rakes hist6ricas mas pro­ fundas.I II:: . promedios. estimar relaciones causa-efecto y hacer predicciones. Iiii II. Su metodo cientffico es el deductivo ya que plantea un conjunto de datos ordenados y genericos y va extrayendo conclusiones particulares de los mismos. .! I. en suacepci6n mas general. como veremos. I: !:. Su propia evoluci6n hist6rica favorece. puede considerarse como la ciencia que estudia las «regularidades» que se observan en una serie de fen6­ menos que pueden expresarse a traves de la informaci6n numerica. ya que con una cierta ordenaci6n y sistematica fue empleada por las sociedades humanas mas primitivas. l '1 Iii: I. • El Calculo de Probabilidades que se desarrolla en el capitulo siete y en el texto del mismo autor: Estadistica I: Probabilidad y Distribuciones. graficos. Va de 10 general a 10 particular que es la esencia del metodo deductivo. que la percibamos como un con­ junto de cifras. 1. II . Ii: ~ '.' 1. I. I I: . etc.

t. Esta segunda alternativa es la que se utiliza en la investigaci6n estadfstica ya que tiene las enormes ventajas de un coste econ6mico reducido. Procede de las observaciones particulares de una muestra representativa y llega a la inducci6n de propie­ dades generales para el conjunto del que se extrae la mencionada muestra. hay que contemplarla a traves de la evoluci6n hist6rica de las tres ramas que venimos considerando: la Estadfstica Descriptiva. Siendo esta la raz6n por la que la Inferencia Estadfstica adquiere toda su significaci6n: defi­ nicion de estimadores para los parametres poblacionales. las descripciones de las estimaciones deben venir acompafiadas de sus niveles de confianza y de sus respectivos errores de muestreo. De manera muy general podemos decir que las etapas de toda investigaci6n estadfstica son las siguientes: 1. El metoda por tanto es inductivo ya que de 10 particular de la muestra se generaliza al total de la poblaci6n.1. en comparaci6n con los censos. El Calculo de Probabilidades empez6 a formali­ zarse a 10 largo de las siglos XVI y XVII tratando de resolver problemas de juegos de azar y del mundo de la Astronomfa. . muestra. tamafios de muestras. Cuan­ do estemos en este ultimo caso. Por ejemplo. . 2. y los resultados obtenidos se infieren al total poblacional. ya no tenemos estimadores que siguen una dis­ tribuci6n 0 modelo de probabilidad. supongamos que deseamos conocer los hogares 0 familias que tienen mas de un autom6vil en la Comu­ nidad de Madrid. Se empleara el metodo deductivo siguiendo el camino de 10 general a 10 particular. Luego la Estadfstica Descriptiva con su metoda deductivo interviene cuando tenemos un conjunto de datos a poste­ riori. EL METODO ESTADfsTICO EN LA INTERPRETACI6N DE LOS HECHOS.: La utilizaci6n de la Estadfstica en la interpretaci6n de los hechos econ6­ micos. Los estu­ dios censales son excepcionales ya que tienen un elevado coste y un perfodo largo de ejecuci6n. la poblaci6n a investigar son todos los hogares de la Co­ munidad y el parametro poblacional sera la proporci6n 0 porcentaje de los mismos que tienen mas de un autom6vil. La caracterfstica de interes se mide en todos y cada uno de los elementos de la poblaci6n.I. modelos de probabilidad que siguen.j i:. Y SANTOS-PENAS. Este conjunto de conocimientos no constituye en sf una rama de la Estadistica si no las herramientas materna­ ticas y modelizadoras en las que se apoyara la Inferencia Estadfstica para su formulaci6n y desarrollo. '. Cuando se obtienen los datos de la muestra seleccionada por un procedimiento probabilfstico. J. I'. emplea el metodo deductivo en unas determinadas etapas de su proceso de investigaci6n y el inductivo en otras. Y la calidad de los datos observados puede controlarse mejor que en estes al ser vohimenes mas reducidos. El Calculo de Probabilidades tam bien empiea el metoda deductivo ya que en esencia es un razonamiento puramente matematico.I il·' !. 'ii :Ii .a 10 particular.8 Recogida de los datos estadisticos para Uegar a conocer los parametres poblacionales Existen fundamentalmente dos formas de obtener los datos estadfsticos: • Por la ejecuci6n de una encuesta censal.I..2~ La estadistica descriptiva y el estudio de los hechos economicos ::1 1:1 'Ii :1· " " Ii. En el ejemplo de los hogaresde la Comunidad de Madrid consistirfa en preguntar a todos ellos si poseen mas de un autom6vil. J. 15 " . Si se ha utilizado la investigaci6n muestral hay que considerar dos niveles de analisis: el de modelizaci6n probabilfstica del proceso a priori que es deductivo-inductivo (definici6n del modelo y proceso de inferencia) y el de descripci6n de los datos obtenidos 0 analisis a posteriori que es descriptivo 0 deductivo. bien de una muestral. etc. Esta primera fase es fundamental. niveles de confianza en las estimaciones. teniendo en cuenta todas sus ramas. Cuando el estudio estadfstico que se ejecuta es de naturaleza censal no existe ningun problema de inferencia y el metodo empleado sera Integramente deductivo. en su conjunto. errores de muestreo que estamos dispuestos a admitir. Arranca con la defi­ nici6n de probabilidad a traves de una serie de axiomas de los que se van deduciendo un conjunto de teoremas. sino estimaciones 0 datos concretos que hay que describir 0 reducir de forma ordenada de 10 general ---conjunto de los datos muestrales. Por ultimo.. sefialaremos que la Inferencia Estadistica empiea el metodo inductivo basandose en el conjunto de instrumental matematico-deductivo que Ie proporciona el Calculo de Probabilidades. Utilizando las anteriores reflexiones podemos concluir que la Estadfstica.o ii. La Inferencia Estadfstica es considerada como la Estadfstica moderna ya que se ha desarrollado a 10 largo del siglo XX como uni6n y confluencia de la Descriptiva y el Calculo de Probabilidades.~ i :1 1 " l 14 CASAS-sANCHEZ. ya que se definen los parametres pobla­ cionales que se pretenden investigar.~ I' ji Si se ha utilizado la investigaci6n censal nuestro estudio finaliza con la descripci6n de las caracterfsticas poblacionales a traves de tablas de frecuen­ cias y graficos. La caracterfstica que se esta investigando s610 se mide en un subconjunto de la poblaci6n.8 Descrlpclon y estimackin de los parametres poblacionales :" 1. M. . el Calculo de I: I II . un corto perfodo de ejecuci6n. bien provengan de una investigaci6n censal. 3.I 'I': 'I" r' 1.8 Definicion de los objetivos que se persiguen con la investigacion • Por la ejecuci6n de una encuesta muestral.

'I1. Obtuvo tasas de mortalidad y de natalidad partiendo de una mues­ tra de la poblacion. Petty. de J. con pequefios antecedentes de Cardano (1501-1576) y Galileo (1564-1642) cuando se empieza a formalizar esta rama de las materna­ ticas. Chebychev como grandes impulsores de esta disciplina a 10 largo de los siglos XVIII y XIX. a mitad del siglo XVII. • La Estadistica Descriptiva 0 Deductiva la debe de dominar tanto el economista de empresa como el general. ' II' 1. Tenemos referencias del historia­ dor griego Herodoto (485-425 a. Tambien. describe y analiza informaci6n de cualquier hecho 0 fen6meno.e. En la Edad Media no se realizan operaciones estadisticas de descripci6n econ6mica si se exceptuan los inventarios de posesiones de la Iglesia. Coring y Achenwall. Borel..) que en el afio 3050 a. es estadista que proviene a su vez del latin status. XVII Y XVIII. ·1' 1 "I ~ . Levy.i. EI calculo de probabilidades como herramienta mctemeftco de inferencia estadistica. durante el siglo xx la producci6n de estadisticas descriptivas ha seguido una tendencia exponencial debido a la demanda de datos en los modelos de planificaci6n y desarrollo econ6mico. Pierre Simon Laplace (1749-1827). Karl Friedrich Gauss (1777-1855). XVIII Y XIX el Calculo de Probabilidades se desa­ rrolla desconectado de la Descripci6n estadistica de los hechos econ6micos si exceptuamos pequefias interrelaciones efectuadas fundamentalmente por Que­ telet a mediados del siglo XIX. Si es del mundo econ6mico estaremos ante una Estadistica Descriptiva Econ6mica.1. Los matematicos dedicados a los problemas de la ffsica y la astronomia emplean un lenguaje diametralmente opuesto al utilizado por los estadisticos que describen los hechos econ6micos a traves de . de rentas y traficos mercantiles.1 . 'I " .!' 1.. !I. . Las ideas mercantilistas de los franceses Colbert. 1.3. Daniel Bernoulli (1700-1782).: .i. il:i Ii' s. Egipto elabor6 un censo de poblaci6n y riqueza con objeto de abordar la construe­ ci6n de las piramides. La estadistica moderna Hemos apuntado anteriormente que .. Pero es a partirdel siglo XVII. en terminos filol6gicos. Tambien en Egipto Ramses II hizo un censo de tierras con objeto de establecer una nueva politica de reparto de las mismas. ya que Ie ensefia c6mo debe hacer un analisis primario y basico de un conjunto de datos que provie­ nen de haber efectuado una investigaci6n censal 0 muestral de un deter­ minado fen6meno econ6mico. se plante6 la estimaci6n de la pobla­ ci6n inglesa que estaba sometida a grandes fluctuaciones por causa de las epidemias. Durante el siglo xx son autores clasicos del Calculo de Probabilidades Markov. primeros censos oficiales. J.' !"i . Christian Huygens recopil6 los trabajos de Fermat y Pascal apareciendo en 1669 la primera sistematizaci6n del Calculo de Proba­ bilidades. griegos y romanos realizaron recuen­ tos descriptivos de su poblaci6n y riquezas. chinos.e.UU.· La preocupaci6n fundamental de la escuela inglesa eran los datos demo­ graficos. Empecemos por la primera. alemanes y anglosajones de los siglos XVI. En los siglos XVIII y XIX se produce un rapido crecimiento de datos estadisticos iniciandose la elaboraci6n de los. Espoleados por la contrastaci6n empirica de las teorias sobre astro­ nomia y fisica siguieron las aportaciones de Jacobo Bernoulli (1654-1705).la base cientffica de la Inferencia Estadistica es el Calculo de Probabilidades que es una rama de las materna­ ticas que se basa en el razonamiento deductivo. Durante los siglos XVII. I. se elaboran censos de poblaci6n cada diez afios desde 1790. Y SANTOS-PENAS.. M. Hay que esperar al nacimiento de las escuelas mercantilistas de los franceses. En EE.j !I' L :.rr 16 CASAS-sANCHEZ. I:i " I i! ii I' i I. Lebesgue y Frechet de la francesa.~ ~ I. 17 i II:'. Las excavacio­ nes arqueol6gicas han demostrado que las culturas primitivas practicaban juegos de azar cuyos resultados estaban ligados a la voluntad divina.. de J. los griegos y romanos efectuaban recuentos perio­ dicos de sus recursos econ6micos y humanos con claros fines tributarios y militares. a 10 largo del siglo XIX se crean Oficinas de Estadistica en los principales Estados que se dedican a elaborar estadisticas de forma peri6dica sobre temas econ6micos. Halley. Davenant y King. ". Siguien­ do el enfoque descriptivo. J.: hi 'II. Vista la evoluci6n hist6rica de la Estadistica Descriptiva podemos concluir con las siguientes reflexiones: • El origen de la palabra Estadistica. Liapounoff y Kolmogoroff de la escuela rusa. Es la ciencia que contabiliza las cosas del Estado desde los tiempos mas remotos hasta nuestros dfas: recoge. • Es una estadistica econ6mica que no contiene incertidumbre con 10 que esta ausente la probabilidad como medida de aquella. Es de todos conocido que los egipcios. 11 .. Los Matematicos Bias Pascal (1623-1662) y Pierre de Fermat (1601-1665) empiezan con su famosa correspondencia la formalizaci6n del Calculo de Probabilidades sobre juegos de azar que les planteaba el conocido jugador Caballero de Mere. como en la inglesa constituida por Graunt.!. El origen del Calculo de Probabilidades esta relacionado con la resoluci6n de problemas de juegos de azar. Abraham de Moivre (1675-1750).: Iii . Veremos posteriormente que la Estadistica Moderna del siglo xx es el resultado de la fusi6n de la Descrip­ tiva y el Calculo de Probabilidades con 10 que es obligado efectuar un breve desarrollo hist6rico de este. I !. Buffon y Condorcet influyen tanto en la escuela alemana formada por Seckendorff. principalmente. ' ": iii: Probabilidades y la Inferencia Estadfstica. i. EL METODO ESTADfSTICO EN LA INTERPRETACI6N DE LOS HECHOS. A finales del siglo XVII Petty efectua estudios descriptivos sobre demograffa.! Ii > . Graunt. Simeon Denis Poisson (1781-1840) y P.

18

CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, J.

EL METODO ESTADfSTICO EN LA INTERPRETACI6N DE LOS HECHOS...

19

sus tab las, tasas de mortalidad y natalidad, mirneros indices, etc. La uni6n de ambas tendencias se produce a comienzos del siglo xx ,consolidandose a 10 largo del mismo por 10 que conocemos como la Inferencia Estadistica aplicada a la economia, cuyo estudio requiere un conocimiento previo del cuerpo fundamental del Calculo de Probabilidades ya que nos proporcionara los instrumentos matematicos necesarios para que, siguiendo la l6gica inductiva, las conc1usiones de una muestra las generalicemos a la poblaci6n a la que pertenece.

II;: II', !I:.I

1.4.

La inferencia estadistica como metodo de estudio de los hechos econ6micos

~ :!:~:

I~ I.~,

!I:~
I:
u

~,.

1 ~

I·~
' 1,

' ": II:',' r 1~
j'l
",1:

il'I,: I~

l~~·
'I

I~

I

Ii,

'ii
',i '~, l i :II,i

'il

,

La Inferencia Estadfstica tambien se empez6 a desarrollar a 10 largo del siglo XVIII resolviendo problemas de estimaci6n y contraste en el mundo de la astronomia. Combina la observaci6n de datos (Descriptiva) con la estima­ ci6n de determinados parametres de los modelos te6ricos del Calculo de Probabilidades. Dentro del desarrollo de la Inferencia hay que considerar tres corrientes metodo16gicas que surgen de las distintas interpretaciones del con­ cepto de probabilidad. En primer lugar hay que considerar la «Inferencia Clasicax que arranca con Laplace-Gauss con su problematica de las observa­ ciones astron6micas y culmina con la estimaci6n y contrastaci6n de hip6tesis de la Escuela Inglesa en el campo de las ciencias naturales --estudios funda­ mentalmente bio16gicos- formada por Karl Pearson (1857-1936), William S. Gosset (Student) (1876-1937), Ronald A. Fisher (1890-1962) y Jerzy Neyman (1894-1981). Esta corriente clasica de la Inferencia se apoya en el concepto frecuencialista de la probabilidad obtenido de la informaci6n descriptiva mues­ tral cuando el experimento aleatorio de la investigaci6n se realiza en las mismas condiciones un nnmero elevado de veces. Una segunda corriente es la denominada Inferencia Bayesiana. Sus bases iniciales las formu16 el matematico ingles reverendo Thomas Bayes (1702­ 1761). La esencia del enfoque bayesiano esta en su famoso teorema que com­ bina todo tipo de informacion a priori sobre los distintbs estados de la natu­ raleza con la informaci6n muestral en sentido clasico para obtener 0 inferir el modelo de distribucion a posteriori. A Bayes Ie siguen los modernos autores de la probabilidad subjetiva como son los estadfsticos .Frank Ramsey, Bruno de Finetti y Leonard Savage cuyos enfoques son de gran utilidad en el mundo econ6mico-empresarial. La tercera corriente, de enorme aplicaci6n en el campo econ6mico-empre- , sarial, es 10que se conoce como Teoria de la Decisi6n. Su formulaci6n se debe al estadfstico A. Wald (1902-1950) que aprovecha la inferencia bayesiana com­ binada con la noci6n de probabilidad subjetiva aportando el concepto de

funcion de perdida en el que se apoya el decisor para cuantificar sus expecta­ tivas y racionalizar el tratamiento de la incertidumbre econ6mica. En 1912 Irving Fisher (1867-1947), economista americano conocido por su dedicaci6n a la elaboraci6n de mimeros indices, inicia un movimiento para incorporar los metodos inferenciales conocidos en el mundo de las Ciencias Naturales al mundo de la economia. En 1930 funda con Charles F. Roos y Ragnar Frisch la Sociedad de Econometria con el objetivo de que los econo­ mistas aceptasen que el cuerpo vigente de conocimientos estadfsticos prove­ nientes de los campos de la Fisica, Astronomia y Ciencias Naturales, podia ser aplicado a los datos econ6micos. A 10 largo de las siguientes decadas se ha ido implantado paulatinamente el enfoque probabilistico en el estudio de los hechos econ6micos 10 que permite confrontar los modelos te6ricos con los datos estadfsticos 0 estudiar el modelo que mejor se ajusta a los datos empfricos disponibles. No cabe duda que la aparici6n y difusi6n de los potentes ordenadores personales ha revolucionado la aplicaci6n y difusi6n de los metodos estadis­ ticos aplicados a la economia. Existen multitud de aplicaciones de facil manejo que permiten dar un tratamiento descriptivo a uri conjunto de datos econ6­ micos en un tiempo record. En una segunda fase pueden ejecutarse tratamien­ tos multivariantes mas complejos: regresi6n y correlaci6n, analisis factoriales, analisis de conglomerados y analisis discriminantes.

I
i

I

Capitulo 2

Distribuciones de frecuenclos unidimensionales
Ii

1:
"

I ;'

I

!

Ii:

'I'

i"
I

IL
I
,I

I,

I
'j

!

"

I
,

I

I,

1

II '

Iii': ;
~

l j
j

2.1.

Introduccion

::
'I !;

III· .

. 1-:..

I

l

I
!
t

i!

I'

Ii '
1:
"

I
j
I

I

!

i

II!
I

)1

(:

I"

)'
I,

:.:

I

;:1] .
p!.!

l":'1

II!,!

,i

11 1i l,'
a

!II!

d,I,

ll

En este capitulo iniciamos 10 que hemos deriominado la Estadfstica Des­ criptiva 0 Deductiva que se ocupa de recopilar, organizar y analizar datos numericos, El estudio 10 iniciamos con la presentaci6n de una serie de con­ ceptos previos fundamentales que se emplearan constantemente en el desarro­ llo de esta disciplina: poblaci6n, muestra, atributos, escalas de medici6n y va­ riables estadfsticas. En segundo lugar se aborda la explicaci6n de las distintas tareas que componen las tres grandes etapas de toda investigaci6n estadfstica: definici6n de objetivos, recogida de los datos y estimaci6n y descripci6ti de los parame­ tros poblacionales. El tercer aspecto que se estudia, centrandonos en la tarea descriptiva de la etapa denominada analisis descriptivo primario, es la elaboraci6n de 10 que se denomina distribuci6n de frecuencias unidimensionales, tanto en su aspecto numerico como grafico, En cuarta posici6n se anallzan de forma global las distribuciones de frecuencias a traves de sus medidas de posici6n: medias, mediana, moda y cuantiles. Otras medidas que se introducen, en quinto lugar, en el estudio de las distribuciones son los denominados momentos potenciales con relaci6nal ori­ gen y a la media aritmetica. En sexta posici6n se abordan las medidas de dispersi6n: recorrido, intervalos intercuartflicos, varianza, desviaci6n tfpica, coeficiente de apertura, recorrido relativo, recorrido semi-intercuartflico y coe­ ficiente de variaci6n. Le siguen la exposici6n de 10 que se conoce como «medidas de forma»: asimetrfa y curtosis. Dos distribuciones que tengan la misma media aritmetica y la misma varianza pueden diferir en la forma de sus

, '"II. ; nl:

'Iii

22

CASAS-sANCHEZ, 1. M. y SANTOS-PENAS, 1.

DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES

23

representaciones graficas, con 10 que se llega a un estudio mas profundo con la utilizaci6n de las medidas de forma. Por ultimo se abordan las medidas de concentracion 0 de desigualdad: Indice de Gini y Curva de Lorentz. Estas medidas se conciben para medir la equidad en la distribuci6n de ciertas caracterfsticas de contenido econ6mico: rentas personales 0 familiares, salarios, beneficios, etc.

2.2. Conceptos fundamentales
Vamos a exponer de forma sencilla una serie de definiciones que constan­ temente las estaremos empleando en estadfstica, Poblaci6n. Se entiende por poblaci6n, universo 0 colectivo cualquier conjun­ to de personas, objetos, animales, plantas, instituciones 0 entes en general que son portadores de una serie de caracterfsticas que nos interesa estudiar. Ejemplos de poblaciones: • Las personas que trabajan en la Administraci6n Central. • Las lavadoras automaticas que se han producido en nuestro pais duran­ te 1994. • Los pinos existentes en la Comunidad de Madrid a 31 de diciembre de 1994. • Los autobuses de la E.M.T. a 30 de junio de 1995. Las poblaciones estan compuestas de elementos 0 individuos por 10 que deben de estar definidas con absoluta precisi6n de forma que siempre se pueda discernir si un elemento pertenece 0 no pertenece a la misma. Se clasifican en finitas 0 infinitas segnn que el mimero de elementos que la componen sea de una clase u otra. En el mundo econ6mico y social estaremos casi siempre ante poblaciones finitas: habitantes de una regi6n, empresas de un sector, deman­ dantes potenciales 0 reales de un producto, etc. Muestra. Llamamos muestra a todo subconjunto representative de la po­ blaci6n de forma que las conclusiones sacadas en aquella se generalizan a esta, Las poblaciones se pueden estudiar bien realizando una investigaci6n exhaus­ tiva de todos sus elementos y entonces diremos que estamos realizando un censo, 0 bien, investigando una parte 0 subconjunto de las mismas y entonces diremos que estamos realizando un estudio muestraI.. # Atributo. Es toda caraeterfstica poblacional no susceptible de ser medida numericamente, La observaci6n de un atnbuto da lugar a distintas modalidades. Son ejemplos de atributos: • El sexo de una poblaci6n humana cuyas modalidades son: varon y mujer. • Los colores de un semaforo cuyas modalidades son: rojo, verde y amarillo. • La profesidn de un conjunto de personas activas.

j

I

!

iii:'

i
,II'

Aunque los atributos no son susceptibles de ser medidos numericamente, sus modalidades pueden relacionarse con 10 que se denominan escalas nomi­ nales y ordinales. Las observaciones de las distintas modalidades decimos que estan en una escala nominal cuando los mimeros que Ie asignamos s610 se emplean para diferenciar las distintas categorfas, Si al ejemplo de los colores del semaforo Ie asignamos los digitos 1, 2 y 3, s610 cabe la interpretaci6n de que el 1 #- 2 #- 3 sin que se pueda afirmar que uno es superior a otro y sin que se puedan ordenar. La escala nominal es la forma de medici6n mas debit y se utiliza s6lo para clasificar las distintas modalidades de un atributo. No permiten ninguna relaci6n de orden ni operaciones aritmeticas de suma, resta, multiplicaci6n y divisi6n. La medici6n de las caracterfsticas cualitativas 0 atributos tambien admite en ciertos casos 10 que se conoce como escalas ordinales. Se podra emplear la escala ordinal cuando las distintas modalidades admiten una determinada graduaci6n u ordenaci6n. En estudios de mercado y de opini6n se emplean con mucha frecuencia las escalas ordinales. La imagen de un determinado politico podra calificarse de: muy mala, mala, regular, buena y muy buena. Si se Ie asignan los dlgitos 1, 2, 3, 4 y 5 no quiere decir que la imagen buena sea el doble que la mala, sino que esta en un orden superior. Este tipo de mediciones con escalas ordinales es superior al nominal ya que adem as de clasificar las distintas modalidades permiten ordenarlas, perc tampoco admite, como en las nominales, las operaciones aritmeticas de suma, rest a, multiplicaci6n y divisi6n. Variables. Son las caracterfsticas poblacionales susceptibles de tomar valo­ res numericos a los que se les pueda aplicar 10· que se conocen como escalas de intervalos y de razon 0 proporcion, Las primeras son aquellas que permiten una unidad de medida con 10 que podemos cuantificar numericamente la distancia existente entre dos observaciones cualesquiera. El orden de esta escala es superior a las nominales y ordinales ya que ademas de clasificar y ordenar las mediciones permite diferenciar con exactitud unas situaciones de otras. En el mundo econ6mico-empresarial tenemos multitud de caracterfsticas en las que pueden aplicarse escalas de intervalos: salarios de una empresa, cualquier tipo de presupuesto, gastos, ventas, etc. Las escalas de proporci6n 0 razon, ademas de las cualidades de las de intervalo, se caracterizan por incor­ porar un punto de origen no arbitrario (un cero verdadero) como puede ocurrir, con los pesos y las edades de las personas, litros de gasolina en un dep6sito, etc. En conclusi6n podemos decir que las escalas de intervalo admiten unidades de medida y un origen (cero) arbitrarios y las de raz6n ademas de la unidad de medida tienen asignado un punto de origen no arbitrario ya que es un verdadero cero 0 cero absoluto. En estas escalas sf se permiten las operaciones aritmeticas de la suma, resta, multiplicaci6n y divisi6n. Las variables estadfsticas pueden clasificarse de distintas maneras. Tenien­

a tiempo parcial. i .). . M. etc.formacion. por obra. y SANTOS-PENAS. • Analisis especiales multivariantes. - 1 Una empresa puede tener la necesidad de conocer: El mercado actual de un determinado producto a traves de su volumen . de forma muy generica. Disefio del material auxiliar de la encuesta. papel. Etapas y tareas de toda investigaci6n estadistica.) y su accesibilidad. En el presente apartado vamos a comentar brevemente las distintas tareas contenidas en las grandes fases tal y como estan relacionadas en el grafico 2. GRAFIeo 2. I 24 CASAS-sANCHEZ. Por ejemplo. etc. \ 1 I l I:j I·' iii: · '". 2. En la definicion de objetivosla primera tarea es identificar las caracterfsticas cualitativas 0 cuantitativas que se desean estudiar.' • Decidir si la investigaci6n va a ser censal 0 muestral determinan­ do tamafio de la muestra y presupuesto necesario. Tareas a desarrollar en las grandes etapas de la investigacion estadistica En el primer capitulo hemos considerado. eventuales.3. de . las tres ' grandes etapas que pueden considerarse en toda operaci6n 'estadfstica: defini­ ci6n de objetivos. • Especificar el ambito del estudio y la forma de recoger los datos: entrevistas personales. Debe existir una necesidad de realizar la investigaci6n estadfstica explicitando que datos son los relevantes para la toma de decisiones. '1:" . si en el colectivo 0 poblaci6n formado por las empresas del sector qufrnico estudiamos solo su volumen de producci6n esta­ remos ante una variable unidimensional. Si estudiamos al mismo tiempo la producci6n y el numero de trabajadores de cada empresa sera bidimensional (se observan dos caracterfsticas 0 variables cuantitativas en los elementos poblacionales). DISTRmUCIONES DE FRECUENCIAS UNIDIMENSIONALES 25 Ii do en cuenta el nnmero de caracterfsticas que estudiamos en los elementos de una poblaci6n las variables pueden ser unidimensionales. I I I 1 l I l I I :1 Disefio del cuestionario. recogida de datos y estimaci6n y descripci6n de resultados finales. por telefono 0 mixtas. • de ventas (caracterfstica cuantitativa).1. Diseiio muestral de acuerdo con el marco disponible. El gobierno de un pais puede tener necesidad de investigar a traves de una muestra representativa las siguientes caracterfsticas: Altas y bajas de empleados en distintos sectores econ6micos por tipo­ logfa de contratos (fijos. 'bidimensionales 0 pluridimensionales. • Estimaci6n de errores muestrales y no muestrales.' 1 I I 1 1 @ • • • • • Etapa: Recogida de los datos estadfsticos I I Tareas: . documentos. La motivaci6n fundamental por la que se compra un artfculo de una determinada marca (caracterfstica cualitativa) que se consume en los hogares.' Evoluci6n del transporte de mercancfas por carretera. j CD Etapa: Definicion de objetivos I I j Tareas: I 1 I i 1 j i • Identificaci6n de caracterfsticas cualitativas 0 cuantitativas que se desean estudiar. Las variables tambien pueden ser discretas 0 continuas segun tomen un mimero finito 0 infinito numerable. • Analisis descriptivo primario. • Definici6n de la poblaci6n portadora de las caracterfsticas a investigar. Recogida de los datos. 1.1. por correo. 1. ® Etapa: Estimacion y descripcion de los parametres poblacionales especificados en los objetivos Tareas: j El exito de toda investigaci6n estadfstica se basa en la correcta selecci6n de las caracterfsticas que se van a analizar de forma que se alcancen los objetivos que nos hemos propuesto. Evoluci6n mensual de las ventas del comercio minotista. a tiempo completo.. 0 bien infinito no numerable de valores en un determinado intervalo de su campo de variaci6n. • Identificar el marco 0 listado de unidades poblacionales especifi­ cando sus soportes (magnetico. :i . Tratamiento de los datos.

por correo. Toda esta serie de antecedentes nos van determinando el formato del cuestionario y la naturaleza de sus contenidos. abogados. por telefono 0 mixtas. en el cuarto caso las empresas que fabriquen el producto en cuesti6n y en el quinto ejemplo los compradores del producto. etc. 1. • Precision en las preguntas. Estas tiltimas cuestiones que se refieren a la fiabilidad de la investigaci6n estan relacionadas con los costes de la misma ya que a mayor nivel de precisi6n se requerira una mayor muestra y por tanto. los censos de establecimientos minoristas elabo­ rados por organismos piiblicos 0 empresas privadas. comarcal. in­ genieros. Las preguntas de un cuestionario pueden c1asificarse desde multiples as­ pectos. de nuestro servicio posventa? • Deben evitarse las preguntas indiscretas que molestan al entrevistado. Tambien tendremos que establecer elambito de la investigaci6n: nivel municipal. a los cabezas de familia podna preguntarseles zQue . y siguiendo el mismo orden establecido los marcos suelen sec las bases de datos existentes en soportes magneticos en el Ministerio del Trabajo (altas y bajas de la Seguridad Social).. Si atendemos. personas.) por 10 que hay que emplear un lenguaje sencillo y directo evitando terminos tecnicos que solo son comprensibles para los especialistas. regional. etc. por ejemplo. auto ­ servicios. la poblaci6n en la que podemos estudiar las caracterfs­ ticas que nos interesan. organismos. economistas. Un ejemplo de pregunta no concreta es lNo piensa Yd. sin ningun tipo de ambiguedad.no dependiendo del tamano de la poblaci6n. M. Deben de ser concretas y cortas con objeto de obtener respuestas precisas.: I :1: I! IIill· Ii 26 CASAS-sANCHEZ. supermercados. que nuestra empresa da un servicio posventa de gran eficacia? La pregunta correcta serfa: lQu6 opina Yd.I!. 0 bien. y SANTOS-PENAS. En los ejemplos anteriores. entre dos y cuatro 0 mas de cuatro. a la libertad de elecci6n de respuesta las preguntas pueden ser: • Abiertas: son aquellas cuya respuesta es totalmente libre para el entre­ vistado. por favor. anuarios de fabricantes por productos y los censos de poblaci6n elabora­ dos peri6dicamente por el INE. menos de dos millones. etc. etc. dentro de que tramo de la siguiente escala se encuentran sus ingresos anuales: . Las preguntas mas sencillas deben de ir al comienzo del cuestionario y las mas complejas 0 delicadas al final. Deben evitarse juicios de valor a la hora de efectuar las preguntas que condicionan las respuestas. Es mucho mas eficaz pedirles que se situen dentro de una escala previamente establecida. La pregunta zCuales son sus ingresos anuales?. Con ello se consigue un mayor grado de respuesta y colabora­ ci6n por parte del entrevistado ya que una vez que se ha avanzado en la cumplimentaci6n es mas dificil que se niegue a seguir contestando aunque las preguntas sean mas comprometidas. La pregunta concreta serfa lCuan~ tos cigarrillos fuma Vd. Las anteriores recomendaciones generales no agotan toda la normativa existente de como deben confeccionarse las preguntas de un cuestionario. un mayor presupuesto. Por ejemplo. y forma de recoger los datos: por correo. En el caso de las altas y las bajas en el empleo senin las empresas que conforman los distintos sectores. Los marcos deben estar actualizados y depu­ rados de unidades extrafias ya que de ellos se seleccionan de forma aleatoria las unidades muestrales cuando la investigaci6n estadfstica no es exhaustiva. debe de sustituirse por: Indique. que fuma mucho? El termino mucbo es subjetivo y tiene distinto valor para distintas personas. Normalmente se acudira a investigaciones muestrales (no exhaustivas) con 10 que se estableceran los tamafios muestrales de acuerdo con los niveles de confianza que se deseen y los errores muestrales que estemos dispuestos a admitir. Hay que tener en cuenta que determinadas preguntas pueden molestar al entrevistado con 10 que podemos conseguir que se niegue a contestar a la totalidad del cuestionario.I. 1.. Se ponen a titulo de ejemplo para dejar constancia de que es una tarea compleja que requiere verdaderos especialistas. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 27 La segunda tarea consiste en delimitar con absoluta precisi6n. Esta demostrado que no deben de pedirse directamente los ingresos de una persona ni la edad. las disponibilidades econ6micas. con agentes entrevistadores 0 por telefono. el plaza disponible. en el tercer caso el censo de camiones y furgonetas de distintos tonelajes. Elaborar un cuestionario que no tenga fallos es una tarea especializada que debe de desarrollar un grupo de expertos en las materias correspondientes. los ficheros del Ministerio de Transportes que contengan las licencias de transporte de mercancfas vigen­ tes. En la cuarta tarea se decidira si la investigaci6n estadfstica va a ser ex­ haustiva o. diariamente? • No se debe influir en la respuesta. El nivel cultural de los estrevistados es heterogeneo en la mayorfa de los casos (se exceptuan las encuestas realizadas a colectivos del mismo nivel cultural: medicos. en el segundo ejemplo sera todo el conjunto de establecimientos minoristas (tiendas tradicionales. La tercera tarea de la primera etapa es determinar el marco que contiene a los elementos de la poblaci6n de nuestro estudio. Aquf nos vamos a limitar a dar unas directrices para su buena confecci6n: ~j I j j 1 J l I i l I • Claridad en el lenguaje utilizado. asf como la forma mas adecuada de recoger la informaci6n: entrevistas personales. unidades que van a facilitar los datos: empresas. que nos den respuestas falseadas. nacional. • Hay que cuidar el orden de las preguntas. Para su elaboraci6n se parte de todos los antece­ dentes que nos proporciona la primera etapa: caractensticas que mediremos. La primera tarea de la segunda etapa (recogida de los datos estadfsticos) es el diseiio del cuestionario.. hipermercados y grandes almacenes). No serfa correcto hacer preguntas del tipo lNo piensa Yd.

En este caso el entrevistador anota literalmente las respuestas em­ pleando las mismas palabras del entrevistado. igual que en el muestreo aleatorio simple. dentro de la segunda etapa. D No. i! " usos les darla Vd. media yalta.s. c) Muestreo por conglomerados: Los conglomerados son agrupaciones de elementos de la poblaci6n de naturaleza heterogenea dentro de ellos respecto a la caracterfstica que estemos estudiando. fumador?: D Si. EI procedimiento consiste en las fases siguientes: se divide el tamafio de la poblaci6n N por el de la muestra n. viene referida al diseno muestral en el supuesto de que la investigaci6n estadistica no tenga caracter de exhaustiva. J.j ] j I ! I J 'j 'j i1 II ~ 1 1 t 1 1 i I • r 1 J i j I 1 1 :1 cilia.I 'I' 1 1 1 j j maciones para cada estrato 0 subpoblacion en los que hemos dividido la poblaci6n objeto de estudio. etc. hacer un listado de productos que se van ago­ tando para responerlos cuando vamos a la compra. empleando una tabla de nnmeros aleatorios se elige uno que este ·comprendido dentro del cociente dado por el resultado anterior (si N = 100 y n = 5. sin submuestreo. . J. Se distinguen varios tipos de muestreo por conglomerados: de distintos tama­ nos. Si.a. • Cerradas: son aquellas cuyas posibles respuestas estan listadas. media yalta de forma que si se efectua un muestreo dentro del mismo se obtenga informaci6n de los distintos niveles que pueden alcanzar los ingresos de las unidades familiares. Este procedimiento sedenomina sistematico ya que 10 nnico que tiene aleatorio es el arranque. a los ordenadores personales en su hogar? Senale todos los que Ie parezean. Los tipos de muestreo que se estudian son: a) Muestreo aleatorio simple (m.s. a un PC en su hogar de todos los siguientes?: D Para escribir cartas. Los tipos de muestreo que hemos visto anteriormente no suelen aplicarse en estado puro cuando deseamos medir caracterfsticas de unidades de consumo (familias) 0 de producci6n (empresas) por razones de carencias de marco (inexistencia de soportes que contengan numerados todos los elementos de la poblaci6n) 0 por razones de coste (el metodo de selecci6n conlleva tal dispersi6n en la localizaci6n de las unidades . requieren el dominio de la Teoria del Muestreo en Poblaciones Finitas que es una materia compleja a la que se dedican cursos completos para obtener un nivel de conocimientos adecuados.a. La segunda tarea que se relaciona en el grafico 2. D Hacer un invetario de productos no perecederos. por la forma de realizarse: directas 0 indirectas. Otros aspectos que permiten clasificar las preguntas son: por el numero de respuestas que permiten: dieotemicas (dos respuestas) 0 de respuesta multiple. el segundo seria 12 + 20 = 32.. Esta numeraci6n tiene que estar hecha alazar para evitar posibles sesgos sistema­ ticos a la hora de medir la caracterfstica de interes en nuestro estudio. hacer un presupuesto por partidas de gastos con un seguimiento semanal.r. etc. D Llevar la contabilidad del hogar.a. 'j ~ DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 29 . se desea investigar la renta de los hogares de la Comu­ nidad de Madrid se pueden agrupar en tres estratos 0 grupos: renta baja. YSANTOS-PENAS. es que para utilizarlo es absolutamente nece­ sario tener numerados del 1 al N todos 10 elementos de la poblaclo». EI inconveniente de este disefio. EI entre­ vistado escoge una 0 varias respuestas de las que se Ie presentan. etc. de tamafios iguales. Los elementos de la poblaci6n objeto de estudio se numeran del 1 hasta N y se seleccionan n de forma aleatoria (empleando tablas de mimeros alea­ tori os) que constituyen una muestra aleatoria sin reemplazamiento (un lnisnio mimero aleatorio solo aparece una vez) representativa de todo el conjunto. N In = 20. Si queremos cerrar la pregunta de los usos que se dan a los ordenadores personales en el hogar serfa: . el cuarto 52 + 20 = 72 y el quinto elemento muestral serfa 72 + 20 = 92). En esta cuesti6n nos encontraremos una gama variada de respuestas: hacer un inventario de 'las existencias de productos alimenticios. d) Muestreo sistematico: Es una forma muy sencilla de selecci6n de la muestra dada en una poblaci6n numerada dell hasta N.). EI disefio tambien puede efectuarse conreemplazamiento (m. La estratificaci6n consiste en dividir la poblaci6n en grupos que sean homogeaeos internamente respecto a la caracterfstica que estemos estudiando y que existan grandes diferencias entre unos y otros estra­ tos. Como recomendaci6n final en la elaboraci6n de un buen cuestionario hay que hacer constar la absoluta necesidad de someterlo a una prueba piloto 0 pretest con objeto de aseguramos su buen funcionamiento antes de proceder a su edici6n. para un mismo tamafio n de la muestra. EI disefio de muestras proba­ bilisticas. EI total de la muestra que se emplee puede distribuirse de forma proporcional a la poblaci6n de cada estrato 0 emplear otros criterios que pueden estudiarse en los manuales de Muestreo de Poblaciones Finitas.s. que son las que deben emplearse en toda toma de datos.r '. D Como pasatiempo con videojuegos.j 28 CASAS-sANCHEZ. el tercero serfa 32 + 20 = 52. por ejemplo. b) Muestreo estratificado: Es un disefio que se emplea mucho en la prac­ tica ya que permite mejorar la fiabilidad de las estimaciones respecto al m. confeccionar un archivo con telefonos y direcciones de nuestras amistades y proveedores.1) elementos muestrales restantes suman­ do al que se ha elegido de forma aleatoria el resultado del cociente (si en el ejemplo el aleatorio ha sido 12. se elige de forma aleatoria un mimero entre 1 y 20) y por ultimo se obtienen los (n .interesantes.Que usos dana Yd. Tambien nos permite obtener esti­ j j I ~ J il e) Muestreo polietdpico 0 complejo: Es el que se aplica en la practica cuando se hacen estudios sociales.): Es la forma de muestreo mas sen­ 1 . Un ejemplo de pregunta dicot6mica y directa seria: ~Es Yd. M. con submuestreo. En el ejemplo de los hogares un conglomerado debe tener unidades de renta baja.1.

Este ultimo ejemplo es 10 que se conoce por muestreo por cuotas que se emplea normalmente en los sondeos de opini6n y estudios de mercado ya que no exige la elaboraci6n de listados previos de los elementos que se van a se1eccionar.. el sociologo de una empresa toma una muestra de empleados para saber su edad cogiendo. Por estas tazones en la practica hay que acudir al muestreo polietapico o complejo.1 es elaborar el material auxiliar que sea necesario para que la recogida de infor­ maci6n tenga los men ores errores posibles ajenos al muestreo propiamente dicho: hojas de control del trabajo de campo que contienen listados de direc­ ciones donde hay que hacer las entrevistas.s. cartas de presentaci6n. una determinada probabilidad de ser elegidos. Tiene el grave inconveniente. Como cuarta tarea de la segunda etapa aparece la recogida de los datos propiamente dicha. utilizando los nnmeros del D.30 CASAS-sANCHEZ. Es la tarea esencial ya que la calidad de los datos depende 1 1 . instrucciones generales para cumplimentar los cuestionarios. partes de incidencias que puedan darse en el marco de la investigaci6n. a 20 personas para entrevistarlas con la nnica condici6n de que el 50 % sean hombres y el 50 % mujeres.~. J.a. segtin su criterio. •.s..~ ­ .. i . i ~ 1 . Veamos esta problematica con un ejemplo. a un entrevistador se le ordena que en una manzana de casas escoja al azar. Tambien es probable que ni el Minis­ terio del Interior ni el Instituto Nacional de Estadfstica puedan por Ley utilizar esa informaci6n para facilitar la muestra al Ministerio de Cultura. etc. el muestreo no es probabilistico.. se seleccionaran las 3. capitales de provincia. pueblos pequenos. . material de inspecci6n. median os. en segundo lugar (primera etapa de se1ecci6n) se eligen municipios con probabilidad proporcional a su tamafio (muestreo por conglomerados).000 personas con su nombre completo.s. Cuando en e1 proceso de se1ecci6n existan unidades poblacionales que no tengan probabilidad conocida y utilizada en laselecci6n para entrar a formar parte de la muestra. direcci6n y demas datos personales. Y SANTOS-PENAS. las viviendas que correspondan. Todos tienen en comiin que los elementos de la poblaci6n que entran a formar parte de la muestra se han obtenido por procedimientos de azar y todos tienen. J. existen dos graves impedimentos: elevado coste y no disponibilidad de ficheros de poblaci6n para seleccionar aleatoriamente la muestra. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 31 de la poblaci6n que hacen inviable el estudio desde el punto de vista econ6­ mico).~ \1 -. como todos los no probabilisticos. En esta etapa los municipios grandes de las capitales de provincia suelen estar autorrepresentados eligiendose de forma aleatoria s610 los medianos y pequefios. M. Estas personas estarfan muy dispersas por todo el territorio: zonas rurales.a.a.J aplica realmente en los estudios socio-econ6micos es una mezcla de los distin­ ros tipos de muestreo que se estudian con 10 que los diseiios reales son complejos y su puesta en practica requiere el concurso de verdaderos especia­ listas en la materia. s610 las 50 primeras fichas de un montante de 500. a dos en una capital de provincia y asf sucesivamente se tendrfa un perfodo largo y dificultoso en recogida de informaci6n con costes de desplazamientos y dietas de los entrevistadores elevadfsimos. Luego en este diseiio de m. Una vez seleccionadas las vivien­ das. segtin su criterio personal. f) Muestreos no probabiltsticos: Los muestreos que se han comentado de forma abreviada anteriormente son todos probabilisticos. y tambien por un procedimiento de m.s. En estas manzanas. Supongamos que el Ministerio de Cultura desea entrevistar a la poblaci6n espanola mayor de 18 anos para conocer con que periodicidad se visitan los museos.~ '. La principal ventaja de utilizar un muestreo no probabilistico por cuotas es que abarata mucho la recogida de informaci6n. Los municipios grandes elegidos en la primera etapa se vuelven a estratificar (muestreo estratificado) en distritos de naturaleza homogenea respecto a caracterfsticas socio-econ6micas. Para seleccionarlas por un procedimiento puro de m.. Se pueden poner multitud de ejemplos de muestreos no probabilisticos: un investigador de un lab oratorio toma una muestra de conejillos introduciendo su brazo en una jaula con 10 que s610 eligira los que esten a su alcance.a.N. etc. Estos conglomerados nltimos (manzanas de viviendas) que se han elegido suelen ser bastante homogeneos en cuanto a las caracterfsticas socio-econ6micas de las personas con 10 que se aconseja realizar en cada uno un maximo de 10 entrevistas. Habrfa que entrevistar a una persona en un pueblo.I. a otra en una pedania. que carecen del rigor cientffico necesario para estimar los posibles errores muestrales que se comenten al estimar carac­ terfsticas poblacionales a traves de subconjuntos muestrales ni se pueden establecer intervalos de confianza para las estimaciones. Se eligen en una se­ gunda etapa de selecci6n una serie de estos distritos 0 manzanas de naturaleza equivalente a las secciones censales disenados por el INE (muestreo por con­ glomerados).. se selecciona las personas mayores de 18 alios a entrevistar. Se considera que a nivel nacional una muestra de 3. antes de ser seleccionados. podrfa acudir a la Direcci6n General de la Policfa y solicitar que de forma aleatoria. '1 .000 personas es suficiente. La tercera tarea que se resalta en la segunda etapa del grafico 2. a priori. En el esquema descrito anteriormente se observa que el muestreo que se ' r~ - . carnet de entre­ vistador. elegidas en la segunda etapa hay que hacer un listado de todas las viviendas que contienen y sobre e1 mismo elegir me­ diante m. No es probabilistico al no seleccionar unidades de acuerdo con probabilidades conocidas y preasignadas por el investigador. La nnica soluci6n viable suele ser acudir a un muestreo polietapico ejecu­ tando el siguiente diseiio muestral complejo: en primer lugar se estratifican (muestreo estratificado) los micleos de poblaci6n por cruce de Comunidades Aut6nomas y tamano de habitat.

La entrevista se desarrolla segun la secuencia que indica el ordenador en su programa de ejecuci6n que tambien incorpora controles de inconsistencias. Existen dos tipos fundamentales de distribuciones de frecuencia: las de valores de la variable 0 datos no agrupados y las de datos agrupados en intervalos de clases. de componentes principales y correlaciones can6nicas). etc. estimacion de los parametres del modelo. por telefono. su representacien graflca. sus medidas de posicion. En la modalidad de entrevistas telefonicas asistidas por ordenador se emplea el mismo procedimiento metodo16gico indicado anteriormente con la enorme ventaja que los agentes entrevistadores no tienen que desplazarse con la con­ siguiente reducci6n de costes y tiempo invertido. M. Son unidimensionales porque s6lo observamos una caracteristica (sus valores pueden representarse en el espacio de una dimensi6n) en los elementos de una poblaci6n (investigacion censal) 0 de una muestra (encuesta muestral). El personal que interviene suele dividirse en: entrevistadores. de dispersion. . modelos causales (regresiones de todo tipo y analisis de la varianza). contraste de las hipotesis iniciales del modelo. se codifican las preguntas que 10 exijan. pasamos a analizar el proceso de elaboraci6n de 10 que se llama en la Estadfstica Descriptiva distribuciones de frecuencias unidimensionales. Tambien hay que tener presente los errores ajenos al muestreo que hay que tratar de minimizarlos ya que los sesgos que introducen en las estimaciones pueden llegar a invalidarlas: cues­ tionarios mal disenados. se almacenan los ficheros completamente depurados Iistos para some­ terlos al programa de tabulaci6n. se ha debido de definir el tamafio de la muestra que asegura unos errores maximos de muestreo para un determinado nivel de fiabilidad. modelos de agru­ paciones y clasificaciones (analisis de grupos y discriminante) y modelos dina­ micos 0 de series temporales (estocasticos y no estocasticos). Otra variante que se utiliza actualmente son las entrevistas personales asistidas por ordenadores portatiles. Para cada una de las variables que se han medido conviene obtener su distribucion de frecuencias.4. Si se emplea este moderno procedimiento los entrevistadores tienen que estar entrenados en el manejo de estos costosos equipos. que se ve compensada con el ahorro de grabaci6n y validaci6n necesarias en los cuestionarios tradicionales editados en papeI. J. J. depuradores. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 33 I II. los ficheros se someten a un pro­ grama de validacion que saca los Iistados de inconsistencias. se corrigen y. Construccion nurnenco y grafica de las distribuciones de frecuencias unidimensionales Una vez que se han precisado los distintos conceptos basicos que se emplean en la elaboraci6n de datos estadfsticos. con 10 que se obtiene la informaci6n de manera instantanea completamente depurada y coherente enviandose por disquette 0 por m6dem a la central de procesamiento. Si la encuesta se ejecuta por un procedimiento clasico (cuestionario editado en papel y agente entrevistador sin ordenador personal). La tercera y Ultima etapa denominada esttmacien y descripcion de parame­ tros poblacionales se compone de tres tareas fundamentales: analisis descriptivo primario. grabaci6n de datos deficiente (siempre hay que veri­ ficar con una doble grabaci6n). hay que plantearse el grado de fiabilidad de las estimaciones a traves del calculo de los errores de muestreo a posteriori. En el caso de las entrevistas personales 0 telef6nicas asistidas por ordenadores el tratamiento de la infor­ maci6n (grabaci6n y depuraci6n de inconsistencias) se realiza de forma auto­ matica. de forma. por correo. Tras acceder al entrevistado el entrevistador conecta su ordenador y va ejecutando el programa de la entrevista de forma que automaticamente va detectando las inconsistencias que han sido programadas previamente. codificadores. en la primera etapa cuando se definen los objetivos de la investigaci6n. En las entrevistas personales los agentes entrevistadores van provistos de los respectivos cuestionarios editados en papeI. cuando el estudio no es exhaustivo. La Ultima tarea de la segunda etapa del proceso de investigaci6n estadistica es el adecuado tratamiento de los datos. _ Despues de obtener estas primeras descripciones y medidas. .32 CASAS-sANCHEZ. grabadores. jefes de grupo. etc. ~ 15 . que requieren una inver­ si6n inicial considerable. el tratamiento de la informaci6n sigue el proceso siguiente: se agrupan los cuestionarios cumpIi­ mentados en la sede central del trabajo estadistico. de su correcto desarrollo mediante el adecuado manejo de sus multiples fac­ tores: entrenamiento del personal que interviene y modalidad empleada en la recogida de los datos (entrevistas personales. A priori. etc. validaclen y resultados finales.). Por ultimo. validaciones inadecuadas y mala actuacion de los agentes entrevistadores.. En estos analisis especiales es donde se puede plantear la modelizaci6n estadistica en su maximo nivel: postulado del modelo. inspectores. Una vez que los datos estan depurados de todo tipo de inconsistencia se deben someter a un analisis descriptivo empleando los metodos de Estadistica Descriptiva que se estudian en el presente capitulo y el siguiente.'­ I I} ~ 2. una vez que se han hecho los estudios descriptivos y de fiabilidad correspondientes es cuando se pueden plantear los analisis especiales multivariantes de los datos: modelos de reduccion de la dimension (analisis factoriales. Y SANTOS-PENAS. por ultimo. que estan supervi­ sados por una Direcci6n de trabajos de campo. etc. estlmaeion de errores y analisis especiales multivariantes. Estas defini­ ciones previas hay que contrastarlas con los calculos de errores muestrales para los distintos ambitos del estudio y las distintas variables observadas una vez que tenemos las primeras estimaciones. se grab an de forma masiva.

2. i ' Ii Ii il: i 1 .. Valores de la variable Xi -'>~ ~ n l .) que llamamos distribucion de frecuencias unidimensional de datos 0 valores no agrupados.l ·f ) '1 x z.. . Distribuci6n de frecuencias unidimensional con los datos no agrupados. Distribuci6n de frecuencias unitarias. Y SANTOS-PENAS. x r ) de forma que ninguno esta repetido.300.~ . Ejemplo 2.3: 1 . . expresadas en miles de euros son: 200. AI proceso que hemos descrito se le denomina tabula­ cion de datos y cuando se culmina se obtiene un conjunto formado por valores orden ados de menor a mayor (caso de variables que admitan este proceso) que tienen asociados el nnmero de veces que han aparecido (n. Cada valor Xi esta ponderado por el mimero deveces que ha aparecido. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 35 2. Xi ~ 1 . . Este tipo de distribuciones surgen cuando la variable X toma pocos valores y ninguno se repite.~i Definicion 2.1.. Se presentan en tablas que tienen la siguiente forma: TABLA 2. J. I I I '" Puede observarse en la tabla 2. I. con 10 que las frecuencias absolutas ni son todas unitarias. Realicemos el siguiente proceso: se observan los distintos valores 0 modalida­ des de la caracteristica.4. Supongamos que las rentas anuales de cinco familias. n.. Definicion 2. ordenados de menor a mayor. Los datos estadisticos se presentan en la Tabla 2.•' 150 175 200 250 300 ~i "~ :~ . Distribuciones de frecuencias unitarias. si es una variable que admite ordenaci6n se ordena de menor a mayor y como puede haber valores que se repitan se agrupan todos elios. Xi' •••... Distribuciones de frecuencias unidimensionales con los datos' no agrupados Designemos con X la caracterfstica (puede ser una variable 0 un atributo) que deseamos observar en los elementos de una poblaci6n 0 de una muestra. representado por su respectiva frecuencia absoluta ni .... M. .2. Xi' •••. Pueden darse dos tipos de distribuciones de frecuencias de datos no agru­ pados: las que no tienen valores repetidos 0 de frecuencias unitarias y las que tienen valores repetidos y por tanto..250 Y175. ni .BLA 2. II.. Llamamos distribucion de frecuencias unidimensional de la caracterfs­ tica X al conjunto de los r datos distintos.1 que no se expresan las frecuencias abso­ lutas ya que son todas unitarias. 1.. Llamamos distribucion de frecuencias unidimensional unitaria de la caracteristica X al conjunto de los r datos distintos y ordenados de menor a mayor (Xl' X z.1. Distribucion de frecuencias de la renta de las familias. Con esta informaci6n construir la tabla de la distribuci6n de frecuencias. acompafiados de sus respectivas frecuencias absolutas: Xl' i. ponderando en el analisis de la misma forma todos los valores Xi..1 I ':f :····1·:· ~ ·1. n z. 150. Ii! 'I: 'I In' " r. Soluci6n: La tabulaci6n es inmediata y simple ya que basta con ordenar la variable de menor a mayor: T A..34 CASAS-sANCHEZ. Xr . . Xl 4 1 :i ~z Xi X. Si e1 valor 0 dato Xi se repite ni veces a este se le denomina frecuencia absoluta de dicho valor. J. alguna 0 algunas de sus frecuencias no son unitarias.} i 1 Este tipo de distribuciones se elaboran cuando la caracterfstica X toma pocos valores pero se repiten un gran numero de vecescon 10 que las frecuencias ya no son unitarias.

2 En una comunidad de vecinos se ha preguntado a las 20 familias que la componen. M. con 10 que expresamos el porcentaje de veces que aparece el valor Xi en el conjunto de todos los datos. frecuencia total. 2 en 4 familias y por Ultimo. trabaja 1 persona en 10 familias. a1 ser taotos por uno.1.= L i= 1 i=1 . En este supuesto la suma en vez de la unidad sera 100. 3 y 4 que se repiten un cierto mimero de veces luego nos conviene calcular las frecuencias absolutas ni . Estos posibles valores x. En el ejemplo 2. Xi X. Llamamos total de datos 0 frecuencia total. J. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 37 2.j :1 :1 ». !. Existen 4 familias en las que trabajan cero personas. 4 10 4 1 L /.36 TABLA CASAS-sANCHEZ. debe ser la unidad: . TABLA ni /. al ser las frecuencias unitarias la columna de las n.3.2. el numero de personas que trabajan en cada una.=N 2. Total de datos 0 nl n2 nj n. son: 0. Frecuencia relativa de un determinado valor de la variable Llamamos frecuencia relativa del valor de la variable Xi al cociente entre la frecuencia absoluta de dicho valor y el numero total de datos N: Xi' Existen pocos valores de la variable 0 caracteristica numero de personas que trabajan en la familia que la representamos por el sfmbolo matematico X. Las respuestas han sido recogidas en el siguiente cuadro: 1 024 3 20 1 1 2 1 1 o 1 1 1 1 1 0 2 En el ejemplo 2.4. ni aparece con 10 que el total de datos sera el numero de valores de la variable: N=5. 1. Valores de la variable Xi Xl X2 Frecuencias abselutas n. Xi j~ De la definici6n anterior se deduce que la suma de las frecuencias relativas. J. Definicion 2. Distribucion de frecuencias unidimensional con los datos no agrupados del numero de personas que trabajan en 20 familias.3. y la denotaremos por N ala suma de todas las frecuencias absolutas ni• 0 sea: N= L i= 1 r ni Ejemplo 2. Vamos acontinuaci6n a establecer nuevos conceptos que aparecen en las distribuciones de frecuencias.l 1 .4 nos da la distribuci6n de frecuencias de esta situaci6n. y SANTOS-PENAS. /.4. trabajan 3 y 4 personas en una sola familia respec­ tivamente. r n· l' 1 ~=ni=-·N= 1 N N L i=1 N o 1 2 3 4 1 i :~ :'1 Las frecueocias relativas se pueden expresar tam bien en taotos por cien con la simple multiplicaci6n 100. Distribuciones de frecuencias unidimensional con los datos no agrupados. Solucion: Definicion 2. La Tabla 2.2 N= L i=1 5 ni = 20 A partir de esta informaci6n construir la tabla de la distribuci6n de fre­ cuencias.

Frecuencia absoluta acumulada ascendente.NJ = N . I- ] I 1 .l. J. '1 38 CASAS-sANCHEZ. 0 sea: Xl j 1 .Ni N~ NI 1 j I .N = 0 De estas expresiones se deduce que: Nr = I i nj Nr + Nt = N Las frecuencias relativas acumuladas tanto ascendentes como descendentes se definen de forma analoga s610 que se suman las I. que es con el que venimos trabajando.I Fr = I I.: = I Verificandose que: Ft = I fj 'J j=i+l Nl + nz i Ni = Ni-l + n NJ=N Fl = 11 F1=Fl+lz Fi = Fr-l + 1.\IAS.. Llamamos frecuencia absoluta acumulada ascendente de un deter­ minado valor de la variable ordenado (de menor a mayor) Xi al numero de datos que son menores 0 iguales a 61: Nt = N.j 1 I DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 39 Definicion 2.' 1 Luego la Ni contabiliza el numero de observaciones que existen hasta llegar al valor Xi bajo el supuesto. 1 Segun la definici6n 2. Definicion 2. Y SANTOS-PEJ. de que los valores estan ordenados de menor a mayor.N1 i~ !i'.I 1 .6..5 podemos escribir que: Nl = n l N1 . en vez de las n/ i j=l l.Nl N~ = N . j .. J. M.6 se establece 10 siguiente: Ni = N . Con la definici6n 2.FT I F~ = 1- FJ = 1 - 1= 0 De las expresiones anteriores tambien se deduce que: r . .Fl F~ = 1 . < x. Llamamos frecuencia absoluta acumulada descendente Nt de un de­ terminado valor ordenado Xi al nnmero de datos que son mayores que 61: r :j I 1 I j j I I I 1 FJ = 1 Por otro lado las descendentes se van obteniendo de la forma siguiente: Nt = I j=i+l ».1 = N . Fi = 1 . Frecuencia absoluta acumulada descendente. " I I Fr + Ft 1 = .5. j=l r < X z < .F1 F+ I = Por tanto la Nt contabiliza los datos que quedan a partir de Xi para llegar al total de observaciones N.

7. N n. 1. xj Distribuciones de frecuencias del ejemplo 2. son todas iguales a un ! c' . para X3 Soluci6n: Partiendo de los datos de la tabla 2.~ 40 CASAS-sANCHEZ.~i ~i quinto. relativas acumuladas ascendentes y relativas acumuladas descen­ dentes. x. = 0 F. ~i~ I~: Distribuciones de frecuencias absolutas. NT - . n. 1! q Xi n.!.2 se van construyendo las distintas columnas. absolutas acumuladas ascendentes. ~ Todos estos conceptos dan lugar a la siguiente tabla generica que nos representa las diferentes distribuciones de frecuencia en su sentido mas amplio: TABLA 2. Las acumuladas.18 = 2 .. M. f. absolutas acumuladas descendentes. absolutas acumuladas descenden­ tes.=N N. relativas acumuladas ascendentes y relativas acumuladas descendentes.N1 = 20 . .!. absolutas acumuladas ascendentes.4 Con los datos del ejemplo 2. @ t = 2 se han obtenido: I. I DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 41 Distribuciones de frecuencias con datos no agrupados. relativas. Las frecuencias relativas /. y SANTOS-PENAS. 1 1 1 1 1 h 1/5 1/5 1/5 1/5 1/5 Nl 1 2 3 4 5 N! 4 3 2 1 0 . . absolutas acumuladas as­ ...=. FT .. • N n· Nt FT . 1 F+ .1 obtener las distintas tablas de frecuencias absolutas. n.3 Con los datos del ejemplo 2. tabla de frecuencias relativas (columnas Xi y fJ. Fl Fl 1 .5.=N N. De esta tabla generica pueden obtenerse las tablas parciales que se deseen con s610 relacionar los valores de la variable Xi con cualquiera de las frecuen­ cias: tabla de frecuencias absolutas (columnas Xi y nj ) . Ftj 1/5 2/5 3/5 4/5 1 F! .6..1. = Soluci6n: Haciendo operaciones y teniendo en cuenta las definiciones dadas tenemos: TABLA 2.2 obtener las tablas de frecuencias absolutas.. La primera de las frecuencias absolutas son todas la unidad ya que no se repite ningnn valor. absolutas acumuladas descendentes. relativas. ~ :~ ~ 0 1 2 3 4 16 6 2 1 0 16/20 6/20 2/20 1/20 0 N=20 Asf. = F. relativas.. x. F1 4/20 14/20 18/20 19/20 1 F~ . I i . 1. N! Nl1 Nl2 . 4 10 4 1 1 ~ h 4/20 10/20 4/20 1/20 1/20 Nl 4 14 18 19 20 M . Ejemplo 2. N n. Xl 11 = n1 N Nt1 Ft 1 Ft 2 X2 n2 12= N m NT I Fl 2 150 175 200 250 300 4/5 3/5 2/5 1/5 0 N=5 x. n. cendentes.. relativas acumuladas ascen­ dentes y relativas acumuladas descendentes. tanto ascendentes como descendentes si varian por pro pia definici6n: TABLA 2. nj J.c [:. r~ n3 4 f3 = N = 20 N1 = N~ I I 3 nj = n 1 + nz + n3 = 4 + 10 + 4 = 18 j=l = N .. n1 n2 h=. tabla de frecuencias absolutas acumuladas ascenden­ te (columnas Xi y NJ) Yas! sucesivamente.r . 0 Ejemplo 2. por ejemplo.

no podremos conocer su valor exacto sino s610 que se sittia dentro de unos lfmites determinados. (L2 . supuesto que los datos observados estan ordenados de forma creciente como hacemos en las caracterfsticas cuantitativas.2 . La tabla de frecuencias se construye de la forma siguiente: en la primera columna se describen las distintas modalidades. para los distintos valores de la variable Xi' Todo 10 dicho anteriormente esta referido a observaciones de naturaleza cuantitativa.1 . 15 viudos y 10 divorciados. - Xl = max i {X. Y SANTOS-PENAS.9. . Y Xl) podemos agrupar los datos en intervalos del modo siguiente: [Lo' L 1J. 2. frecuencias) como se indica en la tabla 2. Estos intervalos s610 tiene sentido en el caso de variables cuantitativas en las que se puede aplicar las escalas que Bevan este nombre 0 las de raz6n. L 3J.4. el intervalo (L i .. LkJ x Casado Viudo Soltero Divorciado . ~ 100 50 15 25 10 100 siendo L o = Xl Y L k = X r · Asf. (L1 .constante 0 variable.20 En este ejemplo las frecuencias relativas tambien se han expresado en iantos por cien ya que muchas veces se suelen presentar de esta forma en vez del tanto por uno que venimos calculando. Esta perdida de informaci6n se compensa con una mayor manejabilidad de la distribuci6n. ya que si sabemos que un dato se encuentra dentro de un determinado intervalo. Distribucion de frecuencias del estado civil. Una vez determinados los datos maximo y mfnimo de una variable es­ tadfstica (x. 1. 3 DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 43 F1 = j=l L F~ = 1 - 4 10 4 _ 18 Jj = 20 + 20 + 20 . 25 solteros. TABLA 2. La ala cantidad C i .} Ejemplo 2. Antes de senalar c6mo se elaboran los intervalos vamos a definir 10 que se conoce como recorrido 0 rango de la variable X en estudio que 10 designamos por R: R = Modalidades de la caracterfstica x ni J.. Llamamos amplitud del intervalo (L i .42 CASAS-sANCHEZ. ndN n2/N njN nr/N M1 M2 Mi n1 n2 ni nr N u.10.. en la segunda se registran las frecuencias absolutas y en la tercera las relativas.1 . 50/100 15/100 25/100 10/100 1 J. siendo n. (Lk. M.8. TABLA 2.1J Y (Lk. La agrupaci6n de los valores de la caracterfstica que se este analizando en intervalos de clases tiene el inconveniente de producir una perdida de infor­ maci6n. Tabla de frecuencias de datos cualitativos.2. LJ.} - min i {X. Distribuciones de frecuencios unidimensionoles con los datos ogrupodos en intervolos de closes Este tipo de distribuciones se elabora cuando el nnmero de valores que puede tomar la caracterfstica de interes es muy elevado con 10 que es necesario agruparlos en intervalos de clases.5 En 100 personas mayores de edad se ha observado que 50 son casados. 0 sea. Lk. la frecuencia absoluta de datos contenidos en . L 2J. no tiene ninglin sentido el calcular frecuencias acumuladas. 1 x. F1 = 1 - 18 2 20 = 20 y asf sucesivamente. Con los datos anteriores construir la tabla de frecuencias de la variable cualitativa 0 atributo denominado estado civil.L i - 1 .1 . ni 50 15 25 10 N= 100 J. Los intervalos pueden construirse con amplitud -diferencia entre ellfmite superior e inferior. ci = L i . la distribuci6n agrupada de frecuencias esta determinada por el conjunto de elementos (intervalos. nos referimos a un atributo que toma distintas modalidades. Si la variable es cualitativa. J.

600 13. dado que el recorrido R = X2 5 . L 1 ] (L 1 . etc. el valor comun c = R/k =.000 = Intervalos (L. c = 5. Una posibilidad es elegir como amplitud de cada clase.000 L1 L2 + ci La tabla de frecuencias con los datos agrupados en intervalos de clases equi­ valente a la tabla 2. podemos agrupar estos datos de modo homogeneo en cada grupo. 2. y SANTOS-PENAS.000.000 L3 = L2 - L4 = ~ +c= L3 + c = X 25 17.000 + 9.5. c = 10..10..000 21. e igual a c Ci = c.~ 44 verificandose que CASAS-sANCHEZ. Lk-a (L k 1.000 7.540 25.000.000.320 18. 0 bien. pues k 5 [L o.210 15.000 14.=1 L c..500 7. L.075 24.000 = 2 11. M.085 20.800 10.325 17.000 y la maxima es de 25.000 si k = 10. = L o + c = 5.~-.280 5.-12+L· = L. Tabla de frecuencias con los datos agrupados en intervalos de clases.".500 17.800 19. n1 n2 J.900 21.2 .200 13.050 13. . es de 5. Otras posibilidades son: si k = 4.000/5 = 4.000 = 2 7.000 Y los datos no tienen frecuencia ab­ soluta mayor que 1 en todos los casos. 4 Y 5: L o = Xl = 5.600 22. en los 25 dias considerados. J.050 10..000 15. como hemos visto previamente.000 podemos denotar por Xl = 5.= L (Li-Li_1)=Lk-Lo=xr-X1 =R i= 1 k Un comercio ha abierto sus puertas al publico durante 25 dias de un mes y ha obtenido las siguientes recaudaciones: 16. DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 45 Ejemplo 2.1 N"2 Ft 1 Ft 2 • F"1 Las marcas de clase son: X F"2 1 = Lo + L 1 5.000 si k = 2.300 11.1 nk he-1 he NlNt k 1 Nk-1 N" k Fl~l Fk-1 F" k X2 = + L2 2 Fl 9.000 = 20.000 12.000 . X k.1 LJ Xk nk .000 .000 = L 1 + c = 9.000 + 13. llamamos marca de clase del intervalo (L.-l 1 c +_i 2 Dado que la recaudaci6n minima. Si la arnplitud comun a las 5 clases es 4. los intervalos son: puesto que al ser ci la amplitud del intervalo.760 23.-1' LJ a su punto medio denotado Xi: :! Xi = L. 11 12 NT I N" I Fi I F" I L5 = = L 4 + c = 25. = k-c = R k de donde la amplitud comun de los intervalos resultaria ser: c=R/k A efectos operativos.090 21. J. c = 2.-l' LJ Marca de clase (x.000 = 13. (i = 1. = X 2 5 = 25.000 2 L1 (L k.000.000 y x. 3.= 20. Los r = 25 datos observados pueden recogerse en una tabla de frecuencias. = L i 1 Para i = 1.Xl = 25.5 de valores sin agrupar sera: TABLA 2.000. L 2 ] Nt 1 Nt 2 N" .000 = 9. k) entonces i=1 L c.6 k .000 + 4.700 Si la amplitud de todos los intervalos es constante.000 + 4. 2. si queremos agrupar los datos en k = 5 clases.) Xl X 2 n.

000J 25.25.000. 2J (2.500 187/1.500 1 0 N=25 2.7 Una sociedad del sector maderero ha adquirido troneos de cierta variedad forestal para su posterior transformaci6n.50. pero nunea deben sustituir al .500 10/1.000J 21.000. Tabla de frecuencias con los datos agrupados en intervalos de clases.000] 13.50 .375 0.000 15. (13.280 . hasta Cs = 5 . (21. (17.000] es debido a los 3 datos: 7. 1. aunque se gana en facilidad de uso. a c3 = 1 .50 = 0.500 28/1.350 .500 18/1.50J (0."r-:. 0.000J 17.235/1.5 3.25J (0. a c4 = 2 . LJ ni 1. 1.000 23.000 La amplitud de los intervalos puede no ser comtin. 9.0. y podrfamos tener intervalos de diferente amplitud. 1J (1. 7.235 187 50 18 10 1.422 1.235/1. El distribuciones de frecuencias de datos cualitativos En la Estadfstica Descriptiva las representaciones graficas tienen la ventaja de que el impaeto visual nos proporciona de forma instantanea una visi6n global del reparto de los datos observados. se observa que las amplitudes de los intervalos de volumen de madera es creciente.000J 21.5 Frecuencias absolutas 1. (13.25] (0. Marca de c1ase 7.000.500 NJ 1.1 = 1. a c2 = 0. 0.75 1.5 3.472 1. 3/25 4/25 7/25 5/25 6/25 1 NtI 3 7 14 19 25 M pt I I P" 1 22/25 18/25 11/25 6/25 0 9.000J 13.235 187 50 18 10 1. 5.000 11.000 11.500 Xs = La tabla agrupada de frecueocias resultara: Intervalos :. M.000 3 4 7 5 6 22 18 11 6 0 3/25 7/25 14/25 19/25 1 [0. 1. La tabla eompleta de los distintos tipos de frecuencias queda de la forma siguiente: TABLA 2. 5J 0.125 0.3.25.000 23.25 = 0." 46 CASAS-sANCHEZ.25.50.500 1.000 Frecuencias absolutas 3 4 De esta tabla.50J (0. pasando de C 1 = 0.000.4. 1J (1. 0. Tarnbien se aprecia que la mercancfa es tanto mas frecuente cuanto menor sea su volumen.12. (9.25.000J ° 7 5 6 La frecuencia absoluta 3 del intervalo [5.000 resultado de esta operaci6n ha sido recogido en la siguiente tabla agrupada de freeuencias: Intervalos (en nr') [0.375 0. (17.490/1.500 78/1.500 J: 1.422/1.25 = 0. (21. 9.000 19.000. Al recibirlos.235 1.000J 7. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 47 x3 2 = L + L 3 = 15. J. . Representaciones gr6ficas para Ejemplo 2. Es sencillo advertir que agrupando datos se pierde informaci6n de la variable estadfstica.50. Xi (Li - l' LJ n. Xi (Li [5.125 0. Ff I Tabla defrecuencias con los datos agrupados en intervalos de clases. 0.500 10/1.5 1. y 2 L 4 + L s = 23.000.500 1. ha decidido c1asificar­ los segun tramos de metros ciibicos de volumen de madera por unidad.11.000.75 1. y SANTOS-PEl'lAS. La tabla completa de las distintas freeuencias sera la siguiente: TABLA 2.000 19.000. 5J X4 = L 3 + L 4 = 19.000 15.0.490 1.500 1. 2J (2.000.500 Nl 265 78 28 10 0 FJ .500 265/1.000.000 2 Marca de c1ase (en m3) 0. (9.472/1.500 50/1.000.000J 25.000J 17.000.2 = 3 metros cubicos [5..

J. y SANTOS-PENAS.5. J. ni Digrama de sectores. en donde todos los rectangulos tienen la misma base y sus areas son proporcionales a las frecuencias absolu­ tas n. Las figuras mas empleadas para los datos cualitativos son el diagrama de reetangulos. oon 10 que no se puede realizar ningun analisis diferenciador de la importancia relativa de cada modalidad ya que todos tienen el mismo peso 0 importancia. diagrama de sectores 0 de pastel. solteros: 25.4.3. Grafico 2. viudos: 15 y diverciados: 10. nunca sustitutiva.2. Por ultimo los cartogramas son una representa­ ci6n por medio de un mapa que se utiliza cuando las modalidades estan contenidas en areas geograficas. Diagrama de sectores 0 de pastel para la caractertstica cualitativa estado civil del ejemplo 2. 50 40 30 20 10 CASADO VllJDO SOLTERO DNORCIADO u.5. de cada modalidad del atributo.4. Ahora bien. GRAFICO 2.5. casados: 50. en donde el area de cada sector es proporcional ala frecuencia de cada modalidad. con frecuencias no unitarias. CASADOS SOLTEROS VllJDOS DNORCIADOS GRAF"ICO 2. Grafico 2. en donde el tamano de las figuras es proporcional a las frecuencias de cada modalidad. pictogramas y cartogramas. Grafica 2. . Los distintos tipos de graficos son simplemente una forma complementaria. Si la distribuci6n de frecuencias es unitaria (pocas modalidades y no se repite ninguna) su representaci6n grafica carece de interes ya que los rectan­ gulos. podemos construir los siguientes graficos: Diagrama de rectangulos. M. I I GRAFICO 2.5.2. al tener todos la unidad por frecuencia absoluta. Diagrama de rectanqulos para la caracteristicacualitativa estado civil del ejemplo 2. Pictograma para la caracteristica cualitatioa estado civil del ejemplo 2. si los datos son los del ejemplo 2. Las dos primeras se dibujan bajo el principio de proporcionalidad entre las areas de los rectangulos 0 sectores y las frecuencias absolutas n.. - Pictograma. de describir la realidad que nos interesa. Los pictogramas consisten en reflejar las frecuencias de cada modalidad a traves de dibujos artfsticos cuyo tamano tambien guarda proporcionalidad con las frecuencias absolutas.48 CASAS-sANCHEZ.3. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 49 estudio analitico que es el que nos proporciona las conclusiones definitivas del fen6meno objeto de estudio. los sectores 0 las figuras de los pictogramas tendrfan todas el mismo tamafio.

5.5. n3 n2 nl i·· ns o Xl X2 X3 --------------x r X GRAFICO 2.50 CASAS-sANCHEZ. frecuencias absolutas dell (minima) hasta el 10 (maxima).35 0. Se sube 0 se baja un peldafio al pasar de cada valor de la variable al siguiente. Las funciones que las representan tienen forma de escalera ascendente 0 descendente.7 se representa e1 diagrama acumulativo ascendente correspondiente a las columnas Ni y Fi de la tabla 2.15 0. En cambio en la tabla 2.6 podemos comprobar con gran rapidez y de un solo vistazo que en la mayoria de las familias observadas (50 %) s610 trabaja una persona. Para cada valor de la variable Xi se deterrnina el punta (Xi' ND Ydesde e1 mismo se traza una linea paralela al eje I' I I i":: . segun se trate de Ni 0 Fi 0 bien de Nt 0 Ft. h' se obtiene dividiendo las absolutas ni por el total de observaciones que en este caso son N = 20). Nt.4. 1. Sobre cada valor de la variable cuantitativa Xi (ordenados previamente de menor a mayor) se levanta una barra cuya altura sea su frecuencia absoluta ni. En el grafico 2. ° Ii 0.50 0. Solucion: En el eje de abscisas del sistema cartesiano se anotan los cinco valores de la variable: 0. En el de ordenad as se pone la escala de las Con el grafico 2.8 Construir el diagrama de barras de la tabla 2. Fi y Ft de la tabla 2. 3 y 4. J. (La escala de las frecuencias relativas.4 del ejemplo 2.2.25 0.4.10 0. Diagrama de barras.6. DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 51 2.30 0.4 del ejemplo 2. para X 3 = 2 de 4. Representaciones gr6ficas para distribuciones de frecuencias ' de datos cuantitativos Vamos a estudiar en primer lugar las representaciones graficas de las distribuciones de frecuencias no agrupadas.3 se representa mediante 10 que se conoce como diagrama de barras. Es evidente que no tiene ningtin sentido e1 efectuar una representaci6n grafica de la tabla 2. La figura se construye utilizando un sistema de ejes cartesianos de forma que en el eje de abscisas se toman los distintos valores de la variable y en el eje de ordenadas las frecuencias absolutas. y se puede emplear en la misma figura una doble esca1a en el eje deordenadas ya que de unas a otras se pasa dividiendo por e1 total de observaciones. 2. Analogamente se puede construir el diagrama de barras para las frecuencias relativas.1 ya que al ser las frecuencias absolutas todas la unidad no nos aportaria ninguna informaci6n diferenciadora respecto a los distintos valores de la variable.5. M.05 ni 10 9 8 7 6 5 4 3 2 1 01 1 2 3 4 X Ii ni GRAFICO 2. Luego la grafica del diagrama de barras de la ta­ bla 2. siendo asf ambas esca1as proporcionales. y SANTOS-PENAS. Ahora se trata de representar las columnas NJ.2. El resultado de este proceso de construcci6n es el grafico 2. para X z = 1 de 10. Como en las variables cuantitativas sf tienen sentido las columnas de las frecuencias acumuladas.40 0.5.6. J.3 tendra la forma del grafico 2. Ejemplo 2.45 0. vamos a ver sus representaciones graficas a traves de las figuras denominadas diagramas acumulativos de frecuencias. La altura de cada peldafio viene deter­ minada por el valor de la frecuencia correspondiente (absoluta 0 relativa) y como siempre en el eje de abscisas estan los valores de la variable y en el de ordenadas las frecuencias acumuladas que corresponden a cada valor. Esta es la gran ventaja de las representaciones graficas: obtener conc1usiones con el impacto visual de la figura. Para Xl = se levanta una barra de altura 4. para X 4 = 3 de 1 y para X s = 4 de 1.20 0. Diagrama de barras de la tabla 2.

La curva. hay un nuevo salto de peldafio coincidiendo con el valor x 2 • As! sucesivamente hasta el Ultimo valor X.. 4 14 18 19 20 FT .7. y SANTOS-PENAS. 0.8.90 0. I I I I .l F! t ~ Nr-l Nz ----------------------------------1 --------------------------------~ t t I I I • Los datos anteriores se IIevan en forma de escala al eje de ordenadas y los valores de la variable aleje de abscisas del sistema cartesiano. te6ricamente hasta mas infinito.9 Construir el diagrama acumulativo de frecuencias asceridente. al existir la frecuenciaabsoluta n2 que se acumula a NI dando como result ado N1.7 hay que representar los datos de las columnas NI y F[ que son los siguientes: GRAFICO 2. sin incluir X 2. utiIiz~ndo los datos de la tabla 2.95 0. Diagrama aeumulativo de frecuencias ascendente. ° 2 3 4 X . como se indica en el grafico 2.70 0.Xr-l x I I I I I I I I : I I I I I I I I I I I I I I : I I I Ejemplo 2. NT .20 4 I I I I I I De la tabla 2. A partir de (x.8 viene por la izquierda desde menos infinito hasta que encuentra el primer valor Xl = 0 en el que hay un saito de peldafio nl "" NI = 4.7.--------: I I I I I I I I I I n_ : I I I I I I I I ' . y no se vuelve a acumular ninguna frecuencia con 10 que los peldafios de la escalera desaparecen. no se acumula ninguna frecuencia con 10 que la funci6n se mantiene en trazo grueso paralela al eje de abscisas hasta IIegar a x 2 • En este punto.95 1 ° 1 2 3 4 Ft I Nt Fr Fr. ° T:-----III I I I I I I I I Xl Xz---------. Justo en Xl tenemos n l = NI Y la altura del peldafio coincide con su valor. sigue paralela al eje de abscisas a esa altura de 4 ya que no acumula ninguna frecuencia hasta que IIega a x 2 = 1 donde se acumula n2 = 10 (nuevo saIto de peldafio) y pasa otra vez a ser paralela a la altura total N1 = n l + n2 = 4 + 10 = 14.70 Xr 14 GRAFICO 2. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES Xi 53 de abscisas de trazo continuo hasta la vertical del siguiente punto (Xi + l' NI+ 1)' Este trazo continuo viene por la izquierda coincidiendo con el.eje de abscisas. «Diaqrama acumulativo defrecuencias relativas acumuladas ascendentes». (La escala de las frecuencias relativas acumuladas ascendentes FJ se obtiene dividiendo la NI por el total de datos N = 20). N!) la funci6n se convierte en una paralela al eje de abscisas. J. As! sucesivamente hasta X s = 4 donde se da el ultimo saIto de peldafio de altura ns = 1 convirtiendose en una paralela hasta mas infinito a la altura total N1 = N = 20 para la escala de N[ 0 la unidad para F[. Solucion: I I 0. ya que ala izquierda de Xl (mfnimo valor de la variable) no se puede acumular ninguna frecuencia y no existen los peldafios de escalera. M. J. I ! it I I I Ft I Nl 20 19 18 Ft Nt _____ ~ I I I I I I i I I I I I I I 1 0. 4/20 = 14/20 = 18/20 = 19/20 = 20/20 = 0. ya que cualquier punto X del eje de abscisas con un valor igual 0 mayor que x. en el que la escalera tiene su Ultimo peldafio de altura n.20 0. te6ricamente desde menos infinito. la N! = N y la F! = 1. (La escala de las fre­ cuencias relativas acumuladas ascendentes se obtiene de las N[ dioidien­ dolas por el total de datos N). de Xl a X 2.90 =======================.52 CASAS-sANCHEZ.

. 54 CASAS-sANCHEZ. Esta claro que la informaci6n que suministran los graficos 2. .Nl con 10 que queda cancelado el punto (Xl' Ni). . Fl ~ N l ~. -I .j Ii N2 . Soluci6n: De la tabla 2. y SANTOS-PENAS. oj' i . . 16 6 2 1 0 F+. siendo 4 la magnitud del peldafio descendente en la mencionada vertical. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 55 i . o Xl X2 ---------. pasando al valor cero hasta mas infinito. . 100 x FJ) y las que tienen tres 0 menos son el 95 % de las familias. . inferior al primer valor de la variable Xl = 0.9. . . en la que baja el ultimo peldafio. -. A partir de este punto la funcion descen­ dente es paralela hasta encontrarse con la vertical de X 2 en la que vuelve a bajar un nuevo peldafio hasta N~ = N . . . ~I iii :! El diagrama acumulativo de frecuencias del grafico 2.~ . .-:: l.N1 = 20 . Cuando llega a la vertical de Xl baja un peldafio justo hasta la definici6n de Ni = N . X 4 = 3 que son 1 y para valores superiores a X s = 4 no existe ninguna observaci6n con 10 que la funci6n coincide con el eje de abscisas hasta mas infinito. «Diagrama acumulativo de frecuencias descendente» . . _____ L . . . o sea.5 darla como resultado el diagrama acumulativo descendente con la forma que se expresa en el grafico 2.10 0.I' I'i ~ ~ N ~ l _ -----~ Ii: F2 ~ i I. .i:! - J A. .------­ . II' Ii F r. ~i Fi N~ .N = 0. los datos superiores a X 2 = 1 ascienden a 6 manteniendose esta situaci6n hasta X 3 = 2 que pasan a ser 2. . Ejemplo 2. . = N . el 30 % tiene mas de una persona trabajando. .30 0. . los valores superiores al mismo acumulan 16 datos u observaciones obteniendose la Ni = N . . . J. o sea. . .. . i. . . como ya sabemos.Xr-l Xr x 1­I. La interpretaci6n de este diagrama acumu­ lativo de frecuencias descendentes es facil empleando la escala de Ft: el 80 % (Fi x 100) de las familias observadas tienen alguna persona trabajando.'1. . .- .4 = 16 -~I-. .8 nos indica que. ..9.1 ~.7 hay que representar los datos de las columnas junto con los valores de la variable son los siguientes: Xi Nt y Ft que Nt . . el10 % tiene mas de dos personas trabajando.Nl = 20 . -----l------+--.N1.10 Construir el diagrama acumulativo de frecuencias descendentes utilizando los datos de las columnas Nt y Ft de la tabla 2. .i. . I :i: GRAFICO 2. que coincide con el eje de orde­ nadas. M. ii.l ~ Nr-l ~: Ii I. .10 la funci6n acumulada descendente viene siendo paralela al eje de abscisas. . . el 5 % mas de tres y no hay ninguna familia que tenga mas de cuatro personas trabajando. ~ . las que tienen dos personas 0 menos trabajando. El proceso se repite sucesiva­ mente hasta encontrarnos con la ultima vertical del maximo valor x. ya que para cualquier punto X del eje de abscisas.:. del total de familias observadas. te6ricamente desde menos infinito. La funci6n se mantiene paralela hasta que encuentra la vertical de X 2 = 1 donde vuelve a descender el montante de 14 observaciones con 10 que N~ = N . J. I I .N~ = N .' r­ r. Justo al llegar a la vertical de Xl = 0.8 y 2. . La representaci6n de las columnas Nt y Ft de la tabla 2. son 18 que son el 90 % del total (dato dado por FI expresado en porcentajes. 16/20 = 6/20 = 2/20 = 1/20 = 0/20 = 0. La funci6n descendente viene te6ricamente desde menos infinito a la altura del total de datos N = N~ para la escala de las frecuen­ cias absolutas y de la unidad para las relativas.7. -J il! .I": I.05 0 0 1 2 3 4 :. . . . . .14 = 6. . . los superiores al mismo acumulan todas las observaciones 0 datos que ascienden a 20.80 0.10 es complementaria ya que como sabemos NI + Nt = N. . .! - En el grafico 2. . ya que N.

DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 57 '. luego las alturas de los rectangulos del grafico 2.000.56 '[ CASAS-sANCHEZ. La y n. 2.i. r .000.. 3 4 7 5 9. . 2. J. En cada intervalo (L i . Luego si el 80 % de las familias observadas tienen alguna persona trabajando. (13. ( 9. vamos a estudiar las representaciones graflcas de las distribu­ ciones de frecuencias agrupadas en intervalos de c1ases. A las alturas de cada rectangulo n.11. = ni(i = 1. si un 30 % tienen mas de una. ..10 se levanta desde el eje de abscisas un rectangulo que..fc.80 + ni/ci 01 Lo LI ~ ~ Lk-l Lk Extremos de intervalos GRAFICO 2.10 6 +----- .10.11.1 . Las tablas del tipo 2.000] 6 Si todos los intervalos tienen la misma amplitud. M. L i ). «Diaqrama acumulativo de frecuencias descendente». n/ci n3/c3 Fr 1 N=20 t Nt 16 I .. Soluci6n: Para elaborar el histograma s610 nos interesan los datos de las columnas 1 . 1.-----. basta con observar las escalas F[ multiplicadas por 100. Histograma de frecuencias. constante 0 es variable. De este modo el area del rectangulo es proporcional 0 coincide con ni: n· Area(i) = base. La de los definidos en la tabla 2.12 son directamente las frecuencias llevadas a la escala de ordenadas. (21.000] 21. k) ci (Li - La - n. 0.. y SANTOS-PENAS.30 0.000J 13.. expresadas en porcentajes.. sobre el eje de ordenadas. se le denomina densidad de frecuencia del intervalo z-esimo.000J 25.-­ : I I : Ejemplo 2. de la tabla 2.0 % tiene una o ninguna y asf sucesivamente.000. 0 sea.11 ! 01 GRAFICO 1 2 3 4 x Elaborar el histograma de frecuencias de los datos de la tabla 2. las alturas de los rectan­ gulos seran las correspondientes frecuencias. En este caso es constante C = 4.11. Lo primero que hay que observar es si la amplitud de los intervalos es .000.. . (17.10 se representan a traves de los llamados histogramas de frecuencias que tienen la forma expresada en el grafico 2. con dicha base (L i .. llegue a la altura n[c.05 2 +-------~------- 1 +-------+-------1--------·. . I 0. .11 que son los siguientes: (L i ­ [5. un 7. Como los valores de la variable estan ahora agrupados en intervalos se levanta un rectangulo cuya base es la am­ plitud de aquellos. 1.altura = ci · -!.000] 17.000. un 20 % no tienen ninguna. 1c2 n2 nJ!ck 0. Por ultimo.000.1 .

12 Los ingresos anuales de 50 familias expresados en miles de euros. (100. N1). (L 2 .16 0.12. 100] 200] 500] 1. (Lk I.13. Soluci6n: En la construcci6n de los histogramas han intervenido las frecuencias absolutas 0 relativas. 1.000 13..20 0. .000 17..28 0.58 CASAS-sANCHEZ.14. Histograma de frecuencias de los datos de la tabla 2.13. 200] (200.000 x GRAFICO 2. 100] (100..Dl 3 hi 0. [40. J. Vamos a representar s610 las columnas Nl y F1 de la tabla generica 2.000 21. Se observa que la amplitud de los intervalos es «variable». [40.05 0. y agru­ pados en intervalos de clases son los siguientes: (Li I. Cdlculo de densidades de frecuencias hi' n. Nk-l)' (Lk' Nk = N).17 GRAFICO 2.000 9.Dl. (L I . J. Y SANTOS-PENAS.000] 10 20 15 5 0. pero sin acumular.20 o 5. DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES TABLA 59 2. En el eje de abscisas se expresan los lfmites de los intervalos y en el de las ordenadas la NI y Fl tal y como se representa en el grafico 2.] ni riable.05 . Puede observarse que el poligono acumulativo se obtiene uniendo median­ te rectas cada par consecutivo de los siguientes valores: (L o' 0).­ 0.­ 01 40 100 200 500 1. . M.20 0.000 x 0. (SOD. luego hay que calcular las alturas de los rectangulos hi = njc i como se indica en la tabla 2.13. 0. Nl). Histograma de frecuencias cuando la amplitud de los intervalos es va­ L._I' LJ cj 60 100 300 500 h=!!! I cj 0. Ejemplo 2.17 0. (La escala de las frecuencias relativas se obtiene dividiendo las absolutas n i par el total de observaciones N = 25).13 con objeto de construir el grafico 2. (200.12 t f----------------------­ 7 6 5 4 ----------------------­ ----------------------­ --------------.24 0. 500] (500. . Ii ni (L.000 25.1 1.10. Comoestamos tratando variables cuantitativas hay que representar graficamente las frecuencias acumuladas (N i y FJ que en el caso de distribuciones agrupadas reciben el nombre de poligonos acumulativos de frecuencias.000] 10 20 15 5 Elaborar su histograma de frecuencias.

:I oj 0.000] 21. 0).000 21. Nt>.:.000. (13.000.000 17. . ·1' .11.000.000. para la escala de NI.000.56 0.000 13.000. ..•.15. Medidas de posicion }V! 01 l. y SANTOS-PENAS.72 = 0. 5610 tienen sentido en el caso de «datos cuantitativos» si exceptuamos 10 que Ii li:.' (21.000] = = = = = o 5.5. .15 se construye uniendo.. 3 7 14 19 25 FT .56+ 0. 11 6 GRAFICO 2. FJ..-."j I LJ NT .11 obtenemos los datos de las columnas NJ.14.000] 25. 7).12 0.---------------------------------1.'·1 . 1.12 A }Vi 25 t 19 14 . Cuando disponemos de una distribuci6n de frecuencias asociada a cierta variable estadistica.Lk-I Lk L. De la tabla 2. (21.: i' El grafico 2. Entre estas niedidas se encuentran las de posici6n que situan la distribuci6n entorno a dichos parametres. 3/25 7/25 14/25 19/25 25/25 Nt .000] 13.000.Y DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 61 Fk f t }Vk ~+t • ----.24 3 +--------------""'" 9. 0) Ejemplo 2. Poliqono acumulativo de frecuencias ascenclentes.c I . (13. Luego basta con poner la escala de FI en el eje de ordenadas allado de NI como se indica en el grafico 2. 22/25 18/25 11/25 6/25 F+. dando una idea de en que valores se distribuye la variable estadistica.76 1 22 18 .'eje de abscisas. ( 9.13 Construir el poligono acumulativo de frecuencias ascendentes y descenden­ tes con los datos de la tabla 2. '!. ° !i J. Si se emplea la escala de FI el poligono es identico s610 que en ordenadas se reduce el tamafio 25 veces que son el total de observaciones para las que se han dividido las NI para obtener las FJ. ° los puntos La mayoria de las medidas de posici6n son mimeros que se obtienen por operaciones aritmeticas una vez que se han ordenado los valores de la variable. 'siguientes mediante segmentos: (5.60 CASAS-sANCHEZ. 7 +-----------------------i ~! : .000 t.28 0.000 9. 0.Q LI ~ --------. A partir del ultimo pun to la funci6n es paralela al .8~ = 0.. Poliqono acumulativo de frecuencias.000. Soluci6n: .. u. J. .j. 3).000] 17. Nf Y Ff que son los siguientes: (Li [5. = 0. 14). N).. M.15. esta puede ser resumida 0 reducida por unas medidas que dan una idea global de c6mo es la distribuci6n sin tener que recordar todos los datos con sus frecuencias absolutas 0 relativas. Fk-I Ft Ft t }Vk~1 }V2 t :t 2.000 25.000.000. (L 1 . (17.000. h' 'I' . .28 0. El poligono acumulativo descendente puede tambien representarse a traves de los datos de las columnas Nf y Ff uniendo los puntos consecutivos siguien­ tes mediante segmentos: (Lo. GRAFICO 2. 19) Y (25.44 = 0. (9. (17. J. 25).

puntos. Y SANTOS-PENAS. M.2J x= 1 - 4 En las no agrupadas los Xi son los valores de la variable estadfstica directamente observados y en las agrupadas en intervalos de clase son 10 que hemos denominado marcas de cIase. etc..=1 L 1 r Xini [~. beneficios. N i=O Lxini = 1 - 20 (0· 4 + 1· 10 + 2· 4 + 3 . .7. Estudia­ remos la media aritmetica.14 Obtener la media aritmetica de la distribuci6n de tipo unitario referidas a las rentas anuales de cinco familias expresadas en miles de euros. J. de datos no agrupados (valores observados junto con sus frecuencias absolutas) y con datos agrupados en interval os de clases (considerando las marcas de clase y sus frecuencias absolutas)..000 euros y nos representa al conjunto de los cinco valores de la distribuci6n. ya que 10 exige su propia definicion. x= 150 + 175 + 200 + 250 + 300 5 =--= 1.5. En el estudio de las medidas de posici6n trabajaremos con distribuciones de frecuencias de tipo unitario. + xrnr N N.. Para las distribuciones de tipo unitario sera: _ Xl Obtener la media aritmetica de la distribuci6n de frecuencias no agrupada del mimero de personas que trabajan en 20 familias contenida en la tabla 2. salarios..075 5 215 La media aritmetica de las rentas anuales es de 215. pesos.2. .62 CASAS-sANCHEZ.. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 63 Ilamaremos «moda» que sf puede obtenerse y tiene pleno sentido en el estudio de caracterfsticas cualitativas 0 atributos. J.1] - - ni Para las distribuciones no unitarias tanto agrupadas como no agru­ padas: _ x 1n 1 0 1 2 3 4 Soluci6n: 4 10 4 1 1 1 5 X= + xzn z + . Se debe utilizar. contenida en la tabla 2.1.15 Llamamos media aritmetica a la suma de todos los valores de la distribuci6n dividida por el mimero total de observaciones. La media orltrnetlcc Soluci6n: 150 175 200 250 300 El concepto de media aritmetica de una distribuci6n de frecuencias es uno de los mas importantes en la descripci6n de datos al ser el mas usado cuando representamos al conjunto de la distribuci6n por una sola medida de posici6n central. la moda y los cuantiles. Definicion 2.icuando los datos observados son de naturaleza aditiva (rentas. la media armonica.. Ejemplo 2.4 cuyos datos son: Xi X = + X z + . esta­ turas.) de tal forma que una suma representa el total de los recurs os repartidos entre todos los elementos de la distribuci6n. la media geometrlca. 1 + 4 . Ejemplo 2. la mediana. Media aritmetica. 25 = - 20 4 ~1 Por termino medio trabaja aproximadamente una persona por familia ya que al ser una variable cuantitativa de naturaleza discreta (no admite deci­ males) la soluci6n se expresa en mimeros enteros de forma aproximada. Los datos de dicha tabla son: Xi 2. 1) = . + X r N 1 = - N L i=l r Xi [2.

el segundo 9 y el examen final 6. Un alumno ha obtenido las siguientes calificaciones: primer parcial no liberatorio 5 puntos sobre 10.3] que los Wi hacen la rnisma funci6n que las ni de la f6rmula [2.17 x = 25 (7. 2.H-Wi"­ 64 Ejemplo 2.000·3 + 11.2]. ya que como sabemos N= - - ni 7. ya que: x= 5 .000 19. La expresi6n [2. con 10 que la media aritmetica ponderada serfa: 1.11. la expre­ si6n [2. Ejemplo 2. J. Soluci6n: AI tener distinta importancia 0 peso las distintas calificaciones la media que nos piden como calificaci6n final es una media aritmetica ponderada: Calificaciones Xi Coeficientes de ponderaci6n Wi 5 9 1 1 6 2 x= 5· 1 + 9 .3] I Wi Puede observarse en la expresi6n [2.000 Soluci6n: 3 4 7 5 6 I r ni i= 1 Estos coeficientes de ponderaci6n son valores positivos que representan el numero de veces que un valor de la variable es mas representativo 0 mas importante que otro en el que su correspondiente Wi sea la unidad. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 65 Obtener la media aritmetica de la distribuci6n de frecuencias agrupada de las recaudaciones diarias de un comercio expresadas en la tabla 2.000·6) = = ~ (21 + 44 + 105 + 95 + 138) = 40·403 = 16.2] recibe el nombre de media aritmetica ponderada ya que cada Xi aparece ponderado 0 multiplicado por su respectiva frecuencia absoluta ni que al ser distinta de la unidad da distinta importancia 0 relevancia a cada Xi' Existen otras formas de ponderar que son distintas a las frecuencias absolutas ni• Estas situaciones aparecen cuando en distribuciones de tipo unitario. 2 + 6· 4 52 =-=65 8 8' .000·5 + 23. En este caso se trabaja bajo la hip6tesis de que los valores obser­ vados se distribuyen dentro de cada intervalo de forma uniforme con 10 que su punto medio (marca de clase) es representativo de todo el conjunto. AI mismo resultado llega­ mos si los Wi son Wi = 2.000 15. 4. J. 2 + 9 . Obtener su nota media a final de curso.000·4 + 15. en las correspondientes expresiones del tipo [2.000·7 + 19. 1 + 6·2 26 =-=65 4 4' Observese que los Wi establecidos s6lo indican la iniportancia de cada valor de la variable y s610 son nnmeros reales positivos. De dicha tabla las columnas que necesitamos son la de las marcas de clase Xi y la de las frecuencias absolutas que son: Xi i= 1 x=--r i= 1 I XiW i [2.000 1 El examen final de una asignatura puntua el doble que los examenes parciales.000 11. En el caso de las distribuciones agrupadas en intervalos de clases la media la obtenemos utili­ zando las marcas de clases.16 CASAS-sANCHEZ.1] se conoce con el nombre de media aritmetica simple ya que al ser las frecuencias unitarias todos los valores de la variable tienen la misma importancia 0 peso a la hora de calcular x.1] se introducen unos «coeficientes de ponderacion» denominados Wi que son distintos de n. con 10 que difiere de la que podrfa obtenerse si se utilizaran los valores no agrupados. M.120 Hay que resaltar que la media aritmetica viene expresada en las mismas unidades de medida que los datos originales observados. YSANTOS-PENAS. ya que los valores observados son desconocidos. Por el contrario.000 23.

1).(.000 15. 1 1 1 66 CASAS-sANCHEZ. J. 3 4 7 5 6 Sustituyendo Xi en la f6rmula de la media aritmetica para el caso de distribuciones no unitarias (sin agrupar 0 agrupadas) ya que la demostraci6n es identica en las unitarias: r r Y= - 1 (7·3 25 1 + 11· 4 + 15·7 + 19·5 + 23.2: Yini .12 = Cy + at x = cy = 1.000 19.2: (CYi + 0t)n.=1 .120 Si en la distribuci6n anterior hacemos al mismo tiempo un cambio de origen y escala. 4 + o· 7 + 1 . DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 67 i1 .000 1 25 -2 -1 0 1 2 Y = .000: Xi Esta propiedad nos manifiesta que la media aritmetica es sensible a los cambios de origen 0 de escala.000 23. = .1).2:1 C '=IN + at '=N ni = 25 (21 + 44 + 105 + 95 + 138) = 25 = 16.1 H.4] entonces resulta que x = cy + at Demostraci6n: [2.000 15.5] De la expresi6n [2.5] de la propiedad I. iiji La nnica condici6n que exige el problema es que W 3 (peso del examen final) sea el doble que W 1 Y Wz (pesos de los examenes parciales)..I·.000 11. 5 + 2· 6] = ­ .5] se transforma en x = Cy y diremos que se ha efectuado un cambio de escala en la variable X.4 + 2 = -3 + 8 = ­ 5 ~ 4 4 Si at = 0 la expresi6n [2. Esta operaci6n se suele efectuar tam bien para facilitar los calculos cuando los valores observados 0 las marcas de c1ase (en las distribuciones agrupadas) son muy elevados y tienen un maximo comiin divisor. Asi en la distribuci6n del ejemplo 2. C = 4.15 se tomaria como origen de trabajo at = 2 transformando Xi en Yi de la forma siguiente: x Yi=-C- Xi - at - ». 1. Si C = 1 entonces = y + at y diremos que se ha realizado un cambio de origen. IVii x = y + at = ..000.000 quedando Xi Xi I. por ejemplo.4] se deduce que Xi = CYi + at 7. tendremos que.=1 . En los datos del ejemplo 2.[(.15) = __ 1 1 3 W W 4 !r~: r. 1 + 2· 1] = .[(. Propiedades de la media aritmetica Y = .12 = 16.000 11.000 7 11 15 19 23 n.. que es 10 que nos dice la expresi6n [2.000 19.2)· 4 + (. 10 + O·4 + 1 .2)· 3 + (.:: 1 Ilr .000·16.\"" !:-~i' f' ':i"1 .6) = 403 1 X= N r .16 el cambio de escala podria ser C = 1.000 23. 1.' lilt . M. !!:: t:L!: Si a la variable estadistica Xi la sometemos al mismo tiempo a un cambio de origen at Y a un cambio de escala C mediante la trans­ formaci6n: Yi = x·T at (siendo at Y C constantes) [2. Esta operaci6n se realiza para facilitar los calculos y se tom a como Origen de trabajo at el valor central de la distribuci6n en el caso de ser impares 0 uno de los centrales si son pares. y SANTOS-PENAS. si at = 15.2: 1 xin i = N r . 3 4 7 5 6 7 25 Xi Yi = Xi - 2 ni 0 1 2 3 4 -2 -1 0 1 2 4 10 4 1 1 7.000 Yi = 1.

.. X 2 N)' .. + N L [2.=1 r x)n. La suma de las desviaciones . N1 + N 2 + ..68 de donde CASAS-sANCHEZ.=1 x)n.. J. ya que como _ 1 r x . M... Si el total de datos u observaciones se estratifica en L grupos distintos. J. X 1N)' (X 2 1.120 II. y L ..=1 xin i ... + xLN L N 1 + N2+ .=1 L XL. + xLN N 1 + N 2 + .n. Demostraci6n: Como sabemos para obtener el mfnimo de la expresi6n S(C) se halla su primera derivada y se iguala a cero. .. Xli + ..000· 25 + 15.. ·+NL . r r r L (x.n. + N L x 1N1 + .=1 L r x. (XLI' X L 2' X L 3' . L. + X 1N 1 ) + . .de los valores aritmetica es cero: 0 7 ' .. C)( -1) =0 i=1 L s. ..=N _ x +x + ..= 1 L x. La condici6n suficiente es que la s~gunda derivada sea positiva.=1 n." i=l l xN = .6J d dC 2 = 2 i=1 £ (-1)(-1) = 2N > 0 Demostraci6n: En efecto: con 10 que se cumple la condici6n suficiente de mfnimo. = NC N I C=x I datos a su media La segunda derivada es: 2S(C) L (x..=1 r IV. = 0 [2.. X 2 2' X 2 3' .=1 N C)2 [2.= 1 (Xi - C)2) =2 dC L Jx. .8J III. . DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 69 Dividiendo por dos y desarrollando el parentesis: x = Cy + at = 4... = xN .x L .=1 N .. + X LNL= ) N 1 + N2 + · .N " x.7J mfnimo cuando C = x. . La suma de los cuadrados de las desviaciones de los valores obser­ vados unitarios respecto a una constante arbitraria C es minima cuando esa constante C coincide con la media aritmetica x: S(C) = Demostraci6n: Las observaciones las dividimos en L estratos quedando: (Xl!' X 12' X 13' .. + . +NL NL d dS(C) dC = ( N L .xN = 0 . + (xL! + X L 2 + .. y SANTOS-PE~AS. En efecto: La media total - (Xl! 0 global sera x= + x 12 + . ..000 = 16. . = L . la media aritmetica del total es una media aritmetica de las distintas medias de los estratos ponderadas por el nnmero de observaciones que tienen los mismos: 1N1 2N2 L x=----"--'=-----=---"-------"=-----:: n... X L N) L (x..

Tiene un claro significado ya que al ser e1 centro de gravedad de toda la distribuci6n nos representa a todo el conjunto de valores observados. J. La media geometrica Ejemplo 2. i=l V Xl • X 2 . Co(1 + 0. tasas. I r nilogx i [2... etc.q. 2.10] .. Cuando se desea obtener promedios de magnitudes tales como tipos de interes. M. '" . I con 10 que N1 Xli Xl=~' i= 1 etc. Hallar el tipo medio anual que ofrece el banco. Para su calculo se utilizan todos los valores de la distribucion.9] i= 1 Ventajas e inconvenientes de la media aritmetica Las ventajas que podemos senalar de la media aritmetica como mas rele­ vantes son: Es calculable en las variables de naturaleza cuantitativa. En el primer ano obtenemos un capital C 1 tal que: C1 = En muchas ocasiones los valores de la distribuci6n no son de naturaleza propiamente aditiva como ocurre en los casos de los mimeros indices 0 porcentajes que representan la evoluci6n de una caracterfstica con respecto al valor que tiene en un perfodo 0 situaci6n que llamamos base. = n m:.5 por 100. porcentajes.. Luego el promedio mas representativo para este caso es la «media geometrica».» 1 10gG = N Entre los inconvenientes hay que sefialar que es una medida de posici6n muy sensible a los valores extremos de la distribuci6n con 10 que puede llegar a ser poco representativa del conjunto si la dispersi6n de los datos es muy elevada. A pesar de este inconveniente.5. 1 0 no) [2.18 Los tipos de interes que ofrece una entidad bancaria durante tres afios consecutivos para dep6sitos a plazo son: 4. por un proceso «acumulativo». Llamamos media geometrica de una distribuci6n de frecuencias y la denotaremos por Gala raiz N-esima del producto de los N valores observados: Para las distribuciones unitarias: G= I N1 Xli = x1N 1. Esta perfectamente definida de forma objetivayes iinica para cada distribuci6n de frecuencias.70 CASAS-sANCHEZ. Solucion: Los tipos de interes actiian sobre un capital inicial Co que 10 convierten al cabo de tres afios en otro final C. es la medida de posici6n central mas utilizada.045) .2.11] i=l Demostracion: log G = log _ Njr X?i = -1 n i=l N log [r X?i] = -1 Ir [log (xi)]n i n N i=l i=l c. 5 y 5. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 71 ya que como sabemos Definicion 2. x. r Xi [2.8. En estos casos debe de emplearse la media geometrica como la medida de posici6n central mas representativa cuando la variable presenta variaciones acumula­ tivas. etc. = r Como propiedad fundamental de la media geometrica damos la siguiente: «Ellogaritmo de la media geometrica es igual a la media aritmetica de los logaritmos de los valores de la variable. 2'" • X". por sus multiples ventajas. Para las distribuciones no unitarias (agrupadas G= N IX" 1 'X"2 . la media aritmetica pierde la propiedad de tener un claro significado ya que la suma de dichas magnitudes no representa un total de recurs os como en las magnitudes de naturaleza aditiva. J. YSANTOS-PEN-AS.. mimeros indices.d..5.

18 tambien puede resolverse aplicando la expresi6n [2.055)] = 2.055) C o(1 + i)3 = Co(l EI tipo medio de interes i sera aquel que verifique: + 0. rendimientos.11] en el caso de frecuencias de tipo unitario: 1 3 log G ="3 i~l log Xi Si comparamos la media aritmetica del ejemlo 2.0232524] = ' y su antilogaritmo: Antilog (0. 00686032 3 = 0.24 • 31. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 73 En el segundo afio: C2 = C l (l Ventajas e inconvenientes de la media geometrica + 0.72 CASAS-sANCHEZ.049992 con 10 que la tasa media del tipo de interes que hace el mismo efecto que las tres tasas anuales.05) Y (1 + 0. Tampoco puede determinarse con valores negativos ya que dana lugar a que apareciesen numeros de naturaleza imaginaria con 10 que el problema no quedarfa resuelto. Demostraremos mas adelante que para datos no negativos x = 16. 0. J.15.055) - Es mas representativa que la media aritmetica cuando Ia variable evo­ luciona de forma acumulativa con efectos multiplicativos.045)(1 + 0. Esto ocurre en los casos en los que se desea promediar velocidades.3.5.18 en el que x = 5 Y G = 4.23. si existe.5 + 5 + 5..1613680 + 0.05)(1 + 0.000 4.045).054064 . Los valores extremos tienen menor influencia que en la media aritme­ tica por estar definida a traves de productos en vez de sumas.022867 1.9992.05 y 0.9992 por 100 Si se calcula la media aritmetica: = 2V0 4.y7.0211892 + 0.05)(1 + 0. J.045)(1 + 0.0005. etc.45) + 10g(1 + 0.0007. Asf en la distribuci6n del ejemplo 2.15 no es que no exista la media geometrica sino que no es un buen promedio al ser Xl = 0 con 10 que dana: G i = 4.055) = C o(1 + 0. (1 + 0.022867) = 1 . salvo que el radicando sea negativo y el fndice de la rafz sea impar. en los que hay que combinar una serie de conceptos tales como: «entidades de produc­ ="3 [0. La media ormonlco Existen situaciones en las que no es adecuado el empleo de la media aritmetica ni de la media geometrica ya que los datos observados no son de naturaleza aditiva ni multiplicativa. Esta definida de forma objetiva y es unica.41 = 0 En cambio sf puede obtenerse la media geometrica en la distribuci6n del ejemplo 2.045)(1 + 0.05)(1 + 0.05) Entre las ventajas de las media geometrica podemos senalar: - En el tercer y ultimo afio: C3 = Ci1 + 0.132 vemos que no coinciden siendo esta menos representativa del fen6meno ya que no tiene en cuenta el efecto multiplicativo de las tasas de interes.5 =5 3 = 15.1 1 o . expresada en porcentajes es Su calculo es mas complicado que en la media aritmetica. productividades.000 3 . M.16: G = 2. y SANTOS-PENAS.055) siendo las cantidades (0.120 y G = 15.19.0006 i= 4. EI ejemplo 2. Igual ocurre en el ejemplo 2. o sea Los inconvenientes que hay que resaltar son: (1 + i) = V(l + 0.045.055) las que operan intemamente de forma «multiplicativa» en Co para transfor­ marlo en C 3 • EI promedio de estas cantidades de 0.16 con la geometrica: Ia G < x.055) = 1. No puede caIcularse si algun Xi es cero ya que se anula al definirse como productos.132 vemos que G~x 1 ="3 [ 10g(1 + 0.05) + log (1 + 0. Tiene en cuenta en su calculo todos los valores de la distribuci6n.11.049992 Puede observarse que (1 + i) es la media geornetrica de los valores (1 + 0.

Dada una distribuci6n de ritmos de producci6n Xl' X Z. Su calculo es sencillo... 0 sea: Ventajas e inconvenientes de la media arm6nica Entre las ventajas de la media arm6nica hay que destacar las siguientes: Esta definida de forma objetiva y es unica.. No es posible calcularla cuando existen valores iguales a cero.12] Despejando H en la expresi6n [2. n" lIamamos media arm6nica de aquellos a: H= 2 1 Xz 2x lx Z Xl -+­ Xl Xl + Xz + Xz xlX Z G= X= JxlX Z Xl + Xz 2 ~ N z l -+-+ . ..).= Xz n n. «recursos producidos» por cada entidad (nl . . x r ) que multiplicando por las unidades de producci6n nos de el total de recursos producidos. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 75 Xi ci6n» (recorridos.. . nz.+ .12] tenemos: Definici6n 2. El problema que tenemos que resolver es obtener un Xl X z x. M.74 CASAS-sANCHEZ. Es mas representativa que las otras medias en los casos de obtener promedios en velocidades. nl + n z + . . .: Xl +xz z 2 . Por otro lado G ~ x ya que: rr. Xl + Xz ~ Jxlxz Elevando al cuadrado los miembros de la anterior desigualdad y operando: 4xix~ ~ X1Xz{X l + xz)Z 4x lx Z ~ xi + x~ + 2x lxZ . y SANTOS-PENAS. L..13] Vamos a demostrar en primer lugar que H 2x lx Z G.. Y las producciones de r entidades: n l . etc.. x r ) que se expresa en producto obte­ nido por unidad de producci6n y unidades de producci6n de cada entidad que se obtienen dividiendo la producci6n de cada entidad por su ritmo de produc ­ ci6n Relaci6n entre las medias arm6nica.r ) .. J.. fincas. . promedio de los ritmos de producci6n (Xl' x z. n . . empresas. Xl x. n z. rendimientos y productividades. x. . +Xl Xz n n n. Intervienen todos los val ores de la distribuci6n.... 4x lxZ ~ (Xl + Xz)Z 2x lxZ 0~ xzf ~ xi + x~ - o ~ (Xl Con 10 que queda demostrado que H V X1X Z ~ Como inconvenientes hay que citar: No debe de usarse para valores de la variable muy pequefios (cercanos a cero) ya que sus inversos pueden aumentar muchisimo haciendo G. geometries y aritmetica Vamos a demostrar que para una misma distribuci6n de frecuencias con todos sus datos positivos ocurreque: n n nz -l. . «total de recurs os» (N it 'n} = l «ritmo de - despreciable frente a ellos la informaci6n de otros valores de sean mayores... 4x lx Z ~ (xl + Xz) . A este producto H se le denomina media arm6nica: ( l H·- [H~G~x I Consideremos el caso mas sencillo de una distribuci6n con dos valores de la variable con frecuencias unitarias y que con dichos valores pueden calcularse los tres promedios: 2 H= 1 n z + H·.. + H·. x. ..9. J. secciones.­ i=l Xi N [2..... =-~ n.. que producci6n» de cada entidad (Xl' X z. r). + nr = N [2.

los intermedios y los pequenos ya que en su c6mputo intervienen todos ellos. La mediana ni 50 60 80 200 300 400 400 = 64 kmfhora H= -+_.19 ni 10 12 15 18 570 100 150 120 200 Un autom6vil realiza los siguientes recorridos 200.000 En este ejemplo los ritmos de producci6n son los rendimientos obtenidos por hectarea y los recursos producidos son los montantes de quintales metricos de trigo obtenidos en cada una de las fincas que son las entidades de produc­ cion.76 Con 10 que CASAS-sANCHEZ. geometrica y ar­ m6nica) son medidas de posicion central que representan al conjunto de valores observados de la distribuci6n equilibrando los mas elevados. 300 y 400 km a las velocidades medias de 50.4. 150 y 200 quintales metricos de trigo con unos rendimientos de 10. Con objeto de superar esta dificultad vamos a definir otra medida de posici6n central en cuyo calculo no intervienen todos los valores de la variable Xi' En vez de equilibrar valores de la variable para determinar e1 centro de gravedad de la distribuci6n equilibra las frecuencias observadas a ambos lados de su valor. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 77 Ejemplo 2.5. Esta demostraci6n puede gene­ ralizarse para cualquier mimero de valores de la variable. Calcular el rendimiento medio. nz = 300 y n 3 = 400) con 10 que la distribuci6n de frecuencias sent: Xi 2. X z = 60 y X 3 = 80). 15.16 sent: H = Cuatro fincas ban producido 100. La distribuci6n de frecuencias sera: Xi H<G<x ya que 14.XZ)Z Por tanto. y SANTOS-PENAS. J.000 15. Solucion: En este ejemplo los ritmos de producci6n 0 valores de la variable son las velocidades medias del vehiculo en cada recorrido (entidades de producci6n) (Xl = 50.000 11. Los recursos producidos son las distancias que se ban recorrido (nl = 200.022 23._+ 50 60 200 900 300 80 Las anteriores medias que hemos estudiado (aritmetica. M. J. 60 y 80 km por bora. queda demostrado que H ~ G ~ x.120 Ejemplo 2. 12 y 18 quintales metricos de trigo por hectarea. .022 < 15. 120.132 < 16. La media arm6nica del ejemplo 2. Calcule la velocidad media para el recorrido total. El problema que tienen estas medias es que son sensibles a los valores extremos muy altos 0 muy bajos y cuando existe mucha dispersi6n son poco representativas del conjunto de observaciones.000 19.20 o ~ (Xl .000 Vemos que se cumple que 3 4 25 7 5 6 = 14. Solucion: --+--+--+--+-­ 7.

5 no seria admisible con 10 que las medianas serian conjuntamente los dos valores centrales (4 y 5) ya que valores menores 0 iguales a 4 hay tres y valores iguales 0 superiores a 5 tambien hay tres.A continuaci6n se observa cual es la primera N[ que supera 0 iguala a NI2 distinguiendose dos casos: .10. Si la distribuci6n de frecuencias no es unitaria hay que acudir al concepto de frecuencias acumuladas para determinar la mediana. Determinacion de la mediana en las distribuciones de tipo unitario Pueden ocurrir dos casos: a) Que el mimero de valores de la variable sea impar: la mediana es el valor central. 4. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 79 Definicion 2. 0 sea. Por ejemplo. si la distribuci6n unitaria es Xi: 2.78 CASAS-sANCHEZ. Por ejemplo. 7. I I I I I I I I I I I o Xl X2 Me Xr-l Xr x GRAFICO 2.21 Obtener la mediana de la distribuci6n de frecuencias no agrupada del ejemplo 2. Ejemplo 2. Si de la correspondien­ te distribuci6n se representan en el mismo sistema de ejes cartesianos los diagramas acumulativos ascendentes y descendentes. M. mimero de personas) y no admite decimales. dos datos. 3.. la mediana seria los dos valores conjuntamente. la Me = 4.16. 3 y 4) y otras tres por encima (5.16.5 ya que es un punto del campo de variaci6n de la variable que deja tres observaciones por debajo de el (2. J.2referido al numero de personas que trabajan en 20 familias. Xi ni NT . llamamos mediana y la representamos por Me al valor de la variable que deja a su izquierda el mismo numero de frecuencias que a su derecha. Determinaci6n qrafica de la mediana a traces de los diagramas acumu­ lativos ascendente y descendente. 14 la mediana es Me = 9 ya que es el valor que deja a su izquierda los mismos datos u observaciones que a su derecha. La distribuci6n es: Ni N I N I I L. 7 y 8). 9. y SANTOS-PE:NAS. . J. Mediana Dada una distribuci6n de frecuencias con los valores ordenados de menor a mayor. Si la variable que se esta estudiando es de naturaleza discreta (por ejemplo.-. I I I I I ' • '1' I 4+5 M e=-2-=4. b) Que el mimero de valores de la variable sea par: la mediana es la media aritmetica de los dos valores centrales. 13. El procedimiento de determinaci6n numerica es el siguiente: se calcula NI2 y se construye la columna de las NI. 3. si la distribuci6n unitaria es Xi: 1. Determinacion de la mediana en distribuciones no unitarias y con los valores no agrupados en intervalos de clase. la abscisa del punta donde se encuentran corresponde con la mediana ya que por encima del mismo hay un 50 % de observaciones y por debajo otro 50 % como indica el grafico 2. I I I I I I I I ----------. 4 14 18 19 20 0 1 2 3 4 Soluci6n: 4 10 4 1 1 Observando en la columna N[ que el primero que supera a NI2 = 10 es N1 = 14. 5. 8 la mediana es a) Si N[ supera a NI2 la mediana es el Xi que corresponde a ese NIb) Si N[ es igual a N 12 la mediana es la media aritmetica de Xi y el siguiente X i + 1• Si este resultado no fuese admisible porque la distribuci6n es discreta y no admite decimales.

125 euros 2 Nt o 1.I. LJ que corres­ t ponde a ese NI > N12.125 euros tiene por debajo de el al 50 % de los salarios de los trabajadores y por encima al otro 50 %. . N Nl+-------------~ Solucion: Observando Ni vemos que el primero que iguala a NI2 = 50 es Nl = 50..1 Me Li------Lk x Puede observarse que un salario mensual de 1.22 a) Que Ni supera a NI2 el intervalo mediano sera (L i .250 = 1.NT . Para obtener el valor de la mediana al lfmite inferior del intervalo mediano hay que afiadir la distancia d que es un trozo de la amplitud del intervalo C . Graficamente si de una distribuci6n agrupada represent amos sus poligonos acumulativos ascendentes y descendentes.000 euros 3. I ~i1i rl. Luego: i Me =Li - t +d Los salarios mensuales de 100 empleados de unos grandes almacenes son los siguientes: Salarios (Xi) N.O empleados (nJ -­ NT .' ~ .000 euros 1.NI-t): c.._ _o~~~. . i 1.~l i . 1. I . una frecuencia acumulada de 14 incluyen a las observaciones que ocupan los lugares deeimo y decimo-primero que cumplen la definici6n de mediana para este ejemplo con un total de 20 observaciones. Determinacion de la mediana en distribuciones con los datos agrupados en intervalos de clase.~ . al tener.. I t­ ·C· ). M. .Ni-t' de donde d= NI2 .250 euros 2.c"~" 80 CASAS-sANCHEZ.-t n· . Luego la mediana la obtendremos siguiendo el metodo de observar la columna de frecuencias acumuladas hasta encontrar un valor de NI que supere 0 iguale a N12.000 euros 50 30 15 5 50 80 95 100 N i N . Puede observarse en el grafico 2.17 que el valor de la abscisa que se corresponde con Me tiene una ordenada de N12. = d NI2 . Este resultado nos indica que las familias con un ocupado.. GRAFICO 2. DISTRIBUCIONES DE FRECUENCIAS UNlDIMENSIONALES 81 Luego la mediana es su correspondiente valor de la variable que es Me = 1.. .. Luego podemos establecer una relaci6n direc­ tamente proporcional entre la frecuencia absoluta del intervalo mediano (n ) ..." ~'I i . Determinaci6n qrafica de la mediana a traces de la representaci6n de los pol(gonos ascendentes y descendentes de una distribuci6n de frecuencias agrupada en intervalos de clase.17.. Observando la columna de Ni nos podemos encontrar con los casos: su amplitud (ci). y SANTOS-PENAS. donde se cortan ambas funciones su correspondiente abscisa nos dana la mediana como se indica en el grafico 2. J.Ll Li-2 Li.. Luego estamos en el caso en el que la mediana sera M = xt e • +-----hhh N. Para determinar la distancia d se adopta la hip6tesis de que los valores de la variable Xi que pertenecen al intervalo mediano se distribuyen de forma uniforme a 10 largo del mismo.000 + 1.17.: ' ~. h~ 4/ N/2t--------------------==------~ -------------------- + x2 2 1.~. En este caso no tenemos valores observados de la variable al estar incluidas en intervalos de clase. 'll II! Ii I~.0 ----. Ejemplo 2. la longitud desconocida (d) y la frecuencia que le corresponde (N12 .

10 20 ·100 = 175 La conclusi6n que obtenemos es que el ingreso de 175. 4] (4.000 euros deja por debajo al 50 % de las familias y por encima al otro 50 %. Ejemplo 2.-1+ NI2 -n NT.O de comercios ni Nt i M e =L. . 200] (200. J. La Me puede calcularse en distri­ buciones en las que los valores extremos son desconocidos siempre y cuando tengamos informaci6n sobre sus frecuencias (casos de interval os iniciales y finales de naturaleza abierta). Por tanto: M = e Nt Nt 100 + 25 . En el caso de las agrupadas esta dentro del campo de variaci6n del intervalo mediano. Como ventajas de la mediana cabe destacar: Es la medida mas representativa en el caso de variables que s610 admiten la escala ordinal. Tiene una facil interpretaci6n al ser un valor de la variable en el caso de las distribuciones de frecuencias unitarias 0 las no unitarias no agrupadas. 2] y la mediana es su limite superior Me = 2. 15] Calcular la mediana.12 expresados en miles de euros y agrupadas en intervalos de clases son: (L i 1. Observando la columna vemos que el primer que iguala 0 supera (en este caso supera) a NI2 = 25 es N1 = 30 con 10 que el intervalo mediano es (100. Este inconve­ niente se transforma en ventaja cuando son desconocidos los valores extremos o existe una enorme dispersi6n entre los mismos que invalidan las. .24 Cien pequeiios comercios se agrupan segun su mimero de empleados. 6] ( 6. Nt [0. 10] (10. 100] (100. Solucion: 20 30 20 50 70 20 15 10 5 85 95 100 Ejemplo 2. DlSTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 83 N.23 Los ingresos anuales de las 50 familias del ejemplo 2. En la mediana s610 influyen los valores centrales de la distribuci6n y es insensible a los valores extremos. Es una medida de posici6n central sencilla de calcular. medias como medidas de posici6n central al no ser representativas del conjunto de la distribuci6n por la enorme influencia que ejercen los mencionados valores extremos en su calculo. y SANTOS-PENAS. 1] (1.-1 • Ci i b) Que es igual a N12. M. en la siguiente distribuci6n: El unico inconveniente que se le puede senalar ala mediana es que en su determinaci6n no intervienen todos los valores de la variable.000] Calcular la mediana. 2] (2. LJ ni 10 NT . 10 30 N1 = El primer NI que iguala 0 supera a NI2 = 50 (en este caso iguala) es 50 con 10 que el intervalo mediano es (1.O de empleados (L i ­ 1. L i) N. J. 200]. En este caso se toma por convenio como mediana el lfmite superior del intervalo mediano. [40. 500] (500. 1. Solucion: 20 15 5 45 50 Ventajas e inconvenientes de la mediana.82 Sustituyendo: CASAS-sANCHEZ.

25 En la distribuci6n de frecuencias del ejemplo 2. 40.5.27 Las puntuaciones de 120 alumnos en un examen fueron recogidas en la siguiente distribuci6n de frecuencias: Xi ni o 1 2 4 10 4 ni 3 4 Solucion: 1 1 1 3 4 5 20 30 20 40 7 9 7 3 Observando la columna de frecuencias absolutas la mayor corresponde a n2 = 10. Moda absoluta Dada una distribuci6n no unitaria llamamos moda absoluta.5. siendo la moda absoluta su correspondiente valor de la variable M 0 = 1. tres 0 mas valores con la mayor frecuencia absoluta.12. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 85 2. M. Definicion 2. . Definicion 2.1:' Dada una distribuci6n no unitaria llamamos moda relativa a aquel valor de la variable (0 los valores) cuya frecuencia absoluta no es supera­ da por las de sus valores contiguos. Ejemplo 2. Obtener las posibles modas de la distribuci6n. la distribuci6n se dira que es bimodal. y SANTOS-PENAS. Moda relativa Determinacion de la moda en distribuciones no unitarias y no agrupadas En este caso la determinaci6n de la moda es inmediata ya que basta con observar la columna ni de frecuencias absolutas. 1. i La moda Ejemplo 2. 1. Igual que la mediana es una medida de posici6n central que esta funda­ mentada en las frecuencias de la distribuci6n y no en el conjunto de los valores de la variable como ocurre con las distintas medias. Solucion: t . M 0 = 7 puntos.4) son los siguientes: Xi lit . Los datos de la distri­ buci6n (tabla 2.84 CASAS-sANCHEZ.26 Las puntuaciones de 100 alumnos en un examen fueron recogidas en la siguiente distribuci6n de frecuencias: Xi I· . que representaremos por M o' al valor de la variable (0 los valores) con mayor frecuencia absoluta. ' / Observando la columna ni vemos que es una distribuci6n bimodal 0 con dos modas absolutas ya que la maxima frecuencia. Ejemplo 2. La moda siempre estara definida en relaci6n a valores de la variable asociados a sus distintas frecuen­ cias con 10 que no tiene sentido hablar de moda en las distribuciones de frecuencias de tipo unitario.2 referido al mimero de personas que trabajan en 20 familias obtener la moda. se repite en dos valores de la variable con 10 que sus modas absolutas son M o = 6 puntos. ni 2 6 15 40 40 5 7 9 Determinar su moda. trimo­ dal 0 multimodal.11. 0 bien. En el caso de existir dos.

-1' n.+ 1 M o=Li _ 1+d (siendo O es d s c) La hip6tesis que hemos establecido de proporcionalidad inversa de las distancias d y (c . LJ con una frecuencia absoluta ni • Los intervalos contiguos al modal tienen unas frecuen­ cias absolutas de ni .1. mayor densidad de frecuencia) que recibe el nombre de intervalo modal. Luego la moda sera: a) Tomando el primer y ultimo miembro de estas igualdades y despejando nuestra inc6gnita que es la distancia d queda: 1 1 1 c= n.-1 n. la moda absoluta es M o = 5.-1 n.+1 Sustituyendo d por su valor en funci6n de las frecuencias de los intervalos adyacentes al modal y de su amplitud constante c queda la expresi6n de la moda: ni+1 c M o = Li - 1 + n.-1 + n i+ 1 .+1 c n.18. M.-1 + n.Li-2 Li-1 Mo Li c Li+1 Lk-1 C t.-1 + ni+1 c= n. J.1 Y ni +1 nos permite escribir: d c. La moda estara mas cerca de aquel intervalo contiguo que tenga mayor frecuencia absoluta. Para determinar la moda pueden emplearse distintas hip6tesis perc las mas utilizadas son las siguientes: La moda se encuentra en el intervale que tiene mayor frecuencia ab­ soluta dividida por su amplitud (es decir. Teniendo en cuenta las propiedades de las proporciones de suma de ante­ cedentes y consecuentes queda: --=--=-­ - d c-d c -n.d -1-=-1­ n.86 Soiucion: CASAS-sANCHEZ.-1 n.1 el anterior y n i +1 el posterior. o GRAF1eo 2. y SANTOS-PENAS. Para determinar la moda se observa la columna ni de frecuencias absolutas concretando que la mayor de todas nos determina e1 intervalo modal.-1 .' Tambien existe una moda relativa M 0 = 3 ya que su frecuencia asociada n2 = 30 no es supera­ da por sus valores contiguos que tienen unas frecuencias absolutas de 20 observaciones.+1 d= n.+1 n.-1 -+­ n.+ 1 n.-1 1 -ni+1 1 --+-­ n.+1 1 1 Teniendo en cuenta las hip6tesis anteriores vamos a considerar dos casos: Que los intervalos tengan todos una amplitud constante c.18 el intervalo (L i . Luego dentro del intervalo modal la moda se en­ cuentra en un punto para el cual las distancias a los extremos inferior y superior del intervalo son inversamente proporcionales a las frecuen­ cias absolutas de los intervalos adyacentes a dichos extremos.+1 1 + ni - c= 1 n.-1 n. x Determinaci6n de la moda a traces del histograma de frecuencias. n. c Lo c LC--.d) a las frecuencias ni . ni DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 87 Observando la columna n. Supon­ gamos que es como se indica en e1 grafico 2. 1.-1 n. Determinacion de la moda en distribuciones agrupadas en intervalos Al estar los valores de la variable agrupados en intervalos s610 obtendre­ mos una aproximaci6n al valor de la moda como ocurrfa con las medias (se utilizaban las marcas de c1ase al no disponer de los valores realmente obser­ vades) y la mediana (se utiliz6 la hip6tesis de la proporcionalidad directa entre frecuencias absolutas y amplitudes del intervalo mediano).

En este caso nos encontramos con el mismo problema que cuando se construian histogramas con intervalos de amplitud variable que habra que calcular previamente las densidades de frecuencias: hi=.28 CASAS-sANCHEZ.88 Ejemplo 2.. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 89 Ejemplo 2.14 Conclusi6n: la recaudaci6n que mas se repite en los establecimientos comerciales es de 213.1..+ h +1 i i 1 - M o = Li - 1 i Como inconveniente hay que sefialar que en su determinaci6n no intervie­ nen todos los valores de la distribuci6n (caso de las medias) ni todas las frecuencias (caso de la mediana) centrandose s6lo en la mayor frecuencia absoluta de un determinado valor de la variable.80 0.40 + 0.. b) Que los interval os sean de amplitud variable Ci .29 Los salarios anuales de 200 ejecutivos de un pafs expresados en miles de euros se recogen en la siguiente distribuci6n de frecuencias: Salarios anuales (Li .40 0. J. Observando la columna n. LJ basta con sustituir las frecuencias absolutas de los intervalos adyacentes por sus correspondientes densidades de frecuencias con 10 que la expresi6n de la moda en este caso sera: hi+1 -·c -r h .14 . vemos que la mayor es n 2 = 100. M.000 euros.333 euros. Una vez determinado el correspondiente (L i .14 0.1 -LJ [75-125] (125-175] (175-225] (225-275] Las recaudaciones mensuales expresadas en miles de euros de 100 estable­ cimientos comerciales se reflejan en la siguiente distribuci6n de frecuencias: N.33 miles de euros ~ Conclusi6n: el salario que mas se repite en los 200 ejecutivos es de 158.80 con 10 que el intervalo modal sera (200-250] y la moda: M o = 200 50 5 + 50 ·50 = 158. Y SANTOS-PENAS. Por tantoel valor de la moda es: M o = 125 + 2 Soluci6n: Puede observarse que utilizando la columna n.D de ejecutivos ni 25 100 50 25 I I Recaudaciones (L i 1 N. Hay que obtener la columna hi de densidades de frecuencias siendo la mayor h2 = 0. J. Ventajas e inconvenientes de la moda n· La moda tiene una serie de ventajas tales como: Es la unica medida de posici6n central que puede obtenerse en las variables de tipo cualitativo que s6lo admiten la escala nominal ya siempre podemos determinar la modalidad que mas se repite en el estudio de un determinado atributo.! Ci + 0. .. el intervalo modal sena [75-200]. Pero esta conclusi6n es err6nea ya que la amplitud de los intervalos es variable y las frecuencias absolutas directamente no son validas.03 [75-200] (200-250] (250-300] (300-400] Solucion: Podemos observar que la amplitud de los intervalos es una constante C = 50. ·50 = 213 miles de euros 0. Es de sencillo calculo. Es de facil interpretaci6n ya que nos da directamente el valor de la variable que mas se repite..Dde comercios ni 50 40 7 3 -LJ Densidad de frecuencias n· h.. con 10 que el intervalo modal es (125-175]. =-' I ci 0. El intervalo modal sera el que tenga una «mayor densidad de frecuencias».

J. Los percentiles (P. la frecuencia absoluta acumulada 10 . J. en intervalos que contienen el mismo numero de observaciones. M.13. Las medidas que denominamos cuantiles son valores de la variable que dividen a la distribuci6n en partes proporcionales..) que son noventa y nueve valores que dividen a la distribuci6n en cien partes iguales. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 91 2. seguidamente se construye la NJ (los valores de la variable siempre estan ordenados de menor a mayor) y se observa cual de los NJ supera rN o iguala a .u observaciones. Los mas conocidos son: Los cuartiles (Q. YSANTOS-PENAS. 0 sea. Cuantiles Llamamos cuantiles a aquellos valores de la variable que dividen a la distribuci6n en intervalos que tienen un mimero de frecuencias abso­ lutas proporcional a una constante comprendida entre 0 y 1. 9N Para D 9 la frecuencia absoluta acumulada 10 Calculo de cuantiles en distribuciones no agrupadas en intervalos de clase Como la mediana es un caso particular de cuantil. Recordemos que en el caso de la mediana r = 1 y q = 2 con q rN 10 que la expresi6n es N12. Si NJ supera a . ya que divide a la distribuci6n en dos partes iguales. Definicion 2.90 CASAS-sANCHEZ.6.5. En el caso de los tres cuartiles (Ql' Qz y Q3) la expresi6n rN sera q IN 4 para Ql' 2N 4 para Qz que como coincide con la Me simplificando es NI2 Y 4 3N para Q3' En el caso de los nueve deciles las expresiones de las frecuencias acumu­ ladas ascendentes que nos 10 determinan seran: IN Para D 1 la frecuencia absoluta acumulada 10 Para 2N u. las reglas de calculo que se vieron para rN obtener Me son validas para obtener los distintos cuantiles: se calcula ­ q siendo r el cuantil correspondiente. Otras medidas de posicion no centrales: los cuantiles Hasta ahora hemos estudiado las medidas de posici6n central ya que de una forma u otra se ha buscado un valor representativo de todo el conjunto de la distribuci6n. valor de la variable y si 10 iguala es la media aritmetica de ese valor y el siguiente igual que ocurria cuando se obtenia la mediana. Los deciles (D.el cuantil es el correspondiente q Para los percentiles: IN Para P 1 la frecuencia absoluta acumulada 100 2N Para P z la frecuencia absoluta acumulada 100 99N Para P 99 la frecuencia absoluta acumulada 100 .) que son tres valores que dividen ala distribuci6n en cuatro partes iguales. q el numero de intervalos con iguales frecuencias en que se divide la distribuci6n y N el numero total de datos. Es evidente que la medida de posici6n central que hemos llamado mediana es un cuantil ya que es un valor de la variable que la divide en dos partes iguales a la dis­ tribuci6n.) que son nueve valores que dividen a la distribu­ ci6n en diez partes iguales.

La frecuencia absoluta acumulada ascendente que nos determina el septi­ mo decil sera: 120 NT . J.8 = 120 4=4 240 = 60 para Q2 Observando la columna N[ es el ultimo valor N~ condici6n con 10 que: el que cumple la 4-4 Luego observando en la columnas Ql 3N _ 360 = 90 para Q3 P99 = 9. percentiI. NI los tres cuartiles son: Q2 = 4 Xi Caleulo de cuantiles en distribuciones agrupadas en intervalos =3 . M. el septimo decil y el 99. = 5. 0 sea Cr / q. Xi ni N/2=-=60 2 y observando en NI es N1 = 70 el que cumple la condici6n de ser la primera igual 0 mayor que N /2 con 10 que su correspondiente valor de la variable a mediana es Me = 4. 4-4 2N IN _ 120 = 30 para Ql La frecuencia absoluta acumulada ascendente que nos determina el 99.30 CASAS-sANCHEZ. para determinar el cuantil de orden r q ya que son los tres valores de la variable que se corresponden con y N1 = 50 . N1 = 70 Nl = 110 y numero de intervalos iguales q. y SANTOS-PENAS.0 percentil sera: 99N 100 = 99 ·120 ----wo = 118. J.27 de las puntuaciones de 120 alumnos 0 determinar los tres cuartiles. Luego la f6rmula de determinaci6n es la misma s610 que en vez de una frecuencia absoluta acumulada ascendente de N /2 sera en terminos genericos la de los cuantiles hasta rN. sera: rN _ Ni-l q ni 'C. Por tanto. 20 50 70 110 117 120 1 3 4 5 7 9 20 30 20 40 7 3 10=10=10= 84 Observando en la columna Ni es Nl = 110 el que cumple la condicioin con 10 que el septimo decil es el valor de la variable correspondiente: D7 7N 7·120 840 Soluci6n: Las frecuencias absolutas acumuladas ascendentes que nos determinan los tres cuartiles son: . Y Q3 =5 Este problema se resuelve de forma identica que en el caso de la mediana. que son las frecuencias absolutas acumuladas que cumplen las condiciones de ser las primeras mayores 0 iguales que las respectivas IN 2N y 3N C r/ q = L i - 1 + "4 ' 4 4' . DISTRIBUCIONES DE FRECUENCIAS UNlDIMENSIONALES 93 Puede observarse que Q z coincide con la mediana ya que En la distribuci6n del ejemplo 2.92 Ejemplo 2.

i=l ~ n. si h = 0. J. [75-200J (200-250J (250-300J (300-400J 50 40 7 3 50 90' 97 100 Conc1usi6n: el nivel de ventas mfnimo que corresponde al 15 % de los comercios que mas venden es de 243.5 miles de euros.:--1 (Xi ~ x) N' . = . siendo mas semejantes cuanto mayor sea el numero de momentos que coinciden.6.1 + c.­ .125 25-0 = 137. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 95 Todo el procedimiento de determinaci6n estudiado en la mediana es apli­ cable al cien por cien al caso de los cuantiles. Estas medidas caracterizan a las distribuciones de frecuencias de tal forma que si los momentos coinciden en dos distribuciones diremos que son iguales. b) El nivel de venta mfnimo que recaudan el15 % de los comercios que mas venden..N i - En la distribuci6n del ejemplo 2.'~ 94 CASAS-sANCHEZ. M. Soluci6n: b) El nivel de ventas mfnimo que nos piden nos 10 proporciona el per­ centil 85 ya que es el valor que nos deja a su derecha. ao = 1. La frecuencia absoluta acumu­ lada ascendente que 10 determina es: 85N 85·100 100 =100=85 Observando en la columna Ni vemos que N~ = 90 nos determina el inter­ valo donde se encuentra el percentil 85 que es (200-250]. - x) N ». z N 'N = L. ~ I~~.29 hay que obtener la columna de las frecuencias absolutas acumuladas ascendentes quedando: P8 5 (Li 1 - 1 Ci 85 . Se define el momento de orden h respecto al origen de una variable es­ tadfstica a la expresi6n: a) El nivel de ventas que nos piden corresponde al valor del primer cuartil.». .500 euros el nivel de ventas que no es superado por el 25 % de los establecimientos comerciales.1 + LJ ni Nt l n. . 2. + X h -n. y SANTOS-PE~AS. El momento de orden h respecto a la media aritmetiea 0 central de una variable estadfstica es: mh = (Xl - n h l x) N + (x z - hnZ x) N + '" + (X. por encima de el. Aplicando la f6rmula de determinaci6n: 85N 100 . siendo x la media aritmetica de la variable estadfstica. al ser el primer intervalo de la distribuci6n donde se encuentra el primercuartil. x·h ­ l N 1 Ql = L i . a 1 = X que como sabemos es la media aritmetica. Calcular: a) El nivel de venta que no es superado por el 25 % de los establecimientos. Algunos ejemplos son: si h = 1.29 referida a las ventas mensuales de 100 establecimientos comerciales. el Ni-l = 0 ya que antes del primero no existe ninguna frecuencia acumulada.750 euros. J.50 = 200 = L.. La respuesta al problema planteado es que son 137. = 75 + ~. Puede observarse que al aplicar la f6rmula de determinaci6n. 50 = 243. un 15 % de los comercios con las mayores ventas. Momentos Los momentos son medidas obtenidas a partir de todos los datos de una variable estadfstica y sus frecuencias absolutas.+ . l ah = Xl - h n 1 N nz + X h .31 En la distribuci6n de frecuencias del ejemplo 2. luego la frecuencia absoluta acumulada que nos determina el intervalo donde se encuentra es: 4= IN 100 = 25 4 Observando en la columna Ni cumple la condici6n de igualarla 0 superarla por primera vez el primer valor Nl = 50 con 10 que el intervalo es el primero [75-200]: IN _ t 4 Nin. Ejemplo 2.75 miles de pesetas. + dO . . ah es la media aritmetica de los valores observados elevados a la potencia h.

Tambien cualquier momento respecto al origen.'-' (-1)1 . DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 97 Ejemplos: si h = 1. J. se denota m 2 = 8 2 Y se llama «varianza» que es la medida de disper­ si6n absoluta que se estudiara mas adelante. Si se realiza la transformaci6n siguiente: Yj= Xj ­ si h = 2. En la demostraci6n anterior se ha tenido en cuenta que los cambios de escala Y origen sf afectan ambos a los momentos respecto al origen ya que como se vio en la primera propiedad de la media aritmetica. G)a1 X + e)x~ = 2.JxJ'Jn . 1 m =1 N Los cambios de escala y origen en el calculo de los momentos respecto a la media L (Xi j=1 r 1 x)ni = N L i=1 r 1 xin i .X)h ni = N i~1 [Ot + CYi . J. Para ello usamos el binomio de Newton: (Xj X)h = - j=O ±(-IY(~)X7-jxj ] 1 r 1 r mh(xi) = N i~1 (Xi . menor representatividad de la medida de posici6n.96 CASAS-sANCHEZ. = a2 .(h) .=1 J=O . ah' se puede expresar en funci6n de m h . y viceversa.(Ot + Cji)Jh ni = = N i~1 [C(yj .L (Xi-x)hni=N. . = O. M.( ·C) . indicandonos 10 representativa que es la medida de posici6n.X = 0. resulta que Relaciones entre los momentos C °t x. L . de asimetria y de apuntamiento 0 curtosis como se vera en los pr6ximos epfgrafes. m2 = it (-lyG)a2-f = i (~)a2 2. X = O.y)Jhni = 1 r c [~(y N y-)h n ] i i = Chmh(Yi) Asf: 1 r 1 r mh=N. x J N c: x h -Jn ) =. Los moment os respecto a la media se yen afectados por los cambios de escala pero no por los cambios de origen. Un caso particular de especial relevancia es m 2 : Los momentos se utilizan constantemente en la Estadistica Descriptiva en el calculo de medidas de dispersi6n. Las medidas de dispersi6n tratan de medir 10 mas 0 menos esparcida que se encuentra la variable estadfstiea entorno a una medida de posici6n 0 de tendencia central.'-' (-1)1 .X N L j=1 ni = X .j ~ = . ah_jXJ. Ia varianza coincide con el momento de orden 2 respecto al origen menos la media aritmetica elevada al cuadrado. A mayor dispersi6n. + CYi I Demostraci6n: mh(xi) = Chmh(YJ I Todo momento respecto a la media puede expresarse en funci6n de los mementos respecto al origen de 6rdenes menores 0 igual al orden del primero.j Y X. + Cy.=1 [h (-IY(h). x7­ j= . que es un momento de orden uno respecto al origen. J=O ] .=1 =0 ] ~ 1 ~ j .x es decir.L .2x 2 + x 2 = a 2 .. YSANTOS-PENAS. Medidas de dispersion .7.

y SANTOS-PENAS. . I = Q3 . c) Medidas de dispersi6n respecto a la media aritmetica: 1 - . Veamoslo: sea D 1• - P 7' f(k) =- 1 • Desviaci6n absoluta media respecto a la media..Q r­ > 1 S2 = - r N • Intervalo semiintercuartflico. > 0.Cy . etc. 2 r • Coeficiente de variaci6n de Pearson.. rango 0 intervalo de variaci6n: R V i = 1. Las unidades en que se miden las medidas de dispersi6n son las mismas de los datos (por ejemplo: do' s.xfn i = m2 = a 2 . • Intervalo 10 .. >- La. se realiza habitualmente a traves del coeficiente de variaci6n de Pearson.98 CASAS-sANCHEZ. A efectos de comparar las dispersiones de dos 0 mas variables estadfsticas en las mismas 0 distintas unidades.xfni ~ 0 = x.0t)2ni = 1 r N .). que es la medida de disper­ si6n relativa que mas se utiliza para comparar la dispersi6n de distintas distribuciones.93 por 100. Las relativas permiten comparar la dispersi6n de distintas distribuciones.k)2ni 1 r j'(k) = N i~l 2(xi .~1 (y. = N i~l (Xi . (Q3 . como hemos indicado anteriormente. => X = Cy + at. • Intervalo intercuartflico relativo. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 99 Algunas medidas de dispersi6n absolutas (dependen de las unidades de medida de 1a variable) 0 relativas (estan definidas por cociente y nodependen de las unidades de medida de 1a variable) vamos a definirlas a continuaci6n. r . do • Varianza. 2. J. 1 r 2. .y)2ni = C 2 s . etc. b) La desviaci6n cuadratica media de una variable estadfstica respecto de una constante k. Queda comprobado que: f(x) c) Metodo abreviado de calculo de S2: Como en el metodo abreviado de calculo de la media aritmetica vimos que: Xi = CYi + O. M. se hace minima en k = x en cuyo caso la desviaci6n cuadra ­ tica media respecto a x es la varianza S2.Xl = max {x. =0 => k= x S2 • Desviaci6n tfpica. Las medidas de dispersi6n absolutas s610 tienen sentido cuando vienen acom­ pafiadas de un promedio.X = 0 V i = 1. y sumando en todos los valores de la variable tenemos: 00 b) Intervalos intercuantflicos: • Intervalo intercuartflico. P 93 etc. . six. = N i~l (Xi = C 2 1 r 1 X)2 ni = N i~l r (CYi + O. (Q3 . pero las mas usadas utilizan la varianza. . a) Propiedades de la varianza. Existen otras muchas medidas de dispersi6n. .90 por 100. D 9 • Intervalo 7 .min {Xi} para 1 ~ i r por 10 que dividiendo entre N. . I.Ql)IMe . 1uego x es mfnimo.. s ~= Ja 2 - x• 2 j"(k) = N i~l ni = 2 > 0. six. 0 en unidades al cuadrado (por ejemplo: S2) 0 son magnitudes escalares independientes de las." (x.Qd2.. 0 sea los valores de la variable coinciden con la media aritmetica.} . . = S2... ahora s. J. a) S2 La varianza siempre es positiva: o ~ S2 < Para probarlo: 00 Recorrido.x = = - N i=l L r IXi - xln i . R. varianza S2 = 0 cuando Xi .= 1 " L. N i=l L r (Xi .k)( -l)n.X)2 nt..). unidades de medida (por ejemplo: intervalo intercuartflico relativo. por 10 que la vamos a estudiar algo mas. six. r: ~ 00 > (Xi .

estadistica X. Cuanto mas se aproxime a la unidadmayor dispersi6n existira en los datos observados y peor sera la representatividad del promedio. la varianza resulta ser: 8 Z Relaci6n muy importante desde el punta de vista practice.7949842 5/4 d) Calculo de la varianza a traves de los momentos respecto al origen: Como ya se demostr6 en el apartado de los momentos: sZ = m = Z En la variable estadistica presentada en la distribuci6n agrupada de fre­ cuencias del ejemplo 2.248.x) = (2)a .XZ = 287.104 . EI coeficiente de variaci6n de Pearson por su definici6n por cociente nos indica 10 que representa la dispersi6n (s) en raz6n al promedio (x).400.15 se puede obtener asi.100 CASAS-sANCHEZ.000 .16 que la media aritmetica es: x = 16.3255825. ~ (.575 + 1.~ 0.000.J .545.000z .174) = 40. j Z.400 = 27. M. Ejemplo 2.805 + 3.000· (7.185) = 287. J.32 La varianza de la variable estadfstica presentada en el ejemplo 2.000z . 7 + 19. SZ = a z .16.1)i(2)a i~O .000z .120Z = = == a z .15 la media aritmetica es: y el coeficiente de variaci6n de Pearson: ::. .600 donde La desviaci6n tipica es: 1 z z z z z 1 51 az=-(O ·4+1 ·10+2 ·4+3 ·1+4 .400. 5 + 23.400. tiene significado si se compara con el valor de la media aritmetica. El coeficiente de variaci6n de Pearson es: 8 i= J79186 ~ 0. volvemos a comprobat que a estes no les afecta el cambio de origen pero sf el de escala.1)=-51=­ W W W 8 = p 8 ~ 5.259.3 + 121· 4 + 225·7 + 361· 5 + 529·6) = = 4. J.X Z I 25 106(49. 6) = 1 = - = az .XZ 287. Como la 8 z es un momento de segundo orden respecto a la media. 4 + 15.854.2x z + x Z = az ­ XZ [ sZ = az . 3 + 11. x x=4.3902 y por el mismo ejemplo 2. luego 8 5 z == 51 _ 20 (~)Z = 4 51 _ 25 = 204 ~ 125 = 79 20 16 80 80 La desviaci6n tipica sera: s= !lo 9 80 ~09937303 ' Como se ha comentado.000z . DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 101 uti! cuando 0. expresada en las mismas unidades que la variable estadfstica.000 .16.120. Y SANTOS-PENAS. ya que se puede considerar que la dispersi6n es baja. la desviaci6n tipica.000z . (147 + 484 + 1. por el mismo ejemplo 2. como medida de dispersi6n absoluta.(2)a x + (2)x 0 1 2 Z 1 z = 1 a z = 25 (7. Sabemos. En este caso supone aproximadamente 1/3 de la media con 10 que podemos concluir que esta es bastante representativa de todo el conjunto de datos. es un valor 0 dato central de la variable estadfstica X Y C es la distancia 0 separaci6n entre dos datos consecutivos de la variable. por todo ella.

La simetrfa en una distribuci6n implica que Me = X. la distribuci6n es asimetrica positiva 0 a la derecha: m3 o x ni estadfstica con respecto a la distribuci6n lIamada normal. transforma distribuciones simetricas en otras simetricas (y asime­ tricas en asimetricas). siendo x la media aritmetica. Si gl < 0. si esta es simetrica se dara siempre gl = 0. Cualquier cambio lineal es una variable estadfstica y = ax + b. a > y b constantes. 10 mos­ tramos en la figura de la pagina siguiente.102 CASAS-sANCHEZ. y se Ilamara mesocurtica. Sea la variable estadfstica asimetrica siguiente: X I n. entre elias destacamos el «coeficiente de asimetrfa de Fisher»: ° e. y se llamara platicurtica. la distribuci6n puede ser simetrica 0 no. tiene menos apuntamiento que la distribuci6n normal.8. Si ademas es unimo­ dal. M. La curto sis 0 apuntamiento surge al comparar la forma de una variable 2. y se llamara Ieptocurtica. Y SANTOS-PENAS. Se han propuesto distintas medidas de asimetrfa para variables estadfsticas. es decir. el momento m3 = 0.) Si gz = 0. Ejemplo 2. =7" Si g 1 > 0.33 o I • x Si gl = 0. tiene mas apuntamiento que la distribuci6n normal.m4 84 _ 3 Si gz > 0. (El grado de apuntamiento de la normal es tres como se indica en la anterior expresi6n de Fisher. la distribuci6n tiene un apuntamiento similar a la distribuci6n normal. Medidas de asimetria y curtosis ni Una distribuci6n es simetrica si y s610 si el diagrama de barras que la representa es simetrico respecto de la recta x = X. de que m 3 = no se deduce que la distri­ buci6n es simetrica. J. Si gz < 0. J. la distribuci6n es asimetrica negativa 0 a la izquierda. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 103 A partir de la unidad el promedio no representa bien como medida de ten­ dencia central al conjunto de datos y debe descartarse. perc no al reves. ° 5/9 1 ° 3 1 2 . Se mide fundamen­ talmente por el coeficiente de curtosis de Fisher: gz - . Me = X = Mo. Es facil comprobar ademas que si una distribuci6n es simetrica.

TABLA 2.r-'l . ».. j=l NT xjn j.) y de individuos que se los reparten (NJ).s»: r N u. Elaboraci6n del tndice de Gini. ~ Xi ~ . r}. = I j=1 xjnj 100 N too . • Uj = I . ~ X.. M. aunque no suficiente. . y SANTOS-PEN"AS.100 Nt N Xi n. donde Xi es la renta de los n.qi) '1 1 O. nos dan la evoluci6n acumulada de recursos (u. r) donde P. el fndice de concentraci6n de Gini es '-1 1 1 1 1 = 6' 93 [( . Por Ultimo. Llamamos U. N NT a la renta total percibida por los NJ primeros rentistas. 3 + 53] = 6' 93 . 2. xini = I... ». como instrumentos validos para analizar la mayor 0 menor con­ centraci6n en una distribuci6n de rentas de los individuos que las reciben. z = -·too U PI =----. = • NT -'-·too N i' I Xl nl x in i I' Nt 1 Nt z ui = x in i qi :lndice de concentraci6n de Gini Consideremos la variable estadfstica X {(Xi' n. Luego una condici6n necesaria.9. individuos. = 100 y q. que ordenados en sentido creciente de rentas. p. y por tanto. supuesto el orden de rentas Xl ~ X 2 ~ ..): i = 1. . Uz uj = I j=l xjnj qj = -·100 U. Simetria implica 91 = 0 pero 91 = 0 no implica simetria.. ocupan los lugares NI.. P2 =~. Para obtener el fndice de Gini es conveniente construir la tabla 2.~ r 104 CASAS-sANCHEZ. es que su coeficiente de asimetria de Fisher 91 sea igual a cero. (i = 1. Aunque la simetria implica m3 = 0. ( . Xz ul =-·100 u.. 91 = O. n.~iil ·. Pi = 3+ (1- ~YJ = J. La columna xini nos da el reparto del total de r recursos i i=l xin L entre los distintos elementos de la distribuci6n dados por las frecuencias absolutas n. J. para que una variable estadfstica sea simetrica.. J. En efecto: 105 Denotando x= ~ m3 = ~ [ (0 - G 1) + = ~y ·2 + G ~y - 1~ =~. = 100.. Xi 2. por ser m3 O. = -'-·100 .!·too Nt N nz xzn z = x in i + x Zn2 q2 u...4)3 ·2 + 13. (i = 1. Medidas de concennoclen En esta secci6n trataremos el fndice de concentraci6n de Gini y la curva de Lorentz.14. 2.l' 100 Y qi = ~·100 U· u. qi y Pi nos representa dicha evoluci6n expresada en porcentajes. NT . r) X. Ui p. .6' 93. xini NT . i=l L Pi Este ejemplo comprueba que si el coeficiente de asimetria de Fisher 91 = 0.128 + 3 + 125) = . i xjn j l> 1 qj = -·100 U.. Las columnas NT Y u.0 = _ 1 1 IG = i= L (Pi .14 ya que por un proceso sucesivo de calculo obtenemos las columnas qi y Pi que nos definen dicho indice. = I DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES Veamos que su coeficiente de asimetria es cero. 2. la variable no necesariamente es simetrica. .L i=1 xini .1 + 1 hasta NJ..

000 q.. El caso de equidistribuci6n de la renta corresponde a la diagonal que une (0.5 = 0. 100).000 3. 0) con (100. . . DISTRlBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 107 Si la concentraci6n de renta es minima.5 87.98 73. 0). (100.19. J.5 + 97.. 10 que implica: ui = xNI.00 40.77) + (97. si la renta esta repartida por igual entre los N individuos. es decir. 100 I N! N u.93.Pi% IG = (62.44 100.0) GRAFIco 2.19 de los puntos (Pi' qJ.0) y llega a (100.00 El Indice de Gini sera: (0.159 I . Ejemplo 2. e I G = 0. La curva parte de (0. s610 el ultimo individuo percibe toda la renta: . 25. concentraci6n maxima de la renta corresponde a la curva que partiendo de (0. es decir.40.000 2.O de personas) 25 10 4 1 Obtener el indice de Gini y la curva de Lorentz. Conviene anadir que e1 fndice de Gini es aproximadamente e1 area som­ breada (entre la diagonal y la curva de Lorentz) dividida por e1 area del triangulo de vertices (0. y de (100.98) + (87.. 0) y (100.{ N. Xi = X = cte. y SANTOS-PE:N"AS. Curva de Lorentz Es la grafica 2.34 En una empresa existen cuatro categorfas profesionales y cada una tiene . 100).000 61.000 57. por 10 que I G = 1. yesto implica a su vez qi = Pi' por 10 que la renta esta equidistribuida. 0) llega a (100. Ql=q2=···=qr-l=0.5 .5 + 87. 100) Vamos a construir las columnas que se necesitan para resolver el problema: NT I p. unos niveles de ingresos mensuales diferentes. 0) llega a (100. r en e1 plano cartesiano.=~·100 • Ur u· 25 35 39 40 62. . M.000 45. y e1 caso de qi% 100-+ El indice de concentraci6n de Gini puede tomar gradualmente valores de (nive1es de ingresos expresados en euros) 1. Soluci6n: A (100. segun pase de la equidistribuci6n hasta el caso opuesto de concentraci6n maxima de la renta en un solo individuo.77 93.5 100. 2.5 .000 4. (100. 0) Curva de Lorentz.44) 62.. J.000 n. i = 1. 0) mediante un segmento. = ---'-.106 CASAS-sANCHEZ. 100) mediante otro segmento.5 .5 97.73. °a 1. La distribuci6n de frecuencias que expresa los niveles de ingresos y el numero de personas en cada categorfa es la siguiente: Xi Si la concentraci6n de renta es maxima. 100).

.77 -1-----------------------------:.fl' La media aritmetica es: o 62. 73..000 720.44-1-------------------------------------::. La curva de Lorentz sera: qi Ejercicios 93. 1. '<:«: 2.) 100.jproducto) 500 1.0fl + 5(1 fl) = 35fl fl)' + 5(1 12 .fl = 0. y SANTOS-PEJ'lAS.000 500..5 87. 1. Sabiendo que el precio medio result6 de 12 euros..= 35 0.j2 = 4. Cada area produce un mimero distinto de bienes 0 servicios.8 fue la proporci6n de nifios espectadores entre el total.-~. 2.597. con frecuencias relativas respectivamente de: fl y f2 = 1 .000 360. M. (Por tanto f 2 = 1 . Los ingresos totales y el rendimiento por producto de cada area son: Ingresos totales (euros. que al tomar un valor pr6ximo a cero se puede concluir que existe una buena equidistribuci6n en los ingresos.98+--------------­. que llamamos productos. Para asistir a un partido de futbol hay dos tipos de entradas: adultos a 40 euros y nifios a 5 euros.. iCual fue la proporci6n de asistentes adultos? Soluci6n: 40.2 es la proporci6n de asistentes adultos. La variable estadfstica esta compuesta por dos datos: Xl = 40 euros y x 2 = 5 euros. 1.000 25.5 = + 5.) Una empresa tiene cuatro areas de producci6n. '1""" 108 CASAS-sANCHEZ.000 Area 1 2 3 4 I .000 90.000 Rendimiento/producto (euros.5 Pi 12 = x 1n1 ~ x 2n2 = XJ'l es decir: 12 = 40fl Luego: + X.

siendo n.000 euros/producto El ritmo medio de tranformaci6n es: . supuesto que el control de calidad afecta a toda la produc­ ci6n.000) = 1 944 1. J. N..000 n1 = 500 = 200 productos.66 euros/producto para el total de areas de la empresa.779. El ritmo 0 velocidad media de control de calidad de la producci6n es de 60 productos/hora. son: tiempo t z 1'1 =E =30 (= t 1 t1 = ! =~) r.000 euros.zproducto + =__ =P t + t p 1 P 2p z -+1'1 1'z =1 1_ P 2 -+ ­ 1'1 1'z N= L n.111 Calcular el rendimiento medio por producto para el total de areas de la empresa. 30 rz 60 Y Y Xl = 500 euros/producto 1'2 =E tz = 60 (= =! =~) tz nz Y Xz = 1. J. Solucion: El rendimiento medio por producto sera: n 4 x= L X i Ni . Luego x = N i~l = 1 41 Xi n. y los datos se han presentado en una tabla agrupada de frecuencias: N. por producto del area i. En cierta comunidad se han censado los establecimientos hoteleros segnn el mimero de empleados.O de hoteles 125 60 13 2 200 Oa5 5 a 15 15 a 50 50 a 200 :1.= 40 transformaciones/hora. = 944 (100.000 = 720 productos.000 n4 = 90. 3. Solucion: mimero Los ritmos medios de producci6n ( i't = . El ritmo 0 velocidad media de producci6n es de 30 bienes/hora.000 euros. 6 4) Y Xi i= 1 el nnmero de ptas. 2.000 + 720.mimero transformaciones en total r= tiempo en reaIizarlas 2 1 -160 2 120 500. 3. 'I I i i' !I II! i'l' lill Iii' . = 200 + 720 + 20 + 4 = 944 productos en total de todas i= 1 -+. Calcular la velocidad 0 ritmo medio de ambas transformaciones.000 = 4 productos.­ 30 60 = 2 + 1 = -3.~'I~ 110 CASAS-sANCHEZ. el numero de productos del area i( = 1. 720. donde: 100.° de empleados Un sistema industrial realiza dos tipos de transformaciones: «producci6n» Y «control de calidad». 360.zproducto Y x 4 = 90. y SANTOS-PENAS. DISTRIBUCIONES DE FRBCUENCIAS UNIDIMENSIONALES . M.000 + 500.680.000 = 20 productos. Que es la media arm6nica de los ritmos medios de producci6n Y control de calidad. productos) Y de control tiempo t 1 numero productos) de calidad ( l'z = .000 1.000 ~ 1. las areas. 4 Y x 3 = 25. 4.000 n3 = 25.000 + 360.

O de hoteles Amplitud Int. J. b) El numero de hoteles con mas de 5.5 15 45 30 2 100 Calcular: a) El porcentaje de clientes que demandan mas de 1. se obtendrfa por una regla de tres el porcentaje: N} x _ 9. se asigna a este intervalo la frecuencia absoluta 60 hoteles. es uniforme: 100 . Luego debemos calcular la posici6n de N/2 = 200/2 = 100.000-8. 5]. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 113 luego la mediana.000 hay 45 clientes De 4. Si en total hubiera N clientes.000 1. d) Calcular la mediana del mimero de empleados y explicar en que hipo­ tesis nos basamos para realizar dicho calculo. Una empresa distribuidora de bienes de consumo conoce el numero de clientes que demandan estos bienes.000 a 2.000-6. y 6.i1!l''I\'' 112 Se pide: a) El nnmero de hoteles con mas de 5 empleados de esa comunidad.000 0 90 x-100 -N% d) La frecuencia total es N = 200.0 125 ·5 c) Representar graficamente la variable mimero de empleados.000-2. Soluci6n: a) El numero de hoteles con mas de 5 empleados es el total de hoteles Me = 0 + = 4 empleados (200) menos el numero de hoteles con 5 0 menos de 5 empleados (125): Es decir: 200 . 90 clientes representan el 90 % de los clientes.000 a 6.125 = 75 hoteles tienen mas de 5 empleados b) Nos piden la frecuencia absoluta del intervalo (5. b) El mimero de bienes mas demandado.000 hay 90 clientes Como en total hay 100 clientes. .000 hay 15 clientes 13/35 50 2/150 200 N.000-4.000 hay 30 clientes De 1. c) Mediante el histograma de frecuencias: N. y bajo la hip6tesis de que en este intervalo la distribucion del «nnmero de empleados por hotel».000 a 4.000 bienes de con­ =25 125 sumo.000 2. J. Soluci6n: 6 2 a) De 1. En la tabla agrupada de frecuencias. M.000 6." de empleados ' 150 De 2. Pero 100 verifica: 0:::. Y SANTOS-PENAS. Me se encuentra en el primer intervalo (0.000 4. CASAS-sANCHEZ.000 a 6.100<N 1=125. y menos 0 igual de 15 empleados.000 Clientes 8 empleados». 15] de «mimero de 5.O 1.000 0 menos. segun su cantidad distribuida Distribuci6n 0-1.

Solucion: Demostrar que si los datos Xl y Xz son positivos. 5 + 0. 2. mediana y moda.240 + 1. Dada la siguiente distribuci6n que refleja la variable estadfstica «produc­ tividad» en cierto sector econ6mico: Intervalos 0-10 10-30 30-50 Calcular la media.0 125 8/20 M. para dichos datos. 5 H ~ G ¢> Xl ¢> 2x lxZ + Xz ~ r:": Y xlX Z ¢> 2y xlX Z ~ ¢> ~ Xl + Xz ¢> 4x lx Z ~ xi + 2x lxZ + x~ = (Xl - 6. J. siendo H. Pesos: Frecuencia: 70 4 74 9 78 16 82 30 86 44 90 36 94 20 98 12 102 6 = 0 + . 50 50 ' Mediana:• M e Moda: 8.114 CASAS-sANCHEZ. = 0 + 0 + 8/20 ·10 = 10. M o = 2..:. han sido anotados. 0 cierto. Los pesos en gramos de cierto producto agricola. x= 1 -(70·4 177 + 74· 9 + 78 ·16 + 82·30 + 86·44 + 90·36 + 94·20 + 1 177 (280 + 666 Solucion H= N + 98· 12 + 102·6) = nz -+Xz Xl + 1. entonces Media: H~G~x. 7. se calcula asf Ahora: 0. Frecuencias 32 8 10 ¢> xi - 2x lxZ + x~ Xz)Z .176 + 612) = Con cambio de origen y escala: Sea O. Tambien: G~x ¢> 1 JxlX Z ~ 2(x l + x z) ¢> ¢> . DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 115 b) La moda. pero no existe frecuencia no nula para ningun intervalo inferior.· 1 0 = -1 678125 ~ 32 ' 25 . .:.880 + 1. G y x.000 = 3.248 + 2. M. Solucion: 1 720 Media' a=-(5·32+20·8+40·10)=-'-=144 . Calcular la media y la desviaci6n tfpica de los pesos.460 + 3. pues de existir.. 0 cierto. asf como la frecuencia de presentaci6n en un cierto lote del producto. J. con y sin cambio de variable. bajo el supuesto contemplado en la teo ria.015 . geometrica y aritmetica respectivamente.700565 xlX Z 1 G = Jxlxz x = 2 (Xl + xz) C=4 X =4y + 86 . la moda se situana en el intervalo 0-10. las medias arm6nica. = 86 y 1 17715346 ~ 86. YSANTOS-PENAS. se puede calcular segun se ve en teorfa.000 + 001 01. 1 z z xlX Z ~ 4(x l + 2x l Xz + x z) ¢> 4xlXz ~ xi + 2x lx Z + X~ ¢> ¢> xi - 2x lx Z + X~ = (Xl - Xz)Z ..000 bienes.784 + nl = 2 1 -+Xz Xl 1 =-­ Xl 2 2x lxz Xl + Xz + Xz + 3.

6) = 177(64 + 1 81 + 64 + 30 + 36 + 80 + 108 + + 96) = 177559::= 3.1581921 Aunque la dispersi6n absoluta ha aumentado tras los cinco anos.600 + 49.36 J9MOO X > Xl = 2.600. = C· Sy = 4sy ~ 7.zafio y su varianza es 90.000.44 0.284 + 97.000 (u. Cinco alios despties. por 10 que podriamos conc1uir que se ha avanzado en la disminuci6n relativa de las «desigualdades sociales» 0 «no redistribuci6n de la renta».'r::. segtin la informaci6n del enunciado del problema. J.000 ~ 0.0739156 1 31::= 01751412 177 ' La variaci6n en rnillonesimas.jafio.20 + 32.32 .9 + 782.30+ 86 Solucion: a)' La dispersi6n absoluta se mide por la varianza: 1 + 982.(15346)2 ~ 70739122 -.20+ soluta? b) l. entre las dos formas de calcular la desviaci6n tipica de la variable x.16 + 822.000 u.000 = 2.424) = Con cambio de origen y escala: Sea = 2(y) b) La dispersi6n relativa se mide usualmente por el coeficiente de varia­ cion de Pearson: Of = 86 y C=4 x = 4y + 86 +0 2. hubo mayor dispersi6n ab­ 9.)2 en ese afio. se debe a la correspondiente aproximaci6n de decimales.3)·9 + (. 177 - -2 .+ 86 = 4 · .12 + 42.PE:NAS. en cuanto ala renta percibida en relaci6n a las medias de la renta de cada afio. DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 117 _4)·4 + (.000. = 125.0282 = s~ < s.En que afio hubo mayor dispersi6n relativa? donde a 2 1 = 177(702. con la dispersi6n relativa se constata una disminuci6n en las desigualdades econ6mi­ cas de la renta percibidas.+1 + .4+ 742.000 (hubo mayor dispersi6n absoluta 5 afios despues). y por ello cabria suponer que las desigualdades en la renta han aumentado. y SANTOS.344 + 201. inicial 6 5 alios despues.600 + 176.~ 116 1 Y = -« 177 CASAS-sANCHEZ. Entonces 31 X = 4y.16 . + 22.00013598207 o So 81 J125..4)2.000 1. 12 + 4·6) = 177(.j".00015 = 2. .000 (u.m. 177 2.720 + 115.4 + (.600.44 + 90 2.6) = 177(19. + 2·20 + Entonces: Sy - _ G _ ySy - Ja S 2(y) - Y =. 1.559 (31)2 177 ::= 1. r:": = y rs = ya 2 . y su varianza result6 ser 125.9 + (1 . Determinar: a) iEn que afio.720 + 325.248 + 62.339.000 (hubo mayor dispersi6n relativa el afio inicial) 2)2 .12 + 1022.30 + 36 + 40 + 36 + 24) = = -.m. M.+ 86::= 86700565 177 ' Desviaci6n npica: 8 En un determinado pais se sabe que la renta media es de 2.000 de 'u.36 + 94 2.a2 = "\ 1339364 8 177 I .27 .m.30 a 1 177 «. la renta media se elev6 a 2.W. 16 + (-1)2.m.364 177 ::= 7567.2)·16 + (-1)·30 + 0·44 + 1· 36 ..7684789 1 + 3 . + 291.424 + 90.

000} Para estos datos. 12. En su entorno. y SANTOS-PENAS... Soluci6n: albaranes.000 euros Obtener la media geometrica y comentar el resultado.10 3 = = -20. i = 1.. Se pide: hallar el ingreso medio por factura del total de cobros. 1.000 + 5. han sido de N 1 = 700. len que producto X 6 Y tiene mayor penetraci6n relativa entre las empresas del mercado en su Llamando N = N l al total de facturas X= N 0 + N 2 + N 3 = 700 + 500 + 25 = 1. Xi = .500)1. la media geometrica es una mala medida de posici6n pues se sinia muy a la izquierda de. segiin su cuantfase recoge en un solo tipo de albaran. pues _ 1 xi = - Nii=lX f N· ij (i = 1.000 euros 80.10. para cada tipo de albaran.000 euros Y x3 = 225.500 => 1 1.450.6316 . 2~5. 2.225 = 1 700 = 500 + 200py . Soluci6n: 10. g = V10.000. 0 3) denotando por xii la factura j-esima cobrada en el albaran tipo i.000 + 7.000 Frecuencia 52 63 85 200 Los datos de una variable estadfstica recogen las tarifas. la distribuci6n de ventas de estos productos tiene las siguientes frecuencias (numero de em­ presas con tal nivel de ventas): Ventas del producto X Frecuencia 25 54 21 -­ 100 Ventas del producto Y 0-100 100-500 500-2. 80.500 euros.10 3 = 103 V-8.714. J. Una empresa vende dos productos X e Y.000 euros < mfn{10.538 1 [ 54J = -1-(2.000) = 1.000 + 25 .575. ( -10). que mide el saldo de una cuenta corriente a fin de afio. -10.10 3 • 80.22515. y en media aritmetica el ingreso ha sido de Xl = 3.. en ese perfodo. N. como serfa deseable en una medidade posici6n.10 3 . DISTRlBUCIONES DE FRECUENCIAS UNIDIMENSIONALES 119 Una variable estadfstica.000 euros . Los tres tipos de albaranes contienen todas las facturas cobradas a los clientes y cada factura. J. 0-40 40-100 100-300 - entorno? Si la empresa vende 72 productos X. . N 2 = 500 y N 3 = 25.40) 60 = 0.115 85 . y 700 productos Y. y son recogidas en tres tipos de albaranes segtin la cuantfa econ6mica de la mer­ cancfa.000 ~ 12. Si el numero de facturas.000 = -20.500 + 500· 15. 2 0 3 y j = 1. Soluci6n: 11.000 euros para cada tipo de albaran. cualquiera de los tres datos disponibles y no entre ellos.000) = .625. cobradas en un penodo temporal. 2.(700·3.225 3 1 72 = 40 + 100px .500] = 0.000.118 CASAS-sANCHEZ. de una com­ pafifa de transportes y distribuci6n. 0 inferior a.286 euros => Pr 1 85 _ = 200 [ 115 + (700 . presenta los siguientes datos en tres afios consecutivos: 10.25 54 ·60 => Px = 100 25 + (72 . la media aritmetica pedida es: 1 i=l L N. M.500. x2 = 15.225.

J. J. que nuestro objetivo es estudiar las causas que originan los distintos niveles de los gastos de los individuos varones mayores de 18 afios de la Comunidad de Madrid. YSANTOS-PENAS. y 700 es otro cuantil Qpr px de la variable «Ventas de Y». Lo habitual es que se estudien al mismo tiempo varias caracterfsticas de los elementos de una poblaci6n estadfstica. De este modo hemos calculado Px Y Pr que son las proporciones de empresas del entorno que venden menos del producto X. Ademas de la mencionada variable. Luego tiene mayor penetraci6n en el sector del producto Y. Pero podemos estudiar para cada elemento de la poblaci6n dos 0 mas caracteristicas de tipo cualitativo (que como sabemos vienen dadas en escalas nominales u ordinales) o cuantitativo (medidas en escalas de intervalo 0 de raz6n).1. numero de habitantes del municipio donde vive (variable cuantitativa discreta). En el producto Y. edad (variable cuantitativa continua o discreta si se expresa en afios enteros).16 % de las empresas de la competencia. que en el sector de vendedores del producto X. nos interesara medir otras caracterfsticas que pensamos que estan relacionadas con ella: ingresos del individuo (variable cuantitativa continua). aficiones que tiene (variable cualitativa). e Y. Capitulo 3 Distribuciones de frecuencias bidimensionales 3. que normalmente se medira en una muestra representativa de la poblaci6n estadfstica (individuos varones mayores de 18 afios en Ia provincia de Madrid).120 CASAS-sANCHEZ. estado civil (variable cualitativa). pues 72 es un cuantil Q de la variable estadfstica «Ventas de X». Como sabemos estas variables 0 caracterfsticas pueden ser de naturaleza continua (toma infi­ nitos valores no numerables) 0 discreta (toma un numero finito 0 infinito numerable de valores). por ejemplo. la empresa supera en ventas al 63. En X la empresa supera en ventas al 53. M. Consideremos. Introducci6n A 10 largo del Capftulo 2 hemos estudiado con detenimiento el comporta­ miento de una sola caracterfstica 0 variable estadfstica que hemos medido u observado en un conjunto de elementos 0 individuos que formaban una po­ blaci6n estadfstica 0 una muestra representativa de la misma. . forma de locomoci6n que emplea con mas frecuencia (variable cualitativa).8 % de las empresas competidoras.

por ejemplo... Los datos en que se presenta la variable X. n.j "is .. .. pero 10 normal e~ presentar conjuntamente mas de una caracterfstica con el objetivo de estudiar sus posibles relaciones y responder a cuestiones como las siguien­ tes: l. para hacer la distribuci6n mas manejable. x. M.J.2 En la tabla 3. 15 en las que el dinero 10 aparta una sola persona y sus ingresos estan com­ prendidos entre 10. . Los ingresos se han expresado en 'miles de euros y se han agrupado en cuatro intervalos de clases con 10 que Xi son las respectivas marcas de clases. Los resultados de la tabulaci6n han sido los de la tabla 3... Tablas de correlaci6n Se ha efectuado una encuesta a 100 familias preguntandoles sus ingresos anuales (X) y el numero de miembros (Y) que los aportan. n. = L j=1 s nij 3. y SANTOS-PENAS. = " n. Tabulacion de variables estadisticas bidimensionales: distribuciones bidimensionales de frecuencias Vamos a considerar dos tipos de tabulaciones: para variables cuantitati­ vas y para variables cualitativas. l. el concepto de independencia estadfstica.. nij nrj n.y el tamafio del municipio?. .. ...122 CASAS-sANCHEZ. .2.. 2. nl... En general" a mayores ingresos existira un mayor gasto..... . . Los datos en que se presenta la variable Y.. 30 en las que los ingresos los aportan Partimos de una poblaci6n estadistica en la que se estudian simultanea­ mente dos variables 0 caracterfsticas cuantitativas que nos definen una varia­ ble estadistica bidimensional. Con 10 que se construyen la ultima fila y la ultima columna de la tabla de correlaci6n que se denominan frecuencias marginales......000 euros. .. En los apartados que siguen se estudiaran cuestiones tales como las distintas tabulaciones de las variables estadfsticas bidimensionales y los nuevos conceptos que generan (distribuciones de frecuencias marginales y condicionadas). .. Tambien: n. Tabla de correlaci6n Yj n!j n2j ~ x! Y! Yz n 12 n22 ... . Llamando X e Ya las variables consideradas. .2 se observa que de las 100 farnilias s6lo hay... N . . . = " .. Ejemplo 3. los denotamos Yj U= 1..j nil ..existe relaci6n entre el nivel de gastos y la edad?. = N L r L. nr! n. .. . Y... . l..1 se construyen cuando el numero de observaciones es elevado y existe tambien un elevado numero de pares de valores (Xi' Yj) en los que i = j 6 i '# j. . x2 .2 n. n... .." n.. . n· . y la regresi6n y correlaci6n entre variables. .en que medida el nivel de ingresos determina el nivel de gastos?.. 123 Todas estas caracterfsticas influiran en distinto grado en los niveles de gastos y nos podran explicar su comportamiento. J.. .. En el primer caso el resultado de la tabu ­ laci6n recibe el nombre de tabla de correlacicn y en el segundo tabla de contingencia. los tramos de edad mas bajos gastaran mas ya que tendran mas movilidad y mayores aficiones Iudicas que comportan un mayor dispendio. n2.1 3. Tambien puede darse el caso que sea conveniente.. los denotamos Xi (i = 1.... 2. IJ i=1 j=1 Las tablas de correlaci6n del tipo de la 3. ni2 . L.! nr2 n. l....2. n ls n2s ni. ... etc. podemos construir la llama­ da tabla de correlacion.1..j Ln i=1 r ij Y ni ..000 y 15. agrupar los valores de las variables en intervalos de clases con 10 que los respectivos (Xi' Yj) serfan las correspondientes marcas de clase. 1.. Considerando estas expresiones es evidente que: r i=1 s j=1 r s " . Asi N = L L i=1 j=1 r • ni j es la frecuencia absoluta total 0 mimero de unidades = en la poblaci6n.1. .Y el estado civil?. s). r).. . . Xi nl l n21 .. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES TABLA 3.. Sea ni j la frecuencia absoluta con que se presenta el par simultaneo (Xi' Yj)' La distribuci6n conjunta 0 bidimensional sera la de la tabla 3. como se ha indicado en el Capitulo 2. Como es 16gico podra estudiarse separadamente cada carac­ terfstica construyendo su distribuci6n unidimensional y calculando sus medi­ das de posici6n y dispersi6n. .1..s nr. L.

- n _. por ejernplo.38 2 0. Tabla de correlaci6n de los ingresosjamiliares Y el numero de miembros que los aportan Tambien se verifica que: ~ los aportan (Yj) Ingresos en miles de euros L i1 - I h. = j=l t.5 17. - N .5 17. Asf de las 100 familias 38 tienen un solo miembro que ingresa dinero. nos sefialan el numero de veces que se repiten los valores de Xi e Yj por j separado sin que se establezca entre elias ninguna relaci6n conjunta.01 0.0" 124 TABLA CASAS-sANCHEZ.08 ~ 12.L.2 obtener la tabla de correlaci6n de frecuencias relativas.2 A partir de la Tabla 3..12 0.2.hj J=l Xr L..02 0. n. lJ _ S h.30 0. = I I hj = 1 I i=1 i=lj=1 r s r s 1 2 3 ni. 0.10 0. Al observar los niveles de ingresos representados por Xi vemos que 18 estan en el primero.000 euros y asf sucesiva­ mente se interpretan las frecuencias absolutas conjuntas nij .L.04 0. 32 en el segundo.zJ i= l N .5 25..=1 _"n r ij _ r 1-::::1 " . J=l nij _ N - S " . X 10-15 15-20 20-30 30-50 12.000 y 30. hj Asi..0 fj h. 1 r --!l=_ i=1 j=1 i=1 j=l N N I I s N N nij=-=1 i=1 j=l - - Yi Yl Yz Yi Yr Las frecuencias re1ativas marginales seran: s _ Xl Xz Xi ni.3..54 3 0. y n.01 0. el valor de la producci6n (yJ expresado en millones de euros y el mimero de trabajadores (xJ de cinco empresas del sector de la . Ejemplo 3.46 0.0 15 10 12 1 38 2 20 30 2 54 1 2 4 1 8 18 32 46 4 100. 46 en el tercero y s6lo 4 familias pertenecen al cuarto nivel de mayores ingresos. N 1. 1.• Las marginalesn. En este caso. M.0 40. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 125 3.L. L. y SANTOS-PENAS.j dos personas y estan comprendidos entre 20. Tambien se puede construir la tabla de correlaci6n de frecuencias relativas sin mas que dividir toda frecuencia absoluta por el nnmero total de observa­ ciones N: 3. " n.0 40._ " n.20 0.. 54 dos miem­ bros y 8 tres.04 1 hj = N n ij Es inmediato comprobar que la suma de todas las frecuencias relativas es la unidad: Cuanto existen pocas observaciones y las frecuencias son unitarias no tiene sentido construir una tabla de correlaci6n ya que muchas de las celdillas de las frecuencias absolutas serfan cero...15 0.01 0.02 0.L. L.32 0.-N r j= 1 _" -. la distribuci6n bidimensio­ nal es simplemente dos columnas que se expresan de la forma siguiente: Xi I I r s hj=" I I r S n. Soluci6n: Dividiendo todas las frecuencias absolutas por el total de observaciones la tabla sera la siguiente: TABLA L..J.5 25.18 0.02 0. Tabla de correlacion de frecuencias relativas 1 0.N -. 1. construcci6n se tabulara de la forma siguiente: .

J. dispersi6n.5 17. {(yj' n): j = 1.0 b) Moda de Y: M. como en esencia son distribuciones unidimensionales ya que expresan el estudio de cada variable con independen­ cia de la otra.O de trabajadores (Xi) ni a) Distribuciones marginales de frecuencias: - [20-50] (50-80] (80-200] 300 150 50 Xi • Distribuciones marginales de frecuencias Definicion 3.s Yz Aunque las frecuencias conjuntas no sean unitarias. etc. Yj n· . la siguiente tabla es una tabulaci6n de 500 empresas en las que se ha estudiado su nivel de producci6n en tres intervalos expresados en millones de euros. = 2. etc.000] N.n.J n.z n· . DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 127 -1.126 CASAS-sANCHEZ.): i = 1. ».0 40.950 euros 1 .0·46 + 40.2 obtener las distribuciones de frecuencias marginales.1 sedan: Xl Xz Xi -n1.500 2. r}. 2.J n . que se han estudiado en el Capitulo 2 de las variables unidimensionales (medias marginales. distribucion marginal de Y L i= 1 r x. varianzas marginales. distribucion marginal de X .5 25. por ejemplo. la moda de Y y la media aritmetica de X. Distribuciones marginales de frecuencias. llama­ mos distribuciones marginales de dichas variables a los conjuntos: {(Xi' n.5·18 + 17. = 100 [12. y SANTOS-PENAS.3 De la tabla de correlaci6n 3. Dada una distribuci6n bidimensional de las variables (X. - Yi Yl ni nl Xl Xz Yz Yi Yr nZ Xi Xr De estas distribuciones marginales. Yj Yl n· .700 Expresadas en forma de columnas las distribuciones marginales de frecuen­ cias de la Tabla 3. - n· r. ». 12. Y).5·32 + 25. si el numero de pares de valores de la variable bidimensional es reducido.1. Ejemplo 3.J 18 32 46 4 1 2 3 38 54 8 c) Media aritrnetica de X: _ 1 X=N .0·4] = 20. M. Luego las marginales de una distribuci6n bidimensional es el estudio unidimensional de cada componente con independencia del otro.).000 Yi Xi 350 500 800 1.500 5. J. y su numero de trabajadores: Producci6n (yJ [100-200] (200-400] (400-1. l n.. 2. s}. = ".000 10. Soluci6n: nr N Asi. tarnpoco es necesario construir una tabla decorrelaci6n ya que es suficiente una tabulaci6n a tres columnas de la forma siguiente: Xi Xi Xr ~j Y.000 15. ni.500 1. pueden obtenerse todas las medidas de posici6n. nz .

.. r Si n1.j = L nij· i= 1 r 3 n2 . = 32 .!l. M.j = 1...J 15 30 De la tabla de correlaci6n 3.. Dada una variable estadfstica bidimensional (X. media aritrnetica.4 n· . para ella podemos proponer dos posibles variables bidimensionales distintas con las mismas dis­ tribuciones marginales: hfj = - nij n· .2..esta no esta determinada. Y) = {(Xi' Yj.. 2 = 15 6} La frecuencia total de (Y IX = xJ es ni . 3}.3 = 9 Las frecuencias relativas condicionadas de las variables (X I Y = Yj) e (YI X = xJ seran respectivamente: son las frecuencias marginales de la variable estadfstica bidimensional (X. = L j=l s nij . Y). r} para cualquier j = 1. s. .. Las distribuciones condicionadas tambien son unidimensionales y por tanto pueden obtenerse todas las medidas de posici6n y dispersi6n de las mismas... b) Obtener la moda. n. 2. ni .. 2. . l y = n. 2.2 obtener: a) La distribuci6n de Y condicio­ nada a que X = 175. nij) : i. dadas las distribuciones marginales no siempre puede elaborarse de modo tinico la distribuci6n conjunta (X. Ejemplo 3. Pero la inversa no es siempre cierta.128 CASAS-sANCHEZ. Distribuciones condicionadas de frecuencias. 2.J 6 15 30 n· . = n2 . r. la desviaci6n tipica. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 129 Dada una tabla de correlaci6n bidimensional siempre se pueden obtener sus dos distribuciones marginales con la simple suma por filas y columnas de sus frecuencias conjuntas. J.. = 9 n3 . .. Solucion: Esto comprueba que dadas las distribuciones marginales. J. .. x2 x3 0 3 3 6 6 9 15 Puede observarse que pueden definirse tantas distribuciones de frecuencias condicionadas como valores tienen las variables X e Y ya que cada una queda determinada por la fila 0 la columna del correspondiente valor que condiciona.2. llamamos varia­ ble X condicionada a que Y = Yj' Ydenotaremos (XIY = Y) a la variable estadfstica que toma los valores Xi con frecuencia absoluta nil: (X I Y = a) El valor que condiciona X = 175 nos define la segunda fila de frecuen­ cias absolutas conjuntas nij que son las que formaran la distribuci6n junto con los valores de la variable Y. • Distribuciones condicionadas de frecuencias Definicion 3. y el coeficiente de variaci6n de dicha distribuci6n. Veamoslo con un ejemplo: Analogamente se define la variable estadfstica Y condicionada a que X = Xi' denotandola (Y IX = Xi) = {(yj' ni) : j = 1... s} para cualquier i = 1. no siempre se puede reconstruir la variable estadfstica bidimensional conjunta de modo unico. j = 1. 0 sea. nij): i = 1. I' n·· a) Xl ~ x2 x3 b) Yt Y2 6 6 3 Y3 0 1 8 9 ni· 6 9 15 0 2 4 . 2. Luego la distribuci6n pedida es una unidimensio­ nal formada por las siguientes columnas: Y= YjlX = x 2 = 175 n 2j Y) = {(Xi' nij) : i = 1. . 1 2 10 20 2 La frecuencia total de (X I Y = Y) es n... .. Y) = {(Xi' Yj. 2. = 15 6} n.. s}. Y SANTOS-PENAS.: Xl Yl Y2 6 3 6 Y3 0 3 6 9 n· I.J y Jjti =..

. I x~ 175 = - 1 56 32(1· 10 + 2·20 + 3·2) =32 = 1.a~l' El momento mIl recibe el nombre de covarianza de las variables X e Y.. Es directo comprobar que m 2 0 = a 2 0 ..!..a 0 1 i:-l Xi N + a 1 0a0 1 -_ all - a 1 0a0 1 ' .75 LIamamos momento de orden h.75)2·2] = = L. expresado en tantos por 100.J " r n. Xi Yj 1 h knij N (h.32 El momenta de orden h.130 CASAS. = N r S -" " n.:.56 1. Recordemos que cuando la variable es de tipo discreto. kEN) Como ejemplo. .v. Y) al valor: ahk = Son ~ 2 miembros por familia los que aportan ingresos dentro del inter­ valo comprendido entre 15. r.aio y m 0 2 = a 0 2 .. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 131 b) La distribuci6n obtenida anteriormente se manipula como una unidi­ mensional para obtener las distintas medidas de posici6n y dispersion: Mo(Y IX = 175) = 2 todos los pares de valores (Xi' Y) con sus frecuencias absolutas n ij. S2(X). Hasta un 50 % de participaci6n de la dispersi6n en el promedio se considera como aceptable la representatividad. que en este caso sera bidimensional. Y) es: mhk = Este coeficiente nos indica. a0 2 nij 2--'. I.:: SYIX~175 YYIX~175 ~ - 0. Yj i> 1 . k respecto al origen de la distribuci6n conjunta (X. . que la desviaci6n tipica supone un 32 % de la media aritmetica con 10 que podemos admitirla como promedio que nos representa al conjunto de la distribuci6n. r " 1 = 32 [5. como en este caso (Y son individuos) no tienen sentido los decimales dando el resultado por exceso 0 defecto en mimeros enteros. Y) 6 SXY' ml l = Cov(X. (h. IJ " n .alO)h (Yj .. (media marginal de X) (media marginal de Y) S s~ I x~ 175 = 3~ [(1 - n.. Y m 0 2 = S2(y).75)2·10 + (2 .. permitiendo tener una idea general de la distribuci6n sin tener que enumerar L L (Xi i~l j~1 S r S n.75 ~ 0.125] = 0.=--=. • Momentos en las distribuciones bidimensionales i~ LI i» I L r S n. S r n.3125 SYIX~175 ~ = i~l L xf.. alO)(Yj . y Ie denotamos Cov (X.000 euros. n. m 1 0 = mOl = 0. Y) = Igual que en las unidimensionales los momentos son medidas que reducen los datos de una variable estadistica. j~ y 1 0. i~ L. = " Yj N L. kEN) 1 j~ Algunos casos de este tipo de momentos con relieve son: a1 0 a0 1 a2 0 = i~l L Xi .625 + 1. J. J. (Xi . M..L 1 J~ 1 ».56 all = i~ L .sANCHEZ.J N 1. Algunos autores son mas estrictos y no aceptan promedios en los que el coeficiente de variaci6n sea superior al 10 %. N (momento producto) El coeficiente de variaci6n de Pearson sera: b) M omentos respecto a las medias -=--. ~ ~ L. r S n. El momento m 2 0 es la varianza de X.1. a) M omentos respecto al origen Lo que nos indica que 10 mas frecuente son dos miembros por familia los que aportan ingresos dentro del segundo intervalo 15-20.i:-l j:-I XiYj N - a lO j:-l Yj N .. Podemos distinguir dos tipos principales de momentos: con relaci6n al origen 0 con respecto a las medias.25 + 3...75)2·20 + (3 .1.a 0 1 ) -!l. y SANTOS-PENAS.a 0 1)k . k respecto a las medias de la variable estadistica bidimensional (X.000 y 20.

4 + 3 .36 =­4 9 9 9 bidas por una sucursal bancaria al dfa.. 3 .. 2 . = h/J = . J..1] N Obtener algunos momentos de relieve.l.. ... tenemos que: 1'..4) = 80 = 40 1 ~ 2 3 4 1 1 2 1 4 2 4 4 2 10 3 1 2 1 4 6 8 4 18 Dos variables estadfsticas X e Y son independientes entre sf cuando la variaci6n de una de ellas no influye en la distribuci6n de la otra condicionada por el valor que tome la primera.676 44 = 81 = 81 bien n.1] nos indica que la frecuencia relativa conjunta de 1 18 + 3·8 + 4·4) =-·52 = ­ 1 18 26 9 (X = Xi' Y = Y) es el producto de la frecuencia relativa de Xi condicionada por Y = Yj' por la frecuencia relativa marginal j . n... . e Y el numero de transferencias enviadas desde la misma sucursal el mismo dfa.(2 ·6 18 Sustituyendo en la expresi6n [3.10+3·4)=-·36=2 18 18 all = -1 (2 .N . = h. se cumplira que: h/1 = h/2 + 48 + 32) = 104 52 = ­ 18 9 = h/3 = .j ...!:l. cuando existe independencia estadfstica. Y) donde X es e1 numero de transferencias reci­ m02 = a 02 . + n .. a 02 = 18(12. J N' = N . Por el contrario existira dependencia cuando los valores de unacondicionan la distribuci6n de los valores de la otra. •J --:.s .= ­ 18 18 9 2 = n i• = nil _ n. 1 + 18 1 + 4.J 0 m 20 = a 20 . J. 0 sea que el valor Yj que condiciona influye en la distribuci6n de 1 1 a 0 1 =-(1. n . 3 ....J n.4 + 22 ·10 + 32. N Ii" f . [3.i.!1 i/j n .=_=. 2 + 4· 1 . + n·IS_. = J. 1 + 3 .:. 4 + 2 .1] la frecuencia relativa condicionada hlj por la marginal/.2 + .I" 132 Ejemplo 3.. Ii} = h/J-fj Soluci6n: alO = -(2·6 La expresi6n [3. n. 1 n. Ji} = Ji._/r. 2=0 2 + 3 ·8 80 1 160 80 + 4 ·4) = ... 1 + 2 . 1 .a 10a0 1 =9-9.. M.2] o 10 que es 10 mismo: nil n i2 _=_= n. 1 .4+2. N ni . n. 2 .!../.. ya que estamos bajo la hip6tesis de independencia estadfstica. .9 (26)2 720 .5 CASAS-sANCHEZ. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 133 18 9 Disponemos de la siguiente tabla de correlaci6n que recoge la variable estadistica bidimensional (X. 1 + ni2 + . de la expresi6n [3. =. Los datos se han anotado • Independencia estadistica durante un total de 18 dfas habiles. [3. + n.2·2 + 4·3·1) = -(24 18 la variable Xi' Si existe independencia estadfstica es evidente que las frecuencias re1ativas de X condicionadas por los distintos valores de Yj' serfan todos iguales entre sf e iguales a la frecuencia relativa marginal de X ya que dichos valores Yj no influyen para nada en la distribuci6n de la variable Xi' 0 sea..2]. [3.f· I'. Y SANTOS-PENAS..aiD =9 ..a~1 = 40 _ 22 = 40 .3] a 20 1 2 = .. Acudien­ do a la definicion que se dio de frecuencia re1ativa condicionada tenemos que: nij /.2 '" mll = 52 26 all .. 2 + 3 ..(24 + 72 + 64) = .

.. .. Sin embargo.z . r} y {(Mj. por 10 que este es un contraejemplo de que «mIt = 0 equivale a que X e Y son independien­ tes». Y) = O. :::«\' 134 CASAS-sANCHEZ.5. hemos demostrado que si X e Y son independientes. en las varia­ bles cualitativas no tiene sentido la obtenci6n de promedios si se exceptua la mod a en las de escala nominal y 1a mediana en las de escala ordinal.2... etc. n. s) Una propiedad de interes es que si X e Y son independientes.). Como ya se coment6 en los analisis unidimensionales.. nl.4.) para i = 1.. . N..). . n i j para i = 1. concluimos que X e Y son dependientes. M~ J . la condici6n necesaria y sufi­ ciente para que sean independientes es: n ij necesariamente X e Y son independientes. se verifique: e Y. J.J _ " N' N . ..2. profesiones.6 En 1a tabla de correlaci6n presentada en el Ejemplo 3. J. n." N j~t n. Luego en este tipo de analisis no tiene ninguna 16gica la definici6n de momentos respecto al origen 0 respecto a la media. Efectivamente.. Tobias de contingencia N=N'N. . n. 18 '18 2 8 4 32 = 182 = M.. Tabla de contingencia M' 1 nl l M' Z Oo. niveles de estudios.. ..i~l Xi n. perc como m ll = all . Oo. Esto puede comprobarse con un contraejemplo en que X e Y sean dependien­ tes (0 no independientes) y ademas mll = O. nrs n.. r '. las variables X e Y son dependientes. ni . n.. que COy(X. La independencia estadfstica entre y todo j = 1.N'N' ::s:: Atributo M M1 M2 TABLA 3. Independencia estadfstica.J _ Yj N - alOa o t. 2. vimos en el Ejemplo 3.. pues por ejemplo: En los estudios socioecon6micos se analizan en muchas ocasiones variables de tipo cualitativo que s610 admiten escalas nominales y como mucho ordina­ les (sexo.. . n.) para j = 1... n1j nZj "ij nz. . n.. 2 y 3.. Oo' nr j ° . . . (lfi=12.. r}.j I.. J. Pero no ocurre 10 recfproco: si mIl = no Mi Mr n. 2. nacionalidad.. y) = 0 no implica que X e Y sean independientes.alOa0 1 = 0..l N' N' 0 . S .J n. . . concretamente para i = 2 y j = 1.. 2 y 3. n.. 2...5 que mIl = Cov(X.2.4 en la que en la primera columna y primera fila se expresan las modalidades de ·los atributos M y M'.. en las celdillas centrales estan las frecuencias absolutas conjuntas nij' La Ultima columna y la ultima fila nos definen 10mismo que en las tablas de correlaci6n las frecuencias marginales del atributo Myel M' con las que pueden construirse las dos distribuciones marginales 0 unidimensionales representadas por los conjuntos {(M. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 135 Definici6n 3. bien X 18 =f.3. 2. Ejemplo 3.. n21 nil nrl n.i~l j~l xiYj n. N como esto no se da para algiin par (i. imagen de polfti­ cos..alOaOI = alOa OI . y Ii =f. r Y If j = 1. s}. y SANTOS-PENAS. Tambien pueden definirse las correspondientes distribuciones condicionadas de frecuencias da­ das por los conjuntos {(MIM' {(M'IM = Mj). M.J.s n. _ n.j Oo. Ademas. s}. esto implica que mIl = Cov(X.l n12 nzz ni 2 n. n.. Y) = 0.j ... . exige que para todo i = 1.. entonces la covarianza entre ellas es nula. j). que es 10 que que­ rfamos probar. Es una tabla de doble entrada como la 3. r S 'J _ " " N .z n. Lo que sf se puede es obtener sus respectivas tablas de frecuencias que en el caso de las bidimensionales se las denomina tablas de contingencia.. . como ocurre en el ejemplo presen­ tado en el que mll = y las variables X e Y son dependientes. ° 3. n 21 n 2. I. n . Veamos para ello que r S _"" all - i~l j~l xiYj n. ni j para j = 1. Dadas las variables estadfsticas X e Y. Ms n ts nzs n.~..

. n.. 40 60 100 I se puede decir que los dos atributos M y M' no son independientes estadfsti­ camente hablando. etc. Tambien se pueden elaborar tabIas de contingencia combinando caracterfs­ ticas cualitativas con cuantitativas: sexo con edad. I. N 0.20 Sin accidente 0. b) Las distribuciones marginales y sus respectivas modas. a1 venir expresadas en escalas nominales u ordinales. De los primeros 5 han sufrido algun tipo de accidente en el ultimo ano y de los segundos han sido 15.40 0. I Con accidente 0..136 CASAS-sANCHEZ.40. I 60 La moda es sin accidente.j N N N V i. Obtener: a) La tabla de contingencia. d) Comprobar si los dos atributos son independientes. e) La distribuci6n de los accidentes (M') condicionada a que sean solteros sera: M'/M ni j = n ii .05 0. M.60 1 n.15 0. en su definici6n solo inter­ vienen determinadas propiedades de las frecuencias relativas tanto conjuntas como marginales.:l. 20 80 60 Con aceidente Sin accidente La moda del atributo estado civil es solteros y de los accidentes es sin acci­ dente.05 =/= 0.20·0. .45 0. habitat donde viven las' familias (rural 0 urbano) con niveles de renta.j = Solteros nij Con accidente Sin accidente 15 45 La deducci6n de la anterior expresion es identica a la efectuada para las tablas de correlaci6n de variables cuantitativas. n ll n. Se construye una tabla de frecuencias rela­ tivas ~ M Casados Solteros . 40 M' ».. J. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 137 Como a las variables cualitativas no se las puede someter a las operaciones de sumas. 5 15 20 n. N =/= N' N' ya que 0. no tiene sentido el hablar de medias marginales 0 condicionadas 0 de varianzas 0 desviaciones tfpicas.j I Con accidente .7 Se han observado 100 conductores de turismo de los cuales 40 estan casados y 60 solteros.80 n.35 0. N Tabla de contingencia Como en la primera comprobaci6n Accidentes (M') Sin accidente 35 45 80 Estado civil M Casados Solteros n.. restas y divisiones. Soluei6n: a) d) Independencia estadfstica.! n1. Y SANTOS-PENAS. J. Luego la condici6n necesaria y suficiente para que los atributos M y M' sean independientes es que la frecuencia relativa conjunta sea igual al producto de las frecuencias relativas marginales: b) Distribuciones marginales M Casados Solteros ». Ejemplo 3. Lo que sf cabe es establecer el concepto de independencia estadistica entre variables cualitativas ya que como vimos en las tablas de correlaci6n de las variables cuantitativas. c) La distribuci6n de los accidentes condicionada a que sean solteros con su respec­ tiva moda.

Las nubes de puntos de la forma del Grafico 3. el ntimero de accidentes de autom6vil y la producci6n de queso manchego).1 en el que los pares de valores observados de una variable bidimensional (Xi' yj pertenecen exactamente a la funcion matematica que liga a las dos variables que en este caso es una recta. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 139 En las distribuciones bidimensionales tambien pueden establecerse repre­ sentaciones graficas. Puede observarse que en la dependencia estadfstica los pares de valores observados (Xi' Yi) ya no estan alineados como se indica en el Grafico 3. entre la evoluci6n del mimero de accidentes de autom6viles y la producci6n de queso manchego. y SANTOS-PENAS. La dependencia estadfstica. que exista dependencia estadfstica. lineal negativa expresada en la figura b). por ultimo. expresada en terminos aproximados. Puede darse el caso. que es el espacio (y.de su renta disponible. Sf parece Iogico formular que el nivel de gasto de los hogares esta dependiendo . Luego debe haber un planteamiento te6rico previa al estudio estadfstico para no liegar a conclusiones que no tengan sentido. puede existir una relaci6n causa-efecto como el ejemplo de que los niveles de consumo estan determina­ dos fundamentalmente por la renta disponible. La dependencia funcional se puede representar segtin indica el grafi­ co 3. Pero esta dependencia no es de tipo matematico-funcional sino estadfstica. que influyen en el gasto aunque sea de forma rnenos relevante. Esta dependencia tiene dos naturalezas: dependencia funcional que es cuando existe una relaci6n matematica exacta entre las dos variables y dependencia es­ tadistica que se caracteriza por una relaci6n aproximada entre los dos feno­ menos. Este tipo de fen6menos se representan en un sistema de ejes.3. etc. M. Por ejemplo.1. por puro azar. una tercera variable esta determinando a las que estamos estudiando (por ejemplo el consumo de caviar y la compra de yates de recreo estan determinadas por la renta disponible de las personas) y.) que recorre un vehfculo que va a una velocidad constante (b) en distintos perfodos de tiempo (xJ A cada valor Xi Ie corresponde un s610 valor Yi dado por la funci6n matematica que liga a las variables. Como las marginales y condicionadas son unidimensio­ nales todos los graficos estudiados en el capitulo 2 son aplicables a las mismas. Si se observan un conjunto de pafses de valores de renta disponible y niveles de gastos nos encontraremos que para un mismo nivel de renta pueden darse distintos niveles de gastos ya que existen otra serie de caracterfsticas. Tambien nos indica la nube de puntos que la relaci6n entre X eyes de distinta naturaleza: lineal positiva representada por la figura a). En un eje se representa la variable X.2 nos sefialan el tipo de ligaz6n existente entre . en el otro la Y y en el tercero la frecuencia conjunta nij' Si los valores de la variable no estan agrupados la figura sera un diagrama de barras en tres dimensiones. La regresi6n es una parte de la . Podrfa representar un fen6meno ffsico Y Ys Y4-I----------. De ella no podemos sacar la conclusi6n de que una variable determina a la otra ya que no tiene ningun sentido. Existen tres motivos fundamentales por los que una variable que vamos a llamar dependiente 0 end6gena esta influida por otra que aetna como indepen­ diente 0 ex6gena: la casualidad 0 el azar ha hecho que ambas variables esten relacionadas estadfsticamente (por ejemplo. a traves de una nube de puntos como se indica en el Grafico 3. En las conjuntas se acudira a las tres dimensiones. sin ninguna relaci6n como se indica en la figura d). la figura a) representa una dependencia lineal positiva (al crecer la renta disponible X tambien crece el consumo familiar Y). J. Dependenciajuncional exacta de tipo lineal. por ejemplo. ademas de la renta. curvilfnea segtin la forma de la figura c).138 CASAS-sANCHEZ. Dependencia funcional y dependencia estadistica Es frecuente encontrarse cuando se estudian conjuntamente dos caracteris­ ticas 0 variables que exista una relaci6n de dependencia entre las mismas. como se ha sefialado.~ --------------------A Y3 +-----------------------~ Y2+--------------K Yl Xl X2 x3 x4 xs X GRAFIeo 3. ocupa en la teorfa del conocimiento econ6mico un lugar preponderante a la hora de constrastar determinadas hip6tesis de dependencia funcional formuladas por la teorfa econ6mica. J.2.1 con la dependencia funcional. Si estan agrupados (s610 para variables de tipo cuantita­ tivo que admitan las escalas de intervalo 0 raz6n) seran histogramas tridimen­ sionales que nos generan estereogramas formados por una serie de parale­ lepipedos cuyos respectivos vohimenes son proporcionales a las nit 3.las dos variables. En los estudios estadfsticos de los fen6menos socioecon6micos s610 nos deben preocupar las relaciones de causa-efecto que son las que tienen una base te6rica.

. Por identico procedimiento puede obtenerse la linea de regresi6n de X sobre Y actuando en este caso la X como dependiente y la Y como indepen­ diente. Hemos pasado de la nube de puntos en la que a cada valor Xi Ie pueden corresponder varios valores de Yi (por ejemplo a un mismo nivel de renta pueden corres­ ponderle varios niveles de consumo ya que este no depende s610 de aquella). DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 141 Y formando la siguiente linea quebrada de puntos P 1(X 1. Veamos como se construirfa por el primer metodo la linea de regresien de Y sobre X cuando Y es la variable dependiente 0 efecto.3. Y x x x x x x x x Xx x x x x x x x x Y x x x x x x x x x x x x Ys Y2 x (c) .. f/x 1).. La dependencia estadistica expresada por las nubes de puntos de las observaciones. X/Y2. y SANTOS-PENAS.2. . flx r ) f P2(X2... . M. si hay r observaciones consideramos todas distribu­ ciones condicionadas: GRAFICO 3.. . Existen dos formas de obtener la linea de regresi6n: a traves del empleo de las distribuciones de frecuencias condicionadas 0 a traves de los ajustes mfnimo-cuadraticos. Estadistica Descriptiva que nos ensefia a determinar la linea hacia la que tiende la nube puntos.140 Y CASAS-sANCHEZ. .. . X/Ys Y/X1 . X/Ys Las medias aritmeticas serian: X/Yl. P~(X/Y. . Y/x 2 . f/xr P~(X/Yl' Yl). Ys) . .. J.3.. 1. P 2(X 2.. f/x 2 . ... . . Para ella. X/Y2. . . y la X es la indepen­ diente 0 causa. Las distribuciones de frecuencias condicionadas sertan: X/Yl. al ser unidimensionales se obtienen las correspon­ dientes medias aritmeticas: con 10 que se generan los punt os de la linea: Y/X 1 . (d) t : PI(x!> t lie • PrCx. . YIX2) ! ! lie :fIXI) x YI r Xl r X2 t t Xr 1 X GRAFICO 3. f/x 2 ). Luego la Teena de la Regresi6n nos permite pasar de la dependencia estadfstica representada en una nube de puntos a la dependen­ cia funcional dada por una linea de regresion. ••• x x x x x x Xx x Xx x x x x x x x Xx x x x x x x Pr(xr. .. . Y . Yjx. Ltnea de reqresion de Y/X obtenida por el metoda de las medias aritme­ ticas condicionadas. En estas distribuciones. . .. •••.. f/x r ) x x x x x x x x x (a) (b) x que es la linea de regresi6n tal y como se indica en el Grafico 3. a una linea de regresion en la que a cada Xi Ie corresponde un s610 valor de la ordenada que es la media aritmetica de Y condicionada a dicho valor. P~(X/Y2' Y2).

6. 2) = 2. Esta segunda versi6n es me­ nos pura que la de las medias condicionadas pero es mucho mas manejable ya que se obtiene una funci6n estimada en el ajuste y no una linea de puntos Y Ejemplo 3. Dada una distribuci6n de frecuencias bidimensional expresada por el con­ junto {(Xi' Y¥ ni) el ajuste mfnimo-cuadratico consiste en desarrollar el pro­ ceso siguiente: .8. ya que en la realidad siempre tendremos una serie de observaciones discretas que nos proporcionara una linea de puntos mas 0 menos pr6ximos. P 2 \ P3 . EI que las medias aritmeticas condicionadas sean todas iguales y su uni6n de una paralela no implica independencia estadistica entre las variables como se comprob6 en e1 Ejemplo 3.---.------- ---­ 1 (X/Y = 1) = -(2·1 + 3·2 + 4 ·1) = 3 4 _ 1 (X /Y = 2) = 10 (2 .4. 1).. 2) que es una paralela al eje de abscisas. 2) y P 3(4. EI Grafico 3.------~--------.2. pero no una curva continua como nos proporciona el ajuste mfnimo-cuadratico.------------.­ --- _ 1 (X/Y = 3) = -(2·1 + 3·2 + 4 ·1) 4 PHXlYbYI) Xl X2 3 x- X GRAFICO 3.5 obtener las lineas de regresi6n de Y/X y X/Y por e1 metodo de las medias aritmeticas condicionadas. 3 Soluci6n: a) l : Linea de regresi6n de Y/X: _ 1 (Y/X = 2) = -(1 . DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 143 b) Linea de regresi6n de X/Y: Ys -l---------------------*---------------~------. J. Los puntos seran: P'l(3.----. 1. .4 contiene las dos lineas. Otra forma mas utilizada en la obtenci6n de las lineas de regresion Y/X y X/Yes el denominado ajuste mmimo-cuadratico. = Los puntos de la linea son: P 1(2. 4 + 3·4 + 4 .8 De la tabla de correlaci6n del Ejemplo 3... Linea de regresi6n de X/Y obtenida por el metoda de las medias aritme­ ticas condicionadas.<XlY Ys) s» -)(-------. .--__ -)(. Pz(3.8. 2. si existe independencia las condicionadas son todas iguales e iguales a las mar­ ginales como se senala en la Expresi6n 3.----. M. 4 \ \ + 3·1) = 2 + 3·2) = 2 + 3 ·1) = 2 • Pi 1 3) = -(1· 2 + 2·4 8 1 4) = -(1· 1 + 2·2 4 3 x GRAFICO 3.3'. 3). 2). P~(2.--)(. '.8 = Y2 YI ---. 2) y P~(3. Y SANTOS-PENAS. como ocurre con las medias aritmeticas condicionadas. Lineas de reqresion del ejemplo 3. • 3 p' ~.-------------. La inversa si es cierta.--. 1 + 2·4 6 _ (Y/X _ (Y/X = 2 PI . 2 p' ..142 Y CASAS-sANCHEZ.

.4. a l az' . Y = ax 3 + bx z + ex + d. Al estudiar la regresi6n lineal simple en el pr6ximo apartado veremos algnn caso practice del ajuste mfnimo-cuadratico.4] Yi Yl Xz Yz Yi YN yi+---------------------------¥ yti-l-----------~~ )( x )( )( )( :l : I e'J Xi XN )( ~ x d) Se empleara e1 ajuste mmimo-cuadratico para estimar la ecuaci6n de la recta: Y = a + bx de modo que llamamos: Yti = a + b Xi o Xi X GRAFIeo 3.sea un mfnimo (que la funci6n ajustada pase 10 mas pr6xima posible a todos los puntos que Siguiendo el proceso de todo ajuste mtnimo-cuadratico se realizaran las siguientes operaciones: (Xi' Representar la nube de puntos dada por los pares de observaciones yJ como se indica en el Grafico 3.Ytl y )( )( En la mayorfa de los fen6menos de naturaleza econ6micosocialla nubede puntos nos indica que la relaci6n entre las variables es de naturaleza lineal. a3. J. + d 3..5) y otros negativos (cuando las observa­ ciones esten por debajo de la funci6n) y para que no se anule su suma se eleva al cuadrado: S = L(Yi . az.4] respecto a los parametres desconocidos (al' az. b) Existe una sola variable explicativa 0 ex6gena y por ello recibe el nombre de simple.4 de los errores 0 residuos cuadraticos.5.) tiene que ser inferior al mimero de observaciones para que el ajuste tenga grados de libertad que es la diferencia entre el nnmero de observaciones y el nnmero de parametres.4. e) En la exposici6n vamos a referirnos a una tabla de correlaci6n de frecuencias unitarias del siguiente tipo: Xi Xl [3. .144 - CASAS-sANCHEZ. y SANTOS-PENAS. Para cada Xi se define un error 0 residuo que es la diferencia entre la variable dependiente observada Yj y el valor te6rico Yti = ax...) de la funci6n Yti tendremos un sistema llamado de ecuaciones normales que nos resuelve el problema pasando de la dependencia estadfstica a la funcional. Aplicando la condici6n necesaria de mfnimo que es que se anulen las derivadas parciales de [3..5 10 que mejor puede ajustarse a la nube de puntos es una parabola de tercer grado de tipo forman la nube). 1. Ajuste minimo-cuadratico. En el Grafico 3. Regresion y correlcclon lineal simple 3. M. + bxf + ex.Ytj' Estos residuos son unos positivos (el representado en el Grafico 3.1.. La regresi6n lineal simple nos permitira pasar de la dependencia estadfstica a la funcional con las siguientes caracterfsticas: a) La funci6n a estimar es lineal es decir una recta. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 145 Representar la nube de puntos dada por los valores observados (Xi' Yj) Y elegir la funci6n del tipo Yti = f{x i . an) que mas se aproxime a dicha nube. - El metodo del ajuste minima cuadratico consiste en que la expre­ si6n 3. La regresi6n lineal simple dado por la funci6n: ej = Yj .6. ... El mimero de parametres (a l .

X "* i=l N L Yi = N N a N +b i=l L Xi [3.5] se tiene en cuenta la condici6n necesaria de todo minimo que es que se anulen las derivadas respecto a las inc6gnitas que son los coeficientes de regresi6n lineal a y b: - Luego las estimaciones mfnimo cuadraticas de los coeficientes de regresi6n lineal simple se resuelven por el siguiente sistema: as aa = 2 L [Yi i=l N N b = mu = SXY mzo S~ a ..7) au Yti = a·a l O+ b·a zo Resolviendo el sistema correspondiente a la expresi6n [3.a .5] i=l i=l i=l + b (azo - aio) b= au .a .9] que es la recta de regresi6n mfnimo cuadratica de Y sobre X.)Z ~ minima [3.146 Y CASAS-sANCHEZ. i=l mZO alO) [3. X Sustituyendo en la segunda ecuaci6n all = (aO .) = 0 1 Si sustituimos a y b en la recta Y = a + bx queda: que nos permite llegar al siguiente sistema de ecuaciones normales minimo cuadrliticas: Y = aO . M.x. sea minima: S = L e~ = L (Yi . J.bxJ (. ab = 2.a lO· a l O= aZO. Ajuste lineal minimo-cuadratico.6] N N m mZO [ Y ­ aO l mll = -(X - i=l L XiYi = a L Xi i=l + b LX.bxJ (-1) = 0 a=a01 as [3.8] SXY­ -ba 10 =Y--·X s. .--alO l m ZO mu u + .Ytif = L (Yi .7] obtendremos su solucion: a=aol-ba lO o - Xi GRAFICO 3.6] dividimos por N podemos expresarlo en funci6n de los momentos respecto al origen: aol=a+ba l O (3.bx.L l= [Yi .6. Y SANTOS-PENAS. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 147 Y =a + bx Yi Si en la expresi6n [3.b alO) a l O+ b a zo = a lOa Ol l Ajustar la recta Y = a + bx de forma que la suma de todos los errores ei elevados al cuadrado. J.aiD ~1l ­ mZO N N N Para minimizar la expresi6n [3.

ambas rectas son crecientes. mll mll " . 4.2 _ Y = a0 1 = 10 i~l 1 10 48 Yi = 10 = 4.8 .36 ~ 0. 3. es decir. 4.0.5 _ 345 = all . Si la recta que se ajusta es una funci6n de consumo en relaci6n con la renta. 5. J.745 ~ b = m ll _ SXY S.5 . 0 sea. = a m 20 20 - aio = 44. es la derivada de Y con respecto a x y tiene un significadomuy concreto: nos determina en cuanto varia la variable dependiente o endogene cuando la independiente 0 exogena varia en una unidad. 9). Si las variables estadfsticas X e Y son independientes.8 . = a = a0 1 Para estimar a y b empleamos la fonnulaci6n de la expresi6n 3.8.38.2 ~ 4.] y [7=~ 2 3 3 4 4 5 6 5 7 9 2 3 4 5 6 7 8 8 9 10 4 9 12 20 24 35 48 40 63 90 62 4 9 16 25 36 49 64 64 81 100 respectivamente. 7. Como m2 0 Y m0 2 son vananzas positivas (salvo m2 0 m0 2 casos triviales).745· 6.5 . El coeficiente de regresi6n lineal simple b es la pendiente angular de la recta de regresi6n. luego los calculos conviene establecerlos de la forma siguiente ya que tenemos que - b a1 0 4. Ejemplo 3. la covarianza y la varianza de la variable independiente: x~ m0 ­2 (y .29.74 10 a2 0 = 10 i~l xf = 10 = 44.179 I y=0. 6. J. el coeficiente b serfa 10 que se conoce en teona econ6mica como la propensi6n marginal a consumir. 6.148 CASAS-sANCHEZ.4.8 all m ll = L i=l SXY 10 XiYi N -10= 34. 3. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 149 La recta de regresi6n mtnimo cuadratica de X sobre Y. 5.9 es un caso de ajuste lineal simple por el metodo de los mfnimos cuadrados cuando la distribuci6n bidimensional es de naturaleza unitaria y el Ejemplo 3.9 En 10 familias se han observado sus ingresos (xJ y sus gastos (Yi) anuales expresados en millones de pesetas dando lugar a las siguientes cantidades (Xi: 2. x . de aquf.74 6. 4.4. y . Obtener la recta regresi6n del gasto en funci6n de los ingresos e interpretar los valores estima­ dos de los coeficientes de regresi6n. a 0 1 )' Y sus pendientes son repectivamente - .745x I .621 = 0. por analogia resulta ser.a lO = ~I obtener las medias aritmeticas marginales (X. 5. 7.8 m2 0 = 1 448 S. a veces puede tener sentido econ6mico y a veces no. paralelas a los ejes coordenados X e Y.a mll~ 0 1) [3. 10) e (Yi: 2. 0 ambas son decrecientes.36 4.2 = 34.44 = 6. El significado del a.10] Yi Xi XiYi • Ambas rectas pasan porel punto del plano xy (a 1 0 . 8. y SANTOS-PEN-AS. 8. que es la ordenada en el origen de la recta. 3.8 .8·6. 9. M.. Solucion: L Yi = 48 i= 1 10 L Xi = i=l 10 L XiYi = 345 i=l 10 L xf = 448 i=l 10 _ 1 10 62 X = a 1 0 = 10 i~l x i = 10 = 6. ambas pendientes tienen el signo comtin de la covarianza ml l .179+0.10 es una tabla de correlaci6n donde las frecuencias ya no son unitarias. El Ejemplo 3. Y).76 = 4.a1 0a0 1 = 34. entonces m 1 1 = 0 por 10 que las rectas de regresi6n seran [F}.

745 unidades.745 es que cuando los ingresos aumentan en una unidad el gasto aumenta en 0. 0 sea: Yi = Yti + e. m 20 = _ a 20 - ato = 17 ­ 44 (26)2 748 ­ 676 72 17 = 289 = 289 (45)2 _ 3.~: (x . 1.~~) 26 99 ( 45) x .) el valor observado de la variable end6gena Yi es igual al valor te6rico 0 estimado por la funci6n Yti mas el correspondiente residuo 0 error.188 Y .150 CASAS-sANCHEZ.3) = 81 + 108 = 189 1 02 17 17 La variable dependiente observada Yi tiene una determinada variabilidad Los valores o dispersi6n que como sabemos se mide por su varianza estimados por el modelo ajustado Yti constituyen una serie que se obtiene.9 + 62.17 = .Y' S. para los distintos valores de la variable ex6gena 0 explicativa que se van introduciendo en el mismo.11J es e1 residuo que tambien tiene su correspondiente variabilidad que la vamos a medir a traves de 10 que vamos a Hamar varianza residual 0 varianza de los errores 0 residuos S. Corresponde a la teoria de la correlaci6n el estudiar el grado de asociaci6n existente entre las dos variables. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 151 El significado de b = 0. EI tercer elemento de Ia expre­ si6n [3.5 + 32.17'17 = 289 = 289 a2 0 = 17W . etc. y SANTOS-PENAS.000pesetas aunque esta interpretaci6n carece de sentido econ6mico ya que sin ingresos no puede existir gasto sino existe un endeudamiento parale1o.025 _ 1. las rectas de regresi6n de Y sobre X.11J all = -(1· 0·1 17 + 1· 3·5 + 1· 6·2 + 2· 0·4 + 2· 3·4 + = ml l = all - a10a Ol 63 26 45 1071 . Si nos fijamos en el Grafico 3. con una determinada va­ que la vamos a denominar varianza de la riabilidad dada por su varianza variable end6gena Yi explicada por fa regresi6n.213 ­ 2. el medir la intensidad de la dependencia entre las mismas. J.9) = 44 17 a 1 = 17(02. y de X sobre Y son respectivamente: ~ 1 2 Y- 0 1 4 5 3 5 4 9 6 2 1 3 8 9 17 . El significado del termino inde­ pendiente es que cuando e1 ingreso es cero existe un consumo aut6nomo de 179. Una vez que se ha realizado cualquier tipo de ajuste nos interesa conocer en que media la variable end6gena 0 depen­ diente queda determinada por el modelo matematico que se ha estimado al pasar de la dependencia estadfstica a la funcional. sea cual sea la funci6n que pretendemos ajustar a la nube de puntos (recta.10 Obtener las rectas de regresion minimo cuadraticas asociadas ala siguiente tabla de correlaci6n: Con estos calculos.2..~ = .17 3. . M. es decir. exponencial. Correlaci6n lineal simple A traves de la regresi6n hemos estudiado la forma funcional de la relaci6n entre dos variables pero no se ha tratado el grado 0 la intensidad de esa relaci6n.289 2 _ 189 a 02 a Ol - m0 2 - 17 ­ Ejemplo 3. Solucion: Empleando la notaci6n de los momentos respecto al origen y respecto a la media tenemos: a1 0 aOl = 1 26 -(1· 8 + 2· 9) = ­ 17 17 1 -(0·5 17 1 = + 3·9 + 6·3) = ­ 45 17 63 2· 6 ·1) = ­ 17 [3. S. 8 + 2 2.188 17 289 . parabola.6.1.1170 -99 17 .4. una vez estimado el modelo.

Yti = aOl ll + . Veamos que vale N N N L [ Yi i= 1 aOl - - mll m 20 m - (Xi - a10 ) J2 = L eixi i= 1 N 1 L" =N .a L Xi i=l i=l N N b L xf .a0 1 ) i=l - ll (Xi - m 2 0 - a 1 0 ) J2 = i=l L eix i = L (Yi i=l a .a1 0 ) sumando para los N valores: m L el = L Yi i=l i=l N N Na. 1. la varianza explicada por la regresi6n y la varianza residual Si en la expresi6n [3. M.YtJ. lJ _ Y)2 + .y pueden obtenerse una vez que se ha realizado el ajuste minimo cuadratico para obtener las series de Yti Y ei = (Yi . recordando que la media de los residuos es cero.11] elevamos al cuadrado ambos miembros y suma­ mos para N pares de observaciones de frecuencias unitarias tendremos: al tener en cuenta que la recta de regresi6n pasa por (X.a .= 0 i=l N . [ (YI . 2 Sustituyendo Yti por 10 que vale a traves de la expresi6n [3.L e2 N i 1 con 10 que demostramos que: Yaei en el caso de 2 8Y Vamos aver seguidamente que vale la expresi6n ajustar una recta a la nube de puntos: N NN L i= 1 N = 2 2 8 Yt + 8 rv L Yaei = L (a + bXJei = a L ei + b L eixi i=l i=l i=l i=l N Las varianzas 8. y poder operar con elIas. 1.. - N L" ei . tendremos: 1 N . Vamos a demostrar que estas tres varianzas se relacionan de la forma siguiente: 2 2 2 [3.12] 8 = 8 +8 Y Yt ry e= 0. Y)." L" 1 N m2 0 N m0 2 - (Xi - 1= 1 a10 )2 ­ m0 2 - m ll 2m2 0 m2 0 L yf i=l N = L Y.L Yti = N i=l 1 N 1 N - L (a + b xJ = i=l N a + bX= y Si en la expresi6n [3.Ya = Yi .bXJXi = L XiYi .9]." (y. N i~l' _ 1 Y)2 = - L i=l N yf = L i=l N y~ + L i=l N ef + 2 L Yaei i=l N [3.6].Yti) i= 1 i=l 2_ 1 .13] N L (y .14] a cada valor de las tres variables se le resta su media aritmetica y se divide por el total de observaciones N. ya que L i=l N ei =0 Y que la media de Yti coincide con la media de Yi' 0 sea: J .a0 1 ) 2 -'N m2 0 _ - m ll 1 L i=l N (Xi 2 a 1 0)(Yi .N L" (Yi .N _ 1 2 L 1=1 N 2 (Yi . No obstante existen otras formas de obtenerlas sin necesidad de efectuar el ajuste en funci6n de las varianzas y covarianza deXeY: El L ei = i=l N 0 ya que: ei = Yi .13] queda reducida a mll + -2-'.DlSTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 152 CASAS-sANCHEZ.b Xi 8r y 2_!.a0 1 ) m ll + -2-· m20 2 + para que se cumpla la segunda ecuaci6n normal mfnimo-cuadnitica de la expresi6n.b L Xi = i=l N m2 0 0 queda: 8r y 2 _ - N 1 para que se cumpla la primera ecuacion normal de la expresi6n [3.( X i . y SANTOS-PENAS. 153 • Relaci6n entre la varianza de la variable dependiente. Luego la expresi6n [3.14] = -m20 mil = m0 2 b m ll . y 8. + L ef i=l i=l N N [3.

unidades de medida de las variables.. = S.188 m0 2 = 289 ~ 4. como indicadores de grados de asociaci6n..10 obtener la varianza explicada por la regresi6n y la varianza residual comentando sus resultados. Cuando las causas comunes a X e Y llegan al 0. sin multiplicar por 100 su resultado. como indica la formulaci6n [3.1 2 99 72 Sry = m 02 - mil m 20 0.y = 0 con 10 que S.0.249 ~ 4. y S. = S. Si 10 expresamos en tantos por uno.469 = 3.17] Ejemplo 3.S2 y ry S2 y = 1_ ~ S2 S2 y [3.75 expresadas en tantos por uno. cosa que no ocurre con las varianzas explicadas o residuales. Si el porcentaje es inferior se llega a la conclusi6n de que la relaci6n elegida (en este caso lineal) no es buena. Yi' El coeficiente de determinaci6n de la expresi6n [3.15) La varianza explicada se obtiene despejandola de la expresi6n [3.469 Si se observa el valor de S. Por otra parte las varianzas que intervienen S.289 ~ -0.y como mucho seran iguales a la total marginal S. Se denomina coeficiente de determinaci6n ala participaci6n de la varianza explicada por la regresi6n en la varianza marginal de la variable dependiente observada: S2 y S2 ry - m 02 - m 02 ll m + -. Si no existiesen errores 0 Al estar definido por cociente entre varianzas es un parametro indepen­ diente de las unidades de medida y permite comparar resultados entre distintas asociaciones entre variables.Y la varianza no explicada 0 varianza residual S.) Y el R 2 = O.3. la m2 0 = 289 ~ 0. Conclusi6n: el campo de variaci6n del coeficiente de determinaci6n es 0. con 10 que la varianza explicada por la regresi6n es muy reducida y la Ifnea de regresi6n no es representativa del conjunto de valores observados de Y. Si en la expresi6n [3. 0 el 75 % en tantos por cien.117 ~ 4.12] que la varianza de la end6gena observada sea S.y.111 . Soluci6n: Del ejemplo 3. M.y = S.­ m bm l l [3. cuando exista una relacion exacta 0 funcional entre las variables (S. debiendose ensayar con otras fun­ crones.y ~ 4. = S.111 . . las varianzas de la variable depen­ diente 0 end6gena Yi se deberan unica y exclusivamente a las variaciones de la variable independiente 0 ex6gena Xi' existiendo nnicamente una dependencia funcional 0 exacta. y SANTOS-PE:N"AS. 1.12] 2 o residuos e. la S.249 Y la 1.0..17] se sustituye la varianza residual .642 S. .154 Luego: CASAS-sANCHEZ.y = 0) 0 cuando las causas comunes son nulas (S.16J 20 R2 = ---11 S2 y S2 = S2 .:( R 2 .. Vamos a determinar seguidamente otra formulaci6n para elcaso de la regre­ si6n lineal simple.17] es una formulaci6n generica y sirve para cualquier tipo de regresi6n ya sea lineal 0 no lineal.17J. al venir influidas por las . El significado del coeficiente de determinaci6n es que nos proporciona el porcentaje de causas comunes que tienen las dos variables relacionadas para explicar su variabilidad 0 evoluci6n si se expresa en tantos por 100.m 0 2 m 20 bmll (3.343. Como las varianzas que definen a R 2 son siempre positivas llegamos a la conclusi6n que R 2 ~ O.) Y las causas comunes son el 100 por 100 (S. J. Como esta situaci6n no suele ocurrir en los fen6menos econ6micos y sociales.y se llega a la conclusi6n de que es muy elevado en relaci6n con la varianza total de Yi representada por S. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 155 ~ Sry 2 Sy r ~ m0 2 - mll _ --·mll . vamos a definir 10 que se conoce como coeficiente de determinacion.11 Utilizando las varianzas y covarianza del Ejemplo 3.10 la ml l = . el modelo ajustado suele acep­ tarse.· • Coeficientes de determinacion y de correlaci6n lineal simple Se observa en la expresi6n [3.642 = 0. se obtiene como suma de la varianza explicada por la regresi6n S.111 .S.:( 1. su signifi­ cado es que nos indica el tanto por uno de varianza de Yi explicado por la variable independiente Xi a traves de la funci6n ajustada Yti.

y = 0 y los valores te6ricos 0 estimados Yti coinciden con los observados Yi exitiendo una dependencia exacta 0 funcional.7. GRAFICO 3. no existiendo ninguna dependencia 0 asociaci6n entre las variables de tipo lineal.m Sy y y xa = x y x Xx x XX XX X y'_y X ¥ u- 20 02 x Si en la segunda formulacion equivalente despejamos la varianza residual: x x x x x x x I S.l . M. "Dependencia no exacta f) -1 < R < O. "Con independencia entre las variables".­ S.21] Y y/x = x/y d) R= O. S u .y = S. segun sea el signo de la covarianza Sxy' Si la covarianza es positiva la corre1aci6n tambien 10 es y su coeficiente tomara valores entre cero y uno: 0 ~ R ~ 1.. x x e) 0 < R < 1.18] Resumiendo.y _ ml l ·m l l = b-b' 2 Y [3. y DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 157 por 10 que vale en funci6n de la covarianza y las varianzas marginales segun se vio en la expresi6n [3. Las variables son dependientes" . J. etc. S2 ' . convirtiendose las rectas de regresi6n en dos paralelas a los ejes de coordenadas a las alturas Yti = Y Y X ti = X ya que SXy = 0 con 10 que en las expresiones [3.20] x x Yti = Y xxx x xiX x x x x x x x x Vamos a definir el coeficiente de correlaci6n lineal simple como la raiz cuadrada del de determinaci6n: R=+ - n 1-~=~=+V~ S2 S. en la regresi6n lineal simple el coeficiente de determinaci6n puede obtenerse con las siguientes formulaciones equivalentes: x x a) R = 1. Si R = 1 implica que la S. Esta dependencia puede ser directa 0 positiva. b) R = -1.19] R =2 S2 m . negativa".15] tendremos: y m2 R 2 = 1 _ S. Rectas de regresi6n para distintos valores del coeficiente de correlacion R. "Dependencia exacta 0 funcional positiva''. "Dependencia exacta 0 funcional negativa". exponencial.y m S2 = 1 y 02 - -----.! 20 m m 02 . x y y x/y y/x = x/y EI coeficiente de correlaci6n se usa para determinar el grado de dependencia lineal de la variable end6gena ante los valores de la ex6gena.). "Dependencia no exacta positiva''. y SANTOS-PENAS.156 CASAS-sANCHEZ. Si R = 0 implica que S. 0 indirecta 0 negativa.10] los valores estimados de las rectas coinciden con las medias aritmeticas marginales. "Con independencia lineal pero con dependencia exponencial.9] y [3. aunque sf puede haberla de otra naturaleza (parab6Iica.y = m 02 (1 .R 2 [] [3.u y 2 c) R = O.m 02 _ _ _ _ _ _m----"2"'0 m 02 mil + -- 2 = m ll m 2 0 ·m0 2 m0 2 [3.!. S [3. J. .

1 a cero estamos en una correlaci6n negativa y la dependencia sera mayor cuanto mas se aproxime a .10 obtener los coeficientes de correlaci6n y determinaci6n lineal.19 = 0.3385. Los bajos valores de los coeficientes de correlaci6n y determinaci6n nos confirman este hecho.2304 = 396 .10. Segun estos datos la fiabilidad confianza del ajuste lineal. Soluci6n: Uno de los objetivos que persigue la regresi6n y correlaci6n es hacer predicciones de la variable dependiente 0 end6gena en funci6n de los que toma la independiente 0 ex6gena. mediante valores dados de Xi y la actuaci6n de los coeficientes de regresi6n a y b estimados. En el ejemplo 3. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 159 Si la covarianza es negativa la correlaci6n tambien 10 es y su coeficiente tomara valores entre menos uno y cero: .s. Si R = .= 119 _ m = 4.7 recoge las distintas posibilidades de representaci6n segun el valor de R. y viceversa: una tiende a disminuir cuando la otra tiende a aumentar. • Predicci6n ejemplo 3. 0.745·1. .0.89 = 0. es del 11.8 segun el Ejercicio 3.i88 ~ -0. presentado en el I R = JO. . Para calcular m l1 b' = --.b'. Concluyendo diremos que el campo de variaci6n total del coeficiente de correlaci6n es: .89 I 2 R 2 ~ 0.75 diremos que la dependencia es fuerte 0 acepta­ ble. Ejemplo 3. I R = b·b' = 0...11 se obtuvo la varianza residual para el mismo supuesto y vimos que era muy elevada con 10 que el ajuste no podia ser bueno.s: . 1.1.11458.9. es negativa y por ella una de las variables tiende a aumentar cuando la otra variable disminuye.745.158 CASAS-sANCHEZ.9. Y SANTOS-PENAS. 1 N 1 a0 2 = 10 i~ yf = 10 270 = 27. R ::::.3385. ya se obtuvo el coeficiente b = 0. J1.estimada Yli = a + b Xi' Obtenemos valores de Yti' que son promedios de los observados. M. Cuando varia de .94 I . En cuanto a la correlaci6n.1 la correla­ ci6n es perfecta existiendo una dependencia funcional pero negativa. m0 2 = 27 .96 ' R = .12 Empleando la expresi6n R 2 = b. m0 2 s6lo nos falta ca1 Iar cu m0 2 = a 0 2 - 2 aOl ' El a Ol Aprovechando los momentos respecto a la media del ejemplo 3. Las predicciones se efectuan utilizando la recta .13 Obtener los coeficientes de determinaci6n y correlaci6n del ajuste lineal efectuado con los datos del Ejercicio 3.1 ::::. J.l1 . Las rectas de regresi6n coincidirian en una sola que seria decreciente al tener una pen­ diente negativa. Si el valor es inferior se rechaza el modelo estimado para hacer predic­ ciones ya que son poco fiables. La predicci6n sera mas fiable cuanto mayores sean los coeficientes de determinaci6n 0 de correlaci6n ya que menor sera la va­ rianza de los residuos que es la que nos indica la cuantia de la separaci6n entre 10 observado y 10 estimado. R ::::. A partir de ±0. 0 ~1 = -~ J72. Soluci6n: = 4.1 ::::.45 % (porcentaje de causas comunes entre las variables X e Y en dichos ajustes lineales: de X sobre Y. Si la variaci6n esta entre cero y + 1 la correlaci6n es positiva y el grado de asociaci6n 0 dependencia sera mayor cuanto mas se aproxime a mas uno. 1. medida por R = . El Grafico 3. y de Y sobre X) no siendo suficiente la forma funcional estimada para representar la dependencia entre las dos variables (el mimero debe ser un 75 %). Para obtener b' se efectua la regresi6n X/YO Esta regresi6n tiende sentido estadistico pero carece de sentido econ6mico en la relaci6n causa (gasto) y efecto (ingre­ sos) ya que los niveles de gasto no determinan los niveles de ingresos sino todo 10 contrario. Hay que tener presente que la fiabilidad de las predicciones disminuye a medida que los valores de la variable ex6gena Xi se alejan de su recorrido. Ejemplo 3. .74 m0 2 3. Las figuras e) y f) son las que se dan en los casos reales. b' .

X 2 3). vamos a realizar una introducci6n al analisis multidimensio­ nal explicando el sentido de nuevos conceptos como son los coeficientes de determinaci6n y correlaci6n parcial y el problema de la multicolinealidad.23J. Yti = 0. (YN' X 1N' X 2N)· L i=l N (y. J.5. Y SANTOS-PENAS. y b2 se vuelve a derivar en la expresi6n [3. M.. Ejemplo 3.181 + 0. (yz. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 161 Conc1usi6n: El nivel del ingresos determina el 89 % del nivel del gasto siendo la correlaci6n positiva y de nivel elevado con 10 que el modelo estimado es fiable para hacer predicciones. Regresion y correloclon lineal multiple Aunque este capftulo esta dedicado fundamentalmente a las distribuciones bidimensionales.Y.9 y 3. Yti = 0.94.24J y= bo + b 1 X 1 [3.25J 3. Para hacer mas manejable el sistema vamos a tomar como variables las desviaciones a sus correspondientes medidas aritme­ ticas llamando Y. Ajuste de un plano par el metoda rnlnlrno-cuoorottco Para que didacticamente se comprendan mejor los conceptos vamos a empezar por el estudio de la regresi6n y correlaci6n de la funci6n de un plano generalizando seguidamente al caso del hiperplano.5. pero la primera es mas fiable que la segunda ya que el valor Xi = 12 esta mas cerca de X = 6. J. la nube de puntos la formaran las siguientes ternas: (Y1' Para deterrninar los coeficientes de regresi6n parcial b. (Y3' X 13.25J de la [3. .•. = Yi .2 que el valor segundo de Xi = 15.23 respecto del termino independiente bo tene­ mos la primera ecuaci6n normal: = 12. X 12.1. Se parte de la nube de puntos tridimensionales en la que se recogen las observaciones de frecuencias ' unitarias de tres caracteristicas estudiadas en una poblaci6n (por ejemplo: ' gastos familiares Yi' ingresos farniliares Xli y mimero de miembros de la fa­ milia XZi).b 1 x 1i - b2 x 2if [3.22J El sistema de ecuaciones normales surge de minimizar la expresi6n: S= L (Yi i=l N bo . x 21 ).25J nos indica que el plano pasa por el punto tridimen­ sional (X l' X 2' Y) llamado centro de gravedad de la distribuci6n. conocidos los coe­ ficientes de regresi6n parcial de Y/X 1 que es el b 1 Yel de Y/X 2 que es b z y las medias marginales de las tres caracterfsticas en estudio (X l' X 2' Y): bo = Y- b1 X 1 - b2 X 2 [3. X~i = Xli .i = b1 X~i + b2 X~i con 10 que la expresi6n que hay que minirnizar para obtener b1 y b2 sera: S = Xu.13 predecir el nivel de gasto para unos ingresos de 12 y 15 millones de pesetas comentando la fiabilidad de dichas predicciones.14 Vamos a ajustar por el metodo mfnimo-cuadratico la ecuaci6n de un plano a esta nube de puntos: Y = bo + b 1x 1 Con la informaci6n que nos proporcionan los Ejercicios 3.22J tendre­ mos la f6rmula del plano que pasa por el nuevo origen (X l' X 2' Y): Y. al alejarse del recorrido de X en la nube de puntos.X 2 · Luego si restamos ordenadamente la expresi6n [3. Tambien nos sirve para obtener el termino independiente de la funci6n. L Yi = i=l Dividiendo por N: N N bo + b 1 L Xli + b2 i=1 X 2i L i=l + b2 X 2 N N [3.160 CASAS-sANCHEZ.745 ·12 = 9.745 ·15 = 11.Xl Y X~i = X 2i .121 millones de pesetas = 15.b1 X'li - b2 x~Y .26J 3. La expresi6n [3.356 millones de pesetas Ambas predicciones son fiables ya que el coeficiente de correlaci6n es R = 0. + b2x2 [3.181 + 0. x zz). Si el mimero de observaciones tridimensionales es N. .23J Soluci6n: Las predicciones se realizan con la recta estimada: Para Para Xi Xi Derivando la Expresi6n 3.

X . 1 --.8 < IRd < + 1. [3. ya que ya no se da la indeterminaci6n matematica.R2 2 12 b2 12 - [3.29] . M.162 CASAS-sANCHEZ.26].Ri2 81 1 . R 12 _ S. -­ 1 . .:1 N '\' Y.30] y [3. ' '\' L.29] se puede poner en funci6n de los coeficientes de correlaci6n lineal simple si dividimos numerador y denominador por Sy Si S~: b = Sy .Si2 [3.30] o 0 Por analogia la expresi6n para calcular el otro coeficiente de regresion parcial sera: _ Sy R y z .27] 10 podemos expresar en funci6n de las respectivas covarianzas y varianzas marginales dividiendo por N todos sus elementos: Sy1 = b 1 Si + b2 S 12 R Y = ±Ry2 1 ya que si: R 12 = 1 Sy2 = b1 S12 + b2S~ = R Y = R Y2 1 R 12 Empleando la RegIa de Cramer se despejan las inc6gnitas del sistema [3.:1 /Z Xli + b2 '\' X 'liX / L. 1 .28]: 8 Y1 = -·1 = R y1 = -Ry2 Y entonces para R 12 = 1 resulta que: 8 12 S~ b1 = lSi 1Sy2 IS l z y analogamente de la b2 • S2 2 S12\- 1 _ Sy1S~ -: Sy2S12 b1 - _ Sy R Y 1 Si'S~.R Y . al variar Xl en una unidad permaneciendo constante la otra variable ex6gena X 2' El b z mide la variaci6n de Yt.1=2 1 s. Pero si la multicoli­ nealidad no es perfecta pero elevada. es decir Riz = 1.1 0 - y para R 12 =- 1: b = Sy.b 1 '\' L.Ri2 Sl 1. ex6genas 0 independientes tienen entre sf una fuerte relaci6n de dependencia. y SANTOS-PENAS. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 163 Derivando parcialmente respecto a las inc6gnitas b 1 Y b2 e igualando a cero tendremos el siguiente sistema de ecuaciones normales que junto con la ' expresi6n [3. cuando X 2 varia en una unidad pennaneciendo constante la Xl' i:1 '\' Y.b 1 L. R Y _ Sy R Y . b2 '\' L. . 2. -. s.R Y 1 • 1 _ 0 2 1 1 2 --. 2.31] resuelven nuestro problema de estimaci6n del plano de regresi6n. N .R y 1·R -8' 1 .x li .1 0 La expresi6n [3. - · R Y . El significado de los coeficientes de regre­ si6n b 1 y b2 se obtiene observando que con las derivadas parciales de Yti son respecto a Xl Y X z.28) :> El sistema de la expresi6n [3.31] Como se ha visto si existe multicolinealidad perfecta es imposible calcular los coeficientes de regresion parcial con 10 que nos llevaria a cambiar la estructura del modelo eliminando una de esas variables. entonces: R 12 = ±1 (3.Yc=2_R-. R y1 + Ry1(-1) = ~ 1 81 1. J. por ejemplo un +0. i=l Xli X 2 i / / +.27] N Las expresiones [3. R Y . Si esta dependencia entre Xl YX 2 fuese exacta. la fiabilidad de los coeficientes de regresi6n parcial se ve mermada ya que las variaciones de Yti ante variaciones unitarias de Xli Y X 2 i estan mezcladas con 10 que obliga a cambiar el disefio del modelo matematico que liga a las tres variables.26] resuelven nuestro problema: N N .Luego b1 mide la variaci6n de la variable end6gena Yt. " L. aunque sf pueden obtenerse los b 1 y b2 .Ri2 De manera analoga se tiene que b2 = [3.:1 [3. N i:1 /2 X 2i • EI problema de la multicolinealidad en el ajuste de un plano Este problema surge s610 en la regresi6n multiple cuando las variables explicativas. J. _RLY~1_-_R--.

y.b 1 . Este coeficiente se puede obtener bien por su definici6n generica dada en [3.1 N i=-l XliYi .."12 = S. Se sigue cumpliendo que la varianza marginal de la varia­ ble dependiente 0 end6gena S.y'12 S2 y [3. . La definici6n de varianza residual en la regresi6n de un plano con las variables expresadas en desviaciones a sus medias aritmeticas (se hace un cambio de origen de forma que el plano pasa por el nuevo origen dado por X l' X 2' Y2) es: R.b 1x'li . = 1 • Coeficientes de determinacion y correlacion parcial en el ajuste de un plano N - "'2 b ". ."12 (se denota con los subfndices 1 y 2 al existir dos variables explicativas) mas la varianza residual S. '12 por diferencia S._ - N i=-l Yi . .35] 1 2 SrY'12 .164 CASAS-sANCHEZ. o sea i=1 . 12 _ - 1- [S.: ' S2 y.S."12 + S.b 2 eiX~i = e.32] tenemos: 2 S.34] puede utilizarse para obtener R. N i=l i=l N 1 1 N 1 N 1 N b 1eAi .Y'12 el coeficiente de determinaci6n multiple sera: R2 = S.34] [3. Por analogfa el coeficiente de < . varianza residual la obtenemos de la expresi6n [3. YSANTOS-PENAS. .Y'12 = 1 _ S.2 N i=-l X2iYi­ = 1 N S.32] La mente La puede con la expresi6n [3.b 2Sy2] _ S2 y ­ _S.36] 1 =N 1 L (y.N i=l N N "2 L.b 1Syl .b2X~JY. En la correlaci6n multiple no tiene ningun sentido el estudio de la dependencia positiva 0 negativa y por tanto el signo de su coeficiente ya que la pendiente del plano puede ser positiva repecto a Xl y negativa respecto a X 2 0 viceversa: =- L eiy.Y'12 y'12 S2 S2 S2 Y Y Y R y .'12 S2 Por las mismas causas que se expusieron en la correlaci6n simple su campo de variaci6n sigue siendo el mismo: 0 ~ 12 ~ 1.28]. ei (y'i -bXli I ' - bX2i)L 2 ' r El coeficiente de correlaci6n es la raiz cuadrada del de determinaci6n.33] En la anterior demostraci6n se ha tenido en cuenta la definici6n del error e i como diferencia entre la end6gena observada y la estimada por el plano ei = (y. .S. y- S2 rY'12 [3. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 165 • Coeficientes de determinacion y correlaci6n multiple en el ajuste de un plano EI significado de estos coeficientes es el mismo que se ha dado en la correlaci6n simple. = N i=l N i=l N i=l L L L R Y • 12 = 1 _ S.33] y conocida esta obtenerse la varianza explicada por la regresi6n S.b2X~J y el sumatorio de los errores por las ex6genas son \ Al existir mas de una variable explicativa puede estudiarse la evoluci6n conjunta 0 causas comunes entre la variable dependiente Ya Y la primera independiente Xli permaneciendo constante la otra explicativa X2i Luego s610 se estudia la influencia de Xli en Yti' Vimos en la correlaci6n lineal simple que el coeficiente de determiaci6n se podfa obtener como producto de los coefi­ cientes angulares de la recta y]» de la xiy. 1. = S.32]. que como sabemos es valida para cualquier tipo de ajuste sea lineal 0 no.'12 s6lo exc1usiva­ en el caso de la regresi6n lineal multiple de un plano. es igual a la varianza explicada por la regresi6n S. J.Y'12' EI coeficiente de determinaci6n multiple sera la participaci6n de la varianza explicada por la regresi6n en la varianza de los valores observados de Yi 0 varianza marginal de Yi' Por tanto. - N b 1x'li . es decir las expresiones [3.12]. . partiendo de la igualdad nulos como se demostr6 en la correlaci6n simple al deducir la expresi6n [3. I b " . + b 1Syl + b 2SY2 _ b 1Syl + b 2Sy2 S2 y - S2 y [3. bien haciendo una transformaci6n para el ajuste del plano. M.L N eix'li = 0 y i=1 L eix~i = 0 N o para que se cumplan las ecuaciones normales de la regresi6n.33] en [3. ei - 1 N i=l N " L. Sy1 - b 2Sy2 [3. Sustituyendo 10 que vale la varianza residual en el ajuste de un plano dado por [3.

. 2.l y = Jl - R Y1 .4 Xl =3. R yz . RY1 . b z .z Sustituyendo en 3. La expresi6n [3. V!1=-R y1 i 1 -. 1 81 1 . las varianzas y covarianzas que requieren dichas expresiones: El coeficiente de determinaci6n parcial de sera: Y. 2.3 tendremos: Solucion: [3. Se pide: a) Estimar el plano de regresi6n de los gastos en funci6n de los ingresos y el numero de habitantes de las ciudades donde viven.Jx z.40J [3.26J es: bo = Y.2 Sy 1 . R 12 .4 Xz = 2.Z . El valor de b 1 se calcula con la expresi6n [3. M.-. [3. sus niveles de ingresos y el mimero de habitantes que tienen las ciudades donde viven.39J 1 2 3 2 4 12 Xli XZi Ry2.38J RZ . de independiente sera donde pone en la expresi6n [3. XZi (habitantes): 1.l) I _ yf 1 4 9 4 16 34 xii 1 9 16 16 25 67 xii Yi X l i YiXZi X 1iX Zi Los coeficientes de correlaci6n parcial son como siempre la raiz cuadrada de los de determinaci6n: R y1.Riz) (1 . 167 determinaci6n parcial de ducto de permaneciendo constante la sera el pro­ b = 1 OX l i oy.2 = b 1 . b) Descomponer la varianza marginal de los gastos observados en varian­ za explicada par la regresi6n del plano y en varianza no explicada. V !1=-R yZ i ~ -. 5.(1 . [3. Xli (ingresos): 1. Los gastos e ingresos vienen expresados en millones de pesetas y los habitantes de las ciudades tambien en millones. por b'1 OX li .30J y por analogfa cuando la Xli aetna de dependiente la Y.26J.Ryz ·R 12 Z R Zz .R yz· R 12f y1. b.15 Se han observado en cinco individuos varones mayores de 18 afios sus niveles de gastos totales anuales.2 Ejemplo 3. Yti/Xli DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES Xz. Sustituyendo el valor b 1 dado por la expresi6n [3.R.41J = Z Jl . Luego dispondremos los datos para obtener las medias marginales.z) XZi a) Para estimar el plano y = bo + b1 Xl + bzx z emplearemos las expresio­ nes [3.1 '1 . d) Obtener los coeficientes de determinaci6n y correlaci6n parcial. Los valores observados de las tres variables son los siguientes: Yi (gastos): 1.(1 .4 . J. 3. 4. 3. y = - i=l L Yi = -5 N 12 = 2. 1.Riz) (1 .y1'------_R-'y~z-R-=Ic=.37J Estos ejemplos son a titulo didactico ya que en los casos practicos reales se manejan cientos de observaciones ya que una muestra representativa tiene muchas mas observaciones de las caracterfsticas.30J y [3.Ry1"· R 12 Medias marginales: Estos coeficientes variaran 10 mismo que en la correlaci6n simple entre -1 _ 1 5 + 1 dando sentido al signo de la dependencia parcial. oy.30J el subfndice uno poner Y y donde pone y poner uno: b' = S1 . 4.R.166 CASAS-sANCHEZ. 1 3 4 4 5 17 1 1 2 3 4 11 1 1 4 9 16 31 1 6 12 8 20 47 1 2 6 6 16 31 1 3 8 12 20 44 [3.b z2).R y1·R 12)Z b z .31]. _R-. comentando el pro­ blema de la multicolinealidad..4 . c) Obtener los coeficientes de determinaci6n y correlaci6n multiples. y SANTOS-PENAS.R.Z R yZ. 1.R Zz .Ryz .b 13.Riz ' .b1X 1 . 4. 4. permaneciendo constante Yi [3. R. 2.b b _ (RY1 . 3.30J: b = 8 y .1..1 z _ - (R yz .bzX z = 2.

4 .89 . J. y2 =--= Sy2 s. los R Y1 y R Y2 no nos pueden indicar el grade de dependencia entre la variable end6gena y cada una de las ex6genas por separado. 2 X1 = -5 .26]. R Y2 y R 12 (para calcular otros coeficientes hay que obtener las covarianzas): Varianzas marginales: S2 = y 1 N i= I L Y~ ' N _ 34 y2 = . El b2 de la variaci6n de Yti cuando la X 2 i varia en una unidad permaneciendo constantes los ingresos Xli' Como se observa una elevada multicolinealidad entre las variables explicativas estos coeficientes son inesta­ bles con 10 que su significado como propensiones marginales al gasto en relaci6n con los ingresos 0 con el numero de habitantes no tienen excesiva pureza.0'1' . al ser R 12 = 0. .4 . S2 = S.0.2 . no es relevante en la determi­ naci6n del gasto.0. - S..56 = 1. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 169 luego hay que ca1cular las varianzas marginales S. los coeficientes de re­ gresi6n parcial son: Sy R Y1 .16 = 1. b2 _ Sy R Y2 - S' 2 .84 = 1.5 76 = 1 04 5' .83.12 = 1. Desviaciones tipicas: s.y ."12 = S.32 Coeficientes de correlaci6n lineal simple: El coeficiente b1 es la derivada parcial de Yti respecto de Xli y significa que al variar Xli en una unidad. Derterminar la varianza explicada y la varianza residual.8 .48 = 1.(24f = 6 8 .32 1.b.28 = 0. J.31] que nos determinan los coeficientes de regresi6n parcial b1 y b2 • AI existir una fuerte correlaci6n 0 multicolinealidad en sentido amplio entre Xli Y X 2.. 1 .02 0.17 1. Luego si obtenemos la residual esta resuelto el problema.24 .59 ' R 12 = S12 Sl. Se parte de la igualdad S. bo = 2. S~ asf como los coeficientes de correlaci6n lineal simple: R y 1. al tener un coeficiente de regresi6n parcial muy pequeno.4 . . Seria conveniente modificar el diseno del modelo eliminando de la regresi6n la variable numero de habitantes.069 .04.30].0.61 unidades.31] y [3.89 )l s. Hay que resaltar que estos coeficientes de correlaci6n lineal simple s610 se ca1culan a efectos de emplearlos en las expresiones [3.=1 11 L N 67 - S2 = 2 N 1 i=l L _ 31 2 2 x 2.=1 Yi X2i - .92 =-=077 1.2 = 0..R Y1 ' R 12 1 .83 _ 117' 1 .84 .61· 3.04 .02·1. 1 N .04 = Covarianzas: Syl 1.32 --=-=083 1. Lo que hay que perseguir es que la correlaci6n sea la menor posible entre las variables explicativas con objeto de que b l y b 2 representen con la mayor nitidez posible las variaciones de Yti ante variaciones unitarias de las variables explicativas.24 Sy2 1 N = N i~1 1 ~ 6.R Y2 .92 S12 = N i:--l X liX 2 i - . Empleando las expresiones [3.(34f = 13. varia en 0._ X IX2 = 8.33].24 ..84 ' 1 N 2 S2 = x .7.83 bl=S' 1-R 2 =136' 1-069 =0. R 1 2 1.y'12 R Y1 = R s-:s = 1 02· 1 36 = 1 39 = 0.y'12' La varianza marginal observada de la variable dependiente Yi ya la hemos obtenido S. = S.2 S. la Yt. = 1.17.. Empleando la expresi6n [3.5. permaneciendo constante X 2 i . 1.19 ' 1.92 0. Para ella Xli Y X 2 i tendrfan que estar incorrelacionadas cosa que no suele ocurrir en la evoluci6n de caracteristicas socioecon6micas. S2 = fi36 = 1. M. y SANTOS-PENAS. 1. que como se observa.R2 _ - 12' 1. .84 = 0. S2 0. 1.8.L N Yhi - YX1 = YX2 = 9.0.89·0."12 + S.084·2. .084 .36.77·0.0.61 I 12' .77 .02 S1 = V!i84 = 136 1.0. [3.2 = 0.168 CASAS-sANCHEZ.17 1. y Si.(2' 2f = 6.04 . b) S.4 .0.30] y [3. Syl - b2 S y 2 = 1.11. = J1.36 .4.215 1 = N .02 0.X 2 = -5 .2 .

etc.R y2' Rd2 (0.10 Por otro lado sabemos que el valor i-esimo de la endogena observada es igual al valor estimado 0 te6rico del modelo Yti mas el error 0 residuo e.. Yi = Yti + ei = bo + b lx 1i + b2x2i + .. Una vez que hemos efectuado la regre­ si6n de los gastos sobre el numero de habitantes quedara una determinada varianza residual 0 no explicada S.89·0.y'l en un 10 %.46] Y = Yt + e . R 12) 2 _ 0.0..Ri2)(l .0.1.l) ..32 Como xb es la end6gena estimada la expresi6n [3.0.1'2 = 0. Recurriendo a las expresiones [3.0. rangos. En este epfgrafe s610 daremos unas nociones generales en una primera aproximaci6n al problema de la regresi6n lineal multiple desde unpunto de vista descriptivo ya que en los cursos de Introducci6n a la Econometrfa se estudia esta teorfa en profundidad introdu­ ciendose en el modelo probabilfstico. Por el contrario la incorporaci6n de X 2i al modelo.2.1 = 0. . •••. J. una vez efectuada la regresi6n con Xli' s610 reduce la varianza no explicada S. DISTRlBUCIONES DE FRECUENCIAS BIDIMENSIONALES 171 c) Coeficientes de determinaci6n y correlaci6n multiples.77· 0. 0 sea una vez que se ha efectuado la regresion de Yti sobre X 2i. + bkx k [3.(1 .50 significa que al incorporar Xli la S. 2.79) ..45] tambien toma la forma matricial: [3.0. y SANTOS-PEl'ilAS. ek [3.2 1' Y2 = YN = bo + b 1x U + b2x 21 + bo + b 1x12 + b2x22 + + bkxk1 + e 1 + bkxk2 + e2 [3. reglas de trasposici6n. 12 = JR. a un 90 % si el coeficiente de correlaci6n multiple 10 expresamos en porcentajes. matriz inversa..4] se transforma en el siguiente sistema de ecuaciones: Yl = R Y2 ' 1 - Como sabemos el coeficiente de deterrninaci6n parcial R..R.050 yl.1..y'2 que debe reducirse con la introducci6n en el modelo de la variable Xli.69)(1 . .89 .90 Como el coeficiente de determinaci6n es relativamente elevado podemos conducir que el grado de fiabilidad del modelo como instrumento de predicci6n es aceptable. .44] se puede expresar matricialmente: es decir [~J[i Xu X X2\ X22 1] 12 . Xkl] ~1 . • Coeficiente de deterrninaci6n multiple 2 = S. pues bien el que R.44] bo + biXIN + b2x2N + '" + bkxkN + eN El sistema [3. 3.y'2 queda explicada en un 50 % demostrandonos que es una variable con un fuerte sentido explicativo dentro del modelo.2) . 2 _ (R . . . 3.2 estudia las causas comunes que tienen las variables Yti Y Xli (niveles de gastos e ingresos) permaneciendo constantes las que tengan Yti Y X 2i.12 = 0.8W R2 - ..0.77)2 _ I Y2 (1 _ Ri2)(l .77 .84 = 081 RY· 12 104 ' S2 y . Loscoeficientes • de correlaci6n parciales tienen signa positivo ya que todas las covariaciones son positivas y seran: R Y 2 = JR. X 1N X~2 [bO] + [e 2 e.43] Al tener en cuenta todas las observaciones muestrales de las variables. determinantes.70 R YH = JR. Vamos a considerar la ecuaci6n de un hiperplano con una variable end6­ gena 0 dependiente (y) y k variables ex6genas 0 explicativas (x.170 CASAS-sANCHEZ.oI2 = 0.38] Y [3.45] b+e = 0. Ajuste de un hiperplano mediante la utilizaci6n del algebra matricial La regresi6n lineal multiple se estudia empleando el algebra matricial por 10 que recomendamos al lector que se ponga al ilia de los conocirnientos basicos en esta materia: operaciones con matrices.42] • Coeficiente de correlaci6n multiple R Y. 0 sea para i = 1. + bkxki + ei [3. <i) Coeficientes de deterrninaci6n y correlaci6n parcial.(1 .59) .R.2. .2 .69)(1 . X 2.0.. la expresi6n [3.5. J. N. X k): Y = bo + blx l + b2x2 + . X X2N Y= X kN i..(1 . M. Lo mismo ocurre con la dependencia global del gasto en relaci6n con los ingresos y el numero de habitantes que se eleva.R Y .39] tenemos: (Ryl .

Hay que minimizar la suma de los cuadrados de los errores de las distintas observaciones: b~m • El vector columna de los errores 0 residuos e de orden (N x 1) ya que tiene N filas y una columna: S= L i=1 N e? = L i=1 N (Yi - Yti)2 = L i=1 N (Yi - bo .b1xli . resultando xb de orden (N x I): y{:] • El vector columna de los (k + 1) coeficientes de regresi6n parcial b de orden [(k + 1) x 1] ya que tiene k + 1 filas y una columna: Yt = [ Yt1] Yt 2 . .bkxkJ(-XkJ = 0 x~ [i Xu X 21 X 22 X Simplificando y operando tendremos el siguiente sistema de ecuaciones normales minima cuadraticas: X12 Xk1] k2 X1N X2N L XkN i=1 N Yi = Nb o + b 1 L i=1 N Xli + b2 L i=1 N X2i +....el proceso de la regresi6n en sus variadas operaciones y transformaciones como se vera a continuaci6n.b1xli .bkxkJ(-X li) = 0 - as abk = 2 L i= 1 N (Yi ...b1xli .{:] • La matriz de las observaciones de las k variables explicativas x de orden [N x (k + 1)] ya que tiene N filas y (k + 1) columnas. Y SANTOS-PENAS.bkxkl [3. M.47] Derivando parcialmente la expresi6n [3.. La primera co­ lumna es de un os ya que serfa el factor del coeficiente constante de la ex6gena ficticia que afecta al termino independiente del hiperplano: as = abo 2 I N (Yi - i= 1 bo ..bkxkJ(-I) = 0 -.b1xli ...172 CASAS-sANCHEZ.45] y [3. . .. en estimar el vector de los coeficientes de regresi6n parcial b empleando el metoda de los minimos cua­ drados. + bk L N Xki i=1 I .N Estos cinco elementos matriciales intervienen en todo . ..bo .-b = 2 u 1 as L i= 1 N (Yi - bo . Nuestro problema consiste... 1. DISTRIBUCIONES DE FRECUENCIAS BIDIMf:NSIONALES 173 En las expresiones [3. Y.46] existen los siguientes elementos matri ­ ciales: • El vector columna de las observaciones de la end6gena Y de dimensiones (N x 1) ya que tiene N filas y una columna: • El vector columna de la variable end6gena estimada por el modelo 0 hiperplano de orden (N x 1) ya que es el resultado del producto xb cuyos 6rdenes son [N x (k + 1)] y [(k + 1) xI].47J respecto a las inc6gnitas que son los coeficientes tenemos: - .. J. como siempre.

50] por dicha inversa y teniendo en cuenta que el producto de la inversa por la matriz dada es la unitaria...... L i=1 N x 1h i + b2 L i=1 N X 2hi + . como son los anteriores terminos.51] se observa que la matriz x'x es cuadrada de orden [(k + 1) x (k + 1)] Ydividiendo por N sus elementos obtenemos los momentos de primer 0 segundo orden respecto al origen de las variables explicativas. . segiin el algebra matricial.48] tambien se puede llegar operando directamente con elementos matriciales..48] / x'y = x'xb A la expresion [3........50] 10 ponemos de forma semide­ sarrollada... M..... Como x'x es una matriz cuadrada podemos obtener su determinante [x'x] y si es distinto de cero implica que es una matriz no singular y puede obtenerse su inversa [x'xF 1 .xb]' [y . son iguales a sus traspuestos.b'x'y + b'x'xb = y'y - 2y'xb + b'x'xb [b = [x'xF 1 x'y I [3.49] = [x'xF 1 x'y y'y ..50] x'xb = x'y .. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES N 175 L i=1 N XliYi = bo L i=1 N Xli + b1 L xL + b2 L i=1 i=1 N N X liX 2i + ...xb] = = [x'xF 1 [x'x] b [3.... se vera el significado de sus elementos: N L i=1 N XkiYi = bo L i=1 N X ki + ». Si el sistema de ecuaciones normales [3....... [(k + 1) x 1] [3.... + bk XliXki i=1' L . Derivando la expresi6n matricial [3.... N N L i=1 N X ki bo b1 = L i=1 N Yi Este sistema podemos expresarlo de forma matricial: Xu x 21 X 12 X 22 .......42]. El producto x'y origina un vector columna que dividiendo por N nos proporcio­ na los momentos de primer orden de las end6genas respecto al origen y los de segundo orden entre esta y las explicativas. obteniendo los productos x'x y x'y.... = X21 X~Nli~ X 2N L X 21 X22 X ki Xu X 12 X 1N ... .b'x'] [y ... como producto del traspuesto del vector de los errores por dicho vector: En la expresi6n [3..y'xb . (N x 1) + [N· (k + 1)]............ como condici6n necesaria de minimo. ...... Xklli:: X k2 ........ tenemos que: L i= 1 N ef = e'e = [y .. ..... X~i ([k bk i= 1 L N XliYi N I XkiYi [3. ..174 CASAS-sANCHEZ........ [(k + 1) x 1) + 1) x (k + 1)] + 1) x 1] (k + 1) x 1] ~/ [(k + 1) x 1)] [(k ~/ + 1) x (k + 1)] --.52] En la demostraci6n anterior se ha tenido en cuenta que y'xb = b'x'y ya que los escalares.. Y SANTOS-PEl~'AS...52] no puede existir ninguna relackin lineal exacta entre cualquier subconjunto de variables ex6genas 0 ab = o sea ae:« -2x'y + 2x'xb = 0 [3. Premultiplicando la expresi6n [3... + bk L i=1 N X~i N N L i= 1 N Xli ..... .... La suma de los errores e1evados al cuadrado puede ponerse. .49] respecto al vector de las inc6gnitas b e igualando a cero.. i=1 i= 1 L xt . .... tendremos el sistema de ecuaciones normales mfnimo cuadraticas: La expresi6n [3.. i= 1 L XliXki .51] L XkN X ki L i=1 XkiX li Xkl Xk2 x kN I I YN x k1 xk2 .. 1N X X 2N II • Y1 1 1 X 12 X 22 Xu Y2 Y3 .. . • • 11 1) x N] X 2N I I bk i= 1 i= 1 L i=l L [(k [(k [(k + 1) x N].. J..52] nos proporciona las estimaciones de los elementos del vector columna b que son los coeficientes de regresi6n parcial del hiperplano [3.. • EI problema de la multicolinealidad en el ajuste de un hiperplano Para que se pueda aplicar la expresi6n [3. J..... La interpretaci6n de estos coeficientes es la misma que se ha dado en el ajuste de un plano.........xb] = [y' ....... N N ...

959 .16 Obtener los coeficientes de regresion parcial del plano del Ejemplo 3.15 utilizando la expresi6n [3.228 + 8.107 . YSANTOS-PENAS.8.62 I 131 I 10.9.52].841 . la inversa es: 141 95 [x'xr 1 = 43 -­ 95 34 95 - 11 95 33 95 46 95 {Adj [x'x]}' Ix'xl ­ = .95 11 95 43 -­ -­ b ~ 33 95 - [:} [xxr'xy Veamos el valor de x'y que segun el sistema [3.95 - I. 0 sea que tendrfa determinante nuIo. [x'x] = Q.8. M.51J es: N i~1 I I 1 5 Xli 5 i~1 I 5 i~ II 1 5 Yi I I 12 X2i 5 17 11 x'y =II 5 XliYi I = I 47 I I 31 141 95 43 . J.33 95 46 95 112\ 10.[x'xJ =I I 5 5 i~ Xli 5 xii 1 i=l i~ i~ I 1 xliX U 17 67 44 11 44 31 i~1 I 5 X2i i~ I 5 i~1 I 5 X2iYi X2iXli i~ I 1 X~i - - 43 95 34 95 !! I 95 . Ejemplo 3.385 + 8.15 son debidas a los errores de redondeo ya que son coeficientes muy pequenos con gran sensibilidad en su calculo. Como sabemos. En primer lugar se obtiene el determinante de la matriz por la regIa de Sarrus: 5 b = [x'xr 1x'y = j . DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 177 explicativas. 10 que imposibilitarfa el calculo de la matriz inversa [x' xJ -1 y como consecuencia es imposible obtener el vector columna de los coeficientes de regresi6n parcial.228 .5·44·44 = 10.26. Soluci6n: Como es una matriz simetrica coincide con su traspuesta: Adj [x'xJ = {Adj [x'x]}'. Si esto ocurre sabemos por eI algebra matricial que la matriz [x'x] serfa singular.13 Vamos a calcular la [x'xr t.17· 17·31 .074 17 11 31 Ix'xl = 17 67 44J = 5·67·31 + 17·44·11 + 17·44·11-11·67·11­ 11 44 I 11 95 33 -­ 95 .176 CASAS-sANCHEZ.746 = 95 Las diferencias de estos coeficientes de regresion parcial y los obtenidos en el ejemplo 3.680 = = 26. J. I 47 I = I 0. • Forma matricial del coeficiente de determinacion mUltiple en el ajuste de un hiperplano La bondad del ajuste la obtenemos con el calculo del coeficiente de deter­ minacion multiple que sigue siendo la participaci6n de la varianza explicada En segundo lugar obtenemos la matriz de adjuntos (menores complemen­ tarios con su signo): Adj [x'xJ = [ 141 -43 11 -43 34 -33 -33 11] 46 .

=1 y~ .994 ~ 33 Ny2 = 5· (2.54] .=1 .) ~ 32. Asi.17 Con los datos del Ejemplo 3.81 1 ..Ny2 Y)2 . a la c) un polinomio de tercer grado y a la d) una hiperbola equilatera. a la b) una funci6n exponencial. k - polinomio de segundo grado _ bxy . EI planteamiento de estos ajustes por el metodo de los mfnimos cuadrados es analogo al estudiado en los casos lineales.Nr] = .Ny2 ---=-------=.. Estas varianzas se pueden obtener tambien empleando el calculo matricial con los elementos del modelo.L . y SANTOS-PENAS.8 figura a) representa una nube de puntos a los que se ajusta un polinomio de segundo grado..[b'x'y .6.Ny = 3.L N i=1 N i=1 -J = -1 [y'y .72 N 2 Sy = -1 L (Yi .' .k mas la varianza residual S.N r] 1 1 =N 1 [(xb)' (xb) . • Ajuste de una parabola 0 = .."123°o.Y·123 . por ejemplo. o sea: b'xy ~ (0.k 2 Sy I 5 yf = 34 i=l = 34 . Como sabemos los valores observados del vector co­ lumna Y son iguales a los estimados por el modelo Yt mas el vector columna de las desviaciones 0 errores e: Y = Yt + e = xb Ejemplo 3.Ny2] - =N 1 ­ 2] [b'x'xb .16 obtener la bondad del ajuste del plano.123 .Yt .72 = N [Y.[b'x'x(x'x).= 1 [N yf .2 y'y = y'y ..k.62 0.k - b'x'y . J.178 CASAS-sANCHEZ.13 0.53]: +e Operando niatricialmente con estos elementos se demuestra igual que en la regresion lineal simple que la varianza total de la end6gena S.8 S.Nr S."123°O'k + S. es igual a la varianza estimada por la regresi6n S.~ y'y . J. No obstante existen otras ocasiones en las que la nube depuntos de los datos observados no se ajustan a funciones de natura­ leza lineal..4)2 = 5· 5..N r] N N La varianza total de la variable end6gena sent: 1 ..x'y . en el Grafico 3.Ny2 ~ 33 .Y'I23°O'k El coeficiente de determinaci6n multiple sera: 2 Ry·123°o.53] y=aO+a 1x+a2 x 2 [3.8 = 5.2 R Y ' 12 ~ 52 = 0. Ajustes no lineales por minimos cuadrados En los eptgrafes anteriores se ha estudiado en profundidad la regresi6n lineal ya que es la adecuada para explicar la mayorfa de los fen6menos de naturaleza socioecon6mica. Soluci6n: Para obtener el coeficiente de determinaci6n multiple empleamos la expre­ si6n [3. M.1 (Yti - 1 Yf = N [N . = S.8 = 4.Nr El modelo que se pretende ajustar es: [3.. 28.Ny2] N .074)(:.NP = -J 2 4..76 = 28.28.1. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 179 por la regresi6n sobre la varianza total de la end6gena observada. Luego la expresi6n matricial del coeficiente de determinaci6n multiple en la regresi6n de un hiperplano con termino independiente b o es: R2 y' 123 ..2 La varianza explicada por la regresi6n en su forma matricial sera: SYl'123"'k = N 2 1.

+ ei Xi 1 obteniendo el sistema de ecuaciones normales del modo siguiente: ~=o Efectuando el siguiente cambio de variable: oao oa 1 z=­ X 1 ~=o nos quedarfa la ecuaci6n de una recta de Y sobre Z cuyo ajuste ya hemos estudiado: oaz as = 0 y=a O+a 1 z . Y = ao + a 1 1 ­ X [3. para r + 1 < N.180 y CASAS-sANCHEZ. + a1 L N x~ + az i=l L xi N y y X X X X X X X X X X X X X X X X X Resolviendo el sistema obtendriamos los coeficientes de la parabola que sustituidos en la expresi6n [3.)]Z + ei = ao + a 1 . 1. i=l N N xxXA L Yi Xi = ao i=l L i=1 x i=l Xi L X. J.54J da lugar al modelo ajustado. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 181 y X Operando da lugar al siguiente sistema de ecuaciones normales: x x x ) x XX X X X X N XJX x/x X X L Yi = i=l N Na o + a 1 N L i=1 + a1 N Xi + az N L X. ya que habria r + 1 inc6gnitas 0 coeficientes.55J Para obtener los coeficientes se minimiza la expresi6n: S= L [Yi i=l N Como sabemos la end6gena observada sera igual a la estimada mas el error: Yi = Yti (ao + a1x i + azx. En este ajuste el numero de observaciones tiene que ser mayor que tres que es el numero de coeficientes a estimar. Los ajustes no lineales.8. El ajuste puede generalizarse a polinomios de grado r en general.. XX X X v • Ajuste de una hiperbola equilatera x x~ X X x La ecuaci6n de una hiperbola equilatera es la siguiente: (c) (d) GRAFICO 3. Y SANTOS-PENAS. XX X X"'. + a z i=l x~ L i=l i=l x x L N Yi X. M. = ao (a) (b) i=l L N X.

3846 mzo ll . = log Yi 1 2 3 1 2 3 5 3 2 1 1/2 1/3 0 0.3846~ Haciendo el cambio de variable logy = u loga o = a Iog a. Y SANTOS-PENAS.6538 + 4. Si hacemos el siguiente cambio: logy = = Una vez estimados a y b se obtienen los verdaderos parametres deshacien­ do el cambio: ao = antilog a Y a l = antilog b.6931471 1. 1 a) Y = ao + a l ~ = ao + alz donde = 1 0. Si la funci6n que se desea estimar no es lineal en los parametres. c) Una funci6n exponencial.56] La expresi6n [3.0986123 0.0986123 1. En los casos del ajuste de una hiperbola equilatera.6931471 Se transforma en lineal tomando logaritmos logy = logao + x log a. J. = a aplicamos el metodo minimo cuadratico al modelo lineal simple de U sobre Z: u= a Ajustar a estos datos: Una hiperb6la equilatera del precio sobre el consumo.6094379 1. a) + bz Soluci6n: Construimos la siguiente tabla 1 Una vez estimados a y b se sustituyen en la expresi6n [3. ocupa basta con tomar logaritmos: logy = Iog c. hay que transformarla en lineal previamente. potencial y exponencial vistos.182 • Ajuste potencial CASAS-sANCHEZ. = log Xi u.56] donde ao = antilog a. En el caso que nos . M.18 Disponemos de los datos siguientes del consumo X y precio Y de un producto: + allogx u ~ 1 Y 5 z 2 3 3 2 logx Iog z. el metoda de Gauss 0 de minimos cuadrados se aplica previa transfor­ maci6n de las variables.. Y al = b.Z = 0.. J. b) Una funci6n potencial.56] tiene la peculiaridad respecto a los que hemos estu­ diado hasta ahora de que no es lineal en los parametres. basta con hacer una transformaci6n en la variable para aplicar el metodo de los minimos cuadrados. Xi Yi z·=I • Ajuste exponencial La ecuaci6n de la funci6n exponencial es: y = ao ·al Xi z. DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES 183 Se ajustaria por minimos cuadrados el modelo lineal simple de U sobre X. como por ejemplo la hiperbola equilatera.6538 } m mzo ml l es la covarianza entre Y y Z es la varianza de Z ll m zo a 1 = m = 4. Ejemplo 3. Cuando las funciones son lineales en los parametres. u= a La ecuaci6n de una funci6n potencial es: y = aoxal + bx [3. = b ao = Y.

57J despejamos la frecuencia absoluta conjunta y la denotamos por n.) a las que se les puede someter a todo tipo de calculos numericos (sumas. 1. Y m~o la varianza de Z'. m2 0 donde m'll es la covarianza de U y Z'. gastos. ai = 1. Vamos a Hamar nij a la frecuencia absoluta conjunta observada. Partimos de la tabla de contingencia 3.4 en la que existen r modalidades del atributo M y s del M'. etc. s ' =. S610 alcanzara la unidad en el supuesto limite de que el cuadrado de contingencia es muy grande ya que el limite de C cuando XZ tiende a infinito es uno.= -1.8538 y m zo m~l N N N V i.57J no se cumple se dira que entre los mencionados atributos existe un determinado grado de asociaci6n 0 dependencia estadistica. Este valor n.l .= m zo = 0. Estudio de la csoclcclen entre variables cualitativas En e1 estudio