UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESCUELA DE CIENCIAS BÁSICAS, TECNOLOGÍA E INGENIERÍA
UNIDAD DE CIENCIAS BÁSICAS






AUTORES
JORGE ELIECER RONDÓN DURAN
EMERSON ALEXANDER CHAPARRO SUESCA



ESTADÍSTICA Y PROBABILIDAD
211622











BOGOTÁ, JULIO 2012






Página 2 de 175


TABLA DE CONTENIDO

TEMA PAGINA
Presentación 4
UNIDAD UNO: ESTADÍSTICA DESCRIPTIVA 6
Capítulo 1: Investigación Estadística 7
Lección No 1: Historia de la Estadística 7
Lección No 2: Conceptos Fundamentales 10
Lección No 3: Recopilación de la Información 14
Lección No 4: Organización de la Información 16
Lección No 5: Presentación de la Información 29
Capítulo 2: Análisis matemático de la Información 40
Lección No 6: Parámetros y Estadístico 40
Lección No 7: Medidas de Tendencia Central 40
Lección No 8: Medidas de Dispersión 63
Lección No 9: Medidas de Forma 69
Capítulo 3: Análisis de Regresión 79
Lección No 10: Regresión Lineal Simple 79
Lección No 11: Relación y Correlación 83
Lección No 12: Regresión Múltiple 87
UNIDAD DOS: PRINCIPIOS DE PROBABILIDAD 91
Capítulo 4: Fundamentos de Probabilidad 92
Lección No 13: Historia de la Probabilidad 92
Lección No 14: Experimentos Aleatorias 99
Lección No 15: Principios matemáticos 100
Lección No 16: Definición de Probabilidad 102
Capítulo 5: Técnicas de Conteo 105
Lección No 17: Principio Fundamental del Conteo 105
Lección No 18: Regla de la Multiplicación 108
Lección No 19: Permutaciones y Variaciones 109
Lección No 20: Combinaciones 112
Capítulo 6: Propiedades Básicas de Probabilidad 114
Lección No 21: Interpretación de la Probabilidad 114
Lección No 22: Axiomas de Probabilidad 115
Lección No 23: Independencia de Sucesos: Regla de la
Multiplicación
117
Lección No 24: Probabilidad Condicional 119
Lección No 25: Probabilidad Total y Teorema de Bayes 121



Página 3 de 175

UNIDAD TRES: VARIABLES ALEATORIAS Y DISTRIBUCIÓN DE
PROBABILIDAD
124
Capítulo 7: Variables Aleatorias 125
Lección No 26: Conceptos de Variable Aleatoria 125
Lección No 27: Distribución Discreta de Probabilidad 126
Lección No 28: Distribución Continua de Probabilidad 129
Lección No 29: Esperanza matemática y Varianza 131
Lección No 30: Teorema de Chebyshev 136
Capítulo 8: Distribución de Probabilidad Discreta 138
Lección No 31: Distribución Uniforme Discreta 138
Lección No 32: Distribución Binomial y Poisson 139
Lección No 33: Distribución Binomial Negativa 147
Lección No 34: Distribución Geométrica e Hipergeométrica 149
Capítulo 9: Distribución de Probabilidad Continua 153
Lección No 35: Distribución Uniforme Continua 153
Lección No 36: Distribución Normal y sus Aplicaciones 154
Lección No 37: Distribución Exponencial 162
Lección No 38: Distribución Weibull 164
Lección No 39: Distribución Ji Cuadrado 167
Lección No 40: Distribución t – student 169
Lección No 41. Distribución F - Fisher 171
Bibliografía 175





Página 4 de 175

PRESENTACIÓN

El presente modulo está dirigido a estudiantes de programas de grado que oferta la UNAD, bajo la modalidad
de educación superior a distancia (e – Learnig). El material está estructurado en unidades macro del curso
académico. El contenido de cada una de las partes fue seleccionado, teniendo en cuenta los saberes mínimos
que se esperaría debe alcanzar un estudiante de la Universidad Nacional Abierta y a Distancia en el campo de
matemáticas y estadística.

La propuesta permite que los estudiantes reconozcan los conocimientos mínimos del curso en mención, que le
permita resolver situaciones propias del mismo y además, abordar posteriores temáticas que requieran de
éstos conocimientos.

El material se caracteriza porque en cada lección se presentar ejemplos modelos del tema en estudio, al final
de cada capítulo se exponen ejercicios; que permite la profundización de los temas. Al final de la unidad se
presenta una Autoevaluación de un nivel medio-alto, las cuales permiten verificar los alcances de los
estudiantes en las temáticas analizadas y detectar las debilidades y así centrarse en éstas, con el fin de
alcanzar las metas propuestas. Lo anterior, pretende servir como guía de aprendizaje autónomo, se
recomienda apoyar este proceso por medio de lecturas especializadas, ayudas audiovisuales, visitas a sitios
Web y prácticas de simulación; entre otros, así lograr una efectiva comprensión, interiorización y aplicación de
las temáticas estudiadas.

La Estadística es una disciplina que se aplica en muchos campos de la actividad del ser humano. Es muy
frecuente encontrarse en las diferentes disciplinas del saber con incertidumbres como el pronosticar el
crecimiento poblacional de un país, el crecimiento económico de una empresa o el crecimiento de producción y
venta de un producto específico, el conocer la efectividad de diferentes abonos en el campo agrario, el
determinar la tendencia de contaminación del agua o el aire, la clasificación de personal en una empresa para
efectos de una buena y sana política laboral, etc.

La Estadística Descriptiva, en el que los datos son ordenados, resumidos y clasificados con objeto de tener una
visión más precisa y conjunta de las observaciones, intentando descubrir de esta manera posibles relaciones
entre los datos, viendo cuáles toman valores parecidos, cuáles difieren grandemente del resto, destacando
hechos de posible interés, entre otros.

En todos los campos de la investigación se requiere a menudo el uso racional de los modelos matemáticos y
métodos estadísticos. Los procesos de planeación, control y toma de decisiones en Ingeniería, economía,
administración y otros campos, se basan en resultados obtenidos mediante el análisis estadístico de los
fenómenos en ellos involucrados. El acelerado desarrollo de métodos, técnicas y tecnologías para el óptimo
análisis de datos justifica que un profesional disponga de una sólida fundamentación conceptual para que
realice apropiadamente su evaluación y aporte sustentaciones a su decisión. Las interpretaciones que generan
los datos pudieran ser erróneas para aquellas personas que no cuentan con criterios válidos para captar la
información.

Empíricamente se sabe que la Estadística tiene que ver con datos y la manera en que estos son agrupados.
Esto se reconoce en muchos casos de la vida cotidiana que involucran información numérica y el contexto en
que esta información es dada a conocer. Aunque también puede darse en muchos casos que, si bien están
relacionados con la estadística, obedecen a otros fenómenos de disciplinas relacionadas con —pero que no
conforman— la Estadística propiamente dicha.

La Estadística es la ciencia que permite operar con un conjunto de datos y de interpretarlos. Si bien esta
definición parece un poco ambigua, se verá más adelante el marco en que éste método se desarrolla y las
“leyes” que lo rigen. Pero, por ahora, se deja abierta al cuestionamiento del estudiante la gama de posibilidades
que abarca esta definición. La Estadística, o el método de la estadística, se divide en dos ramas: la Estadística
Descriptiva o deductiva y la Inferencia Estadística o estadística inductiva. Este curso se dedica a la Estadística


Página 5 de 175

Descriptiva, por lo que se hace necesario dar a conocer, en términos generales, en qué consiste la Inferencia
Estadística.

La Inferencia Estadística comprende en un todo articulado el método y las técnicas necesarias para explicar
el comportamiento de un grupo de datos en un nivel superior de lo que estos datos pueden dar a conocer por sí
mismos. Es decir, se puede concluir sobre el grupo de datos sobrepasando los límites del conocimiento inicial
que estos suministran, examinando solamente una parte de la población denominada muestra. Es por ello que
a la Inferencia Estadística también se le conoce como Estadística Analítica.

Si esto es así, ¿qué le corresponde entonces a la Estadística Descriptiva? Esta tiene por fin elevar los
aspectos característicos del grupo de datos pero sin intentar obtener más conocimiento del que pueda
adquirirse por sí mismos. Es por ello que la Estadística Descriptiva es el punto de partida del análisis de un
grupo de datos que involucran una cierta complejidad, o bien puede ser el todo de un análisis básico y limitado
del grupo de datos.

Enfrentarse con datos de muy diversa índole es cosa de todos los días en cualquier práctica del ser humano.
Sin embargo, dado la cantidad innumerable de estos, no siempre se comprende el real alcance de lo que dicen.
Como parte de una base cultural necesaria para desempeñarse en el mundo de hoy, es requisito desarrollar
una capacidad personal para extraer y describir información presente en un conjunto de datos. Y es
precisamente allí donde resalta la importancia del estudio del curso en cuestión.




Página 6 de 175







UNIDAD UNO
ESTADÍSTICA DESCRIPTIVA



Página 7 de 175

CAPÍTULO 1: INVESTIGACIÓN ESTADÍSTICA

Lección 1: Historia de la Estadística

La evolución de la estadística, la podemos dividir según los periodos de la historia de la humanidad, ya que no
se puede pensar que el principio de contar es reciente.

ANTES DEL SIGLO XVI: Desde las antiguas sociedades, no se puede ignorar la necesidad de enumerar y
contar: Contar los individuos, enumerar las familias, los productos agrícolas, los hombres aptos para la guerra y
otros. En el libro “Los Números” de la Biblia se habla de Censo, relacionado hacia lo maltito. Aunque existen
diversas versiones sobre los inicios precarios de la Estadística, vale la pena referenciar aquellos que se
consideran de importancia por su motivación hacia la estadística moderna.
China: El Emperador YAO dividió su imperio en Provincias, realizando una comparación de los bienes de cada
una, para cuantificar los impuestos. Se dice que en china se realizó un censo en el año 2.238 A. C.
Imperio Romano: Se preocupaba por el recuento de sus ciudadanos y los bienes del estado, cuya intención era
Tributaria y Militar. Se cree que en Roma, el primer Censo fue realizado bajo el mandato de Servio Tulio (578 –
534 A. C.) cuyo fin era clasificar los ciudadanos según sus ingresos para establecer el pago de impuestos. Al
inicio del a Era Cristiana, el Emperador Augusto, realizo un Censo, quizás para seguir la línea del pago de
impuestos.
Imperio Egipcio: Los egipcios bajo el reinado de Amasis II, obligaba a los ciudadanos a declarar su profesión y
fuentes de ingresos, bajo pena de muerte.
Los Griegos: En la Antigua Grecia los Censos eran habituales. Aristóteles escribe que por cada nacimiento se
le ofrecía una medida de Trigo y una de Cebada por cada fallecimiento a la Diosa Atenea.

EDAD MEDIA: Las referencias nos llevan a la provincia de Córdoba en España donde Bayan Almorgerg,
realizo el primer censo de Viviendas y Edificios; se obtuvieron 113.000 Casas y 300 Mezquitas La Reina Isabel
la Católica, encargo a Alonso de Quintanilla la labor de recopilar información sobre las riquezas del reino y la
cantidad de población en los años 1.477 - 1.479.

Carlomagno o Carlos I el Grande, en la Europa Medieval, para el año 786 realizo una clasificación de los
hombres mayores de 12 años. Este Emperador fue el promotor del renacimiento por medio de llamado Imperio
Carolingio, donde se busco recuperar la política, la cultura y la religión de la Europa medieval. Retomo la
Estadística para Europa con el fin de un manejo financiero y administrativo.

Guillermo I en Inglaterra o Guillermo el Conquistador, en su libro Domesday
Book, fue la principal fuente de registros, el cual se completo en 1.086,
considerado el “Catastro de Inglaterra”, documento estadístico - administrativo.
La información se recopilo enviando hombres de confianza a todas las
provincias para indagar sobre los bienes que poseían los terratenientes, cultivos
y demás, para así poder establecer por medio de sus consejeros el pago de
tributos. También se realizaron estudios estadísticos sobre navegación y
comercio.

Siguiendo el recorrido sobre la edad media, los aportes de los trabajos
estadísticos de los Españoles, motivaron el surgimiento de las escuelas que posteriormente Conring y
Achenwall crearon en los siglos XVII y XVIII. El principal precursor español fue Jerónimo Uztáriz, (1.670 –
1.732) con su obra “Teoría y Práctica de Comercio y Marina” que sirvió como base para tomar decisiones
económicas a partir de los datos estadísticos existentes. El no era estadístico como tal, pero su trabajo lo
hacía ser estadístico.


SIGLOS XVII -XVIII: La Estadística adquiere un estatus de ciencia y se le da gran importancia, surgen las
escuelas que dinamizaron esta ciencia hasta lo que se conoce hoy.



Página 8 de 175

Escuela Alemana: La creación de esta escuela se le atribuye al Medico y
Publicista Hermann Corning (1.606 – 1.681) y desarrollada a lo largo de los
siglos VXII y XVIII. Su fundamento estadístico estaba en la descripción
comparativa de los estados. Lo anterior acorde con el origen etimológico de la
palabra Estadística: Statu, Estado o situación. Pero fue Godofredo Achenwall
(1.719 – 1.772) discípulo de Conring, quien impulso esta escuela, a él se
reatribuye el Término Estadística. En su obra publicada en 1.749 mostró el
consolidado de los postulados de la nueva ciencia.

Fuente: wikipedia.org/wiki/Hermann_Conring

Escuela Inglesa: Su principal representante fue John Graunt (1.620 –
1.674) que en contra de la escuela alemana, publico en 1.662 su obra
“Aritmética Política”, llamada también Estadística Investigadora o
Estadística Científica, la cual fue motivada por el principio pragmático
de esta escuela, basada en el estudio de las necesidades del conocer
el desarrollo demográfico de la población londinense, que disminuía por
la acción de la peste que azotaba la Ciudad.

En la obra de Graunt, conformada por 12 capítulos y un prologo, analiza
los datos demográficos con el fin de encontrar “Relaciones Ocultas”,
haciendo previsiones sobre mortalidad infantil y el crecimiento de la
población londinense, discriminación por genero, diferencias entre
nacimientos y muertes, entre otros. Su primera tabla de mortalidad
publicada 1.592 mostró el grado de desastre que origino la peste que se
presento en Londres. .

El Filosofo, Medico, Economista y Estadístico Ingles William Petty
(1.623 – 1.687) como continuador de la obra de Graunt, publica su obra
en 1.600 sobre Política Aritmética, donde a partir del Censo de casas
en Londres, Estima la población de la ciudad.

Pero la inquietud de los investigadores de la época, hacía pensar en soportar los principios estadísticos en
principios matemáticos. Es así como el Matemático y Astrónomo Belga Adolphe Quetelet (1.796 – 1.874)
introduce métodos de análisis para estudiar magnitudes macroeconómicas como la Renta, Consuno y otras; es
decir, aplico el razonamiento estadístico en fenómenos sociales. En los países bajos hace estudios sobre
criminología, mortalidad y otros aspectos propios de dicha comunidad. Por su trabajo sobre la concepción del
hombre medio, se creo el índice de Quetelet que mide la masa corporal de una persona. Fue el organizador de
la primera conferencia internacional sobre Estadística en 1.853. Por otro lado el Matemático y Economista
francés Agustin Cournt (1.801 – 1.877) se reconoce como el pionero de la Economía Matemática, ya que fue
el primero en utilizar funciones matemáticas para explicar fenómenos económicos; como la demanda, oferta y
precio. Pero también propone la definición frecuentista de probabilidad, además, habla de intervalos de
confianza como método de estimación. Se considera uno de los aportadores fuertes a la Ciencias Estadística.

El Censo fue el instrumento que a comienzos del siglo XIX se utilizo en los países europeos, para obtener
información sobre la demografía y la economía. Así en 1.834 se crea La Royal Statistical Society, en Londres y
en 1.839 se crea la American Statistical Association en EE UU.


ESTADÍSTICA ACTUAL: Los trabajos en física realizados por Newton y de Biología realizados por Darwin,
fueron excelentes pretextos para el desarrollo y modernización de la Ciencia Estadística. Aunque existieron
muchos investigadores que aportaron al fortalecer dicha ciencia, haremos referencia aquellos que marcaron
diferencia y merecen su reconocimiento.



Página 9 de 175

En primera instancia mocionaremos al Ingles Sr. Francis Galton (1.822 –
1.911) antropólogo, geógrafo, estadístico entre otras profesiones que tenia,
realizo la mayoría de sus investigaciones sin necesidad de asistir a la
Universidad. Primo de Darwin, fue el primero en resaltar la necesidad de
utilizar métodos estadísticos para contrastar la Teoría Darwiniana, motivación
que lo llevo a realizar estudios sobre diferencias individuales. Es el motivador
para el uso de la Estadística en las Ciencias Experimentales, por medio de
dos aportaciones fundamentales, como la regresión y correlación. Estudió
exhaustivamente la distribución normal e introdujo el concepto de Línea de
Regresión, comparando estatura de padres e hijos. Concibe el coeficiente de
correlación como una medida de la intensidad en la relación entre dos
caracteres. En su teoría no logro reconocer correlaciones negativas.
Patrocino el primer departamento de Estadística y fue el dinamizador de la
famosa revista Biométrica.

Karl Pearson, (1.857 – 1.936) prominente Matemático, Científico y Pensador
Británico, fue quien estableció la “Estadística Matemática”. Motivado por los
estudios de Galton, realizado estudios sobre distribuciones bidimensionales,
entre sus obras de mencionar se destacan las que analizan la regresión y la
correlación en estudios sobre medidas de asociación y contingencia. En 1.900
propone la famosa distribución Ji - Cuadrado (χ
2
) descubierta con el fin de
obtener pruebas para la bondad de ajuste. Fundo el primer departamento de
Estadística en la Universidad de Londres; además, oficializo la revista
Biométrica.


William Sealy Gosset, (1.876 – 1.937) Estadístico nacido en Canterbury
(Inglaterra) Trabajador de Cervecería en Dublín conocida como Guinness. Sus
estudios sobre Química y Matemáticas lo llevaron a investigar sobre destilación.
Por la prohibición que tenía la empresa de publicar sus investigaciones, Gosset
debió utilizar un Pseudónimo para exponer sus investigaciones, el cual aún es
conocido como Student. Acudió a Pearson para estudiar en Londres, cuyos
estudios se concentraron en analizar el efecto de las materias primas sobre la
calidad del producto final, con la limitante que debía trabajar con muestras
pequeñas. Utilizando el método de Montecarlo y con muestras pequeñas, logró
simular procesos de toma de muestras de la distribución normal y así desarrollo
la famosa distribución de t – student, muy utilizada en muestreo.
es.wikipedia.org/wiki/William_Sealy_Gosset

Ronald Aylmer Fisher, (1.890 – 1.962) Uno de los personajes más
importantes de la estadística, considerado el Padre de dicha ciencia.
Matemático, Estadístico, Biólogo y Científico, nacido en Londres, cuyo
aporte fundamental fue la creación en 1.920 de la Inferencia Estadística.
Siguiendo los pasos de Galton, desarrollo investigación estadística, la cual
plasmó en su obra publicada en 1.925 “Statistical Methods for Research
Workers”. En el periodo de 1.920 y finales de la segunda guerra mundial se
extiende la aplicación de los métodos estadísticos en diversas áreas de
conocimiento como la Ingeniería, Medicina, Ciencias Sociales y otros.
Diversas situaciones presentadas en las ciencias agronómicas, impulso a
Fisher a crear en el año 1.935, la teoría del “Diseño Experimental”, donde
centro sus estudios en identificar las fuentes de variabilidad de los datos experimentales, separo la variación
muestral en los grupos o subpoblaciones y así dio los fundamentos del conocido Análisis de Varianza.
También desarrollo lo relacionado con la teoría de Estimación, introduciendo los conceptos como: Estimador y
eficiencia de la estimación. Utilizando el método de Máxima Verosimilitud logró obtener estimadores


Página 10 de 175

adecuados. Por otro lado con el fin de determinar la fiabilidad de las estimaciones, introdujo la conocida teoría
sobre estimación por intervalos.


Jerzy Neyman, (1.894 – 1.981) Matemático, Estadístico y Astrónomo, nacido
en Bendery (Rusia), pero de origen polaco, trabajo en un instituto de
Investigación Agrícola; al igual que Fisher. A estos dos investigadores se les
considera los fundadores de la Estadística Moderna. Auque Fisher dio los
fundamentos, se le asigna la creación de los intervalos de confianza en 1.934
al ingenio de Neyman, quien también fundo el Laboratorio de Estadística en
Berkeley. Trabajo en el análisis de problemas propios de la Astronomía,
Biología y Climatología. Entre sus aportes significativos a la estadística está el
famoso Lema de Neyman – Pearson, aplicado en pruebas de hipótesis.
También trabajo sobre muestreo en poblaciones finitas, estableciendo que con
la selección aleatoria se obtiene la base de una teoría científica que permite
predecir la validez de las estimaciones maestrales. Fortaleció la teoría sobre
intervalos de confianza, introduciendo principios de probabilidad para asignar
un grado de error preestablecido a las estimaciones obtenidas. Para Neyman la Estadística Matemática busca
el establecimiento de “Reglas de Comportamiento” que permiten seleccionar acciones previamente fijadas, a
partir de resultados observados en experimentos aleatorios. Por ejemplo una prueba de hipótesis (Test
Estadístico) es una regla de este tipo, en el cual se acepta o rechaza una hipótesis, al igual que la estimación
por intervalo.

Abraham Wald, (1.902 – 1.950) Nacido en Kolozsvár, (Hungría) de familia Judía, de
grandes estudios en matemáticas, especialmente en Geometría. Pero su inquietud lo llevo
al estudio de la estadística y así fue uno de los fundadores de la llamada “Teoría de la
Decisión”. Aunque se tiene evidencias de que Daniel Bernoulli y Laplace, habían hablado
sobre el tema. En un documento publicado en 1.939, Wald afirma: “... los dos principales
problemas de la teoría estadística en ese momento, la comprobación de hipótesis y el
cálculo, pueden ser consideradas como simples casos especiales de un problema más
general - conocido hoy como un "problema de decisión estadística". ... Se define la pérdida
de funciones, las funciones de riesgo, a priori, distribuciones, reglas de decisión de Bayes,
la admisibilidad de las normas de decisión, Minimax y reglas de decisión, y demuestra que una regla de
decisión Minimax un riesgo constante, en determinadas condiciones de regularidad”. Con esta teoría
constituye el modelo estadístico teórico, dando origen a la “Escuela Decisionísta” la cual tiene como filosofía:
Tomar decisiones bajo condiciones de incertidumbre. Esta escuela presenta diferencias con la escuela
inferentista de Fisher, cuyo principio era reducir la incertidumbre por medio de la observación y
experimentación, para hacer inferencias estadísticas. Wald trabaja sobre la muy conocida Ruina del Jugador,
tema relevante de los procesos estocásticos, además; fue el primero en resolver el problema general de la
secuencia de pruebas de hipótesis.


Lección 2: Conceptos fundamentales: población, muestra,
variable estadística, datos y medición.

En este capítulo se describen los conceptos y definiciones básicas necesarios para mayor comprensión de los
temas a desarrollar en esta asignatura. El propósito es estandarizar una terminología común. Así, se
establecen una serie de convenciones, para agilizar la lectura del texto. El problema consiste en la diversidad
de términos usados para nombrar los mismos conceptos, debido a la gran variedad de autores, modas y
tendencias, que existen en la bibliografía actual. Cada uno, aportando su cuota de originalidad, pero
complicando la simplicidad. Otro problema que se trata de resolver, es el uso de palabras con un significado
claro en el leguaje diario, pero con uno diferente en la Estadística. Por tanto, conviene empezar precisando
algunas ideas generales a modo de convención.


Página 11 de 175

Definición de Estadística:
Existen diversidad de conceptos y definiciones que permiten establecer específicamente la formulación de
objetivos y el campo de acción de la Estadística. Alguna de ellas la define como una rama de las matemáticas
que trata de la recopilación, análisis, interpretación y presentación de datos numéricos.
La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos,
grupos, series de hechos, etc. y deducir de ello gracias al análisis de estos datos unos significados precisos o
unas previsiones para el futuro.
La estadística, en general, es la ciencia que trata de la recopilación, organización presentación, análisis e
interpretación de datos numéricos con e fin de realizar una toma de decisión más efectiva.
Otros autores tienen definiciones de la Estadística semejantes a las anteriores, y algunos otros no tan
semejantes. Para Chacón esta se define como “la ciencia que tiene por objeto el estudio cuantitativo de los
colectivos”; otros la definen como la expresión cuantitativa del conocimiento dispuesta en forma adecuada para
el escrutinio y análisis. La más aceptada, sin embargo, es la de Minguez, que define la Estadística como “La
ciencia que tiene por objeto aplicar las leyes de la cantidad a los hechos sociales para medir su intensidad,
deducir las leyes que los rigen y hacer su predicción próxima”.
Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas, una confusión que
es conveniente aclarar debido a que esta palabra tiene tres significados: la palabra estadística, en primer
término se usa para referirse a la información estadística; también se utiliza para referirse al conjunto de
técnicas y métodos que se utilizan para analizar la información estadística; y el término estadístico, en singular
y en masculino, se refiere a una medida derivada de una muestra.
Utilidad e Importancia:
Los métodos estadísticos tradicionalmente se utilizan para propósitos descriptivos, para organizar y resumir
datos numéricos. La estadística descriptiva, por ejemplo trata de la tabulación de datos, su presentación en
forma gráfica o ilustrativa y el cálculo de medidas descriptivas.
Ahora bien, las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de
calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores
de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la
toma de decisiones.
División de la Estadística:
Hay dos fases en el campo de la Estadística: la Estadística Descriptiva y la Inferencial.
La primera se limita a la descripción de una serie de datos a través de su organización y resumen sin llegar a
conclusiones o a generalizaciones con respecto a un grupo mayor. También se conoce como Estadística
Deductiva. Esta descripción se hace a través de la elaboración de cuadros, gráficos, cálculos de promedios,
varianzas, proporciones de una o más variables.
La segunda fase, conocida como Estadística Inferencial, se deriva de muestras, de observaciones hechas
sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de
generalizaciones que van más allá de los datos. La Estadística Inferencial trata de llegar a conclusiones acerca
de un grupo mayor (población) basado en la información de un grupo menor (muestra); busca dar explicaciones


Página 12 de 175

al comportamiento de un conjunto de observaciones, probar la significación o validez de los resultados, intenta
descubrir causas que la originan.
Método Estadístico:
El conjunto de los métodos que se utilizan para medir las características de la información, para resumir los
valores individuales, y para analizar los datos a fin de extraerles el máximo de información, es lo que se llama
métodos estadísticos. Los métodos de análisis para la información cuantitativa se pueden dividir en los
siguientes seis pasos:
1. Definición del problema.
2. Recopilación de la información existente.
3. Obtención de información original.
4. Clasificación.
5. Presentación.
6. Análisis.
Errores Estadísticos Comunes:
Al momento de recopilar los datos que serán procesados se es susceptible de cometer errores así como
durante los cómputos de los mismos. No obstante, hay otros errores que no tienen nada que ver con la
digitación y que no son tan fácilmente identificables. Algunos de éstos errores son:
Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar
un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la
recopilación y en el análisis de la información. En estos casos se dice que hay un sesgo cuando el individuo da
mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo
sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar
la decisión ya tomada.
Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis
estadístico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean
comparables.
Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de
los errores que más ha desacreditado el uso del análisis estadístico.
Muestreo Incorrecto: en la mayoría de los estudios sucede que el volumen de información disponible es tan
inmenso que se hace necesario estudiar muestras, para derivar conclusiones acerca de la población a que
pertenece la muestra. Si la muestra se selecciona correctamente, tendrá básicamente las mismas propiedades
que la población de la cual fue extraída; pero si el muestreo se realiza incorrectamente, entonces puede
suceder que los resultados no signifiquen nada
Conceptos Estadísticos:

Escalas de Medición

Llamaremos medición al proceso de atribuir números a las variables. El conjunto de reglas o modelos
desarrollados para la asignación de números a las variables es lo que se denomina escala. La clasificación de


Página 13 de 175

las escalas más usada es la propuesta por Stevens (1946) que divide las escalas en: nominales, ordinales, de
intervalo y de razón.

Escala nominal: nos permite identificar sujetos como "iguales" o "diferentes". Usando una escala
nominal podemos decidir si un sujeto es igual o diferente a otro, pero no podemos establecer
relaciones de orden respecto a esa característica, ni relaciones de cantidad ni de diferencia. Por
ejemplo: si medimos el color de los ojos podemos establecer la siguiente escala: A → azul, V → verde,
M → marrón y N → negro. No podemos ordenar los sujetos de mayor a menor o viceversa,
simplemente podemos asegurar si dos sujetos tienen el mismo o distinto color de ojos. Otros ejemplos:
nacionalidad, sexo, profesión. A este tipo de variables medidas con escala nominal se les puede
asignar a cada categoría cualquier tipo de símbolos. En el ejemplo hemos asignado letras pero
podíamos haber optado por números: 1 → azul, 2 → verde, 3 → marrón y 4 → negro.

Escala ordinal: Esta escala no sólo permite la identificación y diferenciación de los sujetos sino que
además permite establecer relaciones del tipo "mayor que" o "menor que". Es decir, de los sujetos se
puede decir cual presenta una mayor o menor magnitud de la característica medida, los objetos se
pueden ordenar. Ejemplo: nivel de estudios se puede asignar 1 a estudios primarios, 2 a estudios
secundarios, 3 a estudios universitarios. Podemos ordenar a los sujetos según el nivel de estudios, el
valor 3 es mayor que el 2 y el 1. Aunque no podemos afirmar que la diferencia existente entre el 2 y el
1 sea la misma que la que existe entre el 3 y el 2. Ni que el que tenga nivel 3 tenga 3 veces más de
nivel de estudios que el que tiene nivel 1. Otros ejemplos de escala ordinal: posición relativa en la
clase, escala de dureza de los minerales.

Escala de intervalo: Con esta escala, además de poder identificar un objeto y establecer relaciones
del tipo mayor que y menor que, también podemos hacer afirmaciones acerca de las diferencias en la
cantidad del atributo de unos y otros objetos. Es decir, disponemos de una unidad de medida, aunque
en este caso el cero sea un punto arbitrario en la escala. Es decir, no indica ausencia total de la
cantidad de atributo. Un ejemplo típico es el calendario, podemos afirmar que ha transcurrido el mismo
tiempo entre 1960 y 1966 que entre 1980 y 1986 porque contamos con una unidad de medida llamada
año. Pero no podemos afirmar que hasta el año 1000 haya pasado el doble de tiempo que hasta el año
500, porque el valor cero no representa el comienzo del tiempo sino que, en nuestro calendario se
eligió el año del nacimiento de Cristo como año 1. Otros ejemplos: la medición de las temperaturas en
grados Celcius la escala de los test de inteligencia.

Escala de razón: También se llama de proporción o de cociente. Además de las características de las
otras tres escalas, contamos con una unidad de medida con cero absoluto, es decir, que significa
ausencia del atributo o característica medida. Por ejemplo, la longitud, podemos afirmar que un objeto
que mide 10 cm. tiene el doble de longitud que uno que mide 5 cm. Otros ejemplos: peso, duración de
un suceso, temperatura en grados Kelvin (que sí tiene cero absoluto).

Referencia: “Apuntes de Estadística para Profesores”, Concepción Bueno y Tomás Escudero.

Variable:

Una variable es una propiedad o característica que puede variar y cuya variación es susceptible de medirse.

Ejemplos de variables:

- Rendimiento académico en las asignaturas cursadas, que adopta distintos valores o modalidades,
normalmente son valores entre 0 y 7.
- Sexo que adopta dos modalidades: varón y mujer
- Lugar de procedencia
- Motivación ante la asignatura
- Edad


Página 14 de 175

En contraposición a la variable aparece el concepto de constante que es una característica de la población que
sólo puede tomar un valor para todos los elementos de la población.

Ejemplos de constantes:

- Nivel Escolar de los encuestados (todos son universitarios).
- La nacionalidad de los encuestados (Chilenos).

Las variables se pueden clasificar según el número de valores que puedan tomar como variables discretas y
variables continuas.

Variable Continua es la que puede tomar todos los valores de un intervalo. Por ejemplo: el peso, la talla, el
tiempo empleado en la ejecución de una tarea, la duración de un suceso, etc.

Variable Discreta es aquella que adopta valores aislados. Ejemplo: raza, lugar de nacimiento, sexo, religión,
número de asignaturas aprobadas en el semestre, número de alumnos de una clase, nivel socioeconómico,
etc.

También se pueden clasificar atendiendo al tipo de información que proveen en cualitativas y cuantitativas.

Variables cualitativas son aquellas que se miden según una escala nominal u ordinal. Informan más bien de
una cualidad del sujeto: sexo, color de ojos, nivel socioeconómico, nivel cultural, dureza de los minerales.

Variables cuantitativas son aquellas que se miden según una escala de intervalo o de razón. De alguna forma
dan cuenta de la cantidad de atributo o característica que el individuo posee. Por ejemplo: peso, talla,
temperaturas, número de asignaturas aprobadas.


Lección 3: Recolección de la información.

Después de planeada la investigación, comienza la recolección de los datos. Esta consiste en un conjunto de
operaciones de toma de datos que puede ser por observación, por encuesta o tomada de publicaciones y/o
fuentes confiables que han efectuado investigaciones estadísticas. Para esto se selecciona el método de
recolección de la información acorde a las necesidades de la investigación, que se clasifican según su
cobertura y según su forma de observación.

Según la cobertura

Se trata de decidir si se va a estudiar a la población en su totalidad o sólo una parte de ella. Si lo que se desea
es atender a una cobertura total, es decir contar con todos los elementos de las fuentes de información, se usa
el censo. Si, en cambio, se hace una enumeración parcial de las fuentes de información, se usa el muestreo.

Por su menor costo, mayor rapidez y menor número de personas que intervienen en la investigación, el
muestreo es el método más utilizado. El muestreo puede ser de dos tipos: muestreo probabilístico o al azar,
cuando cada uno de los elementos tiene la misma probabilidad de ser escogido obteniendo así una muestra
aleatoria; y muestreo no probabilístico, cuando el investigador selecciona los datos a su propio criterio, de
manera caprichosa, por conveniencia o por cuotas, de manera que las muestras no son seleccionadas
aleatoriamente y los resultados no ofrecen confiabilidad alguna.

Según la forma de observación



Página 15 de 175

En este método se tiene en cuenta la forma de medición del dato. Si se hace de manera que la fuente de
información se da cuenta de la medición que efectúa, se dice que se toman los datos por encuesta. Éstas se
pueden realizar por correo, entrega personal de cuestionario, entrevista, motivación, teléfono, etc.

El otro método de recolección de información es por observación, en donde la medición se realiza sin que la
fuente de información se dé cuenta del hecho. Este método se basa en el registro de los eventos que ocurren,
por ejemplo cuando se examina el número de estudiantes que entran a la biblioteca con el fin de hacer una
consulta referida a las Ciencias Sociales, simplemente se observa la acción del estudiante al entrar a la
biblioteca: si hace o no la consulta que se investiga. Este método puede ser también indirecto cuando la
recolección consiste en corroborar los datos que otros han observado.

Variables Estadísticas:

Existen dos tipos de variables estadísticas, al saber: Cualitativas y cuantitativas.

Una variable es cualitativa si en la característica que se va a estudiar se busca conocer gustos, preferencias u
opiniones, etc.; por ejemplo: tipo de sangre, gaseosa preferida, color de cabello.
Una variable cualitativa es estadística cuando es posible clasificar los datos obtenidos de la muestra en clases
bien definidas, en las cuales el individuo que suministra la información pueda elegir una de ellas.

Cuando una variable es cualitativa es necesario determinar las posibles respuestas.

Una variable es cuantitativa si la característica que se va a estudiar se pude medir en una escala numérica.

• Si la variable tiene la capacidad de tomar cualquier valor que exista entre dos magnitudes dadas,
entonces esta variable será continua.

• Si por el contrario, sólo puede tener un valor de entre cierta cantidad de valores dados, entonces será
discreta.

Escalas de Medidas de Variables: Una escala es la relación numérica entre la longitud real y la longitud que
se asigna en el plano en el cual se va a representar su gráfica.

Las variables cuantitativas pueden ser consideradas en diferentes escalas teniendo en cuenta las unidades
asociadas a la población que se encuentra en estudio.

Los datos asociados a un estudio deben estar en las mismas unidades, de tal manera que sea posible
asignarles una escala a todos.
La notación de una escala es de la forma 1 a n, lo cual indica que n unidades de medida están representadas
en el gráfico e una sola.

Ejemplo:

Los profesores de Educación Física de un colegio medirán la estatura de los niños de secundaria en cada uno
de los grados.

Solución:

En este caso, la variable estatura es cuantitativa y continua ya que los datos que resultan son números reales;
es posible considerar las mediciones en centímetros o en metros. El profesor de educación física puede usar
un escala de 1 a 10, en la cual cada 10 centímetros de altura están representados en 1 cm del gráfico.

Suponiendo que los estudiantes de primaria tienen alturas entre 100 cm y 140 cm la representación gráfica de
la escala 1:10 es la siguiente:


Página 16 de 175


Ejemplo:

En cada una de las siguientes situaciones, identificar la variable de estudio.
Determinar si es cualitativa o cuantitativa.

1. En un barrio de la ciudad se aplicó una encuesta para conocer el consumo, en centímetros cúbicos, del
servicio de gas natural.
2. El alcalde de la ciudad quiere revisar la situación de violencia intrafamiliar en las familias de estrato 3, 4, 5.
3. El número de hermanos de cada jugador del equipo de futboll.
4. En un café gourmet, se decidió preguntar por el tipo de variedad que más consumen sus clientes.

Solución.

1. La variable es consumo de gas. Es cuantitativa y continua
2. La variable es situación de violencia. Es cualitativa
3. La variable es número de hermanos. Es cuantitativa y discreta
4. La variable es variedad de café. Es cualitativa.


Lección 4: Organización de la Información.

Como se mencionó en el material de introducción a la estadística, la estadística descriptiva tiene como
propósito describir y resumir un conjunto de datos, para ello, se emplean dos tipos de métodos a saber:
métodos gráficos y métodos numéricos.

Para introducir los métodos gráficos y numéricos recurriremos a la construcción de las Distribuciones de
Frecuencia, método utilizado para organizar y resumir datos. Una tabla de frecuencia esta formada por las
categorías o valores de una variable y sus frecuencias correspondientes; esta tabla se crea por medio de la
tabulación y agrupación, se trabaja con una sola variable; sin embargo, cuando el conjunto de datos es mayor,
resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo, por
lo general, algún tipo de agrupación como paso preliminar, antes de iniciar cualquier otro tratamiento de los
datos. Las reglas para proceder a la agrupación son diferentes según sea la variable, discreta o continua, para
una variable discreta suele resultar conveniente hacer una tabla en cuya primera columna figuren todos los
valores de la variable X representados en el material, y en la segunda, la frecuencia f con que ha aparecido
cada valor de X en las observaciones.

Primero, definiremos una notación y/o simbología estándar a manejar:

La letra X mayúscula representará a la variable con la que estamos trabajando.

La letra X mayúscula con subíndices, X
1
, X
2
, X
3
,… servirá para representar un valor concreto de la
variable X en el sujeto 1,2,3,... Cuando queramos referirnos a un valor concreto cualquiera de la
variable X escribiremos X
i
. Denotaremos por X
k
el último valor que toma la variable.

El número de elementos que componen la muestra será n (N si esta considerando una población).



Página 17 de 175

Se llama frecuencia absoluta de un valor Xi, y se simboliza por f
i
(en alguna literatura la representan
por n
i
) al número de veces que se repite el valor Xi en la muestra. La suma de las frecuencias debe ser
igual al número de elementos que componen la muestra, esto es,
f
i
= = f
1
+ f
2
+ f
3
+ … + f
k
= n

La frecuencia relativa es la fracción del total de observaciones que presentaron un valor X
i
en particular
y se simboliza por h
i
. Para su cálculo se hace el cociente entre la frecuencia absoluta y el número total
de datos, esto es,
n
f
h
i
i
=
La frecuencia relativa puede denotar un porcentaje o una probabilidad de selección; la suma de las
frecuencias relativas debe ser igual (o aproximadamente igual) a 1, esto es,
h
i
= = h
1
+ h
2
+ h
3
+… + h
k
= 1

La frecuencia absoluta acumulada (F
i
) es la suma de los distintos valores de la frecuencia absoluta
tomando como referencia un individuo dado. Cabe mencionar que la última frecuencia absoluta
acumulada es igual al número de casos, esto es,

F
1
= f
1

F
2
= f
1
+ f
2
= F
1
+ f
2

F
3
= f
1
+ f
2
+ f
3
= F
2
+ f
3

.
.
.
F
k
= f
1
+ f
2
+ f
3
+ … + f
k-1
+ f
k
= F
k-1
+ f
k
= n
La frecuencia relativa acumulada es el resultado de dividir cada frecuencia absoluta acumulada (Fi) por
el número total de datos; se suele representar con la notación Hi; cabe mencionar que la última
frecuencia relativa acumulada es igual a 1; es decir,
n
F
H
i
i
=
De esta manera, la distribución de frecuencias para una VARIABLE DISCRETA estará dada de la siguiente
manera:
X f
i
F
i
h
i
H
i

X
1
f
1
F
1
h
1
H
1

X
2
f
2
F
2
h
2
H
2

X
3
f
3
F
3
h
3
H
3

… … … … …
X
k
f
k
F
k
= n h
k
H
k
= 1
f
i
= n h
i
= 1




Ejemplo:


Página 18 de 175


El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la década
anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los siguientes datos:

i 1 2 3 4 5 6 7 8 9 10
Xi 2 4 2 3 1 2 4 2 3 0

i 11 12 13 14 15 16 17 18 19 20
Xi 2 2 2 3 2 6 2 3 2 2

i 21 22 23 24 25 26 27 28 29 30
Xi 3 2 3 3 4 3 3 4 5 2

i 31 32 33 34 35 36 37 38 39 40
Xi 0 3 2 1 2 3 2 2 3 1

i 41 42 43 44 45 46 47 48 49 50
Xi 4 2 3 2 4 3 3 2 2 1

Determinar:

a. ¿Cuál es la población objeto de estudio?
b. ¿Qué variable estamos estudiando?
c. ¿Qué tipo de variable es?
d. Construir la tabla de frecuencias.
e. ¿Cuál es el número de familias que tiene como máximo 2 hijos?
f. ¿Cuántas familias tienen más de 1 hijo, pero como máximo 3?
g. ¿Qué porcentaje de familias tiene más de 3 hijos?

Solución:

a. La población objeto de estudio es el conjunto de familias de un determinado país.

b. La variable que estamos estudiando es el número de hijos por familia

c. El tipo de variable es discreta ya que el número de hijos solo puede tomar determinados valores
enteros (es imposible tener medio o un cuarto de hijo).

d. Para construir la tabla de frecuencias tenemos que ver cuántas familias tienen un determinado número
de hijos. Podemos ver que el número de hijos, toma los valores existentes entre 0 hijos, los que menos
y, 6 hijos los que más; de esta manera se tiene:

X
i
f
i
F
i
h
i
H
i

0 2 2
2
0,04 4%
2
0,04 4%
50 50
1 4 2 + 4 = 6
4
0,08 8%
6
0,12 12%
50 50
2 21 6 + 21 = 27
21
0,42 42%
27
0,54 54%
50 50
3 15 27 + 15 = 42 15 0,30 30% 42 0,84 84%


Página 19 de 175

50 50
4 6 42 + 6 = 48
6
0,12 12%
48
0,96 96%
50 50
5 1 48 + 1 = 49
1
0,02 2%
49
0,98 98%
50 50
6 1 49 + 1 = 50
1
0,02 2%
50
1,00 100%
50 50
n = 50 1,00 100%


e. El número de familias que tienen dos o menos hijos es: 2 + 4 + 21 = 27.

f. El número de familias que tienen más de un hijo pero tres como máximo es: 21 + 15 = 36.

g. Por último el porcentaje de familias que tiene más de tres hijos, son aquellos que tienen 4; 5 y 6 es
decir 6 + 1 + 1 = 8.

h. El porcentaje será el tanto por uno multiplicado por cien es decir, la frecuencia relativa de dichos
valores multiplicado por 100: (0,12 + 0,02 + 0,02)* 100 = 0,16*100 = 16%.

Tablas de Frecuencia para Variables Continuas
Cuando nos encontramos con una distribución con un gran número de datos, o con VARIABLES CONTINUAS
se suelen agrupar los datos en intervalos de clase para facilitar la comprensión de los datos; sin embargo, este
proceso presenta un problema no deseable en estadística: se pierde información sobre la distribución de los
datos.

La agrupación de datos en intervalos de clase consiste en formar grupos de valores consecutivos de la variable
y poner cada uno de estos grupos en cada fila en lugar de poner una sola puntuación. Cabe mencionar que la
tabla de frecuencias para variables continuas presenta la misma estructura que las descritas anteriormente
para variables discretas, añadiendo un par de elementos que se describirán a continuación.

En primer lugar se debe definir la cantidad de intervalos a emplear; se recomienda que el número de intervalos
(i) debe variar entre 5 y 16. Para determinar el número de intervalos existen varios métodos a saber

Por conocimiento del investigador del área de investigación.

Si lo que se desea es realizar una investigación para comparar los resultados con un estudio anterior,
se consideran los mismos intervalos construidos en el estudio previo, para fines de comparabilidad de
resultados.

Algunos investigadores emplean como número de intervalos el resultante de la raíz cuadrada de la
cantidad de datos considerados, esto es, n i = .

El método más recomendable es aplicar la fórmula de Sturges, que viene dada por la siguiente
expresión matemática: n log 3,3 1 i + = .



Página 20 de 175

Una vez establecida la cantidad de intervalos en los cuales se van agrupar los datos, se debe determinar la
longitud de cada uno de ellos, la cual dependerá del criterio establecido para presentar la información. La
longitud puede variar de intervalo a intervalo, sin embargo, se acostumbra a trabajar con intervalos de igual
amplitud. Para determinar la amplitud de los intervalos (A) se recurre a la siguiente fórmula:

intervalos de Nº
recorrido o Rango
i
R
A = =
donde,

R = X
Max
– X
Min
= Máximo valor de los datos – Mínimo valor de los datos = X
n
– X
1

n log 3,3 1 i + =

Una vez se tienen estos dos elementos, número de intervalos y amplitud de los mismos, se prosigue a
establecer los límites de cada intervalo. Se indica por L
i-1
(o X
i-1
) al extremo inferior del intervalo y por Li (o X
i
) al
extremo superior. Cerramos el intervalo por la izquierda y abrimos por la derecha. Es una manera de
organizarse, pudiendo ser al contrario.

Para operar utilizaremos la marca de clase, el punto medio de un intervalo (denotada en algunos libros por m).
Las marcas de clase pueden obtenerse de 3 maneras a saber:

1. Definirla como la semisuma de los valores extremos del intervalo, esto es sumar los extremos, y dividir
entre 2.
2. Se obtiene la primera marca de clase por el método anterior y si la amplitud (A) es constante, se le
suma a la primera marca de clase obtenida y así sucesivamente.
3. Se divide la amplitud de cada intervalo (A) por dos y se le suma al límite inferior del intervalo o se le
resta al límite superior del intervalo.

De esta manera, la distribución de frecuencias para una VARIABLE CONTINUA estará dada de la siguiente
manera:
X
i-1
- X
i
m f
i
F
i
h
i
H
i

X
1
– X
2
m
1
f
1
F
1
h
1
H
1

X
2
– X
3
m
2
f
2
F
2
h
2
H
2

X
3
– X
4
m
3
f
3
F
3
h
3
H
3

… … … … … …
X
k-1
– X
k
m
k
f
k
F
k
= n h
k
H
k
= 1
f
i
= n h
i
= 1

Ejemplo:

Un nuevo hotel va a abrir sus puertas en cierta ciudad. Antes de decidir el precio de sus habitaciones, el
gerente investiga los precios por habitación de 40 hoteles de la misma categoría de esa ciudad. Los datos
obtenidos en miles de pesos fueron:

i 1 2 3 4 5 6 7 8 9 10
Xi 3,9 4,7 3,7 5,6 4,3 4,9 5,0 6,1 5,1 4,5



Página 21 de 175

i 11 12 13 14 15 16 17 18 19 20
Xi 5,3 3,9 4,3 5,0 6,0 4,7 5,1 4,2 4,4 5,8

i 21 22 23 24 25 26 27 28 29 30
Xi 3,3 4,3 4,1 5,8 4,4 4,8 6,1 4,3 5,3 4,5

I 31 32 33 34 35 36 37 38 39 40
Xi 4,0 5,4 3,9 4,7 3,3 4,5 4,7 4,2 4,5 4,8
Se pide:

a. ¿Cuál es la población objeto de estudio?
b. ¿Qué variable estamos estudiando?
c. ¿Qué tipo de variable es?
d. ¿Qué problema plantea la construcción de la tabla de frecuencias?
e. ¿Cuántos hoteles tienen un precio entre 3,25 y 3,75?
f. ¿Cuántos hoteles tienen un precio superior a 4,75?
g. ¿Qué porcentaje de hoteles cuestan como mucho 4,25?

Solución:

a. La población objeto de estudio son los hoteles de una ciudad.

b. La variable que estamos estudiando es el precio de alquiler de habitaciones.

c. El tipo de variable es cuantitativa continua.

d. El problema que plantea es que existen muchos valores diferentes para por tanto es bueno agrupar la
serie en intervalos.

La manera de hacerlo sería la siguiente: primero, calculamos el recorrido Re = X
n
– X
1
= 6,1 – 3,3 = 2,8.

Para calcular el nº de intervalos, recurriremos a la fórmula de Sturges: i = 1 + 3.3 log 40 = 6,28 por lo
tanto tomaremos 6 intervalos.

Como el recorrido es 2,8 si lo dividimos por el nº de intervalos tendremos la amplitud de cada uno de
ellos y así: 5 , 0 46 , 0
6
8 , 2
≈ = = A .
Para obtener las marcas de clase, emplearemos el primer método descrito, es decir el promedio de los
límites de cada intervalo; por ejemplo, para el primer intervalo la marca de clase viene dada por:
5 , 3
2
7
2
75 , 3 25 , 3
1
= =
+
= m
De esta manera, la distribución de frecuencias para el ejemplo viene dada en la siguiente tabla:

[L
I-1
- L
I
) m f
i
F
i
h
i
H
i

[3,25 - 3,75) 3,5 3 3 0,075 0,075
[3,75 - 4,25) 4 8 11 0,200 0,275
[4,25 - 4,75) 4,5 14 25 0,350 0,625


Página 22 de 175

[4,75 - 5,25) 5 6 31 0,150 0,775
[5,25 - 5,75) 5,5 4 35 0,100 0,875
[5,75 - 6,25) 6 5 40 0,125 1,000
N= 40 1,000


e. El número de hoteles que tienen un precio entre 3,25 y 3,75 son 3.

f. El número de hoteles que tienen un precio superior a 4,75 son 15.

g. El porcentaje de hoteles que cuestan como mucho 4,25 es: %=F
2
*100=0,275*100=27,5%


Existen algunas distribuciones de frecuencias especiales, denominadas simétricas; una distribución es
simétrica cuando las frecuencias absolutas y/o relativas, equidistantes a un punto son iguales, por ejemplo:


X
i-1
– X
i
f
i
h
i
Xi f
i
h
i

46,1 – 54 2 0,05 2 2 0,10
54,1 – 62 6 0,15 4 5 0,25
62,1 – 70 12 0,3 6 6 0,30
70,1 – 78 12 0,3 8 5 0,25
78,1 – 86 6 0,15 10 2 0,10
86,1 – 94 2 0,05 20 1,00
40 1



Diagrama de tallo y hojas

Las distribuciones de frecuencias no son el único medio para resumir y exponer conjuntos de datos; una
alternativa a ellas son los llamados diagramas de tallo y hojas,

Su obtención requiere separar cada puntuación en dos partes, El primer o primeros dígitos, que reciben el
nombre de tallo, y el dígito o dígitos restantes, que reciben el nombre de hojas; por ejemplo, X = 56 se puede
separar en 5 (tallo) y 6 hoja, Estos diagramas tienen la suficiente flexibilidad como para admitir otras
posibilidades,

1. Se identifican los valores máximo y mínimo observados.
2. Se toma una decisión acerca del número más apropiado de tallos distintos.
3. Se listan todos los tallos distintos en una columna, ordenados de forma creciente de arriba abajo.
4. Se escribe cada hoja junto al tallo que le corresponda, preferiblemente ordenados según su valor.



Página 23 de 175

En general, un número de tallos superior a cinco y que no pase de 20 suele ser apropiado, Aparte de ser más
fácil de construir, el diagrama de tallo y hojas tiene varias ventajas sobre la distribución de frecuencias, y
también algún inconveniente:

1. Ventaja: permite identificar cada puntuación individual, En las distribuciones tradicionales sólo conocemos la
frecuencia del intervalo y nos obliga a tratar los datos de ciertas maneras distorsionantes, La ventaja de
retener cada valor individual viene acompañada del inconveniente de que le diagrama de tallo y hojas no
facilita, como la distribución de frecuencias clásica, el cálculo de los estadísticos que estudiaremos más
adelante.

2. Ofrece simultáneamente tanto un listado de las puntuaciones como un dibujo de distribución, si tumbamos el
diagrama obtenemos una especie de histograma.

3. Al contener los valores de cada observación, es más fácil de modificar para obtener un dibujo con un nivel de
detalle distinto, mayor o menor, de la distribución.

4. Pueden presentarse dos conjuntos de datos simultáneamente en el mismo diagrama, con lo que se facilita la
comparación.
Objetivos del Diagrama de tallos y hojas
• Representación visual de la información
• Descubrir un patrón de comportamiento de los datos, es decir, qué distribución pueden seguir los datos
• Identificar si hay valores extremos o datos anormales en la muestra
Es aplicable para valores formados por al menos dos cifras.
Principio: Cada número se divide en dos partes, una que llamaremos "Tallo" y la otra denominada " ramas u
Hojas".
Tallo
Formado por uno o más dígitos principales (cifras mas significativas), ubicados
a la izquierda del número.
Ramas u hojas Resto de los números (cifras secundarias) ubicadas a la derecha.

Ejemplo:
Considere los siguientes números: 65, 57, 79, 69, 53, 63, 71. Los tallos serán las decenas, y las ramas serán
las unidades, de la siguiente manera



Procedimiento:
1. Se define cómo se van a dividir los números en tallos y ramas, es decir, se identifican cuales van a ser
los tallos, y cuales va a ser las ramas.
Tallo Ramas
5 73
6 593
7 91


Página 24 de 175

2. En una columna se listan los tallos en orden ascendente.
3. Se recorren los datos y se colocan, en la columna siguiente, las hojas de acuerdo al tallo que tengan.
Observaciones:
• Se recomienda que el número de tallos esté entre 5 y 20.
• A veces, de acuerdo con la información que se tenga, pueden resultar muy pocos tallos, con lo cual las
ramas quedan muy concentradas, y realmente no se obtiene mucha información. En estos casos,
puede ser conveniente partir los tallos en dos: Un tallo inferior (que tenga, por ejemplo, las ramas
menores que 5), y un tallo superior (que tenga las ramas mayores o iguales a cinco). Así, por ejemplo,
el tallo 6 puede dividirse en 6I, para los valores entre 60 y 64, y el tallo 6S, para los valores entre 65 y
69.
• Cuando se parten los tallos en dos, todos los tallos deben partirse en dos. Solamente el primero y el
último tallo podrían dejarse sin partir, en caso de que en el primer tallo sólo haya información para el
tallo superior, y cuando para el último tallo sólo haya información para el tallo inferior.

Ejemplo:
Considere la siguiente información sobre duración de baterías de carro, en años. Se pide:
• Construir el diagrama de tallos y hojas usando como tallos la parte entera.
• Construir el diagrama de tallos y hojas partiendo cada tallo en dos.
Duración de baterías (en años)
2.2 4.1 3.5 4.5 3.2 3.7 3.0 2.6
3.4 1.6 3.1 3.3 3.8 3.1 4.7 3.7
2.5 4.3 3.4 3.6 2.9 3.3 3.9 3.1
3.3 3.1 3.7 4.4 3.2 4.1 1.9 3.4
4.7 3.8 3.2 2.6 3.9 3.0 4.2 3.5
Solución:
• Usando como tallos la parte entera
Tallos: Dígitos principales (Parte entera)
Ramas: Dígitos secundarios (Parte decimal)
Tallo Ramas Frecuencia
1 9 1
2 2 6 5 9 6 5
3 5 2 7 0 4 1 3 8 1 7 4 6 3 9 1 3 1 7 2 4 8 2 9 0 5 25
4 1 5 6 7 3 4 1 7 2 9
Total 40



Página 25 de 175

• Partiendo cada tallo en dos
En este caso el tallo 1 únicamente tendría la parte superior, y el tallo 4 tendría tanto la parte inferior como la
superior


Analice la diferencia entre los dos
diagramas.

EMPLEANDO EXCEL -
ACTIVIDAD GUIADA

Los siguientes datos corresponden a las ventas en miles de pesos durante el mes pasado de un almacén de
calzado:

200, 500, 380, 415, 800, 725, 298, 654, 385, 475, 789, 658, 458, 589, 254, 365, 563, 698, 478, 589, 798, 695,
587, 458, 556, 668, 574, 258, 654, 789.

Construya una distribución de frecuencias y responda las siguientes preguntas:

1) El 10% de los días ¿cuánto dinero se vendió?

2) ¿Cuántos días se vendió entre 500 y 600 mil pesos?

3) El 57% de las ventas ¿qué valor supera?

4) En 8 de los 30 días ¿cuánto dinero se vendió?


Solución:
Para realizar cálculos estadísticos utilizando Excel debe abrir la ventana de herramientas, luego complementos,
herramientas para análisis y herramientas para análisis BVA, de esta manera le quedara activado en su
computador la herramienta análisis de datos. Si ya lo tiene omita estos pasos y pase de una vez a histograma.


PASOS PARA ACTIVAR EL ANALISIS DE DATOS

1. De la barra superior de clic en herramientas :




2. De la ventana que se abre de clic en complementos:
Tallo Ramas Frecuencia
1 S 9 1
2 I 2 1
2 S 6 5 9 6 4
3 I 2 0 4 1 3 1 4 3 1 3 1 2 4 2 0 15
3 S 5 7 8 7 6 9 7 8 9 5 10
4 I 1 3 4 1 2 5
4 S 5 6 7 7 4
Total 40


Página 26 de 175



3. Aquí se le mostrara una nueva ventana de clic en herramientas para análisis y herramientas para análisis -
VBA y después aceptar:





4. Para comprobar que ya le fue activado el análisis de datos de nuevamente clic en herramientas y mire que
en la parte inferior de la ventana diga análisis de datos:



Página 27 de 175



SOLUCIÓN AL PROBLEMA

Para construir distribuciones de frecuencia en Excel primero escribimos los datos en una columna abrimos la
ventana análisis de datos:



Luego al dar clic en histograma obtenemos la siguiente ventana:



En el rango de entrada debemos darle clic en la flecha roja y luego señalar los datos, después le damos clic
otra vez en la flecha roja para que nos aparezca la misma ventana. La opción rango de clases no es
obligatoria, pues si no escribimos nada Excel lo hará haciendo todas de igual amplitud, en caso contrario


Página 28 de 175

nosotros se las daremos; en el rango de salida debe escribir la celda donde quiere que le aparezca la
distribución.

Para nuestro ejemplo lo haremos primero sin escribir el rango de clases y la salida del computador será:

Clase Frecuencia
200 1
320 3
440 4
560 6
680 9
y mayor... 7

Donde nos índica que de cero a 200 solo hay un valor, de 200 a 320 hay 3 y así sucesivamente, es decir en las
clases únicamente muestra el límite superior.

Si desea que los datos aparezcan distribuidos por el número de clases determinado por usted, se utiliza
entonces la opción rango de clases. Para obtener la amplitud de los rangos de las clases se debe determinar
primero el rango de los datos a analizar, lo cual se consigue restándole al dato mayor, el dato menor. Luego
para obtener la amplitud, se divide el resultado anterior en la cantidad de clase que se desea obtener. Si le
damos 6 clases la amplitud será de 100 y la distribución quedará así:

Clase Frecuencia
300 4
400 3
500 6
600 6
700 6
y mayor... 5

En este caso entre 0 y 300 hay 4, entre 300 y 400 hay 3 y así sucesivamente, se observa que la frecuencia
más alta esta entre 600 y 700.

Usando las formulas de Excel usted puede construir las demás frecuencias así:

1. Para frecuencias relativas: +(celda de la casilla absoluta / celda del total de datos)*100
2. Para frecuencias acumuladas: copia la primera frecuencia y después +primera celda de la frecuencia
más la siguiente, y así sucesivamente. La tabla que obtendrá será la siguiente:

Clase Frecuencia frec relativ frec acumul frec rel acum
200 300 4 13,3333333 4 13,3333333
300 400 3 10 7 23,3333333
400 500 6 20 13 43,3333333
500 600 6 20 19 63,3333333
600 700 6 20 25 83,3333333
700 y mayor... 5 16,6666667 30 100
Totales 30 100

Solución

1) El 10% de los días ¿cuánto dinero se vendió?


Página 29 de 175


De acuerdo con la tabla anterior de las frecuencias se observa que el 10% de los días las ventas están entre
300 y 400 mil pesos

2) ¿Cuántos días se vendió entre 500 y 600 mil pesos?
Los días en los que se vendió entre 500 y 600 mil pesos fueron 6

3) El 57% de las ventas ¿qué valor supera?
Supera la venta de 500 mil pesos

4) En 8 de los 30 días ¿cuánto dinero se vendió?
Se ha vendido más de 400 mil pesos


Lección 5: Presentación de la información.

Las distribuciones de frecuencia las podemos ver representadas gráficamente mediante histogramas, gráficas
circulares y ojivas. Estas gráficas brindan una interpretación más rápida y más clara de los datos que se
obtuvieron de la muestra; sin embargo, existen diversidad de gráficos que pueden ser empleados para la
representación de datos, de acuerdo al tipo de datos y lo que se desee presentar.

Las gráficas proporcionan datos en un diagrama de dos dimensiones. En el eje horizontal se puede mostrar los
valores de la variable (las características que se están midiendo), y en el eje vertical se señalan las frecuencias
de las clases mostradas en el eje horizontal. A continuación se presentarán brevemente los distintos tipos de
gráficos que se emplean para la presentación de datos y los pasos para realizarlos utilizando Excel.
Gráficos Estadísticos:
Para apreciar a golpe de vista la magnitud o posición de las variables, se suelen efectuar una representación
gráfica, los sistemas de gráficos más usuales son:

Diagrama de sectores El área de cada sector es proporcional a la frecuencia que se quiera representar, sea
absoluta o relativa.

Para calcularlo podemos decir que el área depende del ángulo central, mediante la siguiente proporción:
n
i
/N=α/360

Como resulta n
i
/N = f
i
, tendremos que 360 *
i
f = == = α

Cuando lo que se desea es resaltar las proporciones que representan algunos subconjuntos con respecto al
total, es decir, cuando se está usando una escala categórica, conviene utilizar una gráfica llamada de pastel o
circular
x1
x2
x3
x4
x5


Página 30 de 175


Por ejemplo, para ilustrar la matrícula en licenciatura (en México) por áreas de conocimiento en el año de 1992
se puede usar algo así como sigue (Fuente: ANUIES, 1995):

De hecho, si se desea resaltar una de las categorías que se presentan, es válido tomar esa "rebanada" de la
gráfica y separarla de las demás:

Hay que tomar algunas precauciones al utilizar este tipo de gráficos. Por un lado, comparar dos gráficos
circulares (por ejemplo, si se quisieran comparar las proporciones de matrículas en licenciatura por áreas de
conocimiento en licenciatura para dos años distintos) resulta muy difícil y, por tanto, no es muy aconsejable.

Por otro lado, en ocasiones existen categorías con pocas frecuencias (por ejemplo, dos o tres con
frecuencias relativas menores al 1% cada una), haciendo que la gráfica resulte "pesada" y las etiquetas se
encimen. Una posible solución es juntarlas en una sola categoría (por ejemplo, la típica "otras" o "varias"), pero
entonces habría que ponderar si se hace una gráfica extra con dichas observaciones únicamente, haciendo la
anotación pertinente, o simplemente se ignoran por no resultar significativas.


Diagrama de barras: se utiliza para frecuencias absolutas o relativas, acumuladas o no, de una VARIABLE
DISCRETA. En el eje de abscisas, situaremos los diferentes valores de la variable. En el eje de ordenadas la
frecuencia. Levantaremos barras o columnas SEPARADAS de altura correspondiente a la frecuencia
adecuada.


Histograma: Igual que el anterior en cuanto al tipo de frecuencias que se pueden utilizar. La diferencia: es
para variables CONTINUAS. Si la amplitud del intervalo es la misma, elevaremos columnas UNIDAS, a altura
0
2
4
6
8
x1 x2 x3 x4 x5
n
i
Variable


Página 31 de 175

la frecuencia correspondiente. Si la amplitud del intervalo es diferente, el área del rectángulo columna será
proporcional a la frecuencia representada.

En el eje horizontal (o de las abscisas) se representan los intervalos de los datos, marcándose de manera
continua las fronteras entre cada uno de los éstos. De esta manera, el histograma está compuesto rectángulos,
cuyo número coincide con la cantidad de intervalos considerados, el ancho de la base de cada uno de esos
rectángulos es la misma siempre y coincide con las fronteras de los intervalos, y la altura corresponde a la
frecuencia de cada intervalo.

Es importante observar que resulta difícil utilizar este tipo de representación cuando existen intervalos abiertos
o cuando los intervalos no son iguales entre sí.

Otra observación es la amplitud de los intervalos, que se puede establecer utilizando la regla de Sturges, pues
al cambiarla la presentación visual de un histograma puede variar.

El programa Excel no permite crear de manera automática histogramas, pues proporciona el ancho de las
columnas de tal manera que quedan separadas. Sin embargo, existe la manera de hacerlas.

Otra observación pertinente es que se pueden representar en la misma gráfica, utilizando las mismas escalas
horizontales y verticales, varios datos correspondientes a las mismas variables producto de varias
observaciones. Esto produce una gráfica con varias series, correspondiendo cada una de ellas a cada
observación de la muestra (o población), y teniéndose una gráfica compuesta. Es conveniente que cada serie
de datos (u observaciones) sean ilustradas o iluminadas de igual manera entre sí, pero distinta de las demás.

El ejemplo que sigue pertenece al comportamiento de las calificaciones parciales de tres alumnos de
preparatoria. Las series (cada una de las calificaciones parciales) están coloreadas con diferente color para
mostrar el comportamiento tanto individual, como de cada uno de los alumnos con respecto a los demás. Es
interesante observar que la escala horizontal no es continua (es nominal).


También es posible realizar gráficas de barras horizontales, los cuales se parecen mucho a las gráficas de
columnas, con la salvedad importante de que la función de los ejes se intercambian y el eje horizontal queda
destinado a las frecuencias y el eje vertical a las clases.

Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una población dividida en estratos
como, por ejemplo, son sus edades. El ejemplo que se presenta es la población de un país ficticio llamado
"Timbuctulandia":



Página 32 de 175



A este tipo de gráficos en particular se le llama pirámide de edades por su forma. Incluso, cuando se compara
la población masculina y femenina por estratos de edades, se estila utiliza el lado izquierdo para la población
de un sexo y el lado derecho para el otro, el resultado es una "pirámide" casi simétrica (dependerá de la
población en particular).


Diagrama de escalera: se utiliza para frecuencias acumuladas.


Gráfico de Líneas

Cuando los datos se relacionan entre sí, es decir, cuando podemos decir que existe cierta continuidad entre las
observaciones (como por ejemplo el crecimiento poblacional, la evolución del peso o estatura de una persona a
través del tiempo, el desempeño académico de un estudiante a lo largo de su instrucción escolar, las
variaciones presentadas en la medición realizada en algún experimento cada segundo o minuto) se pueden
utilizar las gráficas de líneas, que consisten en una serie de puntos trazados en las intersecciones de las
marcas de clase y las frecuencias de cada una, uniéndose consecutivamente con líneas:



Este ejemplo muestra el comportamiento del peso corporal (en kilogramos) de dos individuos a lo largo de
cinco observaciones anuales. Al igual que en el caso de las gráficas de columnas (y de otras más) es posible
presentar varias series de observaciones (en este caso cada serie de observaciones son los pesos de un
individuo).

0
5
10
15
20
25
x1 x2 x3 x4 x5


Página 33 de 175

Otra forma de representación de un uso menos común, y muy parecida a las gráficas de líneas, es el polígono
de frecuencias. La diferencia fundamental entre ambas es que en el polígono de frecuencias se añaden dos
clases con frecuencias cero: una antes de la primera clase con datos y otra después de la última. El resultado
es que se "sujeta" la línea por ambos extremos al eje horizontal y lo que podría ser una línea separada del eje
se convierte, junto con éste, en un polígono.

El siguiente ejemplo corresponde al porcentaje del PIB gastado en docencia e investigación durante el año de
1990 en cinco países (fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):

El Excel no crea automáticamente polígonos de frecuencias, sino que produce gráficas de líneas. Sin embargo,
es posible arreglárselas para hacerlas.

Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma
técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayor que y las ojivas
menor que.

Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación
de la técnica es parcial):

1. Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo
izquierdo; para la ojiva menor que, con el derecho.

2. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase. Para el
caso de la ojiva mayor que es la frontera menor; para la ojiva menor que, la mayor.

Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que, utilizando los
datos que se usaron para ejemplificar el histograma:


La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la
frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en
cuestiones temporales se diría: después de las 4:00 horas). De forma análoga, en la ojiva menor que la
frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la
frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la
frontera).



Página 34 de 175

Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que
según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma
ojiva menor que, que se acaba de usar, pero con una distribución porcentual:


Polígono de frecuencias, es la recta que une los extremos de las variables de una distribución, un ejemplo
clásico es el de la evolución de la temperatura de un paciente

0
1
2
3
4
5
6
x1 x2 x3 x4 x5

Nota: Si la variable es cualitativa (rubio, moreno, alto bajo, etc.) se suelen utilizar más los diagramas de
sectores o pictogramas

Si la variable es cuantitativa podemos tener dos casos: Variable discreta o variable continua.

En el primer caso: variable discreta utilizaremos si no piden nada concreto, el diagrama de barras cuando se
refiera a la representación gráfica de la frecuencia absoluta (ni)

En cambio cuando nos estemos refiriendo a la frecuencia absoluta acumulada optaremos por el diagrama de
escalera

0
2
4
6
8
x1 x2 x3 x4 x5
0
5
10
15
20
25
x1 x2 x3 x4 x5


Página 35 de 175

En el caso de la variable continua, optaremos por el histograma para las frecuencias absolutas y por el
polígono de frecuencias en el caso de la frecuencia acumulada.


Pictograma: Se suele utilizar para expresar un atributo. Se suelen utilizar iconos que se identifiquen con la
variable (ejemplo un coche) y su tamaño suele guardar relación con la frecuencia

Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos para ilustrar los datos o los
resultados de alguna investigación. Regularmente se utilizan dibujos para representar dicha información, y el
tamaño o el número de estos dibujos dentro de una gráfica queda determinado por la frecuencia
correspondiente. A este tipo de gráfica se le llama pictograma y éstos son dos ejemplos:



El de la izquierda representa la población de los Estados Unidos (cada hombrecillo representa a dos millones
de habitantes), el de la derecha representa la masa de tres planetas de nuestro sistema solar tomando como
unidad a la masa de la Tierra (cada representa la masa de nuestro planeta: Venus tiene masa menor y
Neptuno tiene más 17 veces más masa que la Tierra).

Las versiones del Excel 7.0 y anteriores no tienen opciones para realizar este tipo de gráficas, las posteriores
sí. Otros programas contemporáneos (como el Corel Draw o el Harvard Graphics) sí son capaces.


Gráfico de Dispersión: Cuando se pretende ilustrar la dispersión de las observaciones realizadas, y así
trabajar algunas cosas como correlaciones se puede utilizar una gráfica de dispersión. Por ejemplo, el ejemplo
de la izquierda es la dispersión que se presenta al comparar el número de tesis doctorales en ciencias exactas
contra el número de total de tesis doctorales (todo en México) en observaciones anuales entre 1984 y 1990
(fuente: Revista "Ciencia y Desarrollo", 1994, XIX(114):12):





Página 36 de 175

La gráfica de la derecha es resultado de comparar el diámetro (en miles de kilómetros) de los planetas
interiores del nuestro sistema solar contra sus densidades (en gramos por centímetro cúbico). Es interesante
observar que los puntos parecen "seguir" una línea imaginaria que se asemeja a una recta, con excepción de
un caso atípico: Mercurio.

Uno de los usos de este tipo de gráficas es precisamente encontrar si las observaciones siguen algún patrón
lineal (una línea de tendencia) o si existen valores atípicos. Para el caso del Excel, el programa es capaz de
graficar las líneas de tendencias que siguen un conjunto de datos.

Como resumen final, se presenta a continuación un cuadro resumen donde se clasifica los principales tipos de
gráficos a utilizar de acuerdo al tipo de variable que se este trabajando:




EMPLEANDO EXCEL - ACTIVIDAD GUIADA

Un profesor realizó una encuesta a sus estudiantes para analizar el núcleo familiar. Para esto preguntó a cada
uno de sus 35 estudiantes el número de hermanos y obtuvo los siguientes datos:

Nº de Hermanos frecuencia
0 4
1 6
2 2
3 8
4 4
5 1
Total 25

El profesor quiere responder las siguientes preguntas:



Página 37 de 175

1. Qué porcentaje corresponde al mayor número de hijos?
2. Aproximadamente el 22% de las familias tienen cuántos hijos?
3. El 80% de las familias tienen menos de cuántos hijos?
4. Cuántas familias tienen 3 hijos o menos?

Solución:

Para poder resolver estas preguntas se va a utilizar los gráficos de la siguiente manera:

3. Damos clic en el icono de gráficos y obtenemos la siguiente ventana:




4. Cualquiera de estas opciones puede escoger, se escoger columnas ya que es la más común y además es
la que representa el histograma de la distribución, al dar clic en siguiente se obtendrá la siguiente ventana:





Página 38 de 175

En el rango de datos damos clic en la flecha roja señalamos la distribución y luego damos otra vez clic el
misma flecha y clic en siguiente.
3. La siguiente ventana será:



Los diálogos de la ventana son muy sencillos, la siguiente ventana será; :



Que es la de ubicación del gráfico: en hoja nueva o en alguna celda en especial, y finalizamos dándolo clic en
terminar y el gráfico será:



Página 39 de 175

En este histograma podemos observar que:

1. El mayor número de hijos es 3 y corresponde a un 34.5% del total
2. Vemos también que el 22% de la población tiene 4 hijos.

Para responder las pregustas 3 y 4 del profesor nos toca realizar la ojiva, la cual obtenemos siguiendo los
pasos anteriores:

5. Aquí observamos que el 80% tiene 4 hijos o menos.
4. El 60% tiene 3 hijos o menos




Página 40 de 175

CAPÍTULO 2. ANÁLISIS MATEMÁTICO DE LA
INFORMACIÓN

Lección 6: Parámetros y Estadísticos

Parámetro: Son medidas numéricas descriptivas, asociadas a la población, son valores fijos pero
desconocidos. Algunos de ellos: µ = La media. σ
2
= Varianza. σ = Desviación típica o estándar.

Los parámetros como valores fijos, no tienen distribución de probabilidad, siendo características propias de la
población objeto de estudio.

Promedio poblacional: ߤ =


∑ ܺ


௜ୀଵ


Donde N = total de la población y µ = Promedio poblacional.

Varianza poblacional: ߪ

=


∑ ሺܺ

−ߤሻ
ଶ ே
௜ୀଵ



Estadísticos: Son medidas numéricas descriptivas, asociadas a la muestra, se consideras variables aleatorias.
Algunos de ellos: ݔ̅ = La media o promedio. s
2
= La varianza. s = Desviación típica. Los estadísticos como
están asociados a la muestra aleatoria, tienen distribución de probabilidad, ya que según la muestra tomada,
éste varia.

Promedio muestral: ܺ

=


∑ ܺ


௜ୀଵ


Donde N = total de la población y µ = Promedio poblacional.

Varianza muestral: ܵ

=

௡ିଵ
∑ ሺܺ

−ܺ


ଶ ௡
௜ୀଵ



Lección 7: Medidas de tendencia central.

INTRODUCCIÓN
En las secciones anteriores se presentaron las técnicas para agrupar los datos (distribuciones o tablas de
frecuencia) y se plantearon las técnicas gráficas para descubrir los patrones de distribución ocultos en un
conjunto de datos; se mencionó que la estadística cumplía una función descriptiva mediante el uso de cuadros
o tablas y gráficos para la clasificación, ordenación y presentación de datos estadísticos, limitando el análisis
de la información a la interpretación porcentual de las distribuciones de frecuencia.
El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los cuales pueda recaer la
representación de toda la información. En esta sección y en la próxima (medidas de tendencia central y de
dispersión) se definirá algunas medidas numéricas que se emplean para describir conjuntos de datos.
Una de las características más sobresalientes de la distribución de datos es su tendencia a acumularse hacia el
centro de la misma; esta característica se denomina tendencia central. Las medidas de posición o de tendencia
central nos permiten determinar la posición de un valor respecto a un conjunto de datos, el cual
consideraremos como representativo o típico para el total de las observaciones.
Antes de entrar a definir las medidas de tendencia central, repasaremos algunas notaciones simbólicas que
son de gran utilidad y son esenciales en la estadística.


Página 41 de 175


SUMATORIAS Y OTRAS NOTACIONES IMPORTANTES
El uso de la notación simbólica es esencial en estadística. Por ejemplo, para distinguir entre los valores de n
observaciones se emplea la notación simbólica x
1
, x
2
,…, x
n
. En el análisis estadístico de un conjunto de datos
se requiere del uso de sumas de números, por lo cual, es conveniente introducir una notación simple para
indicar una suma. Uno de los símbolos más útiles es la letra griega  (sigma) con la que se denota la suma de
términos en secuencia. De esta manera, la suma de x
1
, x
2
,…, x
n
se designa por:
, x ... x x x x
n 3 2 1
n
1
i
+ + + + =

= i

Y se lee “suma de las x
i
, con i variando desde 1 hasta n”. La letra i recibe el nombre de índice de suma toma
valores enteros sucesivos hasta e incluyendo a n, que es el límite superior o el valor más grande de i.
Considere, por ejemplo, la sucesión de números: 1, 4, 7, 10, 13,…, y suponga que se desea referirse a la suma
de los cuadrados de los primeros cuatro términos de la sucesión. En la notación de sumatoria esto se escribiría
como
166 100 49 16 1 10 7 4 1 y
2 2 2 2
4
1
2
i
= + + + = + + + =

= i

De manera general, los siguientes son ejemplos del uso de ,
a) x ... x x x x
2
n
2
3
2
2
2
1
n
1 i
2
i
+ + + + =

=
,
b) a), - x ( ... a) - (x a) - (x a) - (x ) (x
n 3 2 1
n
1
i
+ + + + = −

= i
a
c) , a) - x ( ... a) - (x a) - (x a) - (x ) (x
2
n
2
3
2
2
2
1
n
1
2
i
+ + + + = −

= i
a
d) , y x ... y x y x y x y x
n n 3 3 2 2 1 1
n
1
i i
+ + + + =

= i


Las siguientes tres propiedades son importantes cuando se emplea el símbolo ,
1. Si c es cualquier constante, entonces nc c
1

=
=
n
i

2. Si c es cualquier constante, entonces
∑ ∑
= =
=
n
i
n
i 1
i
1
i
x c cx
3. ( )
∑ ∑ ∑
= = =
+ = +
n
i
n
i
n
i 1
i
1
i
1
i i
y x y x

Como ejemplo, consideremos la sucesión de números 1, 2, 3, 4, y sean a=10 y c=5, entonces,


Página 42 de 175

( )
( ) ( ) ( )
( ) ( ) ( )
150
20 100 30
20 10 10 16 9 4 1
5 5 5 5 4 3 2 1 10 4 3 2 1
5 x a x 5 ax x
2 2 2 2
4
1 i
4
1 i
i
4
1 i
2
i
4
1
i
2
i
=
+ + =
+ + + + + =
+ + + + + + + + + + + =
+ + = + +
∑ ∑ ∑ ∑
= = = = i


Otro símbolo útil es la letra griega  (pi). Esta letra se emplea para indicar el producto de los términos de una
secuencia. Por ejemplo, dada la secuencia de observaciones x
1
, x
2
,…, x
n
se designa por:
n 3 2 1
n
1 i
i
x .... x . x . x x

=
=
Donde la letra i tiene el mismo propósito que en la suma.


MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información son
de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe hacerse
aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con el grado de
concentración de la información.
Las principales medidas de tendencia central son:
Media aritmética
Mediana
Moda
Sin embargo, existen otras medidas menos comunes; las medidas de tendencia central, también denominadas
medidas de posición, pueden ser pueden ser de dos tipos:

1. CENTRALES:
Medias: Aritmética, Geométrica, Armónica
Medianas
Moda

2. NO CENTRALES O DE POSICIÓN:
Cuantiles:
Cuartiles
Deciles
Centiles o percentiles

La fórmula de cálculo de cada una de ellas depende de cómo se encuentren presentados los datos: agrupados
o sin agrupar. Por datos agrupados entenderemos los presentados en una tabla de frecuencias (variable
discreta o continua), mientras que por datos sin agrupar se entenderá los que se encuentran enlistados.

Media Aritmética
Es la medida de posición mas empleada, la más conocida y sencilla de calcular, de gran estabilidad en el
muestreo y sus fórmulas admiten tratamientos algebraicos. También se le conoce como promedio aritmético o


Página 43 de 175

simplemente como la media de un conjunto de observaciones. Cotidianamente e inconscientemente estamos
utilizando la media aritmética. Cuando por ejemplo, decimos que un determinado fumador consume una
cajetilla de cigarrillos diaria, no aseguramos que diariamente deba consumir exactamente los 20 cigarrillos que
contiene un paquete, sino que es el resultado de la observación, es decir, dicho sujeto puede consumir 18 un
día, 10 otro, 20, 21, 22; pero según nuestro criterio, el número de unidades estará alrededor de 20.
Su desventaja principal es el de ser muy sensible a valores extremos, es decir, puede afectarse de manera
desproporcionada por la presencia de valores grandes, o de valores muy pequeños.
Se designará el símbolo (la letra griega miu) para designar una media poblacional, y x (que se leerá como
“x-barra”) para designar una media muestral.

Media para datos sin agrupar
1. Sean x
1
, x
2
,…, x
N
, los N datos correspondientes a una población. Entonces la media poblacional es,


=
=
= =
+ + + +
=
N
1 i
i
N
1 i
i
N 3 2 1
x
N
1

N
x

N
x ... x x x
µ
2. Sean x
1
, x
2
,…, x
n
, los n datos correspondientes a una muestra. Entonces la media muestral es,


=
=
= =
+ + + +
=
n
1 i
i
n
1 i
i
n 3 2 1
x
N
1

n
x

n
x ... x x x
x
Ejemplo
Hallar la media aritmética de los siguientes números: 10, 8, 6, 5, 10, 7.

Solución:
8
6
7 10 5 6 8 10
x
6
1

6
x
x
6
1 i
i
6
1 i
i
=
+ + + + +
= = =


=
=

Ejemplo
Cantidad de cigarrillos consumidos por un fumador en una semana.
Lunes 18
Martes 21
Miércoles 22
Jueves 21
Viernes 20
Sábado 19
Domingo 19

Hallar la media aritmética.

Solución:

Entonces la media aritmética es
20
7
19 19 20 21 22 21 18

7
x
x
7
1
i
=
+ + + + + +
= =


El fumador consume en promedio 20 cigarrillos diarios.

Para algún campo de la ciencia, específicamente en la física, se dice que la media aritmética es el CENTRO
DE GRAVEDAD de los datos.


Página 44 de 175



Media para datos agrupados
Cuando se cuenta con una variable discreta que se encuentra agrupada en una distribución de frecuencias de
k valores, la media aritmética se calcula por la fórmula:


= =
=
i i
k
1 i
i i
f x
n
1

n
.f x
x
Ejemplo.
A partir de la siguiente tabla, datos sobre la cantidad de cigarrillos consumidor por un fumador en una semana,
se obtiene la siguiente distribución de frecuencia.

Cantidad
(X
i
)
Frecuencia
(f
i
)
18 1
19 2
20 1
21 2
22 1
Total 7

Hallar la media aritmética.

Solución:
20
7
140

7
22(1) 21(2) 20(1) 19(2) 18(1)

7
f x
x
7
1
i i
= =
+ + + +
= =


Para facilidad del cálculo de la media, se puede recurrir a construir primeramente en el cuadro, el valor del
numerador así,
Cantidad (X
i
) Frecuencia (f
i
) X
i
f
i

18 1 18
19 2 38
20 1 20
21 2 42
22 1 22
Total 7 140


Si la información se encuentra relacionada en una distribución de frecuencias por intervalo (variable continua),
se toman como valores de la variable las marcas de clase de los intervalos; recuérdese que por marca de
clase se entiende el punto medio entre los límites de cada clase o intervalo.


Página 45 de 175


Ejemplo:
Mediante la siguiente distribución de frecuencias que nos muestra los espesores en pulgadas, de recipientes
de acero, hallar la media aritmética.
Espesores
en pulg
0.307 - 0.310 0.311 - 0.314 0.315 - 0.318 0.319 - 0.322 0.323 - 0.326 0.327 - 0.330
f 3 5 5 22 14 1 N= 50
Solución:
Espesores
en pulg
0.307 - 0.310 0.311 - 0.314 0.315 - 0.318 0.319 - 0.322 0.323 - 0.326 0.327 - 0.330
f 3 5 5 22 14 1 N= 50
mi 0,3085 0,3125 0,3165 0,3205 0,3245 0,3285
fmi 0,9255 1,5625 1,5825 7,051 4,543 0,3285 15,99
ݔ̅ =
15.9930
50
ܧ݊ݐ݋݊ܿ݁ݏ:ݔ̅ = 0,3199
De esta manera, el espesor promedio de los recipientes de acero es de 0,32 pulgadas.

Media Aritmética Ponderada
En lo que se ha venido presentando, se observa que la media aritmética se calcula otorgándole a los datos
igual importancia a cada uno de ellos; sin embargo, existen casos donde los datos se encuentran ponderados
por un determinado peso.
La media aritmética ponderada tiene en cuenta la importancia relativa de cada uno de los datos, para lo cual, la
definimos de la siguiente manera:


=
=
=
n
1 i
i
n
1 i
i i
w
w
w x
x ,
Donde
w
x es la media ponderada,
x
i
es el valor de la variable para el i-ésimo elemento, y
w
i
es la ponderación de la i-ésima variable para el i-ésimo elemento.

Ejemplo:

Las calificaciones de un estudiante están conformadas por los siguientes factores: Un examen cuyo valor es el
60% en el cual obtuvo una nota de 3,0; talleres de resolución de ejercicios con ponderación del 25% con una
calificación de 3,5 y por último, laboratorios de consulta y resolución de ejercicios con un valor del 15% y una
nota de 4,5. ¿Cuál es la nota final del primer corte del estudiante?
SOLUCIÓN
El ejercicio brinda los siguientes datos.
Ponderaciones: w
1
= 0,6; w
2
= 0,25 y w
3
= 0,15.
Datos de la Variable: x
1
= 3,0; x
2
= 3,5 y x
3
= 4,5.
De esta manera, se tiene que:


Página 46 de 175

3,35
00 , 1
35 , 3
00 , 1
675 , 0 0,875 1,80
0,15 0,25 0,60
4,5(0,15) 3,5(0,25) 3,0(0,60)

w
w x
x
3
1 i
i
3
1
i i
w
= =
+ +
=
+ +
+ +
= =


=
= i

Así, la nota definitiva es 3,4.

Para datos agrupados, tenemos que la fórmula para calcular la media aritmética ponderada está dada por,
i
n
1 i
i
n
1 i
i i i
w
f w
w f x
x


=
=
=
Propiedades de la media aritmética
1. La suma de las diferencias de los datos con respecto a la media aritmética es igual a cero, es decir,
( ) 0 x - x
1 i
i
=

=
n

Para comprobar esta propiedad recurriremos a las propiedades de la sumatoria descritas previamente.
Tenemos que:
( )
∑ ∑ ∑
= = =
− =
n
1 i
n
1 i
i
1 i
i
x x x - x
n

Sin embargo,
x x n que tenemos despejando ,
n
x
x
n
1 i
i
n
1 i
i


=
=
= =
Cabe mencionar que una vez calculada la media aritmética, esta es una constante, por tanto, por
propiedades de la sumatoria:
x n x
n
1 i
=

=

De esta manera, reemplazando las dos igualdades en la ecuación original tenemos que:
( ) 0 x n - x n x x x - x
n
1 i
n
1 i
i
1 i
i
= = − =
∑ ∑ ∑
= = =
n


Veamos un ejemplo de comprobación; para ello consideremos los datos dados para el problema del
fumador cuya media es de 20 cigarrillos por día:

X x
i
- x
18 18 – 20 = -2
21 21 – 20 = 1
22 22 – 20 = 2
21 21 – 20 = 1
20 20 – 20 = 0
19 19 – 20 = -1
19 19 – 20 = -1
Suma 0


Página 47 de 175

Para una distribución de frecuencias, consideremos el mismo ejemplo con los datos agrupados:

X f
i
x
i
- x (x
i
- x )f
i

18 1 18 – 20 = -2 -2
21 2 21 – 20 = 1 2
22 1 22 – 20 = 2 2
20 1 20 – 20 = 0 0
19 2 19 – 20 = -1 -2
Suma 7 0


2. La suma de las diferencias cuadráticas de los datos, con respecto a la media aritmética es mínima.
( )
2
1 i
i
x - x

=
n
es mínima para x ; quiere decir que para cualquier otro parámetro p, diferente a la media
aritmética hacer mayor la expresión
( )
2
1 i
i
p - x

=
n
>
( )
2
1 i
i
x - x

=
n
.

3. La media aritmética de una constante es igual a la constante. Es decir, dada x
i
=k, para i=1, 2, 3,…, n.
k n.k
n
1
k
n
1
x
n
1
x
n
1 i
n
1 i
i
= = = =
∑ ∑
= =


Ejemplo:

Si un alumno presenta 5 parciales y en todos ellos alcanza una calificación de cuatro, su nota promedio
será de cuatro:
4 5.4
5
1
4
5
1
x
n
1
x
5
1 i
n
1 i
i
= = = =
∑ ∑
= =


4. Si a cada uno de los resultados de una variable le sumamos o le restamos una constante C, la media
aritmética de la nueva variable queda alterada en esa constante. Formalmente, la media de una variable
mas (o menos) una constante es igual a la media aritmética de la variable mas (o menos) la constante.
Sean x
1
, x
2
,…, x
n
datos de una variable X cuya media aritmética es x . Definimos una variable Y de tal
manera que y
1
= x
1
± c, y
2
= x
2
± c,…, y
n
= x
n
± c, es decir y
i
= x
i
± c, i=1, 2,…, n.
Entonces la media aritmética de la nueva variable es:
( ) n.c
n
1
x c
n
1
x
n
1
c x
n
1
c x
n
1
y
n
1
y
n
1 i
n
1 i
i
n
1 i
n
1 i
i
n
1 i
i
n
1 i
i
± = ± =
(
¸
(

¸

± = ± = =
∑ ∑ ∑ ∑ ∑ ∑
= = = = = =

Es decir,
c x y ± =

Ejemplo:
Consideremos la siguiente distribución de frecuencias:


Página 48 de 175



( ) 7 , 6 134
20
1
n x
n
1
x
5
1
i i
= = =

= i
( ) 7 , 8 174
20
1
n y
n
1
y
5
1
i i
= = =

= i

8,7 2 6,7 2 x y = + = + =

El ejemplo es válido para la diferencia:


Ejemplo:

Se tienen 100 baldosas y se midió sobre ellas su resistencia en Kg/m
2
, obteniendo los siguientes datos:



Con base en estos datos, tenemos que la resistencia media de las 100 baldosas es:
( )
2
5
1
i i
Kg/m 448 800 . 44
100
1
n m
n
1
x = = =

= i

Si hacemos Y = X – 450:



Página 49 de 175

( )
2
5
1
i i
Kg/m 2 200
100
1
n y
n
1
y − = − = =

= i

2 - 450 - 448 450 x y = = − =

5. Si cada uno de los datos se multiplica por una constante K, entonces la media aritmética queda
multiplicada por esa constante.
Sean x
1
, x
2
,…, x
n
los datos de una variable X cuya media aritmética es x .
De igual forma, sea y
1
= k.x
1
, y
2
= k.x
2
,…, y
i
= k.x
i
,…, y
n
= k.x
n
.
La media aritmética de la nueva variable es x k. y = :
x k. x
n
1
k. x
n
k
k.x
n
1
y
n
1
y
5
1
5
1
i i
n
1
i
n
1
i
= = = = =
∑ ∑ ∑ ∑
= = = = i i i i

Ejemplo:

Considerando la siguiente distribución de frecuencias y tomando k=2. Hallar la media para X y Y

( ) 7 , 6 134
20
1
n x
n
1
x
5
1
i i
= = =

= i
( ) 4 , 13 268
20
1
n y
n
1
y
5
1
i i
= = =

= i

13,4 2(6,7) x 2. y = = =
Ejemplo:
Si multiplicamos cada una de las resistencias de las 100 baldosas por una constante
100
1
k = , tenemos:

( ) 48 , 4 448
100
1
n m
n
1
y
7
1
i y
i
= = =

= i

( ) x
100
1
448
100
1
48 , 4 y = = = =


6. Empleando las dos propiedades anteriores, podemos calcular la media de una combinación lineal de
variables, esto es, una transformación de variables:


Página 50 de 175

Sean x
1
, x
2
,…, x
n
los datos de una variable X cuya media aritmética es x ; de manera similar, sean C y K,
dos constantes y Y una variable aleatoria tal que Y = C.X ± K. Entonces la media aritmética de la nueva
variable es k x c. y ± = .

Ejemplo:
En una empresa constructora de vivienda los salarios semanales tienen una media de $169.000. Como
una solución al conflicto laboral surgido se proponen dos soluciones al conflicto:
1. Aumento del 6% en el salario semanal, ó,
2. Aumento del 4% más una bonificación semanal de $5.800 a cada obrero.
¿Cuál de las dos alternativas mejora la situación de los obreros?

Solución:
Tenemos que, sea X la variable salario mensual, entonces:
Y
1
= 1,06.X 179.140 00) 1,06(169.0 x 1,06. y = = = , es decir, si aplicamos la primera opción,
obtendríamos un nuevo salario semanal de $179.140.

Y
2
= 1,04.X + 5800 181.560 175.760 5.800 00) 1,04(169.0 5.800 x 1,04. y = = + = + = , es decir, si
aplicamos la segunda opción, obtendríamos un nuevo salario semanal de $181.560.

7. La media de una muestra es igual a la media ponderada de las sub-muestras, tomándose como
ponderación los tamaños de las sub-muestras, es decir,
,
n
.x n ... .x n .x n
x
k k 2 2 1 1
+ + +
=
Donde n = n
1
+ n
2
+ … + n
k
.



Ejemplo:


Solución:
( ) 15 , 2 43
20
1
n x
n
1
x
5
1
i i
= = =

= i
,
( ) 33 , 1 16
12
1
n x
n
1
x
3
1
i i
1
1
= = =

= i
,
( ) 375 , 3 27
8
1
n x
n
1
x
2
1
i i
2
2
= = =

= i

De esta manera,

( ) ( )
15 , 2
20
3 4
8 12
3,375 8 1,33 12
n n
x . n x . n
x
2 1
2 2 1 1
= =
+
+
=
+
+
=






Página 51 de 175

La Mediana
Otra medida de tendencia central, utilizada principalmente en estadística no paramétrica es la mediana, la
cual, a diferencia de la media, no busca el valor central del recorrido de la variable según la cantidad de
observaciones, sino que busca determinar el valor que tiene aquella observación que divide la cantidad de
observaciones en dos mitades iguales. Por lo tanto es necesario atender a la ordenación de los datos, y
debido a ello, este cálculo depende de la posición relativa de los valores obtenidos. Es necesario, antes que
nada, ordenar los datos de menor a mayor (o viceversa).
Hay que tener en cuenta que si x
1
, x
2
,…, x
N-1
, x
N
, se utiliza para denotar el conjunto de las observaciones,
donde el subíndice indica el orden en el dato que fue obtenido o registrado, suele utilizarse x
(1)
, x
(2)
,…, x
(N-1)
,
x
(N)
, para representar las mismas observaciones, pero ahora ordenadas de menor a mayor, por lo tanto ahora
aparece primero el dato más pequeño y último el más grande.
Mediana para datos sin agrupar
Para determinar el valor de la mediana en datos enlistados, hay que tener en cuenta la cantidad de datos que
se recolectaron; es decir, si se tiene un número de datos IMPAR o si por el contrario, el número de datos es
PAR; a continuación se presentara la mecánica a emplear para su cálculo.
a. Número impar de observaciones: La mediana es el valor del dato central así, la mediana puede
expresarse como:
|
¹
|

\
| +
= =
2
1 N
x Me Mediana
, en caso de que N (o n) sea impar.
Ejemplo:

En el ejercicio de los cigarrillos consumidos por un fumador, los datos suministrados fueron:
Lunes (x
1
)=18, martes (x
2
)=21, miércoles (x
3
)=22, jueves (x
4
)=21, viernes (x
5
)=20, sábado (x
6
)=19 y domingo
(x
7
)=19. Hallar la mediana.

Solución:

En primer lugar, tenemos siete (7) datos, un número IMPAR.
Ordenando ascendentemente los datos tenemos:

x
(1)
= 18, x
(2)
= 19, x
(3)
= 19, x
(4)
= 20, x
(5)
= 21, x
(6)
= 21, x
(7)
= 22.
Una vez ordenados los datos, determinamos el valor de la variable que se encuentra en la posición central de
los datos, es decir:

( )
20 x x x x Me
4
2
8
2
1 7
2
1 N
= = = = =
|
¹
|

\
|
|
¹
|

\
| +
|
¹
|

\
| +

De esta manera, consideramos que en el 50% de los días de la semana este fumador consume máximo 20
cigarrillos; mientras que en el restante 50% de los días fuma mas de 20 cigarrillos.
Nótese que tras del cuarto dato ordenado se encuentran 3 valores observados, la misma cantidad de
observaciones que superan el valor de la mediana, esto es:


La mediana divide la cantidad de datos en dos “partes” iguales.

b. Número par de observaciones: La mediana esta determinado por el valor de la semisuma (promedio
aritmético) de los valores de los dos datos centrales, esto es:


Página 52 de 175

2
x x
Me Mediana
1
2
N
2
N
|
¹
|

\
|
+ |
¹
|

\
|
+
= = , en caso de que N (o n) sea par.
Ejemplo:

Consideremos el consumo mensual de agua en m
3
, por una fábrica de confecciones “La Hilacha”.
Enero (x
1
) = 10, Mayo (x
5
) = 14, Septiembre (x
9
) = 18
Febrero (x
2
) = 12, Junio (x
6
) = 19, Octubre (x
10
) = 22
Marzo (x
3
) = 15, Julio (x
7
) = 17, Noviembre (x
11
) = 15
Abril (x
4
) = 18, Agosto (x
8
) = 18, Diciembre (x
12
) = 13
Hallar la mediana.

Solución:

En primer lugar, tenemos doce (12) datos, un número PAR.
Ordenando ascendentemente los datos tenemos:
x
(1)
= 10, x
(2)
= 12, x
(3)
= 13, x
(4)
= 14, x
(5)
= 15, x
(6)
= 15,
x
(7)
= 17, x
(8)
= 18, x
(9)
= 18, x
(10)
= 18, x
(11)
= 19, x
(12)
= 22.
Una vez ordenados los datos, determinamos el valor de la variable que se encuentra en la posición central
de los datos, es decir:

( ) ( ) ( ) ( )
16
2
32
2
7 1 15
2
x x
2
x x
2
x x
Me
7 6 1 6 6
1
2
12
2
12
= =
+
=
+
=
+
=
+
=
+
|
¹
|

\
|
+ |
¹
|

\
|


De esta manera, tenemos que el 50% de los meses la empresa tuvo un consumo de agua menor a 16 m
3
,
mientras en el restante 50% de los meses el consumo supero esta cifra.
Como se puede observar, en este caso la mediana no es un dato perteneciente a la información recogida,
sin embargo, es un parámetro que divide la información dejando el 50% por encima y el 50% por debajo
de ella, esto es:



Mediana para datos agrupados - Variable Discreta
En el caso de variables discretas donde cada categoría es el valor de la variable, se puede tomar como un
caso de intervalo de amplitud 1 y en este caso el cálculo de la mediana funciona exactamente como lo visto
para datos sin agrupar; sin embargo, existe un par de reglas prácticas basadas en las frecuencias absolutas
que pueden ser de utilidad:
a. Cuando N
j-1
<
2
n
y N
j
>
2
n
, entonces M
e
= x
j
.
b. Cuando N
j-1
=
2
n
, entonces M
e
=
2
x x
j 1 - j
+
.
A continuación se presentará un par de ejemplos, casos típicos, donde se trabaja con datos agrupados para
variables discretas.
Ejemplo Caso a:
Consideremos la siguiente distribución de frecuencias para una variable cualquiera, hallar la mediana.

Solución:


Página 53 de 175

X
i
n
i
N
i

0 2 2
1 3 5 N
j-1

2 6 11 N
j

3 5 16
4 4 20
20

Para este caso, tenemos un número par de datos, de acuerdo a lo planteado para el caso de datos sin agrupar,
la mediana tomaría el valor del promedio de los dos valores centrales, esto es, los valores que se encuentren
en la posición 10 y 11; por tanto, la mediana para este caso es igual a 2. Comprobemos lo anterior con la
fórmula presentada:
Tenemos que 10
2
20
2
n
= = , además N
j-1
<
2
n
es decir, 5<10 y N
j
>
2
n
o sea 11>10, por tanto,
M
e
= x
j
= 2.
Ejemplo Caso b:
Consideremos la anterior distribución de frecuencias con un leve cambio, hallar la mediana.

X
i
n
i
N
i

0 2 2
1 3 5
x
j-1
2 5 10 N
j-1

x
j
3 6 16 N
j

4 4 20
20
Solución:
Tenemos que 10
2
20
2
n
= = , además N
j-1
=
2
n
es decir, N
3
=10=
2
n
, por tanto
5 , 2
2
5

2
3 2

2
x x
Me
j 1 - j
= =
+
=
+
=
Podemos comprobar el resultado anterior, transformando la distribución de frecuencias en una variable cuyos
datos no estén agrupados,
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
xi 0 0 1 1 1 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4

5 , 2
2
5

2
3 2
Me = =
+
=




Página 54 de 175

Mediana para datos agrupados - Variable Continua

Cuando trabajamos con variables agrupadas por intervalos es imposible determinar con precisión los valores
que toman los datos, ya que esa información se ha perdido en privilegio del agrupamiento interval. Por lo tanto,
en este caso, debemos buscar otro método para determinar el valor de la mediana. Consideremos como
Ij
x al
límite inferior del j-ésimo intervalo, de manera análoga como
Sj
x al límite superior del j-ésimo intervalo.

Para la variable continua también se tienen dos casos, como se verá a continuación:

a. Cuando N
j-1
=
2
n
, entonces Me =
1 - Sj
x .
b. Cuando N
j-1
<
2
n
y N
j
>
2
n
, se puede calcular la mediana empleando las frecuencias absolutas mediante
la siguiente fórmula
A
n
N
2
n

LI Me
j
1 - j
|
|
|
|
¹
|

\
|

+ = ,
donde,

LI: Límite Inferior del intervalo mediano, es decir, el intervalo donde se encuentra la
mediana, el cual se determina observando en que intervalo se encuentra la posición
2
n
.
n: Número de observaciones.
N
j-1
: Frecuencia absoluta acumulada anterior al intervalo mediano.
n
j
: Frecuencia absoluta del intervalo mediano.
A: Amplitud del intervalo.


Ó con base en las frecuencias relativas mediante la siguiente fórmula

A
f
F 0,5
LI Me
j
1 - j
|
|
¹
|

\
| −
+ = ,
Donde:

LI: Límite Inferior del intervalo mediano, es decir, el intervalo donde se encuentra la
mediana, el cual se determina observando en que intervalo se encuentra la posición
2
n
.
n: Número de observaciones.
F
j-1
: Frecuencia relativa acumulada anterior al intervalo mediano.
f
j
: Frecuencia relativa del intervalo mediano.
A: Amplitud del intervalo.


Ejemplo Caso a

Consideremos la siguiente distribución de frecuencias, hallar la mediana.


Página 55 de 175

X
i-1
– X
i
n
i
N
i

2 – 6 2 2
6 – 10 3 5
10 – 14  x
Sj
5 10  N
j-1

14 – 18 6 16  N
j

18 – 22 4 20
20 -

Solución:
Tenemos que 10
2
20
2
n
= = , además N
j-1
=
2
n
es decir, N
3
=10=
2
n
, por tanto
M
e
= x
Sj
= x
S3
= 14.

Ejemplo Caso b
Consideremos la anterior distribución de frecuencias con un leve cambio, hallar la mediana.
X
i-1
– X
i
n
i
N
i

2 – 6 2 2
6 – 10 3 5  N
j-1

10 – 14  x
Sj
6 n
j

11  N
j
Intervalo
Mediano
14 – 18 5 16
18 – 22 4 20
20 -
Tenemos que 10
2
20
2
n
= = , además N
j-1
= N
2
= 5 <
2
n
=10; y N
j
= N
3
= 11 >
2
n
=10, por tanto:
13,33 Me
,33 3 10
) 4 (
6
5
10
) 4 (
6
5 10
10
) 10 14 (
6
5
2
20

10
A
n
N
2
n

LI Me
j
1 - j
=
+ =
|
¹
|

\
|
+ =
|
¹
|

\
| −
+ =

|
|
|
|
¹
|

\
|

+ =
|
|
|
|
¹
|

\
|

+ =




Página 56 de 175

La Moda
La moda, o valor modal, como su nombre lo indica, es el valor más común, es el valor de la variable que más
se repite; es decir, aquel valor de la variable (que puede no ser un único valor) que observa con mayor
frecuencia dentro de una distribución. Un conjunto de datos puede tener una sola moda, en este caso se suele
llamar distribución unimodal, si tiene dos modas se denomina bimodal, o varias modas y llamarse multimodal.
Sin embargo puede ocurrir que la distribución no posea moda.

Cálculo para datos sin agrupar
En los datos sin agrupar o en los datos agrupados para variables discretas donde cada clase es un valor
diferente de la variable, basta una simple inspección ocular.
Ejemplo
Consideremos los siguientes datos: 5, 10, 8, 5, 10, 18, 5, 12, 5, 12. Hallar la moda.

Solución:
Para este conjunto de datos, el valor que mas se repite es 5, por tanto este valor representa la moda, esto es:
Mo = 5.
Cálculo para datos agrupados
Se debe utilizar de preferencia cuando la amplitud de los intervalos es constante, para ello podemos observar y
comprender su cálculo así:
Variable Discreta
Consideremos el ejemplo de los salarios de 50 operarias de cierta fábrica en particular, presentado en la
siguiente tabla:


Página 57 de 175

Miles de
Pesos/Día
X
i

n
i

50 1
51 3
52 5
53 9
54 12
55 10
56 5
57 3
58 2
50
El valor que presenta mayor frecuencia es 54 con una repetición de 12 personas con el mismo salario, de esta
manera, afirmamos que el salario más común dentro de la fábrica es de $54.000 diarios.
Consideremos el ejemplo del fumador, cuyos datos se encuentran resumidos a continuación:
Cantidad
(X
i
)
Frecuencia
(f
i
)
18 1
19 2
20 1
21 2
22 1
Total 7
Observamos que los valores de mayor frecuencia corresponden a 19 y 21, por tanto, se trata de una
distribución bi-modal con Mo
1
= 19 y Mo
2
= 21.
Variable Continua
Existen diversas fórmulas para la estimación del valor modal cuando de una variable continua se refiere; sin
embargo, tomaremos como valor modal la marca de clase del respectivo intervalo modal. Cabe mencionar que
por intervalo modal entenderemos aquel intervalo que presenta la mayor frecuencia observada.
Sin embargo, presentaremos las fórmulas que se pueden encontrar en los diversos textos para su debido
conocimiento y aplicación
Cálculo a partir de la frecuencia relativa


Página 58 de 175

A
f f 2f
f f
LI Mo
1 m 1 - m m
1 - m m
|
|
¹
|

\
|
− −

+ =
+

Donde,
Mo: Moda
LI: Límite inferior del intervalo modal
f
m
: Frecuencia relativa del intervalo modal (clase modal)
f
m-1
: Frecuencia relativa del intervalo pre-modal (clase pre-modal)
f
m+1
: Frecuencia relativa del intervalo pos-modal (clase pos-modal)
A: Amplitud del intervalo modal.
La fórmula para estimar la moda a partir de la frecuencia absoluta es similar a la presentada anteriormente, tan
solo se trabaja con las frecuencias absolutas:
A
n n 2n
n n
LI Mo
1 m 1 - m m
1 - m m
|
|
¹
|

\
|
− −

+ =
+

Ejemplo
Consideremos el ejemplo de las 100 baldosas; cuyos datos se resumen a continuación, hallar la moda.
Kg/m
2

X
i

m
i
n
i

100 – 200 150 4
200 – 300 250 10
300 – 400 350 21 Clase premodal
400 – 500 450 33 Clase modal
500 – 600 550 18 Clase posmodal
600 – 700 650 9
700 – 800 750 5
100
Solución:
Observamos que el cuarto intervalo presenta la mayor cantidad de datos, por tanto, este intervalo se denomina
intervalo o clase modal. De esta manera, tenemos que el valor modal esta dado por:



2n
LI Mo
m

\
|
+ =
A pesar de que el valor 444,44 no es un dato real de la información, asumimos ese parámetro como el de
mayor ocurrencia.

Relación: Media - Mediana -
Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la media, la mediana o la
moda como medidas de tendencia central. Las distribuciones simétricas que sólo contienen una moda, siempre
tienen el mismo valor para la media, la mediana y la moda. En tales casos, no es necesario escoger la medida
de tendencia central, pues ya está hecha la selección.
Obviamente, si todas las observaciones estuvieran concentradas en un solo valor de la variable, media,
mediana y moda coincidirían en el mismo. Si las observaciones se fueran distribuyendo en forma simétrica, a la
izquierda y a la derecha de ese valor cen
En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda todavía se encuentra
en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la me
todavía más a la derecha de la moda y la mediana; es decir, en una distribución asimétrica a la derecha, la
media, es mayor que la mediana y que la moda, tal como lo presenta el siguiente gráfico
Página 59 de 175
444 00 1
18 1 2 2(33)
21 33
400 A
n n
n n
1 m 1 - m m
1 - m m
=
|
|
¹
|

\
|
− −

+ =
|
|
¹
|
− −

+
or 444,44 no es un dato real de la información, asumimos ese parámetro como el de
Moda
Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la media, la mediana o la
das de tendencia central. Las distribuciones simétricas que sólo contienen una moda, siempre
tienen el mismo valor para la media, la mediana y la moda. En tales casos, no es necesario escoger la medida
de tendencia central, pues ya está hecha la selección.
Obviamente, si todas las observaciones estuvieran concentradas en un solo valor de la variable, media,
mediana y moda coincidirían en el mismo. Si las observaciones se fueran distribuyendo en forma simétrica, a la
izquierda y a la derecha de ese valor central, media, mediana y modo seguirían coincidiendo.
En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda todavía se encuentra
en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la me
todavía más a la derecha de la moda y la mediana; es decir, en una distribución asimétrica a la derecha, la
media, es mayor que la mediana y que la moda, tal como lo presenta el siguiente gráfico
44 , 444

or 444,44 no es un dato real de la información, asumimos ese parámetro como el de
Cuando trabajamos un problema de estadística, debemos decidir si vamos a utilizar la media, la mediana o la
das de tendencia central. Las distribuciones simétricas que sólo contienen una moda, siempre
tienen el mismo valor para la media, la mediana y la moda. En tales casos, no es necesario escoger la medida
Obviamente, si todas las observaciones estuvieran concentradas en un solo valor de la variable, media,
mediana y moda coincidirían en el mismo. Si las observaciones se fueran distribuyendo en forma simétrica, a la
tral, media, mediana y modo seguirían coincidiendo.

En una distribución positivamente sesgada (es decir, sesgada hacia la derecha), la moda todavía se encuentra
en el punto más alto de la distribución, la mediana está hacia la derecha de la moda y la media se encuentra
todavía más a la derecha de la moda y la mediana; es decir, en una distribución asimétrica a la derecha, la
media, es mayor que la mediana y que la moda, tal como lo presenta el siguiente gráfico




Supongamos ahora que las observaciones de
observaciones de la parte derecha, generando una distribución asimétrica hacia la izquierda; en este caso
como la media es la suma de los valores de las observaciones dividido por la cantidad tota
su valor se correrá a la izquierda también y por el mismo motivo, la media será menor que la mediana y ambas
menor que la moda; es decir, en una distribución negativamente sesgada, la moda sigue siendo el punto más
alto de la distribución, la mediana está hacia la izquierda de ella y la media se encuentra todavía más a la
izquierda de la moda y la mediana.
Este corrimiento de la media se explica porque si tomamos un conjunto de datos cualquiera a los cuales
calculamos media, mediana y moda y agregamos un dato extremo y volvemos a calcular la media, la mediana
y la moda, veremos que la media puede variar notablemente, mientras que la mediana y la moda permanecen
idénticas. Esta no variación de la mediana y la moda reciben el nombre de ro
el orden –como la mediana- gozan de ésta en tanto que las medidas basadas en la suma
ven más afectadas por las observaciones extremas y son, por lo tanto, poco robustas.
Cuando la población está sesgada ne
medida de posición, debido a que siempre está entre la moda y la media. La mediana no se ve altamente
influida por la frecuencia de aparición de un solo valor como es el caso de la moda
presencia de valores extremos como la media.
Relación Empírica entre Media, Mediana y Moda
Para curvas de frecuencia unimodales que sean poco asimétricas tenemos la siguiente relación empírica
Media – Moda = 3(media- mediana).
CUANTILES: Cuartiles, Deciles y
Son medidas de localización similares a las anteriores, las cuales las denominamos medidas de tendencia
central, sin embargo, también pueden ser llamadas medidas de localización ya que, igual determinan
posiciones “centrales” de la información. Se les denomina
la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de
variables.
Podemos decir que los Cuantiles
número de partes de manera que en cada una de ellas hay el mismo de valores de la variable.
Las más importantes son:

CUARTILES, dividen a la distribución en cuatro partes iguales (tres divisi
25%, 50%, 75%.
Página 60 de 175
Supongamos ahora que las observaciones de la parte izquierda se alejan del valor central más que las
observaciones de la parte derecha, generando una distribución asimétrica hacia la izquierda; en este caso
como la media es la suma de los valores de las observaciones dividido por la cantidad tota
su valor se correrá a la izquierda también y por el mismo motivo, la media será menor que la mediana y ambas
menor que la moda; es decir, en una distribución negativamente sesgada, la moda sigue siendo el punto más
ón, la mediana está hacia la izquierda de ella y la media se encuentra todavía más a la


Este corrimiento de la media se explica porque si tomamos un conjunto de datos cualquiera a los cuales
moda y agregamos un dato extremo y volvemos a calcular la media, la mediana
y la moda, veremos que la media puede variar notablemente, mientras que la mediana y la moda permanecen
idénticas. Esta no variación de la mediana y la moda reciben el nombre de robustez. Las medidas basadas en
gozan de ésta en tanto que las medidas basadas en la suma
ven más afectadas por las observaciones extremas y son, por lo tanto, poco robustas.
Cuando la población está sesgada negativa o positivamente, con frecuencia la mediana resulta ser la mejor
medida de posición, debido a que siempre está entre la moda y la media. La mediana no se ve altamente
influida por la frecuencia de aparición de un solo valor como es el caso de la moda, ni se distorsiona con la
presencia de valores extremos como la media.
Relación Empírica entre Media, Mediana y Moda
Para curvas de frecuencia unimodales que sean poco asimétricas tenemos la siguiente relación empírica
mediana).
uartiles, Deciles y Percentiles
similares a las anteriores, las cuales las denominamos medidas de tendencia
central, sin embargo, también pueden ser llamadas medidas de localización ya que, igual determinan
“centrales” de la información. Se les denomina CUANTILES (Q). Su función es informar del valor de
la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de
son unas medidas de posición que dividen a la distribución en un cierto
número de partes de manera que en cada una de ellas hay el mismo de valores de la variable.
dividen a la distribución en cuatro partes iguales (tres divisiones): C
1
, C
2
, C
la parte izquierda se alejan del valor central más que las
observaciones de la parte derecha, generando una distribución asimétrica hacia la izquierda; en este caso
como la media es la suma de los valores de las observaciones dividido por la cantidad total de observaciones,
su valor se correrá a la izquierda también y por el mismo motivo, la media será menor que la mediana y ambas
menor que la moda; es decir, en una distribución negativamente sesgada, la moda sigue siendo el punto más
ón, la mediana está hacia la izquierda de ella y la media se encuentra todavía más a la
Este corrimiento de la media se explica porque si tomamos un conjunto de datos cualquiera a los cuales
moda y agregamos un dato extremo y volvemos a calcular la media, la mediana
y la moda, veremos que la media puede variar notablemente, mientras que la mediana y la moda permanecen
bustez. Las medidas basadas en
gozan de ésta en tanto que las medidas basadas en la suma –como la media- se

gativa o positivamente, con frecuencia la mediana resulta ser la mejor
medida de posición, debido a que siempre está entre la moda y la media. La mediana no se ve altamente
, ni se distorsiona con la
Para curvas de frecuencia unimodales que sean poco asimétricas tenemos la siguiente relación empírica
similares a las anteriores, las cuales las denominamos medidas de tendencia
central, sin embargo, también pueden ser llamadas medidas de localización ya que, igual determinan
. Su función es informar del valor de
la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de
medidas de posición que dividen a la distribución en un cierto
número de partes de manera que en cada una de ellas hay el mismo de valores de la variable.
, C
3
, correspondientes al


Página 61 de 175


DECILES, dividen a la distribución en 10 partes iguales (9 divisiones): D
1
,..., D
9
, correspondientes a
10%,...,90%.

PERCENTILES, cuando dividen a la distribución en 100 partes (99 divisiones): P
1
,..., P
99
, correspondientes a
1%,...,99%.
Existe un valor en cual coinciden los cuartiles, los deciles y percentiles esto es cuando son iguales a la
Mediana y así veremos
100
50
10
5
4
2
= == = = == =

Para su cálculo distinguiremos entre distribuciones agrupadas y enlistadas:

En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa:
Entonces tendremos que:

N
i-1
< (%).n < N
i
Q = x
i

En el supuesto que (%).n = Ni
2
1 + ++ +
+ ++ +
= == =
i i
x x
Q


Primero encontraremos el intervalo donde estará el cuantil:
Lugar N
i-1
< (%) n< N
i
Intervalo [L
i-1
, L
i
) , en este caso:
( )
i
i
i
n
N N
L Q
1
1
%



+ =
a
i
Ejemplo: DISTRIBUCIONES AGRUPADAS:
En la siguiente distribución
x
i
f
i
F
i

5 3 3
10 7 10
15 5 15
20 3 18
25 2 20
n = 20

Calcular la mediana (Me); el primer y tercer cuartil (C
1
, C
3
); el 4º decil (D
4
) y el 90 percentil (P
90
).

Mediana (Me)
Lugar que ocupa la mediana lugar 20/2 = 10.
Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos el cálculo:
5 , 12
2
15 10
2
1
= == =
+ ++ +
= == =
+ ++ +
= == =
+ ++ + i i
x x
Me

Primer cuartil (C
1
)
Lugar que ocupa en la distribución (¼). 20 = 20/4 = 5
Como N
i-1
< (25%).n < N
i
, es decir 3 < 5 < 10 esto implicara que C
1
= x
i
=10

Tercer cuartil (C
3
)
Lugar que ocupa en la distribución (3/4).20 = 60/4 = 15, que coincide con un valor de la frecuencia absoluta
acumulada, por tanto realizaremos el cálculo:



Página 62 de 175

5 , 17
2
20 15
2
1
3
= == =
+ ++ +
= == =
+ ++ +
= == =
− −− − i i
x x
C

Cuarto decil (D
4
)
Lugar que ocupa en la distribución (4/10).20 = 80/10 = 8.
Como N
i-1
< (%).n < N
i
ya que 3 < 8 < 10 por tanto D
4
=10.

Nonagésimo percentil (P
90
)
Lugar que ocupa en la distribución (90/100).20 = 1800/100 = 18, que coincide con un valor de la frecuencia
absoluta acumulada, por tanto realizaremos el cálculo:
5 , 22
2
25 20
2
1
90
= == =
+ ++ +
= == =
+ ++ +
= == =
− −− − i i
x x
P

Ejemplo:

DISTRIBUCIONES AGRUPADAS: Hallar el primer cuartil, el cuarto decil y el 90 percentil de la siguiente
distribución:

[L
i-1
, Li) f
i
F
i

[ 0 , 100) 90 90
[100 , 200) 140 230
[[200 , 300) 150 380
[300 , 800) 120 500
n = 500


Primer cuartil (C
4
)
Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 = 125.
Por tanto C
4
estará situado en el intervalo [100 – 200).
Aplicando la expresión directamente, tendremos:
125 100
140
90 125
100
4
= == =
− −− −
+ ++ + = == = C


Cuarto decil (D
4
)
Lugar que ocupa: (4/10).500 = 200.
Por tanto D
4
estará situado en el intervalo [100 – 200).
Aplicando la expresión tendremos:

57 , 178 100
140
90 200
100
4
= == =
− −− −
+ ++ + = == = D

Nonagésimo percentil (P
90
)
Lugar que ocupa: (90/100).500 = 450.
Por tanto P
90
estará situado en el intervalo [300 – 800).
Aplicando la expresión tendremos:

67 , 591 500
120
70
300 500
120
380 450
300
90
= == = + ++ + = == =
− −− −
+ ++ + = == = P




Página 63 de 175


Lección 8: Medidas de dispersión:

Como se mencionó anteriormente, las medidas de tendencia central tienen como objetivo sintetizar los datos
en un valor representativo; como complemento, las medidas de dispersión nos dicen hasta que punto estas
medidas de tendencia central son representativas como síntesis de la información; de esta manera, las
medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución
respecto al valor central como la media aritmética. Cuanto menor es la dispersión, tanto mayor será la precisión
del sistema de medición. Si los estadígrafos de posición se relacionan con el concepto de exactitud, los de
dispersión se relacionan con la precisión de las técnicas.

La dispersión es importante porque:

• Proporciona información adicional que permite juzgar la confiabilidad de la medida de tendencia central. Si
los datos se encuentran ampliamente dispersos, la posición central es menos representativa de los datos.

• Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser capaces de
identificarlos antes de abordar esos problemas.

• Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una amplia
dispersión de valores con respecto al centro de distribución o esto presenta riesgos inaceptables,
necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones que tengan las dispersiones
más grandes.

Ya que la dispersión ocurre frecuentemente y su grado de variabilidad es importante, ¿cómo medimos la
variabilidad de una distribución empírica? Vamos a considerar sólo algunas medidas de dispersión: el rango, el
rango inter-cuartílico, la varianza, la desviación estándar y el coeficiente de variación.


EL RANGO O RECORRIDO ( R ):
Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la
diferencia entre el máximo valor (X
n
ó X
Max
) y el mínimo (X
1
ó X
Min
) en un conjunto de datos, de manera más
formal:

R = X
Máx
– X
Mín
= X
n
- X
1

Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de 1er año, a saber: 18,23, 27,34 y 25., para calcular
el rango o recorrido de la variable, se tiene que:

R = X
n
– X
1
= 34 – 18 = 16 años

Rango para datos agrupados
Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos
podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el rango tomando el límite
superior de la última clase menos el límite inferior de la primera clase, de manera más formal:

R= (lim. Sup. de la clase n – lim. Inf. de la clase 1)

Ejemplo:

Dada la siguiente distribución de frecuencia, determinar el rango o recorrido:



Clases
7,420 – 21,835
21,835 – 36,250
36,250 – 50,665
50,665 – 65,080
65,080 – 79,495
79,495 – 93,910
Total

Solución:

El rango de la distribución de frecuencias se calcula así:

R = (lim. Sup. de la clase n – lim. Inf. De la clase 1)

= (93.910 – 7.420) = 86.49


Propiedades del Rango o Recorrido:

• El recorrido es la medida de dispersión más sencilla de calcular e interpretar pu
distancia entre los valores extremos (máximo y mínimo) en una distribución.
• Puesto que el recorrido se basa en los valores extremos, éste tiende a ser errático. No es extraño que en
una distribución de datos económicos o comercia
grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersión con respecto a esos
valores anormales, ignorando a los demás valores de la variable.
• La principal desventaja del recorrido es que sólo esta influenciado por los valores extremos, puesto que no
cuenta con los demás valores de la variable. Por tal razón, siempre existe el peligro de que el recorrido
ofrezca una descripción distorsionada de la dispersión.
• En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a utilizarse no la
distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor de importancia.

RANGO INTERCUARTÍLICO:
Teniendo en cuenta la principal desventaja del
rango intercuartílico, denotado por RI, su cálculo se limita a la diferencia entre el tercer y el primer cuartil, es
decir
Página 64 de 175
P.M.
m
i

n
i
fi Ni Fi
21,835 14,628 10 0,33 10 0,33
36,250 29,043 4 0,13 14 0,46
50,665 43,458 5 0,17 19 0,63
65,080 57,873 3 0,10 22 0,73
79,495 72,288 3 0,10 25 0,83
93,910 86,703 5 0,17 30 1,00
30 1,00
distribución de frecuencias se calcula así:
lim. Inf. De la clase 1)
Propiedades del Rango o Recorrido:
El recorrido es la medida de dispersión más sencilla de calcular e interpretar puesto que simplemente es la
distancia entre los valores extremos (máximo y mínimo) en una distribución.
Puesto que el recorrido se basa en los valores extremos, éste tiende a ser errático. No es extraño que en
una distribución de datos económicos o comerciales incluya a unos pocos valores en extremo pequeños o
grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersión con respecto a esos
valores anormales, ignorando a los demás valores de la variable.
orrido es que sólo esta influenciado por los valores extremos, puesto que no
cuenta con los demás valores de la variable. Por tal razón, siempre existe el peligro de que el recorrido
ofrezca una descripción distorsionada de la dispersión.
la calidad se hace un uso extenso del recorrido cuando la distribución a utilizarse no la
distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor de importancia.
RANGO INTERCUARTÍLICO:
Teniendo en cuenta la principal desventaja del rango (toma en cuenta solo los valores extremos), surge el
rango intercuartílico, denotado por RI, su cálculo se limita a la diferencia entre el tercer y el primer cuartil, es

esto que simplemente es la
Puesto que el recorrido se basa en los valores extremos, éste tiende a ser errático. No es extraño que en
les incluya a unos pocos valores en extremo pequeños o
grandes. Cuando tal cosa sucede, entonces el recorrido solamente mide la dispersión con respecto a esos
orrido es que sólo esta influenciado por los valores extremos, puesto que no
cuenta con los demás valores de la variable. Por tal razón, siempre existe el peligro de que el recorrido
la calidad se hace un uso extenso del recorrido cuando la distribución a utilizarse no la
distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un factor de importancia.
rango (toma en cuenta solo los valores extremos), surge el
rango intercuartílico, denotado por RI, su cálculo se limita a la diferencia entre el tercer y el primer cuartil, es



Esto nos dice en cuántas unidades de los valores que toma la variable s
central de los casos.
VARIANZA
Se representa por S
2
. Se define como el promedio de las desviaciones de los datos entre si.
cuadrados de los desvíos de la totalidad de las observaciones, respecto de la medi
distribución, es menor que la suma de los cuadrados de los desvíos respecto de cualquier otro valor que no sea
la media aritmética.
Si observamos, veremos que la varianza no es más que el desvío estándar al cuadrado. Precisamente la
manera de simbolizarla es S
2
.
ݏ

=
1
݊
෍ሺݔ

−ݔ̅ ሻ


௜ୀଵ

Propiedades de la varianza:
• Es siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 so
• La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
• Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:
• Si a X
i
le sumamos una constante X
• Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el
cuadrado de dicha constante. Veámoslo:
Si a xi’ = xi · k tendremos (sabiendo que
• Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la distribución inicial se
relaciona con la varianza de cada uno de los subconjuntos mediante la expresión

Siendo
Ni el nº de elementos del subconjunto (i)
Página 65 de 175
Esto nos dice en cuántas unidades de los valores que toma la variable se concentra el cincuenta por ciento
Se define como el promedio de las desviaciones de los datos entre si.
cuadrados de los desvíos de la totalidad de las observaciones, respecto de la medi
distribución, es menor que la suma de los cuadrados de los desvíos respecto de cualquier otro valor que no sea
Si observamos, veremos que la varianza no es más que el desvío estándar al cuadrado. Precisamente la
no negativo, que puede ser igual o distinta de 0. Será 0 solamente cuando X
La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:

tante X
i
’ = X
i
+ K. tendremos (sabiendo que )
Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el
cuadrado de dicha constante. Veámoslo:
Si a xi’ = xi · k tendremos (sabiendo que )


distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la distribución inicial se
relaciona con la varianza de cada uno de los subconjuntos mediante la expresión
Ni el nº de elementos del subconjunto (i)
e concentra el cincuenta por ciento
Se define como el promedio de las desviaciones de los datos entre si. La suma de los
cuadrados de los desvíos de la totalidad de las observaciones, respecto de la media aritmética de la
distribución, es menor que la suma de los cuadrados de los desvíos respecto de cualquier otro valor que no sea
Si observamos, veremos que la varianza no es más que el desvío estándar al cuadrado. Precisamente la
lamente cuando X
i
= X

Si a todos los valores de la variable se le suma una constante la varianza no se modifica. Veámoslo:

Si todos los valores de la variable se multiplican por una constante la varianza queda multiplicada por el

distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la distribución inicial se




2
i
S
la varianza del subconjunto (i)
LA DESVIACIÓN ESTÁNDAR
También recibe el nombre de desviación tipo o desvío típico. Es posible identificar conjuntos de datos que a
pesar de ser muy distintos en términos de valores absolutos, poseen la misma media. Una
para identificar esos conjuntos de datos es la concentración o dispersión alrededor de la media.
• Desviación estándar para datos sin agrupar
Una manera que aparece como muy natural para construir una medida de dispersión sería promediar
desviaciones de la media, pero como vimos
Una manera de evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que
todas las desviaciones sean positivas. La raíz cuadrada del promedio de estas cantidades recibe el
nombre de desviación estándar
ݏ = ට


∑ ሺݔ

−ݔ̅ ሻ

௜ୀଵ
La desviación estándar sólo puede utilizarse en el caso de que las observaciones se hayan medido con
escalas de intervalos o razones.
A mayor valor de la desviación estándar, mayor dispersión de los datos con respecto a su media. Es un
valor que representa los promedios de todas las diferencias individuales de las observaciones respecto
a un punto de referencia común, que
valor es más pequeño, las diferencias de los valores respecto a la media, es decir, los desvíos, son
menores y, por lo tanto, el grupo de observaciones es más “homogéneo” que si el valor de la
desviación estándar fuera más grande. O sea que a menor dispersión mayor homogeneidad y a mayor
dispersión, menor homogeneidad.
• Desviación estándar para datos agrupados
1. Cálculo usando las frecuencias absolutas
2. Cálculo usando las frecuencias relativas
Página 66 de 175

LA DESVIACIÓN ESTÁNDAR
También recibe el nombre de desviación tipo o desvío típico. Es posible identificar conjuntos de datos que a
pesar de ser muy distintos en términos de valores absolutos, poseen la misma media. Una
para identificar esos conjuntos de datos es la concentración o dispersión alrededor de la media.
Desviación estándar para datos sin agrupar
Una manera que aparece como muy natural para construir una medida de dispersión sería promediar
desviaciones de la media, pero como vimos
Una manera de evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que
todas las desviaciones sean positivas. La raíz cuadrada del promedio de estas cantidades recibe el
desviación estándar, o desviación típica y es representada por la siguiente fórmula:
̅ ሻ


La desviación estándar sólo puede utilizarse en el caso de que las observaciones se hayan medido con
los o razones.
A mayor valor de la desviación estándar, mayor dispersión de los datos con respecto a su media. Es un
valor que representa los promedios de todas las diferencias individuales de las observaciones respecto
a un punto de referencia común, que es la media aritmética. Se entiende entonces que cuando este
valor es más pequeño, las diferencias de los valores respecto a la media, es decir, los desvíos, son
menores y, por lo tanto, el grupo de observaciones es más “homogéneo” que si el valor de la
esviación estándar fuera más grande. O sea que a menor dispersión mayor homogeneidad y a mayor
dispersión, menor homogeneidad.
Desviación estándar para datos agrupados
Cálculo usando las frecuencias absolutas

Cálculo usando las frecuencias relativas
También recibe el nombre de desviación tipo o desvío típico. Es posible identificar conjuntos de datos que a
pesar de ser muy distintos en términos de valores absolutos, poseen la misma media. Una medida diferencial
para identificar esos conjuntos de datos es la concentración o dispersión alrededor de la media.
Una manera que aparece como muy natural para construir una medida de dispersión sería promediar las

Una manera de evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que
todas las desviaciones sean positivas. La raíz cuadrada del promedio de estas cantidades recibe el
, o desviación típica y es representada por la siguiente fórmula:
La desviación estándar sólo puede utilizarse en el caso de que las observaciones se hayan medido con
A mayor valor de la desviación estándar, mayor dispersión de los datos con respecto a su media. Es un
valor que representa los promedios de todas las diferencias individuales de las observaciones respecto
es la media aritmética. Se entiende entonces que cuando este
valor es más pequeño, las diferencias de los valores respecto a la media, es decir, los desvíos, son
menores y, por lo tanto, el grupo de observaciones es más “homogéneo” que si el valor de la
esviación estándar fuera más grande. O sea que a menor dispersión mayor homogeneidad y a mayor




Propiedades de la Desviación Estándar
• La desviación estándar es siempre un valor no negativo.
• Es la medida de dispersión óptima por ser la más pequeña.
• La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable.
• Si a todos los valores de la variable se le suma una misma constante la desviación estándar no varía.
• Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar
queda multiplicada por el valor absoluto de dicha constante.

EL COEFICIENTE DE VARIACIÓN:
Para comparar la dispersión de variables que aparecen en unidades diferentes (metros, kilos, etc.) o que
corresponden a poblaciones extremadamente desiguales, es necesario disponer de una medida de variabilidad
que no dependa de las unidades o del tamaño de los datos. Este coeficiente únicamente sirve para comparar
las dispersiones de variables correspondientes a escalas de razón.
Una manera de construir una medida de variabilidad que cumpla los requisitos anteriores es el l
coeficiente de variación:
(Las barras del denominador representan el valor absoluto, es decir, indican que debe prescindirse de la unidad
de medida de la media). A menor coeficiente de variación consideraremos que la distribución de la variable
medida es más homogénea.

PUNTAJE ESTANDARIZADO:
Cuando se tiene una distribución simétrica, su polígono de frecuencias revelará una forma de campana muy
común en estadística. Esta curva es llamada
En ella la media aritmética se localiza en la mitad de la distribución. En el eje horizontal se ubican los valores
que toma la variable y en el vertical la frecuencia absoluta o relativa. El área bajo la curva tendrá un valor del
100%

Página 67 de 175

Propiedades de la Desviación Estándar
La desviación estándar es siempre un valor no negativo.
Es la medida de dispersión óptima por ser la más pequeña.
La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable.
dos los valores de la variable se le suma una misma constante la desviación estándar no varía.
Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar
queda multiplicada por el valor absoluto de dicha constante.
EL COEFICIENTE DE VARIACIÓN:
Para comparar la dispersión de variables que aparecen en unidades diferentes (metros, kilos, etc.) o que
corresponden a poblaciones extremadamente desiguales, es necesario disponer de una medida de variabilidad
a de las unidades o del tamaño de los datos. Este coeficiente únicamente sirve para comparar
las dispersiones de variables correspondientes a escalas de razón.
Una manera de construir una medida de variabilidad que cumpla los requisitos anteriores es el l

(Las barras del denominador representan el valor absoluto, es decir, indican que debe prescindirse de la unidad
de medida de la media). A menor coeficiente de variación consideraremos que la distribución de la variable
PUNTAJE ESTANDARIZADO:
Cuando se tiene una distribución simétrica, su polígono de frecuencias revelará una forma de campana muy
común en estadística. Esta curva es llamada curva normal, de error, de probabilidad
En ella la media aritmética se localiza en la mitad de la distribución. En el eje horizontal se ubican los valores
que toma la variable y en el vertical la frecuencia absoluta o relativa. El área bajo la curva tendrá un valor del
La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable.
dos los valores de la variable se le suma una misma constante la desviación estándar no varía.
Si a todos los valores de la variable se multiplican por una misma constante, la desviación estándar
Para comparar la dispersión de variables que aparecen en unidades diferentes (metros, kilos, etc.) o que
corresponden a poblaciones extremadamente desiguales, es necesario disponer de una medida de variabilidad
a de las unidades o del tamaño de los datos. Este coeficiente únicamente sirve para comparar
Una manera de construir una medida de variabilidad que cumpla los requisitos anteriores es el llamado
(Las barras del denominador representan el valor absoluto, es decir, indican que debe prescindirse de la unidad
de medida de la media). A menor coeficiente de variación consideraremos que la distribución de la variable
Cuando se tiene una distribución simétrica, su polígono de frecuencias revelará una forma de campana muy
de probabilidad o campana de Gauss.
En ella la media aritmética se localiza en la mitad de la distribución. En el eje horizontal se ubican los valores
que toma la variable y en el vertical la frecuencia absoluta o relativa. El área bajo la curva tendrá un valor del



Figura:


El puntaje típico o estandarizado
variable estadística en este tipo de distribución, denominada
mide la desviación de una observación con respecto a la media aritmética, en unidades de desviación estándar,
determinándose así la posición relativa de una observación dentro del conjunto de datos. Por lo general se
simboliza por Z.
s
x X
Z

=

Por ser adimensional, el puntaje
distintas unidades de medida, así como diferentes medias y desviaciones estándar.

Propiedades:
1. 0 =
z
µ
2. 1
2
= z σ

Ejemplo:

Al terminar el segundo semestre de laño 2010, un grupo de 150 estudiantes de primer semestre de Ingeniería
de un CEAD, obtuvieron los siguientes resultados en el puntaje final de los cursos Lógica Matemática y
Estadística Descriptiva:

• Lógica Matemática: puntuación media de 3.9 y varianza 3.2.
• Estadística Descriptiva: puntuación media de 3.7 y desviación estándar 1.7.

a. ¿En cuál curso hubo mayor dispersión absoluta
b. Si un estudiante obtuvo como nota final en Lógica
cuál curso fue su puntuación relativa superior?

Solución:

a. Para determinar la dispersión absoluta:
Lógica Matemática: 2 . 3
2
= s
Estadística Descriptiva: 7 , 1 = s

Se tiene entonces que en Lógica Matemática hubo una mayor dispersión absoluta que en Estadística
Descriptiva.

Página 68 de 175
Figura: Curva normal o campana de Gauss

o variable normalizada, es una medida de dispersión muy utilizada como
variable estadística en este tipo de distribución, denominada distribución normal. El puntaje estandarizado
ón de una observación con respecto a la media aritmética, en unidades de desviación estándar,
determinándose así la posición relativa de una observación dentro del conjunto de datos. Por lo general se
, el puntaje Z es útil para comparar datos individuales de distribuciones que tienen
distintas unidades de medida, así como diferentes medias y desviaciones estándar.
erminar el segundo semestre de laño 2010, un grupo de 150 estudiantes de primer semestre de Ingeniería
de un CEAD, obtuvieron los siguientes resultados en el puntaje final de los cursos Lógica Matemática y
ación media de 3.9 y varianza 3.2.
Estadística Descriptiva: puntuación media de 3.7 y desviación estándar 1.7.
dispersión absoluta? ¿En cuál hubo mayor dispersión relativa
Si un estudiante obtuvo como nota final en Lógica Matemática 3.8 y en Estadística Descriptiva 3.5. ¿En
cuál curso fue su puntuación relativa superior?
Para determinar la dispersión absoluta:
79 . 1 2 . 3 = = → s
iene entonces que en Lógica Matemática hubo una mayor dispersión absoluta que en Estadística

, es una medida de dispersión muy utilizada como
. El puntaje estandarizado
ón de una observación con respecto a la media aritmética, en unidades de desviación estándar,
determinándose así la posición relativa de una observación dentro del conjunto de datos. Por lo general se
es útil para comparar datos individuales de distribuciones que tienen
erminar el segundo semestre de laño 2010, un grupo de 150 estudiantes de primer semestre de Ingeniería
de un CEAD, obtuvieron los siguientes resultados en el puntaje final de los cursos Lógica Matemática y
dispersión relativa?
Matemática 3.8 y en Estadística Descriptiva 3.5. ¿En
iene entonces que en Lógica Matemática hubo una mayor dispersión absoluta que en Estadística


Página 69 de 175

Para la dispersión Relativa:
Lógica Matemática: % 9 . 45 100
9 . 3
79 . 1
= × = CV
Estadística Descriptiva: % 46 100
7 . 3
7 . 1
= × = CV
En Estadística Descriptiva hubo una mayor dispersión relativa 46% > 45.9%


b. Para el cálculo de la puntuación relativa, se hace uso del puntaje estandarizado. Es decir, se requiere
estandarizar las calificaciones convirtiéndolas en puntuaciones Z.
Lógica Matemática: 06 . 0
79 . 1
9 . 3 8 . 3
− =

=

=
s
x x
Z
Estadística descriptiva: 12 . 0
7 . 1
7 . 3 5 . 3
− =

=

=
s
x x
Z

Estos valores de puntuación Z negativos indican que ambas calificaciones se encuentran por debajo de la
media. Este es un principio del puntaje estandarizado: Siempre que un valor sea menor que la media, su
puntuación Z correspondiente será negativa.

Estos resultados afirman entonces que el estudiante con calificaciones de 3.8 en Lógica Matemática y 3.5 en
Estadística Descriptiva, está por debajo del promedio del grupo en ambos cursos.

Dado que -0.06 se encuentra más cera a 0 (la media de la variable estandarizada), se dice que la puntuación
relativa del estudiante fue superior en Lógica Matemática.

Lección 9: Medidas de forma.

Después de conocer cómo varía un grupo de datos respecto a su media e identificar otras medidas de
variación, a continuación se estudiará algunos aspectos sobre la forma de las curvas que presentan los datos.

ASIMETRÍA: La primera característica que se estudia es el coeficiente de asimetría, el cual mide el grado de
simetría en la distribución de los datos, ya que conocer la distribución de los datos, permite tomar ciertos
caminos para el análisis de los mismos.

Si un conjunto de datos tiene distribución simétrica es porque se cumple: Mo Me x = =

En las distribuciones asimétricas la media se corre en el sentido del alargamiento o sesgo por efecto de las
frecuencias y de los valores extremos de la variable; la mediana también se corre pero menos que la media ya
que en ella sólo influyen las frecuencias; en tanto que la moda no es influenciada ni por las frecuencias ni por
los valores extremos. Una distribución es asimétrica positiva cuando presenta un alargamiento o sesgo a la
derecha: x Me Mo < < Una distribución será asimétrica negativa cuando presenta un alargamiento o
sesgo a la izquierda: Mo Me x < <

Las asimetrías positivas son las más frecuentes que las sesgadas hacia la izquierda, porque con frecuencia es
más fácil obtener valores excepcionalmente grandes que valores excepcionalmente pequeños. Ejemplo de ello
es la distribución de valores en los consumos de servicios públicos, las calificaciones en pruebas, los sueldos,
etc.

Se reconocen, entre otras, las siguientes medidas para calcular el grado de la asimetría:



Página 70 de 175

• Coeficiente de Pearson. Asimetría en función de la media y la moda. Varía entre ±3 y es 0 en la
distribución normal.

s
Me x
As
s
Mo x
As
) ( 3 − ⋅
= ⇔

=

• Media cuartil de asimetría o media de Bowley. Varía entre ±1 y es 0 en la distribución normal.

1 3
2 3 1
2
Q Q
Q Q Q
As

− +
=

Si 0 = As la distribución es simétrica.
Si 0 > As la distribución es asimétrica positiva.
Si 0 < As la distribución es asimétrica negativa.


APUNTAMIENTO O CURTOSIS: Las curvas de distribución, comparadas con la curva de distribución normal,
pueden presentar diferentes grados de apuntamiento o altura de la cima de la curva. Esta agudeza en la cima
se observa en la moda. Si la curva es más plana que la normal se dice que la curva es platicúrtica; si es más
aguda que la normal, recibe el nombre de apuntada o leptocúrtica. Si la distribución es normal, la curva se
conoce también como mesocúrtica.
La curtosis es la medida de la altura de la curva y está dada por:
4
4
s n
f Z
Ap
i i


=


Si 3 = Ap la distribución es normal o mesocúrtica.
Si 3 > Ap la distribución es apuntada o leptocúrtica.
Si 3 < Ap la distribución es achatada o platicúrtica.
Otra medida de curtosis que se emplea está basada en el rango semiintercuartílico y los percentiles 10 y 9:
) ( 2
10 90
1 3
10 90
2
P P
Q Q
P P
Q
Ap
D


=

=


En el siguiente ejemplo se puede comprender de una manera práctica, la forma de calcular éste tipo de
medidas.

Ejemplo:

El coordinador académico del programa de Administración de Empresas, desea conocer el rendimiento
académico de los estudiantes de primer semestre en el 2010, en los cursos de Lógica Matemática,
Competencias Comunicativas, Cultura Política, Estadística Descriptiva y Herramientas Informáticas. Para esto
selecciona una muestra de 55 estudiantes de los distintos programas que se ofrecen en el CEAD. La siguiente
tabla, arroja los resultados de la investigación realizada por el funcionario.

Tabla: Distribución de frecuencias de las calificaciones de primer semestre

Calificación
Lógica
Matemática
Competencias
Comunicativas
Cultura
Política
Estadística
Descriptiva
Herramientas
Informáticas
0,0 1 3 2 1 1
0,5 4 3 2 1 2
1,0 7 5 3 2 3
1,5 9 6 4 4 7


Página 71 de 175

2,0 9 7 6 11 9
2,5 8 7 8 14 11
3,0 6 7 9 12 9
3,5 4 6 9 6 7
4,0 3 5 7 3 3
4,5 2 3 4 1 2
5,0 2 3 1 0 1
Total 55 55 55 55 55


En la tabla siguiente se reporta un resumen de las medidas estadísticas por cada uno de los cursos.

Medida
Lógica
Matemática
Competencias
Comunicativas
Cultura
Política
Estadística
Descriptiva
Herramientas
Informáticas
x 2.25 2.5 2.75 2.53 2.5
Me 2.0 2.5 3.0 2.5 2.5
Mo 1.5 y 2.0 2.0, 2.5 y 3.0 3.0 y 3.5 2.5 2.5
2
s 1.45 1.84 1.45 0.76 1.12
s 1.20 1.36 1.20 0.87 1.06
1
Q
1.5 1.5 2.0 2.0 2.0
2
Q
2.0 2.5 3.0 2.5 2.5
3
Q
3.0 3.5 3.5 3.0 3.4

Calcular la simetría y la curtosis.

Solución:

a-) Asimetría:

Para Lógica Matemática: Se observa que x Me Mo < < , lo que indica que la distribución tiene asimétrica
positiva. Para confirmarlo se hace uso del coeficiente de Pearson y la media de Bowley: En este caso se
trabajará con la media de Bowley, pues la distribución tiene dos modas y no permite un resultado seguro con el
coeficiente de Pearson.

0 33 . 0
5 . 1 3
) 2 ( 2 3 5 . 1 2
1 3
2 3 1
> =

− +
=

− +
=
Q Q
Q Q Q
As

El polígono de frecuencias de las calificaciones de Lógica Matemática confirma los resultados.

Figura: Curva asimétrica positiva Polígono de frecuencias de calificaciones de Lógica Matemática








1
2
3
4
5
6
7
8
9
10
0, 0 0, 5 1,0 1, 5 2,0 2,5 3,0 3, 5 4, 0 4, 5 5, 0
Cali ficaci ón
F
r
e
c
u
e
n
c
i
a
1
2
3
4
5
6
7
8
9
10
0, 0 0, 5 1,0 1, 5 2,0 2,5 3,0 3, 5 4, 0 4, 5 5, 0
Cali ficaci ón
F
r
e
c
u
e
n
c
i
a


Página 72 de 175

La curva lleva a concluir que la mayoría de los estudiantes están por debajo de la media en el curso de Lógica
Matemática y son pocos los estudiantes que la superan.

Para Competencias Comunicativas: Se observa que x Me Mo = = , lo que indica que la distribución es
simétrica. Para confirmarlo se hace uso del coeficiente de Bowley, pues la distribución tiene tres modas y no
permite un resultado seguro con el coeficiente de Pearson.
0
5 . 1 5 . 3
) 5 . 2 ( 2 5 . 3 5 . 1 2
1 3
2 3 1
=

− +
=

− +
=
Q Q
Q Q Q
As

El polígono de frecuencias de las calificaciones de Competencias Comunicativas confirma los resultados.

Figura: Curva simétrica platicúrtica
Polígono de frecuencias de calificaciones de Competencias Comunicativas
con el coeficiente de Pearson.













Para determinar el grado de apuntamiento o curtosis, se debe determinar el puntaje típico o estandarizado de
cada clase y luego aplicar la fórmula que lo calcula. En la siguiente tabla se indican estos valores.

Tabla: Cálculo de Z para la distribución de frecuencias de las calificaciones de Competencias Comunicativas

Calificación f Z
i i
f Z
4

0,0 3 -1,838235294 34,2551328
0,5 3 -1,470588235 14,0309024
1,0 5 -1,102941176 7,39910869
1,5 6 -0,735294118 1,7538628
2,0 7 -0,367647059 0,12788583
2,5 7 0 0
3,0 7 0,367647059 0,12788583
3,5 6 0,735294118 1,7538628
4,0 5 1,102941176 7,39910869
4,5 3 1,470588235 14,0309024
5,0 3 1,838235294 34,2551328
Total 55 0 115,133785

3 62 . 0
36 . 1 55
13 . 115
4 4
4
< =
×
= ⇒

=

Ap
s n
f Z
Ap
i i


1
2
3
4
5
6
7
8
9
10
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
Calificación
F
r
e
c
u
e
n
c
i
a
1
2
3
4
5
6
7
8
9
10
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
Calificación
F
r
e
c
u
e
n
c
i
a


Página 73 de 175

Por lo tanto, la curva es simétrica platicúrtica o achatada.

Estos resultados indican que la mayoría de los estudiantes en Competencias Comunicativas están en el rango
de la media del curso, además sus notas son muy homogéneas alrededor de la media.

Para Cultura Política: Se observa que x Me Mo > > , lo que indica que la distribución es asimétrica negativa.
Para confirmarlo se hace uso de la media de Bowley, pues la distribución tiene dos modas y no permite un
resultado seguro con el coeficiente de Pearson.
0 33 . 0
0 . 2 5 . 3
) 0 . 3 ( 2 5 . 3 0 . 2 2
1 3
2 3 1
< − =

− +
=

− +
=
Q Q
Q Q Q
As

El polígono de frecuencias de las calificaciones de Cultura Política confirma los resultados.

Figura: Curva asimétrica negativa
Polígono de frecuencias de calificaciones de Cultura Política











Esto quiere decir que las calificaciones de la mayoría de los estudiantes del curso Cultura Política están por
encima de la media.

Para Estadística Descriptiva: Se observa que x Me Mo = = , lo que indica que la distribución es simétrica.
Para confirmarlo se hace uso del coeficiente de Pearson y la media de Bowley:
0 03 . 0
87 . 0
5 . 2 53 . 2
≈ =

=

=
s
Mo x
As
y 0
0 . 2 0 . 3
) 5 . 2 ( 2 0 . 3 0 . 2 2
1 3
2 3 1
=

− +
=

− +
=
Q Q
Q Q Q
As
Para determinar el grado de apuntamiento o curtosis, se debe determinar el puntaje típico o estandarizado de
cada clase y luego aplicar la fórmula que lo calcula. En la tabla siguiente tabla se indican estos valores.

Tabla: Cálculo de Z para la distribución de frecuencia de las calificaciones de Estadística Descriptiva

Calificación f Z
i i
f Z
4

0,0 1 -2,908045977 71,516306
0,5 1 -2,333333333 29,6419753
1,0 2 -1,75862069 19,1301647
1,5 4 -1,183908046 7,85835926
2,0 11 -0,609195402 1,51502275
2,5 14 -0,034482759 1,9794E-05
3,0 12 0,540229885 1,02210536
3,5 6 1,114942529 9,27173856
4,0 3 1,689655172 24,4519547
1
2
3
4
5
6
7
8
9
10
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
Calificación
F
r
e
c
u
e
n
c
i
a
1
2
3
4
5
6
7
8
9
10
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0
Calificación
F
r
e
c
u
e
n
c
i
a


Página 74 de 175

4,5 1 2,264367816 26,289837
5,0 0 -1,352941176 0
Total 55 -4,571331981 190,697484

3 05 . 6
87 . 0 55
70 . 190
4 4
4
> =
×
= ⇒

=

Ap
s n
f Z
Ap
i i


Por lo tanto, la curva es simétrica leptocúrtica o apuntada.

Lo anterior indica que las calificaciones de Estadística Descriptiva de la muestra de 55 estudiantes están muy
cerca de la media y que existe además, un pico en 2.5, señalando una alta frecuencia en esta calificación.

Figura: Curva simétrica leptocúrtica
Polígono de frecuencias de calificaciones de Estadística Descriptiva












Para Herramientas Informáticas: Se observa que x Me Mo = = , lo que indica que la distribución es
simétrica. Para confirmarlo se hace uso del coeficiente de Pearson:
0
06 . 1
5 . 2 5 . 2
=

=

=
s
Mo x
As

El polígono de frecuencias de las calificaciones de Herramientas Informáticas confirma los resultados. La curva
es simétrica mesocúrtica o normal.


MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSION EN EXCEL

El proceso a seguir, cuando los datos estén SIN AGRUPAR, es decir, tal como se recolectaron, si trabajamos
con la variable número de hermanos, para la aplicación de las diferentes medidas, serán las siguientes:

• Consideremos los datos del CUADRO No. 1, que contiene información de 10 variables correspondiente a
50 estudiantes seleccionados como muestra, de una población de 1.080 estudiantes, que a continuación se
reedita:
Cuadro No. 1.
No.
orden
Facultad Sexo
No.
hermanos
No.
libros
leídos
Promedio
calificación
matemáticas
Actualmente
trabaja
Calificaciones
ICFES
Edad
(años)
Estatura
(Cm)
Peso
(Kg)
2 2 2 2 2 4,1 1 360 20 158 48
9 3 2 0 6 3,4 2 320 20 170 70
0
1
2
3
4
5
6
7
8
9
1 0
1 1
1 2
1 3
1 4
1 5
0 ,0 0 , 5 1 , 0 1 , 5 2 ,0 2 , 5 3 , 0 3 , 5 4 , 0 4 , 5 5 , 0
C al i fi c a ci ó n
F
r
e
c
u
e
n
c
i
a
0
1
2
3
4
5
6
7
8
9
1 0
1 1
1 2
1 3
1 4
1 5
0 ,0 0 , 5 1 , 0 1 , 5 2 ,0 2 , 5 3 , 0 3 , 5 4 , 0 4 , 5 5 , 0
C al i fi c a ci ó n
F
r
e
c
u
e
n
c
i
a


Página 75 de 175

12 3 1 6 3 3,6 2 330 18 174 78
35 2 2 0 7 3,6 1 280 22 155 60
41 3 1 3 5 4,1 2 320 16 170 72
63 3 2 4 2 3,1 2 320 24 172 69
74 2 2 2 4 3,6 2 325 20 169 66
113 1 1 1 3 3,4 2 280 23 178 82
147 3 1 1 8 5,0 1 310 17 174 83
175 1 2 3 2 2,6 1 270 15 165 60
199 2 2 0 2 3,9 2 290 26 171 66
214 1 1 1 7 3,5 2 310 22 172 80
234 1 1 1 2 3,6 2 320 20 168 70
268 3 1 3 12 3,9 1 310 21 166 64
327 3 1 1 8 5,0 1 310 17 174 83
331 1 2 0 6 3,4 2 380 20 165 58
364 1 2 3 2 3,3 2 280 16 166 58
400 3 2 0 6 3,6 2 280 17 148 46
405 1 2 2 11 4,6 2 400 24 165 60
470 1 2 3 2 3,0 1 300 20 164 70
507 3 1 1 8 5,0 1 310 17 174 83
512 1 2 0 3 2,8 1 310 20 171 59
545 2 1 6 10 3,9 2 310 17 171 64
557 2 1 6 2 3,1 1 270 21 168 60
587 3 1 1 4 3,3 2 300 32 160 65
589 3 2 2 3 2,6 1 270 17 165 59
590 1 1 0 2 2,7 1 280 19 168 71
616 3 2 0 3 3,8 2 265 19 156 54
621 3 1 0 3 3,0 2 290 17 171 82
653 1 1 1 3 3,4 2 280 23 178 82
665 2 1 1 2 3,2 2 360 21 158 72
669 3 2 1 1 4,0 1 315 16 165 61
721 2 1 3 4 2,6 1 410 18 140 46
747 2 2 2 2 4,0 1 330 18 158 60
748 1 2 3 2 3,3 2 310 17 159 58
761 3 1 3 5 4,1 2 320 16 170 72
771 3 1 1 1 2,8 1 290 24 171 79
825 2 2 8 2 3,7 1 320 22 167 54
873 1 2 3 5 4,2 2 350 22 169 64
876 3 2 6 2 4,0 2 380 20 165 58
923 1 1 1 3 4,2 1 390 22 174 80
933 1 2 3 10 2,8 2 260 20 165 58
936 2 2 3 10 2,8 2 260 28 158 55
943 3 2 2 6 3,8 2 280 20 168 64
976 3 2 0 3 3,8 2 265 19 156 54
982 3 1 0 6 3,0 2 410 18 174 86
1001 3 1 3 5 3,1 2 280 17 169 76
1017 2 1 5 2 3,8 2 290 15 162 70
1025 2 1 1 2 3,2 2 360 21 158 72
1037 3 2 0 2 3,3 2 325 19 164 60




Página 76 de 175

• Ubiquémonos en la barra de MENU, con el MOUSE haciendo CLIC en HERRAMIENTAS debiendo
aparecer la siguiente figura:





















Figura No. 1. Microsoft Excel


• Al hacer CLIC en el submenú ANÁLISIS DE DATOS , debe aparecer la siguiente figura (Fig. 2):

















Figura No. 2. Funciones para análisis



Página 77 de 175

Con la figura No. 2, correspondiente a ANÁLISIS DE DATOS, procederemos a seleccionar una de las
funciones, en nuestro caso la opción identificada como ESTADÍSTICA DESCRIPTIVA, luego al hacer CLIC en
ésta y ACEPTAR debe aparecer la figura siguiente (Fig. 3):




















Figura No. 3. Estadística Descriptiva

• Teniendo en cuenta la Figura No. 3 ESTADÍSTICA DESCRIPTIVA, se comienza el procesamiento de los
datos. Recordemos que el RANGO DE ENTRADA es el correspondiente a la variable número de hermanos
registrados en el Cuadro No. 1.

• En la misma figura anterior, aparecen unas opciones de salida, con alternativa de ser una HOJA NUEVA o
en un LIBRO NUEVO.

• Además, aparecen: RESUMEN DE ESTADÍSTICAS; NIVEL DE CONFIANZA PARA LA MEDIA: 95% o
cualquier otro valor establecido; K-ESIMO MAYOR y, finalmente, K-ESIMO MENOR, activando o haciendo
CLIC en cada uno de ellos, En caso de considerar la obtención de un mayor número de resultados para el
análisis.

• Al hacer CLIC en ACEPTAR, se obtiene la información, tal como puede observarse en la figura No. 4.


Medidas


Resultados
Media 2,04
Error típico 0,27547362
Mediana 1,5
Moda 1
Desviación estándar 1,94789263
Varianza de la muestra 3,79428571


Página 78 de 175






Figura No. 4. Resultados


• Para lograr los anteriores resultados en todas y cada una de las opciones (Resumen de estadísticas; nivel
de confianza para la media, K-ésimo mayor y K-ésimo menor), deben señalarse.

Los resultados de la figura No. 4, nos muestra un cuadro resumen con los valores de la Media, Error Típico;
Mediana; Asimetría; Mínimo; Máximo; Suma; Conteo para la variable NUMERO DE HERMANOS.




Curtosis 0,92539916
Coeficiente de asimetría 1,11511128
Rango 8
Mínimo 0
Máximo 8
Suma 102
Cuenta 50
Mayor (1) 8
Menor(1) 0
Nivel de confianza (95.0%) 0,55358463


Página 79 de 175

CAPÍTULO 3. ANÁLISIS DE REGRESIÓN

Lección 10: Regresión lineal Simple

La palabra Regresión fue utilizada por primera vez por Francis Galton, (1.822 – 1.911) en sus estudios de
Biología sobre la herencia, done él noto que las características promedio de la siguiente generación de un
grupo particular, tendía a moverse en la dirección de las características promedio de la población, más que a la
generación previa de dicho grupo.


La regresión es considerada una asociación cuantitativa entre las variables que participan en el fenómeno.
Existen diversas clases de regresión, las cuales son visibles por medio de un modelo matemático, el cual
relaciona las variables.

Según el modelo matemático se conocen diversas clases de regresión:

- Regresión lineal: x y β α + =
- Regresión cuadrática:
2
2 1
x x y β β α + + =
- Regresión logarítmica: ) (x Ln y + =α

Así existen otros tipos de regresión, que describen fenómenos particulares.

Las variables que se estudian en una regresión son:

Variable de Respuesta: Es la variable Y, la cual se observa bajo condiciones experimentales, pero no se
puede controlar, lo que se mide por medio del llamado Error aleatorio. En todo modelo, se asume que la
variable de respuesta Y tiene distribución normal, con media x X Y E β α + = ) ( y con varianza .
2
σ Además,
los valores observados y
1
, y
2
, y
3
,…,y
n
. no están correlacionados estadísticamente: Cov(y
i
, x
i
) = 0 para i ≠ j.

Variables Predictoras: Son las variables x
1
, x
2
, x
3
,…,x
n
; cuyos valores se asumen de antemano, por lo cual no
son variables aleatorias, ya que pueden ser controlables en el fenómeno o experimento.


Diagrama de Dispersión.

Una distribución bidimensional o bivariante puede representarse gráficamente en un plano cartesiano, ubicando
en el eje horizontal o abscisa los valores de la primera variable denominada X y en el eje vertical u ordenada,
los valores de la segunda variable, Y. De manera pues que se grafican tantas parejas ordenadas como
observaciones hayan de las variables.

A este conjunto de puntos o nube de puntos se le denomina diagrama de dispersión, dado que los puntos se
ubican de forma dispersa en el plano cartesiano. En muchos casos el sólo diagrama de dispersión indica una
tendencia de agrupación de los puntos, que puede ser lineal (hacia arriba o hacia abajo), exponencial,
curvilínea o poligonal.

Parte del análisis estadístico que hace el investigador es determinar cuál es la mejor línea o curva que
representa a ese conjunto de datos. El mejor ajuste se hace cuando se elabora bien la gráfica, se conoce la
distribución y se va adquiriendo experiencia en su cálculo y determinación.




Página 80 de 175

X
Y
X
Y
X
Y
X
Y
X
Y
X
Y
Figura: Gráficas de dispersión
(a) lineal; (b) curvilínea; (c) sin relación










(a) (b) (c)



Regresión Lineal Simple.

La regresión examina la relación entre dos variables restringiendo una de ellas respecto a la otra, con el objeto
de estudiar las variaciones de la primera cuando la otra permanece constante. La regresión es un método que
se emplea para pronosticar o predecir el valor de una variable en función de los valores dados de la otra o de
las otras variables.

La regresión lineal simple, se caracteriza porque se tiene la variable de respuesta y Una sola variable
explicativa o independiente. Los datos se pueden representar por medio de parejas ordenadas (x
i
, y
i
) para i = 1,
2, 3, … , n.

En la regresión lineal simple, la media ) (
i
x y µ se relaciona linealmente con los valores x
i
, por medio de la
llamada ecuación de regresión: . ) (
i i i
x x y β α µ + = Donde α y β son los parámetros del modelo, que se
relacionan linealmente, son desconocidos y corresponden a los coeficientes de correlación.

El modelo de regresión lineal simple se expresa como se presenta a continuación:
i i i
x y ε β α + + =

Donde ε
i
es llamado Error Aleatorio o Error del Modelo, el cual tiene como características:
Media: 0 =
ε
µ y Varianza:
2
σ la cual no es medible.
Los parámetros se estiman por medio de datos muestrales, obteniendo una ecuación de regresión ajustada.
Así cada par de observaciones satisface:
i i i
e bx a y + + =
Donde
a = Estimador de α.
b = Estimador de β
e
i
= Los residuales. Se miden así:
i i i
y y e
)
− =









Página 81 de 175


Grafica: Regresión el Modelo Lineal


Cuando se considera, después de una inspección en la gráfica de dispersión, que una línea recta es la mejor
curva que se ajusta al conjunto de puntos se procede entonces a emplear el método de la regresión lineal
simple. La mejor línea es aquella que hace mínima la suma de los cuadrados de las diferencias entre los
puntos dados y los obtenidos mediante la línea ajustada o estimada. Es por eso que a este método también se
le conoce como el método de los mínimos cuadrados.

La ecuación de regresión ajustada será:
bx a y + =
)


Donde:
y
)
Variable dependiente (la que se va a predecir)
Intercepto de la variable Y
x Variable predictiva o independiente
: b Pendiente de la recta

En esta ecuación hay dos valores desconocidas: a y b, que deben determinarse aplicando el criterio de los
mínimos cuadrados, buscando así la mejor recta que se ajuste a los datos.

Para hallar los estimadores a y b, se utiliza las siguientes ecuaciones. la demostración se deja como ejercicio
de investigación, es muy interesante.



Donde:
b : Pendiente de la recta
a : Intercepto de la variable Y
X : Valores de la variable independiente
: Valores de la variable dependiente
: Tamaño de la muestra

: a
( )
n
X b Y
a
X X n
Y X XY n
b
∑ ∑
∑ ∑
∑ ∑ ∑

=


=
2 2
Y
n


Página 82 de 175

Algunos autores calcular los valores de a y b en términos de las medias de de los conjuntos de datos con las
siguientes dos ecuaciones:

x b y a
x x n
y x y x n
b
i i
i i i i
− =


=
∑ ∑
∑ ∑ ∑
2 2
) (


Donde:
x
i
: Valores de la variable independiente
y
i
: Valores de la variable dependiente
n: tamaño de la muestra

Ejemplo:

El departamento de publicidad de una industria alimenticia desea saber si existe una relación entre las ventas y
el número de comerciales de televisión transmitidos por día. Para ello, toma una muestra aleatoria de siete
ciudades. La siguiente tabla muestra los resultados obtenidos.

Tabla: Relación de ventas de un producto y la emisión del comercial en televisión

Ventas
Cantidad de millones por mes
Comerciales
Número transmitido por día
8,4 9
5,2 6
7,1 8
10 11
12,9 12
12,1 13
14,4 14

a-) Diseñar el diagrama de dispersión para identificar el comportamiento de los datos.
b-) Determinar la ecuación de regresión estimada.

Solución:

a-) Para conocer el tipo de relación que puede existir entre estas dos variables, el primer paso es determinar
es si el diagrama de dispersión efectivamente insinúa una tendencia lineal.

Figura: Diagrama de dispersión de ventas de un producto y la emisión del comercial en televisión












El diagrama confirma la sospecha, se procede ahora a determinar la ecuación de la recta que más se ajusta.
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14 16
Ventas, cientos de unidades por mes
N
ú
m
e
r
o

d
e

c
o
m
e
r
c
i
a
l
e
s

t
r
a
n
s
m
i
t
i
d
o
s

p
o
r

d
í
a
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14 16
Ventas, cientos de unidades por mes
N
ú
m
e
r
o

d
e

c
o
m
e
r
c
i
a
l
e
s

t
r
a
n
s
m
i
t
i
d
o
s

p
o
r

d
í
a


Página 83 de 175


b-) Para determinar la ecuación de regresión:
bx a y + =
)
se debe estimar los parámetros, por medio de los
mínimos cuadrados.

Donde: x b y a
x x n
y x y x n
b
i i
i i i i
− =


=
∑ ∑
∑ ∑ ∑
2 2
) (


X
Millones por mes
Y
Comerciales
XY X
2

8,4 9 75,6 70,56
5,2 6 31,2 27,04
7,1 8 56,8 50,41
10 11 110 100
12,9 12 154,8 166,41
12,1 13 157,3 146,41
14,4 14 201,6 207,36
70,1 73 787,3 768,19



85 , 0
32 , 463
8 , 393
) 1 , 70 ( 19 , 768 * 7
) 73 )( 1 , 70 ( 3 , 787 * 7
) (
2 2 2
= =


=


=
∑ ∑
∑ ∑ ∑
i i
i i i i
x x n
y x y x n
b

92 , 1 01 , 10 * 85 , 0 43 , 10 = − = a Con la otra ecuación:
92 , 1
7
415 , 13
7
) 1 , 70 85 . 0 ( 73
= =
× −
=

=
∑ ∑
n
X b Y
a


Así la ecuación de regresión ajustada es: 92 , 1 85 , 0 + = x y
)


Ejemplo:


Con los datos del ejemplo anterior, cual serían las ventas si se pasan:
a-) 10 comerciales
b-) 7 comerciales.

Solución:
a-) Como x = 10. Entonces: 42 , 10 92 , 1 ) 10 ( 85 , 0 = + = y
)
Millones por mes
b-) Para x = 7. 87 , 7 92 , 1 ) 7 ( 85 , 0 = + = y
)
Millones por mes.


Lección 11: Relación y Correlación

CORRELACIÓN: La correlación es una medida del grado de asociación entre las variables explicativas,
respecto al variable de respuesta. El análisis de correlación mide “La Fuerza” de relación entre las dos
variables a través del llamado coeficiente de correlación de Pearson. Se representa con r siendo este un valor
entre -1 y 1. Si el coeficiente de correlación r es igual o menor que uno, nos indica que tanto la covarianza,


Página 84 de 175

como los coeficientes angulares, son negativos y por tanto la recta será descendente, por ser la pendiente
negativa. Además si es igual a -1, nos indica que existe una relación inversa perfecta entre las variables. Para
el caso de que r sea positivo, la recta es creciente y si es igual a 1, indica que existe una relación directa
perfecta. En estas condiciones, cada valor de la variable deberá ser exactamente igual al estimado y, por tanto
la varianza residual es igual a cero; además, la varianza explicada igual a la varianza total.

Figura: Gráficas de dispersión lineal

(a) positiva (b) negativa








(a) (b)

Propiedades:

a-) El coeficiente de correlación no depende de los valores de x e y.
b-) El valor del coeficiente es independiente de las unidades de x e y
c-) El valor del coeficiente está entre -1 y 1: -1 ≤ r ≤ 1
d-) Cuando r = 0, entonces no existe correlación lineal entre las variables.
e-) Cuando r = 1, existe correlación positiva perfecta y además es directa, en estos casos
hay dependencia total entre las variables.
f-) Cuando r = -1, existe correlación negativa perfecta y además es inversa, en estos
casos también hay dependencia total entre las variables.

El coeficiente de correlación poblacional se define como:
y x
xy
σ σ
σ
ρ =
σ
xy
: Covarianza de x e y. σ
x
y σ
y
Desviación típica de las distribuciones marginales de x e y. Si (x
i
, y
i
) son
valores de una muestra aleatoria proveniente de una población bivariada, entonces el coeficiente de correlación
muestral esta dado por:
yy xx
xy
s s
s
r =
Donde:
( )( ) ( ) ( )
2
2
2
2
1 1 1
∑ ∑ ∑ ∑ ∑ ∑ ∑
− = − = − =
i i yy i i xx i i i i xy
y
n
y s x
n
x s y x
n
y x s

Es pertinente tener presente que si se tiene dos correlaciones: r
1
= 0,3 y r
2
= 0,9 está indicado que las dos son
positivas, pero NO se puede pensar que: r
2
= 3r
1


Ejemplo:

Un estudio sobre la transformación de una sustancia en cierto proceso a diferentes temperaturas, originó la
siguiente tabla:

x
0
C 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0
y Kg 8,1 7,8 8,5 9,8 9,5 8,9 8,6 10,2 9,3 9,2 10,5

X
Y
X
Y
X
Y
X
Y


Página 85 de 175

Hallar el coeficiente de correlación de Pearson e interpretar el resultado.

Solución:

x y x
2
y
2
xy
1,0 8,1 1,0 65,61 8,1
1,1 7,8 1,21 60,84 8,58
1,2 8,5 1,49 72,25 10,2
1,3 9,8 1,69 96,04 12,74
1,4 9,5 1,96 90,25 13,3
1,5 8,9 2,25 79,21 13,35
1,6 8,6 2,56 73,96 13,76
1,7 10,2 2,89 104,04 17,34
1,8 9,3 3,24 86,49 16,74
1,9 9,2 3,61 84,64 17,48
2,0 10,5 4,0 110,25 21,0
16,50 100,4 25,85 923,58 152,59

yy xx
xy
s s
s
r =
( )( ) 99 , 1 4 , 100 50 , 16
11
1
59 , 152 = − =
xy
s
( ) 1 , 1 50 , 16
11
1
85 , 25
2
= − =
xx
s
( ) 201 , 7 4 , 100
11
1
58 , 923
2
= − =
yy
s
708 , 0
81 , 2
99 , 1
201 , 7 1 , 1
99 , 1
= = = r

Como r es positivo y relativamente grande, entonces hay una alta relación entre las variables temperatura y
cantidad de masa, lo que nos indica que a mayor temperatura, mayor cantidad de transformación de masa.


DETERMINACIÓN: El coeficiente de determinación es una medida de la bondad de ajuste del modelo de
regresión. El coeficiente de determinación establece el grado de proporción de la variación total de la variable
de respuesta, (Y) que es explicado por el modelo, específicamente por la variación de la variable explicativa.
Lo anterior significa que es necesario medir el porcentaje de la información recogida o explicada por el modelo
de regresión obtenido.


Medidas de Variación: Por el análisis de regresión, se sabe que el i-ésimo residual
i i i
y y e
)
− = se puede
minimizar por el método de mínimos cuadrados, cantidad conocida como la suma de cuadrados del error SSE,
el cual es la medida del error que se comete cuando se utiliza la ecuación de regresión, para hallar y
i
a partir
del modelo obtenido.
( )
2

− =
i i
y y SSE
)




Página 86 de 175

De la misma manera, para el i-ésimo valor de la variable de respuesta y
i
, se tiene la diferencia y y
i
− que es
la medida del error ocasionado al utilizar y para estimar el valor de la variable de respuesta, obteniendo lo
llamado suma total de cuadrados SST.
( )
2

− = y y SST
i

La otra medida de regresión, es la desviación de los valores estimados medidos en la línea de regresión
respecto al valor promedio, originando la llamada suma de cuadrados de la regresión SSR.
( )
2

− = y y SSR
i
)


Las tres sumas de cuadrados, se relacionan en una de las ecuaciones más importantes en estadística: SST =
SSR + SSE

A partir de la ecuación anterior, se puede ver que el modelo ajusta perfectamente cuando 0 = −
i i
y y
)
esto
indica que el valor de la variable de respuesta estaría sobre la línea de regresión. Así como SSE = 0, entonces
SST = SSR. Tomando esta ecuación, se hace la siguiente relación.
1 = ⇒ =
SST
SSR
SST
SSR
SST
SST
Ajuste perfecto.
Entonces el Coeficiente de Determinación:
SST
SSR
r =
2

Lo anterior significa:
( )
( ) total Variación
licada Variación
y y
y y
r
i
i
exp
2
2
2



=


)

El coeficiente de determinación toma valores entre 0 y 1, inclusive. Cuando el coeficiente es cercano a uno,
indica que el modelo es explicado muy bien por la línea de regresión. Cuando el coeficiente es cercano a cero,
entonces la variación de la variable de respuesta no es causada por la variable explicativa.

Resumiendo: Cuando 1
2
→ r hay dependencia total de y respecto a x. 0
2
→ r hay independencia entre las
variables.

Obtención de las Variaciones: Las variaciones SST y SSR, se pueden calcular de la siguiente manera:

( )( )
∑ ∑ ∑
− =
i i i
y x
n
y SST
1
2


( )( )
( )
∑ ∑
∑ ∑ ∑

(
¸
(

¸


=
2
2
2
1
1
i i
i i i i
x
n
x
y x
n
y x
SSR

Ejemplo:

Un estudio sobre la transformación de una sustancia en cierto proceso a diferentes temperaturas, originó la
siguiente tabla:

x
0
C 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0
y Kg 8,1 7,8 8,5 9,8 9,5 8,9 8,6 10,2 9,3 9,2 10,5



Página 87 de 175

Hallar el coeficiente de determinación e interpretar el resultado.



Solución:

x y x
2
y
2
xy
1,0 8,1 1,0 65,61 8,1
1,1 7,8 1,21 60,84 8,58
1,2 8,5 1,49 72,25 10,2
1,3 9,8 1,69 96,04 12,74
1,4 9,5 1,96 90,25 13,3
1,5 8,9 2,25 79,21 13,35
1,6 8,6 2,56 73,96 13,76
1,7 10,2 2,89 104,04 17,34
1,8 9,3 3,24 86,49 16,74
1,9 9,2 3,61 84,64 17,48
2,0 10,5 4,0 110,25 21,0
16,50 100,4 25,85 923,58 152,59

( )( ) 98 , 772 4 , 100 50 , 16
11
1
58 , 923 = − = SST
( )( )
( )
60 , 3
1 , 1
99 , 1
50 , 16
11
1
85 , 25
4 , 100 50 , 16
11
1
59 , 152
2
2
2
= =

(
¸
(

¸


= SSR
r
2
= 0,004657

Lo que indica el coeficiente es que sólo el 0,4657% de la variación, es explicada por el modelo.



Lección 12: Regresión Múltiple.

Cuando se emplea más de una variable independiente para evaluar una variable dependiente es conveniente
utilizar un método de regresión múltiple, que consiste en el mismo procedimiento de una regresión lineal
simple: describir la ecuación de regresión, determinar el error de estimación y analizar la correlación entre las
variables.

A continuación se desarrollarán estos conceptos suponiendo dos variables independientes. Para más variables
independientes, sólo basta con seguir los mismos pasos.

La ecuación de regresión está dada por:
2 2 1 1
X b X b a Y + + =
)


Donde:
Variable dependiente.
Intercepto de la variable Y.
Valores de las dos variables independientes.
Pendientes asociadas con cada variable independiente, respectivamente.
:
ˆ
Y
: a
: ,
2 1
X X
: ,
2 1
b b


Página 88 de 175


Los valores de las tres constantes numéricas se obtienen resolviendo el siguiente sistema de ecuaciones:

∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
∑ ∑ ∑
+ + =
+ + =
+ + =
2
2 2 2 1 1 2 2
2 1 2
2
1 1 1 1
2 2 1 1
X b X X b X a Y X
X X b X b X a Y X
X b X b na Y


Una vez obtenida la ecuación de regresión, se determina el error estándar de la estimación de regresión
múltiple:

3 3
) (
2 2 1 1
2 2

− − −
= ⇔


=
∑ ∑ ∑ ∑ ∑
n
Y X b Y X b Y a Y
Se
n
Y Y
Se
)


Y el coeficiente de determinación múltiple, estará dado por:

2
2
2
2 2 1 1 2

∑ ∑ ∑

− + +
=
y n Y
y n Y X b Y X b Y a
R
Donde:
: Y Valores de la variable dependiente.
Intercepto de la variable Y.
Valores de las dos variables independientes.
Pendientes asociadas con cada variable independiente, respectivamente.
: y Media de los valores de la variable dependiente.

Ejemplo:

El jefe de producción de una empresa manufacturera desea estimar los gastos indirectos de producción con
base en el número de horas de trabajo y en el número de horas máquina. En la siguiente tabla se relaciona la
información correspondiente al primer semestre del año.
El jefe de producción define:
X
1
: Horas de trabajo (cientos).
X
2
: Horas de máquina (cientos)
Y : Gastos indirectos de producción (cientos de miles de pesos)

Solución:

Tabla: Gastos indirectos de producción

Mes X
1
X
2
Y X
1
Y X
2
Y X
1
X
2
X
1
2
X
2
2
Y

2

Enero 45 16 29 1305 464 720 2025 256 841
Febrero 42 14 24 1008 336 588 1764 196 576
Marzo 44 15 27 1188 405 660 1936 225 729
Abril 45 13 25 1125 325 585 2025 169 625
Mayo 43 13 26 1118 338 559 1849 169 676
Junio 46 14 28 1288 392 644 2116 196 784
TOTAL 265 85 159 7032 2260 3756 11715 1211 4231
: a
: ,
2 1
X X
: ,
2 1
b b


Página 89 de 175

) 4 ( 83 . 6 83 . 1 5 . 7
1211 3756 85 2260
17 . 1204 17 . 13754 85 5 . 2252
2 1
2 1
2 1
b b
b b a
b b a
− − = −
− − − = −
+ + =
) 3 ( 1211 3756 85 2260
) 2 ( 3756 11715 265 7032
) 1 ( 85 265 6 159
2 1
2
2 2 2 1 1 2 2
2 1 2 1 2
2
1 1 1 1
2 1 2 2 1 1
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
∑ ∑ ∑
+ + = + + =
+ + = ⇒ + + =
+ + = + + =
b b a X b X X b X a Y X
b b a X X b X b X a Y X
b b a X b X b na Y





Se resuelve el sistema de ecuaciones:

Ecuación (1) multiplicada por 85/6 y restada por la ecuación (3):





Se despeja la variable b
1
de la ecuación (4):
83 . 1
83 . 6 5 . 7
2
1
b
b

=

Ecuación (1) multiplicada por 265/6 y restada por ecuación (2):

) 5 ( 83 . 1 83 . 10 5 . 9
3756 11715 265 7032
17 . 3754 17 . 11704 265 5 . 7022
2 1
2 1
2 1
b b
b b a
b b a
− − = −
− − − = −
+ + =


Variable b
1
reemplazada en la ecuación (5):

91 . 0
97 . 73
19 . 67
83 . 1
83 . 1
83 . 6 5 . 7
83 . 10 5 . 9
2 2
2
= = ⇒ + |
¹
|

\
| −
= b b
b

b
2
reemplazada en la ecuación (4): 7 . 0
83 . 1
83 . 6 5 . 7
2
1
=

=
b
b

b
1
y b
2
reemplazada en la ecuación (1): 31 . 17
6
85 265 159
2 1
− =
− −
=
b b
a

Se obtiene así la ecuación de regresión múltiple:

2 1 2 2 1 1
91 . 0 7 . 0 31 . 17 X X Y X b X b a Y + + − = ⇒ + + =
) )

















Página 90 de 175




Ejercicios:

1. Explique claramente en qué consiste el proceso de regresión.

2. Cuál es la utilidad del coeficiente de regresión y de determinación.

3. La Compañía LISTO, ha obtenido los siguientes resultados con respecto al costo de la mano de obra directa
y la cantidad de unidades producidas (en miles), de la siguiente manera:

Mano de Obra 18 23 15 21 30 26 28 27 29 19 22 24
Producción 44 60 40 56 80 70 74 71 78 48 64 69

Con la información anterior se requiere lo siguiente:

a-) Estimar el valor mínimo de la mano de obra directa que debe obtenerse para una producción de 72.870
unidades.

b-) Determinar que tanto están relacionadas las variables en estudio.

c-) Explicar que tan confiable es la bondad de ajuste del modelo: mano de obra directa en función de la
producción.

4. Una oficina de finca raíz está interesada en analizar si la renta de los apartamentos que arrienda son
típicas, por tanto, a escogido una muestra aleatoria de 11 alquileres y del tamaño de los apartamentos de
edificios similares. Los datos se transcriben enseguida.
Renta 230 190 450 310 218 185 340 245 125 350 280
No habitaciones 2 1 3 2 2 2 1 1 2 1 1

a-) Desarrolle el modelo de regresión lineal simple que mejor describa el fenómeno
b-) Hacer el diagrama de dispersión de los datos
c-) Calcular el coeficiente de regresión y determinación
d-) Hacer el grafico ajustado según el modelo obtenido.
e-) Realizar los análisis correspondientes del caso en estudio.

5. Una compañía de ahorro y crédito, desea saber cómo son afectadas las ventas de viviendas por diferentes
tasas de interés. Durante ocho meses se recopiló la información y se obtuvo el siguiente resultado:

Tasa de interés (%) 7 6.5 5.5 6 8 8.5 6 6.5
Ventas de viviendas 23 38 45 36 16 18 39 41


a. Estimar las ventas en función de la tasa de interés.
b. ¿Cuántas viviendas se pueden vender si el interés es del 7.5%?
c. Determinar el error estándar del estimado.
d. ¿Es confiable el modelo?
e. Calcule el tipo de asociación entre las variables.





Página 91 de 175








UNIDAD DOS
PRINCIPIOS DE PROBABILIDAD




Página 92 de 175

CAPÍTULO 4: FUNDAMENTACIÓN EN PROBABILIDAD

Lección 13: Historia de la Probabilidad

Para hablar del origen de la probabilidad, se presentan discrepancias, ya que algunos lo reconocen como una
ciencia relativamente reciente, edad media e inicios de la edad moderna. Pero es pertinente hacer un recorrido
a través de la historia, para conocer cómo ha evolucionado tan interesante ciencia estadística, lo cual se
estudiará en tres fases.

ANTECEDENTES. JUGOS DE AZAR: Se tienen evidencias arqueológicas del antiguo Egipto, Pompeya, Irak y
otros, sobre “Dados” elaborados en hueso, cristal piedra, marfil, madera y arcilla, que estaban tallados, dando
la percepción de que eran Dados Perfectos. Algunos estudiosos consideran que en la sitiada Troya, se origino
los juegos de azar, pretexto de las largas jornadas de espera (10 años) que los soldados debían soportar en
dicho asedio.

Los primeros juegos de azar de que se tenga evidencia, además de los dados son las cartas, los cuales se
utilizaban con propósitos adivinatorios. En el Imperio Romano, se tenía la ley de prohibición de éste tipo de
juego y, solo se podía practicar en ciertas épocas del año. Este tipo de eventos se hicieron tan populares que
hasta el Cesar lo practicaba en cualquier momento, según historiadores de esta civilización.

En la Europa se presentaban leyes de prohibición de juegos de este tipo, auspiciado por la Iglesia Cristiana,
quienes consideraban que este tipo de prácticas eran artificios del demonio, para desviar sus principios
cristianos. En Francia Luis IX prohibió los juegos de azar y la elaboración de dados. En Inglaterra, Eduardo III
y Enrique VIII, incluyeron los dados y cartas en una lista de juegos prohibidos, estimulando otro tipo de juegos,
como el tiro con el arco.

Sin embargo, a pesar de la prohibición este tipo de juegos se hizo cada vez más popular, lo que motivo a
algunos pensadores a darles algún tipo de explicación desde el punto de vista matemático. Lo anterior con el
fin de conocer las ventajas o desventajas de apostar.

El tema motivo a los científicos del Renacimiento a realizar estudios, con la inquietud del porque no se había
analizado con anterioridad, a lo cual Kendall sugiere varios motivos que impidieron la evolución del Cálculo de
Probabilidades, antes del siglo XVI.

1. Desconocimiento del Álgebra Combinatoria que resolviera situaciones de juegos.
2. Ausencia de la noción de suceso aleatorio
3. Barreras morales y religiosas impuestas en contra de los fenómenos de azar y aleatoriedad.
4. Superstición de los jugadores.

Otros pensaban que la falta de simetría y de equiprobabilidad en el lanzamiento de los dados, eran obstáculos
al desarrollo del cálculo de probabilidad, pero se pudo saber que algunos de los dados diseñados presentaban
simetría perfecta. Sin embargo quedaron muchos interrogantes sin respuesta.

EL CÁLCULO ARITMÉTICO: En el renacimiento, el espíritu inquieto, ansioso, rebelde y renovador de los
científicos, motivo darle importancia al estudio de fenómenos de azar, así es pertinente nombrar los que se
consideran que dieron aportes relevantes al estudio de la probabilidad.

Lucas Paccioli, (1.445 – 1.514) Geómetra y Matemático Italiano, aunque sus aportes son más conocidos en el
área de la Contabilidad, por su formulación del Método Anfisográfico o de partida doble contable. Pero también
fue precursor el Cálculo de Probabilidades, planteando los juegos de azar, donde su objetivo era hallar la
solución a problemas específicos más que una teoría sobre probabilidad.



Página 93 de 175

Gerolamo Cardano, (1.501 – 1.576) Célebre matemático, médico y
astrónomo Italiano, pero también tenia la fama de Jugador, por lo cual se
motivo a estudiar sobre teoría acerca de juegos de azar. En sus libro; el
primero escrito, sobre juegos de azar escrito en 1.560, pero publicado sólo
hasta 1.663. La idea central de la obra era la idealización explícita del número
de alternativas iguales basadas en un dado ideal. Para Cardano cuando el
número de observaciones es pequeño, la frecuencia puede desviarse
sustancialmente de la probabilidad de ocurrencia. Pero si el número de
repeticiones es grande, la desviación es despreciable, así aparece
rudimentariamente la conocida Ley de los Grandes Números.

Sus aportes más significativos fue en al solución de ecuaciones de tercer y
cuarto grado, donde ofrece una metodología de solución general a este tipo
de ecuaciones. También propone la solución de un caso particular de la
ecuación de tercer grado.

Nicollo Tartaglia, (1.499 – 1.557) Nicolo Fontana; su verdadero nombre, gran
matemático y Geometra Italiano, autodidacta. Sus esfuerzos se centraron en buscar una
técnica de solución de ecuaciones de tercer grado. Respecto a la Probabilidad, sus
aportes fueron a la búsqueda de solución para problemas de combinatorias que estaban
relacionadas con juegos, disertando la solución dada por Paccioli al problema del reparto
de la apuesta en el caso del juego interrumpido. Diseño el llamado Triángulo de
Tartaglia, que determina los números combinatorios.


Triángulo de Tartaglia

Galileo Galilei, (1.564 – 1.642) Matemático, Físico, Astrónomo y Filósofo, nacido en Pisa (Italia). Considerado
el gestor de la revolución científica y de la ciencia moderna. Sus aportes a las ciencias son innumerables, no
dejando de aportar a la Probabilidad. En este campo se dedico a analizar problemas sobre juegos de azar, por
ejemplo hace el análisis de los posibles sucesos que se pueden obtener, cuando se lanzan tres dados. Su
ingenio lo llevo a intuir sobre la “Teoría del error”. Existía un problemas son la estimación de errores en
mediciones astronómicas, a lo cual galileo comenta que “..Los errores en las mediciones son inevitables…”, los
cuales están simétricamente distribuidos.


Blaise Pascal, (1.623 – 1.662) Matemático, Físico, Filósofo y Teólogo, nacido
en Clermont (Francia), se le considera el padre de la computadora junto con
Babbage, contribuyó de manera efectiva en la teoría matemática de la
probabilidad. En intercambio con Fermat, desarrollo fuertemente la teoría de
probabilidad. La motivación de los estudios de Pascal fue los problemas con
apuestas que tenía el llamado Caballero de Meré (1.607 – 1.684) de la corte de
Luis XIV, quien le planteó a Pascal el conocido problema de los puntos, lo que


Página 94 de 175

se asume motivo la Correspondencia entre Pascal y Fermat. Pascal le envía a Fermat una carta el 29 de julio
de 1.654 en donde le expone el problema de los puntos: “Dos jugadores han pactado el juego a tres rondas y
cada uno apuesta 32 pistolas; el primero ha ganado dos veces y el segundo solamente una vez”. Pascal
argumenta que para encontrar la distribución justa en la apuesta realizada es * “... si ellos juegan otra ronda y
el primero gana, este se lleva toda la apuesta, esto es, las 64 pistolas; si el otro gana, entonces cada uno tiene
dos rondas a su favor, en cuyo caso, si desean parar el juego, cada uno deberá tomar su propia apuesta, esto
decir, 32 pistolas, Entonces, si el primer jugador gana, este se queda con las 64 pistolas, si pierde se queda
con 32, solamente. Luego, si ellos no desean correr el riesgo de una última ronda y desean separarse del
juego, el primer jugador argumentaría lo siguiente: Estoy convencido que me corresponden 32 pistolas, aún
cuando pierda la ronda, ellas me pertenecen; con relación a las otras 32, existen las mismas posibilidades de
que sean para usted como para mí. Entonces dividamos estas 32 pistolas en partes iguales y déme una de
ellas, así como las 32 que de seguro son mías”. En resumen, al primer jugador le corresponden 48 pistolas y al
segundo 16; en otras palabras, Pascal propone que la apuesta se divida de acuerdo a las probabilidades que
tendrían los jugadores de ganar en caso de que el juego continuara.

* APUNTES DE HISTORIA DE LAS MATEMÁTICAS VOL.1, NO.1, ENERO 2002/ 61

En la misma carta, Pascal encuentra la distribución justa de la apuesta para otros casos usando el mismo tipo
de situaciones, con argumentos relativamente simples, pero se consideraron inadecuados en situaciones más
complicadas. En los intercambios con Fermat, Pascal propone una solución general al Problema de los
Puntos para juegos en los que participan dos personas, apoyándose en resultados sobre el triángulo aritmético,
que había obtenido en 1653. Así pues, Pascal dio dos soluciones al Problema de los Puntos: Una para casos
particulares y Otra de manera general, que en su opinión diferían de la solución de Fermat.

Dentro de sus grandes aportes a la probabilidad y en el análisis de las apuestas, surge el concepto de
Esperanza Matemática, a partir de argumentar que el cálculo de probabilidades es función de la esperanza
matemática que cada jugador tiene de ganar. Pero también dio los principios sobre la Teoría de la Decisión.

Pierre de Fermat, (1.601 – 1.665) Matemático y Jurista, nacido en Beaumont –
de – Lomagne (Francia), junto con Descartes, fue un de los principales
Matemáticos de la primera mitad del siglo XVII, descubrió el cálculo diferencial
antes que Newton y Leibniz, gestor de la teoría de probabilidad junto con
Pascal, pero es conocido también por sus aportes a la Teoría de Números,
especialmente el famoso “Ultimo Teorema de Fermat”, el cual fue resuelto en
1.995.

La correspondencia con Pascal sobre el problema planteado por el Caballero de
Meré. La carta original de Fermat, en la que se supone describe su método de
solución, se extravió; sin embargo, sus argumentos se han podido reconstruir de
una carta que Pascal envió a Fermat el 24 de agosto de 1654. El problema que
Fermat se plantea es el siguiente: * Dos individuos, A y B, que participan en una
serie de juegos se encuentran en la situación de que el primero necesita ganar dos juegos y el segundo tres
para ganar la apuesta; ¿cómo podemos encontrar la distribución justa de la apuesta?, en su planteamiento,
Fermat ya no hace referencia a los juegos ganados que tiene cada individuo sino a la cantidad de juegos que le
falta a cada uno para llevarse la apuesta completa. La solución de Fermat es la siguiente: El juego puede
continuarse a lo más en cuatro rondas. ¿Cuáles son los resultados posibles para estas cuatro rondas?
Indiquemos con el símbolo + las victorias de A y con el símbolo - las victorias de B. Existen 16 resultados
posibles, los cuales se describen en siguiente tabla.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
+ + + + - + + - + - - - - - + -
+ + + - + + - + - + - - - + - -
+ + - + + - + + - - + - + - - -
+ - + + + - - - + + + + - - - -



Página 95 de 175


De los 16 resultados posibles, las primeros 11 favorecen a A y los restantes a B. En consecuencia, al jugador A
le corresponden 11/16 de la apuesta y a B le corresponden 5/16. Es decir, la distribución justa de la apuesta es
11::5.

* APUNTES DE HISTORIA DE LAS MATEMÁTICAS VOL.1, NO.1, ENERO 2002 62

Los métodos de solución para el problema del Caballero de Meré, dados por Pascal y Fermat, eran similares,
por tal razón de les da el calificativo de gestores del cálculo de probabilidades.

Christiaan Huygens, (1.629 – 1.695) Matemático, Físico y Astrónomo, nacido
en La Haya (Holanda), en su libro “De ratiociniis in ludo aleae” publicado en
1.656, deja ver lo relacionado al cálculo de juegos de azar, considerado el
primer manual sobre Cálculo de Probabilidades. En éste deja ver la solución del
Problema de los Puntos de forma general con un método diferente a los
empleados por Pascal y Fermat, introduciendo formalmente el concepto de
Esperanza Matemática, como una generalización de la media aritmética.
También resolvió algunos problemas planteados por Pascal y Fermat.

Trabajó sobre problemas Demográfico – Actuariales, construyendo una curva
de mortalidad y definiendo claramente la noción de Vida Media y Esperanza de
Vida.

La obra de Huygens se considero la más importante aportación teórica de
probabilidad de dicho siglo, esto hizo ejercer gran influencia en los trabajos de
Bernoulli y De Moivre.


LA PROBABILIDAD MODERNA: El desarrollo de la probabilidad actual, fue dinamizada desde finales del siglo
XVII, al igual que en las épocas anteriores hubo varios investigadores que aportaron a tal fin. Veamos los más
representativos.

Jacob Bernoulli, (1.654 – 1.705) Matemático y Científico Suizo, hermano mayor
de Johann Bernoulli, de la dinastía Bernoulli. Su aporte fundamental se dio por
medio de su obra: Ars Conjectandi, el Arte de la conjetura, un trabajo relevante en
la Teoría de Probabilidad. La obra fue publicada por su sobrino Nicholas Bernoulli
en el año 1.713, ocho años después de su muerte. Por medio de este trabajo la
Probabilidad adquiere la categoría de Ciencia.

La obra esta compuesta de cuatro partes:

Primera Parte: Explicación crítica de la obra expresada por Huygens, usado por
Bernoulli para dar a conocer su punto de vista sobre los problemas de azar, así logró obtener la fórmula de la
Función de Probabilidad para esquemas dicotómicos con n repeticiones, conocida actualmente como la
“Distribución de Bernoulli”.
Segunda Parte: En esta parte Bernoulli, hace un completo manual sobre el tema de combinatoria, necesario
para resolver problemas de probabilidad, complementado los estudios realizados por Pascal y Leibniz.
Tercera Parte: Plantea 24 problemas diferentes de probabilidad con su respectiva solución.
Cuarta Parte: En esta parte están los aportes más relevantes para la
probabilidad. Por un lado explica la concepción subjetiva de Probabilidad,
por otro lado la demostración detallada del que se denomino Teorema
Aureo,, conocido actualmente como Ley de los Grandes Números.

Abraham De Moivre, (1.667 – 1.754) Matemático nacido en Champagne
(Francia) un Autodidacta, leyó y analizó el trabajo de Huygens. En 1.711


Página 96 de 175

publicó sus memorias “De mensura sortis” en latín en la revista Philosophical Transactions of the Royal
Society. En 1718, publicó su libro “The Doctrine of Chance: A method of calculating the probabilities of events
in play”. En dicha obra explicita el principio de la Independencia Estadística. Además, problemas de dados y
juegos. En la segunda edición de la obra publicada en 1.738 presenta el Teorema Límite para fenómenos
dicotómicos. Otro trabajo interesante de este matemático fue el que denominó “Miscellanea Analytica” donde
aparece la fórmula de Stirling que utilizó para derivar la curva normal como una aproximación a la distribución
Binomial. También logró obtener una aproximación para n!, equivalente a la obtenida por Stirling. Es
pertinente comentar que resultados tradicionalmente atribuidos a Laplace y Poisson, se encontraron en la obra
de De Moivre.

Daniel Bernoulli, (1.700 – 1.782) Matemático Suizo, hijo de John Bernouulli.
Daniel fue un de los más destacados matemáticos y científicos de la última
década del siglo XVIII. Una de sus principales trabajos fue la famosa paradoja
de San Petersburgo, relacionada con la teoría de probabilidad y de Decisión,
específicamente sobre la teoría para medir el Riesgo. Uno de los primeros
intentos para analizar estadísticamente problemas relacionados con data censal
fue el análisis que hizo Bernoulli en 1766 sobre la mortandad de la viruela y la
eficacia de la vacunación.
Pero la más importante aportación fue la famosa distribución llamada con su
nombre: Distribución de Bernoulli, es una distribución discreta de probabilidad,
para valores dicotómicos: p como éxito y q como fracaso.

Jean D’Alembert, (1.717 – 1.783) Matemático y físico Francés, planteó que en probabilidades muy pequeñas,
se podría considerar equivalente a cero, por lo cual, se podría asumir que dichos sucesos no ocurrirían. Su
teoría sobre “Ley de Equilibrio” supone un equilibrio de éxitos y fracasos de ciertos eventos, para una serie
larga de dichos eventos.

Thomas Bayes, (1.702 – 1.761) Matemático y Teólogo Británico, su obra no
reconocida en ese entonces, inicia con el planteamiento del siguiente
problema: Dado el número de veces en el cual un suceso desconocido tiene
lugar y ha fallado; se requiere la probabilidad de que la posibilidad de
ocurrencia en un único ensayo, este comprendida entre dos valores que
pueden ser dados. Otro aporte de su obra es la definición sobre relaciones
entre sucesos. Seguido enuncia y prueba siete teoremas. Pero el trabajo más
reconocido de Bayes es el reconocido y famoso “Teorema de Bayes”, que en
síntesis hace referencia a la probabilidad de un suceso condicionado por la
ocurrencia de otro. El teorema resuelve el problema conocido como “De la
probabilidad inversa”; es decir, valorar desde el punto de vista probabilistico,
las posibles condiciones que rigen el supuesto de haber observado cierto
suceso, situación denominada “de probabilidad inversa". Con este aporte se
da origen a la llamada Inferencia Bayesiana, cuyo principio es tomar la
probabilidad (Probabilidad Inductiva) como una creencia más que una
frecuencia, ya que se procura sacar conclusiones generales (enunciar leyes) a partir de lo objetivamente
observado, y no viceversa.

Adrien Marie Legendre, (1.752 – 1.833) Matemático Francés, fue uno de los primeros que aporto al desarrollo
de la probabilidad en los inicios del siglos XIX, inicialmente sobre los aportes al modelo lineal, por medio del
desarrollo del Método de Mínimos Cuadrados, que posteriormente fue perfeccionado por Gauss. El método es
muy utilizado para hacer estimación de parámetros.









Carl Friedrich Gauss
nacido en Brunswick (Alemania), considerado el Matemático más grande de la
Historia, ya que sus aportes han influenciado significativamente las Matemáticas
y las Ciencias en general. Entre los aportes a la probabilidad,
perfeccionamiento de método d
teoría de probabilidad, se incluyera el análisis de los errores en las
observaciones, desarrollo la muy conocida “
desarrollo la distribución muestral de medias en muestreo donde loa dat
provienen de distribuciones normales. Gauss es el padre de la moderna teoría
de errores.
Descubrió que la función de distribución de los errores es
También investiga sobre la distribución hiperg

Pierre Simon De Laplace, (1.749
Francés, se le llamó “El Newton de Francia
descubrimientos. Buen amigo de Napoleón, prominente matemático que con
sus descubrimientos y trabajos en el campo de la probabilidad, fueron de gran
impulso sobre la actual estadística. Su trabajo denominado “
des Probabilities” publicada en el año 1.912 y donde deja establecido la
definición básica de probabilidad, par
Otro aporte de su obra fue la definición de las
utilizado hoy día en teoría estadística. Profundizó sobre el método de mínimos
cuadraos y sobre demografía.
Pero se considera que la principal aportación que dejo Laplace fue la demostración rigurosa de uno de los
teoremas más importantes en estadística.
casos donde p no sea necesariamente ½, haciendo una completa demostra
posteriormente Poincaré llamo Ley Normal. En el año 1.814 escribe un trabajo fija una postura Filosófico
Metodológico sobre el concepto de Azar y el papel de la Probabilidad en situaciones en que el conocimiento del
Ser Humano no es completo. Laplace creó una curiosa fórmula para expresar la
saliera por el horizonte. Él decía que la probabilidad era:
sol ha salido en el pasado. Laplace decía que esta fórmula, que era conocida como la
aplicarse en todos los casos donde no se sabe nada.
Simeon Denis Poisson
(Francia) Alumno de Laplace y Lagrange, dentro de sus trabajos se conocen: La
ecuación de P
muy aplicados en diversos campos del conocimiento. Dentro de sus investigaciones
encontró la conocida “
de Bernoulli, especia
aquellos casos donde el número de repeticiones se hace suficientemente grande (n
→ α) y a su vez la probabilidad se acerca a cero (p
denominó “
Raros”.
Página 97 de 175
Carl Friedrich Gauss, (1.777 – 1.855) Matemático, Astrónomo y Físico,
ido en Brunswick (Alemania), considerado el Matemático más grande de la
Historia, ya que sus aportes han influenciado significativamente las Matemáticas
y las Ciencias en general. Entre los aportes a la probabilidad,
perfeccionamiento de método de Mínimos Cuadrados, considero que en la
teoría de probabilidad, se incluyera el análisis de los errores en las
observaciones, desarrollo la muy conocida “Ley Normal
desarrollo la distribución muestral de medias en muestreo donde loa dat
provienen de distribuciones normales. Gauss es el padre de la moderna teoría
de errores.
Descubrió que la función de distribución de los errores es
2
2
( )
x
h
e
x
h
ϕ
π

= , la célebre campana de Gauss.
También investiga sobre la distribución hipergeométrica y sobre estimadores.
, (1.749 – 1.827) Matemático, Astrónomo y Físico
El Newton de Francia” por algunos de sus
descubrimientos. Buen amigo de Napoleón, prominente matemático que con
ientos y trabajos en el campo de la probabilidad, fueron de gran
impulso sobre la actual estadística. Su trabajo denominado “Thèorie Analytique
” publicada en el año 1.912 y donde deja establecido la
definición básica de probabilidad, partiendo del principio de razón insuficiente.
Otro aporte de su obra fue la definición de las Funciones Generatrices, muy
utilizado hoy día en teoría estadística. Profundizó sobre el método de mínimos
incipal aportación que dejo Laplace fue la demostración rigurosa de uno de los
teoremas más importantes en estadística. Teorema Límite. Laplace extiende el teorema de De moivre a otros
no sea necesariamente ½, haciendo una completa demostración de convergencia, que
posteriormente Poincaré llamo Ley Normal. En el año 1.814 escribe un trabajo fija una postura Filosófico
Metodológico sobre el concepto de Azar y el papel de la Probabilidad en situaciones en que el conocimiento del
no es completo. Laplace creó una curiosa fórmula para expresar la probabilidad
ía que la probabilidad era: (d + 1) / (d + 2), donde d es el número de días que el
sol ha salido en el pasado. Laplace decía que esta fórmula, que era conocida como la
aplicarse en todos los casos donde no se sabe nada.
Simeon Denis Poisson, (1.781 – 1.840) Matemático y Físico, nacido en Sceaux
(Francia) Alumno de Laplace y Lagrange, dentro de sus trabajos se conocen: La
ecuación de Poisson, Ley de Poisson, Distribución de Poisson, procesos Poisson,
muy aplicados en diversos campos del conocimiento. Dentro de sus investigaciones
encontró la conocida “Ley de los Grandes Números”, la cual supera el teorema límite
de Bernoulli, especialmente sobre la convergencia de la distribución Binomial, en
aquellos casos donde el número de repeticiones se hace suficientemente grande (n
) y a su vez la probabilidad se acerca a cero (p → 0). Dicha distribuci
denominó “Ley de los Pequeños Números” y posteriormente “Ley de los Sucesos
1.855) Matemático, Astrónomo y Físico,
ido en Brunswick (Alemania), considerado el Matemático más grande de la
Historia, ya que sus aportes han influenciado significativamente las Matemáticas
y las Ciencias en general. Entre los aportes a la probabilidad, está el
e Mínimos Cuadrados, considero que en la
teoría de probabilidad, se incluyera el análisis de los errores en las
Ley Normal” o Ley de Gauss,
desarrollo la distribución muestral de medias en muestreo donde loa datos
provienen de distribuciones normales. Gauss es el padre de la moderna teoría
, la célebre campana de Gauss.
incipal aportación que dejo Laplace fue la demostración rigurosa de uno de los
. Laplace extiende el teorema de De moivre a otros
ción de convergencia, que
posteriormente Poincaré llamo Ley Normal. En el año 1.814 escribe un trabajo fija una postura Filosófico –
Metodológico sobre el concepto de Azar y el papel de la Probabilidad en situaciones en que el conocimiento del
probabilidad de que el Sol
es el número de días que el
regla de sucesión, podía
1.840) Matemático y Físico, nacido en Sceaux
(Francia) Alumno de Laplace y Lagrange, dentro de sus trabajos se conocen: La
oisson, Ley de Poisson, Distribución de Poisson, procesos Poisson,
muy aplicados en diversos campos del conocimiento. Dentro de sus investigaciones
”, la cual supera el teorema límite
lmente sobre la convergencia de la distribución Binomial, en
aquellos casos donde el número de repeticiones se hace suficientemente grande (n
0). Dicha distribución se le
” y posteriormente “Ley de los Sucesos


Página 98 de 175

Para completar este recorrido por la historia de la probabilidad, no podemos olvidar los aportes relevantes de la
Escuela de San Petersburgo (Rusia), que dejo marcado el camino de la probabilidad de manera robusta.

Pafnuttii Lvovich Chebychev, (1.821 – 1.894) Nacido en Okatovo (Rusia).
En 1.846 defendió su tesis "Un intento de análisis elemental de la teoría
probabilística". Es conocido por su trabajo en el área de la probabilidad y
estadística. La desigualdad de Chebychev dice que la probabilidad de que una
variable aleatoria esté a una distancia de su media en más de a veces, la
desviación típica es menor o igual que 1/a
2
. Si E(X) es la media (esperanza
matemática) y σ es la desviación típica, entonces:
( )
2
1
( ) P X E X a
a
σ − ≥ ≤ para todo número real positivo a. La desigualdad
de Chebychev se emplea para demostrar que la ley débil de los grandes
números.

Andreí Markov, (1.856 – 1.922) nació en Ryazán (Rusia) Fue discípulo de
Chebychev, se doctoró en la Universidad de San Petersburgo. Se le recuerda
por sus resultados relacionados con la Teoría de Probabilidad, en el año
1.887 completo una demostración que le permitió generalizar el Teorema
Central del Límite, el cual había trabajo con anterioridad Chebychev. Se le
conoce más por su trabajo sobre los llamados Procesos Estocásticos,
fenómenos aleatorios que fueron analizados y concentrados en los llamados
“Procesos de Markov” y específicamente las Cadenas de Markov. Una
herramienta esencial en áreas como la Economía, Ingeniería, Investigación de
Operaciones y muchas más. Permite analizar fenómenos aleatorios a través
del tiempo y pronosticar a corto plazo.

Richard Von Mises, (1.883 – 1.953) Matemático nacido en Lemberg (Austria),
profesor de las Universidad de Berlín y Harvard. Su obra denominada:
“Fundamentos del Cálculo de Probabilidades” publicada en 1.919 y donde hace
referencia a las frecuencias relativas y a partir de esto planteó la definición
frecuentista de probabilidad tal y como se conoce en la actualidad. Uno de sus
estudios sobre Teoría de las probabilidades: Problema del Cumpleaños, cuyo
principio es que si se elige en un grupo aleatoriamente un par de personas, la
probabilidad de que coincidan en sus cumpleaños. En un grupo de 23 o más
personas elegidas aleatoriamente, hay una probabilidad superior al 50% que
cierto par de personas tendrá el mismos cumpleaños.

Entre sus escritos se rescatan: Teoría matemática de la probabilidad y de la estadística, Nueva York, prensa
académica, 1964. y Probabilidad y estadística, generales, Society matemática americana, 1964.



Página 99 de 175

Andrei Nikoláyevich Kolmogorov, (1.903 – 1.987) Matemático, nacido en
Tambor (Rusia), desarrollo la base axiomática, el cual fue el pilar de la Teoría
de Probabilidad, a partir de la teoría de conjuntos. En 1.993 publica su libro
“Los Fundamentos de la Teoría de la Probabilidad” en donde se dejan sentadas
las bases modernas de la teoría axiomática de probabilidad, adquiriendo
reputación como experto en dicha área. En 1.938 por medio de un documento
deja ver algunos teoremas básicos de alisado y predicción de procesos
estocásticos estacionarios, lo cual fue muy útil en aspectos militares, durante la
guerra fría. En la misma línea de los procesos estocásticos, (Procesos
Aleatorios) basado en los estudios de Markov, el Matemático Británico
Chapman y los suyos propios, desarrolló de manera independiente el conjunto
de ecuaciones fundamentales de dicha área, conocidas como “Ecuaciones de
Chapman – Kolmogorov”.
Este matemático Ruso, aporto a diversas áreas de conocimiento, respecto a la Probabilidad, se le reconoce los
trabajos sobre: Los Tres Axiomas de Kolmogorov, son la base de la teoría de probabilidad axiomática y más
aceptada en la actualidad. Prueba de Kolmogorov – Smirnov, prueba no paramétrica para determinar la
bondad de ajuste de dos distribuciones de probabilidad entre ellas. La ecuación de Chapman – Kolmogorov,
que dentro de los procesos estocásticos markovianos, se considera una identidad sobre las distribuciones de
probabilidad conjunta. La Ley Cero – Uno de Kolmogorov, hace referencia a que cierto tipo de evento, llamado
“Evento de Cola”, que son aquellos definidos por una sucesión infinita de eventos independientes, el valor dado
a estos eventos son cero o uno.
Es evidente que existen otros investigadores, que han aportado a la teoría de probabilidad, especialmente a la
teoría moderna.
Emile Borel, (1.871 – 1.956), Matemático y Político Francés, fue uno de los pioneros de la
conocida “Teoría de la Medida” y sus aplicaciones a la Teoría de Probabilidad En un de sus
libros sobre probabilidad, introduce el experimento mental; conocido popularmente como
Teorema de los infinitos Monos. También publico investigaciones sobre la teoría de juegos.

Lección 14: Experimento Aleatorio.

Fenómenos Aleatorios: Son todos que aunque se repiten en las mismas condiciones, un resultado
específico NO se puede determinar de antemano. En este tipo de fenómenos, lo único que se puede conocer
son todos los posibles resultados. Algunos ejemplos.
1. Lanzar un dado o una moneda y obtener un número de 1 a 6, o, cara / sello.
2. El número de defectuosos en una línea de producción.
3. La cantidad de llamadas recibidas en una central telefónica por hora.
4. El tiempo de atención de un cliente en un Banco.

Seguido analizaremos algunos conceptos importantes en probabilidad.


Modelo Matemático: Desde la perspectiva de probabilidad, un modelo es una expresión matemática,
usada para estudiar los resultados de un experimento, donde se busca establecer la probabilidad de ocurrencia
de un evento, utilizando el modelo propuesto.



Página 100 de 175

Experimento: Son fenómenos en los cuales se pueden tomar datos y donde un resultado en particular, NO
se puede saber de antemano. Los experimentos que nos ocupan en este curso, son los llamados aleatorios.
Fenómenos como sacar una carta de una baraja, elegir un estudiante según alguna característica definida,
medir la cantidad de lluvia en un lugar y tiempo determinado, otros muchos.

Evento: También llamado suceso, se considera el resultado o resultados de un experimento, los cuales
pueden ser simples o compuestos. Por lo anterior, un evento es un subconjunto del espacio muestral.
a-) Evento Simple: Cuando el resultado es uno solo. Tal es el caso de sacar un 2 al lanzar un dado, obtener
cara al lanzar una moneda, obtener un rey al sacar un carta de una baraja. A todo evento de este tipo se le
llama, eventos elementales.
b-) Eventos Compuestos: Son todos aquellos que están conformados por eventos elementales, los cuales se
obtienen utilizando operaciones entre conjuntos. Ejemplos de este tipo: Obtener número par al lanzar un dado,
obtener un dos al sacar una carta de una baraja.

Espacio Muestral: (E) Se considera al conjunto de todos los posibles resultados de un experimento
aleatorio. Es precisamente el conocer todos los posibles resultados, lo que hace a un fenómeno aleatorio. Los
espacios muestrales se pueden determinar utilizando el conocido Diagrama de Árbol o las técnicas de conteo,
cuando el número de eventos son muy grandes.

Ejemplo No 1:

En el experimento de lanzar un dado: E = (1, 2, 3, 4, 5, 6)
En el experimento de lanzar una moneda: E = (cara. Sello)
En el experimento sacar una carta de la baraja: E = (4 ases, bastos, espadas,… )
En el experimento de sacar una bola de una caja: E = (número de bolas que esta en la caja)


Lección 15: Principios matemáticos.

Por la importancia que tienen las operaciones entre conjuntos en el análisis de probabilidad, es pertinente
hacer un repaso de los mismos.

Conjunto: Se define como una colección de elementos, que desde la teoría de probabilidad se le conoce como
observaciones. Si el número de elementos es finito, el conjunto será finito, pero si el número de elementos es
infinito y tiene relación biunívoca con los números naturales, se le conoce como conjunto infinito numerable.
Los conjuntos se denominan con letras mayúsculas y los elementos con letras minúsculas.

Ejemplo No 2:

A = {a, b, c, d, e} Finito.
B = {1, 2, 3,...} Infinito numerable.

Contenencia: Un conjunto puede tener subconjuntos, que se relacionar por medio de la contenencia. Sea el
conjunto U y sea el conjunto S, se dice que S es subconjunto de U, si cada elemento de S, pertenece a U,
luego: ܵ ⊆ ܷ, lo que significa que S esta contenido en U.



Página 101 de 175



Según la gráfica: ܣ ⊆ ܷ, ܥ ⊆ ܤ, ܤ ⊆ ܷ.
Todo conjunto S es subconjunto de si mismo. ܤ ⊆ ܤ.

Igualdad de Conjuntos: Sean los conjuntos S
1
y S
2
, si cada elemento de S
1
pertenece a S
2
y viceversa,
entonces se dice que S
1
= S
2
. Por consiguiente: ܵ

⊆ ܵ

y ܵ

⊆ ܵ

.

Conjunto Vacio: Cuando un conjunto no tiene elementos, se dice que es vacio. S = {Ø}. Para todo conjunto
universal. El conjunto vacio es subconjunto de todos los conjuntos y en particular de si mismo. ∅ ⊆ ܷ, ∅ ⊆ ܣ,
∅ ⊆ ∅.

Operaciones entre Conjuntos: Para los intereses de la teoría de probabilidad, analizaremos las operaciones
de unión, intersección y complemento.

UNION: Sean S
1
, S
2
,…, S
n
, una serie de conjuntos, entonces la unión de éstos es otro conjunto compuesto por
los elementos comunes y no comunes de todos.
ܧ = ሺ⋃ ܵ


௜ୀଵ
ሻ Para i = 1, 2, 3,..., n
E es un conjunto cuando aparece S
1
, ó S
2
,…, ó S
n
.
Consecuencia de esto:
1. ܵ ∪ ∅ = ܵ.
2. ܵ ∪ ܧ = ܧ. Cuando ܵ ⊆ ܧ
3.∅ ∪ ∅ = ∅.

INTERSECCIÓN: Sean S
1
, S
2
,…, S
n
, una serie de conjuntos, entonces la intersección de éstos es otro conjunto
compuesto por los elementos comunes de todos los conjuntos.
ܫ = ሺ⋂ ܵ


௜ୀଵ
ሻ Para i = 1, 2, 3,..., n
I es un conjunto cuando aparece simultáneamente S
1
, y S
2
,…, y S
n
.
Consecuencia de lo anterior:
1. ܵ ∩ ∅ = ܵ.
2. ∩ ܧ = ܵ. Cuando ܵ ⊆ ܧ
3.∅ ∩ ∅ = ∅.

DIFERENCIA: Dados los conjuntos A y B, entonces ܣ −ܤ = ܣ ∩ ܤ′
Esto significa la diferencia son los elementos que están en A y no están en B.

COMPLEMENTO: Sean S y U dos conjuntos tales que ܵ ⊆ ܷ. Entonces S’ es el complemento de S, si y solo
si, ܵ ∪ ܵ′ ⊆ ܷ. Se debe aclarar que ܵ′ ⊆ ܷ. Siendo U el conjunto universal. Consecuencia de esto:
1. ܵ ∪ ܵ′ = ܷ.
2. ܵ ∩ ܵ

= ∅.

Propiedades de las Operaciones: Veamos las siguientes propiedades cuando se operan conjuntos.
Conmutativa: ܵ

∪ ܵ

= ܵ

∪ ܵ

. ܵ

∩ ܵ

= ܵ

∩ ܵ

.


Página 102 de 175

Asociativa: ܵ

∪ ሺܵ

∪ ܵ

ሻ = ሺܵ

∪ ܵ

ሻ ∪ ܵ

.
Distributiva: ܵ

∩ ሺܵ

∪ ܵ

ሻ = ሺܵ

∩ ܵ

ሻ ∪ ሺܵ

∩ ܵ

ሻ.
ܵ

∪ ሺܵ

∩ ܵ

ሻ = ሺܵ

∪ ܵ

ሻ ∩ ሺܵ

∪ ܵ

ሻ.
Complemento: ሺܵ



= ܵ.
ሺܵ

∩ ܵ

ሻ′ = ܵ′

∪ ܵ′

y ሺܵ

∪ ܵ

ሻ′ = ܵ′

∩ ܵ′



Propiedades aplicadas a la teoría de probabilidad.
ܲሺܣ

∩ ܤ

ሻ = 1 − ሾܲሺܣሻ + ܲሺܤሻ − ܲሺܣ ∩ ܤሻሿ
ܲሺܣ

∩ ܤ

ሻ = ܲሺܣ′ሻ ∗ ܲሺܤ′ ∣ ܣ′ሻ
ܲሺܣ

∩ ܤ

ሻ = ܲሺܤ′ሻ ∗ ܲሺܣ′ ∣ ܤ′ሻ
ܲሺܣ ∩ ܤ

ሻ = ܲሺܣሻ − ܲሺܣ ∩ ܤሻ
ܲሺܣ

∪ ܣ

ሻ ≤ ܲሺܣ

ሻ + ܲሺܣ




Lección 16: Definición de probabilidad.

La probabilidad se ha definido desde tres enfoques: El cásico, el frecuentista y el axiomático.

Enfoque Clásicas de Probabilidad: En la segunda mitad del siglo XVII se hacen los primeros intentos para
medir la probabilidad de un evento, entre los pioneros se tienen a Pascal, Fermat, Huygens, Bernoulli, Leibniz
entre otros. Pero la definición formal se le debe al gran matemático Laplace.

DEFINICIÓN: Pierre Simon Laplace, en 1.812 define la probabilidad como el cociente entre el número de
eventos favorables y el número de eventos totales, siempre que todos aquellos tangan la misma probabilidad
de ocurrencia.

ࡼሺࢄሻ =


n = Casos favorables, N = Casos totales y ݊ ≤ ܰ.

La característica fundamental de esta teoría, es que todos los eventos del espacio muestral E, tiene la misma
probabilidad.


Ejemplo:

Al lanzar un dado, cual es la probabilidad de obtener el 4.

Solución:

El espacio muestral S = (1, 2, 3, 4, 5, 6)
La probabilidad de ocurrencia es igual para todos los elementos del espacio muestral: 1/6
P(X=4) = 1/6

Propiedades:
A partir del enfoque clásico se origina tres propiedades fundamentales de probabilidad.

1. ܲሺܵሻ ≥ 0. Como la probabilidad es un cociente entre dos números positivos, donde el numerador puede ser
cero o positivo, entonces NO puede haber probabilidades negativas.

2. ܲሺܵሻ ≤ 1. El número de eventos favorables no puede ser mayor al número de eventos totales; a lo sumo
igual, por tal razón lo máximo del cociente será uno.

3. 0 ≤ ܲሺܵሻ ≤ 1. La probabilidad de un evento está acotada entre cero y uno.



Página 103 de 175

Limitaciones: En el enfoque clásico, los fenómenos que están bajo esta connotación, son ideales, como el caso
del dado, la moneda, las cartas y otros, ya que no existe dados ideales, tampoco monedas ideales, tales como
su simetría, propiedades físicas y forma perfecta, igual para el caso de las cartas. Así el enfoque clásico esta
delimitado al mundo matemático, ya que sólo admite objetos ideales. En la misma línea, éste enfoque asume
eventos totales finitos, lo que limita su aplicabilidad.

Enfoque Frecuentista de Probabilidad: El principio frecuentista o “Regularidad Estadística” fue establecida
formalmente por Von Mises en 1.919, cuyo fundamento está soportado en dos principios:
Primer Principio: La experiencia de la regularidad en las frecuencias relativas, se le conoce como Regularidad
Estadística, cuyo fundamento es que a pesar de la irregularidad de los resultados individuales, los resultados
promedios en largas sucesiones de experimentos aleatorios, muestra una sorprendente regularidad. Esto
significa que en las repeticiones a largo plazo, se observa una regularidad en el fenómeno.
Segundo Principio: En la teoría estadística, la probabilidad es objetiva, lo que indica que la probabilidad tiene
propiedades como que es determinable y es medible.

Desde esta teoría, se requiere realizar el experimento, por lo cual se le ha llamado también Probabilidad
Empírica. Con estos principios, se define el enfoque frecuentista, en dos partes.

Definición No 1: La frecuencia absoluta de un evento en el desarrollo de un experimento aleatorio; cuando
éste se repite N veces en forma independiente, es la cantidad n de apariciones del evento. Así la frecuencia
relativa, es el cociente entre la frecuencia relativa y el número de ensayos. ݂ =



Definición No 2: La probabilidad desde le punto de vista frecuentista, esta definida como el límite; cuando el
número de repeticiones se hace infinita, del cociente entre la frecuencia absoluta y el número de ensayos.
ܲሺܵሻ = lim
ே→ஶ





Limitaciones: La teoría frecuentista también tiene ciertas limitaciones. En primera instancia, el concepto de
límite utilizado en la definición, supone que el número total de eventos del experimento denotado con N alcance
el infinito, caso que en la realidad no ocurre, con esto la estabilidad de las frecuencias es un enunciado
imposible, desde la demostración matemática. Por otro lado, el uso de sucesión infinita en eventos aleatorios
no es suficiente, ya que matemáticamente los términos de las sucesiones siguen una ley inexorable; es decir, a
partir del término general todos los términos quedan definidos claramente.


Enfoque Axiomático de Probabilidad: Las limitaciones de los enfoques clásicos y frecuentista, condujeron a
buscar una teoría de probabilidad más amplia y soportada en principios matemáticos sólidos y verificables
lógicamente. Fue así como en 1.933 Kolmogorov planteó su teoría de probabilidad desde la axiomática.

Para analizar el enfoque axiomático de Kolmogorov, se debe analizar dos situaciones previas, que permitirá
comprender mejor dicho enfoque.

1. Limitaciones del Enfoque Axiomático: El planteamiento axiomático de Kolmogorov presenta la limitación
de no ofrecer un método práctico de obtención de probabilidad de eventos aleatorios en el mundo real, para
eliminar dicha limitación Kolmogorov estableció una conexión del modelo matemático con el mundo real, para
lo cual utilizó la base empírica de la teoría frecuentista. Él considero que si un experimento aleatorio se repite
gran cantidad de veces, la frecuencia relativa de un evento difiera ligeramente de la probabilidad del evento.
En términos de FISZ: La axiomática del cálculo de probabilidades formaliza ciertas regularidades de las
frecuencias relativas del ocurrimiento de un evento aleatorio, regularidad que se observa a través de una larga
serie de ensayos, realizados bajo condiciones constantes.

2. Algebra de Sucesos: Existen muchos experimentos cuyos números de eventos planteados es superior a
los eventos elementales que se definen en el espacio muestral. Los eventos compuestos se definen a partir de
los eventos elementales, por medio de operaciones entre conjuntos como la unión, intersección y
complemento. El conjunto obtenido presenta una estructura de álgebra. El álgebra incluye el evento
imposible y el evento cierto.


Página 104 de 175


Ejemplo:

Sea el espacio muestral definido como: E = {a, b, n}. Hallar el álgebra generada.

Solución:

Álgebra: Ω = {{Ø}, {a}, {b}, {n}, {a, b}, {a, n}, {b, n}, {a, b, n}}
En la solución obtenida se observa el evento imposible y el evento cierto.

DEFINICIÓN: Sea E el espacio muestral integrado por los eventos elementales, sea A una colección de
subconjuntos de E; llamados eventos aleatorios, entonces:

1. El espacio muestral E debe pertenecer a A: ܧ ⊂ ܣ.
2. Si un suceso B pertenece a A, entonces su complemento también pertenece a A. Consecuencia de esto E
también cumple la condición; es decir, el conjunto vacio.
ܤ ⊂ ܣ. Entonces B’⊂ ܣ. ܧ ⊂ ܣ. Entonces ∅ ⊂ ܣ.
3. Sean S
1
y S
2
, subconjuntos de A, entonces la unión pertenece a A y por las leyes de De Morgan, la
intersección también pertenece a A.
ܵ

∪ ܵ

⊂ ܣ. y ܵ

∩ ܵ

⊂ ܣ.

Álgebra de Boole: Toda colección Ω que cumpla las tres condiciones anteriores (1, 2, 3) se le llama álgebra de
Boole, dado para un número finito de eventos.

σ – álgebra: Si se tiene una serie de Eventos Infinitos, pero numerables, S
1
, S
2
, … , S
n
que pertenecen a E,
entonces:
ራܵ


௜ୀଵ
⊂ ܣ.ݕ ሩܵ


௜ୀଵ
⊂ ܣ.

A la colección se le conoce como sigma algebra (σ-álgebra) representada por Ω, la cual reúne todos los
posibles eventos del experimento aleatorio.
Al par (S, Ω) se le conoce como Espacio Probabilizable o medible.

Ejemplo:

Sea E = {1, 2, 3}. Hallar el σ-álgebra completa generada.

Solución:

Ω = ({Ø}, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}).

En la solución se observa los eventos elementales y los compuestos.

Con los precedentes, ya se puede plantear el enfoque axiomático.

Teoría Axiomática de Kolmogorov:

Esta teoría se soporta en tres axiomas.

Axioma No 1: Si E es un elemento de una σ-álgebra (Ω), existe un número P(E) ≥ 0. Llamado probabilidad del
evento E.

Axioma No 2: Si E es el espacio muestral de un experimento aleatorio, entonces P(E) = 1.



Página 105 de 175

Axioma No 3: Sean los eventos numerables S
1
, S
2
,…, S
n
los cuales son disyuntos dos a dos. ܵ

∩ ܵ

= ߶
Entonces:
ܲሺ⋃ ܵ


௜ୀଵ
ሻ = ∑ ܲሺܵ



௜ୀଵ
A la tripleta (S, Ω, P) se le llama Espacio de Probabilidad.


Ejemplo:

Sea E = {1, 2, 3}. Asumiendo que P(X=1) =3/12, P(X=2) = 4/12, P(X=3) = 5/12. Hallar Ω y P.

Solución:
Utilicemos el siguiente esquema que nos ayuda a comprender el problema.

E Ω P

{Ø} 0

1 {1} 3/12
2
{2} 4/12

{3} 5/12

{1, 2} 7/12

{1, 3} 8/12

{2, 3} 9/12

{1, 2, 3} 1




Ejemplo:

Realizar las siguientes operaciones
a-) ܣ ∪ ܣ
b-) ܣ ∩ ܣ
c-)ܣ ∪ Ω
d-)ܣ ∩ Ω
e-)ܣ ∩ ܤ = ܣ ∪ ܤ ↔ ܣ =?
f-) ሺܣ ∩ ܤ = ∅ ∧ ܤ ∪ ܣ = Ωሻ ↔ ܤ =?

Solución:
a-) ܣ ∪ ܣ = ܣ
b-) ܣ ∩ ܣ = ∅
c-)ܣ ∪ Ω = Ω
d-)ܣ ∩ Ω = ܣ
e-)ܣ ∩ ܤ = ܣ ∪ ܤ ↔ ܣ = ܤ
f-) ሺܣ ∩ ܤ = ∅ ∧ ܤ ∪ ܣ = Ωሻ ↔ ܤ = ܣ′


1

2

3




Página 106 de 175

CAPITULO 5: TÉCNICAS DE CONTEO

Lección 17: Principio fundamental del conteo

Regla de la Suma: La regla de la suma se utiliza cuando un evento se puede hacer de m ó n formas
diferentes; además, NO es posible que ocurra el mismo evento de dos maneras distintas y al mismo tiempo.



Definición: Sea A un evento que se puede hacer de n
1
formas, sea B un evento que se puede hacer de n
2

formas, donde NO es posible que ocurra el mismo evento de dos maneras diferentes al mismo tiempo, por
consiguiente el número de veces que se puede realizar el evento esta dado por la siguiente expresión:

N
o
Maneras Diferentes = n
1
+ n
2


Este tipo de eventos son mutuamente excluyentes.

Ejemplo:

Un ciudadano debe pagar el recibo del agua, para hacerlo puede utilizar 4 bancos, 3 agencias de pago y 2
oficinas privadas. ¿Cuántas opciones para pagar tiene el ciudadano?

Solución:

No Formas Diferentes = 4 + 3 + 2 = 9 opciones para pagar.

Ejemplo:

Una persona que esta predispuesta a ver televisión un domingo a las 3 p. m. observa la programación, para lo
cual puede ver 4 partidos de fútbol, 3 películas de acción y 2 programas culturales. ¿Cuantas posibilidades
tiene la persona para ver televisión?

Solución:
No Formas Diferentes = 4 + 3 + 2 = 9 opciones para pagar.

Ejemplo:

En una compañía se desea codificar los Lokers de los empleados, para signar a cada uno su respectivo Loker.
El gerente decide utilizar los números dígitos y las letras del alfabeto ¿Cuantos códigos se pueden crear, si
éste puede ser dígito, letra o combinación de los dos, no importa que primero sea letra o número?

Solución:
Número de dígitos = 10


Página 107 de 175

Número de letras = 26
Número o Letra = 10 + 26
Combinación = 26*10 ó 10*26
Cantidad de Códigos = 10 + 26 + (26*10) + (10*26) = 556 opciones.

Ejemplo:

Jorge Leonardo debe matricular el próximo semestre un curso de Matemáticas o un curso de Idiomas en el
mismo horario; de Matemáticas cuatro profesores que orientan el curso y de Idiomas hay tres profesores;
además, debe matricular Estadística; con tres profesores disponibles y Ética con dos profesores disponibles.
¿De cuantas formas se puede organizar el horario de clase Jorge Leonardo?

Solución:
Para Matemáticas = 4
Para Idiomas = 3
Estadística y Ética = 3*2
Cantidad de formas para organizar el horario = 4 + 3 + (2*3) = 13 opciones.

Ejemplo:

Un Restaurante tiene como plato principal pescado, pero se debe preparar de una sola forma de las siguientes:
Cuatro formas de hacerlo frito, tres formas de hacerlo sudado y dos formas de hacerlo horneado ¿Cuantas
formas tiene el restaurante de preparar el pescado?

Solución:
Frito = 4
Sudado = 3
Horneado = 2
Cantidad de formas para prepararlo = 4 + 3 + 2 = 9 opciones.


La Regla del Exponente: Se tiene un tipo de combinaciones o arreglos ordenados, en donde se admite
reemplazo.

Definición: Sea un conjunto con N elementos, se desea obtener un subconjunto de n elementos, de tal
manera que cualquier elemento se puede reemplazar, entonces el número de subconjuntos de n elementos
posibles será:

No Arreglos = N
n


Los casos más conocidos son el lanzamiento de una moneda y de un dado.

Ejemplo:

En el lanzamiento de una moneda ¿Cuántos casos posibles se obtiene en los siguientes procesos:
a- Tres lanzamientos
b- Cinco lanzamientos

Solución:

a- Para tres lanzamientos: N = 2 y n = 3, entonces: 2
3
= 8 casos posibles.
b- Para cinco lanzamientos: N = 2 y n = 5, entonces: 2
5
= 32 casos posibles.

Ejemplo:



Página 108 de 175

En el lanzamiento de un dado ¿Cuántos casos posibles se obtiene en los siguientes procesos:
c- Dos lanzamientos
d- Cuatro lanzamientos

Solución:
c- Para dos lanzamientos: N = 6 y n = 2, entonces: 6
2
= 36 casos posibles.
d- Para cinco lanzamientos: N = 6 y n = 4, entonces: 6
4
= 1.296 casos posibles.

Ejemplo:

Una ruleta consta de los colores blanco, rojo, azul y amarillo ¿Cuántos casos posibles se obtiene en los
siguientes intentos:
e- Tres intentos
f- Cinco intentos

Solución:
e- Para tres intentos: N = 4 y n = 3, entonces: 4
3
= 64 casos posibles.
f- Para cinco intentos: N = 4 y n = 5, entonces: 4
5
= 1.024 casos posibles.


Lección 18: Regla de la multiplicación

La regla de la multiplicación se aplica en situaciones en donde se tienen varios grupos diferentes de eventos y
se desea obtener uno agrupado.



Definición: Sea A un evento que se puede hacer de n
1
formas, sea B un evento que se puede hacer de n
2

formas y sea C evento que se puede hacer de n
3
formas, el número de veces que se puede hacer
simultáneamente A, B y C está dado por la siguiente expresión:

N
o
Acciones Conjuntas = n
1
*n
2
*n
3


Ejemplo:

Un Artista tiene 4 vestidos y 3 pares de zapatos, ¿De cuantas formas se puede vestir el Artista?

Solución:
Sea A = 4 vestidos y B = 3 pares de zapatos. Entonces:
N
o
Formas de Vestir = 4*3 = 12 formas diferentes.

Ejemplo:

En un concesionario hay autos de dos y cuatro puertas, de rines de lujo y niquelados; además, hay de color
rojo, azul y plateado. ¿Cuántas formas diferentes de exhibición tiene el concesionario?

Solución:

Sea A = Número de puestas, B = Tipo de rines y C = Color del auto. Entonces:
N
o
Formas de exhibición = 2 * 2 * 3 = 12 formas diferentes de exhibición.


Página 109 de 175


Ejemplo:

Un experimento consiste en lanzar un dado y luego seleccionar aleatoriamente una letra del alfabeto.
¿Cuántas observaciones habrá en el espacio muestral?

Solución:
Sea A = Elementos del dado: 6 y B = Letras del alfabeto: 26. Entonces:
Elementos del espacio muestral = 6*26 = 156 elementos diferentes
Si se expresa por extensión el espacio muestral: E = [(1,a),(1,b),(1,c),…,(6,y),(6,z)]

Ejemplo:

En un plan turístico, a los turistas se les ofrece seis recorridos por día, el plan es de cuatro días y hay doce
sitios diferentes para visitar. ¿De cuantas formas diferentes puede un turista disfrutar el paseo?

Solución:
Sea A = Número de recorridos, B = Número de días y C = Número de sitios a visitar.
N
o
Formas de disfrutar el paseo = 6 * 4 * 12 = 288 formas diferentes de disfrutar el paseo.

Ejemplo:

Un billete de lotería consta de 4 cifras de números, los cuales se pueden repetir y una serie que corresponde a
una letra. ¿Cuántos billetes de lotería se pueden imprimir?

Solución:

CIFRA 1 CIFRA 2 CIFRA 3 CIFRA 4 SERIE
10 10 10 10 26

10*10*10*10*26 = 260.000 Billetes

Ejemplo:

Las placas de un carro constan de 3 letras y tres números, las cuales se pueden utilizar más de una vez.
¿Cuántas placas se pueden emitir?

Solución:

LETRA 1 LETRA 2 LETRA 3 NÚMERO 1 NÚMERO 2 NÚMERO 3
26 26 26 10 10 10

26*26*26**10*10*10 = 17’576.000 Placas.


Lección 19: Permutaciones y variaciones


Las Permutaciones: Las permutaciones se pueden utilizar para encontrar el número de arreglos posibles en
un solo conjunto de objetos. Por medio de las permutaciones se puede determinar los resultados posibles en
forma Ordenada o arreglada de maneras diferentes.



Página 110 de 175

Definición: Si se tiene n objetos diferentes y se desean ordenar, entonces para el primer puesto se tienen n
posibilidades, para el siguiente puesto (n – 1) posibilidades, para el último puesto se tiene sólo una posibilidad,
luego: El Número de permutaciones de n objetos diferentes sin repetición es dela forma: P
n
= n!

Por definición 0! = 1.

Ejemplo:

En un equipo de baloncesto de cinco jugadores ¿De cuantas formas se puede alinear el equipo para un
partido?

Solución:
Como se requiere alinear el equipo, es pertinente el orden de los jugadores dentro de la cancha.
PRIMER PUESTO SEGUNDO PUESTO TERCER
PUESTO
CUARTO PUESTO QUINTO PUESTO
5 4 3 2 1

Por la definición: 5! = 120 formas de alinear el equipo.

Ejemplo:

A una fiesta asisten 4 hombres y 4 mujeres, si todos balan ¿Cuantas parejas diferentes se pueden formar?

Solución:
n = 4 parejas. 4! = 24 parejas diferentes.

Ejemplo:

En la primera fila de un cine hay 9 sillas ¿De cuantas formas se pueden ordenar 9 personas en la primera silla?

Solución:
Se requiere ordenar las personas en la fila.
F 1 F 2 F 3 F 4 F 5 F 6 F 7 F 8 F 9
9 8 7 6 5 4 3 2 1

Por definición: 9! =362.880 formas de ordenar las personas en la primera fila del cine.

Ejemplo:

Un estuche tiene 7 casillas y se deben colocar 7 discos en el estuche. ¿De cuantas formas se pueden ordenar
los discos en el estuche?

Solución:

C 1 C 2 C 3 C 4 C 5 C 6 C 7
7 6 5 4 3 2 1
Según la definición: 7! = 5.040 formas de ordenar los discos en el estuche.


Las Variaciones: Existen permutaciones donde del total de elementos, sólo se utiliza parte de ellos.

DEFINICIÓN: Si se tiene n objetos diferentes y se desean ordenar r de ellos, de tal forma que r < n, entonces
para determinar la cantidad de ordenamientos se aplica la siguiente ecuación:
ܲ


= ܸ


=
௡!
ሺ௡ି௥ሻ!



Página 111 de 175




Ejemplo:

Las placas de los carros constan de tres letras y tres números, de tal manera que no se puede repetir número
tampoco letra. ¿Cuántas placas diferentes se pueden diseñar?

Solución:

LETRA 1 LETRA 2 LETRA 3 NÚMERO 1 NÚMERO 2 NÚMERO 3
26 25 24 10 9 8

26*25*24*10*9*8 = 11’232.000

Utilizando la ecuación: ܸ


= ܸ

ଶ଺
=
ଶ଺!
ሺଶ଺ିଷሻ!
= 15.600



= ܸ

ଵ଴
=
10!
ሺ10 − 3ሻ!
= 720

Cantidad de placas = 15.600*720 = 11’232.000

Ejemplo:

De un conjunto de 7 elementos, se desea organizar subconjuntos de 4 elementos. ¿Cuantos grupos se pueden
obtener?

Solución:

PRIMER ELEMENTO SEGUNDO ELEMENTO TERCER ELEMENTO CUARTO ELEMENTO
7 6 5 4
Cantidad de grupos a organizar: 7*6*5*4 = 840

Utilizando la ecuación: ܸ


= ܸ


=
଻!
ሺ଻ିସሻ!
= 840

Ejemplo:

Si en un Club hay 20 personas y se desea escoger 4 de ellos para el comité directivo ¿De cuantas formas se
puede conformar el comité?

Solución:
En el problema n = 20 y r = 4 entonces:
ܸ


= ܸ

ଶ଴
=
ଶ଴!
ሺଶ଴ିସሻ!
= 116.280 Formas diferentes para conformar el comité.

Ejemplo:

Con los números dígitos, utilizándolos una sola vez ¿Cuantas cifras de cuatro números se pueden formar?

Solución:
ܸ


= ܸ

ଵ଴
=
ଵ଴!
ሺଵ଴ିସሻ!
= 5.040 Cifras diferentes




Página 112 de 175

Permutaciones Con elementos Que Se Repiten: Cuando en el conjunto de elementos hay algunos que se
repiten, entonces se presentan permutaciones con elementos que se repiten.

Definición: El número de observaciones de n objetos, de los cuales n
1
se repite a veces, n
2
se repite b veces
y así sucesivamente, por lo cual el número de arreglos posibles se puede determinar con la siguiente ecuación:
ܰ

ܣݎݎ݈݁݃݋ݏ =
݊!
ܽ! ∗ ܾ! ∗ …∗ ݇!



Ejemplo:

De cuantas formas diferentes se puede ordenar la palabra MISSISSIPI?

Solución:
En el conjunto: n = 11, n
i
= 4, n
s
= 4, n
p
= 2 Luego:
ܰ

ܣݎݎ݈݁݃݋ݏ =
11!
4! ∗ 4! ∗ 2!
= 34.650

Ejemplo:

Un coleccionista tiene tres pinturas de Picasso, cuatro pinturas de Botero y tres pinturas de Rembranth. De
cuantas formas se pueden organizar juntos, las pinturas?

Solución:
En el conjunto: n = 10, n
Picasso
= 3, n
Botero
= 4, n
Rembranth
= 3 Luego:
ܰ

ܣݎݎ݈݁݃݋ݏ =
10!
3! ∗ 4! ∗ 3!
= 4.200݂݋ݎ݉ܽݏ݂݀݅݁ݎ݁݊ݐ݁ݏ

Con base en lo anterior, podemos resumir:

Las permutaciones se aplican cuando:
- Se tiene en cuenta el orden
- No se admiten repeticiones.


Lección 20: Combinaciones

Si el interés es determinar la cantidad de formas en que r observaciones son seleccionadas de un conjunto de
n observaciones diferentes. Sin tener en cuenta el Orden de Selección, se está hablando de Combinaciones.
Hablar de combinaciones es hacer referencia a subconjuntos.
Si se tiene r! permutaciones de un conjunto de n observaciones, entonces las
n
P
r
permutaciones contiene cada
subconjunto r! veces, al dividir
n
P
r
entre r! se obtiene la cantidad de formas sin tener en cuenta el orden.

Definición: Sea n el número de objetos de un conjunto dado, si se toman r objetos a la vez, el número de
combinaciones obtenidas está dada por la siguiente expresión:

n
C
r
=ቀ
݊
ݎ
ቁ =
௡!
௥!∗ሺ௡ି௥ሻ!
Para r = 0, 1 2, 3, …, n

Ejemplo:

Al lanzar una moneda 6 veces, De cuantas formas se puede obtener:
a) 2 caras
b) 3 sellos



Página 113 de 175

Solución:
a) n = 6 y r = 2, entonces:
6
C
2
=ቀ
6
2
ቁ =
଺!
ଶ!∗ሺ଺ିଶሻ!
= 15ܨ݋ݎ݉ܽݏ
b) n = 6 y r = 3, entonces:
6
C
3
=ቀ
6
3
ቁ =
଺!
ଷ!∗ሺ଺ିଷሻ!
= 20ܨ݋ݎ݉ܽݏ

Ejemplo:

Si hay 10 hombres y 8 mujeres para conformar un comité que debe estar conformado por 4 hombres y 3
mujeres ¿De cuantas formas se puede conformar dicho comité?

Solución:
Para los hombres:
10
C
4
=ቀ
10
4
ቁ =
ଵ଴!
ସ!∗ሺଵ଴ିସሻ!
= 210
Para las mujeres:
8
C
3
=ቀ
8
3
ቁ =
଼!
ଷ!∗ሺ଼ିଷሻ!
= 56
Número de comités posibles: 210*56 = 11.760


Las combinaciones se aplican cuando:
- No se tiene en cuenta el orden
- No se admiten repeticiones







Página 114 de 175

CAPITULO 6: PROPIEDADES BÁSICAS DE LA
PROBABILIDAD

Lección 21: Interpretaciones de la probabilidad

Con el fin de comprender la teoría de probabilidad, es pertinente estudiar algunos teoremas, que soportan el
desarrollo probabilístico.

Teorema No 1: (Evento Imposible) Dado Ø como conjunto vacio, entonces P (Ø) = 0. La probabilidad de un
evento imposible es cero.

Demostración: Sea un evento A, luego ܣ = ܣ ∪ ∅ Dado que A y Ø son mutuamente excluyentes, entonces
ܲሺܣሻ = ܲሺܣ ∪ ∅ሻ = ܲሺܣሻ + ܲሺ∅ሻ. Luego ܲሺܣሻ = ܲሺܣሻ + ܲሺ∅ሻ. Para que se cumpla la igualdad ሺܲሺ∅ሻ debe ser
cero.

NOTA: En la práctica la probabilidad que un evento sea cero, no implica que sea imposible, sino más bien raro,
por el principio de la frecuencia observada, así el recíproco del teorema no siempre se cumple.

Teorema No 2: (Evento Cierto) Dado E el espacio muestral, entonces P (E) = 1. La probabilidad del espacio
muestral es la unidad.

Demostración: Dado E el conjunto total, la ocurrencia es altamente probable, el axioma No 2 del enfoque
axiomático lo hace evidente.

Teorema No 4 (Sucesos Disyuntos) Sean los eventos S
1
y S
2
, entonces: S
1
y S
2
son disyuntos si se cumple:
ܵ

∩ ܵ

= ∅. Cuando dos eventos son tal que su intersección es vacio, se dice que son Mutuamente
Excluyentes.

Demostración: Sean los conjuntos S
1
y S
2
, donde S
1
son elementos exclusivos de S
1
y S
2
Elementos que
ninguno es de S
1
, entonces la intersección será vacio.

Teorema No 6: (Probabilidad Acotada) A partir del teorema 1 y 2, se puede inferir que la mínima
probabilidad es cero y la máxima uno, entonces: 0 ≤ ܲሺܺሻ ≤ 1

Teorema No 7: (Probabilidad del Complemento) Sea S un evento y E el espacio muestral, dado que ܵ ⊆ ܧ y
ܵ′ ⊆ ܧ Entonces: P(S) + P(S’) = 1.




Ejemplo:

Si A y B, son eventos mutuamente excluyentes, además P(X = A) = 0,37 y P(X = B) = 0,44, Encontrar:
a-) P( A’)


Página 115 de 175

b-) P( B)
c -) ܲሺܣ ∪ ܤሻ
d-) ܲሺܣ ∩ ܤሻ

Solución:
a-) Como P ( A’) + P(A) = 1, entonces: P ( A’) = 1 - P(A) = 1 – 0,37 = 0,63
b-) Como P (B’) + P(B) = 1, entonces: P ( B’) = 1 - P(B) = 1 – 0,44 = 0,56
c-) Por la regla general de adición: ܲሺܣ ∪ ܤሻ = ܲሺܺ = ܣሻ + ܲሺܺ = ܤሻ − ܲሺܣ ∩ ܤሻ Como los eventos son
mutuamente excluyentes: ܲሺܣ ∩ ܤሻ = 0 Entonces: ܲሺܣ ∪ ܤሻ = ܲሺܺ = ܣሻ + ܲሺܺ = ܤሻ= 0,37 + 0,44 = 0,81.
d-) Se debe calcular: ܲሺܣ ∪ ܤሻ = ܲሺܺ = ܣሻ + ܲሺܺ = ܤሻ − ܲሺܣ ∩ ܤሻ Reemplazando:
0,81 = 0,37 + 0,44 – 0, como se cumple la igualdad, entonces ܲሺܣ ∩ ܤሻ = 0.

Ejemplo:

A partir del ejemplo No 9, hallar ܲሺܣ ∩ ܤ′ሻ

Solución:
Utilizando la propiedad: ܲሺܣ ∪ ܤሻ = ܲሺܤሻ + ܲሺܣ ∩ ܤ′ሻ
Como ܲሺܣ ∪ ܤሻ = 0,81 ܲሺܤሻ = 0,44 Entonces:
ܲሺܣ ∩ ܤ

ሻ = ܲሺܣ ∪ ܤሻ −ܲሺܤሻ = 0,81 − 0,44 = 0,37



Lección 22: Axiomas de probabilidad: regla de la adición


Teorema No 3: (Regla General de Adición) Dados los eventos cualesquiera S
1
y S
2
, entonces:
ܲሺܵ

∪ ܵ

ሻ = ܲሺܵ

ሻ + ܲሺܵ

ሻ − ܲሺܵ

∩ ܵ


La probabilidad de la unión de dos eventos cualquiera, es igual a la suma de probabilidades de los dos
eventos, menos la probabilidad de su intersección.

Demostración: El siguiente gráfico nos ayuda a hacer la demostración.


Entonces: ܵ

∪ ܵ

= ܵ

∪ ሺܵ

∩ ܵ


ሻ Donde: ܵ

= ሺܵ

∩ ܵ

ሻ ∪ ሺܵ

∩ ܵ


ሻ Por lo tanto:
ܲሺܵ

∪ ܵ

ሻ = ܲሺܵ

ሻ + ܲሺܵ

∩ ܵ


ሻ Así: ܲሺܵ

ሻ = ܲሺܵ

∩ ܵ

ሻ + ܲሺܵ

∩ ܵ


ሻ. Restando las dos ecuaciones:ܲሺܵ

∪ ܵ

ሻ −
ܲሺܵ

ሻ = ܲሺܵ

ሻ − ܲሺܵ

∩ ܵ

ሻ.
Finalmente: ܲሺܵ

∪ ܵ

ሻ = ܲሺܵ

ሻ + ܲሺܵ

ሻ − ܲሺܵ

∩ ܵ



El teorema tres, prolongado a tres eventos: Dados los eventos cualquiera A, B y C, entonces ܲሺܣ ∪ ܤ ∪
ܥሻ = ܲሺܣሻ +ܲሺܤሻ +ܲሺܥሻ − ܲሺܣ ∩ ܤሻ −ܲሺܣ ∩ ܥሻ −ܲሺܤ ∩ ܥሻ + ܲሺܣ ∩ ܤ ∩ ܥሻ. La probabilidad de la unión de tres
eventos, es igual a la suma de las probabilidades de cada uno, menos la intersección de los pares, más la
probabilidad de la intersección de todos.

Demostración: Partimos de ܣ ∪ ܤ ∪ ܥ = ሺܣ ∪ ܤሻ ∪ ܥ, aplicamos el mismo principio del teorema No 3.


Página 116 de 175




Teorema No 5: (Regla Especial de Adición) Sean los eventos S
1
y S
2
, los cuales son disyuntos, entonces
ܲሺܵ

∪ ܵ

ሻ = ܲሺܵ

ሻ + ܲሺܵ


En general: ܲሺ⋃ ܵ


௜ୀଵ
ሻ = ∑ ܲሺܵ



௜ୀଵ


Demostración: Buscar los argumentos para realizar la demostración.



Ejemplo:

Una Empresa realiza un estudio sobre sus ejecutivos, el uso de corbata y determinó que su uso es del 42%, el
uso de vestido del 70% y del uso de los dos es del 35%. Al seleccionar aleatoriamente un ejecutivo de la
empresa ¿Cuál es la probabilidad de que éste use vestido, corbata o los dos?

Solución:
Según los datos: P(X = C) = 0,42; P(X = B) = 0,70 y P(X = C y X = B) = 0,35. Por la forma del problema se
puede aplicar la regla general de adición.
P(C o B) = 0,42 + 0,70 – 0,35 = 0,77

Ejemplo:

Un dado es tal que: P(X = 1) = 0,1; P(X = 2) = 0,2; P(X = 3) = 0,3; P(X = 4) = 0,01; P(X = 5) = 0,02; P(X = 6)
= 0,37. Al lanzar el dado una vez ¿Cuál es la probabilidad de obtener par?

Solución:
La pregunta es hallar P(X = Par); además, se trata de eventos donde se puede aplicar la regla especial de
adición. Luego: P(X = 2 o X = 4 o X = 6) = P(X = 2) + P(X = 4) + P(X = 6) Por consiguiente: P(X = Par) = 0,2 +
0,01 + 0,37 = 0,48

Ejemplo:

En una caja se encuentran 20 papeletas blancas enumeradas del 1 al 20, 10 papeletas rojas enumeradas del 1
al 10, 40 papeletas amarillas enumeradas del 1 al 40 y 10 papeletas azules enumeradas del 1 al 10. Las


Página 117 de 175

papeletas se mezclas de tal manera que cada una tiene la misma probabilidad de ser elegida. Al sacar una
papeleta, hallar:

a-) Que sea azul o blanca.
b-) Que este enumerada de 1 al 5.
c-) Que sea roja o amarilla y enumerada con 1, 2, 3, 4.
d-) Que este enumerada con los números 5, 15, 25, 35.

Solución:

a-) Como se tienen 10 papeletas azules y 20 papeletas blancas. Siendo el total de 80 papeletas, entonces se
puede aplicar la regla especial de adición:
ܲሺܣ݋ܤሻ = ܲሺܣ ∪ ܤሻ = ܲሺܣሻ +ܲሺܤሻ =
10
80
+
20
80
=
30
80
=
3
8

b-) Se tienen 4 tipos de papeletas y cada una tiene los números 1, 2, 3, 4, 5. También corresponde a la regla
especial de adición.
ܲሺܺ = 1݋ܺ = 2݋ܺ = 3݋ܺ = 4݋ܺ = 5ሻ = ܲሺܺ = 1ሻ + ܲሺܺ = 2ሻ + ܲሺܺ = 3ሻ + ܲሺܺ = 4ሻ + ܲሺܺ = 5ሻ
ܲሺܺ = 1ሻ + ܲሺܺ = 2ሻ +ܲሺܺ = 3ሻ + ܲሺܺ = 4ሻ + ܲሺܺ = 5ሻ =
4
80
+
4
80
+
4
80
+
4
80
+
4
80
=
20
80
=
1
4


c-) Se tienen 10 papeletas rojas y 40 papeletas amarillas; además, están enumeradas con 1, 2, 3, 4. Al igual
que los casos anteriores, se trata de regla especial de adición.
ܲሺܺ = ܴ݋݆ܽ1, 2, 3, 4ሻ +ܲሺܺ = ܣ݉ܽݎ݈݈݅ܽ1, 2, 3, 4ሻ = ܲሺܴሻ + ܲሺܣሻ =

଼଴
+

଼଴
=

଼଴
=

ଵ଴

d-) De las papeletas se tienen enumeradas: 5, 15, 25, 35 tenemos: De 20 blancas hay 5 y 15. De 10 rojas hay
5. De 40 amarillas hay 5, 15, 25, 35. De 10 azules hay 5. Así se tienen 4 papeletas del número 5, 2 papeletas
del número 15, una con el número 25 y una con le número 35. Las posibilidades son: 4 +2 +1+ 1 = 8.
ܲሺܺ = ݔሻ =
8
80
=
1
10


Ejemplo:

El manejo de una máquina nueva para empaque de producto líquido, tiene las siguientes probabilidades.
Muy difícil: 0,12 Difícil: 0,17 Promedio: 0,43 Fácil: 0,29 Muy fácil: 0,08
Encontrar las siguientes probabilidades:
a-) Difícil o muy difícil.
b-) Ni muy difícil ni muy fácil.
c-) Promedio o mejor.

Solución:

a-) ܲሺܺ = ݂݀݅í݈ܿ݅݋ܺ = ܯݑݕ݂݀݅í݈ܿ݅ሻ = ܲሺܺ = ܦሻ + ܲሺܺ = ܯܦሻ = 0,17 +0,12 = 0,29

b -) ܲሺܺ = ݊݅݉ݑݕ݂݀݅í݈ܿ݅݋ܺ = ݊݅ܯݑݕá݈ܿ݅ሻ = 1 − ܲሺܺ = ݉ݑݕ݂݀݅í݈ܿ݅݋ܺ = ܯݑݕ݂á݈ܿ݅ሻ
1 −ܲሺܺ = ܯݑݕ݂݀݅í݈ܿ݅݋ܺ = ܯݑݕ݂á݈ܿ݅ሻ = 1 − ሺ0,12 + 0,08ሻ = 1 −0,20 = 0,80

c- ) ܲሺܺ = ݌ݎ݋݉݁݀݅݋݋ܺ = ݆݉݁݋ݎሻ = ܲሺܺ = ݌ݎ݋݉݁݀݅݋݋ܺ = ݂á݈ܿ݅ሻ
ܲሺܺ = ݌ݎ݋݉݁݀݅݋݋ = ݂á݈ܿ݅ሻ = 0,34 +0,29 = 0,63


Lección 23: Independencia de Sucesos:regla de multiplicación

A partir de la independencia de eventos y la probabilidad condicional, surge una regla muy importante de
probabilidad, conocida como la Regla de la Multiplicación para eventos dependientes.



Página 118 de 175

DEFINICIÓN: Sean A y B dos eventos cualquiera de un espacio muestral E y sea P(A) > 0, entonces:
ܲሺܣ ∩ ܤሻ = ܲሺܣሻ ∗ ܲሺܤ ∣ ܣሻ
La ecuación expresa que la probabilidad de que ocurra A y B simultáneamente, siendo P(A) > 0, es igual al
producto de la probabilidad de que ocurra A y la probabilidad de que ocurra B dado que ha ocurrido A; es decir,
la probabilidad condicional.

DEFINICIÓN: Sean A y B dos eventos cualquieras de un espacio muestral E y sea P(A) > 0, entonces:
ܲሺܣ ∩ ܤሻ = ܲሺܤሻ ∗ ܲሺܣ ∣ ܤሻ
La ecuación expresa que la probabilidad de que ocurra A y B simultáneamente, siendo P(B) > 0, es igual al
producto de la probabilidad de que ocurra B y la probabilidad de que ocurra A dado que ha ocurrido B; es decir,
la probabilidad condicional.

Generalizando:

DEFINICIÓN: Sean S
1
, S
2
,…, S
n
eventos cualquieras de un espacio muestral E, entonces:
ܲ ൭ሩܵ


௜ୀଵ
൱ = ܲሺܵ

ሻ ∗ ܲሺ ܵ

∣∣ ܵ

ሻ ∗ ܲሺ ܵ

∣∣ ܵ

∩ ܵ

ሻ ∗ …∗ ܲሺܵ

∣ ܵ

∩ ܵ

∩ …∩ ܵ
௡ିଵ



Ejemplo:

En una caja hay 30 artículos, de los cuales 8 son defectuosos. Si se extraen 4 artículos aleatoriamente y en
forma sucesiva y sin reemplazamiento. ¿Cuál es la probabilidad de que los 4 artículos son defectuosos?

Solución:
P(S
1
) = 4/30. Sacar defectuosos el primer artículo.
P(S
2
∣S
1
) = 3/29. Sacar defectuosos el segundo artículo.
P(S
3
∣S
1
∩S
2
)=2/28. Sacar defectuosos el tercer artículo.
P(S
4
∣S
1
∩S
2
∩ S

) = 4/30*3/29*2/28*1/27 = 24/657.720 = 0,00003645

Ejemplo:

Un empaque de 1.000 artículos es tal que presenta el 1% de defectuosos. Cual es la probabilidad de que al
sacar aleatoriamente 5 artículos, todos sean no defectuosos.

Solución:
Sea X
1
artículo uno defectuoso, entonces X’
1
artículo no defectuoso
P(X
1
) = 10/1.000 Entonces: P(X’
1
) = 990/1.000
P(X
2
) = 9/999 Entonces: P(X’
2
) = 989/999
P(X
3
) = 8/998 Entonces: P(X’
3
) = 988/998
P(X
4
) = 7/997 Entonces: P(X’
4
) = 987/997
P(X
5
) = 6/996 Entonces: P(X’
5
) = 986/996

Luego:
P(X’
1
)* P(X’
2
)* P(X’
3
)* P(X’
4
)* P(X’
5
) = 990/1.000*989/999*988/998*987/997*986/996 = 0,9509


Regla de Multiplicación: Eventos Independientes

En el análisis de independencia de eventos, se estableció que los eventos son independientes cuando se
realiza extracción Con Reemplazamiento, donde el espacio muestral es constante para cada extracción.


DEFINICIÓN: Sean A y B dos eventos se dice que son independientes, si se cumple la siguiente igualdad:
ܲሺܣ ∩ ܤሻ = ܲሺܣሻ ∗ ܲሺܤሻ


Página 119 de 175

La ecuación expresa que la probabilidad de la intersección entre dos eventos, es igual al producto de las
probabilidades marginales. La definición se puede extender a tres o más eventos, éstos pueden ser
independientes por pares; sin ser independientes. Para el caso de tres eventos.
ܲሺܣ ∩ ܤ ∩ ܥሻ = ܲሺܣሻ ∗ ܲሺܤሻ ∗ ܲሺܥሻ

DEFINICIÓN: Sean A y B dos eventos independientes, entonces A y B’ también son independientes, por
consiguiente:
ܲሺܣ ∩ ܤ′ሻ = ܲሺܣሻ ∗ ܲሺܤ′ሻ

Ejemplo:

Se lanza una moneda tres veces, ¿Cuál será a probabilidad de obtener tres caras en los lanzamientos
realizados?

Solución:
Sea A primer lanzamiento y que sea cara: P(X = A) = 1/2
Sea B segundo lanzamiento y que sea cara: P(X = B) = 1/2
Sea C tercer lanzamiento y que sea cara: P(X = C) = 1/2
ܲሺܣ ∩ ܤ ∩ ܥሻ = ܲሺܣሻ ∗ ܲሺܤሻ ∗ ܲሺܥሻ =
1
2

1
2

1
2
=
1
8


Ejemplo:

La probabilidad de comprar Taxi es del 25% y la probabilidad de comprar colectivo es del 65%, si se compra un
transporte para trabajar ¿Cuál es la probabilidad de comprar Taxi y Colectivo?

Solución:
Sea P(X = T) = 0,25 y Sea P(X = C) = 0,65, entonces:
ܲሺܶ ∩ ܥሻ = ܲሺܶሻ ∗ ܲሺܥሻ = 0,25 ∗ 0,65 = 0,1625


Lección 24: Probabilidad condicional

En fenómenos donde se hacer extracciones sin reemplazamiento, se presenta dependencia de eventos a partir
del segundo en adelante. La siguiente situación nos ilustra el principio de probabilidad condicional.

Sea A evento que una persona gane el mínimo. Sea B una persona que sea bachiller. Sea N una persona que
no es bachiller. Sea T una persona que sea técnico profesional. Entonces interpretemos las siguientes
situaciones.

P(A∣B) = La probabilidad de que una persona gane el mínimo, dado que es bachiller.
P(A∣N) = La probabilidad de que una persona gane el mínimo dado que no sea bachiller.
P(A∣T) = La probabilidad de que una persona gane el mínimo dado que es técnico profesional.
P(N∣A) = La probabilidad de que una persona no sea bachiller, dado que gana el mínimo.

Para estos casos los primeros términos se les llama Condicionantes tales como A y N, mientras que a los
segundos se les llama condicionados, tales como B, N, T y A.


DEFINICIÓN: Sean los eventos A y B, de tal manera que A está condicionado por el evento B, si la
probabilidad de que suceda A depende de que haya ocurrido B, entonces:
ܲሺܣ ∣ ܤሻ =
௉ሺ஺∩஻ሻ
௉ሺ஻ሻ
Siempre que P(B) > 0.



Página 120 de 175

Análogamente: Sean los eventos A y B, de tal manera que B está condicionado por el evento A, si la
probabilidad de que suceda B depende de que haya ocurrido A, entonces:
ܲሺܤ ∣ ܣሻ =
௉ሺ஺∩஻ሻ
௉ሺ஺ሻ
Siempre que P(A) > 0.

Ejemplo:

Al lanzar un dado, cual es la probabilidad de que caiga dos, dado que ha caído par.

Solución:
La probabilidad de que caiga par es P(X=Par) = 3/6
La probabilidad de que caiga dos es P(X=Dos) = 1/6
ܲሺܺ = ܦ݋ݏ ∣ ܺ = ܲܽݎሻ =
1/6
3/6
=
1
3
= 0,333

Ejemplo:

En un estudio sobre consumidores de servicios que brindan cierta compañía, los resultados se presentan en el
siguiente cuadro.
A = Compañías con buen servicio
B = Compañías con mal servicio.
1 = Compañías con 10 años o más
2 = Compañías con menos de 10 años

A B
1 18 6 24
2 12 16 28
30 22 52

a-) Cual es la probabilidad de seleccionar una compañía que proporcione buen servicio.
b-) Cual es la probabilidad de seleccionar una compañía con más de 10 años de experiencia que proporcione
buen servicio.
c-) Cual es la probabilidad de seleccionar una compañía con menos de 10 años, que proporcione mal servicio.

Solución:
a-) Compañía con buen servicio: 30
ܲሺܺ = ܣ ∣ ܺ = ܥ݋݉݌ܽñ݅ܽሻ =
ଷ଴
ହଶ
= 0,5769

b-) Compañía con más de 10 años: 24
Compañías que proporcionan buen servicio y con más de 10 años: 18
ܲሺܺ = ܣ ∣ ܺ = 1ሻ =
௉ሺ஺∩ଵሻ
௉ሺଵሻ
=
ଵ଼
ଶସ
= 0,75
c-) Compañía que con menos de 10 años y que proporcione mal servicio: 16
Compañía que proporciona mal servicio: 22.
ܲሺܺ = 2 ∣ ܺ = ܤሻ =
௉ሺଶ∩஻ሻ
௉ሺ஻ሻ
=
ଵ଺
ଶଶ
= 0,72727


Ejemplo:

En un salón de apuestas hay un Dado arreglado de tal forma que el número Impar tiene el doble de posibilidad
de salir que el número Par. Si se lanza el dado:
a-) Cual es la probabilidad de caiga un número mayor a tres.
b-) Cual es la probabilidad de el número de puntos tirados sean un cuadrado perfecto.
c-) Cual es la probabilidad de que se obtenga un cuadrado perfecto, dado que es mayor a tres.


Página 121 de 175


Solución:
Espacio muestral: Ω = {1, 2, 3, 4, 5, 6}
a-) Si a es probabilidad de par entonces 2a probabilidad de impar, entonces: 2a+a+2a+a+2a+a=1
así: 9a = 1, a = 1/9, por consiguiente:
P(X > 3) = P(X=4) + P(X=5) + P(X=6) = 1/9 + 2/9 + 1/9 = 4/9

b-) Los números que son cuadrados perfectos son 1 y 4, entonces: B {1, 4}
P(B) = P(1) + P(4) = 2/9 + 1/9 = 3/9 = 1/3.

c-) P(B∣A). Donde B = Cuadrado perfecto y A = Número mayor a tres.
ܲሺܺ = ܤ ∣ ܺ = ܣሻ =
ଵ/ଽ
ସ/ଽ
=


= 0,25


Lección 25: Probabilidad total y teorema de Bayes

Ley de Probabilidad Total: Sean A
1
, A
2
, …,A
k
eventos mutuamente excluyentes, ൫ܣ

∩ ܣ

൯ = ∅

y exhaustivos
(deben ocurrir uno de ellos) entonces para cualquier otro evento B:
P(B) = P(B∣A
1
)*P(A
1
)+ P(B∣A
2
)*P(A
2
)+…+ P(B∣A
k
)*P(A
k
)
Generalizando: ܲሺܤሻ = ∑ ܲሺ ܤ ∣∣ ܣ

ሻ ∗ ܲሺܣ



௜ୀଵ


Ejemplo:

Se desea rentar Autos de tres agencias de la siguiente manera: El 60% de la agencia Velox, el 30% de la
agencia Rap y el 10% de la agencia Service. Los autos de la agencia Velox requieren revisión en un 9%, los de
la agencia Rap en un 20% y los de la agencia Service en un 6%. ¿Cuál es la probabilidad de que un auto
rentado requiera revisión?

Solución:
Sea A el evento que un auto requiera revisión, sean V, R y S los eventos que los autos provengan de las
agencias Velox, Rap y Service respectivamente.
Entonces: P(V) = 0,60; P(R) = 0,30; P(S) = 0,10
Por otro lado: P(A∣V) = 0,09; P(A∣R) = 0,20; P(A∣S) = 0,06
La probabilidad total se obtiene así: P(A) = P(A∣V)*P(V)+ P(A∣R)*P(R)+ P(A∣S)*P(S)
Reemplazando: P(A) = 0,60*0,09 + 0,30*0,20 + 0,10*0,06 = 0,054 + 0,06 + 0,006 = 0,116
Entonces el 11,6% de los autos requieren revisión.

Ejemplo:

En un estudio sobre cierta enfermedad, se ha determinado que la probabilidad de que una persona tenga la
enfermedad es del 3%. Se ha diseñado una prueba diagnóstico para determinar si una persona sometida a la
misma tiene la enfermedad. La probabilidad de que la prueba diagnóstica de resultado positivo; sabiendo que
la enfermedad está presente es de 0,90. La probabilidad de que la prueba diagnóstica de resultado positivo;
sabiendo que la enfermedad no está presente es de 0,02. Si se le aplica la prueba a una persona, ¿cual es la
probabilidad de que la prueba sea positiva?

Solución:
Sea E el evento prueba positiva, sean T y N los eventos tiene la enfermedad y no tiene la enfermedad
respectivamente.
Entonces: P (T) = 0,03; P (N) = 0,97
Por otro lado: P(E∣T) = 0,90; P(E∣N) = 0,02
La probabilidad total se obtiene así: P(E) = P(E∣T)*P(T)+ P(E∣N)*P(N)
Reemplazando: P(E) = 0,90*0,03 + 0,02*0,97 =0,0464


Página 122 de 175

Entonces la probabilidad de que una persona sometida a la prueba de diagnóstico positivo es del 4,64%.

Ejemplo:

Una compañía de seguros clasifica a sus clientes en dos grupos: Los que son propensos a accidentes (P) y lo
que no son propensos a accidentes (N). Según las estadísticas de la compañía, la probabilidad de que un
cliente propenso a accidentes tenga uno en un año es de 40% y la probabilidad de que un cliente no propenso
a accidentes tenga uno en un año es del 20%. Sabiendo que el 30% de la población es propensa a accidentes,
¿Cuál es la probabilidad de que una persona que compra una póliza sufra un accidente en un año?

Solución:
Sea A el evento sufrir un accidente, sean P y N los eventos propensos a accidentes y no propensos
respectivamente.
Entonces: P(P) = 0,4 y P(N) = 0,2
Por otro lado: P(A∣P) = 0,30; P(A∣N) = 0,70. Así: P(A) = P(A∣P)*P(P) + P(A∣N)*P(N)
Reemplazando: P(A) = 0,30*0,4 + 0,70*0,2 = 0,26
Entonces la probabilidad de que una persona que compra la póliza sufra un accidente es del 26%.

Teorema de Bayes: Analizada a ley de probabilidad total, ya se puede definir la muy conocida teorema de
bayes:



Ejemplo:

Utilizando los datos del ejemplo 21, si un auto es rentado y requiere revisión, ¿Cuál es la probabilidad de que
sea de la agencia Rap?

Solución:

Se debe hallar P(R∣A). Entonces P(A∣R)*P(R) = 0,30*0,20 = 0,06
Como P(A) = 0,60*0,09 + 0,30*0,20 + 0,10*0,06 = 0,054 + 0,06 + 0,006 = 0,116
ܲሺܴ|ܣሻ =
௉ሺோሻ∗௉ሺ஺|ோሻ
∑ ௉ሺ஻

ሻ∗௉ሺ஺|஻



೔సభ
=
଴,଴଺
଴,ଵଵ଺
= 0,5172

Así el 51,72% de los autos que requieren revisión, provienen de la agencia Rap.


Ejemplo:

Utilizando los datos del ejemplo 22, si la prueba diagnóstica dio resultado positivo ¿Cuál es la probabilidad de
que la enfermedad este en realidad?

Solución:

Sean B
1
, B
2
, …, B
k
. una partición del espacio muestral E, dado que
P(B
i
) ≠ 0, para i = 1, 2, , k; entonces para cualquier evento A en el
espacio muestral E; tal que P(A) ≠ 0, se tiene:

ܲ൫ܤ

หܣ൯ =
௉ሺ஻

ሻ∗௉൫஺ห஻


∑ ௉ሺ஻

ሻ∗௉ሺ஺|஻



೔సభ
Para j = 1, 2, .., k



Página 123 de 175

Se debe hallar P(T∣E). Entonces P(E∣T)*P(T) = 0,90*0,03 = 0,027
Como P(E) = 0,90*0,03 + 0,02*0,97 =0,0464
ܲሺܶ|ܧሻ =
௉ሺ்ሻ∗௉ሺா|்ሻ
∑ ௉ሺ஻

ሻ∗௉ሺ஺|஻



೔సభ
=
଴,଴ଶ଻
଴,଴ସ଺ସ
= 0,5819

Entonces la probabilidad de que la enfermedad esté en realidad es del 58,19%, dado que ha ocurrido resultado
positivo.

Ejemplo:

Un investigador esta 60% de seguro que la persona detenida es culpable, éste tiene cierta característica que la
posee el 20% de la población. En estas condiciones ¿Qué tan seguro está el investigador sobre la culpabilidad
de la persona detenida?

Solución:

Sea C el evento que la persona es culpable. Sea M el evento que la persona tiene la característica.
P (C) = Probabilidad de que la persona sea culpable. 60%
P (M) = Probabilidad de que la persona tenga la característica.
P (C’) = Probabilidad de que la persona no sea culpable. 40%
P (M’) = Probabilidad de que la persona no tenga la característica
P (M∣C) = Probabilidad de que la persona tenga la característica dado que es culpable. 100%
P (M∣C’) = Probabilidad de que la persona tenga la característica dado que no es culpable. 20%

Se debe hallar: P (C∣M)
P (M∣C)*P(C) = 1*0,6 = 0,6
P (M) = P (M∣C)*P(C) + P (M∣C’)*P(C’) = 1*0,6 + 0,2*0,4 = 0,68
Entonces:
ܲሺܥ|ܯሻ =
௉ሺ஼ሻ∗௉ሺெ|஼ሻ
௉ሺ஼ሻ∗௉ሺெ|஼ሻା௉ሺ஼ᇱሻ∗௉ሺெ|஼ᇱሻ
=
଴,଺଴
଴,଺଼
= 0,8824

Entonces el investigador esta en un 88,24% seguro de la culpabilidad de la persona detenida.










Página 124 de 175







UNIDAD TRES
VARIABLES ALEATORIAS
Y DISTRIBUCIONES DE
PROBABILIDAD



Página 125 de 175

CAPITULO 7: VARIABLES ALEATORIAS

Lección 26: Concepto de Variable Aleatoria

VARIABLE ALEATORIA
Concepto Intuitivo: Una variable aleatoria X es aleatoria si el valor que asume de acuerdo al resultado de
un experimento, es una probabilidad de un evento aleatorio, es decir; transforma eventos aleatorios en
números reales.

Las variables aleatorias se clasificar en dos grandes grupos:
Variables Cualitativas: Son aquellos que generan datos cualitativos, como es el caso de las variables
dicotómicas, tales como Blanco-Negro, Masculino-Femenino, Cara-Sello. Las variables nominales, tales como
Raza, Genero, Programa Académico, Canal Favorito, Color. Las variables ordinales, tales como Estrato, Talla,
Sabor, cuerpo de una sustancia, Nivel Académico.
Variables Cuantitativas: Son las que generan datos cuantitativos, las cuales se subdividen en discretas y
continuas.
-Variable Aleatoria Discreta: Son las que se pueden contar y organizar en una secuencia utilizando los
números enteros positivos, sólo se sume un número finito de valores.
Ejemplos: Número de personas que visitan un almacén en un día, número de llamadas telefónicas recibidas en
un call center por hora, cantidad de carros vendidos por mes, edad años cumplidos,
-Variable Aleatoria Continua: Son las que toman valores dentro de un intervalo, se dice que están dentro de
los números reales.
Ejemplos: El ancho de un edificio, el tiempo transcurrido en un desplazamiento, el peso medido a una persona,
el salario de una población, la duración de un bombilla, la estatura de una persona, la temperatura.

Concepto Matemático: Sea S un espacio muestral sobre el cual se encuentra definida una probabilidad,
sea X una función de valor real definida sobre S. Entonces X es una variable aleatoria debido a que transforma
los resultados de S en puntos sobre la recta real.



Se dice que X es aleatorio ya que involucra la probabilidad de los resultados del espacio muestral.



Página 126 de 175

Ejemplo:

Experimento: Lanzar una moneda.

Solución:
S = {C, S}
P(X = C) = 1 y P(X=S) = 0

Ejemplo:

Experimento: Lanzar un dado.

Solución:
S = {1, 2, 3, 4, 5, 6}
P(X = 1) = 1/6, P(X = 2) = 1/6, P(X = 5) = 1/6 P(X = 7) = 0
Una variable aleatoria queda definida en un experimento aleatorio, cuando se conoce su campo de variación y
el conjunto de probabilidades en donde toma valores dicho campo.



Lección 27: Distribución discreta de probabilidad.

VARIABLE ALEATORIA DISCRETA:

Función de Probabilidad o Distribución de Probabilidad: Una variable aleatoria X representa los resultados de
un espacio muestral de tal forma que P(X =x), esto significa que debe existir una función matemática que
asigna una probabilidad a cada realización x de la variable aleatoria, a esta función se le llama Función de
Probabilidad o Distribución de Probabilidad.
DEFINICIÓN: Sea X una variable aleatoria discreta, entonces f(x) = P(X = x) se le conoce como función de
probabilidad de la variable aleatoria X. El par ordenado obtenido se de la forma [x, f(x)]. La función debe
satisfacer las siguientes condiciones:
1. P(x) ≥ 0 Para todo x que pertenece a X
2. ∑ ݌ሺݔሻ = 1


3. P(X = x) = f(x)
Función de Distribución Acumulada: La función de distribución acumulada F(x) representa la suma de
probabilidades puntuales hasta el valor x inclusive.
DEFINICIÓN: La función de distribución acumulada de una variable aleatoria X, es la probabilidad de que X sea
menor o igual a un valor específico x; según:
ࡲሺ࢞ሻ = ࡼሺࢄ ≤ ࢞ሻ = ෍࢖ሺ࢞






Características de F(x):
a-) La función F(x) de una variable aleatoria discreta, es una función no negativa, por ser una probabilidad.
b-) La función F(x) es no decreciente, por ser acumulativa.
c-) La función F(x) es acotada; es decir, 0 ≤ F(x) ≤ 1. Para todo x.
d-) ܨሺݔ

ሻ ≥ ܨሺݔ

ሻ Para ݔ

≥ ݔ


e-) ܲሺܺ > ݔሻ = 1 − ܲሺܺ ≤ ݔሻ = 1 −ܨሺݔሻ
f-) ܲሺܺ = ݔሻ = ܨሺݔሻ − ܨሺݔ − 1ሻ = ܲሺܺ ≤ ݔሻ − ܲሺܺ ≤ ݔ − 1ሻ
g-) ܲ൫ݔ

≤ ܺ ≤ ݔ

൯ = ܨሺݔ

ሻ − ܨሺݔ

− 1ሻ = ܲ൫ܺ ≤ ݔ

൯ −ܲሺܺ ≤ ݔ

− 1ሻ

Ejemplo:
Sea el experimento: Lanzar dos dados simultáneamente, identificar el espacio muestral, los valores de x y la
probabilidad asociada a cada valor de x. La premisa es la suma de las caras obtenidas.


Página 127 de 175


Solución:
Espacio muestral: S = 6
2
= 36 resultados posibles. Utilizando la regla de exponente.

RESULTADOS X = x P( X = x )
(1, 1) 2 1/36
(1, 2); (2, 1) 3 2/36
(1, 3); (3, 1); (2, 2) 4 3/36
(1, 4); (4, 1); (2, 3); (3, 2) 5 4/36
(1, 5); (5, 1); (3, 3); (4, 2); (2, 4) 6 5/36
(1, 6); (6, 1); (4,3); (3, 4); (5, 2); (2, 5) 7 6/36
(2, 6); (6, 2); (3, 5); (5, 3); (4, 4) 8 5/36
(3, 6); (6, 3); (4, 5); (5, 4) 9 4/36
(4, 6); (6,4); (5, 5) 10 3/36
(5, 6); (6,5) 11 2/36
(6, 6) 12 1/36

Ejemplo:

A partir del ejemplo 55, referente al lanzamiento de los dos dados. Hallar F(x=4).

Solución:
Por la función de distribución acumulada
ܨሺܺ = 4ሻ = ܲሺܺ ≤ 4ሻ = ෍ ݌ሺݔ




ஸସ

ܨሺܺ = 4ሻ = ܲሺܺ ≤ 1ሻ + ܲሺܺ ≤ 2ሻ + ܲሺܺ ≤ 3ሻ + ܲሺܺ ≤ 4ሻ
ܨሺܺ = 4ሻ = 0 +
1
36
+
2
36
+
3
36
=
6
36
=
1
6


Ejemplo:
A partir del ejemplo 55, referente al lanzamiento de los dos dados. ¿Cuál será el valor de probabilidad para
P(X > 4)

Solución:
Por la función de distribución acumulada.
ܲሺܺ > 4ሻ = 1 − ܲሺܺ ≤ 4ሻ = 1 − ܨሺ4ሻ = 1 −
6
36
=
30
36
=
5
6

Ejemplo:
A partir del ejemplo 55, referente al lanzamiento de los dos dados. ¿Cuál será el valor de probabilidad para
P(X =3) y ܲሺ3 ≤ ܺ ≤ 7ሻ

Solución:

Por la función de distribución acumulada.
ܲሺܺ = 3ሻ = ܲሺܺ ≤ 3ሻ − ܲሺܺ ≤ 2ሻ = ܨሺ3ሻ − ܨሺ2ሻ =
3
36

1
36
=
2
36
=
1
18

ܲሺ3 ≤ ܺ ≤ 7ሻ = ܲሺܺ ≤ 7ሻ − ܲሺܺ ≤ 2ሻ = ܨሺ7ሻ − ܨሺ2ሻ =
21
36

1
36
=
20
36
=
10
18
=
5
9


Ejemplo:
Un dado está arreglado de tal forma que cada número impar tiene el doble de probabilidad de ocurrencia que el
número par. Sea G el evento que el número que cae es mayor a tres.
¿Hallar P(X =G )?



Página 128 de 175

Solución:

El espacio muestral: S = {1, 2, 3, 4, 5, 6}. Sea u = Número par, entonces 2u = Número impar. Entonces según
los valores del espacio muestral: 2u + u +2u + u + 2u + u = 1. 9u = 1, así u = 1/9
Como G = 4, 5, 6 entonces: u + 2u + u = 1/9 + 2/9 + 1/9 = 4/9, por consiguiente: P(X =G ) = 4/9

Ejemplo:
¿Cuál será la expresión que describe la distribución de probabilidad para la variable aleatoria X = Número
total de caras al lanzar una moneda 4 veces?

Solución:
El espacio muestral = 2
4
= 16. Según la regla del exponente.
P(X = 0) =1/16, P(X = 1) = 4/16, P(X = 2) = 6/16, P(X = 3) =4/16, P(X = 4) = 1/16.
Haciendo el análisis:
Para X = 0. Tenemos: ቀ
4
0
ቁ = 1
Para X = 1. Tenemos: ቀ
4
1
ቁ = 4
Generalizando:
Para X = x = ቀ
4
ݔ
ቁ → ݂ሺݔሻ =




ଵ଺
Para x = 0, 1, 2, 3, 4.

Ejemplo:
Mostrar que ݂ሺݔሻ =
௫ାଶ
ଶହ
para x = 1, 2, 3, 4, 5. Es una función de distribución de probabilidad de la variable
aleatoria discreta X.

Solución:
Se debe mostrar primero que f(x) ≥ 0, lo cual se cumple para los valores de la variable aleatoria.
Seguido debemos mostrar que ∑ ݂ሺݔሻ

= 1. Entonces:
෍݂ሺݔሻ =

݂ሺ1ሻ + ݂ሺ2ሻ + ݂ሺ3ሻ + ݂ሺ4ሻ +݂ሺ5ሻ =
3
25
+
4
25
+
5
25
+
6
25
+
7
25
= 1
Como se puede ver f(x) cumple las dos condiciones, así queda mostrado que f(x) es función de distribución de
probabilidad.

Ejemplo:

En un casino se tiene un dado cargado para jugar, según la siguiente tabla.
ݔ

1 2 3 4 5 6
෍ܲሺܺ ≤ ݔ


௜ୀଵ
0,1 0,1 0,2 0,4 0,15 0,05

Hallar la función de distribución acumulada y hacer la grafica de P(X = x) y F(x).

Solución:

Función de distribución acumulada.
ݔ

1 2 3 4 5 6
෍ܲሺܺ ≤ ݔ


௜ୀଵ
0,1 0,2 0,4 0,8 0,95 1,0

La grafica de P(X = x)


Página 129 de 175


La grafica de F(x)



Lección 28: Distribución continúa de probabilidad.

VARIABLE ALEATORIA CONTÍNUA:

Función de Probabilidad o Función de Densidad de Probabilidad: La distribución de probabilidad de una
variable aleatoria continua X tiene función de densidad de probabilidad f(x), la cual representa la probabilidad
de que a≤ X ≤ b.

DEFINICIÓN: Sea f(x) una función considerada función de densidad de probabilidad, si cumple las siguientes
condiciones.

1. f(x) ≥ 0 Para -α < x < α
2. ׬ ݂ሺݔሻ݀ݔ

ି∝
= 1
3. ܲሺܽ ≤ ܺ ≤ ܾሻ = ׬ ݂ሺݔሻ݀ݔ




La gráfica que representa la función de densidad de probabilidad, es el área bajo la curva, cuyo valor total es
uno. La probabilidad en un intervalo a≤ X ≤ b será el área acotada por la función de densidad y las rectas x = a
y x = b.


Página 130 de 175



La curva normal se desarrolla alrededor de la media, donde con una desviación estándar se abarca el 68,3%
de la información, con dos desviaciones estándar se abarca el 95,5% de la información y con tres desviaciones
estándar se abarca el 99,7% de la información.


Función de Distribución Acumulada: La función de distribución acumulada F(x) es el área acotada por la
función de densidad que va desde -α < x < α, la curva de F(x) es lisa y no decreciente.

DEFINICIÓN: La función F(x) se considera función de distribución acumulada para la variable aleatoria X si
cumple:
ܲሺܺ ≤ ݔሻ = ܨሺݔሻ = ׬ ݂ሺݐሻ݀ݐ

ିஶ
Donde t = Variable de transición


Características de F(x):
a-) F (-α) = 0
b-) F (α) = 1
c-) ܨሺݔሻ = ܲሺܺ ≤ ݔሻ = ׬ ݂ሺݐሻ݀ݐ

ିஶ
) Para -α < x < α
d-) P( a< X < b ) = F( b ) – F( a )
e-) La derivada de la función de distribución acumulada es la función de densidad.

ௗிሺ௫ሻ
ௗ௫
= ݂ሺݔሻ

Ejemplo:
El estudio de intervalo de llegada a un Banco es una variable aleatoria, cuya función de densidad es:
݂ሺݔሻ = {
݇݁
ି௫/ଶ
ܲܽݎܽݔ > 0
0 ܲܽݎܽ݋ݐݎ݋ݏܿܽݏ݋ݏ

Determinar:
a-) El valor de k
b-) La función de distribución acumulada
c-) La probabilidad de que x ≤ 8


Página 131 de 175

d-) La probabilidad de que 2 < X < 6

Solución:
a-) Por definición: ݇ ׬ ݁
ି௫/ଶ


݀ݔ = 1 Entonces: −2݇݁
ି௫/ଶ


0
= 1 Evaluando −

2݇ሺ݁
ିஶ
− ݁

ሻ| = 1
k = 1/2
b-) Como ܨሺݔሻ = ׬ ݂ሺݐሻ

ିஶ
݀ݐ → ܨሺݔሻ = ׬ 0

ିஶ
݀ݐ +


׬ ݁
ି௧/ଶ


݀ݐ = 1 Donde: ܨሺݔሻ = 1 − ݁
ି௫/ଶ

Para x > 0
c-) ܲሺܺ < 8ሻ = ܨሺ8ሻ = 1 − ݁
ି଼/ଶ
= 1 − ݁
ିସ
= 0,9817
Entonces el 98,17% es la probabilidad de que transcurra 8 minutos entre dos visitas
consecutivas en el Banco.
d-) ܲሺ2 < ܺ < 6ሻ = ܨሺ6ሻ − ܨሺ2ሻ = ቀ1 − ݁
ି


ቁ − ቀ1 − ݁
ି


ቁ = ሺ1 − ݁
ିଷ
ሻ − ሺ1 − ݁
ିଵ

Así: ܲሺ2 < ܺ < 6ሻ = 0,9502 − 0,6321 = 0,3181

Ejemplo:
Dada la función de distribución acumulada ܨሺݔሻ = 1 −



Para x > 3 y 0 En otros casos.
Hallar:
a-) La función de densidad
b-) P ( X ≤ 5 )
c-) P( X > 8 )

Solución:
a-) Por definición f(x) se obtiene derivando F(x). ݂ሺݔሻ =
ௗሺଵିଽ/௫


ௗ௫
= 0 −
ଵ଼௫


=
ଵ଼


Así: ݂ሺݔሻ =
ଵ଼



b-) ܲሺܺ ≤ 5ሻ = ܨሺ5ሻ = 1 −

ሺହሻ

= 1 −

ଶହ
=
ଵ଺
ଶହ

c-)ܲሺܺ > 8ሻ = 1 − ܲሺܺ ≤ 8ሻ = 1 − ܨሺ8ሻ = 1 − ቀ1 −



ቁ =

଺ସ
Así: ܲሺܺ > 8ሻ =

଺ସ




Lección 29: Esperanza Matemática y Varianza:

ESPERANZA MATEMÁTICA

El concepto de Esperanza Matemática o Valor Esperado fue motivado por los juegos de azar, siendo Jacob
Bernoulli en 1.713 utilizo la esperanza para indicar cuál sería la situación de un jugador que deseaba ganar
en un juego. Bernoulli, analizó la siguiente situación: Si la ganancia por juego (g) se multiplica por el
porcentaje de veces que se gana P(g) y se le resta la pérdida(p) multiplicada por el porcentaje de veces que
ocurre pérdida P(p), se obtiene el valor esperado del juego:

E(Juego) = g*P(g) + p*P(p)

Posteriormente Von Mises le dio carácter estadístico al concepto de esperanza, aplicada a variables
aleatorias que dieron alternativas de ganar o perder, llegando a la expresión:

ܧሺܺሻ = ෍ݔ

݌ሺݔ




Donde: x
i
son los valores de las alternativas y p (x
i
) la probabilidad de las alternativas.

-) Por la regularidad estadística, el valor límite de la frecuencia relativa de cada posibilidad se da como:


Página 132 de 175

݌

=lim
ܰ→∞

݊
݅
ܰ


-) La media se define como: ܺ

=
1
ܰ
∑ ݔ
݅
∗ ݊
݅ ݅


Por lo anterior, la esperanza matemática E(X) se considera como el valor medio de la distribución teórica de
probabilidad del fenómeno estudiado. Dicho de otra manera, es el valor hacia donde tiende la media aritmética,
cuando el número de observaciones es muy grande; es decir, es el lugar hacia donde se centra la distribución
de probabilidad.

Caso Discreto: (Una Variable)

DEFINICIÓN: Sea X una variable aleatoria discreta y sea f(x) el valor de la distribución de probabilidad en X,
entonces el valor esperado de la variable aleatoria está dada por la siguiente expresión:

ܧሺܺሻ = ෍ݔ݂ሺݔሻ



Ejemplo:
Una variable aleatoria X puede tomar los valores: 1, 2, 3, 4. Las probabilidades de cada caso son: 0.20, 0.25,
0.30, 0.25 respectivamente. Hallar la esperanza matemática.

Solución:
Por definición ܧሺܺሻ = ∑ ݔ


௜ୀଵ
݌ሺݔ

ሻ = 1 ∗ 0.20 + 2 ∗ 0.25 ∗ 3 ∗ 0.30 + 4 ∗ 0.25 = 2,6

Caso Continuo: (Una Variable)

DEFINICIÓN: Sea X una variable aleatoria continua y sea f(x) el valor de la densidad de probabilidad en X,
entonces el valor esperado de la variable aleatoria está dada por la siguiente expresión:
ܧሺܺሻ = ׬ ݔ݂ሺݔሻ݀ݔ

ିஶ


Ejemplo:
Sea la variable aleatoria continua X, cuya función de densidad f(x) = 5x
4
para 0 ≤ X ≤ 1. Hallar E(X)

Solución:
Por definición ܧሺܺሻ = ׬ ݔሺ5ݔ

ሻ݀ݔ =


׬ ሺ5ݔ

ሻ݀ݔ =


ݔ


1
0
=


ሺ1 − 0ሻ =





E(X) = 5/6


Ejemplo:
Sea la variable aleatoria continua X, cuya función de densidad f(x) = 4x
3
para 0 ≤ X ≤ 1. Hallar E(X)

Solución:
Por definición ܧሺሻ = ׬ ݔሺ4ݔ

ሻ݀ݔ =


׬ ሺ4ݔ

ሻ݀ݔ =


ݔ


1
0
=


ሺ1 − 0ሻ =





E(X) = 4/5



Página 133 de 175

La esperanza matemática no siempre existe, para el caso discreto, E(X) existe si la serie infinita que tenga, sea
convergente. Para el caso continuo, cuando la integral es impropia, la esperanza existe si la integral es
convergente.

Propiedades del Valor Esperado:

1.) La esperanza matemática de una constante, es igual a la constante: E(k) = k

2.) La esperanza matemática de la suma de algebraica de variables aleatorias, es igual a la suma algebraica
de las esperanzas matemáticas de cada una de las variables aleatorias.
E(X
1
± X
2
±…±X
n
) = E(X
1
) ± E(X
2
) ± … ± E(X
n
)

3.) La esperanza matemática del producto algebraico de variables aleatorias, es igual al producto
algebraico de las esperanzas matemáticas de cada una de las variables aleatorias, si y solo si, son
estadísticamente independientes. E(X
1
* X
2
*…*X
n
) = E(X
1
) * E(X
2
) * … * E(X
n
)

4.) La esperanza matemática de las desviaciones de los valores de la variable aleatoria, respecto a la media
es cero. E(X – µ) = 0 Luego: E(X) = µ

Lo anterior deja ver que la esperanza matemática es un parámetro o característica de la tendencia central de
la distribución.

5.) Si la variable aleatoria X se le suma una constante, la esperanza matemática de la variable queda
modificada en la constante; es decir; un cambio del origen en la variable aleatoria, afecta su esperanza
matemática. E(X + k) = E(X) + K

6.) Si una variable aleatoria X se le multiplica por una constante, su esperanza matemática también queda
multiplicada por la constante. Un cambio en la escala de la variable aleatoria, afecta su esperanza
matemática. E(k*X) = kE(X) Para k = Constante

7.) La esperanza matemática de una transformación lineal de una variable aleatoria, será la transformación
lineal de la esperanza matemática de la variable aleatoria. E(a + bX) = a + bE(X).

Ejemplo:
En un pedido de 12 computadores se incluyen 2 de marca DELL, si se seleccionan 3 aparatos aleatoriamente
para hacer un despacho. ¿Cuántos aparatos de marca DELL pueden ser despachados?

Solución:
El planteamiento: x computadores de marca DELL y 3 – x computadores de otras marcas. El total de aparatos
a seleccionar es: ቀ
12
3
ቁ Computadores marca DELL ቀ
2
ݔ
ቁ Computadores de otras marcas ቀ
10
3 − ݔ

La función de probabilidad cuya variable aleatoria X son los computadores de marca DELL despachados será:
݂ሺݔሻ =



ቁቀ
ଵ଴
ଷି௫


ଵଶ


Para x = 0, 1, 2
Entonces:
X 0 1 2
f(x) 6/11 9/22 1/22

Con estos datos se calcula E(X). Como la variable aleatoria es discreta, entonces:
E(X) = 0*6/11 + 1*9/22 + 2*1/22 = 1/2. El promedio de envíos repetidos es 1/2.

Ejemplo:
Sea la variable aleatoria X con función de densidad f(x) = 1/3 x
2
Para -1 < X < 2

Solución:


Página 134 de 175

A partir de la definición y por las propiedades de la esperanza matemática.
E(g(X)) = E(4X + 3) = 4E(X) + 3
ܧሺ݃ሺܺሻሻ = 4 ׬


ݔ

݀ݔ + 3 =


׬ ݔ

݀ݔ + 3 =





ݔ

ቁ ∣
2
−1
=


൫2

− ሺ−1

ሻ൯ + 3

ିଵ

ିଵ

ܧ൫݃ሺܺሻ൯ =
1
3
ሺ16 − 1ሻ + 3 =
15
3
+ 3 = 8


VARIANZA DE UNA VARIABLE ALEATORIA

Se sabe que la media o valor esperado describe el lugar donde se centra la distribución de probabilidad, pero
no ofrece una descripción adecuada de la forma de la distribución. Es pertinente y necesario caracterizar la
variabilidad de dicha distribución. La medida de variabilidad más importante en estadística es la varianza de la
variable aleatoria o de la distribución de probabilidad.

Caso Discreto:

DEFINICIÓN: Sea X una variable aleatoria discreta, con distribución de probabilidad f(x) y media µ, entonces la
varianza de X está dada por la siguiente expresión:
ܸሺܺሻ = ߪ

= ܧሾሺܺ − ߤሻ

ሿ = ෍ሺܺ −ߤሻ

݂ሺݔሻ


Donde (x - µ) se conoce como la desviación de las observaciones respecto a la media. Esta al ser evaluada al
cuadrado y luego promediadas, serán menores para valores de x muy cercanas a µ.
Una forma alternativa para la varianza es:
ܸሺܺሻ = ߪ

= ܧሺܺ

ሻ −ߤ



Ejemplo:
Sea la variable aleatoria X que representa las funciones de distribución A y B.
x 0 1 2 3 4
A f(x) 0.3 0.4 0.3
B f(x) 0.2 0.1 0.3 0.3 0.1

a-) Hallar la varianza de X en el caso A
b-) Hallar la varianza de X en el caso B
c-) Cual de las dos distribuciones tiene menor varianza

Solución:
a-) Primero se calcula E(X) = µ = 1*0.3 + 2*0.4 + 3*0.3 = 2.0
ܸሺܺሻ = ߪ

= ෍ሺݔ − 2ሻ


௫ୀଵ
݂ሺݔሻ = ሺ1 −2ሻ

ሺ0.3ሻ + ሺ2 − 2ሻ

ሺ0.4ሻ + ሺ3 − 2ሻ

ሺ0.3ሻ
ܸሺܺሻ = ߪ

= 0.3 + 0 + 0.3 = 0.6

b-) E(X) = µ = 0*0.2 + 1*0.1 + 2*0.3+3*0.3+4*0.1 = 0+0.1+0.6+0.9+0.40 = 2.0

ܸሺܺሻ = ሺ0 −2ሻ

ሺ0.2ሻ + ሺ1 − 2ሻ

ሺ0.1ሻ + ሺ2 − 2ሻ

ሺ0.3ሻ + ሺ3 − 2ሻ

ሺ0.3ሻ +ሺ4 − 2ሻ

ሺ0.1ሻ
ܸሺܺሻ = 0.8 + 0.1 + 0 + 0.3 + 0.4 = 1.6

c-) La varianza del caso B es mayor que la varianza del caso A, así la varianza del caso A es menor, lo que
indica que la función de distribución de la variable A es más estable que la B.

Caso Continuo:



Página 135 de 175

DEFINICIÓN: Sea X una variable aleatoria continua, con función de densidad de de probabilidad f(x) y media µ,
entonces la varianza de X está definida como sigue a continuación:
ܸሺܺሻ = ߪ

= ܧሾሺܺ − ߤሻ

ሿ = ׬ ሺݔ −ߤሻ

݂ሺݔሻ݀ݔ

ିஶ


Ejemplo:

La demanda mensual de un producto está dada por la variable aleatoria X, cuya función de densidad se define
como:
݂ሺݔ, ݕሻ = ൜
2ሺݔ − 1ሻ 1 < ݔ < 2
0 ܱݐݎ݋ݏ ܿܽݏ݋ݏ

Hallar la varianza de X.

Solución:
Por de definición ܸሺܺሻ = ߪ

= ܧሾሺܺ − ߤሻ

ሿ = ׬ ሺݔ −ߤሻ

݂ሺݔሻ݀ݔ

ିஶ
Así que debemos hallar primero la media.
ܧሺܺሻ = ߤ = නݔሾ2ሺݔ −1ሻሿ݀ݔ = 2 නሺݔ

− ݔሻ݀ݔ = 2 ൬
1
3
ݔ

൰ ∣
2
1
− 2 ൬
1
2
ݔ

൰ ∣
2
1






ܧሺܺሻ = ߤ =


ሺ8 − 1ሻ − ሺ4 − 1ሻ =
ଵସ

− 3 =


Ahora si podemos hallar la varianza.

ܸሺܺሻ = ߪ

= නሺݔ − 5/3ሻ

∗ 2ሺݔ − 1ሻ݀ݔ = 2 නሺݔ


13
3
ݔ

+
55
9
ݔ −
25
9
ሻ݀ݔ





ܸሺܺሻ = ߪ

= ൬
1
2
ݔ


26
9
ݔ

+
55
9
ݔ


50
9
ݔ൰ ∣
2
1
=
1
18



Desarrollando el mismo ejercicio, utilizando la forma alternativa de la varianza.
ܸሺܺሻ = ߪ

= ܧሺݔ

ሻ − ߤ


Primero: ܧሺܺ

ሻ = ׬ ݔ

݂ሺݔሻ݀ݔ = ׬ ݔ

∗ 2ሺݔ − 1ሻ݀ݔ = 2 ׬ ሺݔ

− ݔ

ሻ݀ݔ





ିஶ

ܧሺܺ

ሻ = 2 ൤
1
4
ݔ


1
3
ݔ

൨ =
1
2
ݔ


2
1

2
3
ݔ


2
1
=
1
2
ሺ16 −1ሻ −
2
3
ሺ8 −1ሻ =
15
2

14
3
=
17
6

Segundo: ܸሺܺሻ = ߪ

= ܧሺݔ

ሻ − ߤ

=
ଵ଻


ଶହ

=

ଵ଼


Propiedades de la Varianza:

1. La varianza es siempre no negativa, Como ሺݔ − ߤሻ

≥ 0 entonces: ܸሺܺሻ ≥ 0. Cuando la varianza es
cero, los fenómenos se conocen como distribuciones degenerativas o causales.

2. La varianza de una constante es cero. ܸሺܭሻ = 0. Para K = Constante

3. La varianza de la suma de dos variables aleatorias, es igual a la suma algebraica de las varianzas de dichas
variables aleatorias mas dos veces su covarianza. ܸሺܺ ∓ ܻሻ = ܸሺܺሻ + ܸሺܻሻ ∓2ܥ݋ݒሺܺ, ܻሻ

4. Si a una variable aleatoria se le suma o resta una constante, la varianza no cambia.
ܸሺܺ ∓ ܭሻ = ܸሺܺሻ ∓ ܸሺܭሻ = ܸሺܺሻ

5. Si a una variable aleatoria se le multiplica por una constante, la varianza se modifica, tal que la constante
queda al cuadrado y multiplicada por la varianza de la variable aleatoria. ܸሺܭܺሻ = ܭ

ܸሺܺሻ

6. El error cuadrado medio (ECM) es la dispersión de la variable aleatoria entorno a un origen K, dicho error
se hace mínimo cuando coinciden con la varianza. ܧܥܯ = ܧሺܺ − ܭሻ

= ܧሺܺ − ߤሻ

+ ܧሺܭ − ߤሻ




Página 136 de 175




Lección 30: Teorema de Chébyshev

La varianza de una variable aleatoria nos muestra el grado de agrupamiento que tienen los datos alrededor de
la media, así la probabilidad de que una variable aleatoria tome un valor dentro de cierto intervalo alrededor de
la media, será mayor si tiene una varianza menor que otra variable aleatoria que tenga mayor varianza.

En términos de área, una variable aleatoria con V(X) = σ
2
grande, presentará mayor área y muy lejana de la
media µ. Por el contrario una variable aleatoria con V(X) = σ
2
pequeña, nos dirá que la mayor parte del área
está alrededor de la media µ.


















El matemático ruso P L Chebyshev (1.821 – 1.894) descubrió descubrió que la fracción de área entre dos
valores simétricos cualquiera alrededor de µ, está relacionado con la desviación estándar. EL siguiente
teorema nos da una estimación de la probabilidad de que una variable aleatoria tome un valor entre K
desviaciones estándar de la media µ, para cualquier valor de K.

TEOREMA: Sean µ y σ la media y desviación estándar de una variable aleatoria X, entonces para cualquier
constante K, la probabilidad de que X asuma al menos un valor dentro de K desviaciones estándar de la
media, está dado por 1 – 1/K
2
. Entonces:
Pሺߤ − ܭߪ < ܺ < ߤ + ܭߪሻ ≥ 1 −
1
ܭ



El teorema de Chebyshev nos ofrece un límite inferior de probabilidad, pero no se puede saber el valor real de
probabilidad. Como se verá en el siguiente ejemplo, la probabilidad de que la variable aleatoria esté entre dos
desviaciones estándar, no puede ser menor a 3/4

Ejemplo:

¿Cuál será la probabilidad de que la variable aleatoria X, asuma al menos un valor dentro de 2 desviaciones
estándar?

Solución:

Como K = 2, Luego: Pሺߤ − 2ߪ < ܺ < ߤ +2ߪሻ ≥ 1 −



=





Página 137 de 175

Entonces: Pሺߤ − 2ߪ < ܺ < ߤ + 2ߪሻ ≥





Ejemplo:

Una variable aleatoria X tiene una media de 12 y varianza 16, la distribución de probabilidad es desconocida,
hallar P (4 < X < 20)

Solución:
Por el teorema de Chebyshev: Pሺ12 −4ܭ < ܺ < 12 + 4ܭሻ ≥ 1 −




Como 12 – 4K = 4, entonces: K = 2, de igual manera: 12 + 4K = 20, K = 2. Por consiguiente:
Pሺ12 − 2ሺ2ሻ < ܺ < 12 + 2ሺ2ሻሻ ≥ 1 −



=


Así: P (4 < X < 20) ≥ ¾

Ejemplo:

Una variable aleatoria X tiene una media µ = 8 y varianza σ
2
= 9, hallar P (∣X - 8∣ ≥ 6)

Solución:
Por principios de probabilidad: P (∣X - 8∣ ≥ 6) = 1 - P (∣X - 8∣ < 6) Ahora:
P (∣X - 8∣ < 6) = P (-6 < X < 6) = P(-6+8 < X < 6+8) = P(2 < X < 14).
Por Chebyshev: Pሺ8 −3ሺܭሻ < ܺ < 8 + 3ሺܭሻሻ ≥ 1 −




Como: 8 – 3K = 2 y 8 + 3K = 14, entonces: K = 2.
Luego: P (2 < X < 14) ≥ 3/4. Entonces: 1 - P (∣X - 8∣ < 6) = 1 – 3/4 = 1/4.
Finalmente: P (∣X - 8∣ ≥ 6) ≤ 1/4

Ejemplo:

Una variable aleatoria Y tiene una media µ = 10 y varianza σ
2
= 4, hallar P (∣Y - 10∣ < 3)

Solución:
P (∣Y - 10∣ < 3) = P (-3 < Y - 10 < 3) = P (-3 + 10 < Y < 3 + 10) = P (7 < Y < 13) .
Por Chebyshev: Pሺ7 < ܻ < 13ሻ ≥ 1 −



Pero: 10 – 2K = 7, así: K = 3/2.
Luego: P (7 < Y < 13) ≥ 1-1/(3/4)
2
= 5/9 Entonces: 1 - P (7 < Y < 13) ≥ 5/9








Página 138 de 175

CAPÍTULO 8: DISTRIBUCIONES DE PROBABILIDAD
DISCRETA

Lección 31: Distribución uniforme discreta

La distribución uniforme discreta es la más sencilla de las distribuciones de probabilidad, los valores que toma
la variable aleatoria tienen igual probabilidad.

DEFINICIÓN: Una variable aleatoria X tiene una distribución uniforme discreta y se conoce como variable
aleatoria uniforme discreta, si y solo si, su distribución de probabilidad está dada por:
݂ሺݔሻ =


Para x = x
1
, x
2
, ... , x
K
y x
i
≠ x
j
para i ≠ j.

Según la expresión, los valores de x
1
, x
2
, ... , x
K
toman la misma probabilidad.



Propiedades:

Media: ߤ =
௄ାଵ

De otra manera: ߤ =


∑ ݔ


௜ୀଵ

Varianza: ߪ

=


ିଵ
ଵଶ
De otra manera: ߪ

=


∑ ሺݔ

− ߤሻ
ଶ ௄
௜ୀଵ


Ejemplo:

En el lanzamiento de un Dado normal, cual es la probabilidad de ocurrencia de los eventos, ¿corresponde a
una distribución uniforme?

Solución:
Espacio muestral: S = {1, 2, 3, 4, 5, 6}
P(X = x
K
) = 1/6. f(x, 6) = 1/6 Para x = 1, 2, 3, 4, 5, 6
Como la probabilidad es constante en todo el espacio muestral, evidentemente la distribución es uniforme
discreta.




Página 139 de 175


Ejemplo:

En una caja hay USB de 1, 2, 3, 4, 6 GB,
a-) ¿Cuál es la distribución de probabilidad?
b-) ¿Cual es la probabilidad de seleccionar una USB de 3GB?

Solución:
Espacio muestral: S = {1, 2, 3, 4, 6}
P(X = x
K
) = 1/5. f(x,5) = 1/5 Para x = 1, 2, 3, 4, 6.
Como la probabilidad es constante en todo el espacio muestral, evidentemente la distribución es uniforme
discreta.




Lección 32: Distribución Binomial y Poisson

DISTRIBUCIÓN BINOMIAL.

La distribución Binomial es una de las distribuciones más utilizadas, dentro de las distribuciones discretas. Se
dice que la Binomial, es una generalización de la distribución Bernoulli, ya que la Bernoulli ocurre para un
ensayo y la Binomial ocurre para n ensayos. La distribución Binomial se caracteriza porque tiene dos posibles
resultados: Éxito y Fracaso. Si p(x) es la probabilidad de éxito, q(x) = 1 – p(x) es la probabilidad de fracaso.

DEFINICIÓN: Sea X una variable aleatoria que representa el número de éxitos en n ensayos y sea P la
probabilidad de éxito en cualquiera de los ensayos, entonces X tiene distribución de probabilidad Binomial,
cuya función de probabilidad se define de la siguiente manera:

ܾሺݔ; ݊, ݌ሻ = ቀ
݊
ݔ
ቁ ݌

ݍ
௡ି௫
Para x = 0, 1, 2,…, n y n = Entero

Los parámetros de la Binomial son: n y p

Un experimento Binomial tiene las siguientes características:
1 - ) Tiene n ensayos idénticos
2 - ) Cada ensayo tiene sólo dos resultados posibles.
3 - ) Los ensayos son independientes
4 - ) El interés es hallar el número de éxitos en n ensayos.




Página 140 de 175


Propiedades:

Media: ߤ = ݊ ∗ ݌ Varianza: ߪ

= ݊ ∗ ݌ ∗ ݍ
Asimetría: ܣ =
ଵିଶ௣
√௡∗௣∗௤
Curtosis: ܭ = 3 +
ଵି଺∗௣∗௤
௡∗௣∗௤



Veamos algunas distribuciones binomiales , para un X dado y una probabilidad definida.

X = 20 y P(X=x) = 0,2 X = 20 y P(X=x) = 0,5


X = 20 y P(X=x) = 0,75 X = 20 y P(X=x) = 0,95




Ejemplo:

En un experimento se realizan 10 ensayos, la probabilidad de éxito es 0,1 Hallar P(X = 2)

Solución:
Según el problema: n = 10, p = 0.1, q = 0.9
݌ሺݔ = 2ሻ = ቀ
10
2
ቁ ሺ0.1ሻ

ሺ0.9ሻ
ଵ଴ିଶ
= 45 ∗ ሺ0,01ሻ ∗ ሺ0.4304ሻ = 0,1936
݌ሺݔ = 2ሻ = 0,1936

Ejemplo:



Página 141 de 175

En una industria farmacéutica se quiere determinar la efectividad de un medicamento, en ensayos preliminares
se ha establecido que de cada 50 pacientes, 40 responden bien al producto. Si se toman 4 pacientes ¿Cuál es
la probabilidad de que dos de ellos respondan positivamente al medicamento?

Solución:
Según los datos del problema: n = 4, x = 2, p = 4/5 = 0,8
Entonces: ܾሺ2; 4,0.8ሻ = ቀ
4
2
ቁ ሺ0.8ሻ

ሺ0.2ሻ
ସିଶ
= 6 ∗ ሺ0,64ሻ ∗ ሺ0.04ሻ = 0,1536
La probabilidad de que dos de los pacientes tomados como muestra respondan positivamente al medicamente
es del 15,36%

Ejemplo:

La compañía Q.ac fabrica Benzoato de Sodio como preservante contra hongos. La experiencia muestra que el
producto tiene problemas de efectividad en un 5%. Se realizó un experimento con 25 productos idénticos.

a-) ¿Cuál es la probabilidad de que por lo menos 2 de ellos presente problemas de efectividad?
b-) ¿Cuál es la cantidad esperada del producto con problemas de efectividad?

Solución:
a-) Se debe hallar: P(X ≥ 2) = 1 – P(x ≤ 1) Donde: P(X ≤ 1) = P(X = 0) + P(X = 1)
ܲሺܺ = 0ሻ = ቀ
25
0
ቁ ሺ0.05ሻ

ሺ0.95ሻ
ଶହ
= 1 ∗ ሺ1ሻ ∗ ሺ0.2774ሻ = 0,2774
ܲሺܺ = 1ሻ = ቀ
25
1
ቁ ሺ0.05ሻ

ሺ0.95ሻ
ଶସ
= 25 ∗ ሺ0.05ሻ ∗ ሺ0.2919ሻ = 0,3648
ܲሺܺ ≤ 1ሻ = 0,2774 + 0,3648 = 0,6422 Así: ܲሺܺ ≥ 2ሻ = 1 − 0,6422 = 0,3578

b-) Se debe hallar E(X) = µ
E(X) = µ = n*p = 25 * 0,05 = 1,25

Ejemplo:

En un estudio sobre la Vitamina C para resfriado, se probó que de cada 10 personas que la consumen, 8
personas no presentan resfriado durante un año. Si la probabilidad de no presentar resfriado es del 50%
cuando no se consume la vitamina ¿Cuál es la probabilidad de observar 8 o más personas sin resfriado? .Se
asume que la vitamina es ineficaz para aumentar la resistencia al resfriado.

Solución:
Según los datos: p = 0.5, q = 0.5, n = 10, x ≥ 8.
P(X ≥ 8) = P(X = 8) + P(X = 9) + P(X = 10)
ܲሺܺ = 8ሻ = ቀ
10
8
ቁ ሺ0.5ሻ

ሺ0.5ሻ

= 45 ∗ ሺ0.0039ሻ ∗ ሺ0.25ሻ = 0,04387
ܲሺܺ = 9ሻ = ቀ
10
9
ቁ ሺ0.5ሻ

ሺ0.5ሻ

= 10 ∗ ሺ0.00195ሻ ∗ ሺ0.5ሻ = 0,00975
ܲሺܺ = 10ሻ = ቀ
10
10
ቁ ሺ0.5ሻ
ଵ଴
ሺ0.5ሻ

= 1 ∗ ሺ0.000976ሻ ∗ ሺ1ሻ = 0,0009765
ܲሺܺ ≥ 8ሻ = 0,04387 +0,00975 + 0,0009765 = 0,0546

Ejemplo:

En un estudio sobre la Vitamina C para resfriado, (ejemplo 97) hallar: µ, σ
2
, A, K

Solución:
ߤ = ݊ ∗ ݌ = 10 ∗ 0,5 = 5 ߪ

= ݊ ∗ ݌ ∗ ݍ = 10 ∗ 0,5 ∗ 0,5 = 2,5
ܣ =
ଵିଶሺ଴,ହሻ
√ଵ଴∗௢,ହ∗଴,ହ
= 0 ܭ = 3 +
ଵି଺∗଴,ହ∗଴,ହ
ଵ଴∗଴,ହ∗଴,ହ
=
ଵିଵ,ହ
ଶ,ହ
= 3 +0,2 = 3,2



Página 142 de 175

La distribución de la efectividad para la vitamina C es simétrica.



Tabla de la Distribución Binomial:

Para simplificar los cálculos, casos donde x toma muchos valores, se ha diseñado la tabla de distribución.

Ejemplo:

Hallar, utilizando la tabla:
a-) P(X = 2) Para n = 10 y p = 0,5
b-) P(X = 3) Para n = 10 y p = 0,3
c-) P(X = 2) Para n = 6 y p = 0,4

Solución:
a-) En la tabla se busca para n = 10 y p = 0,5. Entonces: P(X = 2) = 0,0439
b-) En la tabla se busca para n = 10 y p = 0,3. Entonces: P(X = 3) = 0,2668
c-) En la tabla se busca para n = 6 y p = 0,4. Entonces: P(X = 2) = 0, 3110


Ejemplo:

Hallar, utilizando la tabla
a-) P(X ≥ 2) Para n = 6 y p = 0,15
b-) P(X ≤ 3) Para n = 8 y p = 0,25

Solución:
a-) En la tabla se busca para n = 6 y p = 0,15, el valor para x = 0 y para x = 1.
Para P(X ≥ 2) = 1 – P(X ≤ 1) = 1 – (0,3771 + 0,3993) = 0,2236

b-) En la tabla se busca para n = 8 y p = 0,25, el valor para x = 0, para x = 1, para x = 2 y para x = 3.
Para P(X ≤ 3)=P(X = 0)+ P(X = 1) + P(X = 2) + P(X = 3)=0,1001 + 0,2670 +0,3115 + 0,2076 = 0,8862

La tabla de distribución Binomial, por lo general va hasta n = 20, así x = 0, 1, 2, 3, … , 20




Página 143 de 175








Página 144 de 175

DISTRIBUCIÓN POISSON.

Cuando n es muy grande, el cálculo de probabilidades binomiales es muy complicado, casi imposible. Para
superar dicha limitación, el estadístico francés Simeon Denis Poisson (1.781 – 1.840), quien en 1.838
desarrolló una distribución de probabilidad discreta, bajo los siguientes argumentos:
Qué forma tiene el límite de la distribución Binomial cuando n → α, p → 0, mientras n*p permanece constante.
A n*p lo llamó λ.
La distribución de probabilidad Poisson de variable discreta, aplica a eventos independientes ocurridos
medidos en el tiempo o espacio, a velocidad constante. Casos como:
-) Número de bacterias en un volumen de líquido
-) Número de defectos de una máquina en unidad de tiempo.
Las probabilidades individuales son cada vez más pequeñas conforme la variable aleatoria toma valores cada
vez más grande.

DEFINICIÓN: Sea X una variable aleatoria, que representa el número de eventos aleatorios independientes
que ocurren a rapidez constante sobre el tiempo o espacio, entonces se dice que X tiene distribución Poisson
con función de probabilidad, dada por la siguiente expresión:

݌ሺݔ; ߣሻ =

షഊ


௫!
Para x = 0, 1, 2, 3, … y λ = n*p = Parámetro

λ Se define como el promedio de ocurrencia del evento en el tiempo o espacio.


Propiedades:

Media: ߤ = ߣ Varianza: ߪ

= ߣ
Asimetría: ܣ =

√ఒ
Curtosis: 3 +




Ejemplo:

Sea λ = 2, Hallar P(X=0)

Solución:
ܲሺ0; 2ሻ

షమ


௢!
= ݁
ିଶ
≅ 0,1353

Ejemplo:

Un fabricante de envases plásticos compra a un proveedor el polipropileno, el cual garantiza que de cada 100
Kg, sólo 1 Kg, es defectuoso. En un pedido de 1.000 Kg, ¿Cuál es la probabilidad de que todo el pedido trabaje
bien?

Solución:
A partir de los datos del problema: n = 1.000 Kg, p = 1/100 = 0,01
x = 0 Número de defectuosos
λ = n*p = 1.000*0,01 = 10
Entonces: ܲሺܺ = 0ሻ =

షభబ
ଵ଴

௢!
= ݁
ିଵ଴
≅ 4ܺ10
ିହ

La probabilidad de que todo el pedido trabaje bien es del 0,004%

Ejemplo:

A partir del ejemplo sobre el fabricante de envases plásticos, ejemplo 106. ¿Cuál es la probabilidad que a lo
más 3 Kg sean defectuosos?


Página 145 de 175


Solución:
El planteamiento es: ܲሺܺ ≤ 3ሻ = ܲሺܺ = 0ሻ + ܲሺܺ = 1ሻ + ܲሺܺ = 2ሻ +ܲሺܺ = 3ሻ
ܲሺܺ = 0ሻ = 4ܺ10
ିହ
Ya calculado
ܲሺܺ = 1ሻ =
݁
ିଵ଴
10

1!
=
4,5399ܺ10
ିସ
1
≅ 4,539ܺ10
ିସ

ܲሺܺ = 2ሻ =
݁
ିଵ଴
10

2!
=
4,539ܺ10
ିଷ
2
≅ 2,269ܺ10
ିଷ

ܲሺܺ = 3ሻ =
݁
ିଵ଴
10

3!
=
0,04539
6
≅ 7,566ܺ10
ିଷ

Entonces: ܲሺܺ ≤ 3ሻ = 4,59ܺ10
ିହ
+4,534ܺ10
ିସ
+ 2,27ܺ10
ିଷ
+7,57ܺ10
ିଷ
= 0,01034

Ejemplo:

A partir del ejemplo sobre el fabricante de envases plásticos, ejemplo 106. Hallar la media, varianza, asimetría
y curtosis.

Solución:

Media: ߤ = 10 Varianza: ߪ

= 10
Asimetría: ܣ =

√ଵ଴
= 0,3162 Curtosis: 3 +

ଵ଴
= 3,1

Tabla de la Distribución Poisson:

Al igual que la distribución Binomial, la distribución Poisson tiene una tabla que simplifica los cálculos.

Ejemplo:

Para λ = 2, Hallar P(X = 0) y P(X = 2)


Solución:
a-) Para P(X = 0) = 0,1353
b-) Para P(X = 2) = 0,2707



Ejemplo:

Para λ = 1,5 Hallar P(X = 2) y P(X = 5)

Solución:
a-) Para P(X = 2) = 0,2510
b-) Para P(X = 5) = 0,0141


Página 146 de 175








Página 147 de 175






Lección 33: Distribución Binomial Negativa.

DISTRIBUCIÓN BINOMIAL NEGATIVA.

Con los principios de distribución Binomial y sus propiedades, excepto que los ensayos se repiten hasta
obtener un número fijo de éxitos. Para el caso de la Binomial Negativa el interés está en hallar la probabilidad
de que ocurra el k-eximo éxito en el x-eximo ensayo. Experimentos de esté tipo se conoce como experimento
Binomial negativo o distribución de tiempo de espera Binomial o distribuciones de pascal.

Casos de Este Tipo:
-)La probabilidad de que el sexto paciente expuesto a una enfermedad, sea el segundo en adquirirla.
-) La probabilidad de identificar el tercer retraso de llegada al trabajo de los últimos 30 días.
-) La probabilidad de que el séptimo paciente presente alivio, sea el doceavo paciente que recibe el
medicamento.

Así que el k-eximo éxito va a ocurrir en el x-eximo ensayo.

DEFINICIÓN: Sea X una variable aleatoria, se considera Binomial Negativa, si y solo si, su distribución de
probabilidad esta dada por la siguiente expresión:

ܾ݊ሺݔ; ܭ, ݌ሻ = ቀ
ݔ − 1
ܭ − 1
ቁ ݌

ݍ
ି௄
Para x = K, K + 1, K + 2,…

En este tipo de distribución, los ensayos son independientes y repetidos, las repeticiones se hacen hasta
obtener éxito.

Propiedades:

Media: ߤ =


De otra forma: ߤ =
௫௤



Varianza: ߪ

=





− 1ሻ De otra manera: ߪ

=
௫௤





Página 148 de 175


Ejemplo:

Al lanzar 3 monedas ¿Cuál es la probabilidad de obtener sólo caras o sólo sellos por segunda vez en el quinto
lanzamiento?

Solución:
Según los datos del problema: x = 5, K = 2, p = 1/4 (En el primer lanzamiento hay 2 posibilidades y en el
segundo lanzamiento otras dos posibilidades). Entonces:

ܾ݊ሺݔ; ܭ, ݌ሻ = ൬5; 2,
1
4
൰ = ቀ
5 − 1
2 − 1
ቁ ൬
1
4



3
4

ହିଶ
= ቀ
4
1
ቁ ൬
1
4



3
4


= 4 ∗
1
16

27
64

ܾ݊ ቀ5; 2,


ቁ = 4 ∗

ଵ଺

ଶ଻
଺ସ
=
ଶ଻
ଶହ଺
≅ 0,1055

La probabilidad de obtener solo caras o solo sellos por segunda vez en el quinto lanzamiento, es del 10,55%

Ejemplo:

La probabilidad de que un niño expuesto a una enfermedad, la contenga es del 0,4 ¿Cuál es la probabilidad de
que el decimo niño expuesto, sea el tercero en contraerla?

Solución:
Según los datos del problema: x = 10, K = 3, p = 0,4. Entonces:
ܾ݊ሺ10; 3,0,4ሻ = ቀ
9
2
ቁ ሺ0,4ሻ

ሺ0,6ሻ

= 36ሺ0,064ሻሺ0,0279ሻ ≅ 0,0643

La probabilidad de que el decimo niño expuesto, sea el tercero en contraerla es del 6,43%


Ejemplo:

En el cobro de penaltis un jugador falla en el 5% de veces. ¿Cual es la probabilidad de que falle por segunda
vez al cobrar 15 penaltis?

Solución:
Según los datos del problema: x = 15, K = 2, p = 0,05. Entonces:
ܾ݊ሺ15; 2,0,05ሻ = ቀ
14
1
ቁ ሺ0,05ሻ

ሺ0,95ሻ
ଵଷ
= 14ሺ0,0025ሻሺ0,5133ሻ ≅ 0,01796

La probabilidad de que el jugador falle por segunda vez al cobrar 15 penaltis es del 1,796%


Ejemplo:

Para los ejemplos del niño expuesto a la enfermedad (ejemplo No 102 y No 103) Hallar la media y la varianza.
ߤݕߪ



Solución:

a-) Media: ߤ =

଴,ସ
= 7,5 Varianza: ߪ

=

଴,ସ


଴,ସ
−1ቁ = 11,25

b-) Media: ߤ =

଴,଴ହ
= 40 Varianza: ߪ

=

଴,଴ହ


଴,଴ହ
− 1ቁ = 760



Página 149 de 175




Lección 34: Distribución Geométrica e Hipergeométrica.

DISTRIBUCIÓN GEOMÉTRICA.

Cuando se analiza la distribución Binomial Negativa, se observa que K toma valores positivos mayores que uno
(K > 1), pero existen fenómenos donde la Binomial Negativa tiene K = 1; es decir, son casos donde se tienen
una distribución de probabilidad para el cual número de eventos requeridos donde se obtiene Un Solo Éxito,
como es el caso de lanzar una moneda hasta obtener cara.

DEFINICIÓN: Sea X una variable aleatoria discreta, se considera variable aleatoria geométrica, si y solo si, su
distribución de probabilidad está dada por la siguiente expresión.

ܩሺݔ, ݌ሻ = ݌ ∗ ݍ
௫ିଵ
Para x = 1, 2, 3, … Donde q = 1 – p

En esta distribución de probabilidad, se caracteriza por las siguientes razones:
-El proceso consta de un número no definido de pruebas o experimentos separados o separables. El proceso
concluirá cuando se obtenga por primera vez el resultado deseado (éxito).
-Cada prueba puede dar dos resultados mutuamente excluyentes: A y no A
-La probabilidad de obtener un resultado A en cada prueba es p y la de obtener un resultado no A es q, siendo
(p + q = 1).
-Las probabilidades p y q son constantes en todas las pruebas, por tanto, las pruebas, son independientes.
Este es un proceso típico con reemplazamiento.

Propiedades:

Media: ߤ =



Varianza: ߪ

=
ଵି௣




Ejemplo:

En una ciudad capitalina la probabilidad de que un ciudadano adquiera su licencia de conducción en un solo
ensayo es del 75% ¿Cuál es la probabilidad de que un solicitante obtenga su licencia de conducción en el
cuarto ensayo?

Solución:
Los datos: x = 4, p = 0,75 Entonces:
ሺݔ, ݌ሻ = ܩሺ4, 0.75ሻ = ሺ0.75ሻሺ0.25
ସିଵ
ሻ = ሺ0.75ሻሺ0.25

ሻ = 0,01171
La probabilidad de que el solicitante obtenga su licencia de conducción en el cuarto ensayo es del 1,171%

Ejemplo:

En un proceso de fabricación se ha establecido que de cada 200 artículos, 3 son defectuosos. ¿Cuál es la
probabilidad de que el sexto artículo de los inspeccionados sea el primero defectuoso?

Solución:
Según el planteamiento: x =6, p = 3/200 = 0,015 Entonces:
ܩሺݔ, ݌ሻ = ܩሺ6, 0.015ሻ = ሺ0.015ሻሺ0.985

ሻ = 0,01390
La probabilidad de que el sexto artículo de los inspeccionados sea el primero defectuoso es del 1,39%



Página 150 de 175



Ejemplo:

La probabilidad de que un estudiante apruebe un examen escrito para obtener una certificación de
competencias es de 0,70. Cuál es la probabilidad de que un estudiante apruebe el examen:
a-) En el tercer intento
b-) Antes del cuarto intento

Solución:
a-) Según el planteamiento: x =3, p = 0,70 Entonces:
ܩሺݔ, ݌ሻ = ܩሺ3, 0.70ሻ = ሺ0,70ሻሺ0,30

ሻ = 0,063
La probabilidad de que un estudiante apruebe el examen en el tercer intento es de 6,3%

b-) P(X < 4) Entonces: P(X < 4) = P(X = 1) + P(X = 2) + P(X = 3)
ܩሺ1,0.7ሻ = ሺ0,70ሻሺ0,30

ሻ = 0,70
ܩሺ2,0.7ሻ = ሺ0,70ሻሺ0,30

ሻ = 0,21
ܩሺ3,0.7ሻ = ሺ0,70ሻሺ0,30

ሻ = 0,083
ܲሺܺ < 4ሻ = 0,7 + 0,21 + 0,063 = 0,9730
La probabilidad de que un estudiante apruebe el examen antes del cuarto intento es de 97,30%


DISTRIBUCIÓN HIPERGEOMÉTRICA.

En los principios de probabilidad de analizó el muestreo con reemplazamiento y sin reemplazamiento, que
ilustran la regla dela multiplicación para eventos independientes y dependientes respectivamente. Ahora nos
ocuparemos en buscar una ecuación análoga a la Distribución Binomial, pero que sea válida para el muestreo
sin reemplazamiento, donde los ensayos no son independientes.

Considerando un conjunto de N elementos de los cuales M son considerados como éxitos y N – M como
fracasos, el interés es hallar la probabilidad de obtener x éxitos en n ensayos, de los N elementos del conjunto.

La distribución hipergeométrica es útil en fenómenos donde el número de elementos de la población es
pequeño respecto al tamaño de la muestra (n/N ≥ 0,05). Entonces la probabilidad de un éxito en un ensayo
dado, depende de los resultados de los ensayos anteriores, así la distribución de x éxitos sigue una distribución
hipergeométrica.

DEFINICIÓN: Sea N el número total de observaciones de una población finita, de tal manera que K de las
observaciones son de un tipo y N – K de las observaciones de otro tipo. Si elegimos una muestra aleatoria de
tamaño n, la probabilidad de que la variable aleatoria X sea de un tipo y n – K sea de otro tipo, está dada por
la función de probabilidad según la siguiente expresión:

ܪ݌ሺݔ; ܰ, ݊, ܭሻ =



ቁቀ
ேି௄
௡ି௫





Para x = 0, 1, 2, …, n. x ≤ K; (n – x) ≤ (N – K) y N, n, K Є Z
+


Los parámetros de esta distribución son: N, n, K. La hipergeométrica es my utilizada en Control de Calidad y
aceptación de muestreo. El tamaño de la población es pequeña, respecto al tamaño de la muestra. La
probabilidad en cada evento cambia.

Propiedades:

Media: ߤ = ݊ ቀ


ቁ Varianza: ߪ

=
௡ெሺேିெሻሺேି௡ሻ


ሺேିଵሻ
ܸሺܺሻ = ݊݌ݍ
ሺேି௡ሻ
ሺேିଵሻ




Página 151 de 175

Asimetría: ܣ =
ሺேିଶெሻሺேିଶ௡ሻሺேିଵሻ
భ/మ
ሺேିଶሻඥ௡ெሺ௄ିெሻሺேି௡ሻ
Curtosis: K=
ሺேିଵሻሺேሻ

௡ெሺேିଶሻሺேିଷሻሺேିெሻሺேି௡ሻ


Ejemplo:

Un producto industrial es envasado en lotes de 20 unidades, el plan de muestreo consiste en tomar 5 unidades
de cada lote y rechazar si se observa más de una unidad defectuosa. Si en un lote hay 4 unidades
defectuosas ¿Cuál es la probabilidad de que el lote sea aceptado?

Solución:
Para que el lote sea aceptado se debe cumplir: P(X ≤ 1). Donde: N = 20, n = 5, K = 4. Entonces:
ܲሺܺ ≤ 1ሻ = ܲሺܺ = 0ሻ + ܲሺܺ = 1ሻ
ܲሺܺ = 0ሻ =

4
0
ቁ ቀ
20 − 4
5 − 0


20
5

=

4
0
ቁ ቀ
16
5


20
5

=
1 ∗ 4368
15.504
= 0,2817

ܲሺܺ = 1ሻ =

4
1
ቁ ቀ
20 − 4
5 − 1


20
5

=

4
1
ቁ ቀ
16
4


20
5

=
4 ∗ 1820
15.504
= 0,4695

ܲሺܺ ≤ 1ሻ = ܲሺܺ = 0ሻ + ܲሺܺ = 1ሻ = 0,287 + 0,4695 = 0,7512

La probabilidad de que el lote sea aceptado, en las condiciones dadas es del 75,12%

Ejemplo:

Hallar las propiedades del producto industrial envasado en lotes de 20 unidades (Ejemplo No 113)

Solución:
Media: ߤ = ݊ ቀ


ቁ = 5 ቀ

ଶ଴
ቁ = 1
Varianza: ߪ

=
ହାସሺଶ଴ିସሻሺଶ଴ିହሻ
ଶ଴

ሺଶ଴ିଵሻ
=
ଶ଴∗ଵ଺∗ଵହ
ସ଴଴∗ଵଽ
= 0,6316

Asimetría: ܣ =
ሺଶ଴ିଶ∗ସሻሺଶ଴ିଶ∗ହሻሺଶ଴ିଵሻ
భ/మ
ሺଶ଴ିଶሻඥହ∗ସሺଶ଴ିସሻሺଶ଴ିହሻ
=
ଵଶ∗ଵ଴∗ସ,ଷହ଼ଽ
ଵ଼∗√ଶ଴∗ଵ଺∗ଵହ
=
ହଶଷ,଴଺଼
ଵ.ଶସ଻,଴଻଺
= 0,4194
Curtosis: K=
ሺଶ଴ିଵሻሺଶ଴ሻ

ହ∗ସሺଶ଴ିଶሻሺଶ଴ିଷሻሺଶ଴ିସሻሺଶ଴ିହሻ
=
ସ଴଴∗ଵଽ
ଵ଼∗ଵ଻∗ଶ଴∗ଵ଺∗ଵହ
=
଻.଺଴଴


଼଴଴
= 0,00517


Ejemplo:

Una población consta de 12 unidades, sea X el número de éxitos en una muestra de 4 unidades, si de un lote 8
son éxitos ¿Cuál es la probabilidad de no obtener éxito en la muestra?

Solución:
Del problema: N = 12, n = 4, K = 8. Entonces: P(X = 0)
ܲሺܺ = 0ሻ =

8
0
ቁ ቀ
12 − 8
4 − 0


12
4

=

8
0
ቁ ቀ
4
4


12
4

=
1 ∗ 1
495
= 0,00202
La probabilidad de no obtener éxito en la muestra es del 0,202%

Ejemplo:



Página 152 de 175

Del ejercicio sobre la población que consta de 12 unidades, (Ejemplo No 115).
a-) Cual es la probabilidad de obtener exactamente 2 éxitos.
b-) Cual es la probabilidad de que por lo menos 2 sean éxito.

Solución:
Del problema: N = 12, n = 4, K = 8. Entonces:
a-)
ܲሺܺ = 2ሻ =

8
2
ቁ ቀ
12 − 8
4 − 2


12
4

=

8
2
ቁ ቀ
4
2


12
4

=
28 ∗ 6
495
= 0,3394
La probabilidad de obtener exactamente dos éxitos es del 33,94%

b-) P(X ≥ 2) = 1 – P(X < 2) = 1 – {P(X =0) + P(X =1)}
ܲሺܺ = 0ሻ =

8
0
ቁ ቀ
12 − 8
4 − 0


12
4

=

8
0
ቁ ቀ
4
4


12
4

=
1 ∗ 1
495
= 0,00202

ܲሺܺ = 1ሻ =

8
2
ቁ ቀ
12 − 8
4 − 1


12
4

=

8
2
ቁ ቀ
4
3


12
4

=
8 ∗ 4
495
= 0,06464

ܲሺܺ ≥ 2ሻ = 1 − ሺ0,00202 +0,0646ሻ = 0,93334

La probabilidad de que por lo menos 2 sean éxito, es del 93,334%







CAPÍTULO 9: DISTRIBUCIONES DE PROBABILIDAD
Lección 35: Distribución uniforme continua

La distribución uniforme continua es la más sencilla de estas
valor en un intervalo finito. LA Función de densidad de probabilidad de la variable aleatoria es uniforme sobre el
intervalo de definición.

DEFINICIÓN: Una variable aleatoria X tiene una distribución u
como variable aleatoria uniforme continua, si y solo si, su función de densidad está dada por la siguiente
expresión:


Donde
Esta distribución se simboliza:

Función de distribución: La función de d
Propiedades:
Media: EሾXሿ =
ୟାୠ


Veamos la demostración:
EሾXሿ = න xfሺxሻdx =

ିஶ
නx
1
b − a
dx = ቈ−


EሾXሿ =
a

− b

2ሺb − aሻ
=
ሺa+bሻሺa− bሻ
2ሺb − aሻ
=
a

Varianza: VሾXሿ =
ሺୠିୟሻ

ଵଶ

Veamos la demostración:
Primero hallamos: EሾX

ሿ = ׬ x


ୠିୟ


Página 153 de 175
CAPÍTULO 9: DISTRIBUCIONES DE PROBABILIDAD
CONTINUA

: Distribución uniforme continua
La distribución uniforme continua es la más sencilla de estas distribuciones, la variable aleatoria toma el mismo
valor en un intervalo finito. LA Función de densidad de probabilidad de la variable aleatoria es uniforme sobre el
Una variable aleatoria X tiene una distribución uniforme continua en el intervalo
como variable aleatoria uniforme continua, si y solo si, su función de densidad está dada por la siguiente

a función de distribución acumulada esta dada por:

ቈ−
x

2

1
b − a

b
a
= −
b

2ሺb −aሻ
+
a

2ሺb − aሻ

a+ b
2

dx =

ଷሺୠିୟሻ
ሾx


b
a
=


ିୟ

ଷሺୠିୟሻ

CAPÍTULO 9: DISTRIBUCIONES DE PROBABILIDAD
distribuciones, la variable aleatoria toma el mismo
valor en un intervalo finito. LA Función de densidad de probabilidad de la variable aleatoria es uniforme sobre el
niforme continua en el intervalo ሾܽ, ܾሿ, se conoce
como variable aleatoria uniforme continua, si y solo si, su función de densidad está dada por la siguiente


Página 154 de 175

VሾXሿ = EሾX

ሿ −ሺEሾXሿሻ

=
b

− a

3ሺb − aሻ
−൬
a+ b
2


=
b

−a

+ 3a

b −3ab

12ሺb −aሻ

VሾXሿ =
ሺb − aሻ

12ሺb − aሻ
=
ሺb − aሻ

12






Lección 36: Distribución normal y sus aplicaciones.
Es una de las distribuciones de probabilidad más importantes en todo el campo de la estadística ya que gran
parte de la teoría estadística y de probabilidad que se ha construido y de las distintas técnicas estadísticas para
el análisis de datos que se aplica en la actualidad se fundamenta en esta distribución; en especial, juega un
papel clave en el desarrollo de la inferencia estadística, pues muchas de las herramientas usadas en la toma
de decisiones o en las pruebas de hipótesis, tienen su fundamento en la distribución normal.
Un gran número de estudios pueden ser aproximados usando una distribución normal:
Algunas variables físicas datos meteorológicos (temperatura, precipitaciones, presión atmosférica, etc.).
Caracteres morfológicos de individuos (personas, animales o plantas) o mediciones en organismos vivos.
Caracteres sociológicos, por ejemplo, consumo de ciertos productos por individuos de un mismo grupo.
Notas o puntajes en pruebas de admisión o de aptitud.
Errores en instrumentación.
Proporciones de errores en diversos procesos, etc.
Decimos que una variable aleatoria X sigue una distribución normal de media  y varianza 
2
(o desviación
estándar ) si su función de densidad viene dada por la siguiente expresión matemática:
∞ < < ∞ =
|
¹
|

\
| −

x - ,
. 2π
1
) σ µ, f(x,
2
σ
µ x
2
1
2
e
σ
( )
2
σ µ, N X ≈
Donde,


Página 155 de 175

e = base de los logaritmos naturales = 2,71828
 = 3,1415926535

Su gráfica, denominada curva normal, tiene forma de campana, tal como se muestra a continuación.

Al dar a la función los valores de µ , σ
2
y valores a x, obtendremos la distribución en cuestión, la que tiene
forma de campana, por lo que también se le conoce como campana de Gauss. Hay un número infinito de
funciones de densidad Normal, una para cada combinación de µ y σ. La media µ mide la ubicación de la
distribución y la desviación estándar σ mide su dispersión. De esta manera, podemos tener distribuciones con
distintas medias pero con la misma medida de variación, o distribuciones con la misma media pero con
distintas variaciones o, simplemente distribuciones con distintas medias y distintas variaciones, tal como se
observa en los siguientes gráficos:
















Algunas características especiales de la distribución normal se enumeran a continuación:


a) Es simétrica con respecto a su eje vertical (valor de la media ).


Página 156 de 175


b) Es asintótica con respecto a su eje horizontal; esto quiere decir que jamás va a tocar el eje de las equis.

c) El área total bajo la curva es 1, esto es,

1 dx e
σ 2π
1
2
σ
µ - X
2
1
-
=
|
¹
|

\
|

∞ −



f) Sí sumamos a µ ± σ, se observará que aproximadamente el 68,26% de los datos se encuentran bajo la
curva, si sumamos a µ ± 2σ, el 95,44% de los datos estará entre esos límites y si sumamos a µ ± 3σ,
entonces el 99,74% de los datos caerá dentro de esos límites. Esta característica es a la vez una forma
empírica y rápida de demostrar si los datos que se analizan tienen una distribución Normal; ya que para
trabajar los datos con esta distribución, debe verificarse que efectivamente así se distribuyen, ya que de no
hacerlo, las decisiones que en un momento dado se tomarán de un análisis de los datos con la distribución
Normal, serían erróneas.


¿Cómo se determinan probabilidades con la distribución Normal?

Acuerdo a como se trataron las distribuciones de probabilidad continuas, lo más lógico es que la función f(x,µ,
σ
2
), se integre entre los límites de la variable x; esto es,

( ) ( )

= < < = ≤ ≤
b
a
2
)dx σ µ; f(x; b X a P b X a P


La integral anterior nos daría el área bajo la curva de la función, desde a hasta b, que corresponde o es igual a
la probabilidad buscada.

Debido a la dificultad que se presenta para integrar esta función cada vez que sea necesario, lo que se hace es
tipificar el valor de la variable x, esto es, x se transforma en un valor de z, de la siguiente manera:


Este valor de z es buscado en una tabla donde vienen áreas asociadas a este valor, y haciendo uso de los
valores tabulados, se determina la probabilidad requerida. La tabla que es usada para calcular las
probabilidades es la que nos da el área que se muestra a continuación:










Ejemplo:

El acero que se utiliza para tuberías de agua a menudo se recubre internamente con un mortero de cemento
para evitar la corrosión. En un estudio de los recubrimientos de mortero de una tubería empleada en un
proyecto de transmisión de agua en California (Transportation Engineering Journal, Noviembre de 1979) se
especificó un espesor de 7/16 pulgadas para el mortero. Un gran número de mediciones de espesor dieron una
valor
x
z =

=
σ
µ
0

Z



Página 157 de 175

media de 0,635 pulgadas y una desviación estándar de 0,082 pulgadas. Sí las mediciones de espesor, tenían
una distribución Normal, ¿qué porcentaje aproximado fue inferior a 7/16 de pulgada?

Solución:
x = variable que nos define el espesor del mortero en pulgadas
µ = 0,635 pulgadas
σ = 0,082 pulgadas









p(z = -2.41) = 0.492

p(x < 7/16 pulgadas) = 0.5- p(z = -2.41) = 0.5-0.492 = 0.008

Por tanto, 0.008 x 100% = 0.8% de los recubrimientos de mortero tienen un espesor menor de 7/16 pulgadas.

Ejemplo:

Un tubo fluorescente estándar tiene una duración distribuida Normalmente, con una media de 7.000 horas y
una desviación estándar de 1.000 horas. Un competidor ha inventado un sistema de iluminación fluorescente
compacto que se puede insertar en los receptáculos de lámparas incandescentes. El competidor asegura que
el nuevo tubo compacto tiene una duración distribuida Normalmente con una media de 7.500 horas y una
desviación estándar de 1.200 horas.

a. ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración mayor de 9.000 horas?

b. ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de 5.000 horas?

Solución:

a) Tubo 1
X
1
= variable que nos define la duración en horas de un tubo fluorescente
µ = 7.000 horas
σ = 1.000 horas


41 2 4085 2
082 0
635 0 4375 0
082 0
635 0 16 7
. .
.
. .
.
. /
Z − ≈ − =

=

=
X = 7/16

µ=0.635

Z=



Página 158 de 175



Tubo 2
X
2
= variable que nos define la duración del tubo fluorescente del competidor
µ = 7.500 horas
σ = 1.200 horas









p(z
1
= 2,00) = 0,4772

p(x
1
> 9.000 horas) = 0,5 – p(z
1
= 2,00) = 0.5 – 0.4772 = 0.0228











p(z
2
= 1.25) = 0.3944

p(x
2
> 9,000 horas) = 0.5 – p(z
2
= 1.25) = 0.5 –0.3944 = 0.1056

Por tanto el tubo fluorescente del competidor tiene una probabilidad mayor de durar más de 9,000 horas.

b)










p(z
1
= -2.00) = 0.4772


00 2
000 1
000 7 000 9
1
.
,
, ,
z =

=
25 1
200 1
500 7 000 9
2
.
,
, ,
z =

=
00 2
000 1
000 7 000 5
1
.
,
, ,
z − =

=
X= 9000
µ=7.000

X = 9.000

µ=7.500

X = 5000

µ=7000


Página 159 de 175




p(x
1
< 5,000 horas) = 0.5 – p(z
1
= -2.00) = 0.5 – 0.4772 = 0.0228










p(z
2
= -2.08) = 0.4812


p(x
2
< 5,000 horas) = 0.5 – p(z
2
= - 2.08) = 0.5 – 0.4812 = 0.0188

Por tanto, el tubo fluorescente que tiene una mayor probabilidad de durar menos de 5,000 horas es el del
primer fabricante.


Ejemplo:
La distribución de la demanda (en número de unidades por unidad de tiempo) de un producto a menudo puede
aproximarse con una distribución de probabilidad Normal. Por ejemplo, una compañía de comunicación por
cable ha determinado que el número de interruptores terminales de botón solicitados diariamente tiene una
distribución Normal, con una media de 200 y una desviación estándar de 50.
a) ¿En qué porcentaje de los días la demanda será de menos de 90 interruptores?
b) ¿En qué porcentaje de los días la demanda estará entre 225 y 275 interruptores?
c) Con base en consideraciones de costos, la compañía ha determinado que su mejor estrategia consiste en
producir una cantidad de interruptores suficiente para atender plenamente la demanda en 94% de todos los
días. ¿Cuántos interruptores terminales deberá producir la compañía cada día?

Solución:
a) X = variable que nos indica el número de interruptores demandados por día a una compañía de cable

µ = 200 interruptores por día
σ = 50 interruptores por día











p(z

= - 2.20) = 0.4861
08 2
200 1
500 7 000 5
2
.
,
, ,
z − =

=
20 2
50
200 90
. z − =

=
X = 5000

µ= 7500

X = 90 µ = 200


Página 160 de 175


p(x < 90) = 0.5 – p(z = -2.20) = 0.5 – 0.4861 = 0.0139
Por tanto, 0.0139 x 100% = 1.39% de los días se tendrá una demanda menor de 90 interruptores.



b)










p(z
1
= 0.50) = 0.1915



p(z
2
= 1.50) = 0.4332


p(225≤ x ≥ 275) = p(z
2
) – p(z
1
) = 0.4332 – 0.1915 = 0.2417

Por tanto, 0.2417 x 100% = 24.17% de los días se tendrá una demanda entre 225 y 275 interruptores.


c) En este caso se trata de determinar qué valor toma x cuando se pretende cumplir con el 94% de la
demanda de todos los días.

Por tanto despejaremos de la fórmula de z;












; x = µ + zσ

x = µ + z(p = 0.44)σ = 200 + z(p = 0.44)(50) =
= 200 + (1.55)(50) = 277.5 ≅ 278 interruptores terminales por día

50 0
50
200 225
1
. z =

=
50 1
50
200 275
2
. z =

=
σ
µ −
=
x
Z
µ = 200
X
1
= 225
X
2
= 275
µ = 200

X = ¿

Z

94%



Página 161 de 175

¿cómo se obtiene el valor de z?

En la tabla buscamos la z que corresponde a una probabilidad de 0.44 y nos damos cuenta de que no existe un
valor exacto de 0.44 por lo que tomamos los valores de área más cercanos; luego,

z(p = 0.4394) = 1.50; z(p = 0.4406) = 1.60

Por tanto si interpolamos, encontramos que el valor de z para una probabilidad de 0.44 es de 1.55, y es el
valor que se sustituye en la ecuación.


¿Cuál es la razón de usar un área de 0.44 en lugar de una de 0.94 para buscar en la tabla el valor de z?

Es muy simple, la tabla que estamos usando es una tabla que solo trabaja con áreas que son definidas de la
media hasta el valor de x y x puede estar tanto del lado derecho de la media, como del lado izquierdo de la
media, es por esto que el área a utilizar es de 0.44 que se encuentra al lado derecho de la media.


Ejemplo:
En un examen de matemáticas, en el que se ha evaluado de 0 a 20 puntos, el 67% de los alumnos ha obtenido
una puntuación igual o menor que 12,2 y el 9% ha obtenido puntuación superior a 16,7. Suponiendo que la
distribución de las puntuaciones sea normal, calcule su media y su desviación típica.
Solución:



Página 162 de 175



Ejemplo:
Los paquetes recibidos en un almacén tienen un peso medio de 300 Kg. y una desviación típica de 50 Kg.
¿Cuál es la probabilidad de que 25 de esos paquetes, elegidos al azar, excedan el límite de carga del
montacargas donde se van a meter, que es de 8200 Kg.?
Solución:


Lección 37: Distribución Exponencial.

La distribución exponencial, como función de distribución de variable continua, tiene una gran utilidad práctica
ya que podemos considerarla como un modelo adecuado para la distribución de probabilidad del tiempo de
espera entre dos hechos que sigan un proceso de Poisson. De hecho la distribución exponencial puede
derivarse de un proceso experimental de Poisson con las mismas características que las que enunciábamos al
estudiar la distribución de Poisson, pero tomando como variable aleatoria, en este caso, el tiempo que tarda en
producirse un hecho
Obviamente, entonces , la variable aleatoria será continua. Por otro lado existe una relación entre el parámetro
a de la distribución exponencial , que más tarde aparecerá , y el parámetro de intensidad del proceso l , esta
relación es a = l
Al ser un modelo adecuado para estas situaciones tiene una gran utilidad en los siguientes casos:
· Distribución del tiempo de espera entre sucesos de un proceso de Poisson
· Distribución del tiempo que transcurre hasta que se produce un fallo, si se cumple la condición que la
probabilidad de producirse un fallo en un instante no depende del tiempo transcurrido .Aplicaciones en
fiabilidad y teoría de la supervivencia.


Página 163 de 175


Función de Densidad.
A pesar de lo dicho sobre que la distribución exponencial puede derivarse de un proceso de Poisson , vamos a
definirla a partir de la especificación de su función de densidad:
DEFINICIÓN: Dada una variable aleatoria X que tome valores reales no negativos {x > 0} diremos que tiene
una distribución exponencial de parámetro a con a > 0, si y sólo si su función de densidad tiene la expresión:
݂ሺݔሻ = ߙ݁
ିఈ௫
Se dice que x → Exp(α)

Grafica de la Función Exponencial



Gráficamente como ejemplo planteamos el
modelo con parámetro  =0,05


Función de Distribución Acumulada:

En la principal aplicación de esta distribución, que es la Teoría de la Fiabilidad, resulta más interesante que la
función de distribución la llamada Función de Supervivencia o Función de Fiabilidad. La función de
Supervivencia se define cómo la probabilidad de que la variable aleatoria tome valores superiores al valor dado
X:

Si el significado de la variable aleatoria es "el tiempo que transcurre hasta que se produce el fallo": la función
de distribución será la probabilidad de que el fallo ocurra antes o en el instante X: y , en consecuencia la
función de supervivencia será la probabilidad de que el fallo ocurra después de transcurrido el tiempo X ; por lo
tanto, será la probabilidad de que el elemento, la pieza o el ser considerado "Sobreviva" al tiempo X ; de ahí el
nombre.



Página 164 de 175

Grafica de la Función de distribución Acumulada: Para  =0,05







En la que se observa lo que sería la diferencia entre función de distribución y la de supervivencia
Propiedades:
Media: ܧሺܺሻ =



Varianza: ܸሺܺሻ =




La distribución exponencial es un caso particular de distribución gamma con k = 1. Además la suma de
variables aleatorias que siguen una misma distribución exponencial es una variable aleatoria expresable en
términos de la distribución gamma.
Ejemplo:
El tiempo durante el cual cierta marca de batería trabaja en forma efectiva hasta que falle (tiempo de falla) se
distribuye según el modelo exponencial con un tiempo promedio de fallas igual a 360 días.
• a) ¿qué probabilidad hay que el tiempo de falla sea mayor que 400 días?.
• b) Si una de estas baterías ha trabajado ya 400 días, ¿qué probabilidad hay que trabaja más de 200 días
más?
• c) Si se están usando 5 de tales baterías calcular la probabilidad de que más de dos de ellas continúen
trabajando después de 360 días.
Solución
Sea X=el tiempo que trabaja la batería hasta que falle. El tiempo promedio de falla es de 360 días. Entonces, X
~Exp (ß=1/360) y su función de densidad es:


Página 165 de 175


Ejemplo:
Suponga que la vida de cierto tipo de tubos electrónicos tiene una distribución exponencial con vida media de
500 horas. Si X representa la vida del tubo (tiempo q dura el tubo).
• a) Hallar la probabilidad que se queme antes de las 300 horas.
• b) ¿Cuál es la probabilidad que dure por lo menos 300 horas?
• c) Si un tubo particular ha durado 300 horas. ¿cúal es la probabilidad de que dure otras 400 horas?
Solución

Los dos ejemplos fueron tomados de:http://www.monografias.com/trabajos84/distribucion-exponencial/distribucion-
exponencial.shtml. Tomado 19 Julio 2012



Lección 38: Distribución
La tecnología actual nos permite diseñar muchos sistemas complicados cuya operación, o quizá seguridad,
depende de le confiabilidad de los diversos componentes que confo
puede quemarse, una columna de acero puede torcerse. Componentes idénticos sujetos a idénticas
condiciones ambientales fallaran en mo

Se tiene un modelo continuo asociado a variables del tipo tiempo de vida, tiempo hasta que un mecanismo
falla, etc. La función de densidad de este modelo viene dada por:

Los parámetros de la función son: α
forma.
La función de distribución acumulada se obtiene por la integración de la función de de
siguiente manera:

Grafica de la Función de Densidad Grafica de la Función acumulada

Propiedades:
Media: ܧሺܺሻ = ߣΓቀ1 +



Página 166 de 175
Distribución Weibull.
La tecnología actual nos permite diseñar muchos sistemas complicados cuya operación, o quizá seguridad,
depende de le confiabilidad de los diversos componentes que conforman los sistemas. Por ejemplo
columna de acero puede torcerse. Componentes idénticos sujetos a idénticas
condiciones ambientales fallaran en momentos diferentes.
Se tiene un modelo continuo asociado a variables del tipo tiempo de vida, tiempo hasta que un mecanismo
La función de densidad de este modelo viene dada por:

α > 0 y β > 0, donde α es un parámetro de escala y
La función de distribución acumulada se obtiene por la integración de la función de de
Grafica de la Función de Densidad Grafica de la Función acumulada







La tecnología actual nos permite diseñar muchos sistemas complicados cuya operación, o quizá seguridad,
rman los sistemas. Por ejemplo, un fusible
columna de acero puede torcerse. Componentes idénticos sujetos a idénticas
Se tiene un modelo continuo asociado a variables del tipo tiempo de vida, tiempo hasta que un mecanismo
ámetro de escala y β es un parámetro de
La función de distribución acumulada se obtiene por la integración de la función de densidad y se define de la
Grafica de la Función de Densidad Grafica de la Función acumulada



Varianza: ܸሺܺሻ = ߣ

ቂΓ ቀ1 +


Asimetría:
Curtosis:
Donde: .
Al igual que la distribución gamma y la exponencial, la distribución de weibull también se aplica a problemas de
confiabilidad y de vida como los de tiempo de antes del fallo o la vida de un componente que se mide desde
algún tiempo especifico hasta que falla .


Ejemplo:

El tiempo de vida x, en horas , de un artículo en el taller mecánico tiene una distribución de Weibull con
=0.01 y ß=2 ¿ cuál es la probabilidad de que f

Solución:

P(x<8)=f(8)=1- e(0.01 )8 =1-0.527=0.473


Lección 39: Distribución

La (distribución ji) o también llamada distribución chi
esta tiene muchas aplicaciones como los temas que se tratan de muestreo,
no paramétrica

La familia de distribuciones Chi
Esta caracterizada por un parámetro llamado
La media en esta familia es igua
La varianza es igual a 2 veces la media.
Representa la distribución de la suma de los cuadrados de
normalmente distribuidas.

La variable aleatoria continua x tiene una distribución j
densidad está dada por :


n 0, en c

Página 167 de 175


ቁ −Γ

ቀ1 +


ቁቃ

l igual que la distribución gamma y la exponencial, la distribución de weibull también se aplica a problemas de
confiabilidad y de vida como los de tiempo de antes del fallo o la vida de un componente que se mide desde
specifico hasta que falla .
El tiempo de vida x, en horas , de un artículo en el taller mecánico tiene una distribución de Weibull con
ß=2 ¿ cuál es la probabilidad de que falle antes de ocho horas de uso.
0.527=0.473
: Distribución Ji–cuadrado
La (distribución ji) o también llamada distribución chi - cuadrada es un caso especial de la distribución gamma
esta tiene muchas aplicaciones como los temas que se tratan de muestreo, análisis de varianza y estadística
La familia de distribuciones Chi-cuadrado (χ
2
) es una distribución unimodal con
Esta caracterizada por un parámetro llamado grados de libertad (gl).
familia es igual a gl.
es igual a 2 veces la media.
Representa la distribución de la suma de los cuadrados de n variables aleatorias independientes
La variable aleatoria continua x tiene una distribución j-i cuadrada, con v grados de libertad, si su función de
para x >0

n 0, en cualquier otro caso

l igual que la distribución gamma y la exponencial, la distribución de weibull también se aplica a problemas de
confiabilidad y de vida como los de tiempo de antes del fallo o la vida de un componente que se mide desde
El tiempo de vida x, en horas , de un artículo en el taller mecánico tiene una distribución de Weibull con
cuadrada es un caso especial de la distribución gamma
análisis de varianza y estadística
con asimetría positiva.
variables aleatorias independientes
de libertad, si su función de


Página 168 de 175

Donde v es un entero positivo.



Grafica de la Función Chi Cuadrado:

Función de densidad de Probabilidad Función de distribución Acumulada
























Se puede ver una Ji Cuadrado con 5 grados de libertad.














Propiedades:

La media: µ = ʋ
La Varianza: σ
2
= 2ʋ

Donde ʋ son los grados de libertad.


Chi-cuadrado (gl= 5)
0,00
0,05
0,10
0,15
0,20
0 5 10 15 20


Página 169 de 175






Ejemplo:
Encontrar la P(c
2
>x ; gl=3) = 0.25

Solución: Según la tabla P(c
2
>4.11 ; gl=3) = 0.25

Ejemplo:
Encontrar c
2
* tal que P (c
2
> c
2
*; gl=5) = 0.05

Solución: Por la tabla c
2
*=11.07



Ejemplo:
Cuál es la distribución de probabilidad de chi cuadrado de 4 grados de libertad de que x<1.2

Solución:

Según la tabla en la columna 4y la fila de 1.2 tenemos
P(x/<1.2)=0.121901


Lección 40: Distribución t-student.

En Estadística y Probabilidad, existe una distribución creada por William Gosset, estadístico Británico, quien en
sus investigaciones, desarrolló la distribución llamada con el seudónimo t Student, la cual surge del problema
de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos
medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos
poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de
los datos de una muestra.

Entre sus características se tiene:




Es una familia de distribuciones con forma de “campana”, Simétrica y Unimodal.
En esta familia de distribuciones la

Se obtiene por el cociente entre la normal y la raíz cuadrada de una

ݐ =










La desviación estándar depende de un parámetro denominado “grados de libertad”.



Ejemplo:

Cuál es la probabilidad acumulada de que una distribución t student con 9 grados de libertad, de que x < 0,25.

Solución:

Según el planteamiento: P (t
9
< 0,25). Entonces buscando en la tabla: Columna 9 y fila con 0,25, se obtiene:
P (t
9
< 0,25) = 0,596
Página 170 de 175
ibuciones con forma de “campana”, Simétrica y Unimodal.
familia de distribuciones la media es 0.
Se obtiene por el cociente entre la normal y la raíz cuadrada de una ߯

dividida por sus grados de libertad.

depende de un parámetro denominado “grados de libertad”.

Cuál es la probabilidad acumulada de que una distribución t student con 9 grados de libertad, de que x < 0,25.
5). Entonces buscando en la tabla: Columna 9 y fila con 0,25, se obtiene:
ibuciones con forma de “campana”, Simétrica y Unimodal.
dividida por sus grados de libertad. ߥ
depende de un parámetro denominado “grados de libertad”.

Cuál es la probabilidad acumulada de que una distribución t student con 9 grados de libertad, de que x < 0,25.
5). Entonces buscando en la tabla: Columna 9 y fila con 0,25, se obtiene:


Página 171 de 175



Ejemplo:

Encontrar la P (t > 0,82; gl=2)

Solución:

En la tabla se observa que: P (t > 0,82; gl=2)=0.25

Ejemplo:

Encontrar t* tal que P(t >t* ; gl=8)=0.05

Solución:

Encontrar t* tal que P (t > 1,86; gl = 8) = 0.05, así que t = 1,86






Lección 41: Distribución de F-Fisher

Existen ciertas situaciones donde se requiere comparar el comportamiento de dos poblaciones, por medio de la
varianza, casos como identificar la precisión de un instrumento de medición con la de otro, la estabilidad de un
proceso de manufactura contra otro, la calificación de docente contra otro y muchas situaciones más.


Página 172 de 175


La comparación de varianzas son un tema importante en la inferencia estadística y en estudios de muestreo,
de esto surge una distribución fundamental en estadística: Distribución de Fisher o Distribución de Fisher –
Snedecor.
Intuitivamente, cuando el cociente entre las dos varianzas






es muy pequeño, cercano a uno, se tiene poca
evidencia para pensar que las varianzas poblacionales (ߪ


ݕߪ


) no son iguales. De igual manera cuando el
cociente es muy grande, hay evidencia de que la varianzas poblacionales son diferentes.

Sean las variables aleatorias X y Y, con distribución Chi cuadrado e independientes, con ʋ
1
y ʋ
2
grados de
libertad. Entonces, la distribución de variable aleatoria continua ܨ =








es distribución F de Fisher, cuya
función de densidad esta dad por la siguiente expresión:

݂ሺݔሻ =
୻ቂ
ሺഌ

శഌ



ቃ൫




ൗ ൯









ൗ షభሻ
୻൫



ൗ ൯୻൫



ൗ ൯ሺଵାఔ

/ఔ

௫ሻ
ሺഌ

శഌ

ሻ/మ




Propiedades:

La media: ߤ =




ିଶ
Para ʋ
2
> 2

La Varianza: ߪ

=
ଶఔ


ሺఔ

ାఔ

ିଶሻ


ሺఔ

ିଶሻ

ሺఔ

ିସሻ
Para ʋ
2
> 4

Donde ʋ son los grados de libertad.

Grafica de la Distribución Fisher:




Tabla de la Distribución Fisher:

Para cada nivel de significancia (α), se da los grados de libertad del numerador en la primera fila y los grados
de libertad del denominador en la primera columna, la intersección es el valor de la distribución.


Página 173 de 175


Ejemplo:

Hallar el valor de la distribución F para los siguientes casos:

a-) El área a la derecha de F para α = 0,25 si ʋ
1
= 4 y ʋ
2
= 9.

Solución: Como el área que da la tabla es desde cero a un valor dado de Fisher, se tiene que localizar primero
los grados de libertad del denominador que son 9, luego un área de 0.75 con 4 grados de libertad del
numerador.





b-) El área a la izquierda de F para α = 0,95 si ʋ
1
= 15 y ʋ
2
= 10.

Solución: En este caso se puede buscar el área de 0.95 directamente en la tabla con sus respectivos grados de
libertad. 15 y 10, para α = 0,95



















c-) El área a la derecha de F para α = 0,95 si ʋ
1
= 6 y ʋ
2
= 8.



Página 174 de 175

Solución: Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a la derecha de F de
0.95.





d-) El área a la izquierda de F para α = 0,10 si ʋ
1
= 24 y ʋ
2
= 24.

Solución: Se busca directamente el área de 0.10, con sus respectivos grados de libertad, 24 y 24 para
numerador y denominador.







Página 175 de 175

BIBLIOGRAFÍA


BEJARANO BARRERA, Hernán (1995). Estadística Descriptiva. Santa fe de Bogotá: UNISUR.

CHRISTENSEN, Howard B. (1999). Estadística Paso a Paso. México: Editorial Trillas.

MARTÍNEZ BENCARDINO, Ciro (2004). Estadística Básica Aplicada. Santa fe de Bogotá: ECOE Ediciones.

MARTÍNEZ BENCARDINO, Ciro (2003). Estadística y Muestreo. Santa fe de Bogotá: ECOE Ediciones.

MILTON, J. Susan (1999). Estadística para biología y ciencias de la salud. Madrid: McGraw Hill —
Interamericana.

PORTUS GOVINDEN, Lincoyán (2001). Introducción a la Estadística. Segunda edición. Santa fe de Bogotá.
McGraw Hill.

PORTILLA CHIMAL, Enrique (1980). Estadística, Primer Curso. Bogotá: Nueva Editorial Interamericana.

SPIEGEL, Murria R. (1991). Estadística. Serie de compendios Schaum. México: McGraw Hill.

SMITH, A. Stanley. (1992). Curso de Estadística Elemental para las ciencias aplicadas. Primera edición. Santa
fe de Bogotá. Editorial Addison – Wesley Iberoamericana.



CIBERGRAFIA
http://www.liccom.edu.uy/bedelia/cursos/metodos/material/estadistica/med_disp.html

http://www.tuveras.com/estadistica/estadistica02.htm

http://www.universidadabierta.edu.mx/SerEst/MAP/METODOS%20CUANTITATIVOS/Pye/tema_12.htm

http://www.uv.es/ceaces/base/modelos%20de%20probabilidad/exponencial.htm. Tomado Julio 19 2012

http://www.itch.edu.mx/academic/industrial/estadistica1/cap03c.html. Tomado Julio 23 de 2012

http://html.rincondelvago.com/distribuciones-de-probabilidad_1.html. Tomado Julio 23 de 2012

http://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Distribuci%C3%B3n_t_de_Student

Tomado Julio 25 de 2012

Sign up to vote on this title
UsefulNot useful