You are on page 1of 11

Guía de estadística

Estadística

La estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos, ya sea para
ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o
estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo estadística es más que eso, en
otras palabras es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica.

Distribución normal.

Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias
de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones
gubernamentales.

La estadística se divide en dos grandes áreas:

La estadística descriptiva, se dedica a la descripción, visualización y resumen de datos originados a partir de


los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de
parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma,
pirámide poblacional, clústers, entre otros.

La estadística inferencial, se dedica a la generación de los modelos, inferencias y predicciones asociadas a los
fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones
en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma
de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas características numéricas
(estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento
de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de
tiempo y minería de datos

Probabilidad

La probabilidad mide la frecuencia con la que se obtiene un resultado (o conjunto de resultados) y luego al
llevar a cabo un experimento aleatorio, del que se conocen todos los resultados posibles, bajo condiciones
suficientemente estables. La teoría de la probabilidad se usa extensamente en áreas como la estadística, la
física, la matemática, las ciencias y la filosofía para sacar conclusiones sobre la probabilidad discreta de sucesos
potenciales y la mecánica subyacente discreta de sistemas complejos.

Muestra estadística

En estadística una muestra estadística (también llamada muestra aleatoria o simplemente muestra) es un
subconjunto de casos o individuos de una población estadística.

Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual
deben ser representativas de la misma. Para cumplir esta característica la inclusión de sujetos en la muestra
debe seguir una técnica de muestreo. En tales casos, puede obtenerse una información similar a la de un
estudio exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una muestra, más
abajo).
Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el
manejo de un menor número de datos provoca también menos errores en su manipulación. En cualquier caso,
el conjunto de individuos de la muestra son los sujetos realmente estudiados.

El número de sujetos que componen la muestra suele ser inferior que el de la población, pero suficiente para
que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño
de la muestra sea idóneo es preciso recurrir a su cálculo.

Población estadística

Población estadística, en estadística, también llamada universo o colectivo, es el conjunto de elementos de


referencia sobre el que se realizan unas de las observaciones.

Variable

Una variable es un símbolo que representa un elemento o cosa no especificada de un conjunto dado. Dicho
conjunto es llamado conjunto universal de la variable, universo o variar de la variable, y cada elemento del
conjunto es un valor de la variable. Sea x una variable cuyo universo es el conjunto {1,3,5,7,9,11,13}; entonces
x puede tener cualquiera de esos valores: 1,3,5,7,9,11,13. En otras palabras x puede remplazarse por cualquier
entero positivo impar menor que 14. Por esta razón, a menudo se dice que una variable es un remplazo de
cualquier elemento de su universo...

Una variable es un elemento de una fórmula, proposición o algoritmo que puede adquirir o ser sustituido por
un valor cualquiera (siempre dentro de su universo). Los valores que una variable es capaz de recibir, pueden
estar definidos dentro de un rango, y/o estar limitados por razones o condiciones de pertenencia, al universo
que les corresponde (en estos casos, el universo de la variable pasa a ser un subconjunto de un universo
mayor, el que tendría sin las restricciones).

En muchos usos, lo contrario de una variable es una constante. También puede considerarse a las constantes
como caso particular de variables, con un universo unitario (con un solo elemento), ya que sólo pueden tener
un valor, y no pueden modificarlo.

Variable discreta y variable continúa

Una variable discreta es una variable que solo puede tomar valores dentro de un conjunto numerable, es decir,
no acepta cualquier valor sino solo aquellos que pertenecen al conjunto. En estas variables se dan de modo
inherente separaciones entre valores observables sucesivos. Dicho con más rigor, se define una variable
discreta como la variable que entre dos valores observables (potencialmente), hay por lo menos un valor no
observable (potencialmente). Como ejemplo, el número de animales en una granja (0, 1, 2, 3...).

Una variable continua puede tomar un valor cualquiera dentro de un rango predeterminado. Y siempre entre
dos valores observables va a existir un tercer valor intermedio que también podría tomar la variable continua.
Una variable continua toma valores a lo largo de un continuo, esto es, en todo un intervalo de valores. Un
atributo esencial de una variable continua es que, a diferencia de una variable discreta, nunca puede ser
medida con exactitud; el valor observado depende en gran medida de la precisión de los instrumentos de
medición. Con una variable continua hay inevitablemente un error de medida. Como ejemplo, la estatura de
una persona (1.710m, 1.715m, 1.174m....).

Variable aleatoria
En probabilidad y estadística, una variable aleatoria o variable estocástica es una variable estadística cuyos
valores se obtienen de mediciones en algún tipo de experimento aleatorio. Formalmente, una variable
aleatoria es una función, que asigna eventos (p.e., los posibles resultados de tirar un dado dos veces: (1, 1), (1,
2), etc.) a números reales (p.e., su suma).

Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento
aún no realizado, o los posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e.,
como resultado de medición incompleta o imprecisa). Intuitivamente, una variable aleatoria puede tomarse
como una cantidad cuyo valor no es fijo pero puede tomar diferentes valores; una distribución de probabilidad
se usa para describir la probabilidad de que se den los diferentes valores.

Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores
lógicos, funciones... El término elemento aleatorio se utiliza para englobar todo ese tipo de conceptos
relacionados. Un concepto relacionado es el de proceso estocástico, un conjunto de variables aleatorias
ordenadas (habitualmente por orden o tiempo).

Experimentos y eventos

Experimento aleatorio

En Teoría de la probabilidad un experimento aleatorio es aquel que bajo el mismo conjunto aparente de
condiciones iniciales, puede presentar resultados diferentes, es decir, no se puede predecir o reproducir el
resultado exacto de cada experiencia particular. (Ej: Lanzamiento de un dado). Este tipo de fenómeno es
opuesto al fenómeno determinista, en el que conocer todos los factores de un experimento nos hace predecir
exactamente el resultado del mismo. Por ejemplo, conociendo la altura desde la que se arroja un móvil es
posible saber exactamente el tiempo que tardará en llegar al suelo en condiciones de vacío.

Es aquel en el cual se conoce el procedimiento que se va a seguir y los posibles resultados pero no se puede
predecir con corteza cual de estos resultados será el final antes de realizar el experimento

Propiedades

Un experimento se dice aleatorio si verifica las siguientes condiciones:

 Si los resultados se pueden contar se le llama experimento aleatorio numerable; y si no se pueden


contar, se le llama experimento aleatorio no numerable.
 Si es posible conocer previamente todos los posibles resultados (el espacio muestral, constituido por
diferentes sucesos) o por lo menos nombrar al último resultado se le llama experimento aleatorio
finito; y si no se puede nombrar al último resultado, se le llama experimento aleatorio infinito.
 Es imposible predecir el resultado exacto del mismo antes de realizarlo.
 A cada realización de un experimento se le llama experiencia o prueba (ver Evento estadístico).

Probabilidad De Eventos Simples y complejos

Una probabilidad de un evento simple, es como tirar un dado, sacar una carta de una baraja, extraer una canica
de una urna.... o sea, un solo evento.
Un evento compuesto sería por ejemplo, probabilidad de que un segundo dado saque 4 cuando el primero sacó
cuatro, sacar un as de la baraja en tres extracciones, que al tirar dos monedas las dos caigan cara, etc.

Distribución de probabilidad

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una


función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso
ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos, cada uno de los
sucesos es el rango de valores de la variable aleatoria.

La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en
cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Definición de función de distribución

Dada una variable aleatoria , su función de distribución, es:

Por simplicidad, cuando no hay lugar a confusión, suele omitirse el subíndice y se escribe, simplemente,

Distribuciones muéstrales

En estadística, la distribución muestral es lo que resulta de considerar todas las muestras posibles que pueden
ser tomadas de una población. Su estudio permite calcular la probabilidad que se tiene, dada una sola muestra,
de acercarse al parámetro de la población. Mediante la distribución muestral se puede estimar el error para un
tamaño de muestra dado.

Teorema del límite central

El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, si Sn es la
suma de n variables aleatorias independientes, entonces la función de distribución de Sn «se aproxima bien» a
una distribución normal (también llamada distribución gaussiana, curva de Gauss o campana de Gauss). Así
pues, el teorema asegura que esto ocurre cuando la suma de estas variables aleatorias e independientes es lo
suficientemente grande.1 2

Medidas de tendencia central y de dispersión

Medidas de tendencia central

Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo
número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina
medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la
posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos
centrada, se habla de estas medidas como medidas de posición.1 En este caso se incluyen también los cuantiles
entre estas medidas. Se debe tener en cuenta que existen variables cualitativas y variables cuantitativas, por lo
que las medidas de posición o medidas de tendencia se usan de acuerdo al tipo de variable que se está
observando, en este caso se observan variables cuantitativas.
Son: Media, Promedio, mediana, moda, cuartiles, deciles, percentiles, regresión lineal

Media

En matemáticas y estadística una media o promedio es una medida de tendencia central que según la Real
Academia Española (2001) «[…] resulta al efectuar una serie determinada de operaciones con un conjunto de
números y que, en determinadas condiciones, puede representar por sí solo a todo el conjunto». Existen
distintos tipos de medias, tales como la media geométrica, la media ponderada y la media armónica aunque en
el lenguaje común, el término se refiere generalmente a la media aritmética.

Moda (estadística)

Para otros usos de este término, véase Moda (desambiguación).

En estadística, la moda es el valor con una mayor frecuencia en una distribución de datos.

Hablaremos de una distribución bimodal de los datos adquiridos en una columna cuando encontremos dos
modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los
datos es en la que encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no
hay moda.

El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos agrupados antes de definir
la moda, se ha de definir el intervalo modal.

La moda, cuando los datos están agrupados, es un punto que divide al intervalo modal en dos partes de la
forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que:

Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los intervalos anterior y
posterior, respectivamente, al intervalo modal.

Mediana (estadística)

Para otros usos de este término, véase mediana.

En el ámbito de la estadística, la mediana, representa el valor de la variable de posición central en un conjunto


de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana
representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total
de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil. Su
cálculo no se ve afectado por valores extremos.

Media aritmética (promedio)

En matemáticas y estadística, la media aritmética (también llamada promedio o simplemente media) de un


conjunto finito de números es el valor característico de una serie de datos cuantitativos objeto de estudio que
parte del principio de la esperanza matemática o valor esperado, se obtiene a partir de la suma de todos sus
valores dividida entre el número de sumandos. Cuando el conjunto es una muestra aleatoria recibe el nombre
de media muestral siendo uno de los principales estadísticos muestrales.

Expresada de forma más intuitiva, podemos decir que la media (aritmética) es la cantidad total de la variable
distribuida a partes iguales entre cada observación.

Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el
resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la
media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada
observación (persona) tuviera la misma cantidad de la variable.

Cuartiles

Los cuartiles son los valores de la variable que dividen los datos en cuatro partes, por su puesto, una vez
ordenados de menor a mayor.
Los cuartiles son:

Deciles

Llamaremos deciles a aquellos valores que dividen el conjunto de datos en diez subconjuntos iguales. Los
notaremos con Di y tendremos 9 deciles que coinciden con los percentiles 10,20,30,40,50,60,70,80,90.

Percentiles

Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.

Regresión lineal

En estadística la regresión lineal o ajuste lineal es un método matemático que modela la relación entre una
variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser
expresado

Medidas de dispersión

Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una
distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy
alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más
homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.

Para calcular la variabilidad que una distribución tiene respecto de su media, se calcula la media de las
desviaciones de las puntuaciones respecto a la media aritmética. Pero la suma de las desviaciones es siempre
cero, así que se adoptan dos clases de estrategias para salvar este problema. Una es tomando las desviaciones
en valor absoluto (Desviación media) y otra es tomando las desviaciones al cuadrado (Varianza).

Dispersión

Significa el grado de distanciamiento de un conjunto de valores respecto a su valor medio.

Rango o Recorrido.
Es la diferencia entre el mayor valor de la variable y el menor.

Propiedades.

 Es fácil de calcular y sus unidades son las mismas que las de la variable.
 Sólo usa las unidades extremas.
 Se puede ver afectada por observaciones anómalas.
 Con cada observación nueva el rango puede aumentar o permanecer invariante, pero nunca disminuir.
 Al usar sólo dos datos no es una medida fiable.

Desviación media

Las medidas de dispersión como el rango o el rango intercuartílico son poco significativas y sólo se apoyan en
dos datos, sería conveniente tener una medida de la dispersión de los datos respecto a la media (valor en el
que se resumen todos los datos) y en la que tomásemos información de todas la observaciones.
Una medida para conocer la dispersión de los datos sería ver que errores se comenten al dar la media en lugar
del auténtico valor, en el valor i-ésimo cometeríamos un error .

Varianza

La desviación media es una medida de dispersión de datos correcta pero presenta un inconveniente y es la
complejidad de manipulación al intervenir valores absolutos. Sería conveniente encontrar otra medida que no
presente el problema inicial (que no se compensen las dispersiones negativas con las positivas) y cuyo manejo
se más sencillo. Otra forma de evitar la compensación de dispersiones es elevar al cuadrado la diferencia y es
más sencillo trabajar con cuadrados que con valores absolutos, teniendo en cuenta esta consideración
introduciremos el concepto de varianza.

Definimos la varianza como la media de los cuadrados de las desviaciones respecto a la media.

Desviación típica

Con la varianza se elevan al cuadrado las unidades de medida, sería interesante tener una medida de
dispersión con las mismas unidades de la media y los datos, esto lo podemos conseguir haciendo la raíz
cuadrada positiva de la varianza, a la que llamaremos desviación típica.

Histogramas y polígonos de frecuencia

Gráficas en estadística

 La estadística gráfica es una parte importante y diferenciada de una aplicación de técnicas gráficas, a
la descripción e interpretación de datos e inferencias sobre éstos. Forma parte de los programas
estadísticos usados con los ordenadores. Autores como Edward R. Tufte han desarrollado nuevas
soluciones de análisis gráficos. Existen diferentes tipos de gráficas, que se pueden clasificar en:

Histograma

Saltar a: navegación, búsqueda


Histograma.

En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la
superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se
representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las
marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.

Se utilizan para variables continuas o para variables discretas, con un gran número de datos, y que se han
agrupado en clases.

Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por
comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son
cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de
sectores.

Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y
exactas. Y permite la comparación de los resultados de un proceso.

Diagrama de barras

Un diagrama de barras, también conocido como diagrama de columnas, este esta conformado por barras
rectangulares de longitudes proporcional al de los valores que representan. Los gráficos de barras son usados
para comparar dos o más valores. Las barras pueden estar orientadas horizontal o verticalmente y sigue para lo
mismo.

Grafico circular

Los gráficos circulares son denominados también gráficos de pastel o gráficas de 360 grados. Se utilizan para
mostrar porcentajes y proporciones. El número de elementos comparados dentro de un gráfico circular,
pueden ser más de 5, ordenando los segmentos de mayor a menor, iniciando con el más amplio a partir de las
12 como en un reloj.

Una manera fácil de identificar los segmentos es sombreando de claro a oscuro, siendo el de mayor tamaño el
más claro y el de menor tamaño el más oscuro.
El empleo de tonalidades o colores al igual que en la gráfica de barras, facilita la diferenciación de los
porcentajes o proporciones.

Son utilizados en aquellos casos donde nos interesa no sólo mostrar el número de veces que se da una
característica o atributo de manera tabular sino más bien de manera gráfica, de tal manera que se pueda
visualizar mejor la proporción en que aparece esa característica respecto del total.

Pictograma

Además, un pictograma es un tipo de gráfico que en lugar de barras, utilizan figuras proporcionadas a la
frecuencia. Generalmente se emplea para representar variables cualitativas. Este tipo de gráfico no permite
buenas comparaciones.

Para realizarlo primero se escogieran figuras alusiva al tema y se le asigna una imagen. En caso de que una
cantidad represente un valor menor, la figura aparecerá mutilada.

Polígono

Un polígono de frecuencias se forma uniendo los extremos de las barras de un diagrama de barras mediante
segmentos.

Ojiva

La ojiva es una gráfica asociada a la distribución de frecuencias, es decir, que en ella se permite ver cuántas
observaciones se encuentran por encima o debajo de ciertos valores, en lugar de solo exhibir los números
asignados a cada intervalo

Diagrama de caja

Saltar a: navegación, búsqueda

Diagrama de caja (Box-Plot).

Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. Está
compuesto por un rectángulo, la "caja", y dos brazos, los "bigotes".
Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y
Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la
mediana para luego encontrar los 2 cuartiles restantes

Distribución de frecuencias

En estadística, se le llama distribución de frecuencias a la agrupación de datos en categorías mutuamente


excluyentes que indican el si de observaciones en cada categoría. Esto proporciona un valor añadido a la
agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se
pueda ver el número existente en cada clase.

Estas agrupaciones de datos suelen estar agrupadas en forma de tablas.

 Frecuencia absoluta acumulada (Ni), es el número de veces ni en la muestra N con un valor igual o
menor al de la variable. La última frecuencia absoluta acumulada deberá ser igual a N.

 Frecuencia relativa acumulada (Fi), es el cociente entre la frecuencia absoluta acumulada y el número
total de datos, N. Es decir,

Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi)), que al igual que Fi
deberá de resultar al final el 100% de N.

La representación gráfica de la distribución de frecuencias acumuladas se denomina ojiva. En ella el eje de las
abscisas corresponde a los límites de clase y el de las ordenadas a los porcentajes acumulados.

FORMACION DE LOS INTERVALOS

1.- Forme los intervalos de clase agregado al límite inferior de cada clase iniciando por el límite inferior del
rango.

El límite inferior de la siguiente clase será el valor con secativo al máximo de la clase anterior y así
sucesivamente.

LIMITE REALES.

Los intervalos de clase son mutuamente excluyentes se obtiene como el punto entre el limite. Superior de una
clase y el límite inferior de la clase siguiente.

FRECUENCIA DE CLASE:

Se define como el número de datos que caen dentro de casa intervalo clase.

MARCA DE CLASE
Marca de clase=

Probabilidad

Enfoques de la probabilidad

.ENFOQUE CLÁSICO DE LA PROBABILIDAD (a priori)

Este enfoque permite determinar valores de probabilidad antes de ser observado el experimento por lo que se
le denomina enfoque a priori.

El enfoque clásico es aplicado cuando todos los resultados son igualmente probables y no pueden ocurrir al
mismo tiempo.

ENFOQUE DE FRECUENCIAS RELATIVAS (a posteriori o empírico)

Este enfoque permite determinar la probabilidad con base en la proporción de veces que ocurre un resultado
favorable en cierto número experimentos.

No implica ningún supuesto previo de igualdad de probabilidades.

A este enfoque se le denomina también enfoque empírico debido a que para determinar los valores de
probabilidad se requiere de la observación y de la recopilación de datos. También se le denomina a posteriori,
ya que el resultado se obtiene después de realizar el experimento un cierto número de veces.

ENFOQUE SUBJETIVO DE LA PROBABILIDAD (personalista)

Se diferencia de lo dos enfoques anteriores, debido a que tanto el enfoque clásico como el de frecuencia
relativa producen valores de probabilidad objetivos.

El enfoque señala que la probabilidad de un evento es el grado de confianza que una persona tiene en que el
evento ocurra, con base en toda la evidencia que tiene disponible, fundamentado en la intuición, opiniones,
creencias personales y otra información indirecta.

Este enfoque no depende de la repetitividad de ningún evento y permite calcular la probabilidad de sucesos
únicos y se da el caso de que ocurra o no esa única vez.