You are on page 1of 30

Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 1

VAC. Academia de Investigacin



GUA DE ESTADSTICA ELEMENTAL
Es conocido que la estadstica es una herramienta que nos ayuda a
manejar un nmero definido de datos y que adems nos ayuda a conocer alguna
caracterstica especfica de estos, pero para definirla formalmente lo haremos de
la siguiente manera:
La estadstica es la ciencia que proporciona los mtodos para recolectar,
organizar, presentar, analizar e interpretar el comportamiento de los datos. Esta
ciencia es fundamental dentro de la investigacin cientfica. Lind-Marchal-Mason.
(2004), p. 3
TIPOS DE ESTADSTICA
Dentro de la estadstica existen dos grandes divisiones de acuerdo a Lind-
Marchal-Mason. (2004), p. 6,7:
Estadstica descriptiva: Conjunto de mtodos para organizar, resumir y
presentar los datos de manera informativa.
Estadstica inferencial: Conjunto de mtodos utilizados para saber algo de
una poblacin, basndose en una muestra.
De lo anterior podemos notar que la diferencia bsica radica en que la
estadstica inferencial se basa en una muestra, adems este tipo de estadstica
nos obliga a plantear inferencias y sacar conclusiones a partir de lo calculado y
graficado, de esta manera el investigador puede llegar a conjeturas ms profundas
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 2

VAC. Academia de Investigacin

acerca de su investigacin que le permitan encontrar una luz acerca de la
problemtica en cuestin.
Generalmente en los trabajos de tesis, por su naturaleza como propuestas de
solucin, utilizan a la estadstica inferencial, a menos que se trate de una tesis del
tipo expositiva, en donde el objetivo es solo evidenciar una problemtica o la
evolucin de la misma.
Los datos son el inicio del procedimiento estadstico y se clasifican como:
Segn (Triola, 2008, p. 6) los datos cualitativos se refieren a las cualidades que
identifican a la muestra obtenida para el anlisis, y a su vez estos se dividen en:
Datos nominales. Son nmeros o letras que representan categoras donde
no es importante el orden pues no cambia el valor de los datos. Ejemplo:
2=masculino, 3=femenino. Utilizar los smbolos nos permite integrar la parte
cualitativa de la muestra, reagrupar, separar e identificar los datos dentro
del anlisis.
Datos ordinales. Son datos ordenados en categoras o utilizados para
identificar un grupo de pertenencia; llevan un orden lgico, en este caso, el
orden o jerarqua que naturalmente presentan los datos debe tomarse en
cuenta para el anlisis porque pertenecen a diferentes estratos o niveles de
clasificacin.
De igual manera los datos cuantitativos se dividen en (Triola, 2008, p. 6):
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 3

VAC. Academia de Investigacin

De intervalo y de razn. Se refiere a que los datos pertenecen a una
escala de medicin. Se dice que son de razn cuando incluyen el cero
absoluto y son de intervalo cuando al clasificar los datos se forman grupos
dentro de la escala de medicin.
Datos discretos. Estos surgen por el procedimiento de conteo y toman
valores enteros. Ejemplo: El nmero de hijos en una familia, el nmero de
alumnos de un grupo escolar.
Datos continuos. Son los que surgen cuando se mide alguna caracterstica
y toman, tericamente, cualquier valor dentro de un intervalo. Ejemplo:
tensin arterial de una persona, peso, estatura, etc.
POBLACIN
Cuando hablamos de poblacin la primera imagen que se nos presenta
como abstraccin es un conjunto de personas, para la estadstica es mas
complejo que esto, ya que lo elementos de una poblacin pueden ser variados
como se menciona en la siguiente definicin:
Es el conjunto completo de todos los elementos (puntuaciones, medidas,
etc.) que se va a estudiar. El conjunto es completo porque incluye todos los
objetos que se estudiarn. (Triola, 2008, p. 4).
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 4

VAC. Academia de Investigacin

MUESTRA
1
Muestra aleatoria: los miembros de la poblacin se seleccionan de forma
que cada miembro individual tenga la misma probabilidad de ser
seleccionado.

Como se mencion en la definicin anterior la poblacin abarca la totalidad
de los elementos que se van a estudiar, pero en la mayora de los casos los
recursos que tenemos para estudiar a la poblacin son limitados, razn por la cual
se tiene que seleccionar una muestra, cuya definicin es:
Es un subconjunto de miembros seleccionados de una poblacin." Triola F.
Mario, (2008), p. 4.
De acuerdo a Triola F. Mario, (2008), p. 26, 27. Los procedimientos de
muestreo ms comunes son:
Muestra aleatoria simple: una muestra de n sujetos se selecciona de
manera que cada posible muestra del mismo tamao n tenga la misma
posibilidad de ser elegida. Para seleccionar una muestra de este tipo es
necesario que la poblacin se origen est codificada o sea fcilmente
codificable, con objeto de que se cumpla la aleatoriedad.

1
Podr encontrar la representacin en figura de estos tipos de muestreo en TRIOLA (2008) p. 28.

Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 5

VAC. Academia de Investigacin

Muestra probabilstica: implica seleccionar miembros de una poblacin, de
forma que cada miembro tenga una posibilidad conocida (aunque no
necesariamente la misma) de ser elegido.
Muestra sistemtica: elegimos algn punto de partida y luego
seleccionamos cada k-simo elemento de la poblacin. El valor de k se
obtiene de dividir el tamao de la poblacin entre el tamao de la muestra y
despus se obtiene el primer elemento al azar y los subsiguientes se
obtienen como sigue: primer elemento +k; 2 elemento +k; 3 elemento +
k; etc. Este tipo de muestreo slo se utiliza cuando la poblacin de origen
presenta un orden natural.
Muestra de conveniencia: Se utilizan resultados que sean muy fcil de
obtener. Como por ejemplo pacientes de una institucin, internos, etc.
Muestra estratificada: subdividimos a la poblacin en al menos dos
subgrupos (o estratos) diferentes, de manera que los sujetos que
pertenecen al mismo subgrupo compartan las mismas caractersticas y
luego obtenemos una muestra de cada subgrupo. Aqu es importante que
los niveles o estratos elegidos no se traslapen para evitar que un elemento
pueda formar parte de 2 o ms subgrupos.
Muestra por conglomerados: Los conglomerados son lugares
densamente poblados o lugares donde es factible encontrar elementos con
caractersticas lo ms heterogneas posible para que con muestras
pequeas sea posible capturar la mayor diversidad de opinin sin
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 6

VAC. Academia de Investigacin

desplazamientos amplios. De varios conglomerados posibles de elegir, se
seleccionan 2 o 3 y se obtiene la muestra aleatoria requerida. En el caso de
plantas en un terreno, por ejemplo primero dividimos el rea de la poblacin
en secciones (o conglomerados), y luego elegimos al azar algunas de estas
secciones, y despus elegimos la muestra dentro de cualquiera de los
conglomerados seleccionados.
TIPOS DE VARIABLES
De acuerdo a Lind-Marchal-Mason. (2004), p. 8, 9. Existen dos grandes
clasificaciones:
Variable cualitativa o atributo: Cuando la caracterstica o variable de estudio
es no numrica.
Variable cuantitativa: cuando la variable estudiada se puede expresar
numricamente.
Cabe mencionar que ambas se pueden tratar de manera estadstica en un
trabajo de investigacin.
NIVELES DE MEDICIN
Esta clasificacin va en funcin de las caractersticas que presente la
naturaleza de los datos, que de acuerdo a Triola (2008), p. 7. quedan de la
siguiente manera :
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 7

VAC. Academia de Investigacin

Nivel de medicin nominal: se caracteriza por datos que consisten
exclusivamente en nombres, etiquetas o categoras. Los datos no se
pueden acomodar en un esquema de orden (como del mas bajo al ms
alto), como por ejemplo las respuestas de si, no e indeciso de una
encuesta.
Nivel de medicin ordinal: Cuando pueden acomodarse en algn orden,
aunque no es posible determinar diferencias entre los valores de los datos o
tales diferencias carecen de significado, por ejemplo la asignacin de
calificaciones de un profesor universitario de A, B, C, y D.
Nivel de medicin de intervalo: se parece al nivel ordinal, pero con la
propiedad adicional de que la diferencia entre dos valores de datos
cualesquiera tienen un significado. Sin embargo los datos de este nivel no
tienen punto de partida cero natural inherente (donde nada de la cantidad
est presente), como por ejemplo la temperatura ambiental.
Nivel de medicin de razn: Es similar al nivel de intervalo, pero con la
propiedad adicional de que si tiene un punto de partida cero natural (donde
cero indica que nada de cantidad est presente). Para valores a este nivel,
tanto las diferencias como proporciones tienen significado, por ejemplo los
precios de los libros de texto. Triola F. Mario, (2008), p. 6-9.
Todos los niveles de medicin anterior sirven para que el investigador pueda
definir desde un principio con que tipos de datos est trabajando y de esta manera
darles el manejo correcto.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 8

VAC. Academia de Investigacin

DISTRIBUCIN DE FRECUENCIAS
Ya que se sabe con qu tipos de datos se est trabajando, estos se
organizan en una distribucin de frecuencias.. Una distribucin de frecuencias
puede hacerse sin agrupar, slo asociando a cada dato particular el nmero de
veces que se repite, esto es formando dos columnas una con los datos y otra con
las frecuencias. Cuando la cantidad de datos es grande, es preferible agrupar los
datos estableciendo una distribucin por intervalos mutuamente excluyentes (que
no se traslapen) y asociando la frecuencia absoluta de acuerdo con el valor de los
datos muestrales atendiendo a los lmites de cada intervalo, que de acuerdo a
Lind-Marchal-Mason. (2004, p. 22) es el Agrupamiento de datos en categora
mutuamente excluyentes, que indican el nmero de observaciones en cada
categora.

GRFICAS
Posteriormente de haber manejado los datos el siguiente paso es graficarlos, la
razn por la cual se utilizan las grficas es que estas nos permiten visualizar los
datos de manera rpida y algunas hacer comparaciones entre muestras. De
acuerdo a Lind-Marchal-Mason. (2004, pp. 34-48). Las grficas utilizadas para la
estadstica son:
Histograma: es una grfica en las que las clases se marcan en el eje
horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 9

VAC. Academia de Investigacin

clase estn representadas por las alturas de las barras, y estas se colocan
adyacentes unas a otras. Es importante, de ser posible, que los intervalos
de clase sean del mismo tamao para que la altura de las barras
corresponda a la frecuencia de cada intervalo pues si los intervalos son de
diferente tamao la altura ser proporcional al rea que representa cada
barra en el total. En el ejemplo siguiente se observa esta grfica con 4
tipos de categoras diferentes para compararlos entre s.


Fuente:Creacin propia (2012)

Este tipo de grficos se puede utilizar para los datos de todos los niveles.
Polgono de frecuencias: Est formado por segmentos de recta que unen
los puntos medio de clase y las frecuencias de clase.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 10

VAC. Academia de Investigacin


Fuente:Creacin propia (2012)
Como se puede observar en la figura anterior, el polgono de frecuencias se
puede construir sobre el histograma o de manera separada y se puede usar para
los datos de cualquier nivel. Es muy importante que el polgono est asentado
sobre el eje de las abscisas por lo que sus extremos deben prolongarse hasta la
marcas de clase antecedente y posterior a nuestra distribucin ya que el rea bajo
el polgono debe ser unitaria porque representa el 100% de la muestra.
Tanto el histograma como el polgono de frecuencia permiten obtener una
imagen rpida de las principales caractersticas de los datos.
Grficas de lneas: Son especialmente efectivas en negocios porque se
puede mostrar el cambio de una variable a travs del tiempo.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 11

VAC. Academia de Investigacin


Fuente:Creacin propia (2012)

Grfica de barras: es especialmente til para mostrar cualquiera de los
niveles de medicin, estas grficas se pueden representar de manera
horizontal o vertical.

Fuente:Creacin propia (2012)
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 12

VAC. Academia de Investigacin


Fuente:Creacin propia (2012)
La nica diferencia entre estas grficas y el histograma radica en que en el
histograma las barras son adyacentes y en estas no.
Grfica circular: Es especialmente til para mostrar los datos de nivel
nominal.

Fuente:Creacin propia (2012)

Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 13

VAC. Academia de Investigacin

MEDIDAS DE TENDENCIA CENTRAL
Aunque la Moda es una medida de tendencia central, no necesariamente
est en el centro e inclusive puede haber ms de una moda. A continuacin las
medidas de tendencia central ms comunes.
MEDIA ARITMTICA
La media aritmtica es el valor obtenido al sumar todos los datos y dividir el
resultado entre el nmero total de datos. Normalmente, en un estudio ocurren las
repeticiones que en una frmula aparecern como frecuencias por lo que la
frmula sera:
n
X f
X
i
n
i
i
=
=
1

Donde f
i
es la frecuencia de cada valor de la variable.
Ejemplo: La empres Merryl Linch Global Funse especializa en obligaciones
a largo plazo de pases extranjeros. Interesa saber la tasa de inters de estas
obligaciones. Una muestra aleatoria de seis bonos revel lo siguiente:
Bonos del gobierno de: Tasa de inters
Australia 9.5
Blgica 7.25
Canad 6.5
Francia 4.75
Italia 12
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 14

VAC. Academia de Investigacin

Espaa 8.3

La media aritmtica sera:
X=(9.5+7.25+6.5+4.75+12+8.3)/6=8.05%
Lind-Marchal-Mason. (2004), p.66, 68.
Cuando los datos se han agrupado en una distribucin de frecuencias
debido a lo grande de la muestra, cada intervalo estar representado por su marca
de clase (m
i
) o centro del intervalo, que se obtiene sumando los lmites de cada
intervalo y dividiendo entre 2 y la frmula de la media aritmtica ser:
n
m f
X
k
i
i i
=
=
1

Donde k es el nmero de intervalos en la distribucin de frecuencias y n el
total de datos en la muestra, que estn agrupados en la tabla.
La media aritmtica puede ser de mucha ayuda, sin embargo tiene una
desventaja muy grande, esta radica en que cuando tenemos valores o muy
grandes o muy pequeos en los datos estos convierten a la media en una
referencia poco confiable ya que incluye a todos los datos de la muestra y su valor
se sesga o se corre hacia los extremos dependiendo que datos predominen, muy
altos o muy bajos.

Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 15

VAC. Academia de Investigacin

MEDIANA
Cuando se cuenta con datos que contienen valores muy grandes o muy
pequeos, en referencia al grueso de la totalidad de la muestra, una medida de
tendencia central ms conveniente es la mediana, que Lind-Marchal-Mason.
(2004, p.72) define como Al valor que corresponde al punto medio de los valores
despus de ordenarlos de menor a mayor, o de mayor a menor. Cincuenta por
ciento de las observaciones son mayores que la mediana y cincuenta por ciento
menores que ella.
Ejemplo: A continuacin se indican los rendimientos anuales totales de 5
aos, de las 6 acciones con mejor desempeo de fondos comunes de inversin
con crecimiento dinmico. Cul es la ganancia mediana anual?
NOMBRE DEL FONDO RENDIMIENTO TOTAL ANUAL
PBHG GROWTH 28.5
DEAN WITTER DEVELOPING 17.2
AIM AGRESSIVE GROWTH 25.4
TWENTY CENTURY 28.6
ROBERTSON STEVENS EMERGING 22.6
SELINGMAN FRONTIER 21

17.2
21


50% de los datos por arriba de la mediana

Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 16

VAC. Academia de Investigacin

22.6 (22.6+25.4)/2=48/2=24% (MEDIANA)
25.4
28.5
28.6
Lind-Marchal-Mason. (2004), p.73

El manejo anterior es sencillo si se tienen pocos datos, en caso contrario se
tiene que recurrir a ordenarlos en una distribucin de frecuencias y posteriormente
utilizar una frmula de interpolacin entre los lmites del intervalo apropiado:
Cuando los datos se han agrupado en una distribucin de frecuencias, tanto la
mediana como la moda se calculan por interpolacin a partir del intervalo que
contiene a la mediana o a la moda en su caso.
Clculo de la mediana agrupada.- Se calcula la posicin de la mediana
como sigue:
2
1 +
=
n
P
md
; despus obtiene la columna de frecuencias acumuladas
para ubicar el intervalo que contiene a la mediana y cuyo lmite inferior es el punto
de inicio de la interpolacin, L
md
.

a
f
F
L M
md
md
n
md d (


+ =
1 2

Donde L
md
es el lmite inferior del intervalo mediano, n es el total de datos
en la muestra y corresponde a la suma de las frecuencias en la distribucin; F
md-1

es la frecuencia acumulada hasta el intervalo anterior al que contiene la mediana;
f
md
es la frecuencia particular que corresponde al intervalo que contiene a la
50% de los datos por debajo de la mediana
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 17

VAC. Academia de Investigacin

mediana y a es la amplitud o tamao del intervalo (distancia entre el lmite inferior
y el lmite superior de un intervalo)
MODA
Es el valor de la observacin que aparece con ms frecuencia. Lind-
Marchal-Mason. (2004), p.74
Ejemplo: A continuacin se muestran los sueldos anuales (en dlares) de
gerentes de control de calidad en algunos estados. Cul es el valor modal de los
sueldos?
Estado Sueldo Estado Sueldo Estado Sueldo
Arizona 35000 Illinois 58000 Ohio 50000
California 49100 Louisiana 60000 Tennessee 60000
Colorado 60000 Maryland 60000 Texas 71400
Florida 60000 Massachussets 40000 West
Virginia
60000
Idaho 40000 New jersey 65000 Wyoming 55000

Si analizamos todos los sueldos, el que repite mas es el de $60000, por lo
tanto esa es la moda.
El manejo anterior es sencillo si se tienen pocos datos, en caso contrario se
tiene que recurrir a ordenarlos en una distribucin de frecuencias y posteriormente
ver que clase es la que tiene mayor nmero de observaciones o mayor frecuencia.
Para calcular la moda, cuando los datos estn agrupados deber tomarse el
intervalo con mayor frecuencia como punto de partida de la interpolacin, de
acuerdo con la frmula:
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 18

VAC. Academia de Investigacin

|
2 1
1
a L Mo
mo (

+

+ =
Donde L
mo
es el lmite inferior del intervalo con mayor frecuencia;
1
es la
diferencia entre la frecuencia del intervalo con mayor frecuencia y la frecuencia del
intervalo antecedente;
2
es la diferencia entre la frecuencia modal y la frecuencia
del intervalo posterior (cuando los datos estn agrupados de menor a mayor) y a
es la amplitud del intervalo.
MEDIA GEOMTRICA
Es til para encontrar el promedio de porcentajes, razones, ndices o tasas
de crecimiento. Se utiliza principalmente en negocios y la economa. Lind-
Marchal-Mason. (2004, p.77).
MG=
Ejemplo: Suponga que reciba un aumento de sueldo de 5% este ao, y
reciba uno de 15% el prximo. Cul ser el aumento porcentual promedio?
MG= =1.09886%
MEDIDAS DE DISPERSIN
Anteriormente se estudiaron las medidas de tendencia central, en este
aparatado se expondrn las medidas de dispersin ya que sin estas, las primeras
seran unos indicadores engaosos.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 19

VAC. Academia de Investigacin

Esto se debe a que las medidas de dispersin nos indican si los datos estn
lejos o cerca de la medida de tendencia central as como la manera en que estn
distribuidos debajo de la curva.
RANGO
El rango de un conjunto de datos es la diferencia entre el valor mximo y el
valor mnimo Triola F. Mario, (2008), p. 93.
Ejemplo: Calcule el rango de los tiempos de espera de la siguiente tabla:
Banco 1: filas variables 6 6 6
Banco 2: una sola fila 4 7 7
Banco 3: mltiples filas 1 3 14

Banco 1:
Rango=6-6=0
Banco2:
Rango=7-4=3
Banco 3:
Rango=14-1=13
Esto quiere decir que en el banco 3 los datos estn ms dispersos con
respecto a la medida de tendencia central. Triola (2008, p. 92, 93).
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 20

VAC. Academia de Investigacin

El Rango es relativamente sencillo de calcular, pero como depende de los
valores mximo y mnimo no es tan til como otras medidas de dispersin.
DESVIACIN MEDIA
2
D
m
=

De acuerdo a Lind-Marchal-Mason. (2004, p.102) Es el promedio aritmtico
de los valores absolutos de las desviaciones con respecto a la media aritmtica


n
Donde:
Xi: es cada uno de los datos
X: media aritmtica
n : nmero total de datos
Ejemplo: el nmero de pacientes atendidos en una sala de urgencias del
hospital St. Luke para una muestra de 5 das el ao pasado fue: 103, 97, 101, 106
y 103. Determine la desviacin media.
X-media Desviacin absoluta
103-102 1

2
La desviacin media Dx es poco utilizada porque es una desviacin sobreestimada y a la frmula hay que
agregarle la frecuencia de cada diferencia pues no necesariamente vas a tener datos nicos, siempre puede
haber repeticiones.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 21

VAC. Academia de Investigacin

97-102 5
101-102 1
106-102 4
103-102 1
Total 12

DM=12/5=2.4
Lind-Marchal-Mason. (2004, p.103).
VARIANZA Y DESVIACIN ESTANDAR MUSTRALES
o Varianza: La media aritmtica de las desviaciones cuadrticas con
respecto a la media.
o Desviacin estndar: La desviacin estndar es la raz cuadrada
positiva de la varianza.
Clculo de la varianza muestral (S
2
) y de la desviacin estndar muestral
(S):
1
) (
1 1
2
2

=

=
n
x x
S
n
i
x
y
2
1 1
2
1
) (

=

=
n
x x
S
n
i
x



Se divide entre n-1 porque se pierde un grado de aleatoriedad por cada medida
estadstica que se utilice para definir otra, en este caso se usa la media aritmtica
para definir a la varianza y la desviacin.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 22

VAC. Academia de Investigacin

Ejemplo: las edades de los pacientes del pabelln de aislados en el hospital
Yellowstone, son: 38, 26, 13, 41 y 22 aos. Cul es la varianza y la desviacin
estndar de estas personas?
Calculando la media:
X=140/5=28
Edad (X) X-media (X-media)
2

38 10 100
26 -2 4
13 -15 225
41 13 169
22 -6 36
Total=140 Total=0 Total=534

Desviacin estndar
Varianza y la desviacin
muestral sera la raz cuadrada de esta varianza muestral
En este ejemplo, todos los valores son nicos, por lo tanto no hay repeticin y la
frecuencia es 1, en el caso de haber repeticin cada diferencia (X-media)
2
se
multiplica por su frecuencia.
El manejo anterior es sencillo si se tienen pocos datos, en caso contrario se
tiene que recurrir a ordenarlos en una distribucin de frecuencias y posteriormente
utilizar la siguiente frmula:
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 23

VAC. Academia de Investigacin

2
2 2
1
1

=

=
n
x n x f
S
i
n
i
i
x

i
f es la frecuencia particular de cada valor que toma la variable;
En donde:
Xi: es cada uno de los datos
X: media aritmtica
N: nmero total de datos
COEFICIENTE DE VARIACIN
De acuerdo a Lind-Marchal-Mason. (2004, p.115) Es la razn (cociente) de
la desviacin estndar y la media aritmtica, expresada como un porcentaje.
100 . .
(

=
X
S
V C
Donde:
S: desviacin estndar
X: media
Esta medida es til para comparar la variacin relativa cuando los datos
estn en unidades diferentes. Ejemplo: Un estudio sobre el monto de bonos
pagados y los aos de servicio de varios empleados, dio como resultado los
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 24

VAC. Academia de Investigacin

siguientes datos estadsticos: la media de los bonos pagados fue de $200 y la
desviacin estndar fue de $40. Comprese las dispersiones relativas.
CV=(40/200)*100=20%
Lind-Marchal-Mason. (2004), p.115, 116.
Existen otras medidas de dispersin como son los Cuartiles, Deciles y
Centiles, estos expresan de igual manera a la dispersin que la desviacin
estndar, razn por la cual solo se mencionan en este prrafo sin profundizar en
los conceptos y frmulas.
Los cuarteles, percentiles, deciles etc., son medidas posicionales que se
utilizan para definir valores lmite para una fraccin determinada de elementos en
la distribucin ordenada, por ejemplo cul es el valor de la variable estudiada
cuando se separa el 68% de los datos ordenados?
a
f
F
L C
i
i
p
p
i n
p i
|
|
.
|

\
|
+ =
1 1
100
) (

CORRELACIN
Una correlacin existe entre 2 variables cuando una de ellas est
relacionada con la otra de alguna manera. Triola F. Mario, (2008), p. 517.


Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 25

VAC. Academia de Investigacin

COEFICIENTE DE CORRELACIN
El coeficiente de correlacin lineal r mide la fuerza o grado de la relacin
lineal entre los valores cuantitativos apareados x y y en una muestra. El
coeficiente de correlacin lineal tambin se conoce como coeficiente de
correlacin producto momento de Pearson, en honor a Karl Pearson (1857-
1936), quien lo desarroll originalmente. Triola F. Mario, (2008), p. 518.
1
1

=

=
n s s
y x n y x
r
y x
n
i
i i

donde:
n: nmero de pares de observaciones x es la media de la variable x
X: suma de los valores de la variable x y es la media de la variable y
Y: suma de los valores de la variable y s
x
es la desviacin estndar de x
XY: suma de los productos de x y y s
y
es la desviacin estndar y
Ejemplo: En la siguiente tabla se muestran las llamadas a clientes
realizadas y copiadoras vendidas por lo 10 vendedores de una muestra de la
empresa Copier Sales of America.
representante de
ventas
llamadas a clientes
(X)
tom keller 20
jeff hall 40
brian virost 20
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 26

VAC. Academia de Investigacin

greg fish 30
susan welch 10
carlos ramirez 10
rich niles 20
mike kiel 20
mark reynolds 20
soni jones 30

Calcular el coeficiente de correlacin.
Como primer paso se tiene que graficar el diagrama de dispersin y ubicar
la media de ambas variables (lneas rojas) x=22 y y=45, antes de hacerlo es
pertinente aclarar que la variable dependiente es el nmero de computadoras
vendidas y la independiente es la cantidad de llamadas hechas. Para graficar se
posiciona a la variable dependiente en el eje Y y la variable independiente en el
eje X.

Fuente:Creacin propia (2012)
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 27

VAC. Academia de Investigacin

Si la relacin entre las 2 variables es positiva, entonces el nmero de
copiadoras vendidas es mayor a la media as como el nmero de llamadas
hechas.
Se calculan los productos que requiere la frmula de r:
representante de
ventas
llamadas a clientes
(X)
copiadoras vendidas
(Y)




XY
tom keller 20 30 400 900 600
jeff hall 40 60 1600 3600 2400
brian virost 20 40 400 1600 800
greg fish 30 60 900 3600 1800
susan welch 10 30 100 900 300
carlos ramirez 10 40 100 1600 400
rich niles 20 40 400 1600 800
mike kiel 20 50 400 2500 1000
mark reynolds 20 30 400 900 600
soni jones 30 70 900 4900 2100
TOTAL 220 450 5600 22100
1080
0


Sustituyendo en la frmula
r = =0.759
Para interpretar este nmero sera de la forma siguiente: en primera
instancia es un nmero positivo, esto quiere decir, que existe una relacin directa
entre variables, en segundo lugar es muy cercano a 1, y entre ms cercano a 1 la
relacin es ms fuerte.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 28

VAC. Academia de Investigacin

Se dice que entre ms cercano a 1 (cuando la relacin es positiva) o a -1
(cuando la relacin es negativa) mayor es el grado de asociacin entre las
variables estudiadas.
REGRESIN LINEAL
3

3
El anlisis de regresin slo se utiliza cuando existe una relacin de dependencia entre las variables, esto
es Y depende o se modifica cuando el investigador modifica la variable independiente X. Y esto se mide
usando el coeficiente de determinacin r
2
. Se considera que el modelo de regresin es adecuado cuando r
2
es
al menos 0.8 pero entre ms cercano a 1 es mejor el ajuste al modelo matemtico propuesto.

Dado un conjunto de datos muestrales apareados, la ecuacin de
regresin
Y=a +bx
Describe algebraicamente la relacin entre 2 variables. La grfica de la
ecuacin de regresin se denomina recta de regresin (o recta del mejor ajuste o
recta de mnimos cuadrados). Triola (2008, p. 542).
Donde:
Y: es el valor pronosticado de la variable y para un valor seleccionado x.
a: es la ordenada de la interseccin con l, es decir, el valor estimado de y
cuando x=0.
b: es la pendiente de la recta, o el cambio promedio de y por unidad de
cambio en la variable independiente x.
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 29

VAC. Academia de Investigacin

b =
1
1

=

=
n s
y x n y x
b
x
n
i
i i

Donde y y x son las medias de ambas variables; s
x
es la desviacin
estndar de la variable x y n es el tamao de la muestra o nmero de pares
ordenados
a= x b y a =


donde:
X: valor de la variable independiente
Y: valor de la variable dependiente
N: nmero de elementos de la muestra
Ejemplo: Retomando el ejemplo utilizado en el apartado de correlacin
Cul es el nmero esperado de copiadoras vendidas por un representante que
realiza 20 llamadas a sus clientes?
Utilizando la tabla expuesta en el ejercicio anterior y sustituyendo en la
frmula tenemos:
b = =1.1842
a=
Criterios para la Presentacin del Proyecto de Investigacin y de Tesis 30

VAC. Academia de Investigacin

Por lo tanto la ecuacin de regresin es Y=18.9476+1.1842X. De modo
que si un vendedor hace 20 llamadas telefnicas, puede esperarse que venda
42.6316 copiadoras, esto es resultado de Y=18.9476+1.1842 (20). El valor
b=1.1842 (1.2 ya redondeado) significa que para cada llamada adicional que
realizan los representantes de ventas pueden esperar que aumente en casi 1.2 el
nmero de copiadoras vendidas. (Lind-Marchal-Mason. 2004), p.472, 473.
REFERENCIAS BIBLIOGRFICAS
Daniel WW, (2006) Bioestadstica- Base para el Anlisis de las Ciencias de
la Salud 4 Edicin: Limusa Wiley.
Devore J .L.(2001) Probabilidad y Estadistica para Ingeniera y Ciencias, 5
Edicin. Mxico: Thompson Learning.
Hines, W.W y Montgomery, D.C. (1993) Probabilidad y Estadstica para
Ingeniera y Administracin, 3 Edicin C.E.C.S.A. Mxico.
Lind-Marchal-Mason (2004) Estadstica para Administracin y Economa.
11 Ed: Alfa Omega.
Mendenhall. W.(1982) Introduccin a la probabilidad y la Estadstica 5
Edicin Wadsworth International/ Iberoamrica. USA: Thompson Learning.
Triola, Mario F. (2008). Estadstica. 10 Edicin: Ed. Pearson.