You are on page 1of 394

Diseos de Investigacin.

1. La lgica de la investigacin
1.1.

Introduccin

1.2.

Caracterizacin de la ciencia

1.3.

El mtodo cientfico

1.4.

Las metodologas cualitaiva/cuantitativa


1.4.1

Cualitativa
1.4.1.1 Observacional
1.4.1.2 Encuestas

1.4.2

Cuantitativa:
1.4.2.1

Experimental

1.4.2.2

No experimental

1.4.2.3

Otros

Nota: El presente texto se corresponde con una parte importante de del captulo 1 del libro Mtodos y
Diseos de Investigacin en Investigacin con algunas modificaciones, coordinado por la profesora autora del
mismo. Mara Jos Navas es profesora titular del departamento de Metodologa de las Ciencias del
Comportamiento de la Facultad de Psicologa de la UNED.

1. LA LGICA DE LA INVESTIGACIN CIENTFICA

1.1.- INTRODUCCIN
La ciencia, si bien no es en absoluto la nica fuente o modo posible -y utilizado- de
conocimiento, s es la ms provechosa, universal y reciente de todas (Bunge, 1989): parece
bastante ms sensato disear un adecuado sistema de regado y disponer de una buena red de
pantanos si se quiere garantizar el riego de una determinada rea geogrfica que hacer rogativas.
El xito de la ciencia es abrumador por razones prcticas, entre otras. La ciencia es considerada
por muchos como el paradigma de la racionalidad a la hora de resolver problemas y a ella se va a
dedicar el siguiente apartado del captulo.
En la actualidad, la mayor parte de los medios de comunicacin cuentan con una seccin
habitual de ciencia y en la publicidad se apela con demasiada frecuencia y ligereza a la etiqueta de
cientficamente probado para vendernos tal o cual detergente o producto de limpieza, de belleza o
de cualquier otro tipo. Sin embargo, a pesar de andar de boca en boca, la ciencia es difcil de definir,
no solo para el lego sino tambin para los propios filsofos de la ciencia. De hecho, stos han
optado por tratar de diferenciar lo que es cientfico de lo que no lo es (el problema de la
demarcacin de la ciencia) en lugar de tratar de definirla. La posicin tradicional y ms difundida al
respecto es abordar el problema de la demarcacin atendiendo al mtodo que utiliza una disciplina
para responder a los problemas que tiene planteados. El siguiente apartado se ocupa justamente de
este mtodo, del mtodo cientfico, haciendo una presentacin general de los tres momentos
principales en su modo de operar: planteamiento del problema, formulacin de hiptesis y
contrastacin emprica de las hiptesis.
1.2.- CARACTERIZACIN DE LA CIENCIA
Los filsofos de la ciencia decidieron ya hace tiempo no abordar la difcil tarea de
definirla y optaron por concentrarse en distinguir entre lo que es o no cientfico. Pero incluso
definir las fronteras de la ciencia, aunque sea epistemolgicamente, constituye una labor
condenada al fracaso (Echeverra, 1989, p. 2). En buena lgica, no se va a proponer aqu
definicin alguna de ciencia. Si acaso, se tratar de realizar una aproximacin a la misma a
travs de los objetivos que persigue, de sus caractersticas y de los principios que deben
caracterizarla y, cmo no, del mtodo utilizado para lograr sus objetivos.
Lamo de Espinosa (1996) sostiene que solo puede entender la ciencia como un viaje de
exploracin y descubrimiento de lo ignoto ... [como] un intento de acercarse a la verdad [que]
... nunca est seguro de s mismo (pp. 7-8). La ciencia sera un estilo de pensamiento y de accin
cuyo producto final es el conocimiento cientfico, que no es ms que un tipo de conocimiento
humano - igual que el religioso, mtico, ritual o mgico- caracterizado por el mtodo o
procedimiento utilizado en su obtencin -el mtodo cientfico.
Segn Hempel (1978), el objetivo primario de la ciencia responde a dos exigencias. La
primera, ayudar al hombre en su esfuerzo por controlar su medio. El conocimiento cientfico
es solo una clase de conocimiento que responde a la necesidad del hombre de indagar en su
intento de adaptarse al medio y sobrevivir. La ciencia es un sistema de indagacin ms y su
producto -las teoras cientficas- pueden ser consideradas como formas de mirar al mundo. En
este sentido, se puede afirmar que el conocimiento cientfico contribuye a la solucin de los
problemas prcticos que surgen en la vida cotidiana y proporciona el fundamento para los
adelantos tecnolgicos. La segunda funcin, ntimamente relacionada con la anterior, consiste
en adquirir un conocimiento y una comprensin cada vez ms amplios y profundos del mundo.
De este modo, los progresos cientficos moldean la visin que tiene el hombre de la

realidad y su conjunto de supuestos fundamentales acerca de la forma en que realmente


marcha el mundo y acerca de lo que la gente realmente es. Estos efectos de la ciencia son menos
tangibles que los tecnolgicos pero no por ello menos importantes.
En esta segunda funcin de la ciencia hay tres niveles o componentes importantes (Babbie,
1990): la descripcin, el descubrimiento de regularidades y la formulacin de leyes y teoras
que generalicen y formalicen las regularidades descubiertas, una vez que los fenmenos han
sido inconvenientemente descritos. Solo cuando un fenmeno ha sido adecuadamente descrito
puede ser explicado y, por consiguiente, pronosticado o susceptible de control. Dicho de otro
modo, los hechos y los fenmenos deben ser conectados entre s de una forma lgica y
sistemtica para construir conocimiento organizado y esta conexin se puede realizar a tres
niveles distintos: descriptivo, relacional o explicativo. Por tanto, los fines de la ciencia
seran: describir, explicar, predecir y controlar. En dos palabras, la ciencia tiene como objetivo la
comprensin (habitualmente, en trminos explicativos) del mundo y de lo que l acontece,
ha acontecido y acontecer y el subsiguiente control que se deriva de dicho conocimiento.
Antes de pasar a examinar el mtodo (la manera o procedimiento) con el que la ciencia trata de
conseguir estos fines, en el cuadro 1 se indican las caractersticas que hacen que una actividad
determinada sea calificada de ms o menos cientfica (Babbie, 1990).
Cuadro 1 Caractersticas de la actividad cientfica.

LGICA

La ciencia es una tarea basada en la razn lgica: un hecho


determinado no puede ser la causa de otro que ha ocurrido con
anterioridad, un objeto dado no puede tener caractersticas que sean
mutuamente excluyentes, ni una caracterstica puede dar lugar a
resultados mutualmente excluyentes, etc. Adems de esta lgica de
sentido comn, la actividad cientfica opera con la lgica deductiva y
con la inductiva.

DETERMINISTA

Segn los cientficos, las cosas no ocurren sin ms, siempre hay una
razn para todo: la ciencia se basa en el supuesto de que todo hecho
tiene causa(s) antedente(s) que se puede(n) identificar y comprender.
Una buena parte de la ciencia se basa en una forma probabilstica de
determinismo. Por ejemplo, en una encuesta a familias espaolas
podemos encontrar que un 70% de las mujeres est dispuesta a
asumir las tareas domsticas al volver de su trabajo mientras que slo
un 25% de los hombres lo haran. En este caso, el gnero determina
la disposicin a asumir el trabajo domstico pero no lo hace
completamente. Para explicar esta discrepancia es necesario introducir
otros factores junto con el gnero.

GENERAL

La ciencia tiene por objeto la comprensin de hechos o fenmenos


generales y no tanto la explicacin de hechos individuales, ya que trata
de llegar a descubrimientos y leyes de aplicacin general. Sin ningn
gnero de dudas, para una mujer particular, la cuestin de inters es
conocer la disposicin de su pareja a la hora de realizar las tareas
domsticas en su casa pero eso para la ciencia tiene poco inters, ya
que lo que sta trata es de dilucidar cules son los factores que
explican la implicacin diferencial de varones y mujeres en este tipo
de tareas, si bien el conocimiento de los mismos le ser de gran
utilidad a la mujer en cuestin para pronosticar la ayuda real que
tendr en casa.

Cuanto ms simple sea una explicacin, tanto mejor. Cuanto menor


sea el nmero de factores implicados en una teora -por supuesto,
para una misma capacidad explicativa- ms parsimoniosa ser la teora
y, por tanto, deber ser la teora de eleccin.
PARSIMONIOSA
El principio de la parsimonia fue formulado por Guillermo de
Ockham en el siglo XIV y aboga por una explicacin con el menor
nmero posible de excepciones y con el nmero ms limitado posible
de argumentos y conceptos.

ESPECFICA

CONTRASTABLE
EMPRICAMENTE

INTERSUBJETIVA

En su bsqueda de leyes y conocimientos de aplicacin general, la


ciencia tiene que proceder con definiciones operativas especficas de
los conceptos evaluados. Para examinar la disposicin a realizar tareas
domsticas tras la jornada laboral, es preciso definir operativamente
de forma especfica esta disposicin, bien a travs de un cuestionario
en el que se solicite al encuestado que manifieste su grado de acuerdo
o desacuerdo con una serie de afirmaciones, bien mediante un listado
de tareas domsticas en el que se pide al encuestado que marque con
una cruz aqullas que s estara dispuesto a hacer.
Una teora solo es til si permite que se derive de la misma
enunciados bsicos o predicciones observables cuya adecuacin se ha
de dirimir acudiendo a datos empricos.Se han utilizado dos
estrategias distintas en la contrastacin emprica de una teora: la
inductivista-confirmatoria y la deductivista-falsacionista (vase ms
adelante .... ). Por tanto, una teora solo es til si conduce a
predicciones observables que se ven confirmadas por la experiencia o
que no son falsadas por sta.
El hallazgo de un determinado descubrimiento cientfico no depende
de qu cientfico o equipo de investigacin haya realizado el
experimento: dos equipos distintos de investigacin deben llegar a la
misma conclusin si realizan el mismo experimento.
La siguiente cita ilustra con claridad este punto:

ABIERTA
REVISIN

A
LA

Todo lo que sabemos hoy se conoca antes de otra forma y, en ocasiones,


recordamos esas posturas primitivas como ingenuas, absurdas o estpidas.
Sin embargo, no est de ms tener en cuenta que todo lo que sabemos hoy
probablemente se vendr abajo en algn momento del futuro y esos colegas
futuros -nuestros arrogantes descendientes- nos recordarn como ingenuos,
absurdos o estpidos. (Si te preocupa esto, quiz puedas consolarte algo al
saber que les espera idntico destino). (Babbie, 1990, p. 17)

La ciencia asume la innovacin como parte rutinaria de su quehacer


(Lamo de Espinosa, 1996).
1.3.- EL MTODO CIENTFICO
Vistos los objetivos que persigue la ciencia y los principios que deben caracterizar a la actividad
cientfica, el otro aspecto que falta por abordar para aproximarnos al concepto de ciencia es
justamente el mtodo que sta utiliza para lograr sus objetivos, esto es, el mtodo cientfico. Dado
el papel central que ste juega no solo per se sino por ser, adems, la respuesta ms difundida y
tradicional que se ha dado al problema de la demarcacin de la ciencia (se diferencia lo cientfico de
lo que no lo es segn se utilice o no el mtodo cientfico en la actividad en cuestin), se ha

considerado que el mtodo cientfico merece por derecho propio un tratamiento de apartado
independiente, si bien es solo una dimensin ms -de enorme importancia, eso s- para caracterizar
la ciencia, que es lo que se hizo en el apartado anterior.
Francis Bacon fue uno de los primeros en intentar articular lo que es el mtodo de la ciencia
moderna. A comienzos del siglo XVII plante que la finalidad de la ciencia era mejorar la suerte del
hombre en la tierra y, segn l, eso se poda lograr recogiendo hechos a travs de la observacin
organizada y derivando de ellos teoras (Chalmers, 1987). El mtodo es un camino para alcanzar un
objetivo y, como ya sealara Descartes, el mtodo es necesario para investigar la realidad. En
particular, el mtodo cientfico lo que proporciona es una forma de actuar mediante operaciones
ordenadas que orientan la investigacin hacia los fines de la ciencia, a travs de una serie de fases
interdependientes entre s. La figura 1 recoge los tres momentos principales en la forma de operar
del mtodo cientfico: el planteamiento de problemas, la formulacin de hiptesis como soluciones
tentativas al problema que suscit la investigacin y la contrastacin emprica de dichas hiptesis
con el fin de determinar su plausibilidad como explicacin probable del problema en cuestin.

Figura 1. Modo de operar del mtodo cientfico.

La investigacin cientfica arranca de problemas: sin problemas, no hay investigacin. Y los


problemas surgen en el marco del corpus previo de conocimiento, ya sea ste ordinario o cientfico.
Los problemas pueden surgir, por ejemplo, de lagunas en los resultados de la investigacin o de
resultados contradictorios en distintas investigaciones o, simplemente, cuando no existe informacin
sobre algn particular. Para que el problema resulte fecundo es necesario que sea enunciado de
forma precisa y especfica.
Veamos un ejemplo. Todos recordaremos que recientemente (hace unos 6 aos) cayeron unos
bloques de hielo en distintos lugares de Espaa. La pregunta de investigacin (problemas que
planteamos es:

Cul es el origen de los grandes bloques de hielo (aerolitos) que durante el mes de
enero de 2000 cayeron sobre distintos lugares de la geografa espaola?

Enunciado el problema, el cientfico ofrecer una serie de conjeturas como soluciones tentativas.
Para ello, proceder bien mediante la induccin y generalizacin de lo observado, bien mediante la
formulacin de hiptesis de las que habr de deducir, posteriormente, implicaciones observables.

Hiptesis formuladas:
1.-Son minicometas
2.-Proceden de un avin
3.-Se deben al sobreenfriamiento de las capas altas de la atmsfera
4.- Obedecen a una fina depresin de la capa de ozono

Ya se proceda por la va inductiva o deductiva, el paso siguiente consiste en contrastar con la


experiencia la conjetura ofrecida como solucin tentativa. Para ello, se puede optar por la va
inductiva-verificacionista (Carnap) o por la va deductiva-falsacionista (Popper). La primera acepta la
falsacin de la teora si alguna de sus predicciones se demuestra falsa, pero orienta la investigacin
hacia la verificacin por la demostracin de un nmero creciente de predicciones verdaderas, hacia la
acumulacin de resultados consistentes con la teora, cuyo mantenimiento quedara, de esta forma,
justificado. La segunda va acepta la corroboracin de la teora por la superacin de pruebas
experimentales rigurosas, si bien niega que sta se pueda verificar y orienta la investigacin hacia su
falsacin, deduciendo predicciones que, sometidas a experimentos crticos, demuestren lo nico que la
ciencia puede saber con certeza: la falsedad de sus teoras.

Los anlisis hidroqumicos e isotpicos efectuados a los bloques permiten descartar las dos
primeras hiptesis.
Mediante modelos tericos y simulaciones por ordenador, la comisin de investigadores del
CSIC demuestra cmo se puede formar un bloque de granizo en condiciones muy determinadas
en la alta atmsfera, mostrando as que fue el sobreenfriamiento de las capas altas de la
atmsfera lo que favoreci que el vapor de agua se condensara en forma de cristales de hielo
microscpicos que, a su vez, actuaron como nucleadores para que el resto del vapor de agua
siguiera adhirindose hasta formar grandes bloques de hielo.

En caso de confirmarse la hiptesis (ya sea verificada o no falsada) se ha obtenido evidencia


favorable que apoya la verosimilitud de dicha conjetura como explicacin plausible al problema
planteado y, muy probablemente, si la investigacin ha sido cuidadosa e imaginativa, la solucin del
problema inicial har surgir un nuevo conjunto de problemas (Bunge, 1989). Las explicaciones
hipotticas confirmadas se aceptan y articulan en teoras. En caso contrario, cuando no se obtiene
evidencia favorable a la conjetura formulada, hay que dar marcha atrs y formular y contrastar
empricamente nuevas hiptesis.

El Instituto Nacional de Meteorologa informa de que no existan durante esos das las
condiciones para la generacin de los aerolitos (94 bajo cero) sino ms bien al contrario (de
48 a 60 bajo cero).
El mtodo tiene una estructura bsica adecuada para todas las ciencias, que responde a los tres
momentos recogidos en la figura 1.
Sin embargo, cada ciencia se caracteriza por un conjunto abierto (y en expansin) de problemas
que exige adaptar, transformar y modificar el mtodo general a las peculiaridades especficas de
cada campo del saber. Es decir: todas las disciplinas cientficas comparten el mtodo cientfico pero
difieren en las tcticas que usan para la resolucin de sus problemas particulares, ya que cada clase de
problemas requiere un conjunto de mtodos o tcnicas especiales

1.4 LAS METODOLOGAS CUANTITATIVO/CUALITATIVA


Bajo la etiqueta de metodologa cualitativa se encuadra un conjunto de mtodos y tcnicas
interpretativas que lo que tratan es de describir, decodificar y traducir un fenmeno que ocurre de
forma ms o menos natural en el mundo social y que, por lo dems, estn ms orientadas hacia el
significado del fenmeno en cuestin (cualidad) que hacia su frecuencia o cuantificacin (cantidad)
(Bajo la etiqueta de metodologa cualitativa se encuadra un conjunto de mtodos y tcnicas
interpretativas que lo que tratan es de describir, decodificar y traducir un fenmeno que ocurre de
forma ms o menos natural en el mundo social y que, por lo dems, estn ms orientadas hacia el
significado del fenmeno en cuestin (cualidad) que hacia su frecuencia o cuantificacin (cantidad) (van
Maanen, 1983).
No es que la metodologa cualitativa excluya el uso del principio cientfico del empirismo, pero s es
cierto que los investigadores cualitativos consideran los fenmenos sociales no tanto como algo
perfectamente replicable y claramente definido sino como algo ms particular, menos delimitado o
cerrado: defienden la existencia de relaciones abiertas, no tanto unvocas y denotativas como los
cuantitativitas sino multvocas y polismicas. Cada una de estas metodologas responde a una lgica
diferente y produce y analiza informaciones de distinta ndole. Aunque no se aborda sta polmica en
su profundidad, en este curso se mantiene la idea de la necesaria complementariedad entre ambas
metodologas; asimismo, se realizar una presentacin general de los mtodos y las tcnicas
encuadradas dentro de la investigacin cualitativa, centrndose fundamentalmente en las tcnicas
(observacin participante, grupos de discusin y entrevistas en profundidad (Van Maanen, 1983).
Lo Cuantitativo, se define dentro de su mismo enunciado, es aquello que cuantifica, por lo tanto es la
posicin objetiva de medir por medio de la cuantificacin la realidad a investigar. Se centra, por tanto, en
los aspectos observables susceptibles de cuantificacin, y utiliza la estadstica para el anlisis de los
datos. La investigacin cuantitativa tiene la capacidad de la generalizacin, donde el conocimiento
generado desde la objetividad puede ser extrapolable a otras realidades. La metodologa cuantitativa
parte de los paradigma positivista, centrados en el objetivismo.
Cada una de estas metodologas responde a una lgica diferente y produce y analiza informaciones de
distinta ndole.
A fin de dejar claro cules son las caractersticas que definen ambas metodologas y, basndonos en la
estructura general de la investigacin, el cuadro 2 nos muestra en cada paso del proceso cules son esas
caractersticas consideradas definitorias:

Cuadro 2

1.4.1 METODOLOGIAS CUALITATIVAS.


Debido a su heterogeneidad se hace muy difcil hacer una taxonoma de estos mtodos, pero
destacaramos:

a)

La entrevista (en profundidad, abierta o no estructurada o en general el estudio de casos)


pretende llegar a conocer hasta el fondo la idiosincrasia de un individuo o paciente (pues se
emplea mucho en el mbito clnico). Para ello se debe de generar un clima de empata que
facilite la comunicacin mutua. En un nmero indeterminado de sesiones (de unos 45 minutos) el
investigador, mediante preguntas abiertas, deber ir profundizando en lo que le interesa,
comenzando por preguntas generales hasta las ms especficas.

b)

El grupo de discusin es una entrevista abierta a un grupo de entre 5 y 10 personas (que no


se conozcan entre s y que intente ser una muestra representativa de la poblacin objeto de
estudio) en sesiones de 90 a 120 minutos. Se emplea mucho en investigacin de mercados,
publicidad, etc. para analizar los roles, actitudes y motivaciones de los distintos individuos. El
investigador deber plantear y enmarcar un tema de discusin y generar la confianza para que
los individuos vayan mostrando sus opiniones divergentes. Su labor ser motivar a los individuos
ms tmidos, frenar a los que monopolizan la discusin, redirigir la discusin cuando alguien se
salga del tema, mostrar contradicciones, hasta llegar al final a una serie de conclusiones resumen
de lo acaecido. Mtodo Delphi. Consiste en obtener la informacin ms consensuada posible de
un grupo de expertos (entre 10 y 30, separados geogrficamente generalmente) en relacin a un
objetivo. Se emplea mucho en evaluacin de programas, toma de decisiones, etc. La secuencia

consta como mnimo de tres cuestionarios. El primero plantea preguntas abiertas sobre el tema
de estudio con el objetivo de generar la mayor diversidad posible de respuestas. Con ellas se
generan afirmaciones sobre las que se pide su grado de acuerdo en un segundo cuestionario. Un
tercer cuestionario sintetiza los resultados anteriores y los hace conocer a todo el grupo de
expertos con el fin de que hagan un esfuerzo por acercarse a las posiciones de la mayora. El
proceso se repite hasta llegar a un consenso razonable.
c) En la investigacin etnogrfica el investigador quiere conocer a fondo un determinado grupo
social o cultural homogneo (p.e. determinada minora tnica, una tribu urbana, etc.)
introducindose y conviviendo con ellos mediante la observacin participante y la entrevista
abierta.
d) La investigacin-accin. Su objetivo es analizar un grupo social (generalmente con
penurias o deficiencias, p.e. grupos de riesgo o grupos marginales) con el fin de transformarlo y
mejorarlo mediante la aplicacin de una serie de pasos que se retroalimentan entre s: conocimiento
de la comunidad, elaboracin de un plan de accin, implantacin y evaluacin
1.4.2.- METODOLOGA CUANTITATIVA
Atendiendo a la orientacin (causal o no causal) podemos hablar de:

Modalidad manipulativo-experimental, con una clara orientacin nomottica, preocupada por


encontrar leyes generales que sean vlidas, para lo cual manipula experimentalmente las variables
con el fin de ver cul es el efecto causal que esto produce en otras variables.
Modalidad asociativo-correlacional, con una clara orientacin ideogrfica, preocupada de hecho
por medir y evaluar las diferencias, utilizando por vez primera tcnicas estadsticas, al buscar
fundamentalmente patrones de asociacin, variacin conjunta o concomitante entre las variables
(de ah la denominacin de correlacional).

En ambas orientaciones o tradiciones la medida es un pre-requisito ya que para poder describir y


explicar regularidades entre las caractersticas, sean del tipo que sean, es necesario obtener
medidas de estas variables o caractersticas.
Si bien ambas tradiciones comparten el recurso a la medicin como requisito previo, las
hiptesis que formulan son diferentes y son tambin distintas sus preferencias por lo que respecta al tipo
de diseo que utilizan en la investigacin y a las tcnicas estadsticas que habitualmente emplean
para analizar los datos obtenidos en la misma. La figura 2 recoge esquemticamente el planteamiento
de ambas tradiciones, siguiendo de cerca la propuesta de Arnau (1995).
EXPERIMENTAL

CORRELACIONAL

H. CAUSAL

H. COVARIACIN

EXPERIMENTOS

NO EXPERIMENTOS
Figura 2

Como seala este autor, la diferencia fundamental entre ambos planteamientos a nivel de hiptesis
es la asuncin o no de relaciones causales entre las variables consideradas. En el planteamiento
experimental las hiptesis formuladas proponen la existencia de un efecto causal de una o ms
variables (denominadas habitualmente variables independientes o causa) en una o ms variables
(denominadas habitualmente variables dependientes o efecto), supuesto que se controlan adecuadamente
todas las variables extraas, con el fin de excluir la posibilidad de que otros factores puedan explicar los
resultados obtenidos. Por ejemplo, se tratara de estudiar la eficacia de un programa de entrenamiento

(variable independiente) en el nivel de deterioro del funcionamiento cognitivo (variable dependiente)


en enfermos de Alzheimer controlando, entre otras variables, la fase de desarrollo de la enfermedad
(variable extraa) en los pacientes. En el planteamiento correlacional las hiptesis formuladas plantean
la existencia de una variacin conjunta o concomitante entre las variables, pero no una relacin
causa-efecto sino nicamente un patrn de variacin correlativa entre ellas, un patrn de posibles
relaciones de cambio entre las variables. Por ejemplo, se tratara de examinar las caractersticas ms
habituales que presentan los cuidadores/as de enfermos de Alzheimer.
A su vez, cada tipo de hiptesis lleva a trabajar con distintas modalidades metodolgicas. En
particular, las hiptesis causales suponen normalmente el recurso a estudios de laboratorio donde se
trabaja con un nmero reducido de variables en condiciones estrictamente controladas en las que el
investigador manipula activamente la variable independiente o causa para ver cmo influye en la
variable dependiente o efecto, tratando de controlar todas las posibles variables extraas. Por
consiguiente, las hiptesis causales conducen a la metodologa experimental. Por su parte, las hiptesis
de covariacin llevan a la metodologa no experimental; esto es, suponen el recurso a estudios de
campo en los que habitualmente se recoge informacin acerca de un gran nmero de variables pero
donde el grado de intervencin del investigador en la situacin estudiada es mucho menor: no
manipula variable alguna -simplemente observa y/o registra y mide- y no existe un control activo
por parte del investigador de las posibles variables extraas. En suma, la metodologa experimental
est especialmente indicada cuando el objetivo de la investigacin es establecer relaciones causales
mientras que la metodologa no experimental es la apropiada cuando se trata de describir una gran
cantidad de variables y de estudiar de forma intensiva y global un determinado fenmeno. El cuadro
3 muestra una clasificacin de los diferentes tipos de estudios cuantitativos segn diferentes criterios de
agrupacin.

Cuadro 3

Tomando como criterio de clasificacin la estrategia desarrollamos a continuacin algunas


de las cuestiones ms relevantes de los diferentes tipos de estudios.

Tal como ya hemos dicho, la metodologa experimental resulta particularmente til para someter a
prueba o contrastar hiptesis causales. Por qu? Bsicamente, por dos razones:
El investigador modifica o manipula directamente la variable independiente o causa y controla
-o trata de controlar- todas las posibles variables que, sin ser la variable independiente o causa,
pueden influir en la variable dependiente o efecto y, la segunda cuestin es la referente a la asignacin
de los sujetos a los grupos de estudio que se realiza de forma aleatoria, esto es asignando a cada uno
de los grupos en que se haya dividido la muestra a los sujetos (la funcin que cumple la asignacin
aleatoria es repartir aleatoriamente entre los distintos grupos los efectos que las variables extraas
pueden tener en nuestra variable dependiente. El azar -como la muerte- sirve para homogeneizar,
para eliminar diferencias no pertinentes entre grupos o, como en el caso de la muerte, entre personas).
En resumen, las tres caractersticas clave de la metodologa experimental:

La manipulacin activa por parte del investigador de la variable independiente, causa o de


tratamiento.

El control de las variables extraas.

La asignacin aleatoria de los sujetos a los grupos definidos por los distintos niveles de la variable
independiente.

A pesar del enorme inters y de la conveniencia de asignar aleatoriamente a los distintos sujetos a
los grupos de tratamiento, esto no siempre es posible o deseable.
Cuando, por la razn que sea, el investigador no puede asignar aleatoriamente a los sujetos a los
distintos grupos definidos por los niveles de la variable independiente y se ve abocado a realizar esta
asignacin atendiendo no al azar sino, por ejemplo, a las caractersticas de los sujetos, no se habla de
experimento sino de cuasi experimento que, como acabamos de ver, sera sencillamente un
experimento en el que la asignacin de los sujetos a los grupos no se produce al azar.
Es decir, los estudios cuasi experimentales comparte las dos primeras caractersticas sealadas
para la metodologa experimental pero no la tercera, y la aleatorizacin constituye un elemento decisivo
-no es el nico, por supuesto- en el control de las fuentes extraas de variacin de la variable
dependiente.
La metodologa no experimental no pone a prueba hiptesis causales. Cambiamos de escenario.
Hay que retirar conceptos tales como variable dependiente, independiente, extraa, manipulacin,
control experimental y aleatorizacin. Las variables son ahora sencillamente variables que van a ser
registradas o medidas por el investigador, sin ms: no hay variables independientes que manipular ni
variables extraas que controlar experimentalmente ni tampoco hay asignacin aleatoria de los sujetos a
los grupos de tratamiento ya que stos tampoco existen. El atrezo ahora es diferente: sta es la
metodologa que se utiliza para describir las caractersticas -o, todava mejor, algunas caractersticas- de
una determinada poblacin o para realizar un estudio comprensivo y global de un determinado fenmeno.
En el primer caso se utiliza la metodologa de encuestas y en el segundo bsicamente la metodologa
observacional y cualitativa.
Las encuestas apenas si necesitan tarjeta de presentacin dada su popularidad. Cuando se
utiliza esta metodologa, la informacin se registra o recoge a partir de las respuestas que da una
muestra de sujetos o fraccin de la poblacin de inters (no se suele encuestar a todos los miembros de
la poblacin) a las preguntas formuladas en una entrevista o en un cuestionario. Desde la dcada de los
treinta en los EE.UU. y bastante ms recientemente en Espaa, las encuestas se han instalado en la vida
cotidiana de la sociedad. Quin no ha sido encuestado alguna vez? Si no es para la Encuesta de
Poblacin Activa (EPA), para los ndices de audiencia de determinados programas o canales de
televisin, o en algn sondeo electoral o de opinin. Si todava el azar no ha llamado a su puerta y le ha
solicitado su colaboracin en una encuesta, probablemente sea solo cuestin de tiempo, dado que
cada vez es mayor el nmero de millones de dlares -y de euros- invertido en realizar encuestas. Y

para qu? Tradicionalmente se han utilizado en la investigacin de mercado para comprender las
preferencias e intereses de los consumidores; en sondeos electorales para ver la tendencia al voto y
pulsar la opinin y percepciones polticas con el fin de ayudar en las elecciones a los candidatos polticos
y tambin en sondeos de opinin realizados por medios de comunicacin (sobre todo, peridicos y
revistas) acerca de todo tipo de cuestiones de ms o menos actualidad o supuesto inters general
(recientemente, se ha acuado el trmino sondeocracia.
A diferencia de las encuestas, la metodologa observacional y la cualitativa trabajan con un
nmero mucho menor de sujetos y se centran en el estudio intensivo y en la comprensin global de un
determinado fenmeno o cuestin.
La metodologa observacional se utiliza para describir fenmenos que ocurren en ambientes
naturales, esto es, la fuente principal y directa de los datos son las situaciones naturales y el
investigador su principal instrumento de recogida (Anguera, 1995); por ejemplo, para describir las
acciones implicadas en el desarrollo de la tarea en un puesto de trabajo. Desde la dcada de los ochenta,
los estudios basados en la observacin del individuo en contextos naturales estn adquiriendo un mayor
protagonismo, en parte relacionado con los espectaculares avances tecnolgicos, informticos y
audiovisuales que han tenido lugar en estas dos ltimas dcadas y que facilitan notablemente las
tareas de registro sistemtico.
Existe un amplio conjunto de estudios (muy frecuentes) que se encuentran en un punto entre lo
experimental y lo no experimental y que comparten algo de cada uno de los anteriores. Esos estudios se
engloban en diferentes tipos de diseos. Como seala Anguera (1986) si consideramos un continuo
desde en relacin al grado de control y manipulacin de las variables, a un lado podemos situar los
estudios experimentales y en el extremo opuesto los observacionales. Como hemos visto en los diseos
experimentales control u manipulacin son sus notas caractersticas mientras que los observacionales
no hay ningn tipo de control no de manipulacin (interesa estudiar los fenmenos tal y como se
manifiestan). El conjunto de diseos que englobamos como otros estudios van a lo largo de ese
continuo definido y van perdiendo control y manipulacin.

Experimental

Cuasiexperimental

Ex post facto

Figura 3

Encuestas

Observacional

xxx
xxx,

5.- LA PLANIFICACIN DE LA INVESTIGACIN


Como ya hemos dicho, el mtodo cientfico proporciona una forma de actuar mediante
operaciones ordenadas que orientan la investigacin hacia los fines de la ciencia, a travs de una serie de
fases interdependientes entre s. En ese apartado se definieron los tres momentos principales en la
forma de operar del mtodo cientfico -planteamiento de problemas, formulacin de hiptesis y
contrastacin emprica de dichas hiptesis- y en este apartado se van a concretar esas fases
interdependientes a travs de las que opera el mtodo cientfico (vase la figura.4). Para ilustrar estas
fases, vamos a tomar un ejemplo de un campo que desgraciadamente tiene una gran actualidad para los
profesionales de la Psicologa: la intervencin psicolgica en desastres.
A nadie escapa la importancia que pueden tener en los afectados por este tipo de situaciones las
consecuencias psicopatolgicas y sociales que pueden producir las catstrofes. La Organizacin
Mundial de la Salud ya ha identificado varios sndromes, entre ellos, el sndrome del superviviente,
caracterizado por irritabilidad, ira y agresin, que aumentan en los aos siguientes al desastre, y
tambin por desrdenes fsicos como hipertensin, cefaleas tensionales y trastornos gastrointestinales,

entre otros. Un aspecto llamativo es que la tasa de mortalidad se incrementa de forma notable entre los
supervivientes que son familiares de vctimas mortales, sobre todo, en el ao siguiente a la catstrofe.
Podramos plantearnos realizar una investigacin sobre este sndrome. Se podra estudiar, por un
lado, la incidencia del sndrome y la tasa de mortalidad entre los supervivientes a catstrofes. Por
otro lado, se podra investigar si estas dos tasas varan con las caractersticas de personalidad de los
sujetos. Esta informacin podra ser de gran inters porque puede orientar o dar pistas acerca del tipo
de intervencin al que hay que someter a un sujeto tras una situacin de emergencia. Por consiguiente,
el problema a investigar sera la cuantificacin y cualificacin de la incidencia del sndrome de
supervivencia y de la tasa de mortalidad entre los afectados por situaciones de emergencia al ao del
desastre
Una vez planteado el problema, hay que tratar de resolverlo. Enunciado el problema, el
investigador debe ofrecer una serie de conjeturas como soluciones tentativas en forma de hiptesis. En
este caso se podran formular las dos hiptesis siguientes:

HIPTESIS 1: La incidencia del sndrome del superviviente entre los afectados por una situacin de
emergencia o catstrofe vara con las caractersticas de personalidad de los sujetos.
HIPTESIS 2: La tasa de mortalidad entre los afectados por una situacin de emergencia o
catstrofe vara con las caractersticas de personalidad de los sujetos.
Como vemos, las dos hiptesis formuladas se plantean si la incidencia del sndrome del
superviviente y la tasa de mortalidad covaran, varan con las caractersticas de la personalidad de
los afectados por una catstrofe. Es decir, la investigacin plantea una hiptesis de covariacin y no
una hiptesis causal. Esto significa que habr que optar por la metodologa no experimental,
particularmente adecuada para este tipo de hiptesis, mientras que la metodologa experimental no sera
aplicable (obsrvese que ninguna de las variables de las hiptesis es susceptible ni de manipulacin
activa por parte del investigador ni tampoco es posible la asignacin aleatoria de los sujetos a los
grupos). Dentro de la metodologa no experimental, se puede optar por la metodologa de encuestas,
observacional, cualitativa o alguna combinacin de ellas. Dado el objetivo que persigue la investigacin,
se podra utilizar una estrategia combinada de metodologa de encuestas y cualitativa (la aplicacin de la
metodologa observacional -posible pero costosa- supondra disponer de un conjunto de observadores
entrenados que tendran que observar a una muestra representativa -y numerosa- de supervivientes en
distintos momentos del da y situaciones). En particular, se podran realizar algunas entrevistas en
profundidad con supervivientes de catstrofes con el fin de ver la forma en la que stos perciben
y valoran su experiencia y para identificar los posibles perfiles y los matices ms importantes de la
cuestin investigada. El anlisis del discurso y de los contenidos surgidos en estos grupos y entrevistas
puede servir como fuente de informacin para disear la entrevista o el cuestionario que se
utilizar posteriormente en la encuesta a una muestra de supervivientes. Formuladas las hiptesis, habr
que ver si stas son o no plausibles, habr que someterlas a prueba para comprobar su verosimilitud
como posible explicacin al problema planteado. Para someter a prueba o contrastar empricamente
una hiptesis, lo primero que hay que hacer es definir de forma operativa las variables implicadas
en la hiptesis, esto es, hay que definirlas de modo que podamos trabajar con ellas. Son tres las variables
implicadas en las hiptesis:

Planteamiento del Problema


Formulacin de hiptesis

Eleccin de la Metodologa a
utilizar

Definicin operativa de las


variables de las hiptesis

Medicin de las variables de las


hiptesis

Evaluacin de la calidad mtrica de


los instrumentos de medida

Seleccin de la muestra

Recogida de datos

Anlisis de datos

Interpretacin de resultados

Figura 4: Secuencia de las fases interdependientes a travs de la que opera el mtodo cientfico

El sndrome del superviviente.


Se trata de una variable dicotmica, es decir, con solo dos valores posibles: presencia o ausencia
del sndrome. Para definirla operativamente, podemos atender a las manifestaciones
conductuales del sndrome, a sus manifestaciones fisiolgicas o a ambas. Supongamos que nos
circunscribimos exclusivamente a las manifestaciones conductuales anteriormente citadas.
Las caractersticas de personalidad:
Supongamos que el modelo de personalidad adoptado en la investigacin es la teora de los
cinco grandes factores, que defiende una estructura pentafactorial de la personalidad con los
siguientes factores: neuroticismo, extraversin, apertura, amabilidad y responsabilidad.

La mortalidad
Se trata tambin de una variable dicotmica con dos valores posibles cuya definicin operativa
no plantea problema alguno al investigador.

Una vez definidas las variables de forma que podamos operar con ellas, el paso siguiente en la
investigacin ser obtener medidas de esas variables, habr que proceder a medir las variables de las
hiptesis:

El sndrome del superviviente.


Antes de proceder a la construccin de dicho instrumento de medida, conviene comprobar si en el
mercado -o en la literatura- existe ya algn instrumento -comercializado o no- que mida la variable
que se desea medir en esta investigacin. La aplicacin del cuestionario a la muestra de
supervivientes resultar bastante menos gravosa que la entrevista individual a estos sujetos.

La personalidad.
Dado que el modelo adoptado para conceptualizar la personalidad es el de los cinco grandes
factores, parece apropiado utilizar el instrumento de medida desarrollado para estos factores: el
cuestionario NEO-PI-R (Costa y McCrae, 1992).

La mortalidad
Para medir esta variable basta con comprobar si se ha producido la defuncin en el perodo de
inters.

Cuando ya se han seleccionado o construido los instrumentos -cuestionarios, pruebas, tests


escalas- que nos van a permitir obtener medidas de las variables de las hiptesis, el paso siguiente en el
proceso supone garantizar que se est trabajando con instrumentos adecuados, esto es, hay que
comprobar que los instrumentos utilizados para medir esas variables cumplen los requisitos mnimos de
calidad que todo instrumento cientfico debe satisfacer para poder ser utilizado con garanta.
Cules son esos requisitos o criterios mtricos de calidad que todo instrumento ha de satisfacer?
Son dos: fiabilidad y validez. Se dice que un instrumento es fiable si proporciona medidas precisas de la
variable que mide; se dice que un instrumento es vlido si proporciona medidas de la variable que
pretende medir. En el caso que nos ocupa, tenemos que garantizar que el cuestionario diseado para
medir el sndrome del superviviente mide realmente ese sndrome y no el sndrome de estrs
postraumtico o el sndrome de afliccin por catstrofe (validez) y que la medida obtenida para el
sndrome del superviviente es una medida precisa y estable, razonablemente libre de error de medida
(fiabilidad), esto es evaluar la calidad mtrica de la medida.
Seleccionados y evaluados los instrumentos con los que medir, habr que seleccionar a los
sujetos a los que hay que aplicar dichos instrumentos para obtener las medidas de las variables de las
hiptesis; en nuestro caso, habr que seleccionar una muestra de supervivientes de catstrofes y
situaciones de emergencia para pasar seguidamente a la recogida de datos, en el marco de un
diseo que permita dar respuesta al problema que suscit la investigacin y acorde lgicamente con la
hiptesis formulada. El diseo es un plan de accin orientado a la obtencin de datos apropiados a las
hiptesis de trabajo.
Una vez recogidos los datos, solo restara analizarlos: pasaramos, por tanto, a la fase de anlisis de
los datos que, como no puede ser de otro modo, es tambin dependiente del problema planteado en la
investigacin y de la hiptesis formulada como solucin tentativa al problema. Dicho de otro
modo, el anlisis de los datos obtenidos en una investigacin hay que hacerlo siempre en funcin
de los objetivos de la misma. En esta fase suele ser necesario el concurso de la estadstica. Por qu? De
nuevo son dos las razones:

1.

Permite representar las distintas medidas obtenidas por un grupo de sujetos mediante un
ndice estadstico (por ejemplo, la media, la mediana, la moda) que describe de forma
resumida y en un nico valor el conjunto de medidas. ste es el cometido de la estadstica
descriptiva.

Para cuantificar la incidencia del sndrome estudiado habra que ver cul es la proporcin
de personas que manifiestan las caractersticas conductuales propias del sndrome en la muestra
examinada de supervivientes de catstrofes, informacin recabada en las respuestas de estos
sujetos al cuestionario que mide este sndrome.
2.

Permite decidir si los resultados obtenidos confirman las hiptesis o si, por el contrario, stos
pueden explicarse por variaciones casuales entre los sujetos. ste es el cometido de la
estadstica inferencial.

En nuestro caso, podemos encontrarnos con que la proporcin de afectados por el sndrome entre
los sujetos extrovertidos es del orden de 0,30 mientras que entre los sujetos introvertidos sta se
eleva hasta 0,55. La estadstica inferencial nos ayudar a decidir si esa diferencia es real o es fruto
simplemente del azar. Es decir, tras realizar una prueba de significacin estadstica estaremos en
condiciones de afirmar que la diferencia observada entre esas dos proporciones responde a una
incidencia significativamente distinta del sndrome del superviviente entre sujetos extrovertidos e
introvertidos o de afirmar que esa diferencia desaparecera si se tomara una muestra diferente de sujetos
o si se midiera a esos mismos sujetos en otra ocasin.
Una vez analizados los datos, se puede ya proceder a interpretar los resultados, es decir, hay que
ver si los datos proporcionan o no evidencia favorable a las hiptesis formuladas como soluciones
tentativas al problema que suscit la investigacin. En caso negativo, es necesario proponer
soluciones alternativas al problema, formular nuevas hiptesis que debern ser tambin empricamente
contrastadas.
El hecho de haber presentado todas las fases a travs de las que opera el mtodo cientfico de
forma secuencial y lineal no debe inducir a error al lector. Si bien la distancia ms corta entre dos
puntos es la lnea recta, eso no quiere decir que sea se siempre el camino recorrido, ni siquiera que
sea el mejor camino. El modo de operar en la investigacin cientfica no puede ser concebido como una
sucesin ordenada de pasos fijos (otra cosa es que una presentacin didctica del asunto suponga hacer
una presentacin ordenada de una serie consecutiva de pasos) sino como un conjunto de pasos o
etapas interdependientes e interrelacionadas por las que se va avanzando y retrocediendo
continuamente (Babbie, 1990).
Tal y como hemos desarrollado este ejemplo relativo al cmo se ejecuta un proceso de
investigacin parecera es un proceso esttico e inflexible. La investigacin es una prctica abierta,
flexible y creativa, que no anrquica, sujeta a criterios orientadores que nos permiten mantenernos en
una lnea de accin que hemos definido al comienzo del trabajo al considerar que es lo que se adapta
mejor a nuestro objetivo de conocimiento. Como tal proceso ordenado y planificado implica diversos
aspectos que tiene que ver con el contexto terico en el que la investigacin se incardina, una fase de
planificacin y una fase de accin (est dos ltimas se corresponde con lo que hemos intentado mostrar a
travs del ejemplo).
En otros trminos toda investigacin supone tres fases: Conceptual; Metodolgica y Emprica:
La fase conceptual hace referencia a los aspectos tericos e implica: El anlisis del estado actual del
tema (estudio de la bibliografa); Planteamiento de los objetivos; La pregunta de investigacin; Marco de
referencia.
La fase Metodolgica implica: Enunciado del problema de estudio en trminos de constructos;

Seleccin de variables; Eleccin del diseo; Definicin de los sistemas de recogida de la informacin.
La fase Emprica, en ella se incluye: Recogida de datos; Anlisis de datos; Interpretacin de
resultados; la discusin y la difusin (redaccin del informe).
La primera fase est ntimamente relacionada tanto con la creatividad del investigador como con el
desarrollo de un buen estudio de la bibliografa. La segunda fase se basa en las consideraciones
derivadas de la fase conceptual y supone el momento de la planificacin del trabajo de campo. En
este momento adquiere una gran importancia la definicin del diseo (plan de trabajo) que vamos a
desarrollar, esto es, definido el problema y los constructos implicados como vemos a proceder en la
bsqueda de informacin que nos permita valorar el grado de posibilidad que tienen nuestras conjeturas
(hiptesis) como explicaciones del fenmeno, es pues quiz la fase crucial de nuestra investigacin y a
ella (al estudio de los diferentes diseos) dedicaremos las siguientes pginas. En cuanto a la fase
emprica el trabajo que desarrollamos de deriva de la fase anterior y podemos considerarla como la fase
de accin que dar lugar a la finalizacin del trabajo con las consiguientes conclusiones y su pertinente
difusin (una investigacin que no se participa a la comunidad pierde gran parte de su validez).
RESUMEN Y CONCLUSIONES
A lo largo de este tema hemos pretendido presentar de forma breve aquellos aspectos que, a
nuestro criterio, son los ms relevantes a la hora de elaborar una investigacin.

Hemos presentado el mtodo cientfico como una forma de proceder para obtener un
conocimiento considerado por la comunidad como cientficamente vlido.

Hemos visto que este mtodo, que podemos llamar general, da lugar a diferentes metodologas,
que no son ms que adaptaciones de lo general a las necesidades especficas del planteamiento
y la forma de nuestra pregunta de investigacin, as se ha establecido la Metodologa
cuantitativa y la cualitativa, bien entendido que esta clasificacin es a tenor de los fines
perseguido y ello no quiere decir que la metodologa cualitativa no emplee tcnicas de recogida
de informacin ( por ejemplo, grabacin en video, registro de manifestaciones externas de
comportamientos, etc.,) y en algunas ocasiones resmenes numricos, ndices, etc..

Hemos visto, a travs de un ejemplo, como es el proceso completo de una investigacin.

2.- LOS DISEOS DE INVESTIGACIN


2.1 Introduccin
2.2 Conceptos Bsicos
2.3 Diseos Experimentales
2.4 Diseos Intermedios
2.5 Diseos No experimentales.

2.- PLAN DE INVESTIGACIN


2.1 INTRODUCCIN
Entendemos por Plan de Investigacin como un plan de accin que el investigador define y ejecuta
para llevar a buen trmino su trabajo y obtener las respuestas que ha postulado como soluciones al
problema que ha motivado su trabajo. Como ya hemos visto los elementos que debe contemplar en las
fases secuenciales que contempla la aplicacin del Mtodo Cientfico (ver Figura 4), vamos ahora a
definir los elementos claves del diseo que de forma concreta caen dentro de los que se define como
Diseo y como ste queda determinado por las decisiones concretas que definen cada apartado.
Planteamiento del problema: Debe expresarse en forma de relacin entre constructos (variables).
Debe ser claro y enunciarse sin ambigedades; Su planteamiento debe hacer posible la investigacin. Si
las relaciones que se enuncian son de tipo causal y segn sea la asignacin de los sujetos a los grupos
de estudio y el control sobre las variables extraas estaremos ante un diseo experimental o cuasiexperimental. Si las relaciones propuestas son de dependencia y covariacin con poco control o con
control estadstico, estaremos ante un diseo correlacional.
Formulacin de Hiptesis: Una hiptesis es una afirmacin en forma de conjetura de las
relaciones entre dos a ms variables (Kerlinger, 1987) y se corresponde con la operacionalizacin de
las variables. Incluye la definicin de variables en relacin a estatus dentro de la investigacin:
Dependientes, independientes (manipuladas) y controladas (en al caso de los diseos experimentales y
cuasi- experimentales) y endgenas (explicada) y exgena (explicativa) en el caso de los estudios
correlacinales. Evidentemente esta cuestin est directamente relacionada con la anterior y nos
permite determinar si estamos ante un estudio de carcter exploratorio, experimental (incluyendo en
estos los estudios cuasi-experimentales) o relacionar.
Recogida de la informacin pertinente: Incluye: la definicin de los instrumentos de medida a
utilizar; la definicin y seleccin de la muestra; la medicin (aplicacin de los instrumentos de medida
para obtener los valores numricos de las variables implicadas en el estudio en los sujetos implicados).
De los tres aspectos el instrumental viene determinado el tipo de variables de inters.
En
el relativo a la seleccin de sujetos es el que presenta mayores problemas. Aunque
tericamente la seleccin de los sujetos se realiza por muestreo aleatorio (ya que es este muestreo el que
garantiza la generalizacin de los resultados) no siempre es posible por diversos problemas
(econmico; disponibilidad, etc.) por lo que, en muchas ocasiones se emplea otro tipo de muestro (en
muchas ocasiones el incidental). En general la muestra debe ser representativa de la poblacin lo que
implica determinar su tamao garantizando su suficiencia y los procedimientos de seleccin (cuestiones
que se estudian en el muestreo). Algunos autores recomiendan dos criterios para tomar las decisiones
sobre el tamao muestral: Criterio cualitativo: basado en el conocimientos obtenido de la literatura al
caso, segn la distribucin de la poblacin, y segn el nmero de grupos que comparemos (si es el caso
y que se suele presentar en el caso de los Diseos Experimentales en los que se recomienda como
mnimo 12 sujetos por grupo), adems se debe tener en cuenta el tamao de efecto buscado o supuesto
y la potencia de la prueba estadstica que se utilice). El criterio cuantitativo se basa en los aspectos
relativos a error mximo admisible en la estimacin de los valores poblacionales y los lmites fijados
para la estimacin de ese valor.
Anlisis de datos y confrontacin con las hiptesis propuestas: Mediante la tcnicas estadsticas
al caso que siempre debern elegirse en virtud del tipo de datos (cuantitativos, cuasi- cuantitativos,
cualitativos), cumplimiento de los supuestos matemticos que subyacen a las pruebas estadsticas y la
potencia de la prueba emplead (capacidad de rechazo de la hiptesis nula que cuando es verdadera. Es
un valor probabilstico que debe ser pequeo).
Conclusiones y generalizacin de los resultados: Se trata de, sobre la base de los resultados

obtenidos hacer un proceso inductivo hacia la integracin los planteamientos tericos de que hemos
partido. La generalizacin hace referencia a la validez externa es decir cuando podemos trasladar los
resultados a otras situaciones, sujetos o constructos.
Elaboracin del informe: Es la forma de comunicar nuestros resultados. En l se deben hacer
constar todos y cada uno los pasos que hemos ido dando a lo largo de la investigacin. Hay diversas
formas de organizar un informe, algunas de ellas (las ms comunes), en el mbito acadmico, se
muestran en la tabla 4.

Sistema
IMRYD

Esquema 1

- Int Introduccin
Mm Metodologa
- Re Resultados
Discusin

- Introduccin
- Material y mtodos
- Resultados
- Discusin

Esquema 2
- Resumen (Abstract): resume el
contenido del artculo.
- Introduccin: informa el propsito y la importancia del
trabajo.
- Materiales y mtodos: explica cmo
se hizo la investigacin.
- Resultados: presenta los anlisis.
- Discusin: explica los resultados y
los compara con el conocimiento
previo del tema.
-Bibliografa : enumera las referencias
citadas en el texto.
Tabla 4: Organizacin del Informe

En el caso de un informe empresarial la estructura se suele dividir en tres partes:

La introduccin: responde a las preguntas: para qu? por qu? y con qu?
El desarrollo: presenta los procedimientos o metodologa utilizada para recopilar la
informacin, responde a la pregunta cmo?
La conclusin: es donde se presentan los resultados obtenidos, responde a la pregunta qu se
encontr? y qu debe hacerse?

2.2 CONCEPTOS BSICOS


Variables.
Una variable es cualquier caracterstica que posee al menos dos valores observables,
como por ejemplo. Las propiedades de los objetos y su relacin con otros son en la mayora de las
ocasiones variables. Existen diferentes tipos de variables en la investigacin . Las variables que
explican el fenmeno que forman parte del ncleo de la hiptesis son la variable
independiente y la dependiente y las variables extraas.
Variable Independiente: es cualquier hecho que se supone como relacionado (no
necesariamente de forma causal) de otro y que interesa investigar.
Variable Dependiente: la medida utilizada para determinar los posibles efectos de la
independiente. Resulta importante considerar su validez, fiabilidad y sensibilidad como garanta
de una buena mediad base del proceso de investigacin.

Vlida significa que mide lo que pretende medir.

Fiable significa que medimos sin error.


Sensible significa que detecta los cambios, si est relacionada con la variable
independiente, que se produzcan en sta.

Como sabemos, la realidad no es sencilla, es ms bien compleja pues una variable no


se relaciona nicamente con otra sino que lo normal es que existan mltiples relaciones
entrecruzadas y que se afectan unas a otras. Estas variables pueden estar afectando a la
variable dependiente pero que no calculamos su efecto.
Control
La investigacin en general y en la experimental en particular, el conocimiento y control (en su caso) de las
variables no contempladas como definitorias del proceso en estudio es una cuestin realmente relevante
y a tener presente ya que pueden competir como variables. En la metodologa experimental este
control es crucial y de hecho es una caracterstica definitoria de este tipo de investigacin existiendo un
amplio grupo de tcnicas de control. En diseos no experimentales se puede optar por controle
estadstico o por anlisis previos para determinar su estatus (por ejemplo cuando se emplean tcnicas de
regresin en el anlisis).

Bsicamente, en el caso de los diseos experimentales en los que dado a u finalidad de


establecer causalidad el control es determinante, el control de las variables extraas se
puede realizar de manera directa por el investigador sea eliminando o manteniendo
constantes algunas condiciones en los grupos-, o de modo indirecto a travs de la aleatorizacin.
Si no es posible, debe mantener similares las condiciones en los grupos de estudio, asegurando
que las condiciones sean constantes. Si alguna caracterstica de los sujetos que participan en el
estudio puede ser fuente de una variable extraa, es importante conseguir que los grupos
tengan caractersticas similares, o bien, que en los grupos haya sujetos de las mismas
caractersticas (constancia), o bien que en ninguno de los grupos haya sujetos con esas
caractersticas (eliminacin).
Pero existen muchas otras variables extraas propias de las caractersticas individuales
de los sujetos y que probablemente no consigamos eliminar o mantener constantes. Para ello
utilizamos el azar para constituir la homogeneidad de los grupos. Lo que no podemos
eliminar o dejar constante en los grupos, suponemos que el azar cumplir su misin de formar
los grupos equivalentes.
2.3 TIPOS DE DISEOS EXPERIMENTALES.
Las metodologas sean experimentales o cuasi-experimentales utilizan diferentes
planes de accin, los pasos que sigue este plan para llevar a cabo la investigacin definen lo
que se denomina diseo de investigacin. Existen muy variadas estrategias de investigacin,
los diseos pueden irse complejizando dependiendo de los propsitos del investigador, y del
tipo de problema que se est tratando. Sin embargo, bsicamente la metodologa
experimental busca explicaciones causales, y un control riguroso de las variables extraas,
ello conlleva a diversas estructuras de investigacin.
2.3.1 Diseos experimentales:
Pueden clasificarse atendiendo a diferentes criterios. Si se consideran el nmero de
variables independientes se pueden distinguir entre los diseos unifactoriales (una sola
variable independiente) de los diseos factoriales (ms de una variable independiente); si

consideramos el nmero de variables dependientes se pueden clasificar entre los diseos


univariados (una variable dependiente) o multivariados (varias variables dependientes).
Segn el tipo de control de las variables extraas: diseos aleatorios (se consigue la
homogeneidad a travs del azar), diseos de bloques (utiliza la constancia como control);
diseos intra sujetos o de medidas repetidas (el sujeto como propio control).
2.3.2 Diseo cuasi-experimental.
En el epgrafe anterior avanzbamos que los objetivos de la investigacin cuasi-experimental
y experimental es la bsqueda de relaciones causales entre las variables de un fenmeno. La
diferencia entre ambas est en relacin con uno de los controles que resultan bsicos en los diseos
experimentales, el uso de la aleatorizacin para la constitucin de la muestra. En la investigacin
cuasi- experimental los grupos que se comparan no se constituyen como fruto de la asignacin del
azar sino que estos grupos se han formado por criterios que caen fuera del control del
experimentador. Imaginemos un caso extremo para comprender esta cuestin: se pretende realizar
una investigacin sobre las estrategias de relacin interpersonal en la productividad laboral con los
empleados en una empresa que tiene grupos formados. La caracterstica bsica que ha formado los
grupos y que los diferencia entre s es su grado de pericia en su rea de trabajo. Es decir dentro de
cada departamento tiene grupos expertos y novatos. Pues bien, es posible que, si el objetivo de
su investigacin es conocer si las estrategias interpersonales producen mejor rendimiento laboral y
no puede asignar aleatoriamente los sujetos a los tratamientos, esta variable de seleccin podra
competir como variable explicativa con sus resultados, pero como la institucin no le permite
desordenar los grupos usted tiene que trabajar con los grupos tal como estn formados. La
investigacin experimental precisamente lo que hace es utilizar estrategias de control ante esta
dificultad de seleccin de la muestra.
La investigacin cuasi-experimental utiliza un grupo experimental y otro que denomina
grupo de control no equivalente. Al grupo experimental es aquel en el que se introduce el
tratamiento o la variable independiente, mientras que los grupos control no equivalentes son
aquellos que no tienen tratamiento (o el valor de la variable independiente es cero). La
denominacin no equivalente hace referencia precisamente a que no esta garantizada la igualdad de
los grupos.
Cuando se ejecutan dos medidas de la variable dependiente una antes del tratamiento y otra
despus se les denominan pretest, y postest respectivamente. Esta forma de proceder implica que
estamos ejerciendo un control que, junto con la equivalencia de grupos asegura la validez de la
investigacin (aunque siempre es menor que la de un diseo experimental).
Un caso particular de los diseos cuasi-experimentales son los diseos de discontinuidad en la
regresin, se caracterizan porque en este caso el investigador es el que asigna los grupos a las
condiciones control y experimental pero no lo hace de forma aleatoria, sino que utiliza una medida de
la variable dependiente obtenida mediante un pretest a una muestra de sujetos. La regla que asigna los
sujetos a los grupos control y experimental est marcada por un punto de corte en las puntuaciones
obtenidas en el pretest. Esta medida pretest adems tiene otra caracterstica importante en trminos
estadsticos, es una variable (X) que mantiene una relacin lineal con otra variable (Y). Al mantener una
relacin lineal los valores de sta ltima variable (Y) pueden ser predecibles, se pueden pronosticar.
El diseo se llama de discontinuidad en la regresin porque pretende que la variable independiente que
produce esta relacin lineal se rompa. Su denominacin est basada en el anlisis estadstico que
utiliza para realizar sus anlisis. Pero si nos damos cuenta, el diseo se planifica del siguiente modo:
A partir de las puntuaciones obtenidas en el pretest, se identifica el punto de corte de las
puntuaciones de esta medida es decir, qu grupo compone el grupo experimental y qu grupo formar el
grupo control. Introduce el tratamiento slo en el grupo experimental y despus obtiene las medidas
pretest en los dos grupos.

2.4 DISEOS INTERMEDIOS


2.4.1 Diseos Ex post facto.
Hasta ahora la investigacin experimental y la cuasi-experimental tenan como caracterstica
comn estudiar las relaciones causales entre variables, independiente y dependiente. La diferencia entre
ambas se sita en torno a la asignacin aleatoria de los sujetos a las condiciones experimentales. Las dos
estrategias de investigacin coincidan en el hecho de que para asegurar la existencia de relaciones
causales, la variable independiente anteceda a la variable dependiente. Sin embargo, existen fenmenos a
los cuales necesitamos darle una explicacin, pero ocurre que la variable independiente y la dependiente
ya se han producido. O la naturaleza de la variable independiente cae fuera de nuestro control. Los
diseos Ex post facto se denominan as porque estudiamos las variables una vez ocurrido el fenmeno, o
por la imposibilidad de manipular la variable independiente.
Supongamos que est interesado en conocer qu factores producen ciertos fenmenos por
ejemplo, la anorexia, los suicidios, los accidentes de trfico, el absentismo laboral, etc.
Experimentalmente no sera tico manipular los factores que lleven a las personas a la anorexia, los
suicidios, o provocar cualquier tipo de patologa o acontecimiento para determinar los factores que la
producen. Sera un absoluto desatino realizar este tipo de investigaciones. sta, sin embargo, no es una
razn para no estudiar estos fenmenos y aproximarnos a determinar la naturaleza del fenmeno. Los
diseos ex post facto utilizan otras reglas para estudiar estos fenmenos, el objetivo es buscar indicios
que permitan hacer inferencias razonables acerca de cules son las posibles causas de estos fenmenos.
Decimos inferencias razonables y no relaciones causales porque este tipo de estudios a todo lo ms que
llegan es a establecer relaciones entre los fenmenos, es decir, en qu grado co-vara un fenmeno con
otro. Recordemos que uno de los principios para el establecimiento de las relaciones causales es la covariacin. Pero tienen que cumplirse los otros dos para establecer las relaciones causales, la precedencia
temporal de la variable independiente y descartar otras posibles explicaciones. Los diseos ex post facto
tienen esta debilidad, no cumplen con estos dos ltimos requisitos para determinar qu produce un
fenmeno. Sin embargo, ante su debilidad tienen la nobleza de acotar las relaciones entre ciertos
fenmenos, es decir nos permiten saber qu fenmeno se relaciona con qu otro, e ir desbrozando el
rea de estudio, que en principio, no es del todo conocida.
Existen dos grandes categoras de diseos ex post facto, una de la que ya hemos atisbado su
caracterstica, cuando la variable independiente tanto como la dependiente han ocurrido, y que se
denominan retrospectivos, y otra, cuando la variable independiente no puede ser manipulada por
ejemplo, la edad, el gnero, la cultura, etc.; pero que pueden ser estudiadas para determinar en qu
medida influyen estas variables en la aparicin de la variable dependiente, a estos diseos se les
denomina prospectivos.
Para algunos autores se pueden considerar como Diseos correlacionales/causales: ya que las
causas y efectos ya ocurrieron en la realidad (estaban dados y manifestados) y el investigador los
observa y reporta.
2.4.1.1 Diseos retrospectivos.
Los diseos retrospectivos los podemos definir como aquellos en los que una vez medida la
variable dependiente, buscamos hacia atrs los indicios qu nos permitan determinar con qu otros
fenmenos correlacionan. Pero esta bsqueda de indicios requiere como cualquier investigacin una
teora para buscar de manera apropiada las posibles fuentes que producen el fenmeno. Si queremos
investigar sobre la anorexia y buscamos la correlacin entre la anorexia y el color de ojos
probablemente se halle alguna correlacin entre las variables, pero como la covariacin en s no
significa causa, nos veramos en serios problemas al tratar de fundamentar esta asociacin entre las
variables. As, tambin tendramos una correlacin entre anorexia y cada de pelo, pero no seramos
sensatos al pensar que la cada del pelo es la causa de la anorexia. En definitiva, detrs de cualquier
bsqueda de posibles covariaciones entre los fenmenos debemos tener un sustento terico. Es decir
tenemos que tener hiptesis plausibles que traten de explicar la correlacin.

El diseo retrospectivo ms simple consiste en que, una vez detectados los casos que cumplan
con la variable dependiente. Lo que tratamos de buscar son posibles variables independientes, que
coincidan entre los sujetos del estudio. En el caso de la anorexia, podemos indagar su relacin con
hbitos alimenticios, estructura de las relaciones familiares, ajuste de la imagen corporal, etc. Buscamos
la regularidad de aparicin de las variables independientes. Aquellas que coincidan en todos los sujetos
y las cuales tienen ms posibilidades de ser indicativas de una correlacin entre la variable dependiente y
la independiente. Supongamos que en nuestros casos encontramos que todos tienen una desajustada
imagen corporal, se encuentra una estrecha asociacin. Sin embargo, como covariacin es distinta de
causa podemos encontrar que las variables independientes coincidentes con la dependiente, en realidad
sean slo indicios que enmascaran los verdaderos factores que determinen la dependiente. Es decir,
supongamos que todas las personas con anorexia en nuestro estudio tienen una imagen corporal
desajustada sus creencias sobre sus medidas corporales y las medidas de peso y talla objetivas no
coinciden-; es posible que esta variable independiente est influida por otra variable independiente que
est enmascarada, por ejemplo, con las relaciones afectivas estn mediadas por la imagen corporal. El
peso especfico que tiene la imagen corporal estara mediada por las relaciones afectivas que en un
diseo retrospectivo simple no podramos descubrir.
Otro escollo al que se enfrentan los diseos retrospectivos simples es que no garantizan que la
variable independiente antecede a la dependiente. En el ejemplo que estamos tratando no podemos
asegurar que las relaciones afectivas estn deterioradas antes de la aparicin de la enfermedad o son su
resultado.

u
u

Figura. 4. Diagrama del diseo retrospectivo simple.

Otro diseo retrospectivo muy parecido al simple es el Diseo retrospectivo de grupo nico.
Pretende buscar correlaciones entre los valores de la variable dependiente y los valores de la variable
independiente. Esto supone como estrategia del diseo, un gran nmero de sujetos, una amplia muestra
en los que se den cabida no slo a aquellos sujetos cuyo diagnstico este definido, por ejemplo en el
caso que vemos de la anorexia, sino que estn incluidos aquellos casos que caen dentro de este perfil
pero que an no han desarrollado la enfermedad o que estn en un estado incipiente de la misma,
esto es, ante diferentes valores de la variable dependiente, buscamos las variables independientes
que son caractersticas de los sujetos pero con diferentes valores. En cualquier caso, los diseos de
grupo nico al igual que los retrospectivos simples, no aseguran que la variable independiente que
covara con la dependiente se haya producido antes que esta.

2.4.1.2 Diseos prospectivos.


Los diseos prospectivos pretenden asegurar que la variable independiente anteceda a la
dependiente, y a partir de ah buscar la covariacin con la dependiente. Existen ciertas variables que son
buenas candidatas para que determinen la aparicin de la variable dependiente. Tales variables
independientes han ocurrido por esto se denominan ex post facto-, estn presentes en el sujeto, pero
no se producen an las variables dependientes, lo que el investigador detecta es la ausencia o presencia
de la variable independiente y espera determinar si se produce la dependiente. Veamos la siguiente
situacin. Se pretende saber si el uso de la escritura cifrada en los mensajes a travs del telfono mvil
influye negativamente en la capacidad de expresin escrita en los jvenes. Para ello selecciona a los
sujetos que tienen mvil y realizan 10 o ms mensajes diarios escritos de esta forma, y los compara con
sujetos que no tienen mvil y que por tanto no utilizan este tipo de escritura para comunicarse. Para
evaluar la expresin escrita, usted les propone la siguiente tarea, les da a conocer un suceso y tienen que
informar a un amigo de dicho suceso. Al finalizar compara la expresin escrita de ambos grupos.
La diferencia entre un diseo de estas caractersticas y un diseo de comparacin de grupos, sea
experimental o cuasi-experimental, es que en este diseo la variable independiente que es escribir con
frecuencia de modo cifrado a travs del mvil, no ha sido manipulada por el experimentador, sino que
ha sido seleccionada para determinar si esta variable determina la expresin escrita. En definitiva, los
diseos ex post facto prospectivos, seleccionan a los sujetos por la variable independiente que es
relevante para el estudio.
Existen diferentes tipos de diseos prospectivos, atendiendo al criterio de nmero de variables
independientes: estn los simples, los complejos (o factoriales) y de grupo nico. El ejemplo anterior es
un diseo simple. Una de las debilidades del diseo es que no puede ser generalizable por dos razones,
una por el tamao de la muestra y otra porque existen otras variables que, posiblemente estn
afectando a la dependiente, y no pueden ser descubiertas considerando sta nica variable
independiente. Sin embargo, el diseo prospectivo complejo o factorial sera aquel que aadiera una
nueva variable independiente, para estudiar el efecto que produce otra variable independiente que
pudiera estar afectando a la dependiente. Siguiendo con el ejemplo anterior, si se sospecha que habra
otra variable que afecta a la expresin escrita como los hbitos de lectura de los jvenes. Tendra un
diseo 2 x 2, igual que un diseo factorial pero sus variables siguen siendo de seleccin de valores, es
decir, son variables que no son manipuladas por el experimentador, sino seleccionadas, en este caso se
tendra que buscar una muestra con los criterios.
Escritura de mensajes hbitos de lectura
Escritura de mensajes no hbitos de lectura
No escritura de mensajes hbitos de lectura No escritura de mensajes no hbitos de
lectura.
El anlisis de este tipo de diseos es muy laboriosa.
En los diseos prospectivos de grupo nico tambin se estudian diferentes variables
independientes, pero a diferencia del complejo que trata de seleccionar a sujetos que cumplan con
el requisito de tener dos valores o ms de las dos variables independientes, la estrategia es
parecida al retrospectivo de grupo nico, se seleccionan a los sujetos con todos los posibles valores
de diferentes variables independientes, es decir, no slo considera a aquellos sujetos que escriben
cifradamente 10 mensajes diarios, trata de representar un grupo amplio de sujetos que utilizan con
distinta frecuencia este tipo de escritura. Asimismo, evala otras posibles variables que pueden
ser relevantes en la expresin escrita, como los hbitos de lectura, tambin con diferentes niveles en
esta variable, y otras que sean relevantes para la variable dependiente. El requisito de un diseo de
estas caractersticas, al igual que el retrospectivo de grupo nico, necesita una muestra amplia de
sujetos en las que estn representadas todos los niveles de las variables independientes que son
relevantes para la dependiente. Una vez hecha la seleccin de la muestra, la idea es analizar la
correlacin existente entre la variable dependiente y los diferentes niveles de las variables
independientes. De este diseo se obtiene una prediccin entre los niveles de las variables

independientes con la dependiente. Podra predecir qu variables independientes predicen mejor la


merma en la capacidad de expresin escrita.
Aunque estos diseos prospectivos aseguran la antecesin de la variable independiente y
establecen si existe covaracin con la dependiente, pueden verse limitados para garantizar una
explicacin causal del fenmeno de estudio. Pueden existir una serie de sesgos que no son advertidos
por el investigador cuando selecciona la muestra, y que afectan tambin a la variable dependiente, en
el caso que nos ocupa, por ejemplo la expresin escrita puede verse negativamente influida no slo
por el hecho del uso de la escritura cifrada, como por ejemplo el hecho de utilizar una muestra que
habitualmente no utiliza la escritura para comunicarse, sino que son grupos que utilizan otro tipo
de medios de comunicacin (orales o grficos) que no requieren este medio de comunicacin.
2.4.1.3 Diseo de casos-control
Tambin llamado diseo retrospectivo de comparacin de grupos, Se trata de comparar el
grupo que cumple con la variable dependiente, con otro grupo que comparte ciertas
caractersticas del grupo anterior, las variables independientes, pero no la variable dependiente. El
primer grupo se le denomina el de los casos y el segundo el de los controles. El uso de un grupo
de control implica encontrar un grupo que tenga los mismos valores de las variables
independientes, y compararlos entre s. Al comparar a ambos grupos es posible descartar relaciones
de variables independientes no relevantes para la aparicin de la variable dependiente. O
viceversa considerar variables independientes que se habran descartado previamente como posibles
fuentes que determinen la aparicin del fenmeno. Supongamos, en el ejemplo visto anteriormente
de la anorexia que el grupo de control tiene al igual que el grupo de casos desajuste de imagen
corporal. Esta variable independiente podra descartarse como factor determinante en la
aparicin de la anorexia. O en su caso, podra ser considerada como una condicin necesaria pero no
suficiente en la aparicin del fenmeno.
2.5 DISEO NO EXPERIMENTALES: ENCUESTA Y OBSERVACIN
2.5.1 Diseos de Encuesta: La definicin del diseo de encuesta no es nica, en diversos
manuales encontramos diferentes maneras de concebirla. En primer lugar hacemos una distincin entre
metodologa de investigacin de encuestas, de la encuesta como instrumento.
La metodologa de la investigacin mediante encuestas supone una serie de procesos dirigidos a
la obtencin de informacin, la cual es proporcionada por un grupo de sujetos y que no puede
obtenerse por medios directos por parte del investigador, ya que tal informacin tiene un carcter
subjetivo, o bien, porque otros medios para obtenerla pueden resultar costosos (i.e. mediante
observacin directa). La informacin se suele obtener mediante un conjunto de preguntas que trata de
obtener la informacin que desea el investigador, cuya finalidad puede ser describir las caractersticas de
los sujetos, o establecer las relaciones entre sus caractersticas.
La metodologa en trminos generales supone, como ya hemos comentado, una serie de
acciones y decisiones que el investigador ha de considerar para alcanzar su objetivo que es conocer
un fenmeno. Realizar una investigacin mediante encuesta tambin supone esta serie de pasos o
acciones, por ejemplo, definir el objetivo de la encuesta, determinar la informacin que va a obtener, el
diseo de la misma, planificar la encuesta, incluso los aspectos tcnicos, como la redaccin de las
preguntas, codificacin, anlisis estadsticos, presentacin de resultados, etc. Es necesario que
distingamos entre la encuesta como un instrumento de obtencin de informacin, de la metodologa
de la encuesta, que abarca todo el proceso propio de la metodologa descrito anteriormente. As la
encuesta entendida como instrumento contiene ese conjunto de preguntas con el que se pretende
obtener la informacin, la elaboracin de este instrumento implica tambin una serie de acciones para
su elaboracin, recogida y tratamiento.

La informacin la obtenemos de la poblacin, bien sea entendida como personas individuales, o


bien como entidades ms amplias (i.e. para conocer datos sobre un centro de salud, no nos interesa una
persona en concreto para que proporcione la informacin, bien puede ser un equipo de trabajo del
mismo o cualquier miembro de su equipo directivo).
La metodologa de encuesta resulta adecuada para conocer las caractersticas de una poblacin y
las relaciones entre estas caractersticas. Una de las especificidades de la encuesta es su capacidad para
generalizar los resultados a una poblacin a partir de una muestra de la misma, sta propiedad de la
metodologa de encuestas hace viable el estudio de ciertas propiedades de la poblacin que no son
directamente observables, asimismo cuando por razones ticas o prcticas no es posible asignar a los
sujetos a las condiciones experimentales, la metodologa de encuesta permite conocer un determinado
fenmeno al considerar a aquellos sujetos que de manera habitual pertenecen a un grupo especfico de
la poblacin. Pongamos el siguiente ejemplo: suponga que est interesado en conocer si los apoyos que
ofrecen los servicios asistenciales de las comunidades autnomas aminoran el estado de tensin que
provoca en la familia el cuidado de enfermos de larga duracin. Hay familias que obtienen ayudas,
mientras que hay otras que por desconocimiento o por otras razones no reciben estas ayudas. La
realidad misma le ha puesto dos valores de la variable de estudio: Familias con asistencia social,
Familias sin asistencia social, y aunque esto no implica que manipule la variable independiente, lo que
si puede es analizar cmo esta caracterstica correlaciona en el estado de tensin que sufre la familia
cuidadora de un enfermo de larga duracin.
Ciertamente, si recuerda lo tratado en los diseos ex post facto, esto es algo as como un estudio
en el que estudiamos correlaciones, es decir analizamos el grado de tensin familiar en relacin con la
variable asistencia o no-asistencia social. Que como hemos visto estos diseos de investigacin tienen
grandes problemas de control y de seleccin. Resulta claro que la metodologa de encuestas no
establece relaciones causales como la metodologa experimental o cuasi-experimental.
El diseo de investigacin (en este caso) puede ser transversales y longitudinales. El criterio de
del diseo es la estructura temporal y poblacional.
2.5.1.1 Diseos transversales: se caracterizan porque recogen la informacin en un nico
momento en una poblacin definida. Sus resultados son generalizables a este momento y a esta
poblacin. Dada esta caracterstica de las encuestas transversales su uso es apropiado en el
estudio de caractersticas que son estables en el tiempo. Los diseos transversales pueden tener
propsitos descriptivos o explicativos.
Dentro del rea de la salud, los diseos transversales estn fuertemente asociados al estudio de
la prevalencia (nmero de personas que estn afectadas por un trastorno o enfermedad) y a la
incidencia (nmero de casos nuevos de esta enfermedad, en un poblacin y en un perodo de tiempo
determinado). Estos estudios llamados epidemiolgicos, en unos casos con finalidad descriptiva,
determinan la frecuencia de personas que sufren una determinada enfermedad, y en otros, en trminos
analticos, las diferencias que presenta el fenmeno en los diferentes subgrupos de poblacin y as
determinar factores potenciales de riesgo.
2.5.1.2 Diseos longitudinales analizan los procesos de cambio y desarrollo, siendo el paso
del tiempo el factor fundamental en dicho proceso, la obtencin de estos datos se realiza mediante la
observacin repetida de las mismas entidades a lo largo del tiempo. Por tanto, los diseos
longitudinales tienen como caracterstica especfica la recogida de datos en dos o ms momentos
temporales. Los objetivos de las encuestas longitudinales pueden dividirse bsicamente en dos: medir el
cambio producido en los sujetos de la muestra de modo individual a lo largo del tiempo (cambio bruto),
o medirlo en el mismo tipo de poblacin a largo de tiempo (cambio neto). El primero objetivo puede
ser estudiado a travs de las llamadas encuestas de panel, mientras que el segundo objetivo se ajusta ms
a las encuestas de diseo de series temporales.

Los diseos de panel evalan los cambios midiendo a los mismos sujetos en diferentes
momentos, a lo largo del tiempo. Este diseo implica la seleccin de la muestra, toma de datos inicial y
subsiguientes toma de datos de la misma muestra. Si lo que se pretende estudiar es el desarrollo
individual de una poblacin con determinadas caractersticas, este es el diseo adecuado. Las ventajas
que tiene es que permite anlisis causales de modo ms apropiado que otras encuestas, debido a que
permiten el estudio de la secuencia temporal en que se producen los cambios de los individuos
pertenecientes a dicha poblacin. Su objetivo puede ser apropiado a objetivos analticos. Este tipo de
diseos controla los efectos de maduracin y de cohorte. El principal inconveniente es que los sujetos
que estn incluidos en la muestra, conscientes de que son evaluados y pertenecen a un estudio pueden
modificar las respuestas observadas, es decir puede existir un condicionamiento de la muestra. Otra
dificultad que entraa este tipo de diseos es la mortandad experimental, debido a que la muestra puede
variar en trminos de caractersticas poblacionales, o bien puede perderse contacto con los sujetos a lo
largo de tiempo por diferentes motivos.
Los diseos de series temporales, o tambin llamados de tendencias, tienen una estructura
poblacional distinta, son algo as como encuestas transversales repetidas en distintos momentos
temporales pero con muestras de sujetos equivalentes, extrados de la poblacin bajo estudio, aunque
con sujetos distintos. Este tipo de diseos necesariamente tiene que realizar el procedimiento de
muestro cada vez que se recogen los datos. El uso de este tipo de encuestas permite analizar una
caracterstica especfica de la poblacin, valorar el efecto de un programa de intervencin o tratamiento,
o los cambios que se producen en una poblacin bajo un determinado sistema. De igual modo se
pueden estudiar relaciones entre variables, si la relacin entre dos o ms variables se mantiene constante
o vara con el paso del tiempo. Este tipo de encuestas distintas a las de panel no plantean problemas de
seguimiento, pero si pueden estar afectadas por cambios generacionales que afecten a las variables de
estudio.
Los diseos de cohorte estudian en diversos momentos temporales a un conjunto de individuos
de la misma poblacin, aunque las muestras escogidas para cada toma de datos pueden ser diferentes.
Cmo hemos mencionado en el captulo anterior, la cohorte es un grupo de la poblacin que tiene
un rasgo caracterstico que la distingue del resto, puede ser que durante su infancia se estableci
un programa de alimentacin escolar, la generalizacin del uso de los anticonceptivos con una
sustancia especfica, la introduccin del telfono en los hogares, etc. Los estudios de cohorte
estudian el efecto de una variable en una poblacin que se caracteriza por un determinado rasgo. Se
evala a los sujetos que se identifican con este rasgo con una edad determinada y se les evala a lo largo
del tiempo.
2.5.2 Diseos de Observacionales
La observacin se basa en la capacidad de percepcin y de decisin del ser humano. Con qu
objetivo se apliquen estas capacidades y sobre todo cmo se apliquen nos va a permitir
diferenciar la observacin ordinaria, que todos utilizamos de forma cotidiana, de la observacin
cientfica. La observacin ordinaria es til para la vida y constituye una importante fuente de
informacin que nos ayuda a aprender, a anticipar situaciones, a planificarnos, y en buena medida a
dar sentido a lo que ocurre a nuestro alrededor. Pero la observacin cientfica debe ser capaz de
proporcionar conocimiento cientfico, esto es, conocimiento objetivo, replicable, fiable y vlido
para responder a la pregunta planteada o dar solucin al problema de investigacin elegido.
La metodologa observacional es una alternativa metodolgica que tienen como objeto de
estudio aquellos sucesos y sus consecuencias que se generan de manera espontnea en sus contextos
naturales de aparicin y en las situaciones de interaccin.
Si bien hay estudios observacionales de gran complejidad, tambin es cierto que la metodologa
observacional puede ser muy til para alcanzar objetivos sencillos. Las reglas bsicas para ser
aplicada con rigor y obtener datos vlidos y fiables son claras e intuitivas, lo que facilita la

colaboracin estrecha en la recogida de datos de todas las personas implicadas en el proceso. Las
posibilidades de graduacin de la complejidad de un estudio observacional en todas sus facetas
(sistema de categoras, muestreo, sistemas de registro, anlisis de datos) permite aplicar la
metodologa observacional tanto para dar respuesta a preguntas sencillas
muy concretas, pero que necesitan de respuesta rpida como es propio en muchas ocasiones de los
entornos aplicados, como para plantear estudios de gran envergadura que nos permitan comprender
fenmenos complejos.
Podemos entender la observacin como una forma de captar la realidad, que puede ser
aplicada con rigor y sistematicidad, y que posibilita la recogida de informacin relevante en un
estudio cientfico.

Podemos entender la observacin como definitoria de un mtodo concreto - como una forma de
aproximacin cientfica a un problema - que tiene una caracterstica fundamental que lo define y
un mbito de aplicacin idneo y que exige cierta coherencia en las decisiones de planificacin y
procedimiento, entre s y con los objetivos del estudio. En este sentido se habla tambin de mtodo
observacional. As como el mtodo experimental se caracteriza por la intervencin directa del
investigador a travs de la manipulacin y el control de las variables, con el objetivo de poder
establecer relaciones causa-efecto entre las variables en la explicacin de un fenmeno, el mtodo
observacional se caracteriza por la no intervencin del investigador en el fenmeno de estudio y
la no restriccin de las respuestas de los sujetos a travs de las tareas o los instrumentos de
evaluacin porque el objetivo, en este caso, es el estudio de la conducta generada espontneamente.
Anguera (1988) propone en su definicin de metodologa observacional:
...definimos la metodologa observacional como un procedimiento encaminado a articular una
percepcin deliberada de la realidad manifiesta con su adecuada interpretacin, captando su
significado, de forma que mediante un registro objetivo, sistemtico y especfico de la
conducta generada espontneamente en un determinado contexto y una vez que se ha
sometido a una adecuada codificacin y anlisis, nos proporcione resultados vlidos dentro de
un marco especfico de conocimiento.
En esa definicin se recogen los criterios que son necesarios para poder considerar a la
observacin como mtodo cientfico, como un procedimiento sistemtico que:
1. Permite la comprobacin de hiptesis.
2. Garantiza la replicabilidad de sus resultados al utilizar procedimientos objetivos,
vlidos y fiables.
3. Contribuye al desarrollo terico al proporcionar resultados vlidos en marcos
especficos de conocimiento.
Una investigacin observacional parte del mismo punto que cualquier otra, se
comienza por el planteamiento del problema (que es el que, en buena medida, por sus
caractersticas y las de las variables implicadas determina la eleccin de esta metodologa) para
recorrer todas las etapas: formulacin de la hiptesis (o las hiptesis), definicin operativa de las
variables, eleccin de los instrumentos de medida y evaluacin de su calidad mtrica, seleccin de
la muestra de sujetos, recogida de datos, anlisis de datos e interpretacin de los resultados.
Algunas de las decisiones bsicas a tomar al plantearse una investigacin observacional, en
cierta forma, son especficas o particulares de este tipo de metodologa (vase figura 5). Estas
decisiones afectan a aspectos tan esenciales como qu observar, cuestin que resolvemos a travs de
la eleccin, adaptacin o creacin del sistema de categoras; a cuestiones de muestreo, que en
esta metodologa no slo se refieren a quin observar sino a cunto tiempo, dnde y cundo
observar; a cmo observar que se concreta en la forma de recoger la informacin y el tipo de
registro y codificacin que vamos a realizar; a la evaluacin de la calidad mtrica de los datos que se

basa esencialmente en la aplicacin de controles de fiabilidad y, por ltimo, al anlisis de los datos
que se puede realizar con tcnicas especficas adecuadas a la naturaleza de los mismos y a los
objetivos de la investigacin.

Tema 3 A. Mtodos cualitativos de investigacin


Intuitivamente, podemos decir que los datos cualitativos consisten en palabras mientras
que los cuantitativos consisten en nmeros. Pero son fundamentalmente diferentes?
Creemos que no, por la siguiente razn: Todos los datos cualitativos pueden ser codificados
de forma cuantitativa.
Lo que queremos decir es muy sencillo: a todo lo cualitativo se le puede asignar un valor
numrico con significado. Estos valores pueden ser entonces manipulados para comprobar
hiptesis especficas. Por ejemplo, muchas encuestas tienen una o ms preguntas abiertas
en las que se pide al sujeto respuestas adicionales. En ejemplo ms sencillo es
probablemente Por favor, indique si tiene algn comentario adicional. Las respuestas del
sujeto son respuestas cualitativas de texto. Pero podemos (y normalmente lo hacemos)
realizar alguna clasificacin de esas respuestas. Por ejemplo, podemos ordenarlas en
categoras y asignar a cada categora una etiqueta que represente el tema de la respuesta.
Adems, podemos asignar a cada categora un nmero. As, tenemos exactamente la misma
informacin. En el primer caso las categoras tenemos una codificacin cualitativa,
mientras que en el segundo caso es cuantitativa. La codificacin cuantitativa nos aporta
informacin adicional til y hace posible el anlisis que no podramos hacer con la
informacin cualitativa.
Los datos cualitativos son muy variados. Incluyen cualquier informacin que pueda ser
recogida y que no es numrica por naturaleza, por varios mtodos, como son, por ejemplo:
Observacin directa, incluyendo desde la investigacin de campo, donde el
investigador vive en otro contexto o cultura durante un periodo de tiempo, hasta
fotografas que ilustran algunos aspectos del fenmeno. Los datos pueden recogerse de
diversas maneras: audio, vdeo, fotografa, etc.
Documentos escritos existentes, que pueden incluir peridicos, revistas, libros,
pginas web, memorias, transcripcin de conversaciones, informes, etc. Se analizan
normalmente mediante alguna forma de anlisis de contenido.
Entrevistas, incluyendo entrevistas individuales y de grupo. Los datos pueden ser
registrados de varias maneras, como vdeo, cassette y notas escritas. Se asume que hay
un entrevistador y uno o ms entrevistados. Su objetivo es indagar la ideas de los
entrevistados acerca del fenmenos de inters.

1. La observacin
Finales de noviembre de 1327. Fray Guillermo de
Baskerville, sabio franciscano, y su amanuenses, Adso
de Melk, se dirigen a una abada situada en algn lugar
entre el Piamonte, Liguria y Francia.
"Mientras nuestros mulos suban trabajosamente por los
ltimos repliegues de la montaa, all donde el camino
principal se ramificaba formando un trivio, con dos
senderos laterales, mi maestro se detuvo un momento, y
mir hacia un lado y hacia otro del camino, mir el

camino y, por encima de ste, los pinos de hojas


perennes que, en aquel corto tramo, formaban un techo
natural, blanqueado por la nieve.
Rica abada dijo. Al Abad le gusta tener buen
aspecto en las ocasiones pblicas.
Acostumbrado a orle decir las cosas ms extraas, nada
le pregunt. Tambin porque, poco despus,
escuchamos ruidos y, en un recodo, surgi un grupo

-1-

agitado de monjes y servidores. Al vemos, uno de ellos


vino a nuestro encuentro diciendo con gran cortesa:

omnis mundi creatura


quasi liber et pictura
nobis est in speculum

Bien venido, seor. No os asombris si imagino quin


sois, porque nos han avisado de vuestra visita. Yo soy
Remigio da Varagine, el cillerero del monasterio. Si sois,
como creo, fray Guillermo de Baskerville, habr que
avisar al Abad. T orden a uno del grupo, sube a
avisar que nuestro visitante est por entrar en el recinto!

pensando en la inagotable reserva de smbolos por los


que Dios, a travs de sus criaturas, nos habla de la vida
eterna. Pero el universo es an ms locuaz de lo que
crea Alain, y no slo habla de las cosas ltimas (en cuyo
caso siempre lo hace de un modo oscuro), sino tambin
de las cercanas, y en esto es clarsimo. Me da casi
vergenza tener que repetirte lo que deberas saber. En
la encrucijada, sobre la nieve an fresca, estaban
marcadas con mucha claridad las improntas de los
cascos de un caballo, que apuntaban hacia el sendero
situado a nuestra izquierda. Esos signos, separados por
distancias bastante grandes y regulares, decan que los
cascos eran pequeos y redondos, y el galope muy
regular. De ah deduje que se trataba de un caballo, y
que su carrera no era desordenada como la de un animal
desbocado. All donde los pinos formaban una especie de
cobertizo natural, algunas ramas acababan de ser rotas,
justo a cinco pies del suelo. Una de las matas de
zarzamora, situada donde el animal debe de haber
girado, meneando altivamente la hermosa cola, para
tomar el sendero de su derecha, an conservaba entre
las espinas algunas crines largas y muy negras... Por
ltimo, no me dirs que no sabes que esa senda lleva al
estercolero, porque al subir por la curva inferior hemos
visto el chorro de detritos que caa a pico justo debajo del
torren oriental, ensuciando la nieve, y dada la
disposicin de la encrucijada, la senda slo poda ir en
aquella direccin.

Os lo agradezco, seor cillerero respondi


cordialmente mi maestro, y aprecio an ms vuestra
cortesa porque para saludarme habis interrumpido la
persecucin. Pero no temis, el caballo ha pasado por
aqu y ha tomado el sendero de la derecha. No podr ir
muy lejos, porque al llegar al estercolero tendr que
detenerse. Es demasiado inteligente para arrojarse por la
pendiente...
Cundo lo habis visto? pregunt el cillerero.
Verlo? No lo hemos visto, verdad, Adso? dijo
Guillermo volvindose hacia m con expresin divertida.
Pero si buscis a Brunello, el animal slo puede estar
donde yo os he dicho.
El cillerero vacil. Mir a Guillermo, despus al sendero,
y, por ltimo, pregunt:
Brunello? Cmo sabis...?
Vamos! dijo Guillermo. Es evidente que estis
buscando a Brunello, el caballo preferido del Abad, el
mejor corcel de vuestra cuadra, pelo negro, cinco pies de
alzada, cola elegante, cascos pequeos y redondos pero
de galope bastante regular, cabeza pequea, orejas
finas, ojos grandes. Se ha ido por la derecha, os digo, y,
en cualquier caso, apresuraos.

S dije, pero la cabeza pequea, las orejas finas, los


ojos grandes...
No s si los tiene, pero, sin duda, los monjes estn
persuadidos de que s. Deca Isidoro de Sevilla que la
belleza de un caballo exige ut sit exiguum caput et
siccum prope pelle ossibus adhaerente, aures breves et
argutae, oculi magni, nares patulae, erecta cervix, coma
densa et cauda, ungularum soliditate fixa rotunditas. Si
el caballo cuyo paso he adivinado no hubiese sido
realmente el mejor de la cuadra, no podras explicar
porqu no slo han corrido los mozos tras l, sino
tambin el propio cillerero. Y un monje que considera
excelente a un caballo slo puede verlo, al margen de las
formas naturales, tal como se lo han descrito las
auctoritates, sobre todo si y aqu me dirigi una sonrisa
maliciosa se trata de un docto benedictino...

El cillerero, tras un momento de vacilacin, hizo un signo


a los suyos y se lanz por el sendero de la derecha,
mientras nuestros mulos reiniciaban la ascensin.
Cuando, mordido por la curiosidad, estaba por interrogar
a Guillermo, l me indic que esperara. En efecto: pocos
minutos ms tarde escuchamos gritos de jbilo, y en el
recodo del sendero reaparecieron monjes y servidores,
trayendo al caballo por el freno. Pasaron junto a nosotros,
sin dejar de mirarnos un poco estupefactos, y se
dirigieron con paso acelerado hacia la abada. Creo,
incluso, que Guillermo retuvo un poco la marcha de su
montura para que pudieran contar lo que haba sucedido.
Yo ya haba descubierto que mi maestro, hombre de
elevada virtud en todo y para todo, se conceda el vicio
de la vanidad cuando se trataba de demostrar su
agudeza y, habiendo tenido ocasin de apreciar sus
sutiles dotes de diplomtico, comprend que deseaba
llegar a la meta precedido por una slida fama de sabio.

Bueno dije, pero, por qu Brunello?


Que el Espritu Santo ponga un poco ms de sal en tu
cabezota, hijo mo! exclam el maestro. Qu otro
nombre le habras puesto si hasta el gran Buridn, que
est a punto de ser rector en Pars, no encontr nombre
ms natural para referirse a un caballo hermoso?"

Y ahora decidme pregunt sin poderme contener.


Cmo habis podido saber?
Mi querido Adso dijo el maestro, durante todo el viaje
he estado ensendote a reconocer las huellas por las
que el mundo nos habla como por medio de un gran libro.
Alain de Lille deca que

Eco, U. (1992). El nombre de la rosa. Barcelona: RBA


Editores.

Este ejemplo ficticio, tomado de la novela El nombre de la Rosa (Eco, 1980), pone de
manifiesto que una cuidadosa observacin permite ver ms cosas de las que se aprecian a
simple vista.
Ya se trate de los estadios iniciales o de los ms avanzados, el investigador utiliza la
observacin como instrumento bsico para el logro emprico de sus objetivos. De hecho,

todas las ciencias empiezan con la observacin y slo a travs de ella se puede llegar a la
obtencin de conceptos con significacin objetiva. Por esta razn la observacin constituye
uno de los aspectos ms importantes del mtodo cientfico.
Supongamos que hacemos una pequea prctica de observacin. Se ha fijado usted en que
los alumnos que acuden asiduamente a clase, por regla general, tienden a sentarse en los
mismos sitios o, al menos, en las mismas zonas del aula? Elija cuatro personas de su clase,
al azar, y, durante una semana, apunte si se han sentado en un radio inferior o superior a
dos asientos del sitio en el que se sentaron el primer da. Notar enseguida, que un factor
importante pudiera ser el hecho de que el alumno en cuestin tenga acceso a sus sitios
favoritos, es decir, al llegar al aula todos los sitios no suelen estar disponibles. Una
posibilidad es que usted diga al resto de sus compaeros que, por favor, esperen a colocarse
en su sitio despus de que lo hayan hecho los cuatro que usted eligi. Independientemente
de que le hicieran caso, esta idea puede ser buena en trminos de permitir una mayor
claridad en su estudio, pero no lo es en trminos de reflejar fielmente la realidad cotidiana
del aula. La diferencia entre los dos planteamientos est en que en el primero usted es un
observador que no interviene en la situacin que quiere observar. En el segundo caso, usted
es un observador que interviene en la situacin. Tenemos, entonces, que el grado en el que
el observador interviene en la situacin es un criterio de clasificacin de los diferentes
modos de plantear la observacin. Segn este criterio se puede hacer observacin natural,
observacin estructurada y experimento de campo.
Por observacin natural se entiende aqulla en la que el observador es un mero espectador
de la situacin, sin que intervenga en modo alguno en el curso de los acontecimientos
observados. Adems, dicha situacin es totalmente natural, en el sentido de que se produce
dentro del contexto usual en el que surgen los fenmenos de inters para el investigador.
Del mismo modo que Diane Fossey realiz la observacin de los gorilas africanos dentro de
su espacio natural de vida, usted, cuando observa a sus compaeros sin introducir
modificaciones en el curso natural de los acontecimientos, tambin est haciendo
observacin natural.
Por otro lado, cuando usted decide intervenir y rogar al resto de sus compaeros que
esperen a los cuatro que fueron elegidos para su prctica, lo que est tratando es de
estructurar la situacin en aras de obtener una mayor claridad en sus datos. Existen
muchas situaciones en las que los investigadores se mueven en un punto intermedio en el
que ni hacen observacin natural ni llegan a tener un absoluto control sobre la situacin. Es
en estos casos cuando hablamos de observacin estructurada.
En el caso del experimento de campo, el nivel de estructuracin de la situacin es mucho
mayor aunque se mantiene el propsito de realizar la observacin en el contexto natural, de
ah el nombre de esta modalidad. Para poder estructurar las situaciones de tal modo que se
pueda hablar de experimento, es necesario tener una teora tentativa que explique los datos
que se obtengan de la observacin. Un experimento de campo conlleva la creacin de, al
menos, dos situaciones distintas de observacin, de tal modo que las diferencias que se
espera que aparezcan entre ambas sean atribuibles a la causa cuyo influjo se est
investigando. De ah la necesidad de una teora tentativa que nos indique cul puede ser
ese factor.

Independientemente de que usted trate o no de estructurar la situacin de observacin, otra


forma de ver cmo la lleva a cabo es analizando el modo en el que se deja constancia de lo
que ha observado. Bsicamente, usted tiene dos grandes opciones. Puede limitarse a hacer
un relato narrativo de lo que ha visto, del tipo: El sujeto nmero uno (o Fulanilo de Tal) se
sent el primer da en la primera fila, segundo asiento empezando por la pared de la
izquierda, segn se mira desde la puerta. Pero otro modo, mas claro y econmico, sera
hacer una planilla para cada da de observacin en la que aparecieran todos los asientos de
la clase, indicando, mediante un nmero del uno al cuatro, dnde se sent ese da cada
sujeto. Si elige la primera modalidad, diremos que usted esta haciendo un registro
narrativo en una situacin natural. Si elige la segunda, diremos que usted realiz una
observacin mediante un cdigo arbitrario. Evidentemente, si se inclina por esta segunda
posibilidad, deber explicar cmo se interpreta la informacin recogida mediante ese cdigo
que usted dise para la situacin en la que observ.
Por tanto, observacin se define como una tcnica de investigacin que permite contemplar
sistemtica y detenidamente cmo se desarrolla la vida social, sin manipularla ni
modificarla, tal como discurre por s misma (Ruiz Olabunaga e Ispizua, 1989).
La observacin admite diversos grados de sistematizacin. Puede ir desde una observacin
ocasional, fortuita, no sistematizada, que no obedece a ninguna regla, a una observacin
sistematizada o activa, que se rige por unos criterios metodolgicos. Concretamente, la
observacin sistemtica contempla las siguientes caractersticas:
1. Objetivo a observar perfectamente precisado.
2. Criterios de seleccin de la informacin prefijados.
3. Tcnica de registro que garantiza la precisin de los datos.
4. Permite cuantificar mediante indicadores y parmetros.
5. Hiptesis plausibles.

Fases
Para realizar una observacin, seguiremos los siguientes pasos:
1. Definir con claridad el problema y las conductas relacionadas con el mismo. Por
ejemplo: Son los alumnos de primer curso capaces de elegir, realizar y terminar las
actividades de aprendizaje sin requerir la ayuda del maestro, el monitor u otros
alumnos?
2. Pertinencia de la observacin para abordar el problema o responder a la cuestin
anterior.
3. Caractersticas de la situacin:
- Qu constricciones ejerce la situacin fsica sobre la posible conducta?
- Qu personas estarn presentes en la situacin? Qu caractersticas de los
individuos o grupo a observar necesitan ser considerados?
4. Universo de las conductas a estudiar.

5. Unidades de conducta o categoras de observacin. Cabe plantearse la posibilidad de


utilizar sistemas de signos o categoras ya elaborados.
6. Qu procedimiento de muestreo (por tiempos/por eventos) posibilitar mejor
registrar las observaciones? A quienes se observar? Con qu frecuencia?
7. Fiabilidad. En qu medida el sistema de observacin garantizar observaciones
fiables? Cmo se podrn contrastar?
8. Inferencia o conclusiones que se pueden hacer a partir de las observaciones recogidas.

Validez de la observacin
Hay tres tipos de validez que se pueden alcanzar con una buena observacin, que responden
a tres preguntas:
- Validez de Contenido: En qu medida la seleccin de conductas recogidas es una muestra
representativa del fenmeno que se pretende observar?
- Validez de Constructo: En qu medida un cdigo de observacin es congruente con la
teora desde la que se formul?
- Validez de Criterio: En qu medida un cdigo detecta las posibles variaciones del
fenmeno que se pretende observar? Grado de sensibilidad.

Fiabilidad de la observacin
Se trata de conseguir la estabilidad de las observaciones, es decir, de obtener siempre la
misma informacin, dentro de una situacin dada, independientemente de quin recoja los
datos o del momento en que se recojan.
Podemos medir el grado de acuerdo entre observadores de varias maneras:
Porcentaje de acuerdo % de veces en las que dos observadores coinciden en sus
observaciones sobre el total de observaciones realizadas. Inconveniente: no tiene en
cuenta los acuerdos por azar.
ndice Kappa de Cohen Se corrige la proporcin entre acuerdos reales y posibles
mediante la resta de los acuerdos por azar.

El siguiente ejemplo ha sido aportado por los alumnos de RRLL del curso 2010 11.
1- Eleccin del problema: Queremos utilizar la observacin para averiguar una serie de
problemas que hay en una cafetera, por las largas colas que se forman, la forma de
trabajar, etctera.
2- Definicin de la tcnica y sus fases. El dueo de una cafetera le ha propuesto a un
investigador que lleve a cabo una observacin sobre el trabajo que llevan a cabo sus
camareros. El investigador realizar una observacin sistemtica en una situacin natural,
sin modificarla. La observacin deber ser sistemtica, es decir, deber recoger todos los
movimientos de los camareros de una forma ordenada y precisa.

3- Objetivo: observar el trabajo de unos camareros en una cafetera.


Cumplimiento de las fases y caractersticas propias del mtodo cientfico:
Servir a un objetivo: estudiar qu se est haciendo bien y qu se est haciendo mal en la
cafetera.
Ser planificada sistemticamente: se establecern unas pautas ordenadas y precisas.
Plantear hiptesis plausibles: evidentemente cuando llevemos a cabo una observacin (de
cualquier tipo) las posibles conclusiones que podamos sacar en relacin a la causa-efecto
deben ser realistas y posibles.
Optimizar los datos recogidos: Aprovechar lo mximo posible todos los datos que
recojamos en la observacin del trabajo de los camareros de una cafetera.
Fases de planificacin de la observacin:
1. Definicin clara del problema que vamos a estudiar. En una cafetera queremos
investigar el porqu de que se formen grandes colas de espera en las horas puntas.
2. Por qu es pertinente el uso de la observacin sistemtica para abordar el problema. Es
importante la observacin sistemtica porque queremos observar una situacin que no
puede ser manipulada, donde son muy importantes todos los detalles del trabajo de los
camareros.
3. Caractersticas relevantes de la situacin en la que tendr lugar la observacin (espacio,
materiales, personas). Cmo es el lugar donde llevan a cabo las actividades los
camareros, qu tipo y cuntos utensilios utilizan para trabajar (la calidad y cantidad de
tostadoras, de lavavajillas).
4. Establecer el universo de las conductas que se van a observar. La rapidez y calidad del
trabajo, etc.
5. Qu unidades de conducta claramente definidas se van a observar. En nuestro caso, lo
que se observara sera el trabajo de los camareros.
6. Hasta dnde podr generalizar con mi observacin. En nuestro ejemplo, no se podra
generalizar mucho, slo servira para esa cafetera.
7. Preguntarse si realmente lo mejor es la observacin o quiz haya otros medios mejores:
como realizar cuestionarios, etc. Debemos preguntarnos si con la observacin podremos
solucionar el problema de la lentitud de los camareros o sera mejor realizar un
cuestionario o una entrevista con los propios camareros para que nos indiquen sus
problemas. Quiz la observacin sera mejor hacerla despus de haber realizado un
pequeo cuestionario donde veamos las opiniones de los camareros, ya que una
entrevista es costosa en tiempo y en dinero.
Qu observar?
El comportamiento de un individuo. Cmo se comporta nuestro camarero en el puesto de
trabajo.
La interaccin de individuos. Como se comportan nuestros camareros entre s.
Las acciones de un sujeto. Cmo realiza nuestro camarero el trabajo.

Cmo observar?
1- OBSERVACIN NATURAL. En la cafetera nuestro investigador se dedicara a recoger
todos los movimientos de los camareros (observaciones) para as sacar conclusiones, que
pueden suscitar una orientacin, una idea de investigacin.
2- OBSERVACIN SISTEMTICA. En este caso el observador, por ejemplo, sabe que slo
debe centrarse en cmo los camareros hacen las tostadas. En la observacin natural,
observara cmo se hacen las tostadas, cmo hacen caf, cmo cobran, etc.
3- EXPERIMENTO DE CAMPO. Haramos una observacin (sistemtica o natural) antes
de aadir algn programa y despus de aadir el programa. Por tanto, observaramos cmo
se trabaja en la cafetera, aadimos un programa (por ejemplo poner dos tostadoras nuevas
de ltima generacin) y volvemos a observar.
4-OBSERVACIN PARTICIPANTE. En nuestro ejemplo, el observador se pondra a
trabajar con los camareros, hacindose pasar por un compaero ms. Es vivir la situacin
y sacar conclusiones. En esta circunstancia habra que evitar que los trabajadores
reconociesen al observador, por ejemplo, simulando una relacin laboral.

2. La entrevista
El objetivo general de este mtodo es la recogida de informacin verbal del sujeto al que se
entrevista (y personas allegadas a l cuando es necesario) para poder formular hiptesis
que permitan explicar o comprender, asesorar u orientar, predecir o pronosticar y, en su
caso, disear un plan de intervencin o terapia cuando sea necesario.
Quienes responden a las entrevistas del analista pueden ser gerentes o empleados, que son
usuarios del sistema existente, usuarios potenciales del sistema propuesto o aquellos que
proporcionarn datos o sern afectados por la aplicacin propuesta. El analista puede
entrevistar al personal en forma individual o en grupos algunos analistas prefieren
este mtodo a las otras tcnicas que se estudiarn ms adelante. Sin embargo, las
entrevistas no siempre son la mejor fuente de datos de aplicacin.
Dentro de una organizacin, la entrevista es la tcnica ms significativa y productiva de
que dispone el analista para recabar datos. En otras palabras, es un intercambio de
informacin que se efecta cara a cara. Es un canal de comunicacin entre el analista y la
organizacin; sirve para obtener informacin acerca de las necesidades y la manera de
satisfacerlas, as como concejo y comprensin por parte del usuario para toda idea o mtodo
nuevos. Por otra parte, la entrevista ofrece una excelente oportunidad para establecer una
corriente de simpata con el personal o usuario, lo cual es fundamental en transcurso del
estudio.
Hay muchas clasificaciones, algunas de las cuales se presentan a continuacin:
Segn el grado de ESTRUCTURACIN:
Estructuradas:

permiten

poco

juego

completamente hechas.

al

entrevistador.

Pueden

estar

ya

No estructuradas: se deja todo al criterio del entrevistador. Segn lo que va contando


el sujeto se van haciendo nuevas preguntas.
Semiestructuradas. Se tratara de una combinacin de las anteriores.

Por la FINALIDAD:
Diagnsticas.
De orientacin vocacional.
De asesoramiento psicolgico.
De seleccin de personal.

Segn el MARCO TERICO en que se encuadran:


Fenomenolgica: el peso fundamental recae en aquello que puede ser observado
(sntomas...), aqullo que el sujeto nota, siente...
Conductual: pone el peso en la conducta del sujeto.
Psicodinmica: pone el peso en lo dinmico interno de la persona, lo que cambia, lo
que se mueve (Psicoanlisis).

Entrevista estructurada
Preguntas preestablecidas con una serie limitada de categoras de respuesta.
NO: Explicaciones largas, Desviarse, Interrupciones, Sugerencias, Interpretaciones,
Improvisar.
VENTAJAS: Facilita el anlisis de la informacin, ahorra tiempo y permite la
medicin y comparacin entre sujetos.
INCONVENIENTES: Slo se tratan los temas previstos, no se adapta a cada sujeto,
tiene menos en cuenta las diferencias individuales.

Entrevista no estructurada
Preguntas abiertas.
VENTAJAS: Mayor sensibilidad a diferencias individuales y cambios situacionales
INCONVENIENTES: requiere mayor preparacin; depende de la habilidad del
entrevistador. La informacin es ms difcil de analizar y requieren ms tiempo.

COMPARACIN DE LAS ENTREVISTAS ESTRUCTURADA Y NO ESTRUCTURADA


Entrevista estructurada
Asegura la elaboracin uniforme de
las preguntas para todos los que
van a responder.

VENTAJAS

Fcil de administrar y evaluar.

El entrevistador tiene mayor


flexibilidad al realizar las
preguntas adecuadas a quien
responde.

Evaluacin ms objetiva tanto de


quienes responden como de las
respuestas a las preguntas.

El entrevistador puede explotar


reas que surgen espontneamente
durante la entrevista.

Se necesita un
limitado entrenamiento del
entrevistador.

Puede producir informacin sobre


rea que se minimizaron o en las
que no se pens que fueran
importantes.

Resulta en entrevistas ms
pequeas.
Alto costo de preparacin.

DESVENTAJAS

Entrevista no estructurada

Los que responden pueden no


aceptar un alto nivel en la
estructura y carcter mecnico de
las preguntas.
Un alto nivel en la estructura
puede no ser adecuado para todas
las situaciones.
El alto nivel en
las estructuras reduce responder en
forma espontnea, as como la
habilidad del entrevistador para
continuar con comentarios hacia el
entrevistado.

Puede utilizarse negativamente el


tiempo, tanto de quien responde
como del entrevistador.
Los entrevistadores pueden
introducir sus sesgos en las
preguntas o al informar de los
resultados.
Puede recopilarse informacin
extraa
El anlisis y la interpretacin de
los resultados pueden ser largos.
Toma tiempo extra recabar los
hechos esenciales.

El arte de preguntar
Antes de preguntar es necesario saber escuchar. El mejor observador no es el que habla
mucho, sino el que hace hablar a los dems.
Es tan importante saber lo que preguntar como saber lo que no se debe preguntar. Una
buena estrategia es esperar a que suceda algo y luego preguntar sobre ello.
Recomendaciones para ayudar a estimular la comunicacin con los informantes:
Cuando surge algo que nos interesa, inducirles a continuar.
Pedir aclaraciones sobre sus comentarios.
Preguntar sobre el significado de lo observado.
Evitar, al principio, grabaciones, cuestionarios, confrontar versiones de otros
observadores, etc.
Comprobar la veracidad de la informacin: lo que se nos dice con lo observado.
Asimismo, tambin es importante el lenguaje: es preciso conocer el significado del
lenguaje habitual del grupo o sociedad (argot, jerga) y utilizarlo sin entrar en imitaciones
innecesarias.

3. Otras tcnicas de investigacin cualitativa


Este apartado se ha realizado con las aportaciones de los alumnos de la asignatura Mtodos
y Tcnicas de Investigacin Social del curso 2010 11.

Brainstorming
Es una herramienta de trabajo grupal que facilita el surgimiento de nuevas ideas sobre un
tema o problema determinado que nos permite:

Plantear y resolver los problemas existentes.

Plantear posibles causas.

Plantear soluciones alternativas.

Desarrollar la creatividad.

Discutir conceptos nuevos.

Superar el conformismo y la monotona.

Se puede realizar de forma individual o por grupos. La lluvia de ideas es una tcnica de
grupo para generar ideas originales en un ambiente relajado.
Fue ideada en el ao 1938 por Alex Faickney Osborn, cuando su bsqueda de ideas
creativas result en un proceso interactivo de grupo no estructurado que generaba ms y
mejores ideas que las que los individuos podan producir trabajando de forma
independiente, dando oportunidad de hacer sugerencias sobre un determinado asunto y
aprovechando la capacidad creativa de los participantes.
Veamos el siguiente ejemplo. En un departamento de marketing realizan un brainstroming
para crear una campaa de publicidad de zapatos de primavera verano. El departamento se
rene y van dando ideas para dicha campaa.
Los componentes del grupo son:
Director: Es la figura principal y el encargado de dirigir la sesin. Debe ser un experto en
pensamiento creador. Su funcin es formular claramente el problema y que todos se
familiaricen con l. Cuando lo haga, debe estimular ideas, hacer que se rompa el hielo en
el grupo. Es el encargado de que se cumplan las normas, no permitiendo las crticas.
Debe permanecer callado e intervenir cuando se corte la afluencia de ideas, por lo que le
ser til llevar ya un listado de ideas. Su funcin tambin ser el que todos participen y
den ideas, conceder la palabra. Adems, es la persona que da por finalizada la sesin.
Posteriormente, clasificar las ideas de la lista que le proporciona el secretario.
Secretario: Registra por escrito las ideas segn van surgiendo. Las numera, las
reproduce fielmente, las redacta y se asegura de que todos estn de acuerdo con lo
escrito. Por ltimo realizar una lista de ideas.
Participantes: Pueden ser habituales o invitados, y miembros o no de la empresa. Su
funcin es producir ideas. Conviene que entre ellos no haya diferencias jerrquicas.

10

En nuestro ejemplo, el grupo est formado por el director del departamento de marketing,
un empleado que actuar de secretario y el resto de los miembros del departamento;
tambin pueden participar algunos diseadores o miembros de otros departamentos que
aporten ideas diferentes, como por ejemplo, trabajadoras de almacn, responsables de otros
departamentos, gerentes, mujeres de algunos trabajadores, algn grupo ajeno a la
empresa
Las fases que comprende esta tcnica son las siguientes:
1. Definir el objeto de la sesin.
2. Nombrar un director de grupo.
3. Dejar un breve tiempo para reflexionar.
4. Fijar un lmite de tiempo para la sesin.
5. Fijar un orden en la intervencin de cada miembro del grupo.
6. Clasificar las ideas generadas.
Las ventajas que nos aporta esta tcnica son:
Muchas ideas pueden ser generadas en poco tiempo.
Requiere pocos recursos materiales.
Los resultados pueden ser usados inmediatamente o "guardados" para su posible uso en
otros proyectos.
Es una manera "democrtica" de generar ideas (contando con un buen director).
Es una forma til de pasar sobre bloques de "diseo" que tienen un lento desarrollo.
El concepto de brainstorming es fcil de entender.
Con respecto a los inconvenientes, cabe sealar:
Requiere un director con experiencia y sensible. Alguien que entienda la psicologa social
de pequeos grupos.
Requiere ms dedicacin a la cantidad que a la calidad.
Puede ser catico e intimidante para quienes sean introvertidos.
Puede no resultar apropiado para algunos negocios o culturas internacionales.

En el siguiente enlace se puede ver una sesin de brainstorming:


http://www.youtube.com/watch?v=3DD-VGgbM2Y

Tcnica Delphi
Se suele utilizar para determinar de forma consensuada la asignacin de pesos a los
diferentes elementos que definen un problema de cara a establecer prioridades. Es una
modalidad de entrevista no presencial que se realiza en grupo.

11

El investigador rene a un grupo de expertos para tomar decisiones cuando se carece de


informacin suficiente y para valorar la viabilidad de una decisin ante una serie de
acontecimientos que actualmente no se manifiestan pero podran aparecer en el futuro.
Entre las ventajas encontramos:

Evita la influencia de personas dominantes y la presin grupal.

Se elimina el etiquetaje.

Evita reflejar intereses.

Sea el siguiente ejemplo:


Investigador: Elabora primer cuestionario.
Expertos: Opinan y devuelven el primer cuestionario.
Investigador: Sistematiza y categoriza las respuestas, elabora segundo cuestionario.
Expertos: Jerarquizan acuerdos y desacuerdos. Devuelven segundo cuestionario.
Investigador: Informa a cada experto de su posicin en el grupo. Pide que clarifiquen
discrepancias. Tercer cuestionario.
Expertos: Clarifican sus posiciones. Devuelven tercer cuestionario.
Investigador: Tabla de consensos, discrepancias y motivos. Cuarto cuestionario.
Expertos: Argumentan contra opiniones divergentes mayoritarias. Devuelven cuarto
cuestionario.
Investigador: Ordena y resume respuestas. Cuestionario definitivo.
Expertos: Expresan postura definitiva.
Investigador: Anlisis de resultados. Opiniones consensuadas mayoritarias. Informe
final.

Grupo de discusin
Es una tcnica cualitativa utilizada para obtener informacin en profundidad sobre
necesidades, intereses y preocupaciones de temas concretos. Se trata de una entrevista en
profundidad grupal.
Sus caractersticas son:

Es de carcter colectivo.

Formado entre 7 y 10 candidatos, tambin puede oscilar entre 4 y 12.

Carcter homogneo de los candidatos. Los candidatos de una empresa deben


pertenecer o bien al mismo departamento o encontrarse en el mismo nivel jerrquico.

Es una conversacin planeada, relajada y confortable, dado que los miembros exponen
sus ideas y comentarios.

12

Guiada por un moderador.

Efectivos para obtener informacin.

El proceso de los grupos de discusin se divide en dos fases:

Diseo del estudio: se determinan los objetivos del estudio y sus destinatarios. Para
poder identificarlos se suelen hacer preguntas como: Por qu debera realizarse el
estudio? Qu informaciones tienen especial importancia? Quin o quines necesitan
especial informacin?

Realizacin de las entrevistas: elaboracin de las preguntas, preparacin de la tcnica


de moderacin de grupo y seleccin de los participantes.

En el registro de datos todas las reuniones suelen ser grabadas para su posterior anlisis.
De aqu se transcriben las opiniones y la comunicacin no verbal que, posteriormente, se
analizar. Para ello, es aconsejable utilizar dos grabadoras en lugar de una por posibles
problemas tcnicos. La cmara de video tambin se admite, aunque hay que valorar
previamente que el grupo se pueda sentir intimidado, y por tanto la posibilidad de no
obtener un buen resultado, adems de la necesidad de tener el consentimiento de todos los
participantes para que el desarrollo de la discusin sea grabado. Es importante, si
finalmente se procede a la grabacin en video de la reunin, que las cmaras estn
colocadas en un lugar donde no intercedan en la comunicacin y que a medida que se
desarrolle la discusin, el grupo no se sienta extrao.
Se recomienda revisar el proceso grupal al acabar la sesin para poder realizar un buen
informe con la descripcin de los participantes, las relaciones que tenan entre ellos y la
manera en que se produca la interaccin.
El moderador tiene que ser imparcial y experto para poder guiar de una forma adecuada la
reunin. De no ser as, si en la conversacin interviene un candidato por el cual este tiene
cierta preferencia, puede que haga algn gesto o algn comentario y que el resto del grupo
perciba dicha preferencia. En este caso el trabajo estara sesgado y por tanto no servira,
dado que el resto de opiniones que puedan hacer los participantes del grupo discusin no
seran tenidas en cuenta o seran tenidas en cuenta pero de manera distinta.
Tambin es importante que el investigador (quien analiza los resultados) sea imparcial y
experto, por las mismas razones citadas para el moderador. En ocasiones ambas figuras
(moderador e investigador) coinciden.
En relacin con las ventajas de los grupos de discusin, encontramos:

Son socialmente orientados y sitan a los participantes en situaciones reales y


naturales.

El formato de las discusiones es de tipo no estructurado y ello ofrece al moderador la


flexibilidad necesaria para explorar asuntos que no hayan sido anticipados.

La tcnica es fcil de entender y los resultados son crebles para los usuarios de la
informacin.

Las discusiones grupales poseen una alta validez subjetiva.

13

El costo de las discusiones de grupo es relativamente bajo.

Los grupos de discusin son giles en la produccin de los resultados.

Al igual que otras estrategias de investigacin cualitativa, van enriquecindose y


reinventndose conforme avanza el proceso investigador.

Desde el punto de vista metodolgico, es adecuado emplearla como fuente bsica de


datos o bien como medio de profundizacin en el anlisis.

Con respecto a los inconvenientes:

Permite un menor control que las entrevistas individuales. Los participantes pueden
influirse e interaccionar entre s y, por consiguiente, son capaces de determinar el curso
que va a tomar la conversacin. Este reparto de control puede dar lugar a algunas
deficiencias, como desviaciones en el discurso o la aparicin de temas irrelevantes que
requieren esfuerzos del moderador para mantener la discusin centrada en el tema.

El anlisis de la informacin conlleva ms dificultad. El anlisis de los datos es ms


complejo. Ocasionalmente, los participantes modifican o incluso invierten sus posiciones
tras interactuar con otros.

Los entrevistadores precisan de mayor formacin. Esta tcnica requiere una formacin
previa por parte del moderador para poder utilizar las tcticas ms adecuadas (pausas,
ampliaciones, momento de abordar un tema, etc.)

El grupo puede estar dominado por una persona. En un grupo de discusin puede darse
la situacin en el que una persona destaque y tenga ms fuerza e iniciativa sobre otros
del grupo y ste influya en el entorno.

La cultura que emerge del grupo puede interferir la expresin de las personas. Los
grupos son distintos y cada uno tiene unas caractersticas propias (un grupo puede
estar aletargados, aburrido y torpe, y el siguiente, en cambio, puede ser energtico,
vigoroso).

La discusin debe tener lugar en un entorno facilitador. Reunir a un grupo de personas


y conseguir que la discusin se realice en un entorno que incentive a los participantes
para que asistan siempre conllevan dificultades.

Veamos el siguiente ejemplo. Como hemos explicado, esta tcnica de investigacin es un


mtodo de obtencin de informacin para mltiples usos. En el caso empresarial es til
para cualquier rea de la empresa. Nuestro caso prctico se centra en una empresa de
fabricacin de calzado de seora bien posicionada en la mente del consumidor pero que pasa
por un momento de crisis de sector. La direccin general solicita al departamento de
marketing que haga una investigacin de mercados para conocer la posibilidad de ampliar
la cartera de productos y ste realiza un grupo de discusin con 10 clientes potenciales,
para conocer cules son los nuevos gustos e intereses del mercado, donde se descubre que
dada la imagen de la empresa le sera aconsejable ampliar con una lnea de complementos,
como bolsos o cinturones.
Por otra parte se hacen 3 grupos de discusin en el rea de produccin, uno con una
muestra representativa y homognea para cada seccin de la cadena y as comprobar el

14

grado de implicacin y actitudes del personal ante el nuevo proyecto empresarial, ya que se
piensa en reubicar a los empleados dado el parecido del mtodo de produccin

o bien

subcontratar a otra empresa que fabrique los nuevos complementos.


Por la parte de recursos humanos, se lleva a cabo un grupo de discusin con los ltimos 5
candidatos al nico puesto de diseador de complementos. Se usa esta tcnica para
averiguar quien es el mejor candidato que rene las capacidades y habilidades que la
empresa necesita para ese puesto.
En relacin con el departamento financiero y contable, la direccin general quiere averiguar
cuales son las preocupaciones y el grado de dificultad que han tenido los diferentes
empleados durante el proceso de la ltima adaptacin del nuevo plan general contable, para
saber si es oportuno externalizar parte del proceso contable si estn saturados o
preocupados o por el contrario darles un incentivo despus del esfuerzo para motivarles en
el nuevo reto que sera la ampliacin de la cartera de productos de la empresa.

Grupo focal
La tcnica de los grupos focales es una reunin con modalidad de entrevista grupal abierta
y estructurada, en donde se procura que un grupo de individuos seleccionados por los
investigadores discutan y elaboren, desde la experiencia personal, una temtica o hecho
social que es objeto de investigacin, por ejemplo, una deteccin de necesidades de
capacitacin.
Si se logra generar un ambiente adecuado y se controlan las variables necesarias, se obtiene
informacin valiosa tanto del contexto, relaciones y actores directamente involucrados en la
temtica en estudio.
Nos sirve para explorar ideas, no debatimos sino que sacamos las ideas ms relevantes.
Debe existir homogeneidad de los participantes (no juntar grupos opuestos) dispuestos en
grupos de 2 a 10 miembros (mejor 4-6) y 4 o 5 grupos.
Un ejemplo sera el siguiente. Dado el momento de crisis que nos encontramos, en la
empresa de calzado Baltarini, se presenta por razones tcnicas, productivas y de
organizacin una reestructuracin de plantilla, con lo cual nos veramos obligados a reducir
el nmero de trabajadores

o bien por consenso de los mismos trabajadores hacer una

reduccin de la jornada y fijar el horario de los turnos de trabajo, as como sus rotaciones.
Por ello, decidimos realizar un grupo focal para llegar a un consenso sobre si es ms
acertado reducir la plantilla al 50% o reducir la jornada de los trabajadores a la mitad.
Composicin del grupo focal:

Moderador: conduce el grupo, puede ser un experto contratado o algn investigador,


debe conocer bien sobre el tema

Observador: 1 o 2 que ayudan a registrar observaciones y reacciones; son puente entre


el moderador y el contratante, si es el caso.

Participantes: centrales en el proceso, son seleccionados especficamente por algo que


los une

15

Encargado de logstica: recluta a la gente, organiza las bebidas y alimentos, se encarga


de las gratificaciones (depende del tipo de participantes)

Todos los miembros son importantes, pero los participantes son centrales, hay que dedicarle
mucho tiempo al reclutamiento
Las sesiones deben durar de 1-2 horas (nunca ms de 2 horas) comenzando con preguntas
abiertas. Las preguntas ms importantes se presentan cuando se observe un claro nivel de
inters.
El investigador ha de ser neutro y su papel moderador. No discrimina a quienes no saben
leer o escribir e involucra a aquellos que no tienen nada que decir.
El monitor se presenta, indica que no es un experto en el tema a tratar (estilo poco
directivo). A continuacin pide permiso para grabar la sesin, para poder analizar con
detenimiento las distintas opiniones verbales y paraverbales. Explica el objetivo del estudio
y la lgica de la tcnica.
Se lanza la primera pregunta y se da una serie de normas: todos deben opinar; no hablar
ms de una persona a la vez; decir lo que se piensa, no lo que los dems quieren or y no hay
opiniones equivocadas. El monitor deber facilitar la dinmica del grupo.
Estas seran las siguientes fases:
1. Apertura e introduccin. Es muy importante, se gana o no a la gente, se le motiva,
convence a participar, pensar muy bien lo que se va a decir y en poco tiempo.

Presentacin del moderador y equipo

Bienvenida y agradecimiento

Objetivo del estudio de la sesin/utilidad

Importancia de su participacin

Reglas del grupo: participacin/tolerancia

Consentimiento informado para grabar y/o filmar (no decir cosas que no quisieran
que se dijeran afuera del grupo)

Dinmica de presentacin entre ellos (pensar qu sera conveniente que dijeran:


nombre, ocupacin, etc.)

2. Clmax. Pensar sobre cosas que me interesan a m como investigador y que le puedan
interesar a la gente y que no la hagan sentirse incmoda hablando entre s sobre esas
cosas.

Pregunta disparador

Comienza a ser ms especfico

Lo de mayor inters para la investigacin

16

3. Cierre/wrap, es decir, envolver acomodar todo lo que se mueve durante la sesin. En


otras palabras, cmo terminar?

Hacer un resumen junto con ellos

Plantear una situacin ideal donde ellos puedan elegir o resolver o proponer

Escoger una idea para llevarse a casa

Agradecer la participacin

Para llevar a cabo la tcnica, tendremos en cuenta los siguientes pasos:


1.

Seleccionar el lugar adecuado en tamao y acstica.

2.

Debe ser un lugar neutral de acuerdo a los objetivos del Grupo focal.

3.

Los asistentes deben estar sentados en U en la sala.

4.

El moderador debe de explicitar en un comienzo los objetivos y la metodologa de la


reunin a participantes.

5.

El moderador debe de respetar tiempo para que los participantes desarrollen cada
tema

6.

El moderador debe de escuchar y utilizar la informacin que est siendo entregada.

7.

El moderador debe comprobar si se cumplen los objetivos planteados para esta reunin.

8.

Se debe permitir que todos participen.

9.

La reunin debe durar entre 60 y 120 minutos.

10. La informacin se debe de registrar en una grabadora o filmadora.


11. Se debe de ofrecer a los participantes refrigerios adecuados y comunicarles que no
interrumpan el desarrollo de la actividad.
12. A los asistentes se les debe de dar una tarjeta con su identificacin.

En relacin con las ventajas e inconvenientes, encontramos:


La interaccin permite a los participantes preguntarse unos a otros y reconsiderar sus
propios puntos de vista sobre sus experiencias especficas.
Se obtiene una descripcin global de los conocimientos, actitudes y comportamientos
sociales de un colectivo social
Permite analizar y seleccionar la informacin de una manera tal que ayuda a los
investigadores a encontrar cul es el asunto importante y cul no lo es; cul es el
discurso real y cul el ideal. Como resultado, la brecha existente entre lo que la gente
dice y lo que hace puede ser mejor entendida. Sus mltiples comprensiones y
significados son revelados por los participantes, en consecuencia las mltiples
explicaciones de sus conductas y actitudes sern mas rpidamente reelaboradas y
comprendidas por parte de los investigadores.

17

La participacin en un grupo focal tiene innumerables ventajas tanto desde el punto de


vista cognitivo como desde lo psicolgico. La oportunidad de ser parte de un proceso
participativo, decisorio, de ser considerados como "conocedores" y la principal, ser parte
del trabajo investigativo puede ser un elemento que favorece la autoestima y el
desarrollo de un grupo. Si un grupo logra conformarse tanto en su parte funcional como
social, podr explorar interpretaciones y soluciones a problemas particulares que no
podran ser ni analizados ni solucionados por sujetos aislados, ya que individualmente
puede ser muy intimatorio.
Es extremadamente til en situaciones cuando los participantes estn comprometidos en
algo que ellos creen importante pero las condiciones objetivas no permiten, lo que facilita
proceso de conciliacin, de intereses comunes y bsqueda de soluciones negociadas.
Los grupos focales son particularmente tiles para dirimir diferencias cuando existen
fuertes discrepancias, por ejemplo, entre los participantes o beneficiarios y los
planificadores o coordinadores de un programa.
Tambin lo son cuando es imposible prescindir del lenguaje cotidiano y la cultura de un
grupo particular de inters para un estudio, e igualmente cuando se necesita explorar el
nivel de consenso o de desacuerdo en un contexto social dado. La tcnica de grupos
focales, ha sido utilizada en estudios asociados con la medicin de los niveles de
satisfaccin de usuarios, consumidores o clientes de servicios. En esta situacin, los
usuarios pueden convertirse en un medio institucionalizado para mejorar o cambiar los
servicios. Por ejemplo, los pacientes de un servicio de salud.
El investigador, en su rol de moderador en el grupo de discusin, por ejemplo, tiene
menos control sobre la validez y confiabilidad de las conclusiones producidas que en
otras tcnicas de recoleccin de informacin. Es condicin necesaria que el moderador
deba crear un ambiente de comunicacin entre los participantes que permita a los
participantes hablar entre s, hacer preguntas, expresar dudas y opiniones, el problema
es como lograr, pese al limitado control sobre la interaccin, mantener el hilo conductor
sobre la temtica y que la elaboracin conceptual y operativa no sea desbordada por
factores ideolgicos, polticos o existenciales a los participantes interesados en la
temtica.
Otra desventaja es que por su propia naturaleza la tcnica de los grupos focales es de
difcil planificacin en lo que respecta al manejo del tiempo en el desarrollo de los tpicos
a tratar y en el logro de acuerdos o conclusiones colectivas representativas.
Un inconveniente notorio est asociado con la organizacin y manejo de los grupos
focales: El papel del coordinador o del moderador es esencial en esta tcnica, pero lo que
parece ser una ventaja en estos casos puede convertirse en una desventaja en otros,
debido al gran peso que tiene su capacidad de liderazgo y de comunicacin para
coordinar y moderar exitosamente el accionar un grupo focal.

18

Grupo nominal
Se trata de una tcnica de consenso, til para identificar problemas y clasificarlos segn el
orden de importancia; adems, es adecuada para la determinacin de prioridades.
Los miembros del grupo interaccionan muy poco y aportan sus decisiones de manera
individual sumando despus sus resultados y utilizando la votacin como medio de
conseguir una valoracin grupal.
Los grupos no sern de menos de 10 sujetos. Con ms de doce integrantes se trabajar en
subgrupos para seleccionar unas ideas antes de continuar con el grupo completo.
Su objetivo ser intercambiar informaciones, la toma de decisiones en comn, lograr un alto
grado de consenso, equilibrar el grado de participacin entre los miembros del grupo y
obtener una idea clara de las opiniones del grupo.
Las fases que se siguen son:
1. Exposicin del tema a solucionar.
2. Generacin silenciosa de ideas.
3. Lectura de las ideas.
4. Discusin de las mismas.
5. Clasificacin por importancia.
6. Votacin y consenso.
Tras la descripcin del problema por parte del moderador, se exponen las reglas: respetar el
silencio durante el tiempo establecido y no interrumpir ni expresar nuestras ideas a otro
participante hasta que el moderador no lo indique. Durante unos minutos (entre cuatro y
ocho), los participantes anotan en silencio todas sus ideas; pasado ese tiempo se hace una
ronda en la que cada participante expone una sola idea cada vez, si bien la nica
interaccin posible es entre moderador y participante, y para aclarar la idea que el primero
escribir en la pizarra. Cuando todas las ideas estn escritas, se inicia ya una discusin
entre los participantes para aclarar las dudas que puedan existir sobre lo que ha quedado
escrito, pudindose modificar ahora alguna aportacin. De nuevo en silencio, cada asistente,
utilizando unas fichas, ordena jerrquicamente las aportaciones que le parecen ms
importantes. Se suman todas las votaciones individuales y se obtiene una jerarqua de ideas
con las que se repite de nuevo el proceso hasta que se llega a la votacin final.
Veamos el siguiente ejemplo:
Exposicin del tema a solucionar: En nuestra empresa, que se dedica a la fabricacin de
productos de droguera, hemos descubierto un nuevo detergente capaz de eliminar las
manchas ms complicadas de quitar, como por ejemplo, salpicaduras de aceite, tinta de
bolgrafo, grasa, vino azafrn, pintura liquida, etc. Esto se debe a un nuevo componente
que le hemos aadido al detergente convencional con el fin de que con un cacito salten
estas manchas y sobre todo cantidad de producto. Vamos a estar dando el producto a
lavanderas y ms tarde reuniremos a los representantes donde expondrn su opinin a
cerca del producto.

19

Generacin silenciosa de ideas: Una vez reunidos dichos representantes (en el momento
de reunirlos hay que ponerlos a todos en una mesa en forma de U para que a la hora de
llegar a un consenso todos se vean las caras), se les dejar unos minutos (entre 4 y 8)
para que escriban su opinin a cerca del producto.
Lectura de ideas: Despus se proceder a la lectura de las opiniones a cerca del producto.
Discusin de las mismas: Y ms tarde se pasar a debatir dichas ideas (15 min.).
Clasificacin por importancia: Despus de la exposicin de las ideas, procederemos a que
cada representante ordene por orden de importancia las que les parezcan ms
importantes y las que menos (10 min.).
Ms tarde se pasar a votacin y consenso (10 min.).
Cabe destacar la importancia de que dichas reuniones debern tener una duracin de 2 a 3
horas.
Su utilidad la encontramos para:
Cristalizar todas las opiniones del grupo, equilibrando la participacin.
Permitir al equipo llegar rpidamente a un consenso.
Hacer posible que el anlisis se lleve a cabo de un modo altamente estructurado,
permitiendo que al final de la reunin se alcancen un buen nmero de conclusiones sobre
las cuestiones planteadas.
Es una poderosa herramienta que puede aumentar la capacidad de los grupos de generar
ideas y entender problemas y soluciones. Entre sus ventajas, encontramos:
Participacin de personas muy diversas.
Expresin de opiniones sin necesidad de competir.
Hace aparecer muchas ideas.
Evita la presin de grupo.
Reduce la probabilidad de aparicin de conflictos.
Permite la proliferacin de un buen nmero de ideas. stas son formuladas
sintticamente.
Se consideran las posiciones minoritarias. Todos los componentes del grupo
participan.
Se garantiza que el xito de las ideas no dependa de la brillantez en la exposicin de
las mismas.
Entre sus inconvenientes destacamos:
Dominio de un lder.
Falta de habilidad para describir la cuestin inicial.
Resistencias a participar en procesos estructurados de grupo.
Falta de habilidad para conducir reuniones de este tipo.

20

Consumo de tiempo.
Problemas en evitar que algunos dominen sobre la discusin posterior.
Desigualdad en la capacidad de expresarse de los distintos participantes
Timidez al expresar las propias ideas.
Tamao del grupo.

DIFERENCIAS ENTRE EL GRUPO FOCAL Y EL GRUPO NOMINAL

Grupo Focal

Grupo Nominal

No requiere consenso

Requiere Consenso

Grupos Homogneos

No lo requiere

Se transcribe la sesin

Solo se transcriben los resultados.

Anlisis de contenido

No lo requiere

Trascripcin y anlisis largo y complicado

El anlisis toma mucho menos tiempo

21

Tema 3 B. Mtodos cuantitativos de investigacin

1. La encuesta
Entre los mtodos ms habituales de investigacin cientfica en el campo de lo social y de
otros mbitos de conocimiento que tienen alguna dimensin social, uno de los ms
empleados es la denominada metodologa de investigacin de encuestas por muestreo, que
se podra definir de la siguiente manera (Martnez Arias, 1995):
La encuesta por muestreo es un mtodo de investigacin de naturaleza cientfica consistente
en la formulacin de cuestiones a una muestra representativa de una poblacin de la que se
pretende, dentro de unos mrgenes de seguridad, describir, explicar y/o predecir
determinadas caractersticas relativas a hechos, opiniones o comportamientos en mbitos
tales como el social, sanitario, econmico educativo, etc.
En esta definicin se encuentran implcitas una serie de cuestiones importantes que deben
ser destacadas:
1. En principio, no se produce ninguna manipulacin (en el sentido experimental del
trmino) de las variables estudiadas.
2. La finalidad principal de la metodologa de encuesta por muestreo es la de obtener un
conjunto de datos, fundamentalmente de naturaleza cuantitativa, que, transformados
en funciones estadsticas permitan tomar decisiones acerca de la poblacin bajo estudio.
3. La informacin se obtiene solamente de una parte de la poblacin, representativa de
ella, denominada muestra y constituida por una serie de elementos que son
seleccionados mediante un diseo muestral de naturaleza probabilstica.
4. El instrumento principal de recogida de informacin son las preguntas a las personas
seleccionadas, siendo sus respuestas a tales preguntas los datos para el anlisis
estadstico.
5. Las afirmaciones que se realizan estn siempre sometidas a unos niveles de confianza o
seguridad, que slo es posible determinar con la teora estadstica del muestreo.

Algunas de las principales razones para el uso de la metodologa de encuesta por muestreo
son:

-1-

El ahorro tanto en tiempo como en coste econmico que supone conseguir slo una parte
de la poblacin.

La teora estadstica en la que se basa sustenta la validez de los resultados obtenidos,


ya que maximiza la posibilidad de obtener muestras representativas y permite evaluar
el nivel de precisin de las estimaciones.

Los

procedimientos

instrumentos

de

recogida

de

informacin

suelen

ser

estandarizados para todos los elementos observados (sujetos en encuestas), lo que


permite la comparacin.

Fases de una investigacin de encuesta


Como todo proceso de investigacin cientfica, la metodologa de encuesta por muestreo
sigue una serie de etapas organizadas y sistematizadas que obedecen a la lgica que la
sustenta. Esta serie de etapas permite guiar al investigador en las sucesivas acciones que
debe ir realizando con el fin de contribuir a la validez de sus conclusiones. Aunque el
proceso est claramente definido, tambin es lo suficientemente flexible para adaptarse a
las circunstancias concretas de cada situacin, siempre que no se violen los criterios
metodolgicos de esta forma de investigacin.
Se distinguen cuatro grandes fases:
1. Planteamiento. En la fase inicial se establecen los objetivos a estudiar y la poblacin
de inters junto con las variables que se derivan de los objetivos. Tambin se determina
el coste de la investigacin.
2. Diseo. Se define el tipo de muestreo que se va a llevar a cabo junto con el
procedimiento (personal, telefnico, postal o mediante nuevas tecnologas de la
comunicacin y la informacin) e instrumento (cuestionario, tests o entrevista) con los
que se van a recoger los datos. Esta fase termina con un estudio piloto para poner a
prueba todos los aspectos diseados.
3. Ejecucin. Con las modificaciones, en su caso, derivadas del estudio piloto, se inicia
esta fase con el trabajo de campo. Son numerosas las acciones a realizar en este punto:
constitucin del equipo de encuestadores y supervisores, formacin de los mismos,
contacto con instituciones, etc. Una vez obtenidos los datos comienza la ltima fase.
4. Resultados. Tratamiento de la informacin desde sus codificacin y automatizacin
hasta el anlisis estadstico pertinente que permite la obtencin de las conclusiones. Por
ltimo, se realiza un informe y se plantea, si es preciso, la difusin de las conclusiones.

-2-

Fase I: Planificacin
En trminos generales, las encuestas, por su finalidad, son exploratorias, descriptivas o
explicativas. Las encuestas exploratorias sirven para adquirir informacin que puede
ser de utilidad. Las encuestas descriptivas permiten medir con exactitud ciertas
variables que pueden ser importantes al construir una teora sobre la realidad. Las
encuestas explicativas sirven para verificar hiptesis causales y comprender las pautas
observadas desde una teora.
Una vez determinado el objetivo de la encuesta, la poblacin y las variables de inters, y en
la siguiente fase, diseo, se escoge el mtodo de recogida de datos apropiado.
En primer lugar, hay que escoger la manera de organizar la encuesta. La eleccin bsica se
plantea entre el diseo transversal y el longitudinal. En las encuestas transversales, los
datos se obtienen de los consultados una sola vez. Las encuestas transversales ofrecen una
instantnea de un objetivo mvil. Son las ms adecuadas para los estudios exploratorios y
descriptivos, pero con una teora slida y un anlisis de datos apropiado, tambin pueden
proporcionar alguna base para la explicacin.
Las encuestas longitudinales son aquellas en que los datos se obtienen de los
consultados en ms de una ocasin. Sus principales tipos son: encuestas de tendencias, de
cohorte y de panel:

Las muestras para los estudios de tendencias se extraen de la misma poblacin en


diferentes veces y encuestas.

Los estudios de cohorte se distinguen de los estudios de tendencias en que mientras


estos son representativos de una poblacin general en diferentes ocasiones, los de
cohorte se centran en la misma poblacin especfica a lo largo del tiempo. Los miembros
de la poblacin incluidos en la muestra de los estudios de tendencias cambian con el
tiempo, pero en los estudios de cohorte se toman muestras de la misma poblacin en
cada ocasin, aun cuando en las muestras puedan incluirse miembros diferentes.

Tanto los estudios de tendencias como los de cohorte nos permiten documentar el
cambio de una poblacin a lo largo del tiempo. En los estudios de panel, en cambio, se
utiliza la misma muestra en diferentes ocasiones. Gracias a ello, podemos saber que
miembros de la poblacin cambian, y determinar las caractersticas o experiencias
vinculadas a los cambios.

Un tipo especial de encuesta longitudinal es el estudio experimental, en el que el


investigador, o bien manipula una o varias variables independientes entre la primera y
la segunda encuesta, o bien sincroniza las encuestas de manera que intervengan antes
y despus de algn cambio previsto en una variable independiente.

-3-

Bsicamente, la etapa de planificacin comprende la determinacin del tipo de encuesta que


va a realizarse, la elaboracin de su metodologa y la obtencin de los fondos necesarios.
El tipo de encuesta requerido vendr determinado por el tema de que trate la
investigacin, y el tipo posible vendr dado por los recursos disponibles. Pero,
esencialmente, se plantea siempre la eleccin entre estas cuatro opciones: entrevistas
personales, entrevistas telefnicas, cuestionarios por correo y cuestionarios directos. Al
hacer su eleccin, el investigador habr de tener en cuenta las siguientes caractersticas de
cada tipo de encuesta.
1. Las entrevistas personales constituyen el mtodo de encuesta ms flexible. Entre sus
ventajas destacan:

Permiten utilizar diversas tcnicas de interrogatorio (como medios visuales


auxiliares).

Dan a los entrevistadores la oportunidad de ir siguiendo las preguntas para obtener


respuestas apropiadas y evitar que los entrevistados interpreten mal las preguntas
o las instrucciones.

Proporcionan la mayor cantidad de datos por entrevista porque permite al


encuestador mantener ms la atencin del entrevistado que por telfono o en un
cuestionario.

El ndice de respuestas suele ser ms elevado (80-85 por ciento).

Los inconvenientes de la entrevista personal son su elevado coste econmico y la


mediatizacin que se pueden producir en los datos debido a las caractersticas del
propio proceso de encuesta, ya que en la respuesta del sujeto puede afectar el entorno
en que se realiza la entrevista, el estilo del entrevistador al hacer las preguntas, etc.
2. Las encuestas por correo gozan de las siguientes ventajas:

Son menos costosas, por lo que se pueden extraer muestras ms amplias.

Se pueden evitar condicionamientos, como por ejemplo, la. reticencia de los


entrevistadores a trabajar en ciertos tipos de barrios.

Se evita la mediatizacin de las respuestas vinculada al entrevistador.

Hay mayor posibilidad de obtener respuestas veraces (anonimato).

Los consultados disponen de ms tiempo para meditar las respuestas.

Hay menos posibilidades de que se produzcan errores de tratamiento porque la


codificacin se somete a un control centralizado y los procedimientos son
normalizados ms correctamente.

Hace falta menos personal para efectuar la entrevista.


-4-

Suelen requerir menos tiempo, pues no son necesarias las visitas repetidas y se
puede eliminar, por ejemplo, el adiestramiento de entrevistadores.

Sin embargo, este tipo de encuesta adolece de:

Requerir una lista de direcciones que pueda emplearse como marco de muestreo y
proporcionar una muestra representativa.

Los cuestionarios deben ser breves si se quiere obtener un ndice de respuestas


adecuado, lo que implica informacin escasa.

El investigador puede controlar muy poco a la persona que responde al cuestionario,


as, por ejemplo, el cuestionario puede cumplimentarlo otra persona distinta y es
difcil obtener un ndice de respuesta adecuado.

No suele aportar informacin vlida sobre los conocimientos del entrevistado (ste
puede buscarla).

Los temas de investigacin requieren tcnicas de interrogatorio que slo pueden


emplear entrevistadores entrenados.

Tiene una baja tasa de respuesta (40-60 por ciento).

3. Las encuestas telefnicas estn comprendidas, en muchos aspectos, entre las


entrevistas personales y las encuestas por correo. Entre las ventajas de la encuesta
telefnica figuran:

El nmero de preguntas que puede hacerse es generalmente mayor que el de los


instrumentos de encuestas por correo y menor que en las personales.

Los ndices de respuesta suelen ser inferiores a los de stas ltimas y superiores a
los de las entrevistas por correo.

No se elimina el condicionamiento del entrevistador pero suele ser menos


mediatizante que en la personal.

Los requisitos del personal de las encuestas telefnicas estn comprendidos entre
los de las encuestas por correo y los de las encuestas personales.

La velocidad con que puede efectuarse.

La posibilidad de que una encuesta telefnica proporcione una muestra


representativa depender, en gran medida, de la poblacin concreta sobre la que se
haya de hacer generalizaciones.

Sus inconvenientes:

Poblacin sesgada.

Brevedad de preguntas y opciones de respuesta.


-5-

Menor cooperacin del entrevistado.

Escasa flexibilidad en la forma de la recogida de datos (reaccin del entrevistado).

Menos apropiado para temas delicados y sensibles.

4. Las encuestas que usan las nuevas tecnologas de la comunicacin y la informacin o


encuestas NTCI (tambin conocidas como tele-entrevista) consiste en proporcionar
un ordenador y un mdem a una muestra aleatoria de la poblacin. Con este soporte y
un telfono normal es posible enviar la entrevista desde un ordenador central, sistemas
desarrollados mayoritariamente en EE.UU. Las principales ventajas de esta encuesta
son:

Rapidez en la recogida de informacin.

Mayor calidad, al eliminarse errores de codificacin, saltos de preguntas, etc.

Capacidad para personalizar cuestiones en funcin de las caractersticas del


encuestado.

Registro automtico de los datos que facilita el procesamiento posterior.

Al igual que las anteriores, no est exenta de inconvenientes:

Dificultad para usar cuestiones abiertas.

Mayor costo de entrenamiento de entrevistadores y de preparacin del cuestionario.

Posibles fallos del ordenador.

Errores del entrevistador al introducir los datos.

En cuanto a la obtencin de fondos, son los organismos gubernamentales y las


fundaciones privadas los que aportan la ayuda a la investigacin, basndose en el estudio
de las propuestas donde se describen los trabajos proyectados.
La elaboracin de una propuesta es parte fundamental de la etapa de planificacin. En el
presupuesto se debern indicar todos los gastos previstos del proyecto. Entre los ms
importantes figuran los sueldos del personal supervisor y el personal sobre el terreno, los
gastos de viaje, adiestramiento, comunicacin, verificacin y codificacin, los servicios de
secretara y oficina, suministros, y los del tiempo de utilizacin de ordenadores u otros
sistemas de tratamiento de datos.

-6-

Fase II: Diseo


El investigador que emplee la metodologa de encuesta por muestreo tendr que elaborar
un conjunto de preguntas para utilizarlas como instrumentos de obtencin de medidas. Un
instrumento de encuesta que puede ser un cuestionario que ha de rellenar el encuestado o
un programa de entrevista que orienta al entrevistador al realizar la encuesta personal o
telefnica. El investigador debe tener en cuenta el contenido, la forma, el formato, la
redaccin y el orden de las preguntas.
El contenido de las preguntas determina la informacin que puede obtenerse de las
respuestas dadas a aquellas. Es esencial establecer con toda claridad la informacin que se
espera obtener de las respuestas a cada pregunta del instrumento de encuesta, as como la
manera en que se va a utilizar esa informacin en el anlisis de datos.
Los instrumentos de encuesta deben ser relativamente breves si queremos que los
consultados los cumplimenten.
Por lo comn, las encuestas contienen preguntas especficas del estudio y, a la vez,
preguntas de ndole general para medir las caractersticas que, segn investigaciones
anteriores, estn estrechamente vinculadas a las diferencias del comportamiento poltico
objeto de estudio. Las preguntas destinadas a obtener informacin sobre las siguientes
caractersticas se toman al menos en consideracin para incluirlas en todo instrumento de
encuesta: sexo, edad, nacionalidad, ingresos, religin, nivel educativo, ocupacin.
La forma de una pregunta se refiere a si sta es abierta o cerrada:

Las preguntas abiertas permiten a los entrevistados contestar con sus propias
palabras. Sin embargo, las preguntas abiertas tienen algunos inconvenientes: dificultan
grandemente la comparacin de las respuestas porque cada persona puede no emplear
el mismo marco de referencia al contestar.

Las preguntas cerradas obligan al entrevistado a elegir una respuesta entre un


nmero limitado de opciones, y tienen la ventaja de que facilitan la comparacin de las
respuestas. Las opciones ofrecidas en las preguntas cerradas deben ser exhaustivas y
mutuamente excluyentes. Las opciones deben permitir tambin que los entrevistados
expresen las diferencias de intensidad de su respuesta cuando ello sea oportuno.

Aun cuando estn bien construidas, las preguntas cerradas encierran el riesgo de que las
opciones elegidas por el investigador influyan en las respuestas. La eleccin entre la forma
abierta y la forma cerrada se debe basar tanto en los recursos disponibles para el
tratamiento de los datos como en el conocimiento terico y emprico que poseamos de
nuestro tema.

-7-

El formato de la pregunta se refiere a la tcnica con que las preguntas son presentadas y
contestadas.
La redaccin de las preguntas es primordial para el xito de una encuesta. Si no se
formulan con precisin las preguntas, las respuestas que se obtengan no aportarn los
datos necesarios para contrastar las hiptesis. Se pueden utilizar preguntas que hayan sido
empleadas con xito en investigaciones anteriores, sin que se sacrifique el contenido de la
encuesta.
El investigador debe cerciorarse de que los entrevistados pueden disponer de la informacin
necesaria para contestar a las preguntas antes de incluirlas en el instrumento de encuesta.
Un aspecto a destacar es que, a menudo, las afirmaciones son ms tiles que las preguntas.
Este mtodo presenta varias ventajas sobre el del empleo de simples preguntas. Por un
lado, proporciona un medio sencillo de obtener medidas de la intensidad de opinin cuando
ello es oportuno. Y por otro, sirve para que todos los entrevistados utilicen el mismo marco
de referencia al responder, con lo que aumenta la validez y fiabilidad de las medidas. Por
ultimo, es sencillo utilizar afirmaciones en la construccin de medidas complejas de
actitudes, denominadas escalas o ndices.
Al emplear afirmaciones, hay que tener presente que existe una tendencia a convenir con
ellas, independientemente de la propia posicin del encuestado. Esta tendencia se llama
efecto de aquiescencia y las preguntas que no lo tienen en cuenta se dice que estn
sesgados por el efecto de aquiescencia. Los tems o preguntas de la encuesta deben
mezclarse de tal modo que, segn las expectativas de la investigacin, unas veces sea el
acuerdo y otras el desacuerdo lo que refleje una actitud o posicin determinada.
Los cuestionarios o programas de entrevistas bien organizados suelen constar de cuatro
partes principales: la explicacin, las preguntas preparatorias, las preguntas bsicas y las
preguntas demogrficas.
La explicacin informa a los consultados de la finalidad del estudio, y debe convencerlos de
que la encuesta tiene la importancia suficiente como para merecer su tiempo y atencin. Al
indicar el propsito del estudio, es importante que no se empleen trminos ajenos al
lenguaje comn de los consultados. No conviene mentir a los entrevistados, pero la
explicacin no debe revelar informaciones sobre el estudio que puedan mediatizar las
respuestas.
Las preguntas preparatorias pueden servir tambin para entablar una buena relacin con
los consultados. Son impersonales, tranquilizadoras, y se utilizan para iniciar una
entrevista o un cuestionario. Las preguntas preparatorias no deben crearse especialmente
para esa finalidad, sino que se han de seleccionar entre las que de todos modos hay que
formular.

-8-

Las preguntas bsicas constituyen el elemento medular de la mayora de los instrumentos


de encuesta. Por lo general, conviene situar las preguntas abiertas antes de las preguntas
cerradas sobre el mismo tema a fin de que las opciones ofrecidas en estas ltimas no
mediaticen las respuestas a las preguntas abiertas.
Con las preguntas demogrficas, se pretende obtener una informacin factual sobre los
consultados que suele considerarse personal o delicada. Generalmente, se colocan al final
del instrumento de encuesta para evitar que las otras secciones de la entrevista o el
cuestionario resulten afectadas si el consultado se siente incmodo o tiene la sensacin de
que el investigador se est entrometiendo en su vida.
Una vez que se han planeado las principales secciones del instrumento de encuesta, hay
que decidir la manera en que van a situarse en el papel. Estas decisiones determinan el
formato del instrumento,.
Igualmente importante puede ser el formato de un plan de entrevista: una
estructuracin defectuosa puede hacer que el entrevistador se confunda y llegue a omitir
ciertos tems.
La primera regla para elaborar ambos tipos de instrumentos es la siguiente: no amontonar
los tems que lo componen. Para evitar errores, se aconseja dejar amplios espacios en blanco
en cada una de las pginas. Es preferible que el cuestionario tenga muchas pginas con
unas pocas preguntas en cada una, a que tenga unas pocas pginas llenas de preguntas.
Importa menos el nmero total de pginas que la claridad de stas.
Al establecer un programa de entrevista, el investigador debe conciliar las necesidades de
los entrevistadores con las de quienes han de prepararla para su tratamiento mecnico.
Uno de los aspectos ms difciles del diseo de los instrumentos de encuesta es el de las
instrucciones que se han de dar para que los entrevistados respondan a todas las preguntas
oportunas en el orden adecuado.
El estudio piloto de un instrumento de encuesta contribuye a detectar los problemas que
slo suelen presentarse en condiciones reales de trabajo.
La prueba previa se realiza haciendo la encuesta a una pequea muestra de consultados
semejantes a los que se va a incluir en la muestra ms amplia. La muestra utilizada en la
prueba previa no necesita ser representativa de toda la poblacin.
Los estudios pilotos sirven para verificar la utilidad del instrumento de encuesta en el que
el investigador tiene bastante confianza.
A menudo, esta prueba previa es tanto una prueba de la tcnica de muestreo y los
procedimientos del manejo de datos como del propio instrumento de encuesta.

-9-

Un estudio piloto es una prueba costosa y que consume tiempo, pero constituye una
inversin absolutamente esencial ya que sin ella el investigador corre el riesgo de obtener
datos intiles o equvocos.

Fase III: Ejecucin


El adiestramiento y la instruccin constituyen la etapa fundamental. Por lo general, el
investigador que dispone de fondos suficientes puede contratar a empresas profesionales
que emplean a entrevistadores entrenados para realizar la encuesta, y no tiene que
preocuparse ms que de instruir a estos ltimos en el manejo del instrumento concreto de
encuesta que va a utilizarse.
Una vez reunido el equipo de materiales de entrevista, el investigador deber practicar con
l, entrevistando a un amigo, a fin de detectar y corregir los posibles problemas antes de
entregar el equipo a los entrevistadores para la prueba previa.
En funcin del tipo de encuesta que se vaya a realizar, conviene saber que uno de los
problemas ms importantes relacionados con las encuestas por correo es el bajo ndice de
respuestas. En trminos generales, en las encuestas por correo se considera aceptable un
ndice de respuestas del 50 por ciento y se estima muy bueno un ndice del 70 por ciento.
Para tratar de mejorar los ndices de respuesta existen varias tcnicas.
El procedimiento habitual en las encuestas por correo consiste en enviar un cuestionario,
una carta en la que se explica la finalidad de la encuesta y un sobre preparado para la
respuesta, incluido todo ello en otro sobre.
Los recordatorios postales pueden hacer que aumente sustancialmente el ndice de
respuestas. En general, lo mejor es hacer tres envos (el primero y dos recordatorios). En
general, la gente es ms propensa a colaborar si tiene la sensacin de que sus respuestas
van a ser annimas.
Las encuestas se han de vigilar para asegurarse de la validez de los resultados y la
posibilidad de generalizarlos. En todo tipo de encuestas, para realizar ese control es preciso
llevar un minucioso registro de los cuestionarios cumplimentados que van recibindose.
Se debe anotar el nmero de cuestionarios que se reciben cada da para que el investigador
pueda mantenerse informado del ndice de respuestas.
En las entrevistas personales, el control se efecta principalmente mediante una reunin
con los entrevistadores en la que se les interroga cuando regresan de su trabajo.
Para el control de las entrevistas telefnicas, se pide a los entrevistadores que, al trmino
de cada periodo de llamadas, entreguen un registro de las que hayan efectuado, y se

- 10 -

verifican todos los cuestionarios cumplimentados para obtener la misma informacin que la
indicada en el caso de las entrevistas personales.
La verificacin es especialmente importante en las entrevistas personales, donde un
entrevistador carente de tica encuentra no slo una oportunidad sino tambin un estmulo
para falsificar las entrevistas, e incluso el que tiene buenas intenciones puede entrevistar a
quienes no procede.
Generalmente, para verificar las entrevistas personales se toma contacto con el consultado
aducido con el fin de determinar: a) Si la entrevista se ha efectuado y b) Si el entrevistador
ha hecho y registrado debidamente las respuestas a todas las preguntas.
En las encuestas de gran magnitud, la verificacin se hace mediante un procedimiento
selectivo, pues resultara demasiado caro dirigirse a todos los entrevistados.

Fase IV: Resultados


La codificacin de las respuestas dadas por los encuestados tiene dos ventajas. En primer
lugar, acelera el proceso de la entrevista facilitando a los entrevistadores el registro de las
respuestas. En segundo lugar, gracias a la codificacin, los operadores de la entrada de
datos pueden trabajar directamente partiendo del instrumento de encuesta cumplimentado.
Aunque existen numerosas tcnicas especificas para construir los instrumentos codificados,
es importante que, en lo posible, se mantengan todas las respuestas a un mismo lado del
papel.
Uno de los elementos ms importantes que se han de incluir en el sistema de codificacin es
un dispositivo que permita identificar individualmente a los entrevistados y mantener
reunidas todas las fichas de ordenador que contengan sus respuestas.
El objetivo fundamental de la investigacin de encuesta por muestreo es describir ciertas
caractersticas de una poblacin a partir de las correspondientes caractersticas
encontradas en la muestra, con la confianza de que las conclusiones de la muestra puedan
generalizarse a la poblacin.
La inferencia en las encuestas tiene como objetivo la estimacin de ciertos valores
numricos de la poblacin, tales como la media de una determinada caracterstica, el total,
la varianza, etc. Estas medidas descriptivas numricas de la poblacin se denominan
parmetros. Con los datos obtenidos de las observaciones muestrales se calculan unas
funciones, denominadas estimadores que son funcin de las variables
Asimismo, como parte de los primeros anlisis de datos de una encuesta es imprescindible
estimar las tasas de respuesta, es decir, el porcentaje de sujetos de la muestra que han
respondido realmente, tanto generales a los instrumentos de la encuesta como a cada una
- 11 -

de sus preguntas. Obviamente, una baja de respuestas a los instrumentos de una encuesta
invalida la misma en su conjunto y una baja tasa de respuesta a una pregunta impide
obtener conclusiones vlidas en relacin con la informacin que proporciona dicha cuestin.
Cuando se sospecha que las ausencias de respuesta a una encuesta tienen significacin,
debe analizarse con cuidado si las ausencias de respuesta se derivan de algn sesgo o
caracterstica de la poblacin.
Para la presentacin de los resultados o elaboracin del informe final, el principal
determinante del modo en el que se realiza es la audiencia a la que van dirigidos. El pblico
en general, los administradores en los campos de la poltica, la educacin, la salud, las
empresas y los investigadores constituyen las audiencias ms habituales para las que se
preparan los informes de una encuesta. Cada audiencia implica un enfoque diferente a la
hora de seleccionar y presentar sus resultados, siendo mucho ms extensa y detallada la
redaccin de informes para los investigadores que para el pblico en general, situndose la
cantidad de informacin para audiencias semiespecializadas en un punto intermedio.
Los informes de investigacin deben presentar la informacin suficiente para que los
lectores sean capaces de juzgar la relevancia del planteamiento de la encuesta, fiabilidad y
validez de los datos recopilados, la adecuacin de los anlisis estadsticos a las
caractersticas de la encuesta y de sus datos, y la pertinencia de las conclusiones obtenidas.
Por ello, deben incluir informacin tanto de los resultados como de los procesos mediante los
que se ha llevado a cabo la encuesta. La informacin sobre estos ltimos se recoge en una
ficha tcnica que siempre ha de incluir la definicin de la poblacin y la tcnica de muestreo
utilizada para extraer la muestra as como sus tamao y tasas de respuesta. Adems, la
presentacin de resultados descriptivos de una encuesta basada en una muestra debe
mostrar el error de muestreo, de modo que pueda conocerse el grado de incertidumbre
asociado a los resultados obtenidos.
En el informe tambin se debe especificar el sistema de recogida de datos y la fecha de
realizacin.
Por ltimo, la discusin de los resultados en relacin con las predicciones de hechas desde
las hiptesis bajo estudio y con las posibles alternativas en la toma de decisiones que
originaron la encuesta es el elemento fundamental que justifica y da relevancia a la
investigacin.

- 12 -

2. Cuestionarios psicomtricos
Un cuestionario es un conjunto de preguntas sobre los hechos y aspectos de inters en la
investigacin, cuya finalidad es la de obtener, de forma sistemtica y ordenada, la
informacin relevante sobre la poblacin sometida a estudio.

Diseo de un cuestionario
En la elaboracin de un cuestionario tendremos en cuenta para su diseo puntos clave como
la eleccin, formulacin y ordenacin de las preguntas. Ms concreta y detalladamente,
cuidaremos aspectos tales como:
1. Definicin clara e inequvoca del objetivo del test, lo que supone responder a las
siguientes preguntas:
Qu se va a medir con el test? VARIABLE O VARIABLES DE INTERS
A quin se va a medir con el test? POBLACIN DE INTERS (POBLACIN
DIANA)
Qu se pretende con el test? UTILIZACIN PREVISTA
2. Se ha de considerar un vocabulario y una expresin adecuadas, una longitud razonable
del cuestionario, qu mtodo se va a seguir para recoger los datos (postal, entrevista,
telfono,...) y cmo va a ser el diseo y la presentacin del cuestionario.
3. En funcin de los objetivos, qu preguntas formular, de forma que se cubran todos los
aspectos sobre lo que se pretende obtener informacin.
4. Longitud adecuada, lo que implica eliminar aquellas preguntas carentes de relevancia a
los objetivos de la encuesta.
5. Revisin de la formulacin de todas las preguntas.
6. Agrupacin de las preguntas por temas afines y ordenacin adecuada.
7. Unificar el formato de redaccin de las preguntas (tratamiento al encuestado,
vocabulario, expresin,...).
8. Redaccin de una carta de presentacin que motive al encuestado.
9. Realizacin de un estudio piloto o revisin de cuestionarios ya elaborados.
10. Tras la aplicacin del cuestionario piloto, correccin de fallos, de la carta de
presentacin, de preguntas (en funcin de sus propiedades psicomtricas), etc.
11. Decisin acerca del anonimato o no.
12. Tras la recogida de los datos, transcribirla en bases de datos para su tratamiento
estadstico.
- 13 -

Pasos en la construccin de una escala


Distinguiremos varias etapas en la construccin de un cuestionario. Todas tienen la misma
importancia y del cumplimiento de todas y cada una de ellas depende el xito de nuestro
test. Son las siguientes:

Etapa de conceptualizacin. Se trata de planificar y prever, estableciendo claramente el


rasgo a medir, el grupo y la poblacin a los que se destinarn el test.

Etapa emprico-estadstica. Es el paso de la escala de ensayo a la escala definitiva. En


ella se realiza el anlisis de los items.

Etapa de objetivacin. Se comprueban la fiabilidad y validez de la escala.

Etapa de tipificacin. Se facilita una medida (baremo) que disponga de unidad y que
permita referir cada puntuacin respecto a las dems en trminos mtricos. Todos
hemos odo hablar, por ejemplo, de la escala de percentiles que utilizan para saber si un
nio es alto o bajo.

Anlisis de tems
Existe una serie de ndices que todo cuestionario debe satisfacer. Entre ellos destacamos los
siguientes:

ndice de discriminacin: Propiedad por la que un tem distingue entre sujetos que
poseen la cualidad que se mide de los que no la poseen. El mtodo habitual para
calcularlo es la relacin entre las puntuaciones del tem y el test, que oscila entre los
valores 0 y 1. Cuanto mayor sea este valor mejor, considerndose imprescindible
superar el valor de 0,30.

ndice de dificultad: Ms propio de tests cognitivos, es la proporcin de sujetos que


aciertan un tem. Conviene obtener valores centrados, es decir, ni muy bajos (el tem
sera excesivamente fcil, todos los sujetos lo acertaran), ni muy altos (el tem es tan
difcil que nadie lo acierta).

Varianza del tem: Mide la dispersin en las respuestas a un tem. Si todos los sujetos
responden lo mismo, no se distinguen las respuestas, no hay dispersin. As pues,
conviene variabilidad de respuestas y, en consecuencia, cuanto mayor sea el valor de la
varianza, mejor.

- 14 -

La relacin entre los tres ndices se puede resumir de la siguiente manera: a mayor (o
menor) dificultad, mayor varianza y mayor discriminacin.
Por ejemplo, si un tem es muy fcil y todo el mundo lo acierta, todos responden lo mismo,
es decir, eligen la respuesta correcta. Por tanto, no existe variabilidad o dispersin de
respuestas y diremos que el tem no discrimina entre los sujetos competentes y los no
competentes.

Fiabilidad
Un cuestionario es fiable si se comporta de forma similar cada vez que lo utilizamos, si
proporciona resultados estables. Si un sujeto que emite una respuesta, a los dos meses de
administrarle el cuestionario emite otra muy distinta y esto es debido a las caractersticas
del test y no por un cambio sustancial en las circunstancias del sujeto, no podemos fiarnos
del cuestionario.
Por ejemplo, cabe esperar que un cuestionario diseado para medir el clima laboral de una
empresa, no arroje puntuaciones muy diferentes en dos aplicaciones del mismo en distintos
momentos temporales, siempre y cuando, claro est, no se produzcan hechos muy
significativos en la empresa como podra ser una reduccin importante de la plantilla.
Se trata de una condicin necesaria, pero no suficiente, para conseguir la validez del
cuestionario: si una escala no es fiable, tampoco ser vlida; sin embargo, una escala fiable
no necesariamente es vlida.
Por ejemplo, una regla con escala decimal (que sirve para medir longitudes), por muy
precisa y fiable que sea, no es vlida para medir el volumen de una naranja. Algo similar
sucede con los cuestionarios.
Los tipos de fiabilidad que tradicionalmente se distinguen son:

Estabilidad temporal. Las puntuaciones obtenidas en un test permanecen estables a lo


largo del tiempo. El mtodo ms utilizado para su clculo es: test-retest. Se trata de
comprobar que las puntuaciones arrojadas por un test no difieren significativamente en
dos aplicaciones del mismo en diferente momento temporal, por ejemplo, hoy y dentro
de un mes.

Consistencia. Grado en el que los items del test miden lo mismo y el mtodo ms
utilizado para su clculo se denomina alfa de Cronbach.

- 15 -

Precauciones:
-

Se considera una escala fiable si alcanza valores de correlacin mayores de 0,80.

Siempre ha de medirse la consistencia interna y, si es posible, tambin la estabilidad


temporal.

La regla general es: cuanto mayor sea el nmero de items, mejor ser la fiabilidad del test.

Validez
Indica la utilidad del test en la medida del atributo para el que ha sido diseado. Una
escala es vlida si consigue medir aquello que se pretenda cuando fue diseada. Por
ejemplo, la regla a la que anteriormente aludamos es vlida para medir longitudes, pero no
para medir volmenes. Del mismo modo, un cuestionario puede ser vlido para medir clima
laboral, pero no para medir intereses laborales.
Tipos de validez:
1. Validez de contenido. La escala constituye una muestra representativa de los aspectos o
dimensiones que definen el constructo que se mide. No debe dejar escapar nada. Por
ejemplo, si medimos ansiedad, debemos tener en cuenta todos los aspectos que estn
relacionados con esta dolencia (fsicos, psicolgicos, sociales, etc.) y los items deben
hacer referencia a todos ellos.
2. Validez aparente: Necesidad de que el test parezca, d la impresin a los que se aplica,
que efectivamente es adecuado. Puede tener su importancia de cara a la motivacin y
actitud de los sujetos.
3. Validez de criterio: Se trata del enfoque tradicional de validez. Es de dos tipos:
Validez concurrente: Se comparan las puntuaciones del test con otras obtenidas
mediante otras escalas para comprobar que mide lo mismo. Es de esperar que un
test que acabamos de elaborar para medir motivacin en el trabajo, por ejemplo,
arroje puntuaciones similares que otro ya validado y cuyas propiedades
psicomtricas estn comprobadas.
Validez predictiva: Grado de eficacia del test para predecir un fenmeno en un
momento futuro. Si un test para medir aptitud espacial es vlido, puede ser til
para predecir el rendimiento en una tarea de diseo grfico, por ejemplo.
4. Validez de constructo: Indaga sobre la variable que se pretende medir y su relacin con
otras variables. Se compara el test con otros que miden el mismo atributo y con otros de

- 16 -

contenidos muy distintos, esperando obtener coherencias entre unos y divergencias con
otros, respectivamente.
Las precauciones que debemos tener en cuenta:
-

Se considera una escala vlida si alcanza valores de correlacin mayores de 0,80.

Prever la validez del test en la etapa de conceptualizacin.

La eleccin del criterio (es la variable externa con la que se compara el test) se basa en
sus cualidades de fiabilidad y validez bien fundamentadas.

Baremos
Los baremos responden a la necesidad de transformar las puntuaciones directas obtenidas
tras el pase de un cuestionario con la finalidad es hacerlas interpretables y comparables.
As, la puntuacin de un sujeto har alusin a su ubicacin en el grupo, de manera que
podamos compararlo en relacin con sus semejantes. De ello se desprende que la realizacin
de un baremo requiere muestras muy grandes.
Uno de los baremos ms utilizados por su sencillez y universalidad es aqul que transforma
las puntuaciones directas en centiles. Tal modificacin consiste en asignar a cada
puntuacin directa el porcentaje de sujetos que obtienen puntuaciones inferiores a ella. As,
por ejemplo, un sujeto con un percentil de 80 indicara que su puntuacin en el cuestionario
es superior al 80 por ciento de sus semejantes.
Veamos el siguiente caso: supongamos que en un cuestionario para medir estrs laboral se
puede obtener desde un cero, como puntuacin mnima, hasta un diez, como puntuacin
mxima. Si un sujeto concreto obtiene una puntuacin de 7, qu quiere decir?, posee un
elevado grado de estrs o es ms bien bajo? Si la media del grupo normativo fuese 5,
podramos decir que est por encima del promedio y considerarlo como un individuo
estresado. Sin embargo, si la media del grupo fuese 8, su puntuacin su puntuacin se
podra considerar baja, o al menos, por debajo de la media de estrs. Por tanto, slo una
transformacin de la escala de puntuaciones directas a la escala de percentiles nos puede
dar una interpretacin ms cabal:

- 17 -

Puntuaciones directas

Percentiles

10

99,5

98,0

94,0

88,5

74,7

50,5

28,0

14,0

7,5

3,5

1,0

Ahora sabemos que si el sujeto tiene una puntuacin de 7 su percentil es 88,5. As pues, al
estar por encima del 88,5 por ciento de los sujetos, su estrs es elevado.

3. Tipos de preguntas
Las clasificaremos en funcin de:

El contenido.

Modo de respuesta.

Grado de premeditacin en la respuesta.

Funcin en el cuestionario.

Segn el contenido
-

Preguntas sobre los hechos. Respuesta cierta independientemente de la opinin del


encuestado. Por ejemplo:
En qu trayecto ha utilizado Usted las lneas areas Air-Inter?
En...........
En ninguno.
No responde.

Preguntas sobre opiniones. La veracidad de la respuesta depende de la sinceridad del


encuestado, por lo que la formulacin de la pregunta es especialmente delicada. Por
ejemplo:
- 18 -

Qu piensa Usted de los tipos de aparatos que Air-Inter mantiene en


servicio en las lneas que Usted ha utilizado?
..................................................................................................................

Preguntas sobre motivaciones, actitudes y sentimientos. Conciernen a cuestiones sobre


el comportamiento de los individuos. Por ejemplo:
Si yo comparo mi vida con la de un muchacho que prepara su bachillerato:
- Considero que tiene ms suerte que yo.
- Considero que tiene menos suerte que yo.
- No tiene ni ms ni menos suerte que yo.

Segn la respuesta
-

Preguntas abiertas. El encuestado puede redactar la respuesta con sus propias


palabras. Por ejemplo:
Si compara su vida con la de un muchacho que prepara su
bachillerato, cmo considera es su suerte?
................................................................................................................

Preguntas cerradas. El encuestado elige entre varias opciones de respuesta. Por


ejemplo:
A qu hora se siente Usted inseguro?

Por la maana.

Por la tarde.

A partir de las diez de la noche.

A cualquier hora.

Nunca.

Preguntas de tem abierto. Preguntas cerradas con una de las opciones abierta. Por
ejemplo:
Qu piensa Usted de los tipos de aparatos que Air-Inter mantiene
en servicio en las lneas que Usted ha utilizado?
-

Modernos.

Obsoletos.

Otros (indicar).........
- 19 -

Segn el grado de premeditacin en la respuesta


-

Espontneas. Pretenden captar la primera idea que viene a la cabeza del encuestado
cuando se le formula la pregunta. Por ejemplo:
Qu color asociara con la palabra pasin?
......................................................................

Sugeridas. Preguntas cerradas en las que al encuestado se le sugieren las respuestas


posibles. Por ejemplo:
Qu color asociara con la palabra pasin?
- verde
- rojo
- violeta
- azul

Segn su funcin en el cuestionario


-

Preguntas sustantivas. Preguntas bsicas del cuestionario, referentes a las cuestiones


de inters de la investigacin.

Preguntas de introduccin. Su finalidad es introducir e interesar al encuestado.


Preceden a las preguntas sustantivas.

Preguntas muelle. Reducen la brusquedad de algunas cuestiones escabrosas.

Preguntas de filtro. Preguntas previas que eliminan a los individuos a los que no les
afectan.

Preguntas de control. Persiguen detectar incongruencias en las respuestas de un


encuestado.

Preguntas batera. Todas las preguntas que comparten una estructura o contenido.

- 20 -

4. Formulacin de preguntas
Normas bsicas de utilidad en la formulacin de las preguntas de un cuestionario:
1. Preguntas simples y cortas. Por ejemplo:
Le gusta el cine?

2. Evitar la ambigedad. Por ejemplo:


Cmo prefiere pasar los fines de semana: en casa o con sus amigos?

3. Evitar preguntas dirigidas. Por ejemplo:


Cree que deben existir sindicatos para los funcionarios pblicos y que estos
sindicatos deben tener alguna relacin con los de los trabajadores?

4. No presuponer informacin. Por ejemplo:


Qu piensa Ud. de los tipos de aparatos que Air-Inter mantiene en servicio
en las lneas que Usted ha utilizado?

5. Redactar las preguntas cerradas con categoras exhaustivas, excluyentes y


pertenecientes a una sola dimensin. Por ejemplo:
Cmo prefiere pasar los fines de semana?
A.

solo

B.

acompaado

6. Evitar preguntas hipotticas. Por ejemplo:


Si fuera Vd. a la Luna, a quin de su familia escogera para que le
acompaara?
...........................................................................................................

- 21 -

7. Evitar preguntas que involucren memoria. Por ejemplo:


Cuntos aparatos electrodomsticos posee en su casa?
.........................................................................................
8. Evitar preguntas de conocimiento cerradas. Por ejemplo:
La ciudad en que habita tiene
-

Ms de 500.000 habitantes.

De 100.000 a 500.000 habitantes.

Menos de 100.000.

9. Evitar preguntas embarazosas. Por ejemplo:


Nos puede decir si es Usted o no fascista?
a. s
b. no

5. El orden de las preguntas


Este aspecto puede incidir en el porcentaje de rechazos y en las respuestas, si no se tiene
especial cuidado. Se deber tener en cuenta en el orden de las preguntas:
1. Las primeras preguntas sern de introduccin, fciles de contestar y que establezcan
una comunicacin fluida entre entrevistador y entrevistado.
2. Continuar con preguntas que se muevan de tpico en tpico cuidando el hilo
argumental y la motivacin de la entrevista. Cuando se da un corte en un tema,
conviene explicar el porqu y la relevancia del siguiente conjunto de preguntas.
3. Agrupar las preguntas por temas afines. Si hay varios bloques, ordenarlos as: a)
introduccin, b) cuerpo de preguntas sustantivas y c) preguntas de clasificacin.
4. Se debe considerar el efecto condicionante de las preguntas anteriores a una dada,
evitando que las preguntas ya enunciadas influyan en la respuesta de las que siguen.
5. Avanzar de lo general a lo especfico, siguiendo un hilo argumental claro, y cubrir todos
los tpicos a tratar. Otras veces, es til proceder al revs.
6. Distanciar las preguntas de control entre s.
7. Dejar para el final aquellas preguntas sustantivas difciles, delicadas o pesadas, para
evitar la fatiga o irritacin del encuestado.

- 22 -

8. Colocar al final del cuestionario, si son muchas, las preguntas de clasificacin para no
consumir tiempo de la entrevista.
9. Utilizar el pretest para comprobar el efecto del orden de las preguntas y su efecto en las
respuestas.
10. Finalizar agradeciendo al encuestado su colaboracin.

6. La carta de presentacin
De la presentacin depende la motivacin del encuestado para responder al cuestionario,
sobre todo, en encuestas postales. En encuestas con entrevistador, la presentacin ser
breve, donde se indicar el objetivo de la encuesta, quin la ha encargado y la importancia
de la colaboracin del individuo en la misma.
En encuestas postales, se incluir en el mismo sobre, y junto con la encuesta, la carta de
presentacin que ha de ser fcil de leer, con prrafos cortos y de extensin no superior a una
pgina. Ha de incluir:
-

Fecha de emisin.

Nombre del individuo al que se dirige, si se conoce.

Saludo afectuoso.

Identificacin del espnsor (la empresa que solicita la encuesta).

Presentacin de los objetivos de la encuesta.

Invitacin a participar en la encuesta resaltando la importancia de la opinin del


individuo que recibe la encuesta.

Garanta de anonimato, si ste es cierto.

Alusin a los incentivos que se darn por enviar la encuesta cumplimentada, en caso de
que haya.

Instrucciones para contestar el cuestionario.

Direccin y/o telfono de contacto para solventar las dudas que surjan.

Indicaciones sobre el modo de devolucin del cuestionario cumplimentado.

Agradecimiento de antemano por la colaboracin prestada.

Firma. Especialmente til la de altos responsables de algn Servicio de Atencin al


Cliente (o Consumidor) de la empresa en cuestin.

- 23 -

Anlisis de datos
1. Las variables y su clasificacin
Una variable o caracterstica es aquella propiedad que queremos medir. Por su parte,
definimos el trmino modalidad como cada una de las maneras en las que se puede
representar una variable. Por ejemplo, con la variable nmero de hijos tendramos las
modalidades: ninguno, uno, dos, tres, etc.; con la variable nivel de estrs: bajo, alto, medio;
con la responsabilidad en el puesto; operario, mando intermedio, directivo, etc. Mediante la
medicin atribuiremos nmeros a cada una de las modalidades, lo que nos va a permitir el
consiguiente tratamiento matemtico. Para poder realizarla, deberemos distinguir entre los
diferentes tipos de variables.
Si bien existen muchas clasificaciones de variables, nicamente vamos a presentar dos
porque consideramos que nos permitirn desenvolvernos ms que suficientemente con los
objetivos que nos hemos propuesto.
1. Variables cualitativas. Los nmeros utilizados slo distinguen modalidades o, a lo
sumo, las ordenan. Por ejemplo, en la responsabilidad en el puesto, las modalidades
operarios, directivos, mandos intermedios, etc., pueden ser diferenciadas con los
nmeros 1, 2, 3, 4, etc. Mientras los nmeros distintos reflejen las distintas
modalidades, podemos utilizar cualesquiera, de modo que 100, 2, 400, 20, etc.
habran sido igualmente vlidos. Es decir, los nmeros, diferentes entre s, reflejan
las modalidades, diferentes tambin entre s y, mientras se guarde esta regla, lo
mismo nos dar utilizar unos u otros.
Por su parte, en el nivel de estrs, los valores otorgados a cada una de las
modalidades no slo debern reconocer las diferencias entre las mismas, sino
tambin su orden. De este modo, los nmeros asignados podran ser 1, 2 y 3, si
hablamos de bajo, medio y alto nivel de estrs. Tambin podran haber sido 10, 59 y
300 porque, siendo diferentes, reflejan los distintos grados de estrs y mantienen su
orden de menor a mayor.
2. Variables cuantitativas. Los nmeros que representan a las modalidades nos
permiten realizar operaciones matemticas como sumar, restar, dividir, etc. Tal y
como es el caso de la variable nmero de empleados, los nmeros de sus
modalidades 0, 1, 2, 3, etc. nos permiten afirmar, por ejemplo, que la empresa A,
cuyo nmero de empleados alcanza 40, tiene el doble que la empresa B, cuyo
nmero es 20 empleados.
Tendra sentido sumar los valores otorgados a las modalidades de la variable sexo?
Si la variable sexo tiene como modalidades 0 (hombre) y 1 (mujer), qu significara,
a parte de nada, tener como resultado un promedio de 0,5 en una muestra? Aqu
radica la diferencia fundamental entre las variables cualitativas y cuantitativas.
Podemos clasificar a su vez las variables cuantitativas en las siguientes:
- Discretas. En este tipo de variables, entre dos modalidades consecutivas, no
existe un nmero intermedio. En el ejemplo anterior, o se tienen 11 empleados o
12 y desde luego no cabe un valor dentro de ese intervalo.
- Continuas. Aqu s hablamos de infinitos valores intermedios entre dos
modalidades consecutivas, slo que no tenemos instrumentos que nos permitan
tanta precisin de medida. Por ejemplo, la variable tiempo de reaccin a una
noticia tiene infinitos valores intermedios entre cada dos inmediatos. Un
instrumento de medida podra ir proporcionando valores entre dos segundos
consecutivos cada vez ms precisos; sin embargo, no se ha inventado an la
herramienta que nos seale cul es el valor exacto del tiempo de reaccin a un

-1-

estmulo. De ah que tengamos que discretizar este tipo de variables, en funcin


de los mtodos de medicin que disponemos, para poder trabajar con ellas.
Otra clasificacin, de la misma importancia que la anterior pero de otra ndole, es la que se
refiere a las variables dependientes o criterios y a las variables independientes o predictoras
(de las que ya hablamos en el Bloque 1), simplemente recordar que las primeras hacen
referencia directa al fenmeno de inters que estamos estudiando. Las segundas, por su
parte, son aquellas en las que simplemente por observacin vemos qu relacin tienen con
las dependientes, o bien, mediante su manipulacin, comprobamos qu cambios producen
en las dependientes.
Por ejemplo, si queremos evaluar el nivel de estrs de unos trabajadores, sta sera nuestra
variable dependiente o criterio, porque es nuestro fenmeno de estudio, que pretendemos
explicar y en un futuro predecir. Con respecto a las variables predictoras, son todas
aquellas que vamos a medir por creerlas de gran importancia en la comprensin del estrs:
las horas de trabajo, la responsabilidad en el puesto, el estado civil y el nmero de hijos.
Tengamos en cuenta que en su medicin nos hemos limitado a observarlas, simplemente,
registrando sus valores en las encuestas y cuestionarios. Fijmonos en que esta ltima
clasificacin no excluye la anterior. En efecto, una variable, ya sea predictora o criterio,
puede ser de naturaleza cualitativa o cuantitativa.
CLASIFICACIN DE LAS VARIABLES
Cualitativas
Discretas

Dependiente o criterio

Independientes o predictoras

compatibilidad

Cuantitativas
Continuas

Mencin especial merecen las variables sociodemogrficas. Se trata de todas aquellas


caractersticas generales de los sujetos de la muestra o poblacin que, no estando
directamente relacionadas con la investigacin, pueden proporcionarnos informaciones
adicionales muy interesantes e, incluso, matizar nuestras conclusiones o dirigir nuestros
anlisis. Nos referimos, por ejemplo, al sexo, al lugar de residencia, a la edad, al nivel
econmico, etc., y deben estar siempre presentes ya que nos van a situar a la muestra en el
contexto de la investigacin, identificar sus caractersticas particulares, compararla con
otras investigaciones, evaluar su adecuacin, etc.
Sea cual fuere el tipo de variables que tratemos, ser de suma importancia delimitarlas y
definirlas bien, en otras palabras operacionalizarlas, si queremos resultados exitosos en
su medicin. En efecto, la tarea de determinar el peso de una bolsa de naranjas, por
ejemplo, es bien fcil y no resulta un problema espinoso de resolver. Sin embargo, cuando
queremos medir la motivacin, cmo lo hacemos? Cmo medimos la depresin, la felicidad
o el autocontrol?
Un ejemplo de lo anterior sera la siguiente situacin: Deseamos averiguar el nivel de
satisfaccin de los inmigrantes de un pas. Qu entendemos por satisfaccin? Sera muy
fcil preguntar: Est Vd. satisfecho con su nueva vida? Si la respuesta fuese tan simple
como un s o un no, no habra mayor problema, pero la realidad, como sabemos, es bien
distinta. Factores como la situacin legal, el sueldo, la lejana, la falta de seres queridos, el
tiempo, las diferentes costumbres, etc., conllevan respuestas que en la mayora de los casos
ser depende y que nos obligan a definir y desmenuzar un concepto tan impreciso como
extenso.

-2-

En definitiva, una buena investigacin parte de una buena operacionalizacin y medicin


de las variables, y no es posible medir algo si no sabemos de qu se trata. Sin este paso
preliminar bien establecido, difcilmente conseguiremos conclusiones inteligibles tras los
anlisis.

2. La matriz de datos
En primer lugar, bien sea a mano o mediante un programa informatizado, deberemos
construir la matriz de datos en la que las columnas constituyen las variables y las filas las
puntuaciones de cada sujeto en cada una de esas variables. Veamos el siguiente ejemplo:
MATRIZ DE DATOS
Sujeto
1
2
3
4
5
6
7
8
9
10

Nivel de estrs (Y)


1
1
3
2
3
2
2
1
1
3

Horas de trabajo (X1)


6
7
7
5
10
12
5
57
8
9

Responsabilidad en el puesto (X2)


1
1
1
2
3
1
2
3
3
2

Si nos fijamos en el sujeto nmero 3, podemos observar que para este caso el nivel de estrs
es de 3, el nmero de horas de trabajo son 7 y su responsabilidad en el puesto es 1. Por su
parte, el sujeto 10 muestra el mismo nivel de estrs, es decir 3, pero sus horas de trabajo
son ms, as como la responsabilidad en el puesto. Qu provoca esta diferencia? Es slo
una cuestin de azar esta disparidad?
Observar la matriz de datos es muy interesante porque un simple vistazo puede ayudarnos
a detectar situaciones anmalas, como ocurre con el sujeto nmero 8. Su nivel de estrs est
situado en el valor ms bajo de la escala y, sin embargo, muestra una puntuacin extrema
en la variable horas de trabajo. Se trata de un sujeto fuera de lo comn o de un error en la
transcripcin de los datos?
En muchas ocasiones no podremos introducir los valores tal como los tenemos en la
herramienta de recogida, sino que deberemos codificarlos, lo cual no es ms que la
asignacin numrica a cada una de las modalidades. Por ejemplo, asignar un 1 a hombres y
un 0 a mujeres para distinguirlos en la matriz. Esto ocurre, fundamentalmente, con las
variables cualitativas. Las variables cuantitativas, al ser numricas, su inclusin es directa.
Por ejemplo, una escala que mida el salario, cuyo rango de puntuaciones oscila entre 900
segundos y 5000 euros, no necesita una codificacin. En cualquiera de los dos casos, aunque
seamos extremadamente cautelosos durante el proceso de introduccin de datos en la
matriz, no debemos comenzar con los anlisis sin un examen preliminar, ya que con toda
seguridad existirn errores asociados al propio registro, a la codificacin de respuestas, a
los valores extremos, a la ausencia de los mismos, etc.
La transformacin de los datos, ampliamente utilizada en la investigacin, no significa un
cambio de las caractersticas propias de los mismos, sino su recodificacin, transposicin o,
incluso, el clculo de nuevas variables. Una escala de motivacin, por ejemplo, con cuatro
modalidades y cuya codificacin es 1 (muy baja), 2 (baja), 3 (alta) y 4 (muy alta), puede ser
convertida en una nueva variable con slo dos cdigos: 1 (sujeto motivado) y 0 (sujeto no
motivado).
En definitiva, una matriz de datos constituye la semilla a partir de la cual se desarrollarn
nuevos conocimientos sobre el comportamiento humano. Si est bien organizada y no
contiene errores estamos en el camino del xito para alcanzar nuestros propsitos.

-3-

3. Distribucin de frecuencias
Una vez tenemos nuestra matriz de datos es el momento de empezar a organizar variables,
sujetos, analizar los casos, etc. Comenzaremos con la construccin de una distribucin de
frecuencias que se trata de la disposicin de una variable en una tabla con sus modalidades,
el recuento de casos en cada una, los porcentajes, etc. Podemos tener tantas distribuciones
de frecuencias como variables contenga la matriz: una distribucin para cada una de las
variables. Veamos un sencillo ejemplo.
MATRIZ DE DATOS DE UN GRUPO DE TRABAJADORES
Sujeto

Motivacin

Autoconfianza

Concentracin

Activacin

Ansiedad

Estrs

Rendimiento

1
2
3
4
5
6
7
8
9
10

110
100
120
120
50
110
60
30
40
90

51
50
33
12
25
11
18
30
54
41

20
2
8
22
5
21
16
3
24
29

123
110
120
131
150
110
175
133
120
149

1
1
2
4
9
10
6
3
4
7

13
10
31
42
55
61
27
33
40
90

8
10
10
9
4
9
8
5
4
7

Con la matriz de datos vemos a todos los sujetos con sus puntuaciones en las diversas
variables su visin resulta un tanto confusa al no estar ordenadas sus puntuaciones. Si
extraemos, por ejemplo, la motivacin y el rendimiento y organizamos cada una en una
distribucin de frecuencias, podemos observar todo el rango de valores y el nmero de casos
(ni) de sus modalidades. Enseguida nos percatamos, por ejemplo, que las puntuaciones en
motivacin se concentran ms en torno a los valores ms altos de la distribucin (hay 6
sujetos con valores entre 90 y 120), casi lo mismo que el rendimiento, cuyo mayor nmero
de casos se encuentra en los valores ms altos (6 sujetos entre 8 y 10) aunque, en general,
sus puntuaciones estn ms repartidas.
DISTRIBUCIONES DE FRECUENCIAS DE DOS VARIABLES
Motivacin

ni

Rendimiento

ni

30
40
50
60
70
80
90
100
110
120

1
1
1
1
0
0
1
1
2
2

4
5
6
7
8
9
10

2
1
0
1
2
2
2

10

10

La ventaja fundamental de una distribucin de frecuencias es la posibilidad de extraer


conclusiones de la variable sin realizar siquiera un anlisis ms complejo. Incluso si
queremos, sin perder sencillez, podemos complementarla con otros datos, para lo cual,
incluiremos entre otros:

-4-

Frecuencia absoluta (ni): nmero de casos de cada modalidad de la variable.

Frecuencia acumulada (na): recuento de las frecuencias absolutas en orden


ascendente segn el sentido de las modalidades.

Proporcin o frecuencia relativa (pi): frecuencia absoluta / nmero total de casos (n)

Proporcin acumulada (pa): frecuencia acumulada (na) / nmero total de casos (n)

Porcentaje (Pi): proporcin (pi) x 100

Porcentaje acumulado (Pa): proporcin acumulada (pa) x 100

Vamos a completar la distribucin de la variable motivacin:


DISTRIBUCIN DE FRECUENCIAS DE LA VARIABLE MOTIVACIN
Motivacin

ni

na

pi

pa

Pi

Pa

30
40
50
60
70
80
90
100
110
120

1
1
1
1
0
0
1
1
2
2

1
2
3
4
4
4
5
6
8
10

0,1
0,1
0,1
0,1
0
0
0,1
0,1
0,2
0,2

0,1
0,2
0,3
0,4
0,4
0,4
0,5
0,6
0,8
1,0

10
10
10
10
0
0
10
10
20
20

10
20
30
40
40
40
50
60
80
100

n = 10

1,0

100

En la tabla anterior podemos observar que, en general, los valores de la variable motivacin
se encuentran bastante repartidos en la distribucin, aunque el mayor porcentaje de casos
se sita en los valores 110 y 120 y que ningn sujeto ha obtenido una puntuacin de 70 u
80. Normalmente trabajaremos con muchos ms datos y estas observaciones no suelen ser
fciles de detectar en la matriz original; de ah la utilidad de la distribucin de frecuencias.
Cabe decir que la frecuencia, proporcin y porcentaje acumulados (na, pa y Pa) slo se
utilizan con variables cuantitativas. Pensemos por ejemplo en la variable estado civil con
sus modalidades y frecuencias absolutas. Qu sentido tendra hacer un recuento
acumulado de sus frecuencias? Aunque ahora no apreciemos la utilidad de la acumulacin,
ms adelante comprobaremos lo prctico que resulta para localizar sujetos de la
distribucin y para interpretar su posicin.
En ocasiones, las variables suelen tener tantas modalidades, sobre todo las cuantitativas,
que la distribucin de frecuencias, aun cuando ya nos facilita la observacin del
comportamiento de la variable, resulta un tanto engorrosa. Tambin puede suceder que nos
interese una clasificacin de sus valores en categoras ms pequeas para un fin
determinado. Por ejemplo, en la variable motivacin, si quisiramos clasificar a los sujetos
en motivacin alta y motivacin baja, podemos establecer un corte entre los valores medios
de la distribucin:
DISTRIBUCIN DE FRECUENCIAS EN INTERVALOS
Motivacin

ni

na

pi

pa

Pi

Pa

Baja (30 70)


Alta (80 120)

4
6

4
10

0,4
0,6

0,4
1,0

40
60

40
100

n = 10

1,0

100

-5-

Una distribucin as se llama distribucin de frecuencias en intervalos. Cada intervalo es


una reduccin de mltiples modalidades a un nmero menor y sus caractersticas son:

Ha de estar bien definido. Esto significa que en cada intervalo debe haber el mismo
nmero de modalidades. Si nos fijamos en la tabla, en el intervalo Baja hay 5
modalidades y en el intervalo Alta hay tambin 5.

Debe ser mutuamente excluyente con los dems o, lo que es lo mismo, cada
modalidad debe estar en slo un intervalo. Por ejemplo, la modalidad puntuacin 60
en motivacin se encuentra nicamente en el intervalo Baja.

Tiene que ser exhaustivo, de manera que todos ellos cubren el rango completo de la
distribucin. Como podemos comprobar en la tabla, ninguna puntuacin en
motivacin queda fuera de la distribucin.

La ventaja de construir distribuciones as es inmediata: la comodidad de trabajar con tablas


ms sencillas. Sin embargo, este beneficio se torna en inconveniente en el momento en que
hacemos uso de l: la prdida de informacin que supone no saber exactamente cmo se
reparten las frecuencias entre las modalidades de los intervalos. Por ejemplo, en la
distribucin anterior no sabemos si los 4 sujetos incluidos en el intervalo Baja tienen la
misma puntuacin o si es diferente o cmo se reparten entre los distintos valores. Por ello,
crearlos debe ser una cuestin de utilidad en la que la ventaja supere en cualquier caso al
inconveniente. En la actualidad al trabajar con paquetes estadsticos las distribuciones han
perdido prcticamente su utilidad (pertenecen al pasado cuando como mucho se empleaba
una calculadora).

4. Representaciones grficas
Una manera sencilla de observar el comportamiento de una variable es mediante su
representacin grfica, no en vano, su funcin principal es obtener informaciones globales
mediante un solo golpe de vista. Existen grficas para todos los gustos, pero no siempre su
aspecto sofisticado es sinnimo de claridad y exactitud. En nuestra opinin, las
representaciones ms sencillas son las que mejor reflejan las caractersticas de las
variables, por eso nos limitaremos a utilizar algunas. Otras, frecuentemente presentadas en
peridicos, Internet, televisin, informes de cualquier clase, etc., las comentaremos ms
adelante con el fin de ilustrar acerca de los errores que se pueden cometer, en la mayora de
los casos, debido al desconocimiento.
Lo ms habitual es utilizar un eje de coordenadas para representar a la variable con sus
modalidades, sus frecuencias, proporciones, etc. Las normas bsicas para el dibujo de una
grfica son las siguientes:

En el eje de abscisas se distribuirn las modalidades o intervalos de la variable,


colocando las puntuaciones de izquierda a derecha, y en sentido ascendente, cuando
se trate de una variable cuantitativa.

En el eje de ordenadas se situarn las frecuencias, proporciones o porcentajes,


estando los valores de abajo hacia arriba en relacin directa con su cuanta.

-6-

REPRESENTACIN GRFICA DE UNA VARIABLE

Frecuencias
Porcentajes
Proporciones

1,5
1
0,5
0
1

Modalidades de la variable

El origen es la interseccin de los ejes y, cuando se trata de variables cuantitativas,


corresponde exactamente al valor 0 de ambos ejes. En el caso de que las
modalidades comiencen en valores muy elevados, puede hacerse un quiebro en el eje
correspondiente que deber indicarse con claridad, siendo el nuevo comienzo de
valores el mismo cuando presentemos varias variables en el mismo informe.

Por ltimo, los segmentos que dividen los ejes en valores, deben ser iguales en
distancia para todas las variables.

Veamos ejemplos de algunos diagramas de barras, de histogramas y de polgonos de


frecuencias.

Diagrama de barras

Cuando la variable es cualitativa o cuantitativa discreta, un grfico muy utilizado es el


diagrama de barras. En la abscisa colocamos las modalidades de la variable y en la
ordenada las frecuencias o porcentajes.
DIAGRAMA DE BARRAS

Frecuencia

La hipersomnia es un
trastorno del sueo
caracterizado por una
excesiva somnolencia no
explicable por una falta de
sueo, o bien una transicin
prolongada al estado
completo de vigilia, conocida
como la borrachera del
sueo.

15
10
5
0

BAJA

MEDIA

ALTA

MUY ALTA

Hipersomnia

En este grfico vemos rpidamente que la hipersomnia de este grupo es elevada, situndose
la mayora de ellos entre las categoras ALTA y MUY ALTA. De los 21, slo 5 se ubican en
las categoras bajas, de modo que deberamos iniciar una rpida intervencin por el
deterioro en la vida laboral, social y privada que puede implicar.
Tambin podemos representar la variable medida en dos o ms grupos para su
comparacin:

-7-

DIAGRAMA DE BARRAS

Frecuencia

10

HOMBRES
MUJERES

8
6
4
2

Hipersomnia

0
BAJA

MEDIA

ALTA

MUY ALTA

En el diagrama anterior se compara la hipersomnia en un grupo de hombres y otro de


mujeres. Las diferencias en las modalidades BAJA, MEDIA, ALTA y MUY ALTA no estn
muy claras. Podramos decir que presentan niveles similares del trastorno.

Histograma

Cuando se trate de una variable cuantitativa continua en el eje de abscisas estarn los
lmites de los intervalos y las barras resultantes quedarn juntas.
Los siguientes histogramas muestran la evolucin de un grupo de trabajadores antes y
despus de una crisis econmica en la empresa. En el primer grfico observamos que todos
los sujetos tienen una puntuacin superior a 35, situndose un gran nmero de ellos entre
los valores 40 y 50 de la escala. En el segundo grfico es donde constatamos la mejora tras
el tratamiento, puesto que ningn sujeto supera el valor de 50 en la escala de
incertidumbre, ubicndose un elevado nmero de ellos entre los valores 10 y 30. Se trata de
dos histogramas bien sencillos que arrojan mucha informacin.
HISTOGRAMAS DE LA MISMA VARIABLE MEDIDA EN DOS MOMENTOS DIFERENTES
6

Frecuencia

5
4
3
2
1
0

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
grado de incertidumbre antes

-8-

Frecuencia

5
4
3
2
1
0

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
grado de incertidumbre despus

Tal y como veremos ms adelante, cuando no se respetan las sencillas normas relacionadas
con el origen de coordenadas, los grficos resultan difciles de comparar y pierden toda su
funcin de informar rpidamente de los cambios en una variable, de su comportamiento en
grupos distintos, etc.

Polgono de frecuencias

Un polgono de frecuencias es tan simple de elaborar como unir, o bien los extremos
superiores de las barras del diagrama de barras, o bien los puntos medios de las bases
superiores del histograma. Vamos a utilizar los ejemplos sobre la hipersomnia y a convertir
los diagramas de barras en polgonos:

Frecuencia

POLGONO DE FRECUENCIAS DE UNA MUESTRA


10
9
8
7
6
5
4
3
2
1
0
BAJA

MEDIA

ALTA

-9-

MUY
ALTA

POLGONO DE FRECUENCIAS DE 2 MUESTRAS

Frecuencia

HOMBRES

10
9
8
7
6
5
4
3
2
1
0

MUJERES

BAJA

MEDIA

ALTA

MUY ALTA

No slo se puede realizar con variables cualitativas, sino tambin cuantitativas:


POLGONO DE FRECUENCIAS DE VARIABLE CUANTITATIVA
4

Frecuencia

10

20

30

40

50

60

70

80

90

100

nivel de autoestima

POLGONO DE FRECUENCIAS DE VARIABLE CUANTITATIVA EN 2 MUESTRAS


100
80
60

HOMBRES

40

MUJERES

20
0
1

Nmero de bajas laborales mensuales

DIAGRAMA DE CAJA-BIGOTES (BOXPLOTS O BOX AND WHISKERS):


Son una presentacin visual que describe varias caractersticas importantes, al mismo
tiempo, tales como la dispersin y simetra. Para su realizacin se representan los tres
cuartiles y los valores mnimo y mximo de los datos, sobre un rectngulo, alineado
horizontal o verticalmente. Una grfica de este tipo consiste en una caja rectangular,

- 10 -

donde los lados ms largos muestran el recorrido intercuartlico. Este rectngulo est
dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su
relacin con los cuartiles primero y tercero (el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mnimo y
mximo de la variable. Las lneas que sobresalen de la caja se llaman bigotes. Estos
bigotes tienen un lmite de prolongacin, de modo que cualquier dato o caso que no se
encuentre dentro de este rango es marcado e identificado individualmente.

DIAGRAMA DE TALLO Y HOJAS:


Son representaciones de datos que constan de dos elementos: el tallo y las hojas. El tallo
esta constituido por el/los primeros dgitos de la variable, la hoja es el siguiente digito no
incluido en el tallo.

- 11 -

5. Representaciones engaosas
Hay que ser extremadamente cautelosos, tanto en el dibujo de una representacin grfica
como en la visin de la misma. Como ya apuntbamos anteriormente, es fcil distorsionar
la informacin que aportan unos datos, bien sea por la propia naturaleza del grfico con los
que se representan, como por la segmentacin de los ejes en los diagramas de barras,
histogramas, etc. Se trata de grficos engaosos y vamos a comentar algunos ejemplos muy
habituales.
El conocidsimo diagrama de sectores, tambin llamado popularmente diagrama de
quesitos, diagrama de tarta, etc., cuyos sectores corresponden a los porcentajes de cada
modalidad, puede presentar dos inconvenientes. El primero se produce cuando tenemos
muchas modalidades en la variable, tantas que aquellas cuyos porcentajes son muy
pequeos no se distinguen. Tambin puede ser que algunos porcentajes son similares y
tampoco se diferencian. El segundo inconveniente es el uso de colores: mientras que unos
pueden resaltar ciertas modalidades, otros pueden atenuar modalidades que quizs existen
en la misma cuanta.
DIAGRAMAS DE SECTORES
grado de formacin
muy bajo
bajo
medio
alto
muy alto

Otra representacin muy popular es el pictograma, aquel en el que se utilizan figuras u


objetos con diferentes alturas para reflejar los diferentes porcentajes. Lo que sucede aqu es
que el ancho de los dibujos es proporcional a la altura de las figuras, pero evidentemente las
figuras resultantes no lo son lo son con los porcentajes reales de datos de la variable. El
efecto final es que las diferencias entre los porcentajes aparecen falazmente mayores de lo
que en realidad lo son.

PICTOGRAMA

DIAGRAMA DE BARRAS

15
10
5
0
Chico

Chica

Participacin de estudiantes en prcticas no remuneradas en empresas

- 12 -

Tampoco el uso de las representaciones tridimensionales resulta conveniente para percibir


debidamente los porcentajes o recuentos de las modalidades. Mostramos algunos ejemplos:
DIAGRAMAS DE BARRAS EN TRES Y DOS DIMENSIONES
50
45
40
35
30
25

Hombres

20

Mujeres

15
10
5
0

dolor

trastornos
del sueo

cansancio

estrs

Sntomas relacionados con la falta de rendimiento laboral


DIAGRAMA DE SECTORES EN TRES Y DOS DIMENSIONES

Mujeres
Hombres
Adolescentes

Cuando queremos ver el cambio de una variable, es muy importante respetar el origen de
coordenadas, tal como ya dijimos al presentar el histograma. En los siguientes grficos
podemos detectar el cambio de la variable grado de incertidumbre antes y despus la crisis
empresarial:
GRADO DE INCERTIDUMBRE ANTES Y DESPUS DE UNA CRISIS EMPRESARIAL

5 10 15 20 25 30 35 40 45 50 55 60 65 70

5 10 15 20 25 30 35 40 45 50 55 60 65 70

Por el contrario, en los siguientes grficos, al no considerar el origen de coordenadas, no es


tan fcil descubrir la mejora despus del tratamiento:

- 13 -

GRADO DE INCERTIDUMBRE ANTES Y DESPUS DE UNA CRISIS EMPRESARIAL

3
2

1
0

30

35

40

45

50

55

60

65

70

10

15

20

25

30

35

40

45

50

No presentar el rango completo de la distribucin de valores tambin produce una


distorsin visual. El ejemplo que presentamos corresponde a los datos de participacin en
las olimpiadas matemticas de la edicin IMO (Internationale Mathematik Olympiade)
2009 celebrada en Bremen. El primer grfico recoge la asistencia femenina desde 1999
hasta 2009 y en l se observa una tendencia al alza. El segundo, sin embargo, al no
presentar los datos en el contexto apropiado, el lector no recibe toda la informacin,
resultando engaoso:
PORCENTAJES DE PARTICIPACIN FEMENINA EN LA IMO 2009

12
11
10
9
8
7
6
5
4
3
2
1
0

1999 2000

2001

2002 2003 2004 2005 2006 2007 2008 2009

6. Medidas de tendencia central


En muchos casos, una distribucin de frecuencias y una representacin grfica sern ms
que suficientes para entender el comportamiento de una variable en un grupo de sujetos.
Sin embargo, cuando nuestro inters se centra en la comparacin de varios grupos en la
misma variable, o en muchas de ellas, tratar con tablas y grficos y ms tablas y ms
grficos puede resultar un poco engorroso, tanto para nuestro propio manejo, como para el
lector de los informes. En situaciones as, puede ser ms apropiado trabajar con unos
ndices que describan de forma ms sencilla la informacin contenida en las distribuciones.
Entre ellos, destacan los estadsticos de tendencia central, que son aquellos que resumen el
comportamiento de una variable en un solo valor, representando as al conjunto de sujetos
en el que son calculados. Veamos los ms importantes:

- 14 -

La media aritmtica
Es el ndice de tendencia central ms utilizado, siendo su clculo tan simple como
promediar todas las puntuaciones de un grupo en una variable, tal y como refleja su
frmula:
X=

Xi
n

Vamos a utilizar esta frmula con los datos de un ejemplo:


4

X=

4 + 5 + 8 + 2 + 4 + 2 + 5 + 2 + 2 + 6 40
Xi
=
=
=4
n
10
10

Tal es la sencillez de la obtencin de la media que se ha convertido en un estadstico


omnipresente en todo informe que trate con variables. Sin embargo, debemos hacer las
siguientes reflexiones antes de lanzarnos a calcularla cuando nos encontremos con nuestros
propios datos:

Al utilizar las puntuaciones de todos los sujetos de la muestra, podemos afirmar que es
el ndice que mejor los representa, pero tambin resulta ser el ms sensible a cualquier
variacin. Por ejemplo:
3

X = 4,75

40

X = 13,75

Dmonos cuenta cmo un error en la introduccin de un valor numrico puede resultar


desastroso cuando calculemos la media.

No debemos utilizarla cuando nos hallemos ante distribuciones muy asimtricas, con
casos extremos, etc., porque deja de cumplir con su funcin, que es la de representar al
conjunto del grupo:

X: 1, 2, 2, 4, 4, 8, 9, 10

1,5
1

X=

0,5

40
Xi
=
=5
n
8

A quin representa esta media si ni


siquiera su valor est en la distribucin?

0
1 2 3 4 5 6 7 8 9 10

Por esto, siempre deber estar acompaada de un grfico o, bien, se debe informar que
los datos se ajustan a una distribucin simtrica.

Con variables cualitativas no tiene sentido calcularla: podemos afirmar que la media
aritmtica del estado civil es 2,5 que el nivel socioeconmico promedio es igual a 40?
Tambin hay que ser cautelosos con el resultado de algunas variables cuantitativas

- 15 -

discretas como, por ejemplo, el nmero de hijos. Podemos decir que una familia tiene el
doble de hijos que otra, pero es pertinente hablar de un promedio de 3,5 hijos en un
determinado pas?

La moda
Se trata de un ndice de tendencia central que representa el valor cuya frecuencia absoluta
es la ms alta en la distribucin. Puede utilizarse con cualquier tipo de variable, ya sea
cualitativa o cuantitativa, y para su obtencin procederemos de la siguiente manera:
1. Si los datos no estn agrupados, simplemente los ordenamos y vemos cul se repite
ms. Ese valor es, por tanto, la moda de la distribucin. Por ejemplo, en una escala
para medir la importancia de 10 competencias genricas para la formacin de los
titulados universitarios, 12 empleadores eligieron en primer lugar las siguientes:
2, 2, 4, 4, 4, 6, 6, 6, 6, 8, 10, 10

Mo = 6

Observamos que 2 empleadores eligieron la competencia 2 (capacidad para trabajar


en equipo), 3 optaron por la competencia 4 (capacidad para adquirir rpidamente
nuevos conocimientos), 4 escogieron la 6 (dominio de la disciplina acadmica), 1 la
competencia 8 (capacidad para hacerse entender) y, por ltimo, 2 consideraron como
ms importante la 10 (capacidad para aplicar los conocimientos a la prctica).
Constatamos que la categora 6 es el ms frecuente, por tanto, la moda de esta
distribucin es 6, lo que significa que los empleadores en su mayora consideran el
dominio de la disciplina acadmica como la competencia ms importante de los
egresados universitarios. Tengamos cuidado: la moda no es 4 (el nmero de veces
que se repite el dato ms frecuente), sino 6 (el valor en s).
2. Cuando los datos estn agrupados en una tabla, en el caso de no haber intervalos, el
procedimiento es muy sencillo: buscamos la frecuencia absoluta mayor y localizamos
a qu valor corresponde:
Xi

ni

2
3
4
5
6
7
8
9
10

2
0
3
0
4
0
1
0
2

Como vemos, los datos son los mismos que antes, slo que ahora estn ordenados en
una tabla, pero el valor de la moda no cambia: Mo = 6
Como en el caso de la media, debemos hacer algunas reflexiones acerca de la moda:

Puede suceder que una distribucin tenga dos valores con la mxima frecuencia, la
misma o muy similar, pero que ambas se diferencian bastante del resto. En estos
casos, diramos que la distribucin presenta dos modas o que es bimodal:
2, 2, 4, 4, 4, 6, 6, 6, 6, 6, 6, 8, 8, 8, 10, 10, 10, 10, 10, 10, 10 Mo1 = 6 y Mo2 = 10

Cuando los valores de la moda son adyacentes, algunos analistas toman como
estadstico la media de ambas. En nuestra opinin, esto no debe hacerse puesto que

- 16 -

el resultado puede carecer de sentido porque podra tratarse de un valor que no


existe en la distribucin. Por otro lado, cul es el problema de presentar dos
modas?
MODAS ADYACENTES
Xi

ni

0
1
2
3
4

2
0
8
7
1

Nuestras modas son los valores Mo1 = 2 y Mo2 = 3.

Precisamente lo anterior, la obtencin (o presentacin) de dos modas nos permite


ver hasta qu punto el clculo de una media es lcito. En efecto, si las dos modas son
adyacentes y centradas, no sera ningn problema, pero, si no lo son, esto debe
advertirnos que no debemos calcular la media:
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0

5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
1

Mo1 = 5

Mo2 = 6

X = 5,08

Mo1 = 3

Mo2 = 6

X = 4,58

Qu sentido tiene la segunda media? Ciertamente, como estadstico de tendencia


central, no representa al conjunto de las chicas, en cambio, las modas s lo hacen.

La mediana
La mediana es un ndice que nos informa del dato de la distribucin que la divide en dos
partes iguales y se define, por tanto, como aquel valor que deja por encima y por debajo el
50 por ciento de las frecuencias.
Su obtencin es enormemente sencilla: nicamente tenemos que localizar en la columna de
proporciones acumuladas de la tabla de la distribucin el valor que comprende el 0,50,
desplazarnos a la izquierda para ver a qu puntuacin de la variable corresponde y ya la
tenemos. Veamos un ejemplo. Supongamos que en la siguiente tabla hemos ordenado las
puntuaciones de un grupo de 20 aspirantes a un puesto de trabajo:

- 17 -

Xi

ni

pa

0
1
2
3
4
5

0
0
1
0
2
2

0
0
0,05
0,05
0,15
0,25

0,50

8
9
10

5
3
2

0,75
0,90
1,00

20

En la columna de proporciones (o frecuencias relativas) acumuladas aparece el dato 0,50 y,


buscando en la primera a qu valor de la variable notas corresponde, encontramos el 6. Por
tanto, podemos afirmar que la mediana es Md = 6; dicho con otras palabras, que hasta la
puntuacin de 6 el grupo queda dividido en dos partes iguales, con el 50 por ciento de los
estudiantes en cada una.
En relacin con los tres ndices de tendencia central vistos, si los resultados para los tres
ndices son muy diferentes, tengamos cuidado con la forma de la distribucin y lo que
hemos calculado. Recordemos, pues, que una representacin grfica es un complemento
perfecto en nuestros anlisis para aclarar los resultados:

Frecuencia

Frecuencia

NDICES DE TENDENCIA CENTRAL EN DISTRIBUCIN SIMTRICA Y ASIMTRICA

4
3
2

1
1

0
0,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00

Aptitud numrica

0,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00

Aptitud verbal

Aptitud numrica

Aptitud verbal
N
Media
Mediana
Moda

N
Media
Mediana
Moda

14
4,0000
4,0000
4,00

14
5,0710
6,0000
6,00

7. ndices de posicin
Segn el astronauta F. Caldeiro (2006), entre los rasgos de personalidad necesarios en su
profesin, se encuentran la facultad de trabajar en lugares cerrados, la capacidad de
trabajar en grupo, la serenidad, saber establecer prioridades, etc. Pues bien, vamos a
suponer que recogemos los datos en una escala de seleccin para la formacin de
astronautas. Como las puntuaciones obtenidas varan desde 6 hasta 19 decidimos

- 18 -

establecer una clasificacin en cinco intervalos de la variable capacidad de trabajar en


grupo, tal y como mostramos a continuacin:
CATEGORIZACIN DE LA CAPACIDAD DE TRABAJO EN GRUPO
Xi
57
8 10
11 13
14 16
17 19

Capacidad muy baja


Capacidad baja
Capacidad media
Capacidad alta
Capacidad muy alta

Fijndonos en la tabla anterior, un sujeto que obtenga una puntuacin de 9 estar


clasificado en la categora de capacidad baja y otro que tenga una puntuacin de 18 estar
en el intervalo capacidad muy alta. Dmonos cuenta que el establecimiento de los intervalos
de la distribucin se ha realizado a partir de los valores de la variable, sin atender ni las
puntuaciones obtenidas ni al nmero de sujetos que ha participado en la prueba.
Por otra parte, en el apartado anterior finalizbamos mostrando cmo la mediana, que es
un ndice de tendencia central, tambin puede ser considerada como una medida de
posicin, ya que divide a la distribucin en dos partes iguales en funcin de los sujetos. En
el ejemplo que acabamos de presentar, si tuvisemos en cuenta no slo el rango de
puntuaciones en la escala (de 6 a 19), sino tambin el nmero de sujetos en cada una, la
mediana bien podra corresponder al valor 15. En este caso, sera una incongruencia que un
sujeto con esta calificacin fuera considerado con una capacidad alta cuando precisamente
se sita en el lugar medio de la distribucin.
Tambin comentamos que, del mismo modo que podemos establecer dos grupos de sujetos a
partir de la mediana, por qu no disponer de otros puntos de corte de la distribucin. Esto
nos permitira crear varias categoras, como las anteriores del ejemplo, pero con una
diferencia muy importante: en este caso, tendramos unos intervalos con el mismo nmero
de sujetos y, de este modo, clasificar a un individuo con capacidad alta o baja tendra ms
sentido dentro de su grupo.
La situacin que estamos plantando se resuelve con los ndices de posicin, que son todos
aquellos que nos permiten situar a un sujeto dentro de una distribucin de frecuencias. Los
ms utilizados en el mbito de la psicologa son: percentiles, deciles y cuartiles. Vamos a ver
cada uno de ellos:

Percentiles
Tambin llamados centiles en la mayora de los tests psicomtricos, son las puntuaciones de
la variable que dividen a la distribucin en 100 partes iguales. Hay, por tanto, 99
percentiles.
La nomenclatura utilizada es Pk, (k = 1, 2, , 99) y su valor se interpreta como la
puntuacin que deja por debajo de s al k por ciento de los sujetos.
Por ejemplo, si P20 = 9, diremos que 9 es el valor de la distribucin que deja por debajo de s
al 20 por ciento de los sujetos.

Deciles
Por su parte, los deciles son las puntuaciones de la variable que dividen a la distribucin en
10 partes iguales. Hay, por tanto, 9 deciles.
La nomenclatura utilizada es Dk, (k = 1, 2, , 9) y su valor se interpreta como la
puntuacin que deja por debajo de s al 10k por ciento de los sujetos.

- 19 -

Por ejemplo, si D9 = 7, diremos que 7 es el valor de la distribucin que deja por debajo de s
al 90 por ciento de los sujetos.

Cuartiles
Por ltimo, los cuartiles son las puntuaciones de la variable que dividen a la distribucin en
4 partes iguales. Hay, por tanto, 3 cuartiles.
La nomenclatura utilizada es Qk, (k = 1, 2, 3) y su valor se interpreta como la puntuacin
que deja por debajo de s al 25k por ciento de los sujetos.
Por ejemplo, si Q3 = 8, diremos que 8 es el valor de la distribucin que deja por debajo de s
al 75 por ciento de los sujetos.
Obtener los percentiles, los deciles o los cuartiles es tan sencillo como hacerlo con la
mediana: buscamos en la columna de las proporciones acumuladas, o de los porcentajes
acumulados de la distribucin, la proporcin o porcentaje de inters y localizamos a qu
puntuacin de la variable pertenece.
Veamos un ejemplo en el que vamos a localizar los ndices de posicin. La variable X es la
capacidad de trabajar en grupo a la que aludamos al principio del apartado, pero en esta
ocasin la presentamos sin agrupar en intervalos y con las frecuencias absolutas a partir de
las cuales se realizan los clculos necesarios:
PERCENTILES, DECILES Y CUARTILES
Xi

ni

na

pa

Pk

Dk

Qk

6
7
8
9
10
11

8
4
8
5
7
10

8
12
20
25
32
42

0,08
0,12
0,20
0,25
0,32
0,42

P8
P12
P20
P25
P32
P42

D1
D2
D3
D4

Q1
-

12

51

0,51

P51

D5

Q2

13
14
15
16
17
18
19

11
9
7
8
4
4
6

62
71
78
86
90
94
100

0,62
0,71
0,78
0,86
0,90
0,94
100

P62
P71
P78
P86
P90
P94
P99

D6
D7
D8
D9
-

Q3
-

Puede sorprender que no coincidan exactamente los deciles D1, D3, D4, D5, D6, D7 y D8, con
los porcentajes 10, 30, 50, 60, 70 y 80, respectivamente, pero no por ello dejamos de
obtenerlos siendo la diferencia tan pequea. Tngase en cuenta adems que ste es un
pequeo ejemplo en el que hay muy pocos sujetos (lo normal es que trabajemos con
muestras muy grandes para obtener los ndices de posicin si queremos que stos
representen a la poblacin).
Por otro lado, si nos fijamos en el ejemplo, la mediana se localiza en el percentil 50, en el
decil 5 y en el cuartil 2, siendo su valor igual a 12. En efecto, en distribuciones simtricas:
Md = P50 = D5 = Q2
Cabe sealar que es frecuente encontrar en los manuales de anlisis de datos frmulas para
la obtencin de los percentiles, deciles y cuartiles, dando lugar a resultados exactos, con sus
decimales si fuese el caso. Nosotros volvemos al planteamiento que expusimos con la

- 20 -

mediana: si los resultados no existen en la distribucin y debemos aproximarlos al valor


inmediatamente superior, de que nos ha servido el clculo matemtico?
Ahora que ya sabemos ubicar posiciones dentro de la distribucin, recordemos la
categorizacin que hicimos de nuestra variable inicialmente y construyamos una
distribucin de frecuencias con 5 niveles utilizando nuestros nuevos conocimientos. Es tan
sencillo como localizar los percentiles P20, P40, P60, P80 para establecer los intervalos de la
variable:
CATEGORIZACIN DE LA CAPACIDAD DE TRABAJO EN GRUPO
Xi
6 8
9 11
12 13
14 16
17 19

Capacidad muy baja


Capacidad baja
Capacidad media
Capacidad alta
Capacidad muy alta

Con estos resultados, la nueva divisin poco se parece a la que presentbamos al comienzo
del tema. Si entonces una puntuacin de 8 ubicaba a un sujeto en la categora capacidad
baja, ahora podemos decir de l que se halla en el nivel capacidad muy baja. Del mismo
modo, un sujeto con puntuacin igual a 11 pasa de tener una capacidad media a una
capacidad baja. Tal como venimos contando a lo largo del texto, realizar intervalos de una
variable es una cuestin muy delicada, mxime si no se tiene en cuenta del grupo el nmero
de sujetos en cada puntuacin.
Si para construir la tabla anterior hubisemos trabajado con una muestra representativa de
la poblacin constituida por un nmero elevado de sujetos, lo que se llama grupo normativo,
habramos obtenido con los ndices de posicin un baremo. Los baremos se emplean siempre
que se construyen cuestionarios para medir variables psicolgicas como inteligencia,
factores de personalidad, actitudes, aptitudes, etc. Su utilidad radica en que, una vez
construidos, podemos aplicar un cuestionario a un sujeto y clasificarlo en la variable medida
sin hacer conjeturas, simplemente buscando su puntuacin en el baremo. Por ejemplo, para
nuestro caso, un sujeto que obtiene en la prueba de capacidad una puntuacin de 16,
sabemos que, no siendo su puntuacin extremadamente alta (el mximo es 19), est en el
P90 o D9, es decir, que deja al 90 por ciento de los sujetos por debajo de s, lo cual indica una
posicin muy elevada en el grupo y, por tanto, debemos clasificarlo dentro de la categora
capacidad muy alta.

8. ndices de variabilidad
En el momento en que decidimos trabajar con estadsticos para entender el comportamiento
de una variable, resumir toda una distribucin en un valor representativo de la tendencia
central es insuficiente, porque nada nos dice de la homogeneidad o de la variabilidad de las
puntuaciones.

La varianza y la desviacin tpica


Segn los datos publicados por el Instituto Nacional de Estadstica (2008), el nmero
promedio de horas de sueo, incluidas las siestas, de los jvenes espaoles de entre 16 y 24
aos es de 7,97 (7,91 para los chicos y 8,03 para las chicas). Por otra parte, se sabe que
aproximadamente entre el 5 y el 10 por ciento de los pacientes que acuden a centros del
sueo, manifiestan una excesiva somnolencia. Para nuestro ejemplo, hemos registrado con
un polisomngrafo el nmero de horas de sueo (X1) de 5 pacientes afectados de
hipersomnia idioptica, con graves alteraciones en su vida personal, afectiva y social:

- 21 -

X 1:

10

11

12

13

14

La media calculada esX1 = 12, lo que significa que en promedio estos jvenes duermen 4
horas ms que la poblacin general. Sin embargo, puesto que los registros muestran
diferencias entre ellos, veamos cunto se distancia cada uno de su media:
10 12 = 2
11 12 = 1
12 12 = 0
13 12 = 1
14 12 = 2
Los resultados muestran alejamientos positivos y negativos (unos duermen ms y otros
menos, respectivamente, de las 12 horas de este grupo de hipersmnicos), con lo que
podramos plantearnos calcular el promedio de esas distancias como ndice de variabilidad.
En efecto, esto es precisamente lo que hace el estadstico desviacin media:

DM X1 =

( X i X1 )
n

Su frmula claramente refleja nuestras necesidades: saber cunto se alejan en promedio las
puntuaciones de su media. Si lo aplicamos a nuestros datos, veamos qu valor alcanza:
DM X1 =

( X i X 1 ) ( 2) + ( 1) + 0 + 1 + 2
=
=0
n
5

La razn del resultado anterior es muy sencilla: si nos fijamos en las diferencias, unas son
positivas y otras negativas, compensndose las unas con las otras, y siempre va a ocurrir
que ( X i X ) = 0 . 1
Entonces, si la desviacin media siempre va a ser igual a cero, debemos buscar otro ndice
que, siendo tan sencillo e informativo como ste, nos solvente el problema. Una posibilidad
sera trabajar con las diferencias en valores absolutos, pero stos resultan poco manejables
matemticamente y, por tanto, poco convincentes.
Otra opcin es calcular las diferencias, elevarlas al cuadrado y a partir de ah, su promedio.
Un ndice de dispersin computado as se denomina varianza:

S 2X =

(X i X )
n

Aplicndolo a los datos de la variable X1 (horas de sueo) tenemos:


(10 12)2 = 4
(11 12)2 = 1
(12 12)2 = 0
(13 12)2 = 1
(14 12)2 = 4
S 2X1 =

2
4 +1 + 0 +1 + 4
( X i X1 )
=
=2
n
5

Una frmula ms rpida de obtener la varianza, sobre todo cuando manejamos muchos
datos, es mediante la siguiente expresin:

- 22 -

S 2X =

Xi
X2
n
2

La varianza nos ha solucionado el problema de la desviacin media y se nos presenta como


un estadstico muy sencillo para saber cunto se diferencian las puntuaciones de un grupo;
sin embargo, nos surgen muchas dudas sobre este ndice: qu significa que la varianza de
las horas de sueo es igual a 2?, es un resultado alto, medio o bajo?, hasta qu punto es
descriptivo de unos datos cuando su valor es una cantidad cuadrtica?
En el siguiente ejemplo vemos las horas extras trabajadas por 6 empleados de una empresa:
Horas extras:

La media que obtiene esX = 5,3 y resulta bastante fcil de interpretar: en promedio, los
trabajadores han hecho 5 horas extras. Veamos la varianza:
S2X =

52 + 62 + 32 + 02 + 92 + 92
5,32 = 10,57
6

Resulta sorprendente que la varianza sea una cantidad que sale del rango de valores de la
variable nmero de horas extras. Esto se debe sencillamente a que su clculo implica la
suma de diferencias cuadrticas y, por consiguiente, tanto su valor como sus unidades
tambin son cuadrticos. En el ejemplo diramos que la varianza es 10,57 h2, lo cual nos
deja un poco perplejos.
Para solucionar esta situacin debemos retomar nuestras unidades originales. La forma
ms simple de hacerlo es calculando la raz cuadrada de la varianza, lo que nos lleva a un
nuevo ndice de variabilidad, la desviacin tpica:

S X = S 2X
En nuestro ejemplo:
SX = 10,57 = 3,2
Es decir, en promedio, las puntuaciones se desvan 3,2 h de la tendencia central del grupo.
Ahora bien, siendo la desviacin tpica un ndice que expresa la homogeneidad o disparidad
del grupo, significa el resultado anterior que los trabajadores realizan horas extras PVF de
la misma manera o por el contrario son muy distintos? Para esta pregunta no hay una
respuesta absoluta. En efecto, cualquier ndice de variabilidad, por s solo, en principio, no
tiene interpretacin. Por supuesto, una representacin grfica nos resultar de ayuda; sin
embargo, nos hubiese dado lo mismo en estos datos haber obtenido un resultado de 3,2 de
2,3. nicamente cuando tenemos dos o ms conjuntos de puntuaciones es cuando cobra
sentido interpretar las desviaciones tpicas. De hecho, son muy informativas porque nos
dirn en investigaciones reales que los sujetos de una muestra se parecen ms entre s, o
menos, que los sujetos de la otra.
Volviendo a nuestro ejemplo, pongamos por caso que las puntuaciones se referan a un
grupo de mujeres y ahora medimos la misma variable a un grupo de varones, obteniendo los
siguientes resultados:
Horas extras:

Media: X = 4
Desviacin tpica: 5,3

- 23 -

Las medias nos indican que las mujeres en conjunto han trabajado ms que los hombres y
las desviaciones tpicas nos dicen adems que sus puntuaciones han mostrado mayor
homogeneidad que los varones.
La varianza o la desviacin tpica no slo son muy informativas en situaciones en las que
queremos comparar la misma variable en diferentes grupos, como el caso anterior, sino
tambin cuando queremos, por ejemplo, estudiar la evolucin de una variable, para lo que
medimos a los mismos sujetos y la misma variable en dos momentos distintos. Ahora bien,
sea como fuere el escenario de comparacin, debemos tener muy en cuenta que
jams debern ser calculadas cuando no sea conveniente hacerlo con la media, de
cuyo valor dependen.

9. La relacin entre dos variables


La forma ms sencilla, intuitiva y clara de saber si dos variables estn relacionadas es
mediante la observacin de su representacin grfica. Veamos en las siguientes
ilustraciones a qu nos referimos:
MATRIZ DE DATOS Y DIFERENTES DIAGRAMAS DE DISPERSIN
Sujeto
1
2
3
4
5
6
7
8
9
10
11

Necesidad de poder
6
5
6
6
6
7
7
11
11
12
4

Motivacin positiva
30
30
30
35
45
40
45
55
60
65
21

Autoconcepto
7
8
5
12
8
9
7
6
6
9
9

- 24 -

Indiferencia laboral
30
30
30
35
45
40
45
55
60
65
21

Autodesarrollo
4
2
4
5
4
2
1
2
5
3
3

Ansiedad
7
11
5
5
6
9
13
8
4
9
6

La matriz de datos anterior es un ejemplo de aplicacin de la Escala de Motivaciones


Psicosociales (MPS) de J. Fernndez Seara (1999) a 11 trabajadores de una empresa. Entre
los aspectos motivacionales que incluye el cuestionario nosotros hemos extrado los
siguientes: necesidad de poder, es decir, la preocupacin que la persona tiene por conseguir
prestigio y xitos profesionales y de buscar los medios y condiciones para influir y dirigir a
otras personas; autoestima/autoconcepto, formado por tems que miden la necesidad de
poner a prueba la vala personal o profesional, realizar proyectos y alcanzar metas y
autoestima/autodesarrollo que recoge los motivos de logro, la realizacin personal y el
desarrollo de la propia iniciativa. Otras variables que se pueden encontrar en el manual del
cuestionario con las que se miden relaciones son: motivacin positiva hacia la accin,
indiferencia laboral y separacin entre el mundo privado y el laboral y ansiedad inhibidora
del rendimiento.
Los grficos anteriores se denominan diagramas de dispersin o nubes de puntos
y recogen la relacin entre diversas variables tomadas dos a dos. El procedimiento de
construccin es muy sencillo: en el eje de abscisas colocamos el rango de una variable y en el
de ordenadas el de la otra variable. Cada punto es el valor de un sujeto correspondiente a la
interseccin de su puntuacin en ambas variables. Por ejemplo, el sujeto 1 ha obtenido en
motivacin positiva un 30 y en necesidad de poder un 6. Buscamos en el eje horizontal el
valor 30 y en el vertical el 6 y su cruce es su punto. Tambin podemos verlo al revs: en el
segundo grfico, por ejemplo, el primer punto que vemos es la unin de un sujeto que ha
alcanzado un 5 en autodesarrollo y un 4 en ansiedad inhibidora; tal sujeto es el nmero 9 de
la matriz.
Observando el primer diagrama de dispersin podemos afirmar que los sujetos con mayor
grado de motivacin positiva para la accin muestran tambin niveles ms elevados de
necesidad de poder, y viceversa, los que tienen menor motivacin tambin presentan una
menor necesidad de poder. Se trata de una relacin positiva o directa y, sin necesidad de
mucha imaginacin, podemos ver que el conjunto de datos se encuentra en torno a una lnea
recta oblicua. En definitiva, podemos decir que entre las variables necesidad de poder y
motivacin positiva existe una relacin lineal directa o positiva.
El segundo diagrama muestra una relacin similar pero al revs. En efecto, a mayor
puntuacin en autodesarrollo menor en ansiedad inhibidora del rendimiento, o bien, a
menores valores en autodesarrollo se corresponden mayores en rendimiento. Tambin
podemos dibujar aqu una lnea imaginaria recta y oblicua, pero en sentido contrario de la
anterior. As pues, diremos que entre las variables existe una relacin lineal inversa o
negativa.
Por ltimo, la tercera nube de puntos tiene un comportamiento radicalmente distinto con
respecto a las anteriores. En este diagrama no podemos observar lnea recta alguna que se
ajuste a los datos como tampoco un patrn de asociacin que nos aclare la relacin entre las
variables autoconcepto e indiferencia laboral. Por tanto, nuestra conclusin es que entre las

- 25 -

variables no existe una relacin lineal. Esto no significa ausencia de relacin entre las
variables, pero s ausencia de relacin lineal. En el siguiente apartado vamos a estudiar
cmo cuantificar la relacin entre dos variables cuantitativas.

Covarianza de dos variables


A partir de la matriz de datos y de los diagramas de dispersin del apartado anterior
debemos apostillar dos observaciones importantes:
1. Los sujetos no muestran en general las mismas puntuaciones en las variables. Cierto es
que algunas se repiten, sin embargo, en conjunto son distintas debido, lgicamente, a
que el comportamiento humano presenta diferencias individuales, a pesar de la
tendencia central que tratemos de encontrar. Las diferencias individuales o la
variabilidad se cuantifican, como sabemos, con la varianza o la desviacin tpica.
2. Cuando nos planteamos la bsqueda de una relacin, en realidad, lo que nos
preguntamos es: una vez hemos constatado la variabilidad en una variable y en la otra,
varan en la misma lnea, es decir, a puntuaciones bajas (o altas) en una de ellas
corresponden puntuaciones bajas (o altas) en la otra, y al revs? O, por el contrario,
puntuaciones bajas en una variable (o altas) van acompaadas de puntuaciones altas
(o bajas) en la otra? En otras palabras, cmo es su variacin conjunta, cmo co-varan?
Es el estadstico covarianza el que precisamente nos responde a las preguntas anteriores.
Su calculo nos recordar a la de la varianza, pero adaptada al caso de dos variables. Sean X
e Y las variables que queremos relacionar y n el nmero de sujetos (no de observaciones) de
la matriz de datos. La covarianza es igual a:
SXY =

( X i X )( Yi Y )
n

donde: Xi es cada una de las puntuaciones de la variable X


Yi es cada una de las puntuaciones de la variable Y
n es el nmero de sujetos (no de observaciones)
i = 1, 2,, n
Una formulacin ms sencilla de aplicacin a partir de la ecuacin anterior es la siguiente:

S XY =

X i Yi
XY
n

Vamos a calcular la covarianza en un ejemplo. Supongamos que hemos seleccionado un


grupo de 15 trabajadores a los que hemos preguntado por la disposicin a trabajar en una
sucursal extranjera. Los resultados los presentamos a continuacin:
DISPOSICIN A TRABAJAR EN UNA SUCURSAL EXTRANJERA
Trabajador

Aprensin

Disposicin

1
2
3
4
5
6
7
8
9
10
11
12

12
7
6
13
10
10
14
6
7
6
10
4

2
5
5
2
3
2
1
7
4
4
2
5

Mn.

Mx.

Media

Desv. tp.

Aprensin

14

8,00

3,055

Disposicin

3,57

1,885

- 26 -

13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

S XY =

4
7
5
6
4
10
10
11
14
6
7
6
10
3
8
4
10
10

5
2
5
3
5
3
3
1
1
6
3
4
2
8
4
7
1
2

710
X i Yi
XY =
8 3,57 = 4,89
n
30

La covarianza resulta en un valor negativo, lo que indica una relacin inversa entre la
aprensin y la disposicin (tendra sentido una relacin directa?) Ahora bien, se trata de
una relacin lineal elevada o por el contrario es pequea? Estamos de acuerdo en que
cuanto mayor sea su cuanta mejor pero tiene un lmite? Como respuesta debemos decir
que no. Desgraciadamente, siendo un ndice tan sencillo e intuitivo, su interpretacin es
complicada, mxime teniendo en cuenta que depende de las unidades de medida de la
escala utilizada. Veamos los siguientes resultados:
CAMBIO DE UNIDADES DE LA VARIABLE DISPOSICIN A TRABAJAR EN EL EXTRANJERO
Sujeto

Aprensin

Disposicin (cambio de
unidades)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

12
7
6
13
10
10
14
6
7
6
10
4
4
7
5
6
4
10
10
11
14
6
7
6
10
3
8
4
10
10

4
10
10
4
6
4
2
14
8
8
4
10
10
4
10
6
10
6
6
2
2
12
6
8
4
16
8
14
2
4

Aprensin
Disposicin
(cambio de
unidades)

- 27 -

Mn.

Mx.

Media

Desv.
tp.

14

8,00

3,055

16

7,13

3,790

Tal y como vemos en la ilustracin anterior, el test para medir la disposicin en nuestro
ejemplo tiene ahora un rango 2 16, en lugar de 1 8. Mientras que el diagrama de
dispersin sigue siendo el mismo (dibuje el lector ambos diagramas para comprobarlo),
veamos qu ocurre con la covarianza:
S XY =

1420
X i Yi
XY =
8 7,13 = 9,71
n
30

Vistas as las cosas, parece que debemos buscar un ndice que no sea sensible al cambio de
unidades en las variables que estamos relacionando o, dicho de otro modo, un ndice carente
de unidades. Si no es as, difcilmente podremos interpretar cuantitativamente la relacin
entre dos variables. En el siguiente apartado lo presentamos.

Coeficiente de correlacin de Pearson


El coeficiente de correlacin de Pearson podemos obtenerlo a partir de la covarianza y de las
desviaciones tpicas de las variables:
rXY =

S XY
SX SY

Apliquemos la frmula a los datos de las variables:

rXY =

4,89
= 0,85
3,055 1,885

rXY =

9,71
= 0,84
3,055 3,790

Las diferencias con el resultado anterior se deben nicamente al redondeo que suponen las
operaciones con decimales. Por lo dems, teniendo en cuenta que los lmites de este
coeficiente son 1 y + 1, constatamos la elevada relacin entre las variables.
Del mismo modo que hemos hecho con otros estadsticos, vamos a presentar algunas
propiedades de este coeficiente, muy tiles para su interpretacin y aplicacin, y una serie
de precauciones a la hora de utilizarlo.
1. Como hemos comentado sus valores mximo y mnimo son 1 y 1, respectivamente, es
decir, 1 rXY 1, lo que facilita enormemente su interpretacin.
Vemoslo grficamente:

- 28 -

MXIMA CORRELACIN ENTRE LAS VARIABLES

rXY = 1

rXY = 1

Los puntos se encuentran exactamente encima de las lneas rectas, sin que aparezca
dispersin alguna (puntos alrededor de alguna de ellas), indicando una relacin
perfecta. De hecho, cualquier resultado fuera del rango 1 y 1
implicara,
necesariamente, un error de clculo.
2. El valor del coeficiente de correlacin se altera de forma importante ante la presencia
de valores extremos, que pueden serlo por su propia naturaleza o como producto de
casos ausentes en la distribucin, tal y como vimos que sucede con la media y la
desviacin tpica.
3. El tipo de relacin que cuantifica Pearson es nicamente lineal. Esto quiere decir que
un resultado igual o cercano a cero indica ausencia de linealidad entre las variables,
pudiendo existir otro tipo de relacin entre ellas. Un ejemplo lo podemos ver
grficamente:
RELACIN NO LINEAL ENTRE LAS VARIABLES

El grfico anterior muestra la relacin entre la intensidad de una descarga elctrica en


el cuerpo (X) y la sensacin de dolor que produce (Y). Claramente la relacin es no lineal
y sera un total disparate tratar de calcular el coeficiente de correlacin de Pearson
entre las dos variables. Normalmente, con las sensaciones aversivas como el
electroshock, la intensidad luminosa, el calor, el dolor, etc., encontramos este tipo de
relacin no lineal lo que se traduce en un importante mecanismo adaptativo de nuestro
organismo (L. Jez, 1989).
4. Si bien hemos presentado los lmites del valor del coeficiente, 1 y 1, indicando stos
una relacin lineal mxima y sabiendo que valores iguales o cercanos a 0 significan una
relacin nula, seguramente se preguntar el lector si existen tramos de valores que nos
ayuden a calificar una relacin como baja, mediana, alta, muy alta, etc. Por gracia o por
desgracia, no disponemos de un recetario para esta clase de interpretaciones.

- 29 -

Dependiendo la situacin en la que nos hallemos, un coeficiente igual a 0,50 puede


resultar suficientemente alto o por el contrario muy bajo.
5. Pearson mide una relacin, no una causalidad. Bajo ningn concepto debemos caer
en la ingenuidad de pensar que una variable causa la otra por el hecho de
manifestar una elevada relacin con ella. Para este tipo de afirmaciones
debemos proceder a estudios rigurosos de diseo experimental.

Coeficiente de correlacin Q de Yule


Cuando las variables son cualitativas, la relacin entre ellas podemos cuantificarla
mediante el coeficiente Q de Yule.
Q=

n 11 n 22 n 12 n 21
n 11 n 22 + n 12 n 21

Campo de variacin es 1 Q 1. Una asociacin positiva indicara que la modalidad 1 del


atributo A est asociada con la 1 del B y la modalidad 2 del atributo A est asociada con la
2 del B. En cambio, una asociacin negativa se interpretara como que la modalidad 1 del
atributo A est asociada con la 2 del B y la modalidad 2 del atributo A est asociado con la 1
del B. Un valor igual a cero hablara de independencia.
Veamos el siguiente ejemplo. Queremos determinar si la situacin laboral de una poblacin
es o no independientes del sexo. Los datos los encontramos en la siguiente tabla:

SITUACIN LABORAL DE UNA POBLACIN

Sexo

Empleados

Parados

Varn

8.267

1.581

9.848

Mujer

4.497

1.774

6.272

12.764

3.356

16.120

Si aplicamos la frmula, encontramos el siguiente resultado:


Q=

8267 1774 1581 4497


= 0,347
8267 1774 + 1581 4497

Aunque la relacin es positiva, indicando una asociacin de los varones con la ocupacin y
de las mujeres con el desempleo, tal asociacin puede calificarse como dbil.

- 30 -

31

ndices de forma y valores anmalos


Tradicionalmente, la estadstica ha utilizado, como pareja de ndices descriptivos para resumir el
comportamiento de una variable, la media aritmtica y la varianza (Palmer, 1999). Sin embargo, tambin
pueden establecerse otros dos tales como:

mediana y amplitud semi-intercuartil


moda e ndice de variacin cualitativa

Efectivamente, cuando tratamos con variables cuantitativas y la distribucin es simtrica, la media y la


desviacin tpica constituyen la mejor eleccin. Si con este tipo de variables la distribucin no es simtrica,
entonces lo adecuado ser decantarnos por la mediana y la amplitud semi-intercuartlica. Por su parte, la moda
y el ndice de variacin cualitativa, siendo poco informativos como nica alternativa para variables
cuantitativas, para variables cualitativas son la nica opcin posible.
Adems, muchas de las herramientas estadsticas que vamos a utilizar para analizar variables necesitan del
cumplimiento de ciertas condiciones que deben verificar nuestros datos para que las conclusiones a las que
lleguemos no resulten una falacia. Tales premisas, no slo hacen referencia a la naturaleza de las variables,
cualitativas o cuantitativas, sino tambin al ajuste de los datos a una determinada funcin matemtica y a la
ausencia de casos atpicos en la distribucin.
Con respecto al ajuste, lo primero que debemos hacer es la representacin grfica de nuestras distribuciones, de
modo que podamos ver qu forma tiene y, por tanto, qu tipo de anlisis de datos realizar. Si nos fijamos en las
figuras que presentamos a continuacin, y que corresponden a diferentes variables, si de algo podemos estar
seguros es que la funcin matemtica que subyace a los histogramas es diferente en cada caso. Pues bien, no
con todas ellas podremos utilizar las mismas herramientas estadsticas.
Como podemos observar, ninguna de las grficas son iguales, ni siquiera similares, lo que tiene un efecto
directo en los estadsticos a elegir (en las dos primeras distribuciones, por ejemplo, no debemos calcular una
media ni una desviacin tpica):

- 126 - Anlisis de datos.

El trmino tricotilomana
procede del griego trichos
(pelo), tylos (estirar) y mania
(impulso). Se trata de un
trastorno del control de los
impulsos consistente en el
arrancamiento del cabello.
Aunque la parte ms afectada
es la cabeza, puede abarcar
otras zonas: cejas, pestaas,
axilas, etc. Mientras que en
los nios las zonas de calvicie
se reparten por todo el cuerpo
al sentir menos vergenza, los
adultos se arrancan el pelo en
zonas ms difciles de
descubrir.
Por su parte, la tricofagia
consiste en engullir los propios
cabellos o de otra persona. Su
acumulacin en las vas
digestivas puede causar
trastornos serios debido al
bloqueo gstrico o intestinal,
hasta la necesidad de
soluciones quirrgicas.

PREVALENCIA DE LA TRICOTILOMANA EN UNA POBLACIN

0,40000000
0,35000000
0,30000000
0,25000000
0,20000000
0,15000000
0,10000000
0,05000000
0,00000000
1

11

13

RECONOCIMIENTO DE UN ESTMULO VISUAL

90
80
70
60
50
40
30
20
10
0

NO

ndices de forma y valores anmalos. - 127 -

NOTAS DE UNA CLASE DE ESTUDIANTES


35
30
25
20
15
10
5
0

10

Por otro lado, debemos estar prevenidos de la presencia de casos extremos o ausentes en la distribucin antes
de iniciar cualquier tipo de anlisis de los datos:
CONDUCTA ECOLGICA RESPONSABLE DE UN
GRUPO DE ADOLESCENTES

60,00

40,00

20,00

0,00

11 2

- 128 - Anlisis de datos.

Entindase bien que en el


contexto de anlisis de
datos, el trmino normal
carece de cualquier
significado o sentido que no
sea el meramente
estadstico.

Comprobamos que los casos 11 y 2 estn muy alejados del grueso de la distribucin, indicando una
responsabilidad fuera de lo normal. Cualquier clculo que realicemos, como ya sabemos, dar resultados que
poco representarn al conjunto de sujetos.
ACTITUD HACIA LA INTEGRACIN DE EMIGRANTES
Stem-and-Leaf Plot
Frequency
Stem &

Una puntuacin anormal


puede ser perfectamente
posible en la realidad, slo
que en el conjunto de los
datos est muy alejada de la
tendencia central del grupo.

5,00
,00
,00
13,00
8,00
9,00
8,00
2,00
Stem width:

8
9
9
10
10
11
11
12

.
.
.
.
.
.
.
.

Leaf
67889

0000000000000
99999999
000000000
55566778
00

10,00
Each leaf:

1 case(s)

En este caso, el rango de la distribucin oscila entre las puntuaciones 86 y 120, sin embargo hay una ausencia
de puntuaciones entre los valores 89 y 100.
Examinar la forma de la distribucin y el tipo de variable es el primer paso antes de escoger ningn ndice
estadstico, ni instrumento, en general, de anlisis de datos. Haciendo nuestro el lema de Palmer (1999, pg.
58) el anlisis descriptivo debera empezar con los datos, no con los resmenes de los datos y en total acuerdo
con l al afirmar que las representaciones visuales y los valores observados son ms importantes que las
representaciones numricas y los resmenes de los datos, veremos en este tema cmo partiendo de los primeros
podemos extraer conclusiones interesantes en nuestras investigaciones utilizando los segundos.

La distribucin normal
Su representacin grfica y la ecuacin matemtica que la define son:

Y=

1
2

( X )2
2 2

donde Y: ordenada correspondiente a un valor X en el eje de abscisas

ndices de forma y valores anmalos. - 129 -

= 3,1415
e = 2,7182 base del sistema de logaritmos neperianos o naturales
: desviacin tpica del conjunto de valores
: media del conjunto de valores
X: valor cualquiera en el eje de abscisas

Los parmetros que definen esta funcin son la media () y la desviacin tpica () de la variable X y, en
funcin de los valores de estos parmetros, la curva tendr una u otra forma (vase la figura ms abajo). En
efecto, para cada par de valores de media y desviacin tpica tendremos una curva normal distinta, es decir,
una familia de infinitas curvas, pero todas ellas tienen las siguientes propiedades en comn:
1. La curva es simtrica respecto al valor Y = , que se corresponde adems con su nico mximo.
2. Sus extremos se acercan asintticamente al eje de abscisas, es decir, nunca llegan a tocarlo.
3. Tiene dos puntos de inflexin que corresponden a los valores X = + y X = - , pasando de ser de
cncava a convexa, y viceversa.

- 130 - Anlisis de datos.

EJEMPLOS DE DISTRIBUCIONES NORMALES CON DIFERENTE MEDIA Y DESVIACIN TPICA

Como sabemos, la inteligencia espacial engloba aptitudes tales como: capacidad de observacin, sentido de la
direccin, razonamiento espacial, anticipacin a las consecuencias de cambios espaciales, razonamiento fsicomecnico, etc., tratndose todas ellas de habilidades para razonar con contenidos no verbales ni culturales y
que reflejan la capacidad perceptiva, analtica y lgica. Supongamos que al departamento de recursos humanos
de una multinacional se presentan 58 aspirantes para cubrir 10 puestos en el servicio de ingeniera
aeronutica. Con anterioridad al pase de la batera de tests para evaluar la aptitud espacial (X), hemos
decidido establecer 3 categoras atendiendo a sus posibles valores para clasificar a cada sujeto en alta, media y
baja capacidad, segn la puntuacin final que obtenga. Tras las pruebas, los resultados con su representacin
grfica son los siguientes:
DISTRIBUCIN CON 3 INTERVALOS

Xi

ni

24 30
17 23
10 16

12
29
17
Aptitud espacial

ndices de forma y valores anmalos. - 131 -

Siendo el rango de la variable 10 30, y con las categoras establecidas, constatamos una mayor concentracin
de sujetos con puntuaciones medias y, comparando los valores bajos y altos en aptitud, hay una proporcin ms
elevada de los primeros. Si en lugar de los tres intervalos anteriores hubisemos establecido 7, la distribucin y
la representacin quedaran como sigue:
DISTRIBUCIN CON 7 INTERVALOS
Xi

ni

28 30
25 27
22 24
19 21
16 18
13 15
10 12

3
6
10
14
12
8
5

Aptitud espacial

La grfica sigue mostrando una mayora de sujetos con puntuaciones medias y, fuera de esta tendencia central,
sigue habiendo ms sujetos con puntuaciones bajas que altas. Ahora vamos a presentar los datos agrupados sin
intervalos:
DISTRIBUCIN SIN INTERVALOS
Xi

ni

30
29
28
27
26
25
24
23
22
21
20
19
18

1
1
1
1
2
3
3
3
4
4
5
5
4

- 132 - Anlisis de datos.

17
16
15
14
13
12
11
10

4
4
3
3
2
2
2
1

Juego de aptitud espacial:


Tenemos un estanque
cuadrado, en cuyos ngulos
crecen, cerca del agua,
cuatro viejos robles.

Aptitud espacial

Hay que ensanchar el


estanque, haciendo que su
superficie sea el doble,
conservando su forma
cuadrada y sin tocar los
viejos robles.

Podemos advertir que las barras del histograma se van estrechando cada vez ms y que el polgono tambin se
perfila ms. Si en lugar de los 58 fuesen infinitos sujetos y el instrumento perfecto en el registro de los datos,
las barras del histograma se estrecharan interminablemente y el polgono podra convertirse en una curva
normal:

ndices de forma y valores anmalos. - 133 -

DISTRIBUCIN CON INFINITOS VALORES Y/O INSTRUMENTO DE MEDIDA PERFECTO

Aptitud espacial

Nunca nos encontraremos con una distribucin as, obviamente; sin embargo, si con nuestros datos podemos
obtener polgonos que se acerquen a la curva normal, dispondremos de multitud de potentes tcnicas
estadsticas para realizar anlisis complejos en nuestras investigaciones.
Los alejamientos a la curva normal no slo los podemos verificar grficamente, sino tambin
cuantitativamente, mediante los ndices de forma, concretamente, con los estadsticos de simetra y los
estadsticos de apuntamiento. A ellos nos dedicaremos en los siguientes apartados.

5.2. Simetra de una distribucin


Una aproximacin muy sencilla a la cuantificacin de la simetra de una distribucin es mediante la
comparacin de los cuartiles. En efecto, si nuestra distribucin es simtrica y unimodal, se cumplir:
Q3 Q2 = Q2 Q1
Es decir, que la distancia entre el cuartil 3 y el cuartil 2 es la misma que la que hay entre el cuartil 2 y el
cuartil 1 (vanse las figuras ms adelante).
Cualquier alejamiento de esta igualdad, querr decir que nuestra distribucin es asimtrica. La asimetra
puede venir dada, o bien porque tenemos frecuencias absolutas altas en los valores bajos de la distribucin

- 134 - Anlisis de datos.

(asimetra positiva), o bien al revs, porque hay muchos valores altos de la variable y pocos en las puntuaciones
ms bajas (asimetra negativa). En cada una de estas dos situaciones se cumple:

Asimetra positiva:

Q3 Q2 > Q2 Q1

Asimetra negativa:

Q3 Q2 < Q2 Q1

Los tres casos de simetra y asimetras los podemos observar en las siguientes ilustraciones:
TIPOS DE DISTRIBUCIN SEGN SU ASIMETRA

Simtrica

Asimtrica positiva

Asimtrica negativa

Teniendo en cuenta las igualdades anteriores podemos desarrollar el siguiente ndice de asimetra:
AS =
Con:

(Q 3 Q 2 ) (Q 2 Q1 ) (Q 3 Q 2 ) (Q 2 Q1 )
=
(Q 3 Q 2 ) + (Q 2 Q1 )
Q 3 Q1
1 < AS < 1
AS > 0 distribucin asimtrica positiva
AS < 0 distribucin asimtrica negativa

Si nos fijamos en la frmula y en los grficos, podra darse una situacin de asimetra positiva extrema cuando
Q2 fuese igual a Q1, con lo que Q2 Q1 = 0 y, por tanto, AS sera igual a 1. Del mismo modo, si nos

ndices de forma y valores anmalos. - 135 -

encontrsemos ante una total asimetra negativa, Q3 sera igual a Q2, con lo que Q3 Q2 = 0 y, por tanto, AS
sera igual a 1. De ah que el mximo y mnimo sean 1 y 1, respectivamente.
Sabemos que difcilmente, por no decir imposible, tendremos una distribucin que sea perfectamente simtrica.
Es cierto que siempre habr alguna asimetra en nuestros datos. La cuestin es decidir cundo podemos
considerarla simtrica o no teniendo en cuenta la afirmacin anterior. Pues bien, este estadstico posee dos
ventajas que nos van a ayudar en su interpretacin: por un lado, se trata de un valor abstracto (hemos divido
dos distancias medidas en las mismas unidades), lo que lo hace directamente comparable con otros ndices as
obtenidos en otras distribuciones; por otro lado, tiene un valor mximo y un valor mnimo (-1, + 1), lo que
facilita su interpretacin.
Vamos a aplicar el coeficiente de asimetra expuesto a nuestros datos:
OBTENCIN DEL COEFICIENTE DE ASIMETRA
Xi

ni

na

pa

QK

30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10

1
1
1
1
2
3
3
3
4
4
5
5
4
4
4
3
3
2
2
2
1

58
57
56
55
54
52
49
46
43
39
35
30
25
21
17
13
10
7
5
3
1

1,00
0,98
0,96
0,95
0,93
0,90
0,84
0,79
0,74
0,67
0,60
0,51
0,43
0,36
0,29
0,22
0,17
0,12
0,09
0,05
0,02

Q3
Q2
Q1
-

- 136 - Anlisis de datos.

AS

(Q 3 Q 2 ) (Q 2 Q1 ) ( 23 19) (19 16)


=
= 0,14
Q 3 Q1
23 16

El ndice de asimetra positivo nos indica que, al medir la variable aptitud espacial en nuestro grupo de sujetos,
stos han mostrado ms puntuaciones bajas que altas. No obstante, tal y como nos muestra el histograma de la
figura, no se trata de un alejamiento importante de la simetra. Podemos concluir que la distribucin es
bastante simtrica.
HISTOGRAMA DE LA APTITUD ESPACIAL
Normal

Algunos coeficientes de
asimetra son:

Primer Coeficiente de
Asimetra de Pearson:
As1 =

X Mo
SX

Segundo Coeficiente de
Asimetra de Pearson:
As2 =

3 ( X Md)
SX

En cualquiera de los dos, si


el coeficiente es igual a cero
hablamos de simetra; si es
mayor o menor que cero, nos
hallamos ante una asimetra
positiva o negativa,
respectivamente.

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Existen otros ndices de asimetra basados en los estadsticos de posicin, que pueden consultarse en cualquier
manual de Anlisis de Datos. Todos ellos, con sus variaciones en su clculo, dan lugar al mismo resultado:
comprobar cuantitativamente si una distribucin es o no simtrica. Creemos que con un ndice sencillo e
intuitivo, como el que hemos presentado, es ms que suficiente, siempre y cuando, por supuesto, partamos de la
representacin grfica de la distribucin, que es lo ms clarificador para nuestras decisiones en este sentido.
Por otro lado, tambin se han propuesto otros ndices de asimetra, como por ejemplo el Primer y Segundo
Coeficientes de Asimetra de Pearson u otros, basados en el clculo de la media y de la desviacin tpica y para
los que tambin se puede acudir a cualquier manual. Nosotros no los vamos a estudiar aqu porque, en nuestra

ndices de forma y valores anmalos. - 137 -

opinin, y en coherencia con lo expuesto en temas anteriores, hasta no comprobar que una distribucin es
simtrica no debemos calcular su media aritmtica y, por tanto, tampoco su desviacin tpica.

5.3. Apuntamiento de una distribucin


Del griego , kirtotes, curvatura, los ndices de curtosis o apuntamiento nos miden cun apuntada es
nuestra distribucin o, en otras palabras, nos indican la mayor o menor concentracin de valores en torno a un
estadstico de tendencia central, as como en las colas, tomando como referencia para la ello la curva normal.
Partiendo de una distribucin unimodal, ms o menos simtrica y con varianza similar a una distribucin
normal, se pueden destacar las siguientes situaciones en nuestros datos:

Distribucin mesocrtica (, mesos: medio). El apuntamiento es medio y se corresponde con la


curva normal. Las frecuencias ms altas se encuentran en los valores medios de la distribucin y su
disminucin es gradual.

Distribucin platicrtica (, plats: ancho, extendido). El apuntamiento es bajo, menos que el de la


curva normal, estando las frecuencias muy repartidas entre los valores de la distribucin.

Distribucin leptocrtica (, lepts: delgado, estrecho). El apuntamiento es alto, ms que el de la


curva normal. Sucede cuando las frecuencias ms altas corresponden a pocos valores muy cercanos a la
tendencia central. Adems, las colas acumulan menos casos que una distribucin normal.
TIPOS DE DISTRIBUCIN SEGN SU APUNTAMIENTO O CURTOSIS

Exite un cierto desconocimiento


general con el concepto de
curtosis. La mayora de los
manuales presenta un grfico
como el siguiente:

La confusin radica en que la


curtosis implica un movimiento de
masa de la distribucin, sin
implicar un cambio en la varianza
(DeCarlo, 1997), como es el caso
siguiente:

Ambas distribuciones tienen la


misma varianza, siendo la
punteada una distribucin
Mesocrtica

Platicrtica

Leptocrtica

- 138 - Anlisis de datos.

Como hicimos en el caso de la simetra, presentaremos un estadstico basado en los ndices de posicin para
cuantificar el apuntamiento de una distribucin.
El estadstico de apuntamiento de Kelley, K2, se basa en la concentracin de puntuaciones entre los deciles 9 y 1
(D9 y D1) y los cuartiles primero y tercero (Q1 y Q3):
K2 =

D9 D1
1,9 (Q 3 Q1 )

De manera que si:

Con 7 tems cada uno de


ellos, los otros factores de
la escala son:
Fantasa (FS), la
capacidad imaginativa
del sujeto para ponerse
en situaciones ficticias.
Preocupacin emptica
(EC), los sentimientos de
compasin, preocupacin
y cario ante el malestar
de otros.
Malestar personal (PD),
los sentimientos de
ansiedad y malestar que
el sujeto manifiesta al
observar las experiencias
negativas de los dems.

K2 = 1, la distribucin es mesocrtica.
K2 > 1, la distribucin es leptocrtica.
K2 < 1, la distribucin es platicrtica.

Vamos a aplicarlo a un ejemplo. Sabemos que la empata, entendida como la capacidad de percibir en un
contexto lo que un individuo puede sentir, constituye un buen predictor del xito en la comunicacin con los
pacientes. Dicho esto, un profesor decide evaluarla en un grupo de estudiantes de la rama sanitaria, tanto en
su primer da de clase como tras el perodo de formacin, con el fin de comprobar si se ha producido un cambio
en esta faceta de la inteligencia emocional. En ambos momentos utiliza el Interpersonal Reactivity Index (IRI)
en su adaptacin espaola (realizada por V. Mestre, M.D. Fras y P. Samper, 2004); sin embargo, antes de
proceder a los anlisis, debe explorar la simetra y apuntamiento de sus variables. Presentamos los resultados
al inicio del curso para el factor toma de perspectiva (PT) de la escala, definida como la habilidad para
comprender el punto de vista de la otra persona.
RESULTADOS DEL FACTOR TOMA DE PERSPECTIVA (PT)
PT
N
As imetra
Percentiles

10
25
50
75
90

116
,000
9,0000
13,0000
17,5000
22,0000
26,0000

Fijmonos que la distribucin tiene una simetra perfecta, algo poco habitual. Veamos cul es su apuntamiento:

ndices de forma y valores anmalos. - 139 -

K2 =

D9 D1
26 9
=
= 0,99
1,9 (Q 3 Q1 ) 1,9 ( 22 13)

Un valor como el anterior indica que la distribucin es platicrtica. Con el fin de comparar los resultados
obtenidos de simetra y apuntamiento con una distribucin normal (que resultara de haber medido el test a
infinitos sujetos con un instrumento perfecto en su precisin) y constatar visualmente las diferencias,
presentamos el histograma (distribucin emprica) y la curva (distribucin terica):
DISTRIBUCIN EMPRICA Y TERICA
8

0
0

10

12

14

16

18

20

22

24

26

28

30

32

34

Un anlisis grfico, en todos los casos, es ms clarificador que una cuantificacin.


Por otro lado, si en lugar de trabajar con 116 sujetos hubisemos recogido puntuaciones de muchos ms sujetos,
tambin podramos habernos planteado la realizacin de un baremo ms ajustado. De este modo, tras pasar a
un sujeto cualquiera el cuestionario, podramos ubicarlo rpidamente en un nivel de empata alta, media, baja,
etc., segn la clasificacin de nuestro inters. En el siguiente tema profundizaremos ms en esta cuestin.

- 140 - Anlisis de datos.

Hasta aqu hemos estudiado cmo comprobar el alejamiento de un histograma a la distribucin normal
analizando su simetra y su apuntamiento. La falta de estas propiedades puede deberse, o bien a la propia
naturaleza de la variable estudiada, o bien a la presencia de algunos valores atpicos. En el primer caso,
debemos pensar que no todas las variables medidas en un grupo deben seguir necesariamente una curva
normal, tal como vimos en los ejemplos al inicio del tema. Recordemos que al hablar de asimetra o curtosis lo
hemos hecho partiendo de distribuciones unimodales y en las que suponemos una curva normal subyacente. As
pues, en esos ejemplos carecera de sentido decir que el histograma no cumple con las condiciones requeridas y
tendramos que conformarnos con la utilizacin de estadsticos que, sin ser tan potentes como la media o la
desviacin tpica, tambin son informativos, como la mediana, la moda, la amplitud semi-intercuartil, etc.
El segundo caso que hemos planteado es aquel en el que la distribucin, siendo unimodal y ajustndose en su
mayora a la curva normal, presenta valores atpicos o extremos. Esta situacin, que tambin puede darse en
cualquier otro tipo de distribucin no necesariamente la normal, hay que analizarla con cautela debido a sus
posibles consecuencias. Vemosla ms detalladamente en el siguiente apartado.

5.4. Casos anmalos


En toda investigacin, para un correcto anlisis de los datos, nos encontraremos con la necesidad del
cumplimiento de una serie de condiciones por parte de nuestra distribucin. De otro modo, no podremos
llevarlos a cabo. Sin ir ms lejos, hemos visto que el clculo de la media requiere que nuestro histograma sea,
cuando menos, simtrico. Acabamos de estudiar cmo evidenciar la falta de simetra, o el grado de
apuntamiento, de una distribucin en su conjunto. Veamos ahora cmo analizar aquellos casos que pueden
provocar distorsiones en la forma de la distribucin.
Descubrir estos casos es tremendamente fcil, la mayora de las veces, con la simple inspeccin visual. El
histograma, el polgono, los grficos de caja o los diagramas de tallo y hojas, por citar algunos y tan familiares
ya para nosotros, constituyen herramientas sencillas para advertir de la presencia de casos extremos. No
obstante, tambin aqu disponemos de multitud de ndices, con mayor o menor grado de complejidad, para la
cuantificacin de los lmites, a partir de los cuales se puede clasificar a una puntuacin como anmala o
extrema. Algunos se apoyan en el clculo de la media y de la desviacin tpica. Para todo este tipo de
estadsticos se puede volver a comentar lo mismo que para aquellos que miden asimetra y apuntamiento: al
incluir los valores anmalos en su obtencin, muchos de estos podrn dejar de serlo.
Otras frmulas, ms adecuadas en nuestra opinin, se fundamentan en los estadsticos de posicin y lo que
miden es el alejamiento de una puntuacin con respecto a una cantidad de veces la distancia definida por la
amplitud intercuartil. Sin embargo tambin aqu se produce un mayor o menor detalle al distinguir entre
puntuaciones adyacentes, atpicas y extremas en funcin del mayor o menor distanciamiento (vase por
ejemplo Solanes et al, 2005).

ndices de forma y valores anmalos. - 141 -

En un intento de sencillez, y sin perder de vista todo lo ya expresado en relacin con las representaciones
grficas, podemos simplificar la cuantificacin de la siguiente manera:
[(Q1 1,5 A) Xi] o [(Q3 + 1,5 A) Xi]
Es decir, todo valor que se aleje por la izquierda del primer cuartil (Q1) o por la derecha del tercer cuartil (Q3)
1,5 veces la longitud definida por la amplitud intercuartil (A), ser considerada atpico o extremo. Podemos ver
grficamente la anterior afirmacin:
LOCALIZACIN DE LOS VALORES ATPICOS O EXTREMOS

Amplitud intercuartil

Frontera
Inferior

Q1

Md

FI = Q1 1,5A

Q3

Frontera
Superior

FS = Q3 + 1,5A

Recordemos que la amplitud semi-intercuartil viene dada por:


Q=

Q 3 Q1
2

Pues bien, la amplitud intercuartil ser entonces:


A = Q 3 Q1
Retomemos el ejemplo de la aptitud espacial del apartado 5.2. Si aplicamos las frmulas, tenemos como
resultados:
Frontera superior = Q3 + 1,5 A = 23 + 1,5 7 = 33,5
Frontera inferior = Q1 1,5 A = 16 1,5 7 = 5,5

- 142 - Anlisis de datos.

De este modo, aquellas puntuaciones mayores que 33 o menores que 5, podramos considerarlas extremas. En
nuestro caso, no tenemos ninguna fuera de esos lmites, lo cual no hace sino constatar lo que ya muestra el
histograma de frecuencias.
La cuestin que nos surge inmediatamente es qu hubisemos hecho con los valores atpicos de haberlos
considerado como tales. Lo primero que debemos plantearnos es, si siendo extremos, son o no plausibles en la
variable estudiada. Un caso atpico aunque posible, por ejemplo, sera aqul en el que medimos la inteligencia a
un grupo de nios. En el momento en que uno de ellos obtuviera en el test una puntuacin extremadamente
elevada, siendo inusual, sera totalmente verosmil en la distribucin. En esta situacin, sabemos que
determinados ndices estadsticos no se pueden calcular, como la media o la desviacin tpica y, en
consecuencia, pueden hacrsenos imposibles otros anlisis que dependan de estos ms bsicos. Podemos acudir
entonces a otros estadsticos ms resistentes como la mediana o desviacin semi-intercuartil, que tambin son
muy informativos. Sin embargo, nos podemos encontrar con lmites muy serios si deseamos realizar anlisis
ms complejos con ellos, a pesar de los avances cada vez ms espectaculares en esta lnea de investigacin.
Tenemos dos posibilidades entonces: eliminar los casos atpicos para facilitar nuestra tarea de analistas o
mantenerlos sabiendo que poco podemos hacer con la distribucin de datos.
Estadstico resistente es
aqul cuyo resultado no se
ve afectado por los valores
extremos de la distribucin
o por los cambios
producidos en ellos.

Las dos opciones anteriores se convierten en un dilema, en tanto en cuanto la primera deriva en un problema
moral y la segunda en un problema estadstico, todo ello debido a las alteraciones de la muestra o de las
variables que conllevan. Parte de los conflictos de tipo moral se pueden reducir si el investigador considera que
los casos extremos no forman parte de la poblacin de partida y los elimina, pero no debemos olvidar que
depurar la muestra es respetable; eliminar casos porque s es sospechoso (Tabachnick y Fidell, 1983, p.74).
Por tanto, deberemos tener un profundo conocimiento terico y prctico de nuestras variables para decantarnos
por esta accin (pensemos en la generalizacin de los resultados a la poblacin).
Cuando las puntuaciones que aparecen como extremas, por el contrario, forman parte de la poblacin de
partida y lo que ha sucedido es que la recogida de datos no ha sido adecuada, provocando un hueco en la
distribucin, lo mejor ser aumentar la muestra. En ocasiones esto no resulta factible y, en un intento de
centralizarlas, existen tcnicas de transformacin de la variable que pueden solventar en parte o totalmente el
problema (en otros temas las presentaremos). Si las tentativas de solucin han sido infructuosas y decidimos no
utilizar los casos extremos en los anlisis subsiguientes, o bien resolvemos eliminar la variable al completo,
debemos notificar en nuestros informes acerca de su presencia y de su eliminacin, incluso si se trata de la
variable en su totalidad, y por supuesto de las razones, que estarn bien fundamentadas, que nos han llevado a
realizar estas maniobras (que, por otro lado, deberan evitarse a toda costa).
Una lnea que en la actualidad va cobrando fuerza propone, desde la perspectiva del anlisis exploratorio de
datos, el clculo de determinados ndices resistentes de tendencia central y de variabilidad que se basan en los
valores centrales de la distribucin y en la modificacin de la formulacin de la media y de la desviacin tpica
tradicionales. Veamos a continuacin algunos de estos estadsticos.

COMPARABILIDAD
PUNTUACIONES

DE

ESCALAS

Cada variable que midamos da como resultado una escala de valores diferente de las dems. Po ejemplo, el
rendimiento acadmico, tiene como posibles valores una escala con rango 0 10 puntos, existen otros, como el
cociente intelectual, que puede oscilar entre 55 y 135; o como el nivel de expectativas de la Escala de
motivaciones psicosociales (J.I. Fernndez, 1999), cuyo rango es 0 16; o la ansiedad de mujeres adolescentes
en el STAI (C.D. Spielberg, R.L. Gorsuch, y R.E. Lushene, 1986), cuyas puntuaciones se encuentran entre 0 y
60, etc., variables todas ellas con su media y su desviacin tpica particulares. Es ms, en cada una, al
aplicarlas a diferentes grupos de sujetos, sus rangos reales pueden cambiar dentro de sus extremos de manera
que las medias y las desviaciones tpicas tambin sean distintas, segn los sujetos a los que se les aplique. Por
tanto, cualquier tipo de comparacin que hagamos entre las puntuaciones (de distintas variables o de la misma
variable en diferentes grupos, etc.) requiere tener en cuenta las medias y las desviaciones tpicas obtenidas en
cada distribucin.
Vista la utilidad de la desviacin tpica como unidad de medida, siendo prcticos, podramos converger las
escalas motivo de nuestro inters en otras, cuyas unidades de medida sean iguales y por tanto sus
puntuaciones no se vean afectadas por ellas, de este modo, la comparacin sera directa. En efecto, podemos
realizar esta interesante operacin, para lo cual, deberemos convertir las puntuaciones directas de cada
variable en otras que las hagan equiparables. Nos referimos a las puntaciones tpicas, de las que vamos a tratar
a continuacin.

Las puntuaciones tpicas


Las puntuaciones tpicas no son ms que la transformacin lineal de las puntuaciones directas, en la que se
tiene en cuenta la media y la desviacin tpica de la variable que se transforma:
Zi =

Xi X
SX

Gracias a esta transformacin de las puntuaciones directas podemos construir escalas de puntuaciones tpicas
de las variables con las que nos interese realizar cualquier tipo de comparacin. A este proceso se le llama
tipificacin. Conviene aclarar que desviacin tpica y puntuacin tpica son conceptualmente diferentes.
Mientras que la primera hace referencia al grupo, en el que hay diversas puntuaciones y una sola desviacin

- 156 - Anlisis de datos.

tpica, la segunda alude a todas y cada una de las puntuaciones de la distribucin. No obstante, las
puntuaciones tpicas siempre nos indicarn cuntas desviaciones tpicas se separa una puntuacin de su
media: podemos afirmar que un sujeto tiene una puntuacin tpica igual a 3, que es lo mismo que decir que
supera a la media una distancia de 3 desviaciones tpicas. Una analoga til pata comprender este concepto es
pensar: la desviacin tpica es la unidad de la escala de puntuaciones, como el centmetro o el gramo lo son de
un metro o de una balanza.

Propiedades de las puntuaciones tpicas


Las puntuaciones tpicas sean comparables entre s. La respuesta la encontramos en las siguientes
propiedades:
1. En la escala de puntuaciones tpicas la media siempre es igual a 0 y la desviacin tpica es igual a 1,
sea cual fuere la escala de de puntuaciones directas:
Z=

0
Zi
( X i X ) / SX
(Xi X)
=
=
=
=0
N
N
SX N
SX N

SZ2 =

2
2
2
S2
( Zi Z )
Zi
( X i X ) / SX
=
=
= X2 = 1
N
N
N
SX

2. Se trata de valores que no vienen expresados en ninguna unidad de medida, es decir, son nmeros
abstractos.
3. S se trasforman linealmente las nuevas puntuaciones tienen como media B y como desviacin tpica A
en valor absoluto.
Las nuevas puntuaciones son:
Ti = AZi + B
Segn acabamos de ver:
Z=0
Por tanto:

SZ2 = 1

Puntuaciones tpicas. - 157 -

T = AZ +B= A0+B=B
S T2 = A 2 S Z2 = A 2 1 = A 2 y ST = A (recuerdes que S es la raz positiva de S2)

Puntuaciones tpicas y percentiles


Acabamos de ver cmo las puntuaciones tpicas nos permiten interpretar la puntuacin directa de un sujeto. Si
recordamos los ndices de posicin, tambin con ellos situbamos al sujeto dentro de su distribucin, con lo cual,
tambin podamos interpretar de algn modo su distancia al promedio del grupo. Significa esto que las
puntuaciones tpicas y los percentiles son intercambiables? Desde luego que no. Debemos ser muy cautelosos,
sobre todo, cuando nos hallamos ante distribuciones asimtricas.
Vamos a presentar dos ejemplos en los que las distribuciones son exageradamente asimtricas, que nos
ilustrarn sobre lo que acabamos de afirmar. En el primero, hemos medido en dos grupos (hombres y mujeres)
de pacientes con esquizofrenia la cantidad de conductas de colaboracin (X) en las actividades ldicas de un
centro, resultando que la media y la desviacin tpica son iguales en ambos. Los datos y las representaciones
grficas los vemos en las tablas siguientes:
RESULTADOS EN UN GRUPO DE HOMBRES CON ESQUIZOFRENIA
N
Media
Desv. Tp.
Asimetra

Vlidos

10
3,0000
1,05409

,712

Frecuencia

Porcentaje

Porcentaje
acumulado

40,0

40,0

3,00

30,0

70,0

4,00

20,0

90,0

5,00

10,0

100,0

Total

10

100,0

2,00

3
2
1
0

- 158 - Anlisis de datos.

RESULTADOS EN UN GRUPO DE MUJERES CON ESQUIZOFRENIA


N
Media
Desv. Tp.

10
3,0000
1,05409

Asimetra

-,712

Frecuencia
Vlidos

Porcentaje

Porcentaje
acumulado

1,00
2,00

1
2

10,0
20,0

10,0
30,0

3,00

30,0

60,0

4,00

40,0

100,0

Total

10

100,0

3
2
1
0

Medias y desviaciones tpicas son iguales en hombres y mujeres, sin embargo, las distribuciones de frecuencias,
ambas muy asimtricas, tienen un reparto completamente diferente. Veamos qu sucede con un hombre y una
mujer cuyas puntuaciones directas son iguales:
XH = 2

ZH = 0,95

P40 = 2

XM = 2

ZM = 0,95

P30 = 2

Efectivamente, el hombre y la mujer tienen la misma puntuacin directa y tpica, sin embargo, mientras que el
primero deja por debajo de s al 40 por ciento de los hombres, la segunda slo deja al 30 por ciento de las
mujeres. Comprobamos que a puntuaciones tpicas (y directas) iguales, corresponden percentiles diferentes.
En el segundo ejemplo presentamos el mismo registro anterior de las puntuaciones de hombres y mujeres con
esquizofrenia, pero en esta ocasin las medias y desviaciones tpicas de las mujeres son diferentes a las de los
hombres:

Puntuaciones tpicas. - 159 -

RESULTADOS EN UN GRUPO DE HOMBRES CON ESQUIZOFRENIA


N
Media
Desv. Tp.

10
3,0000
1,05409

Asimetra

,712
3

Frecuencia
Vlidos

2,00
3,00

Porcentaje
acumulado

Porcentaje

40,0

40,0

30,0

70,0

4,00

20,0

90,0

5,00

10,0

100,0

Total

10

100,0

10

12

10

12

RESULTADOS EN UN GRUPO DE MUJERES CON ESQUIZOFRENIA


N
Media
Desv. Tp.

10
8,0000
2,10819

Asimetra

-,712

Frecuencia
Vlidos

Porcentaje

Porcentaje
acumulado

4,00
6,00

10,0

10,0

20,0

30,0

8,00

30,0

60,0

40,0

100,0

10

100,0

10,00
Total

- 160 - Anlisis de datos.

Medias y desviaciones tpicas son distintas en los dos grupos. Veamos qu sucede cuando un hombre y una
mujer tienen la misma puntuacin tpica:
ZH = 0,95

XH = 2

P40 = 2

ZM = 0,95

XH = 6

P30 = 6

Lo que ocurre ahora es que las puntuaciones directas son diferentes, as como los porcentajes de sujetos que
dejan por debajo cada uno de ellos. En otras palabras, a puntuaciones tpicas iguales, corresponden
puntuaciones directas y percentiles diferentes.
Las dos situaciones anteriores nos indican dos cuestiones muy importantes. En primer lugar, podemos utilizar
tanto las puntuaciones tpicas como los percentiles para situar a un sujeto dentro de su distribucin, lo cual es
muy interesante para poder interpretar su puntuacin directa en una variable. En segundo lugar, cuando nos
encontramos ante distribuciones asimtricas, pueden resultar diferentes estos ndices, por lo que la
comparabilidad de sujetos pertenecientes a dos o ms grupos a partir de las puntuaciones tpicas, en caso de
realizarla, hay que hacerla con mucha cautela. Recordemos una vez ms, que el clculo de la media y la
desviacin tpica en distribuciones asimtricas en absoluto es recomendable y, por tanto, tampoco la
transformacin a puntuaciones tpicas.
Por el contrario, cuando las distribuciones son simtricas y adems mesocrticas, es decir, se ajustan a la curva
normal, grupos diferentes en los que se miden las mismas o distintas variables son comparables hasta el punto
de que dos personas con la misma puntuacin tpica tendrn prcticamente el mismo percentil. Es ms,
podemos relacionar estrechamente las puntuaciones tpicas con la curva normal, lo que resultar de gran
aplicacin en la investigacin. En el siguiente apartado presentamos algunos apuntes.

Puntuaciones tpicas y la distribucin normal


Efectivamente, cuando nos encontramos ante distribuciones en cuyos histogramas y polgonos subyace una
curva normal podemos hacer multitud de operaciones de gran utilidad con las puntuaciones. Cierto es que la
mayor ventaja la advertiremos en los temas dedicados a probabilidad e inferencia estadstica, no obstante, aun
cuando nos hallamos en una etapa ms exploratoria podemos descubrir conclusiones interesantes.
Vamos a presentar un ejemplo para ilustrar este apartado. Desde el mbito de la Psicologa de la Salud se sabe
que algunos factores de personalidad estn relacionados con la incidencia de la enfermedad fsica.
Concretamente, el optimismo disposicional, que se refiere a la creencia de que el futuro depara ms xitos que
fracasos y que incluye expectativas de alcanzar resultados positivos en el futuro y un componente de eficacia
personal, ha sido vinculado con el estatus de salud y el bienestar fsico (A. Martnez, R. del Paso, A. Garca y

Puntuaciones tpicas. - 161 -

M.I. Gonzlez, 2006). En este sentido, las personas pesimistas muestran un mayor nmero de estrategias de
afrontamiento pasivo y una mayor manifestacin de afectividad negativa (ansiedad, desesperanza, indefensin,
etc.) que las optimistas. Adems, sabemos que el Test de orientacin vital-Revisado (LOT-R) de M.F. Scheider,
C.S. Carver y M.W. Bridges (1994) est formado por 10 tems que miden el optimismo/pesimismo disposicional.
Algunas de las preguntas son: En tiempos difciles, suelo esperar lo mejor; Si algo malo me tiene que pasar,
estoy seguro de que me pasar; Rara vez, espero que las cosas salgan a mi manera, etc. Tras validarlo en
nuestra poblacin, nuestro objetivo es aplicarlo a una muestra amplia con el fin de realizar un baremo.
Una vez hemos administrado el cuestionario a 1380 sujetos, hemos construido el histograma. A la vista del
grfico, tenemos razones para pensar con estos datos, y de forma nada descabellada, que si midisemos a toda
la poblacin el polgono se ajustara a una distribucin normal, a pesar de las discrepancias que encontramos
en la muestra. Tanto el grfico obtenido con los 1380 sujetos, como su comparacin con la curva normal,
podemos observarlos en las figuras siguientes:
OPTIMISMO DISPOSICIONAL EN 1380 SUJETOS
100

80

60

40

20

0
0

10

15

20

25

30

35

- 162 - Anlisis de datos.

DISTRIBUCIN EMPRICA Y CURVA NORMAL


Media
Desv .Est.
N

100

17,97
5,288
1380

80

60

40

20

0
0

10

15

20

25

30

35

Cuando trabajamos con la curva normal, es muy prctico operar con las puntuaciones tpicas, en lugar de
directas. Recordemos la ecuacin:

f (x ) =

1
2

( X ) 2
2 2

< x < +

Siendo y los parmetros de la ecuacin referidos a la media y desviacin tpica, respectivamente, el


exponente de esta funcin nos recuerda a la frmula para la obtencin de las puntuaciones tpicas. As pues,
podemos hacer un cambio de variable utilizando:
Z=

Puntuaciones tpicas. - 163 -

De manera que la funcin se transforma en:

f (z ) =

1
2

z2
2

Veamos la ecuacin convertida, los valores de Z, la media y la desviacin tpica en la siguiente figura:
DISTRIBUCIN NORMAL EN PUNTUACIONES TPICAS

Y=

con:

-3

-2

-1

1
2

Z2
2

Z = 0
SZ = 1

Cualquier distribucin simtrica y unimodal cuyo polgono se acerque a la curva normal podemos traducirla a
puntuaciones tpicas. En el eje horizontal, donde antes tenamos los valores de la variable X, ahora tenemos sus
correspondientes puntuaciones Z. Obsrvese en el grfico anterior que la media de la distribucin esZ = 0 y la
desviacin tpica SZ = 1 (recurdense las propiedades de las puntuaciones tpicas ya vistas).
En relacin con los porcentajes, entre la puntuacin tpica Z = 3 y la puntuacin tpica Z = 3 se encuentra el
99,72 por ciento central de las puntuaciones de la distribucin. As, cuando Z = 0 sta deja por debajo de s al 50
por ciento de los sujetos, lo que se corresponde con un percentil P50. En este caso, escala de percentiles y escala
de puntuaciones tpicas son equiparables.

- 164 - Anlisis de datos.

En la siguiente tabla ponemos la equivalencia entre algunas puntuaciones tpicas, la proporcin acumulada y
algunos percentiles para distribuciones simtricas y unimodales, es decir, para aquellas que se ajustan a una
distribucin normal:
PUNTUACIONES TPICAS Y PERCENTILES
Zi

pa

-3,50
-3,00
-2,50
-2,00
-1,50
-1,28
-1,00
-0,67
-0,50
0,00
0,50
0,67
1,00
1,28
1,50
2,00
2,50
3,00
3,50

0,0002
0,0014
0,0062
0,0228
0,0668
0,1000
0,1587
0,2500
0,3085
0,5000
0,6915
0,7500
0,8413
0,9000
0,9332
0,9772
0,9938
0,9986
0,9998

PK

10
25
50
60
75
90

Por ejemplo, una puntuacin tpica Z = 1,28 deja por debajo de s una proporcin de sujetos igual a 0,1000 o, lo
que es lo mismo, a un 10 por ciento. Por tanto, la puntuacin Z = 1,28 equivale al percentil P10.

Puntuaciones tpicas. - 165 -

Volvamos a nuestro ejemplo y veamos las puntuaciones directas, tpicas y percentiles de la escala de optimismo
disposicional, as como la representacin grfica de las puntuaciones directas y tpicas:
PUNTUACIONES DIRECTAS, TPICAS Y PERCENTILES DEL OPTIMISMO DISPOSICIONAL
Puntuacin directa Frecuencia Porcentaje acumulado Percentil Puntuacin tpica
6,00

10

0,7

7,00

15

1,8

-2,26
-2,07

8,00

20

3,3

-1,88

9,00

30

5,4

-1,69

10,00

40

8,3

-1,50

11,00

55

12,3

12

-1,31

12,00

60

16,7

16

-1,12

13,00

70

21,7

21

-0,94

14,00

80

27,5

27

-0,75

15,00

85

33,7

33

-0,56

16,00

90

40,2

40

-0,37

17,00

95

47,1

47

-0,18

18,00

95

54,0

54

0,005

19,00

90

60,5

60

0,19

20,00

85

66,7

66

0,38

21,00

80

72,5

72

0,57

22,00

80

78,3

78

0,76

23,00

70

83,3

83

0,95

24,00

65

88,0

88

1,14

25,00

50

91,7

91

1,32

26,00

40

94,6

94

1,51

27,00

30

96,7

96

1,70

28,00

20

98,2

98

1,89

29,00

15

99,3

99

2,08

30,00

10

100,0

99

2,27

- 166 - Anlisis de datos.

HISTOGRAMAS Y CURVA NORMAL EN PUNTUACIONES DIRECTAS Y TPICAS

En el caso de medir a un sujeto cualquiera su optimismo disposicional, si ste obtiene una puntuacin directa
en la escala igual a 20, consultando la tabla sabemos que, siendo su puntuacin tpica 0,38 y su percentil 66,
este sujeto tiene un optimismo por encima de la media, aunque no se destaque en demasa. Evidentemente, se
trata de un ejemplo con pocos sujetos. Para poder hacer estas interpretaciones, las escalas de puntuaciones
deberan construirse con muestras an ms amplias, de modo que las discrepancias entre los histogramas y la
curva normal sean menores y los valores de percentiles ms ajustados.
Una aplicacin de las puntuaciones tpicas, en principio interesante y tambin muy difundida, es la localizacin
de casos atpicos. Como convencin, se considera un valor extremo aquel que se encuentra por encima o por
debajo 3 desviaciones tpicas de la media o, lo que es lo mismo, su puntuacin es mayor que Z = + 3 o menor que
Z < 3 , visto que el 99,72 por ciento de los sujetos centrales se encuentra dentro de este intervalo. No obstante,
no recomendamos esta prctica como mtodo de bsqueda de valores anmalos, puesto que, a fuerza de ser
repetitivos, el clculo de la media y desviacin tpica de la variable incluir necesariamente esa o esas
puntuaciones anmalas, con lo cual queda invalidado y, por tanto tambin, la transformacin de todas las
puntuaciones directas en tpicas.

Puntuaciones tpicas. - 167 -

Puntuaciones tpicas, escalas derivadas y baremos


Hasta el momento hemos podido constatar la importancia y utilidad de las puntuaciones tpicas. En efecto, nos
permiten interpretar rpidamente una puntuacin directa sin necesidad de acudir a la distribucin al completo,
ni a la media, ni a la desviacin tpica. Independientemente de la variable que estemos midiendo, un sujeto que
tenga, por ejemplo, una Z = 2,5, sabremos que no slo supera el promedio de su grupo, sino que lo hace una
distancia dos veces y media la desviacin tpica de su distribucin. Adems, teniendo en cuenta que entre 3 y
3 se sita el 99,72 por ciento de todos los sujetos, su puntuacin indica que est notablemente por encima de
la media de su grupo. Si adems la distribucin se ajusta a una curva normal, concretamente dejar por debajo
al 99,38 por ciento de los sujetos, es decir, su percentil es P99. La practicidad de las puntuaciones tpicas es
inmediata: podemos construir un baremo con cualquier tipo de variables y cuando apliquemos una prueba a un
sujeto concreto podremos evaluar su puntuacin de forma rpida y sencilla.
Con todo, an podemos encontrar algn inconveniente a las puntuaciones tpicas: la mitad de ellas son valores
negativos y, salvo 7 puntuaciones enteras, todas las dems son decimales. Se han propuesto diversas
transformaciones para vencer este escollo, pero sin perder las propiedades de la escala original, de modo que
ambas sean equivalentes. Tales soluciones constituyen las escalas derivadas y su obtencin se hace mediante la
aplicacin de una transformacin lineal definida por:
Ti = AZi + B
Donde:

T=B

S T2 = A 2

ST = A

De este modo, podemos transformar las puntuaciones tpicas en otras, sumando y multiplicando las dos
constantes (la media y la desviacin tpica, respectivamente) que resulten de nuestra comodidad o de nuestro
inters. Algunos ejemplos son los siguientes:

Puntuaciones T:

Ti = 10Zi + 50

(media = 50 y desviacin tpica = 10)

Estatinos :

Si = 2Zi + 10

(media = 10 y desviacin tpica = 2)

Coeficiente intelectual:

CIi = 15Zi + 100

(media = 100 y desviacin tpica = 15)

Eneatipos:

Ei = 2Zi + 5

(media = 5 y desviacin tpica = 2)

Decatipos:

Di = 2Zi + 5,5

(media = 5,5 y desviacin tpica = 2)

- 168 - Anlisis de datos.

Las escalas derivadas suelen ser elaboradas por los constructores de cuestionarios psicomtricos en la
obtencin de los baremos. Por ejemplo, el Inventario diferencial de adjetivos para el estudio del estado de nimo
(J.M. Tous y A.A. Pueyo, 1991) utiliza eneatipos con rango 1 9; el test Naipes G, una prueba de inteligencia
general no verbal (N. Garca y C. Yuste, 2004), transforma las puntuaciones tpicas a una escala S con media
igual a 50 y desviacin tpica de 20 y rango 3 97; el Inventario de pensamiento constructivo de S. Epstein
(2001) utiliza puntuaciones T con rango 22 78 y un largo etctera.

Variables aleatorias discretas


En temas anteriores hemos aprendido a utilizar la estadstica descriptiva para definir una variable a partir de
la forma de su distribucin de frecuencias, de su media y de su desviacin tpica, o bien de su mediana y de su
amplitud semi-intercuartil, dependiendo de las caractersticas de la distribucin y de la naturaleza de la
variable. Sin embargo, el trabajo no puede acabar ah, dado que nuestro objetivo es extender nuestra
explicacin ms all de la muestra, es decir, llegar a la poblacin.
Un artculo publicado en Infocop Online (2007) afirma que segn los ltimos estudios realizados en China, el
13,7 por ciento de los adolescentes usuarios de Internet cumplen con los criterios de un trastorno desadaptativo
de la red, lo que ha provocado que el gobierno, mediante la aprobacin de leyes desde 2007, limite el uso de
juegos a travs de Internet a menos de 3 horas al da. La pregunta que nos hacemos es: podemos utilizar el
estudio realizado en la muestra para extraer conclusiones sobre todos los adolescentes del pas? Sabemos que
no podemos trabajar con toda la poblacin china; entonces, hasta qu punto los resultados muestrales pueden
representar a todo el conjunto?
Si tenemos que realizar afirmaciones como la anterior, el paso de la muestra a la poblacin implicar
necesariamente el uso de la probabilidad, ya que difcilmente podremos medir a todos los sujetos. La ventaja
fundamental al utilizar las herramientas de la probabilidad ser que nuestras conclusiones sobre las
caractersticas desconocidas de la poblacin, a partir de las caractersticas conocidas de la muestra, siempre las
podremos efectuar con mrgenes probabilsticos de certeza y tambin de error. De otro modo, nuestros estudios
quedaran limitados a la muestra donde los hayamos realizado.

Muestra aleatoria y asignacin de probabilidades


Un experimento aleatorio es un ensayo en el que no podemos predecir sus resultados. Veamos un ejemplo para
ilustrar esta definicin. Como sabemos, el comportamiento electoral despierta un gran inters por su relevancia

Criterios, en el estudio, de un
uso inadaptado:
Uso excesivo: prdida de la
nocin del tiempo o
abandono de necesidades
bsicas (comer o dormir).
Abstinencia: sentimientos
de rabia, ira, tensin o
depresin ante la
imposibilidad de acceder al
ordenador o conectarse a la
red.
Tolerancia: resistencia cada
vez mayor a las
gratificaciones de Internet,
necesitando mejores
ordenadores, software u
horas de uso.
Repercusiones negativas:
discusiones frecuentes,
mentiras, baja realizacin
personal, aislamiento social

social y econmica. De este modo, el estudio de la decisin de voto ha dado lugar a mltiples trabajos en
diferentes mbitos, tales como la Microeconoma, la Sociologa, el Marketing y, cmo no, la Psicologa Poltica.
Desde esta ltima, se sabe que la confianza poltica, la eficacia poltica, la obligacin cvica y la identificacin
con el partido son variables psicosociales relacionadas con la conducta de voto. Nuestro inters es construir un
modelo explicativo con estas variables y compararlo con los resultados en unas prximas elecciones a celebrar.
As pues, adems de medir las anteriores variables psicosociales, debemos registrar en una muestra de sujetos
su intencin de voto para las prximas elecciones. En este caso, si escogiramos al azar a 10000 personas y les
preguntramos a qu partido votarn, A, B, C y D, tendramos 10000 datos que, en principio, no podramos
pronosticar. Por el contrario, si acudiramos a una organizacin afiliada a un partido ecologista, con los
resultados que obtuviramos, independientemente de las caractersticas psicolgicas de los votantes,
difcilmente podramos afirmar que constituyen una muestra al azar sobre la intencin de voto. En el primer
caso nos hallaramos ante un experimento aleatorio, mientras que, en el segundo, no. Para una u otra
situacin, tendramos muestras de distinta naturaleza:

Muestra aleatoria. Es el resultado obtenido tras un experimento aleatorio. Los datos que la conforman
pueden considerarse representativos de la poblacin a la que pertenecen. Por ejemplo, una muestra
aleatoria la obtendramos a partir de las siguientes respuestas de los sujetos sobre la intencin de voto: A,
B, B, C, C, C, blanco, D, D, A, blanco, B, A, D, D, blanco, blanco, B, A,.

Muestra no aleatoria. Es aquella que no es representativa porque no se ha obtenido mediante un


experimento aleatorio. En nuestro ejemplo, si las respuestas las hemos recogido en una empresa
relacionada directamente con un partido ecologista, los resultados, que no seran aleatorios, podran ser: D,
D, D, blanco, D, D, blanco, D, D, blanco, blanco, D, D, D, D, D, D,

Realizar pronsticos sobre la poblacin en general con los datos de la segunda muestra sera, desde luego, un
total desatino. Nosotros trabajaremos con muestras aleatorias, a partir de las cuales realizaremos inferencias
sobre los valores desconocidos de la poblacin. Aunque d la impresin de entrar en un contexto nuevo del
anlisis de datos, enseguida nos daremos cuenta cmo la aplicabilidad de la probabilidad a los fines que nos
interesan (saber que ocurre en la poblacin a partir de los que ocurre en una muestra) retoma los conceptos de
la estadstica descriptiva ya vistos, pero adaptndolos al caso de tener infinitos valores o de realizar infinitas
repeticiones de un mismo experimento aleatorio.
Lo ideal con la recogida de datos anterior, adems de tener un modelo explicativo de la intencin de voto, sera
dar respuesta a la pregunta de cul ser el partido ganador en las prximas elecciones. Para esta cuestin es
ms apropiado plantearnos cul es la probabilidad de salir elegido cada uno de los cuatro partidos anteriores y,
para responderla, tenemos dos posibilidades:

-2-

En primer lugar, disponemos de cuatro partidos (A, B, C y D), por tanto, la probabilidad ser el nmero de
casos favorables dividido entre el nmero de casos posibles. Es lo que se llama enfoque a priori (o clsico).
En este caso, para cada partido, la probabilidad de ser elegido es:
p (A) =

1
= 0,25
4

p ( B) =

1
= 0,25
4

p (C) =

1
= 0,25
4

p ( D) =

1
= 0,25
4

ASIGNACIN A PRIORI DE PROBABILIDADES


1
0,8
0,6
0,4
0,2
0
A

Es decir, teniendo en cuenta que no disponemos de datos previos, todos los partidos tienen la misma
probabilidad de salir vencedores.

En cambio, si tenemos resultados obtenidos a partir de una muestra aleatoria, nuestros pronsticos sern
ms concretos. Supongamos que de las 10000 personas, 5000 han elegido el partido A; 3500 el partido B;
500 el partido C y 1000 el partido D. En este caso, la asignacin de probabilidades ser por el procedimiento
a posteriori (o frecuentista) y diremos que el ser el partido A el que saldr elegido, por ser el que tiene una
mayor probabilidad:
p (A) =

5000
= 0,50
10000

p ( B) =

3500
= 0,35
10000

p (C) =

-3-

500
= 0,05
10000

p ( D) =

1000
= 0,10
10000

ASIGNACIN A POSTERIORI DE PROBABILIDADES

1
0,8
0,6
0,4
0,2
0
A

Como vemos, un caso u otro dan lugar a diferentes resultados, pero en los dos el azar es la piedra angular para
realizar los pronsticos. Por otro lado, observemos que en ambas situaciones, la suma de probabilidades es
siempre igual a 1.

La nica certeza que se puede


obtener es una probabilidad
razonable.
E. W. Howe
Escritor, (1853-1937)

Antes de continuar presentando conceptos fundamentales con los que vamos a tratar en los prximos temas,
cabe aqu una pequea reflexin en relacin con la asignacin de probabilidades y, sobre todo, con la
interpretacin de las mismas. Es muy diferente afirmar que el 2 por ciento de pacientes de un hospital tiene
una enfermedad mental diagnosticada a decir que, si escogemos al azar un enfermo del hospital, habr una
probabilidad de 0,02 de que pertenezca a la unidad de salud mental. Ambos datos se habrn calculado de la
misma manera, sin embargo, la interpretacin de esos nmeros es distinta: cuando decimos que el 2 por ciento
est vinculado a la unidad de salud mental, estamos describiendo un grupo determinado y no existe
incertidumbre con respecto a esa cifra. En cambio, cuando pensamos en seleccionar a un paciente al azar, antes
de la seleccin nada sabemos, se trata de una situacin donde existe incertidumbre con lo que la asignacin de
probabilidades ser muy importante y, en este caso, decir que probablemente no ser un paciente con
enfermedad mental (p = 0,98, segn la asignacin a posteriori) ser ms razonable que afirmar que lo mismo
puede ser un paciente con enfermedad mental que no (p = 0,50, segn la asignacin a priori).
Del mismo modo, cuando nos presentan un dato probabilstico, deben mostrarnos el origen y el tamao del
grupo del que se ha obtenido. Si nos dicen que slo el 20 por ciento del personal de enfermera de un hospital
son hombres y, por tanto, la probabilidad de escoger al azar a un enfermero es de 0,20, puede ser que la
muestra en la que se ha calculado la probabilidad corresponda a la unidad de obstetricia y ginecologa, puede
ser que se haya obtenido a partir de una muestra de 10 personas, puede ser que se haya observado en los

-4-

primeros 20 enfermeros que han entrado a trabajar, puede ser que se haya medido en la cafetera, etc.; es decir,
puede ser una medida obtenida de cualquier manera, todo menos al azar.

Variables aleatorias
Volviendo al ejemplo de la intencin de voto, veamos ahora cmo entendemos el concepto de variable bajo el
paraguas de la probabilidad. Los resultados de nuestro experimento (el espacio muestral) aleatorio no son
numricos, sino letras que representan a los partidos y operar con letras no parece muy prctico. Pues bien,
llamaremos variable aleatoria a aquella funcin que permite otorgar un nmero a cada uno de los
posibles resultados del experimento aleatorio. En nuestro caso, el experimento aleatorio es preguntar a
10000 personas por su intencin de voto y registrar sus respuestas. Una regla que podemos establecer es la
asignacin de un nmero a cada uno de los diferentes partidos que puede salir vencedor, por ejemplo, 1 al A, 2
al B, 3 al C y 4 al D. De este modo, la variable aleatoria X atribuye los siguientes resultados al experimento
aleatorio: 0 (si hay empates), 1, 2, 3 y 4.
Deberemos distinguir entre variable aleatoria discreta y variable aleatoria continua. En efecto, entenderemos
por la primera aqulla que puede tomar un nmero finito o infinito numerable de valores. Esto es lo mismo que
decir que se trata de una variable cuyos valores no tienen posibilidad de otro intermedio. Podemos tener
variables aleatorias discretas a partir del gnero, del partido poltico, del tipo de enfermedad, de los aos de
vida, del nmero de sntomas de una enfermedad, etc.
Por su parte, una variable aleatoria continua es aquella que toma un nmero infinito no numerable de valores
o, dicho con otras palabras, aqulla en la que puede haber infinitos valores intermedios entre cada dos de sus
modalidades. Variables de este tipo son la edad, la inteligencia, la motivacin, etc., slo que, como ya sabemos,
debido a la imperfeccin de los instrumentos de medida, deberemos discretizarlas.

Funcin de probabilidad y funcin de distribucin de las v.a.d.


Para desarrollar este apartado, como viene siendo habitual, lo vamos a introducir con un ejemplo. La
amaxofobia (del griego antiguo , maxa, carro, y fobia, phobos, miedo) es la fobia o miedo a conducir un
vehculo que afecta, segn un estudio del Instituto Mapfre (2005), al 33 por ciento de los conductores. Entre los
sntomas nos encontramos con la angustia al volante, el bloqueo mental, el agarrotamiento muscular, las
palpitaciones, las conductas de evitacin y la ansiedad anticipatoria. Nuestra intencin es elaborar una escala
de gravedad del trastorno, para lo cual debemos proceder, en primer lugar, a registrar el nmero de sntomas

-5-

que padecen las personas con amaxofobia. Los resultados, as como los estadsticos media y varianza, los
mostramos en la siguiente tabla:
DISTRIBUCIN DE FRECUENCIAS

X=

ni

na

pi

pa

1
2
3
4
5

8
10
15
25
12

8
18
33
58
70

0,114
0,143
0,214
0,357
0,172

0,114
0,257
0,471
0,827
1,000

70

1,000

Xi ni
= x i p i = 1 0,114 + 2 0,143 + 3 0,214 + 4 0,357 + 5 0,172 = 3,33
N

S 2X =

Xi ni
X 2 = x i2 p i X 2 = 12 0,114 + 2 2 0,143 + 32 0,214 + 4 2 0,357 + 5 2 0,172 3,332 = 1,535
N
2

En la tabla podemos observar que 10 pacientes han manifestado tener dos de los posibles sntomas, 15 afirman
tener tres, vemos que la mayora sufre cuatro sntomas y la minora, 8 pacientes, muestra uno slo. En
promedio, las 70 personas tienen alrededor de 3 sntomas, y ste sera nuestro mejor pronstico si nos
preguntaran cuntos sntomas tendr un paciente cualquiera de amaxofobia. Dmonos cuenta que no se trata
ms que de una sencilla situacin resuelta desde la estadstica descriptiva.
Supongamos ahora que no hemos realizado el experimento aleatorio y nos formulan la misma pregunta
anterior. Para responder, sin disponer de una recogida de datos previa, deberemos efectuar la asignacin de
probabilidades desde el enfoque clsico o a priori. En este caso, la probabilidad de manifestar 1, 2, 3, 4 o 5
sntomas es la misma:

-6-

DISTRIBUCIN DE PROBABILIDADES (enfoque a priori)


X

pi = f (xi)

pa = F (xi)

1
2
3
4
5

1/5 = 0,20
1/5 = 0,20
1/5 = 0,20
1/5 = 0,20
1/5 = 0,20

0,20
0,40
0,60
0,80
1,00

1,00

En esta tabla podemos ver las similitudes entre las probabilidades asignadas (pi) y las proporciones o
frecuencias relativas de la tabla anterior (pi), sumando ambas 1. En realidad se trata de lo mismo, slo que bajo
este nuevo contexto hablamos de funcin de probabilidad y que definimos como la probabilidad de que la
variable aleatoria asuma cada uno de sus posibles valores. Es decir:
f (xi) = P (X = Xi) = pi

Se cumple siempre:

f (x i ) = 1

Por otro lado, llamaremos funcin de distribucin de una variable aleatoria a la probabilidad de que asuma
un valor o menor:
F (xi) = P (X Xi) = pa
De nuevo, debemos constatar que la funcin de distribucin, la tercera columna de la tabla con las
probabilidades acumuladas, es semejante a las proporciones acumuladas que veamos en la tabla anterior de la
distribucin de frecuencias.

Esperanza matemtica y varianza terica de las v.a.d.


Si en estadstica descriptiva definamos una variable por su media, en el contexto de la probabilidad tambin
podemos hacer lo mismo, slo que ahora hablaremos de esperanza matemtica, por ser la media que
obtendramos si tuvisemos infinitos valores. Se calcula multiplicando cada valor de la variable aleatoria por su
funcin de probabilidad (obsrvese su semejanza con la frmula de la media aritmtica):

-7-

E( X ) = X i f ( X i )
Aplicando la frmula a nuestros datos:
E( X ) = 1 0,20 + 2 0,20 + 3 0,20 + 4 0,20 + 5 0,20 = 3
Los resultados as calculados son similares a los obtenidos en la tabla de la distribucin de frecuencias y nos
indican tambin que un paciente con amaxofobia manifestar 3 sntomas de la enfermedad.
Por su parte, la varianza se denomina varianza terica y se calcula mediante la expresin:
X2 = x i2 f ( x i ) [ E( X )]2
En esta ocasin, tambin su obtencin nos recuerda a la frmula vista en estadstica descriptiva. En nuestros
datos, la varianza terica es igual a:
X2 = 12 0,20 + 2 2 0,20 + 32 0,20 + 4 2 0,20 + 52 0,20 32 = 2
Veamos ahora qu pronstico haramos desde un enfoque a posteriori o frecuentista. En este momento, si tras
la recogida de los datos de, por ejemplo, 1000 pacientes, construimos la siguiente distribucin, la asignacin de
probabilidades sera diferente de la anterior, como tambin la esperanza matemtica y la varianza terica:
DISTRIBUCIN DE PROBABILIDADES (enfoque a posteriori)
X

ni

pi = f (xi)

pa = F (xi)

1
2
3
4
5

50
150
350
400
50

0,05
0,15
0,35
0,40
0,05

0,05
0,20
0,55
0,95
1,00

1000

1,00

E( X ) = 1 0,05 + 2 0,15 + 3 0,35 + 4 0,40 + 5 0,05 = 3,25

-8-

2X = 12 0,05 + 2 2 0,15 + 32 0,35 + 4 2 0,40 + 5 2 0,05 3,25 2 = 0,88


Presentamos una tabla resumen que esperamos ayude al lector a revisar las semejanzas entre las
distribuciones de frecuencias (empricas) y las funciones de probabilidad (tericas) de las variables aleatorias
discretas:
VARIABLES ALEATORIAS DISCRETAS
Distribucin de frecuencias

Funcin de probabilidad

X: todos los valores de la variable observados

X: todos los valores posibles en un experimento aleatorio

Proporcin o frecuencia relativa = pi

Funcin de probabilidad: f(Xi) = P (X = Xi) = pi

Proporcin o frecuencia acumulada = pa

Funcin de distribucin: F (Xi) = P (X Xi) = pa

Media: X = X i p i

Esperanza matemtica: E( X ) = X i p i

2
Varianza: S X
= X i2 p i X 2

2
Varianza terica: X
= X i2 p i [ E( X )]2

Siempre que nos encontremos con situaciones en las que se vea implicada una variable aleatoria discreta no
tenemos por qu ir construyendo la tabla con sus funciones de probabilidad y de distribucin para obtener su
esperanza matemtica y su varianza terica. En funcin de las condiciones de partida del experimento y de las
caractersticas de la variable aleatoria, podemos ajustar estas distribuciones a alguna distribucin (modelo
terico de probabilidad) ya conocida.
Efectivamente, el trabajo con variables aleatorias discretas se simplifica mucho cuando podemos encontrar
algn modelo terico que se ajuste a ellas segn sus propiedades. Existen diversas distribuciones tericas bien
conocidas, nosotros vamos a presentar tres: la distribucin de Bernoulli, la distribucin binomial y la
distribucin de Poisson.

-9-

Distribucin de Bernoulli
Se trata del caso ms simple de distribucin aleatoria discreta. Siempre que realicemos un experimento
aleatorio con dos posibles resultados, independientes y excluyentes, nos encontraremos ante una variable que
sigue la distribucin de Bernoulli. Un ejemplo muy sencillo es aquel en el que la respuesta a un tem slo tiene
dos posibilidades: acierto y error, designadas habitualmente como 1 y 0, respectivamente.

si es la probabilidad de acierto (de observar el valor 1), entonces llamaremos (1 ) a la probabilidad de error
(de observar el valor 0):
= P (X = 1)
1 = P (X = 0)
Bajo las condiciones anteriores, la funcin de probabilidad de X viene dada por:
f ( X i ) = x i (1 )1 x i

(X = 0, 1 )

Mientras que la funcin de distribucin sigue siendo, como sabemos:


F( X i ) = P( X X i )
Veamos en la siguiente tabla estas probabilidades:
DISTRIBUCIN DE BERNOULLI
X

f(Xi)

F(Xi)

0 (error)

1 (xito )

+ (1 ) = 1

La esperanza matemtica es igual a:

- 10 -

E(X) =
Y la varianza terica:
2X = (1 )
Una variable aleatoria discreta X que siga este modelo la expresamos de la siguiente manera:
X Bernoulli [ ; (1 )]
donde y (1 ) constituyen, como acabamos de ver, la esperanza matemtica y la varianza terica,
respectivamente..
La distribucin de Bernoulli, siendo tan sencilla, tiene una escasa aplicacin prctica; sin embargo, es
fundamento de otras distribuciones que a continuacin veremos.

Distribucin binomial
Con el fin de presentar a la distribucin binomial, planteamos el siguiente ejemplo. Supongamos que queremos
integrar en una clase de 1 de la ESO a seis nios (n) con dificultades lectoras pero, antes de hacerlo, les
enfrentamos a una tarea de comprensin verbal que deben efectuar sin ningn tipo de experiencia previa. Los
resultados de la prueba son: hacerla bien (1) o hacerla mal (0). Se trata, por tanto, de una variable aleatoria
discreta dicotmica. Por experiencias anteriores, sabemos que para cada nio la probabilidad de hacerla bien
() es igual a 0,3 y, por tanto, la de hacerla mal (1 - ) es 0,7 y nos preguntamos cuntos nios harn bien la
tarea (X).
La situacin que acabamos de plantear se ajusta a una distribucin binomial porque:
1. Partimos de una variable aleatoria dicotmica, o dicotomizada, con dos posibles resultados: acierto (1) y
error (0).
2. Repetimos n ensayos de la variable aleatoria y en cada repeticin la probabilidad () de cumplirse la
condicin, es decir, de tomar el valor 1, es constante (no necesariamente igual a 0,5).
3. La variable aleatoria X se define como los casos posibles en los que se verifica la condicin (o nmero de
unos observados) en los n ensayos.

- 11 -

Bajo las circunstancias anteriores, la funcin de probabilidad de la variable aleatoria discreta X es igual a:
f (Xi ) =

n!
X i (1 )n X i
X i ! (n X i )!

Y la funcin de distribucin:
F( X i ) = P( X X i )
Siendo la esperanza matemtica y la varianza terica, respectivamente:
E (X) = n
2 = n (1 )
Y expresamos la variable aleatoria X con parmetros n y n(1 ) como sigue:
X B [n ; n (1 )]
Volvamos a nuestro ejemplo para ver cmo se aplica lo que acabamos de exponer. Segn nuestros datos,
tenemos que:
X = posibles resultados en los 6 nios = 0, 1, 2, 3, 4, 5 y 6 (que ninguno haga bien la tarea, que la realicen
bien slo 2, etc.)
p = probabilidad de hacer bien la tarea para todos y cada uno de los nios = 0,3
q = probabilidad de hacer mal la tarea para todos y cada uno de los nios = 1 0,3 = 0,7
n = nmero de ensayos = nmero de nios que participan en la prueba = 6
E (X) = np = 60,3 = 1,8 2
2X = 60,30,7 = 1,26
X B (2 ; 1,26)
Para interpretar los resultados anteriores diremos que, en un experimento concreto, pueden hacer bien la tarea
desde ningn nio hasta los seis, sin embargo, a la larga, la realizarn correctamente slo dos de todos ellos:

- 12 -

E(X) = 1,8. Por tanto, habr que valorar darles una intervencin previa antes de incorporarlos al aula con los
dems nios.

Distribucin de Poisson
Esta distribucin suele aplicarse a sucesos raros, es decir, a aquellos cuya probabilidad de ocurrencia es muy
baja. Partiendo de las mismas condiciones de una distribucin binomial, ahora tenemos que el nmero de
ensayos, n, tiende a infinito y la probabilidad de xito, , tiende a cero, pero, sin embargo, el producto = n
tender a un valor finito.
Las variables aleatorias que siguen una distribucin de Poisson tienen como funcin de probabilidad:
f (Xi ) =

X i
e
Xi !

donde e = 2,718281, es la base de los logaritmos neperianos.


La esperanza matemtica y la varianza terica de esta distribucin son, respectivamente:
E(X) =
2X =
En la varianza terica, tngase en cuenta que, si tiende a cero, 1 tendr a uno y, por tanto, = n(1 )
ser prcticamente igual a = n.
As pues, una variable aleatoria discreta que se ajusta al modelo de Poisson quedar definida como:
X Poisson ( ; )
Veamos un ejemplo. El sndrome de Munchausen por poderes es un trastorno facticio que, en la mayora de las
ocasiones, involucra a una madre que abusa de su hijo, buscndole atencin mdica innecesaria. Los nios
suelen ser hospitalizados presentando sntomas que no encajan en enfermedades conocidas, por lo que deben
sufrir exmenes y/o cirugas excesivos que pueden llegar a ser contraproducentes. Resulta difcil establecer su
prevalencia y su incidencia, ya que un estudio epidemiolgico desde la perspectiva del nio, no permite
identificar el nmero real de adultos perpetradores afectados por la psicopatologa que causa el sndrome (M.

- 13 -

Lpez-Rico y J.L. Jimnez, 2005). En un intento de registro de casos, un trabajo llevado a cabo durante dos
aos por la Unidad de Vigilancia de Asociacin Peditrica britnica inform de una incidencia de
aproximadamente el 3 por 100000 en nios menores de 1 ao de edad (R.J. McClure, P.M. Davis, S.R. Meadow,
y J.R. Sibert, J.R,. 1996). Supongamos que nuestro inters es crear un mapa de enfermedades poco comunes en
una poblacin de 20000 habitantes. Si llamamos X al nmero de nios con sndrome de Munchausen y
admitiendo que la prevalencia es = 0,00003, respondamos a las siguientes preguntas:
1.

Si elegimos al azar a un nio, qu probabilidad tiene de ser vctima del trastorno del adulto?
= 200000,00003 = 0,60
f (1) =

0,61 0,6
e
= 0,329
1!

La probabilidad, como podemos observar, es pequea.


2.

Si son cinco los que elegimos al azar, cul es la probabilidad ahora?


f ( 5) =

0,65 0,6
e
= 0,0004
5!

La probabilidad, en este caso, es an menor.


En la tabla y en el grfico mostramos las probabilidades de encontrar uno, dos, tres, etc. hasta slo, por
razones obvias, 10 nios daados por el sndrome:
FUNCIN DE PROBABILIDAD DE POISSON
X

f(x)

0,54881163609

0,32928698166

0,09878609450

0,01975721890

0,00296358283

0,00035562994

- 14 -

3.

0,00003556299

0,00000304826

0,00000022862

0,00000001524

10

0,00000000091

En definitiva, cuntos nios podrn sufrir el sndrome de Munchausen por poderes?


E(X) = 0,6
Afortunadamente, en la poblacin de 20000 habitantes, slo sufrirn el sndrome entre 0 y 1 nios.

Variables aleatorias continuas:

densidad y funcin de distribucin de las v.a.c.

Funcin de

Las variables aleatorias continuas presentan ciertas peculiaridades que debemos tener en cuenta. Algunas
pueden sorprendernos e, incluso, parecernos harto difciles de utilizar. Sin embargo, advertimos ya al lector que
la aplicacin de sus caractersticas se torna tremendamente fcil en nuestro campo y las tablas estadsticas nos
resolvern la mayora de las situaciones, prcticamente todas.
Recordemos llamamos funcin de distribucin a aquella funcin que asigna a todo nmero Xi de la variable, la
probabilidad de que X sea menor o igual que Xi:
F (Xi) = P (X Xi) = Xi f ( X i ) dx

- 15 -

Dmonos cuenta que aqu lo mismo nos da distinguir entre menor que o menor o igual que, puesto que la
diferencia entre un valor y el inmediatamente superior es infinitamente pequea (estamos en variables que son
continuas)
P (X Xi) = P (X < Xi)
Aunque nos parezca muy complicado tener que ir integrando la ecuacin cada vez que necesitemos la funcin
de distribucin, esta tarea la podremos evitar dado que existen tablas que contienen ya calculados estos valores
para las distribuciones que ms nos interesan (siempre y cuando, obviamente, nuestros datos empricos se
ajusten a alguno de los modelos tericos de probabilidad a los que se refieren los clculos).
Veamos la esperanza matemtica y la varianza terica genricas. La primera viene dada por:
E( X ) = +
X f ( X ) dX
Por su parte, la varianza terica es igual a:
2
2
X2 = +
X f ( X ) dx [ E( X )]

En el siguiente apartado expondremos algunas funciones de probabilidad continuas muy tiles para nuestro
trabajo, de manera que no tendremos que ir calculando las funciones de densidad de probabilidad o de
distribucin, esperanzas matemticas y varianzas tericas anteriores cada vez que tratemos con una variable
aleatoria continua.

Distribuciones de probabilidad continuas


Tambin se dispone de muchos modelos tericos como en el caso de las variables aleatorias discretas y tambin
nos vamos a ceir a los ms utilizados en el campo de la investigacin en Ciencias Sociales y de la Salud. Estos
son: la distribucin normal, la distribucin t de Student, la distribucin 2 de Pearson y la distribucin F de
Fisher.
En este apartado, nos limitaremos a presentar nicamente las funciones, sus esperanzas matemticas y sus
varianzas tericas. Ser en el siguiente tema donde constatemos su aplicacin y ser entonces cuando
presentemos los ejemplos oportunos. Una excepcin ser la distribucin normal, en la que s nos detendremos,

- 16 -

debido a su sencillez y aplicacin intuitiva. Pasemos, pues, a ver las cuatro distribuciones de probabilidad
continuas.

1. Distribucin normal
Su funcn viene dada por:

f (X) =

( X ) 2
2 2

< X < +

Para una variable aleatoria continua X que siga este modelo diremos que:
X N ( ; 2)
Visto que el exponente de esta funcin nos recuerda a la frmula para la obtencin de las puntuaciones tpicas,
podemos tipificarla mediante el siguiente cambio de variable:
Z=

De manera que la funcin de densidad de probabilidad se transforma en:

f ( Z) =

1
2

Z2
2

La ventaja de la distribucin normal tipificada es que la esperanza matemtica de la variable aleatoria que se
ajusta a este modelo siempre es igual a 0 y la varianza terica igual a 1 y lo expresaremos as:
Z N (0; 1)
Efectivamente, segn su formulacin matemtica, la distribucin normal depende de dos parmetros, de la
media () y de la desviacin tpica () y, en funcin de estos valores, tendremos una curva u otra.

- 17 -

Sin embargo, cuando tipificamos (o estandarizamos) las distribuciones, stas siempre tienen como media y
desviacin tpica 0 y 1, respectivamente.
Veamos el siguiente grfico adaptado de Amn (1988):
TIPIFICACIN DE 2 DISTRIBUCIONES NORMALES

Como sabemos, la distribucin normal es simtrica con respecto a la vertical que pasa por X = (distribucin
normal no tipificada) o por Z = 0 (distribucin normal tipificada) y asinttica con respecto al eje de abscisas.
Siendo f(Z) la funcin de densidad de probabilidad de la variable aleatoria Z, su funcin de distribucin es la
integral definida desde - hasta el punto Zi, es decir:
F (Z) = P (Z Zi) = Zi f ( Z)dz

- 18 -

Veamos un ejemplo:
FUNCIN DE DISTRIBUCIN DE Z = 1,5

p = 0,933

-3,0

-2,5

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

2,5

3,0

Valores de Z

Integrando la funcin para Z = 1,5, la probabilidad de que la variable aleatoria Z sea menor o igual que 1,5 es
0,9332, la zona rayada del grfico. El valor anterior se puede obtener con una sencilla calculadora de bolsillo
que disponga de algoritmos estadsticos o consultando las pertinentes tablas estadstica.
Veamos un ejemplo: En esta ocasin el factor g de inteligencia lo medimos con un test cuyo rango de
puntuaciones directas oscila entre 70 y 130. Debido a que el instrumento de medida es discreto, deberamos
tratar a la variable como corresponde. Sin embargo, si el histograma de las probabilidades asociadas a cada
valor de inteligencia se ajustara razonablemente bien a una distribucin normal, podramos realizar un cambio
de variable a puntuaciones de la distribucin normal. Vamos a hacerlo.

- 19 -

REPRESENTACIN DEl FACTOR G


0,4
f(X)

0,3

0,2

0,1

0
70

80

90

100

110

120

130

Visto que el polgono se acerca a una curva normal, calcularemos, en primer lugar, la esperanza matemtica y
la desviacin tpica de la distribucin. stas son:
E( X ) = x f ( x ) = 70 0,05 + 80 0,10 + ... + 120 0,10 + 130 0,05 = 100
2
2X = x 2 f ( x ) [E( X )] = 70 2 0,05 + 80 2 0,10 + ... + 120 2 0,10 + 130 2 100 2 = 210 X = 14,47

Ahora ya podemos transformar los valores del factor g y obtener su funcin de distribucin utilizando la tabla
de la distribucin normal:
DISTRIBUCIN DEL FACTOR G
X

F (X)

F(Z)

70
80
90
100
110
120
130

0,05
0,15
0,35
0,65
0,85
0,95
1,00

-2,07
-1,38
-0,69
0,00
0,69
1,38
2,07

0,02
0,08
0,25
0,50
0,75
0,92
0,98

- 20 -

En la primera columna vemos los valores de la variable factor g en puntuaciones directas y, a continuacin, sus
probabilidades acumuladas o funcin de distribucin. Es en la tercera columna donde aparecen los valores de X
transformados a puntuaciones tpicas Z.
En las siguientes figuras aparecen las representaciones grficas de la distribucin emprica y de la distribucin
terica de la variable factor de inteligencia g:
REPRESENTACIN GRFICA DE LA DISTRIBUCIN EMPRICA Y TERICA DEL FACTOR G

60

70

80

90

100

110

120

130

140

-3,00

-2,00

-1,00

0,00

1,00

2,00

3,00

Las discrepancias entre la funcin emprica y la funcin terica se deben, evidentemente, a que el ajuste no es
perfecto, puesto que se trata de un sencillo ejemplo, en el que, adems, hemos utilizado un instrumento de
medida discreto. Lo que queremos mostrar es lo fcil que es obtener la funcin de distribucin de una variable
cuando sta se ajusta a la curva normal, tanto ms, cuanto mejor sea el ajuste, con lo que la generalizacin de
resultados de la muestra a la poblacin ser ms precisa y correcta, as como la comparacin entre distintas
variables o grupos de sujetos. Todo esto lo veremos en detalle en los prximos temas.
En los siguientes apartados presentamos otras distribuciones continuas de gran utilidad en el campo de la
investigacin psicolgica.

- 21 -

Intuitivamente el concepto de grados de


libertad lo podemos captar mejor con el
siguiente ejemplo. Sea la variable Y igual
a la suma de otras 2 variables aleatorias e
independientes, X y T:

2. Distribucin 2 de Pearson
Diremos que una variable aleatoria continua X sigue el modelo 2 de Pearson (se lee ji-cuadrado), o
simplemente 2 con n grados de libertad, si su funcin de densidad de probabilidad es:

Y=X+T
Evidentemente, como variables aleatorias
e independientes que son, pueden tomar
cualquier valor, de modo que la expresin
anterior tiene 2 grados de libertad. En
efecto, dado que X y T pueden asumir el
valor que sea, slo Y est supeditada a
ellas:
3+6=9
0+1=1
4 + 4 = 8, etc.
Vamos a imponer una restriccin: Y debe
ser igual a 10. Ahora las cosas cambian,
puesto que las variables anteriores no
pueden tomar cualquier valor.
Efectivamente, para que Y sea igual a 10,
el valor de T depender del que tome X, y
viceversa:
10 = X + T
Si, por ejemplo, X = 8, X = 1, etc.
10 = 8 + T
10 = 1 + T
etc.

obliga a
obliga a

T=2
T = 9,

Si, por ejemplo, T = 3, T = 2, etc.


10 = X + 3
10 = X + 2
etc.

obliga a
obliga a

X=7
X = 8,

En definitiva, la expresin 10 = X + T slo


tiene 1 grado de libertad, porque slo una
de las variables aleatorias e
independientes puede tomar cualquier
valor, estando la otra supeditada a ella.
En otras palabras, si n es el nmero de
variables aleatorias e independientes, los
grados de libertad, para 10 = X + T, son
n - 1.

f (X) =

1
n
2n / 2
2

X ( n / 2 ) 1e X / 2

x 0,

n
= u ( n / 2 ) 1e u du
2 0

La esperanza matemtica y la varianza terica son, respectivamente, n y 2n, de modo que la expresamos de la
siguiente manera:
X n2 (n ; 2n)
El concepto grados de libertad hace referencia al hecho de que cada variable aleatoria puede moverse
libremente dentro de su dominio, es decir, puede tomar cualquier valor de todos sus posibles,
independientemente de los valores que asuman las restantes variables aleatorias. Por eso, los grados de
libertad son igual al nmero de variables independientes implicadas en su composicin.
Con frecuencia, se define una variable aleatoria 2 como la combinacin lineal de variables aleatorias normales
e independientes entre s:
Y = Z12 + Z 22 + ... + Z k2
Se indica entonces que la variable aleatoria Y se ajusta al modelo 2 con k grados de libertad, tantos como
variables combinemos:
Y k2 (k ; 2k)
Mientras que la distribucin normal dependa de la media y de la desviacin tpica , la distribucin
2n depende de n, los grados de libertad, y, en funcin de los mismos, tendremos una curva u otra, tal como se
puede apreciar en la figura:

- 22 -

DISTRIBUCIN 2 CON DIFERENTES GRADOS DE LIBERTAD

0,20

gl
4
10
25

0,15

0,10

0,05

0,00

10

20

30

40

50

Podemos distinguir en los grficos que las distribuciones como estas siempre sern positivas, puesto que se
trata de la suma de valores elevados al cuadrado. Por tanto, se cumplir que P (Y < 0) = 0.
Adems, tratndose de variables normales asintticas, tambin la variable 2n ser asinttica por la derecha
(por la izquierda ya hemos visto que parte de 0), siendo la distribucin asimtrica.
Por otro lado, como sucede con la distribucin normal, las probabilidades asociadas a cada uno de los valores
(funcin de distribucin) de una variable que se ajusta al modelo 2n , pueden encontrarse en la correspondiente
tabla estadstica. As, por ejemplo, si la variable es 211 , la probabilidad de alcanzar el valor 24,72 es p = 0,99:

- 23 -

FUNCIN DE DISTRIBUCIN DE

211 = 24, 725

0,09
0,08
0,07

p = 0,990

0,06
0,05
0,04
0,03
0,02
0,01
0,00

10

15

20

24,725

30

La distribucin 2n tiene muchas aplicaciones en inferencia estadstica, por ejemplo, en la comprobacin de la


independencia de variables, en la estimacin de varianzas poblacionales desconocidas, en la regresin lineal, en
la comparacin de la dispersin de dos muestras, en la comprobacin del ajuste de una distribucin emprica a
un modelo terico, etc. Todas estas aplicaciones las iremos viendo paulatinamente en los siguientes temas. Por
el momento lo dejamos aqu y vamos a pasar a mostrar otra de las distribuciones de probabilidad ms
utilizadas en la investigacin.

- 24 -

3. Distribucin t de Student
Diremos que una variable aleatoria continua X sigue el modelo t de Student con n grados de libertad si su
funcin de densidad de probabilidad es:
n + 1

f (X) =
n
n
2

1 + x

( n +1) / 2

Del mismo modo que 2n , esta funcin depende de n, siendo su esperanza matemtica y su varianza terica,
respectivamente:
E (X) = 0
2X =

n
n2

Y lo expresaremos de la siguiente manera:


n

X tn 0 ;

n 2

Si combinamos de la siguiente manera dos variables aleatorias independientes, siendo una N (0 ; 1) y 2k la


otra:
T=

Z
k2 / k

Diremos que la variable aleatoria Y se ajusta al modelo t de Student con k grados de libertad y la
representaremos as:

- 25 -

T tk 0 ;

k 2

En funcin de los grados de libertad, tendremos una curva u otra, pero todas ellas son siempre simtricas con
respecto al valor Ti = 0, siendo la mitad de sus valores positivos y la otra mitad negativos. Adems es asinttica
tanto por la derecha como por la izquierda de ese valor:
DISTRIBUCIN t de Student CON DIFERENTES GRADOS DE LIBERTAD
gl
4
9
1000

0,4

0,3

0,2

0,1

0,0

-3

-2

-1

Como hemos visto en las distribuciones normal y 2n , las probabilidades asociadas a cada uno de los valores
(funcin de distribucin) de una variable que se ajusta al modelo tn, pueden encontrarse en la tabla estadsitica
correspondiente. As, por ejemplo, si la variable es t22, la probabilidad de alcanzar el valor 1,321 es p = 0,90:

- 26 -

FUNCIN DE DISTRIBUCIN DE T22 = 1,321

0,4

0,3

p = 0,900
0,2

0,1

0,0

-4

-3

-2

-1

1,321

La distribucin t de Student surgi en probabilidad e inferencia estadstica debido al problema de estimar el


valor de la media poblacional a partir de los datos de la muestra cuando el tamao de sta es pequeo y la
varianza de la poblacin es desconocida. Tambin es de enorme utilidad para comparar los datos de dos o ms
muestras: para probar la eficacia de un tratamiento cuando utilizamos un grupo control y un grupo
experimental o para estudiar diferencias entre hombres y mujeres, por citar algunos ejemplos. Adems, nos
permitir estimar con mrgenes de certeza y de error el valor desconocido no slo de una media poblacional,
sino tambin de la diferencia entre dos medias. Su utilidad la convierte en una distribucin providencial, cuyo
beneficio lo comprobaremos en el resto de temas.

- 27 -

4. Distribucin F de Fisher
Diremos que una variable aleatoria continua X sigue el modelo F de Fisher, o simplemente distribucin F, si su
funcin de densidad de probabilidad es:
n

n1 1 / 2 n1 + n 2

n
2

f (X) =
n n
1 2
2 2

x ( n1 / 2 ) 1

n x
1 + 1

n 2

0X

( n1 + n 2 ) / 2

Y lo expresaremos:
n2
2n 22 (n1 + n 2 2)
X Fn1 ,n 2
;
n 2 n (n 4)(n 2) 2
1
2
2
2

Tambin podemos componer una variable F con k y j grados de libertad a partir de la combinacin de dos
variables aleatorias independientes que siguen el modelo 2 con k y j grados de libertad, respectivamente,
mediante la siguiente ecuacin:
F=

k2 / k
2j / j

Formulndola de la siguiente manera:


j
2 j 2 ( k + j 2
F Fk , j
;
j 2 k( j 4 )( j 2) 2

Puesto que una distribucin como sta se basa en la combinacin de dos variables 2, tiene las mismas
propiedades: sus valores siempre son positivos, es asimtrica y asinttica por la derecha.
En funcin de los grados de libertad, tendremos una u otra curva:

- 28 -

DISTRIBUCIN F DE FISHER CON DIFERENTES GRADOS DE LIBERTAD


gl1
1
3
9

0,9
0,8

gl2
9
99
99

0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0

0,5

1,0

1,5

2,0

2,5

3,0

Por otro lado, si elevamos al cuadrado una variable aleatoria T que sigue el modelo t de Student dando lugar a
otra variable aleatoria T2:
T2 =

Z2
2 / k

Tambin esta nueva variable T2 sigue el modelo F de Fisher con 1 y k grados de libertad, F1,k.
Adems, podemos encontrar los valores de la funcin de distribucin para diferentes grados de libertad de una
variable que sigue el modelo F en la tabla estadstica correspondiente. Por ejemplo, si la variable es F9,3, la
probabilidad de que su valor sea menor o igual que 8,81 es p = 0,95:

- 29 -

FUNCIN DE DISTRIBUCIN DE F9,3 = 8,81


0,6

0,5

0,4

0,3

p = 0,95

0,2

0,1

0,0

00

8 8,81

10

12

14

Se utiliza la distribucin F en la comparacin de la variabilidad de dos o ms grupos. Adems, hay todo un


desarrollo matemtico para la comprobacin de modelos matemticos lineales fundamentados en esta
distribucin, todos ellos bajo la denominacin de anlisis de varianza que en estos momentos se escapa de
nuestros objetivos y que se estudia en niveles ms avanzados de la inferencia estadstica.
Antes de pasar al siguiente tema, siendo conscientes de lo abstracto que pueda haber resultado este captulo,
debemos hacer una pequea pausa para no perder de vista la utilidad de todo lo que hemos expuesto.
Recordemos que, al realizar experimentos, nuestro objetivo es poder generalizar sus resultados ms all de la
muestra. Las distribuciones de frecuencias de las variables son distribuciones empricas definidas por los
valores de la variable, sus frecuencias relativas, su media aritmtica, su varianza e histograma, etc., todo ello
obtenido a partir de una muestra. Por su parte, las distribuciones de probabilidad son distribuciones tericas
definidas por los posibles valores de la variable aleatoria, por sus probabilidades asociadas, su esperanza
matemtica, su varianza terica, etc. En relacin con los modelos matemticos, en la medida en que nuestra

- 30 -

distribucin emprica, obtenida tras un experimento, se aleje de una distribucin terica a la que debera
ajustarse, o bien el modelo no es adecuado para describir la realidad, o bien el experimento no se ha realizado
en condiciones propicias, o ambos a la vez. Adems, para poder inferir el valor de los parmetros del modelo,
as como de los estadsticos poblacionales, tambin llamados parmetros (vase apartado 4 del tema 1), dado
que son desconocidos, necesitamos el apoyo de las distribuciones tericas que acabamos de ver si queremos
realizar estimaciones con los mrgenes de certeza (y de error) que establezcamos. A partir del siguiente
captulo, vamos a comenzar a aplicar todo lo visto en estos dos ltimos temas, sin perder de vista, por supuesto,
la estadstica descriptiva de este manual.

RESUMEN DE LAS VARIABLES ALEATORIAS DISCRETAS Y CONTINUAS


Poblacin
Muestra
Media:

Media: X

Varianza: 2

Varianza: S2

PROBABILIAD
Funcin de probabilidad: f (X)
v.a.d.

Funcin de distribucin: F (X)


Esperanza matemtica: E (X)
Varianza terica : 2X

v.a.c.

Bernoulli
Binomial
Poisson

Funcin de densidad: f (X)

Normal

Funcin de distribucin F (X)

Esperanza matemtica E (X)

t Student

Varianza terica 2X

F de Fisher

- 31 -

Los

que utilizan la
prctica sin la teora son
como los pilotos sin timn ni
brjula, que nunca podrn
saber a dnde van.
L. Vinci
Artista (1452 1519)

- 32 -

Distribucin muestral
En el campo de la investigacin en Ciencias Sociosanitarias nos interesa realizar afirmaciones sobre los valores
poblacionales desconocidos a partir de los resultados obtenidos en una muestra, ya que preguntar a todos y
cada uno de los sujetos de una poblacin no tendra sentido, como ya sabemos, de ser sta muy grande.
Tambin hemos comentado que una buena y adecuada inferencia de estos valores depende de la muestra que
escojamos, debiendo ser sta representativa de la poblacin a la que pertenece. Adems, hemos presentado los
principales modelos tericos de probabilidad ms utilizados, a los que acudiremos con nuestras distribuciones
empricas esperando un ajuste que nos permita tomar decisiones. Pues bien, todo ello constituye el abec de lo
que vamos a estudiar en este tema. En efecto, vamos a empezar a aplicar todo lo ya aprendido no slo al
comportamiento de una variable aleatoria, ya sea discreta o continua, sino tambin a los estadsticos que, como
veremos, son tambin variables aleatorias. Analizaremos su conducta en diferentes muestras, observando su
variabilidad de una a otra, a partir de la cual, tomaremos decisiones sobre los valores de los parmetros a los
que representan.
Todo el proceso anterior se enmarca en la llamada inferencia estadstica, disciplina que abarca las tcnicas y
mtodos para inferir las propiedades desconocidas de la poblacin a partir de los datos obtenidos en la muestra.
Las conclusiones a las que lleguemos las realizaremos en trminos probabilsticos, por lo que utilizaremos todo
lo aprendido en los temas anteriores de aqu en adelante. Algunos de los campos que comprende la estadstica
inferencial son el contraste de hiptesis, la estimacin de parmetros, el muestreo, etc., siendo la piedra
angular en todos ellos, como enseguida veremos, la distribucin muestral del estadstico que estemos
analizando. A este concepto tan importante dedicaremos este captulo y el siguiente.
DISCIPLINAS QUE INTERVIENEN EN EL ANLISIS DE DATOS
PROBABILIDAD
ESTADSTICA DESCRIPTIVA
Recogida, organizacin, anlisis de datos y
creacin de un modelo matemtico para la

ESTADSTICA INFERENCIAL
Legitima el salto de las caractersticas
(conocidas) de la muestra
hasta las

-1-

Verificacin de inferencias acerca de la


poblacin, a partir de la muestra, en

explicacin y prediccin de un fenmeno.

caractersticas desconocidas de la poblacin.

trminos probabilsticos.

12.1. Distribucin muestral


El sentido del humor es una capacidad nica del ser humano. Desde la Psicologa Positiva, B.L. Fredrickson
(2003) considera la risa como un nexo de unin entre la reaccin psico-fisiolgica y la sensacin interna del
individuo, de manera que cuando una persona re se desencadena una emocin positiva. Los beneficios del
humor son numerosos, tanto psicolgicos (estados de alegra, bienestar y satisfaccin, menor estrs y depresin,
etc.), como fsicos (tolerancia al dolor, activacin del sistema inmune, cardiovascular y respiratorio, etc.) y
sociales (mejora de la productividad, de la motivacin, de la comunicacin, etc.).
J.A. Thorson y F.C. Powell (1993) desarrollaron la Escala Multidimensional del Sentido del Humor (MSHS), un
instrumento tipo Likert con 24 tems para medir el sentido del humor, que se ha empleado para relacionarlo
con factores de personalidad y en comparaciones transculturales. Cuando aplicaron el test en una muestra de
426 personas del estado de Nebraska en EEUU, las puntuaciones oscilaron entre 31 y 96 puntos, con una
media igual a 71,8 (SX = 12,9 y Md = 72). Si tras haber validado el cuestionario en nuestra cultura nos
planteramos medir el sentido del humor en los universitarios espaoles, por ejemplo, como no podramos
llevar a cabo esta tarea con todos y cada uno de ellos, la mejor opcin consistira en extraer una muestra
aleatoria, aplicar el test a cada universitario y calcular los estadsticos oportunos. Supongamos que as lo
hemos hecho y hemos obtenido los siguientes resultados:
DISTRIBUCIN DE FRECUENCIAS DE LA V.A. SENTIDO DEL HUMOR EN LA MUESTRA 1
X1 = 90,1

ni

pi = f(x)

87
88
89
90
91
92
93

10
22
30
40
35
28
15

0,056
0,122
0,167
0,222
0,193
0,157
0,082

180

1,000

0,25
0,2
0,15
0,1
0,05

X1

0
87

88

89

90

91

92

93

Al calcular la media sta ha sido igual a 90,1. Podramos afirmar, entonces, con los datos anteriores, que la
media de humor de los universitarios espaoles en general es de 90,1? En otras palabras, podramos decir que
los universitarios espaoles muestran ms sentido del humor que los norteamericanos? Es evidente que una

respuesta positiva podra resultar del todo arriesgada, por lo que decidimos extraer otra muestra aleatoria del
mismo tamao para estar ms seguros. Veamos qu ocurre:
DISTRIBUCIN DE FRECUENCIAS DE LA V.A. SENTIDO DEL HUMOR EN LA MUESTRA 2
X2 = 90,0

ni

Pi = f(x)

87
88
89
90
91
92
93

5
30
30
40
35
29
11

0,028
0,167
0,167
0,222
0,194
0,161
0,061

180

1,000

Ejemplos de tems
tem 6:

0,25
0,2
0,15
0,1
0,05

X2

0
87

88

89

90

91

92

Nada divertido 0 1 2 3 4 Muy


divertido
Ningn rechazo 0 1 2 3 4 Fuerte
rechazo

93

Comprobamos que los resultados en esta segunda muestra van en la lnea de la anterior, es decir, mayor
sentido del humor que la muestra americana, sin embargo, la distribucin de frecuencias difiere de la primera,
con una media ligeramente distinta. As pues, para estar an ms seguros, repetimos el experimento aleatorio
hasta 200 veces. La distribucin de la muestra nmero 200 es la siguiente:

tem 30:

DISTRIBUCIN DE FRECUENCIAS DE LA V.A. SENTIDO DEL HUMOR EN LA MUESTRA 200


X200 = 89,9

ni

pi = f(x)

87
88
89
90
91
92
93

10
27
32
44
37
23
5

0,056
0,150
0,178
0,244
0,205
0,128
0,039

180

1,000

Nada divertido 0 1 2 3 4 Muy


divertido
Ningn rechazo 0 1 2 3 4 Fuerte
rechazo

0,3
0,25
0,2

Los anteriores son dos de los


tems de la Escala de Apreciacin
del Humor (EAHU) de H.
Carretero Dios (2005).

0,15
0,1
0,05

X200

0
87

88

89

90

91

92

93

De nuevo ha cambiado el valor de la media y nos damos cuenta que las 200 medias as obtenidas pueden
adoptar cualquier nmero, pudiendo ser algunas distintas y otras iguales:X1 = 90,1;X2 = 90,0;X200 = 89,9.

La cuestin, entonces, ser decidir cul de ellas es la que mejor representa al sentido del humor de los
universitarios espaoles. Una posibilidad que tenemos es construir una distribucin de frecuencias con las 200
medias obtenidas empricamente. Lo hacemos y comprobamos en la siguiente tabla que sus valores han
oscilado entre 89,5 y 92:
DISTRIBUCIN DE FRECUENCIAS DEL ESTADSTICO MEDIA EN 200 MUESTRAS

X X = 90,7

ni

89,5
90,0
90,5
91,0
91,5
92,0

12
25
63
70
22
8

0,060
0,125
0,315
0,350
0,110
0,040

200

1,000

pi = f ( x )

80
70
60
50
40
30
20
10
0

medias
89,5

90

90,5

91

91,5

92

Una distribucin as obtenida se denomina distribucin de frecuencias del estadstico media, en la que la media
de todas las medias es igual a:
X X = X i pi = 89,5 0,06 + 90,0 0,125 + 90,5 0,315 + 91,0 0,35 + 91,5 0,11 + 92,0 0,04 = 90,7
Esta media obtenida a partir de las 200 medias ser el mejor estimador de la media poblacional del sentido del
humor de los universitarios espaoles. Adems, se trata del valor ms cercano al valor ms probable de la
distribucin: P( X = 91) = 0,350. De este modo, podemos concluir que nuestros estudiantes han mostrado un mayor
sentido del humor que la poblacin de Nebraska.
Puede ser que estemos cometiendo un error (o no) en esta estimacin y cierto es que cuantas ms muestras
aleatorias recojamos, en las que calculemos la media del sentido del humor, nuestro promedio de medias X X

ms se acercar al valor poblacional . De hecho, si extrajramos infinitas muestras la media de todas las
infinitas medias, es decir, la esperanza matemtica sera .
En el grfico siguiente comprobamos que la diferencia entre extraer 200 o infinitas muestras cambia la forma
del polgono, que se convierte en una curva suave; la abscisa contiene infinitos valores posibles de la media, no
slo 6 como en la distribucin de frecuencias de sta y la media de todas las medias es la media poblacional.

DISTRIBUCIN DE FRECUENCIAS Y DISTRIBUCIN MUESTRAL DEL ESTADSTICO MEDIA

Distribucin de frecuencias del estadstico X

Media de todas las medias =XX


Desviacin tpica = SX

Nmero de muestras extradas =

Distribucin muestral del estadstico X

Media de todas las medias = E( X ) =


Desviacin tpica = Error tpico = X

Adems, otras observaciones y reflexiones que se desprenden del ejemplo, junto con algunos conceptos nuevos
son los siguientes:
1. La media es una variable aleatoria como cualquier otra, ya que a priori no sabemos qu valor va a
alcanzar cuando extraemos una muestra. De hecho, pueden ser infinitos los posibles distintos.

2. Como variable aleatoria que es, tiene una distribucin de frecuencias asociada que se denomina
distribucin muestral de la media, con una media a su vez, la esperanza matemtica de la media, E( X ) ,
y una desviacin tpica, X .
3. La desviacin tpica de la media, X , se denomina error tpico, porque refleja el alejamiento de los
posibles valores de las infinitas medias al valor de la media poblacional .

4. La distribucin muestral de los posibles valores del estadstico media no tiene por qu ser igual a la
distribucin de los valores de la variable aleatoria X a partir de la cual se obtienen las medias.
5. El concepto de distribucin muestral se extiende a cualquier estadstico (varianza, proporcin, mediana,
etc.) desde el momento en que queremos inferir el valor desconocido de su parmetro. En efecto,
podemos hablar, por ejemplo, de la distribucin muestral de la desviacin tpica, de su esperanza
matemtica, E(S X ) , y de su error tpico, S X , y lo mismo con la proporcin, E(p) y p, etc.
A partir de lo anterior, podemos definir la distribucin muestral de un estadstico como una distribucin terica
que asigna probabilidades a los valores que puede tomar el estadstico en todas las muestras del mismo tamao
que se pueden extraer de la poblacin. No es ms que la funcin de probabilidad (o de densidad de
probabilidad) del estadstico. Es un concepto tan importante que de l depende el resto de lo que estudiemos a
partir de ahora.

Teorema del Lmite Central


Sea X una variable aleatoria construida como la combinacin lineal de n variables aleatorias independientes
entre s, con la misma distribucin. Sea E ( X i ) = y i2 = .
Bajo estas circunstancias, el Teorema del Lmite Central establece que la distribucin muestral de la media se
aproxima a una curva normal:

2
X N ;

a medida que n va creciendo ms y ms, independientemente de las distribuciones de X1, X2, , Xn.
Aunque existen diferentes versiones del teorema, la ms simple, como acabamos de presentar, establece que es
suficiente que las variables que se combinan sean independientes, idnticamente distribuidas y con valor
esperado y varianza terica finitas. Una demostracin del teorema se puede consultar en S. Ros (1985).

.
Ahora deberemos valorar si el alejamiento de la media de la muestra con respecto a su esperanza matemtica
es grande o no. Este inconveniente se debe, en efecto, a las unidades de medida. Debemos hacer entonces una
transformacin para llegar a alguna conclusin. El siguiente apartado nos ayudar.

Transformacin de la variable
Recordemos la frmula para cambiar las puntuaciones directas en tpicas:
Z=

XX
SX

Sabemos que la media y la desviacin tpica de todas las variables en puntuaciones tpicas son 0 y 1,
respectivamente. Tambin sabemos que entre -3 y 3 se encuentra el 99,72 por ciento de las puntuaciones y que
las funciones de distribucin de sus valores las podemos consultar en las tablas correspondientes. Podemos
transformar, entonces, la variable aleatoriaX mediante la expresin anterior, pero adaptada al contexto de la
distribucin muestral de la media:
Z=

X E( X ) X
=
X
/ n

Efectivamente, la media de la distribucin es la esperanza matemtica y la desviacin tpica es el error tpico.


Puesto queX es una variable aleatoria que, bajo las condiciones sealadas en los apartados anteriores, sigue
una distribucin normal, su tipificacin tambin constituye una variable aleatoria N (0 ; 1).
En nuestro ejemplo, podemos transformar la media de la muestraX = 13,5 a puntuaciones tpicas para saber
cun alejada est de su valor esperado o media poblacional = 12,2 y poder tomar una decisin adecuada:
Z=

13,5 12,2
5,42 / 100

= 2,39

Una puntuacin tpica igual a 2,39 indica un alejamiento importante de la media: la media de la muestra est
2,39 desviaciones tpicas por encima de su valor esperado.
Adems, la funcin de distribucin para esta variable nos va a resultar de gran utilidad para matizar la
conclusin del resultado obtenido. Sabemos que esta funcin se define como la probabilidad de que la variable

aleatoria asuma un valor igual o menor concreto de su distribucin. En nuestro caso, la pregunta es al revs:
siendo la E( X ) = 12,2, cul es la probabilidad de extraer una muestra con una media igual a 13,5 o mayor (en
puntuaciones tpicas 2,39) en esta distribucin muestral de medias? Es decir:
P (Z > 2,39) = 1 P (Z < 2,39)
Si consultamos los datos de la tabla del apndice:
P (Z > 2,39) = 1 0,9916 = 0,0084
Con esta probabilidad tan pequea, podemos concluir que es poco probable que, siendo la media poblacional
igual a 12,2, en una muestra de 100 pacientes se obtenga una media en neuroticismo de 13,5 puntos. Por tanto,
segn nuestro anlisis, o bien nuestra muestra no es representativa, o bien el neuroticismo es mayor en los
pacientes de CCD. Si tenemos alguna duda sobre la adecuacin de nuestros datos, otra extraccin con su
correspondiente anlisis, puede ayudarnos a tomar una decisin. De hecho, como ya hemos sealado repetidas
veces, es importante realizar varios experimentos con el fin de poder generalizar los resultados.
Representamos, a continuacin, el complementario de la funcin de distribucin para el valor 2,39. La zona
rayada nos muestra la probabilidad de obtener una media igual o superior a 13,5 puntos, siendo la media
poblacional igual a 12,2. Esta probabilidad nos llevara a pensar, en definitiva, que nuestros pacientes varones
con CCD presentan mayores niveles de neuroticismo que la poblacin general.

DISTRIBUCIN MUESTRAL DE LA MEDIA EN PUNTUACIONES Z


Normal; Media=0; Desv.Est.=1; Var.=1

p = 0,0084

-3,0 -2,5 -2,0 -1,5 -1,0 -0,5

0,0

0,5

1,0

Valores posibles de la media

1,5

2,0

3,0

Z = 2,391 ; X = 13,5

Con respecto al error tpico, su cuanta refleja el promedio de las distancias de todos los posibles valores deX a
su esperanza matemtica, . Aunque por s slo nada nos dice (como ocurra con la desviacin tpica en
estadstica descriptiva), cabe sealar que cuanto mayor sea, ms fcil ser extraer una muestra cuyaX se aleje
de , de ah el nombre de error tpico en lugar de desviacin tpica:

DIFERENTES VALORES DEL ERROR TPICO


error tpico = 6

error tpico = 2

error tpico = 4

error tpico = 1

En los grficos se observa que las distribuciones con mayor error tpico tienen los extremos de la curva ms
alejados que en aquellas con error tpico ms pequeo. En el eje de abscisas, bajo la curva, se encuentran todos
los posibles valores de la media, de modo que si extraemos una muestra de la distribucin con error tpico igual
a 6, por ejemplo, es ms fcil que se aleje su media aritmtica de la esperanza matemtica que en la
distribucin con error tpico igual a 1.
Por otra parte, en contextos reales de investigacin, lo habitual es que la varianza poblacional de la variable
que estamos estudiando, 2, no sea conocida (como tampoco suele serlo la media, ). Esta situacin nos lleva a
la condicin siguiente.

Varianza poblacional desconocida


Cuando la varianza poblacional es desconocida, la transformacin que hicimos ya no nos sirve. En cambio,
podemos utilizar la desviacin tpica de la muestra:

X
SX / n 1
Efectivamente, si X1, X2, ..., Xn son variables aleatorias independientes y distribuidas N ( ; 2), entonces la
X
variable aleatoria
sigue una distribucin t de Student con n 1 grados de libertad:
SX / n 1
1. Puesto que las n variables aleatorias se distribuyen normalmente, tambin la distribucin deX es normal,
N ( ; 2/n) y, en consecuencia:
X
/ n
Sigue una distribucin N (0 ; 1), como vimos en el apartado anterior.
2. Por otro lado, si X1, X2, ..., Xn son variables aleatorias independientes y distribuidas N ( ; 2), entonces la
variable aleatoria:
nS 2X
2

Sigue una distribucin n2 1 (en el siguiente apartado lo trataremos ms detenidamente).


3. Adems, como vimos en el tema anterior, el cociente entre dos variables aleatorias independientes, siendo
una N (0 ; 1) y n2 la otra, da lugar a una variable t de Student. Por tanto:
T=

Z
n2 1 /(n 1)

Se distribuye tn 1. En consecuencia:

T=

Tngase en cuenta que la


media es una variable
aleatoria cuyo resultado
depende de los valores que
tomen los n 1 sujetos, de
ah que los grados de
libertad sean iguales a
n 1.

n2 1 /(n 1)

X
=

/ n
nS X2 /
n 1

X
SX / n 1

Tambin se distribuye segn tn 1 lo que significa que podemos utilizar esta transformacin para encontrar
las probabilidades asociadas aX cuando la varianza poblacional, 2, es desconocida.
En definitiva, la distribucin muestral de la media X es:

S2
X t ; X

n 1

con n 1 grados de libertad.


En nuestro ejemplo, lo ms frecuente es que desconozcamos la varianza poblacional, por lo que la
transformacin a la distribucin normal no nos sirve. En cambio s podemos utilizar la distribucin t de
Student para dar respuesta a nuestras dudas:
T=

13,5 12,2
X
X E( X )
=
= 2,58
=
X
S X / n 1 5,01 / 100 1

Aunque el resultado vara muy poco del obtenido con la distribucin normal, debe advertirnos del uso de una u
otra distribucin de probabilidad para tomar decisiones sobre la media poblacional. Sin embargo, tambin es
cierto que, cuanto mayor sea el tamao muestral, menor ser el error tpico de la distribucin muestral y SX se
ir pareciendo ms a , es decir, la distribucin t de Student se ir pareciendo a la distribucin normal
N (0 ; 1). A partir de valores de n mayores que 100, los resultados suelen ser prcticamente los mismos (de ah
que la diferencia en nuestro experimento haya sido tan pequea).
Por otro lado, debemos buscar en la tabla de la distribucin t de Student la probabilidad de tener una media
como la que hemos obtenido o mayor teniendo en cuenta las caractersticas de esta distribucin muestral de
medias. As, para n 1 = 100 1 = 99 grados de libertad tenemos que:
P (T > 2,58) = 1 P (T < 2,58) = 1 0,994 = 0,006

DISTRIBUCIN MUESTRAL DE LA MEDIA EN PUNTUACIONES T


T; df=99

p = 0,006

-3,6

-3,0

-2,4

-1,8

-1,2

-0,6

0,0

0,6

1,2

1,8

T = 2,58

3,6

Cuando utilizamos la distribucin normal de la media, la probabilidad obtenida era p = 0,005. Aunque ahora el
resultado vara muy poco, p = 0,006, utilizar la t de Student es ms sensato en este contexto de investigacin.
Como sigue siendo una probabilidad pequea, llegamos a la misma conclusin que anteriormente: si el
experimento se ha realizado en condiciones ptimas, los pacientes aquejados de CCD muestran niveles de
neuroticismo ms elevados.
Para finalizar este apartado presentamos un cuadro resumen de las diferentes condiciones de partida de la
variable aleatoria X en la poblacin y de las consecuentes distribuciones muestrales de la mediaX:

DISTRIBUCIN MUESTRAL DE LA MEDIA SEGN LAS CONDICIONES DE PARTIDA DE LA V.A. X

Distribucin de la v.a. X

Normal

Normal

Varianza poblacional 2

Conocida

Conocida

Desconocida

n 30

Normal

Normal

t de Student

Grados de libertad

n1

E( X )

2X

2
n

2
n

S 2X
n 1

Tamao de la muestra aleatoria

Distribucin muestral de la v.a.X

Distribucin muestral de la varianza


El razonamiento para obtener la distribucin muestral de la varianza es el mismo que el que hemos seguido en
la introduccin de este tema para la media y la proporcin: supongamos que medimos la variable aleatoria X en
una muestra y obtenemos en ella el estadstico S2X ; extraemos otra muestra aleatoria y volvemos a calcular el

estadstico S 2X y repetimos este proceso una y otra vez, de manera que podemos construir una distribucin de
infinitas S 2X . Pues bien, de este modo, obtendramos la distribucin muestral de la varianza, su esperanza

matemtica E(S2X ) y su varianza terica 2S2 . Tambin podemos obtenerla por otro camino ms cmodo.
X

Si la variable aleatoria X sigue una distribucin N ( ; ), extraemos una muestra aleatoria y hacemos:

[(

) (

(X i ) = X i X + X
2

)]

Desarrollemos y dividamos por 2:

(X i )
Xi X
=
2

2
2

X
+
2
C

2 X (X i )
2
D

A = Z12 + Z 22 + ... + Zn2


B=

nS X2

n2 1

n2

X
= X
C = n
/ n

Z 2 = 12

D = 0, ya que X i X = 0
Puesto que B depende de la varianza y C de la media, siendo ambas independientes, tenemos que:
A=B+C
n2 =

nS X2

+ 12

n2 12 = n2 1 =

En definitiva,

nS 2X

nS X2
2

sigue una distribucin n2 1 .

Por otro lado, sabemos que la esperanza matemtica y la varianza terica de una variable n2 son,
respectivamente, n y 2n (ver tema variables aleatorias continuas). Por tanto:
n

E 2 S X2 = n 1

nS 2
X
2

= 2(n 1)

( )

E S X2 =

2 2 =
S

n 1 2

2(n 1)
n2

En definitiva, podemos encontrar en la distribucin 2n1 las probabilidades relacionadas con el estadstico S2X
(con la esperanza matemtica y error tpico sealados).
Ya en los temas de estadstica descriptiva comentamos la importancia de la varianza cuando comparamos una
misma variable en dos muestras, incluso, vimos que esta comparacin debe realizarse antes siquiera de
analizar las medias. Esto debe hacerse as porque carece de sentido preguntarse si las medias son o no
diferentes cuando las varianzas ya lo son. En nuestro ejemplo sobre el neuroticismo en varones, tanto en
poblacin normal como en nuestra muestra de pacientes con CCD, las desviaciones tpicas y varianzas son:
VARIABILIDAD DEL NEUROTICISMO

Desviacin tpica
Varianza

Poblacin

Muestra

5,2

5,01

27,04

25,1

Dadas las diferencias entre las varianzas, antes de preguntarnos nada sobre las medias, deberamos haber
analizado las varianzas. Vamos a hacerlo en este momento.
Si el neuroticismo no vara en la muestra de pacientes con CCD:
DM de

Por tanto, 2 =

nS 2
2

2
2
n2 1 = 100
1 = 99

100 25,1
= 92,82
27,04

Para 99 grados de libertad, la probabilidad de obtener una varianza igual o mayor a 25,1 en la distribucin
muestral de varianzas es:
P (2 > 92,82) = 1 P (2 < 92,82) = 1 0,3442 = 0,6658
Siendo alta la probabilidad de obtener una varianza as con las condiciones establecidas, deberemos concluir
que las diferencias entre el valor poblacional y muestral pueden considerarse debidas al azar. Por tanto, el
anlisis que hicimos de la media es totalmente lcito.

DISTRIBUCIN MUESTRAL DE LA VARIANZA


Chicuadrado; df=99

p = 0,6658

60

72

84

92,82

108

120

132

144

Por otro lado, recordemos que en el tema 4, definamos la cuasivarianza o varianza insesgada como:

~
Xi X
S 2X =
n 1

Adems, si tenemos en cuenta que:


~
(n 1)S 2X = nS 2X

~
S 2X =

n
S 2X
n 1

Siguiendo la misma lgica que la expuesta para la varianza, la distribucin muestral de:
~
(n 1)S 2X
2

Se ajusta tambin al modelo 2 con n 1 grados de libertad. Adems, su esperanza matemtica y su varianza
terica son, respectivamente:
n 1~
E 2 S 2X = n 1

~
( n 1)S 2
X
2

= 2(n 1)

~
E(S 2X ) = 2
2
~2 2 =

S
X
n 1

~
En nuestro ejemplo, si la varianza insesgada es S 2X = 25,35 , su distribucin muestral es:
2
2
n2 1 = 100
1 = 99

Por tanto:
2 =

99 25,35
= 92,81
27,04

Para 99 grados de libertad, la probabilidad de obtener una cuasivarianza igual o mayor a 25,35 en la
distribucin muestral de varianzas es:
P (2 > 92,81) = 1 P (2 < 92,81) = 1 0,3439 = 0,6561
En esta ocasin, en la que los resultados apenas varan, sigue siendo alta la probabilidad de obtener una
varianza insesgada as, teniendo en cuenta las condiciones establecidas de partida. Por tanto, como antes,
deberemos concluir que, en principio, las diferencias con el valor poblacional pueden considerarse debidas al
azar. Veamos grficamente la probabilidad:

DISTRIBUCIN MUESTRAL DE LA CUASIVARIANZA


Chicuadrado; df=99

p = 0,6561

60

72

84

92,81

108

120

132

144

Terminamos este apartado con dos tablas que resumen de la distribucin muestral de los dos estadsticos,
varianza y cuasivarianza:
DISTRIBUCIN MUESTRAL DE LA VARIANZA
Normal

Distribucin de la v.a. X
Varianza poblacional

Conocida

Distribucin muestral de la v.a. S 2X


Esperanza matemtica
Varianza terica

n2 1

( )

E S 2X =
2 2 =
S

n 1 2

n
2(n 1)
n2

DISTRIBUCIN MUESTRAL DE LA CUASIVARIANZA


Distribucin de la v.a. X
Varianza poblacional

Distribucin muestral de la v.a. S 2X


Esperanza matemtica
Varianza terica

Normal
Conocida

n2 1

~
E(S 2X ) = 2
2
~2 2 =

S
X
n 1

EN CUALQUIERA DE LOS LIBROS DE LA BIBLIOGRAFA


RECOMENDAD PUEDEN ENCONTRAR SIMILARES
EXPLICACIONES SOBRE OTROS MUCHOS ESTADSTICOS
DE USO HABITUAL (Proporciones; ndices de correlacin
etc.)

Pruebas de significacin
En el tema anterior hemos estudiado la distribucin muestral de un estadstico, su esperanza matemtica y su
error tpico, como elementos esenciales para cualquier tipo de inferencia estadstica. Aunque existen multitud
de tcnicas para extrapolar los resultados de la muestra a la poblacin, por razones didcticas y de sencillez, las
vamos a englobar en dos grandes apartados: la prueba de significacin (o tambin, contraste de hiptesis o
prueba estadstica) y la estimacin de parmetros. El primer grupo, el contraste de hiptesis, nos llevar a
preguntarnos a cerca de la probabilidad de que un parmetro asuma un valor. La segunda categora, la
estimacin de parmetros, vara la cuestin y nuestra pregunta ser sobre los valores, desconocidos, de un
estadstico poblacional, o de un parmetro, o de una combinacin de los mismos?. Ambos tipos de preguntas se
respondern con mrgenes de certeza y de error establecidos a priori por nosotros mismos y, aunque ambas
tcnicas de anlisis comparten ms similitudes que diferencias en el procedimiento, sus peculiaridades y la
interpretacin que se deriva de los resultados de cada una justifican su estudio por separado. En este tema
hablaremos del contraste de hiptesis y dejaremos para el siguiente la estimacin de parmetros.
En relacin con el tipo de inferencia que se plantea en la prueba de significacin o contraste de hiptesis, la
pregunta que nos hacemos nos resulta familiar puesto que, segn recordamos del tema anterior, este tipo de
inferencia ya la hemos realizado sobre los valores poblacionales desde los resultados muestrales, a partir de la
distribucin muestral de los estadsticos y de su funcin de distribucin. Lo que vamos a hacer, a partir de
ahora, es aprender a articular la toma de decisiones y a matizar nuestras conclusiones con algunos elementos
nuevos y fundamentales, que harn de nuestras decisiones resoluciones ms apropiadas. Un ejemplo para
recordar todo lo visto en los temas anteriores nos servir de introduccin a los nuevos conceptos.
Constituyen una gran mayora los estudios que contemplan las relaciones satisfactorias entre los miembros de
la pareja como uno de los elementos esenciales del bienestar general, de la felicidad. La Escala de Bienestar
Psicolgico (EBP) de J. Snchez-Cnovas (1998) consta de un conjunto de cuatro cuestionarios que miden
bienestar psicolgico subjetivo, bienestar material, bienestar laboral y relaciones con la pareja. En relacin con
esta ltima dimensin, los tems describen actitudes personales acerca de la sexualidad y del trato con la
pareja. En el trabajo de baremacin de la subescala, se encontr una media igual a 61,68 y una desviacin
tpica igual a 11,67 (el rango de puntuaciones oscila entre 37 y 75) en edades comprendidas entre 26 y 44. Tras
ms de una dcada del cuestionario en el mercado, nos preguntamos si, a tenor de los cambios sociales,
econmicos, etc. en los ltimos aos, ha cambiado ese promedio. Para ello, utilizamos una muestra aleatoria de
~
100 sujetos y, tras aplicar el cuestionario, encontramos los siguientes datos:X = 58,9 y S X = 10,21. Esta
diferencia de 2,78 puntos puede deberse, como ya sabemos, al azar, o bien a una disminucin en la satisfaccin.
Utilizando las herramientas estadsticas que conocemos, vamos a analizar esta discrepancia entre los datos
poblacionales y los datos muestrales.

- 362 - Anlisis de Datos.

Teniendo en cuenta nuestros resultados y los datos acerca del bienestar con la pareja (variable X) en la
poblacin, sabemos que la distribucin muestral de la media se ajusta al modelo normal, a partir del cual,
podemos obtener la funcin de distribucin asociada al promedio alcanzado en la muestra:
Z=

58,9 61,68
11,67 / 100

= 2,38

DISTRIBUCIN MUESTRAL DE LA MEDIA

p = 0,008

Z = -2,38

-1

La funcin de distribucin asociada a este valor es igual a (vase el grfico anterior):


P(Z < 2,38) = 0,008
Lo que significa que, suponiendo que el promedio de satisfaccin con la pareja en la poblacin no ha variado, la
probabilidad de extraer una muestra aleatoria cuya media sea igual a 58,9 puntos o menos, es de 0,008. Esta
probabilidad es tan pequea que la media de la muestra resulta incompatible con la media poblacional, por lo
que nos permitimos decidir que la satisfaccin con la pareja, en promedio, ha disminuido.
Podemos pensar que el hecho de haber extrado una muestra aleatoria es suficiente para llegar a la conclusin
de que la poblacin ha variado. Sin embargo, esta decisin, en principio ms adecuada que en el caso de no
haber hecho el anlisis, puede llevarnos a una falacia si no tenemos en cuenta otros valores (amn, por

Pruebas de significacin. - 363 -

supuesto, del los correspondientes estudios de replicacin). A lo largo del tema, vamos a perfilar la conclusin a
la que ahora hemos llegado.

El proceso en la prueba de significacin


El trabajo de la toma de decisiones comienza con el establecimiento de dos niveles de hiptesis: las hiptesis de
trabajo, tambin llamadas de investigacin o cientficas, y las hiptesis estadsticas. Las primeras se expresan
de forma lingstica y sirven de gua en el proceso de investigacin. Las segundas son conjeturas en las que se
basan algunos anlisis estadsticos y hacen referencia, por ejemplo, al valor de un parmetro, a la forma de una
distribucin, etc. En nuestro ejemplo, la hiptesis cientfica sera: Como consecuencia de los cambios sociales,
econmicos, etc., el bienestar de las parejas ha disminuido en los ltimos 15 aos. Por su parte, una hiptesis
estadstica sera que la media poblacional es menor que 61,68, es decir, < 61,68.
Las hiptesis de trabajo se derivan de modelos ya elaborados (un modelo sobre el bienestar de las personas, en
el ejemplo) y se pueden caracterizar como afirmaciones acerca de las supuestas relaciones entre constructos o
variables implicadas. Deben explicitarse de tal forma que el modelo pueda contrastarse con la realidad y que
los modelos competidores puedan eliminarse. Su claridad es fundamental para determinar si el resultado
obtenido es similar o no al esperado desde el modelo, por lo que son fundamentales en el desarrollo del proceso
de investigacin.
Lo que se denomina hiptesis estadstica es una prediccin que se deriva de una hiptesis de trabajo, por lo que
debe cumplir los requisitos generales que establece la Filosofa de la Ciencia para tales predicciones: ser
lgicamente deducible de la hiptesis terica y de las condiciones iniciales, ser de improbable realizacin en el
caso de no ser cierto el modelo y ser verificables (R.N. Giere, 1984). Por tanto, deben cumplir dos propiedades
para asegurar su validez:
1. Deben ser congruentes con las hiptesis de investigacin.
2. Deben ser lo suficientemente especficas como para determinar si los resultados obtenidos son similares o
no al resultado que se haba predicho.
El procedimiento de la prueba de significacin o contraste de hiptesis o contraste estadstico acta sobre la base
de un conjunto de observaciones, es decir, sobre la evidencia emprica, y permite, con ciertas salvedades,
rechazar o no la hiptesis estadstica. Tcnicamente hablando, existen dos rutas posibles para contrastar una
hiptesis:

Confirmacin. Se trata de buscar datos que apoyen la veracidad de nuestra hiptesis. En la realidad no
se utiliza este procedimiento porque, por ms cantidad de datos que pudiramos recoger y que la

- 364 - Anlisis de Datos.

apoyen, siempre podran aparecer otros nuevos que no lo hicieran. De ah que el contraste de hiptesis
se rige por la siguiente opcin.

Falsacin. Se trata de encontrar de datos que nieguen o rechacen la veracidad de nuestra hiptesis. Si
ninguno de los datos recogidos va en contra de lo que afirma nuestra hiptesis de trabajo, entonces
estaremos en disposicin de pensar que no hay razones para considerarla incorrecta, es decir, para
rechazarla, con lo cual, afirmaremos que los datos nos permiten mantener

Este ltimo procedimiento sigue una serie de pasos que detallamos a continuacin.

Paso 1. Formulacin estadstica de la hiptesis cientfica


Segn acabamos de exponer, la prueba de significacin comienza cuando planteamos una hiptesis cientfica
en trminos estadsticos. Por ejemplo, S. Gonalves, J. Castell y M. Sandra construyeron en 2007 un modelo
predictivo sobre las conductas sexuales de riesgo (que llamaremos Y) con jvenes entre 15 y 25 aos, entendida
como una prctica sexual desprotegida que puede ocasionar infeccin por ETS/SIDA. Las variables
independientes estudiadas corresponden a cinco aspectos: nivel sociocultural (X1), nmero de parejas sexuales
en el ltimo ao (X2), consumo de alcohol (X3), bienestar psicolgico (X4) y estrategias de afrontamiento de
problemas (X5). El modelo obtenido fue el siguiente:
Y = 1,04 X1 + 1,91X 2 + 0,54x 3 0,071X 4 0,12X 5
Suponemos que los autores realizaron ya el pertinente estudio de fiabilidad del modelo, en cuyo caso,
deberamos ahora validarlo. Segn se desprende del mismo, todas las variables son importantes para
determinar las conductas sexuales de riesgo. Podramos plantearnos diversas hiptesis cientficas:
1. El nmero de parejas sexuales correlaciona positivamente con las conductas sexuales de riesgo.
2. La proporcin de conductas sexuales de riesgo aparece en mayor medida en los jvenes consumidores
de alcohol.
3. El bienestar psicolgico correlaciona negativamente con el nmero de conductas sexuales de riesgo.
4. El nivel sociocultural infiere en las conductas de riesgo de modo que aquellos, cuyo nivel es ms
elevado, tienen menor riesgo que aquellos que pertenecen a un nivel medio o elevado.
Estas hiptesis cientficas son algunas de las cuales deberamos poner a prueba para poder refutar o no el
modelo propuesto sobre la conducta sexual de riesgo. Sin embargo, tal y como estn formuladas, poco vamos a

Pruebas de significacin. - 365 -

poder hacer. Debemos transformarlas en hiptesis estadsticas como elementos de arranque del proceso
matemtico de validacin del modelo. As pues, podramos reescribirlas de la siguiente manera:
1. H: ry-nmero de parejas > 0
2. H: p (Yconsumidores de riesgo de alcohol) > p (Yno consumidores de riesgo de alcohol)
3. H: ry-bienestar psicolgico < 0
4. H: nivel bajo > nivel medio-alto
Fijmonos que las anteriores hiptesis: tanto las de trabajo como las estadsticas, estn referidas a los
parmetros. Tambin podramos habernos planteado hiptesis acerca de la forma de la distribucin de las
variables, como por ejemplo, que el bienestar psicolgico se ajusta a una distribucin normal:
5. H: X4 N ( ; 2)
De hecho, como veremos ms adelante, en la mayora de las ocasiones, necesitaremos tomar decisiones acerca
de la forma de la distribucin de las variables como parte de la prueba de significacin, lo que se realiza, a su
vez, con otra prueba de significacin.
Vamos a seleccionar la variable alcohol. Por razones de sencillez, vamos a desviarnos, ligeramente, del modelo.
Segn los datos de la Encuesta Domiciliaria sobre Consumo de Alcohol y Drogas 2009/10 del Ministerio de
Sanidad (2010) el alcohol contina siendo la sustancia psicoactiva ms consumida, habindose detectado,
incluso, un incremento desde el ao 2007 en el consumo abusivo. Por ejemplo, el 18,4 por ciento de la poblacin
manifiesta que se ha emborrachado hasta 10 veces durante el ltimo ao y un 14,9 por ciento se ha dado un
atracn de alcohol al menos 1 vez en los ltimos 30 das, situndose la mayor prevalencia de borracheras en el
rango de edad 14-34 aos (suponemos una desviacin tpica = 2,2). Sabemos de otras fuentes, adems, que la
edad de inicio ha disminuido de los 14 aos establecidos habitualmente. Esta ltima afirmacin, podramos
escribirla, no slo en trminos de hiptesis cientfica o de trabajo, sino tambin de hiptesis estadstica:

Hiptesis cientfica: La edad de inicio del consumo de alcohol ha disminuido en el ao 2010.

Hiptesis estadstica: H: 2010 < 14

Plantear hiptesis estadsticas no es un proceso complicado, siempre que se siga una regla de oro: sencillez y
claridad en el establecimiento de las hiptesis cientficas. De otro modo, la prueba de significacin se tornar,
ya no compleja, sino prcticamente inviable.

- 366 - Anlisis de Datos.

Paso 2. Hiptesis nula e hiptesis alternativa


Cmo sabemos, en el ejemplo anterior, que la edad de inicio del consumo de alcohol realmente ha disminuido?
La respuesta es bien sencilla: comparando la hiptesis con la realidad. Antes de hacerlo, sin embargo, debemos
fragmentar la hiptesis en otras dos: la hiptesis nula y la hiptesis alternativa.
La hiptesis nula es la que vamos a mantener como verdadera y a someterla a comprobacin experimental. En
nuestro ejemplo, diramos que la edad de inicio no ha disminuido en el ao 2010 y cualquier cambio slo se debe
exclusivamente al azar. Es decir, en principio nada ha cambiado. Vamos a trabajar en todo momento como si
fuese verdadera hasta que la realidad nos demuestre lo contrario a favor de la hiptesis alternativa, en la que
se ver reflejada la hiptesis estadstica. En otras palabras, bajo la hiptesis alternativa afirmamos que,
efectivamente, la edad de inicio de consumo de alcohol ha disminuido, no debindose este descenso al azar.
Ambas las escribimos, respectivamente, de la siguiente manera:

2010 14

H0:

H1: 2010 < 14

Recordemos que, hasta la toma de decisin, vamos a mantener la hiptesis nula como verdadera. Slo los datos
empricos nos demostrarn su nulidad, de ah su nombre. Ser la hiptesis alternativa la aspirante a
suplantarla (J. Amn, 1988, p. 263). Recuerda el lector aquella afirmacin segn la cual toda persona es
inocente hasta que se demuestre lo contrario? Esto mismo es de completa aplicacin al caso de la hiptesis nula.
En rigor, deberamos
utilizar la distribucin t de
Student, ya que nada
sabemos de la varianza
poblacional.
Sin embargo, puesto que el
tamao de la muestra es
mayor que 100, los
resultados, prcticamente,
son iguales y, con la
transformacin a la normal,
el lector puede consultar en
las tablas la probabilidad de
la funcin de distribucin.

Paso 3. Estadstico de contraste


Para poner a prueba las hiptesis, como hemos sealado, debemos recurrir a la realidad. As pues, nos
disponemos a seleccionar una muestra aleatoria de 500 jvenes y les preguntamos a qu edad se iniciaron en la
ingesta de alcohol resultando una media igual a 13,6 y una desviacin tpica insesgada igual a 1,9. Este
resultado discrepa de lo establecido en la hiptesis nula, de lo que sabemos ya en la poblacin general.
Siguiendo el procedimiento que ya conocemos, y teniendo en cuenta el T.L.C. y el tamao de la muestra,
ajustamos la distribucin muestral de la media de la variable edad al modelo curva normal, con lo cual vamos a
recurrir l para obtener la funcin de distribucin asociada al promedio alcanzado en la muestra:
Z=

13,6 14
2,2 / 500

= 4,06

Esta transformacin de la media muestral no nos resulta nueva, sin embargo, conviene saber que al valor Z
obtenido se le denomina estadstico de contraste en el contexto de las pruebas de significacin. Su frmula

Pruebas de significacin. - 367 -

genrica coloca en el numerador la media 0, establecida en la hiptesis nula, y la media 1, estimada


medianteX:
Z=

1 0 1 0
=
X
/ n

Todo estadstico que utilicemos para poner a prueba la hiptesis nula, ya sea una media, una varianza, una
proporcin, una mediana, un coeficiente de correlacin, etc. se denomina estadstico de contraste y, segn las
condiciones poblacionales de partida y las caractersticas de la muestra analizada, como ya sabemos, tendr
una distribucin muestral que se ajustar a una distribucin normal, una distribucin t de Student, una
distribucin 2 de Pearson, una distribucin F de Fisher, etc.
DISTRIBUCIN MUESTRAL DE LA MEDIA

p = 0,00002
Z = -4,06

-3

-2

-1

Volviendo a nuestra media, o a nuestro estadstico de contraste, la funcin de distribucin asociada al valor Z,
tal u como se aprecia en el grfico anterior, es igual a:
P(Z < 4,06 ) = 0,00002

- 368 - Anlisis de Datos.

Paso 4. Toma de decisin acerca de H0


Segn el resultado anterior, suponiendo que H0 es verdadera, es decir, que la edad de inicio de consumo de
alcohol no ha disminuido, la probabilidad de extraer una muestra aleatoria cuya media de edad sea igual a 13,6
aos o menos, es de 0,00002. La probabilidad es tan pequea (ni siquiera aparece en el grfico el rea rayada),
que los datos muestrales y la H0 parecen incompatibles, por lo que debemos tomar una decisin. Teniendo en
cuenta que nuestro estudio lo hemos realizado bajo las ms ptimas condiciones, parece que lo adecuado es
rechazar la H0 a favor de la H1 y concluir que la edad de inicio de consumo de alcohol ha disminuido en la
poblacin.
Dmonos cuenta que todo el procedimiento de la prueba de significacin que hemos seguido ya lo conocemos
desde el tema anterior, en el que estudiamos la distribucin muestral de algunos estadsticos. Simplemente,
hemos introducido trminos nuevos a conceptos que sabamos. Por otro lado, cmo no, el desarrollo seguido es
vlido para cualquier parmetro (o conjunto de parmetros) siempre que dispongamos de la distribucin
muestral: varianza, proporcin, diferencia de medias, etc.

Probabilidad asociada y nivel de significacin


La funcin de distribucin que acabamos de obtener para decidir que la edad de inicio de consumo de alcohol ha
disminuido en la poblacin, suele denominarse probabilidad asociada, p valor, significacin, etc. Todos estos
trminos no indican ms que lo que ya sabemos, es decir, la probabilidad de que el estadstico sea igual o menor
(o mayor) que un valor, suponiendo unas condiciones poblacionales determinadas. Pues bien, desde este
momento, vamos a utilizar la expresin probabilidad asociada al estadstico para referirnos a ella y
simplemente vamos a emplear como nomenclatura la letra p. Es decir:
X = 13,6

con p = 0,00002

O lo que es lo mismo:
Z = 4,06

con p = 0,00002

Una pregunta razonable que nos haremos es cundo esta probabilidad es grande o pequea para tomar una
decisin. Efectivamente, en nuestro ejemplo p = 0,00002 resulta inmediato inferir que esta probabilidad es tan
pequea que rpidamente nos ha llevado a nuestra conclusin. Si en lugar de este valor hubisemos obtenido
una p = 0,9867, tambin habramos decidido que es lo suficientemente grande como para pensar que la
diferencia encontrada entre la poblacin y la muestra podemos considerarla (esencialmente) debida al azar.
Dnde est el lmite para llegar a la resolucin de que la probabilidad asociada es grande o pequea?

Pruebas de significacin. - 369 -

En principio, esta cuestin debe decidirla el propio investigador a partir de sus datos, de los obtenidos por otros
analistas, de los informes publicados, etc. y sta sera sin duda alguna la decisin ms cabal. Sin embargo, hay
ocasiones en las que un experimento se halla en sus fases iniciales y no disponemos de elementos de
comparacin. Para estos casos en los que an nos encontramos en la etapa exploratoria, podemos utilizar el
convenio de la comunidad cientfica, que es comparar nuestra probabilidad asociada con los valores 0,05 o 0,01,
que se denominan nivel de significacin , para acordar si es pequea o grande.
Por ejemplo, siendo la p = 0,00002 que hemos obtenido menor que = 0,01 o = 0,05, podemos decidir que es
pequea, lo suficiente como para sostener la incompatibilidad entre los resultados muestrales y la hiptesis
nula. Por el contrario, si la probabilidad asociada hubiese sido p = 0,9867, siendo mayor que = 0,01 o = 0,05,
nos conducira a la conclusin de que la discrepancia encontrada es debida (en principio) al azar. Para el primer
caso, hablamos de resultado en la muestra estadsticamente significativo, mientras que para el segundo
diramos que no es estadsticamente significativo. Veamos los siguientes grficos para los resultados que
nosotros hemos obtenido:
DIFERENTES NIVELES DE SIGNIFICACIN

= 0,05

-3

= 0,01
-2

-1

-3

-2

-1

Las zonas rayadas en ambos grficos corresponden a los niveles de significacin = 0,05 y = 0,01,
respectivamente. Para la probabilidad asociada p = 0,00002 esta masa de probabilidad se halla dentro de la
zona rayada en los dos casos por ser ms pequea que alfa, lo que significa que la media de 13,6 aos (o bien
Z = 4,06) se encuentra muy alejada de su valor esperado, de ser cierto que el promedio de inicio de consumo de
alcohol es 14 horas en la poblacin (o lo que es lo mismo, Z = 0). En otras palabras, el resultado muestral es
estadsticamente significativo y por tanto decidimos que la edad de inicio ha disminuido en la poblacin.

- 370 - Anlisis de Datos.

Tan poderoso ha llegado a ser el nivel de significacin que J. Cohen (1990) lo denomin santificante y
santificado mgico nivel del 0,05. Efectivamente, ros de tinta han inundado los informes cientficos, primero,
para utilizarlo como la prueba irrefutable de las conclusiones sobre comportamientos psicolgicos a las que han
llegado los investigadores con su utilizacin y, segundo, para intentar derrocarlo, debido a las falsedades
alcanzadas con su manejo abusivo, incontrolado e ignorante de sus grandes inconvenientes. Veamos por qu.
A pesar de haber encontrado una solucin a nuestro dilema anterior sobre lo grande o pequeo de nuestra
probabilidad asociada, an podra surgirnos otra duda: cul sera la decisin en el caso de obtener, por
ejemplo, una p = 0,03? Si optamos por compararla con = 0,05, nuestra conclusin parece clara: el resultado es
estadsticamente significativo. Sin embargo, si nos decantamos por = 0,01, el resultado deja de ser
estadsticamente significativo. Qu hacemos en este caso u otros similares? Pensemos en las conclusiones
acerca de comportamientos psicolgicos a los que podemos llegar en funcin de la eleccin de uno u otro nivel de
significacin! La respuesta es, dentro del aprieto en el que parece que nos hallamos, muy sencilla.
En primer lugar, nos daremos cuenta de que el nivel alfa ms bajo nos conduce a decisiones conservadoras,
mientras que el alfa de 0,05 nos convierte en ms liberales. Efectivamente, como acabamos de sealar, con
p = 0,03 y = 0,01 el resultado muestral es estadsticamente significativo, mientras que p = 0,03 con = 0,05,
el resultado no lo es.
Debido a lo anterior, el investigador debe decidir a priori con qu nivel de significacin va a trabajar, y no
despus de observar sus resultados. Para esta decisin puede ayudarse de los informes publicados en la
literatura sobre la misma investigacin. No tendra sentido que utilizase un alfa igual a 0,05 cuando lo habitual
es ser ms conservadores con alfas de 0,01, es ms, resultara un tanto sospechoso ser tan liberal con sus
anlisis cuando otros investigadores no lo son.
En el caso de no encontrar publicaciones al respecto, quiere decir que est en una etapa exploratoria y en este
caso puede utilizar niveles bajos de alfa que mantengan sus variables en el estudio hasta estar seguro, a
medida que avanza en su investigacin, que no son relevantes y por tanto, subir el alfa. Esta cuestin, no
obstante, hay que tomarla con muchsima precaucin porque el uso de diferentes niveles de significacin en el
mismo estudio, si no se demuestra claramente lo contrario, indicar que la eleccin de alfa ha sido una cuestin
ms de conveniencia (o ignorancia) que de autntico conocimiento del comportamiento de las variables.
Adems, el sentido comn debe prevalecer sobre cualquier resultado matemtico. Supongamos, por ejemplo,
que ponemos a prueba un mtodo nuevo de enseanza de las matemticas. Tradicionalmente, sabemos de
fuentes fidedignas que el promedio en nios de 12 aos viene siendo igual a 6,7 en una escala de 0 a 10.
Nuestro plan de enseanza logra alcanzar una media igual a 6,9, siendo el resultado estadsticamente
significativo, es decir, p < 0,01. Deberamos proponer al Ministerio de Educacin un cambio en su sistema para
que los nios alcancen una nota ms elevada a la luz de los resultados de la muestra? No. Y las razones son
dos: en primer lugar porque hemos utilizado un nico experimento y la generalizacin no ha sido demostrada
con otros estudios y, en segundo lugar, porque una diferencia de 0,02 puntos no es razn para movilizar un
sistema educativo cuyos costos pueden ser colosales, pudiendo ser ms adecuadamente empleados en otros

Pruebas de significacin. - 371 -

problemas de carcter social. De sta y otras cuestiones ms que afectan a nuestras decisiones las vemos en los
siguientes apartados.

Probabilidad asociada y tamao de la muestra


Todas las frmulas que hemos aplicado para transformar los estadsticos, y obtener as sus probabilidades
asociadas, necesitan el error tpico de la distribucin muestral de que se trate. La cuanta de este error est
directamente relacionada con el alejamiento del estadstico a su parmetro, de manera que cuanto menor sea,
ser ms probable extraer una muestra cuyo estadstico est ms cerca del valor de su parmetro, y viceversa.
En la figura siguiente, las medias de las dos distribuciones son iguales, pero no sus desviaciones tpicas o
errores tpicos. Viendo los grficos enseguida apreciamos que la menor concentracin en la distribucin
punteada refleja que es ms fcil extraer una muestra cuya mediaX est ms alejada de (y al revs sucede
con la de lnea continua):
DIFERENTES VALORES DEL ERROR TPICO CON LA MISMA
Error
tpico
1
6

Por otro lado, el error tpico de una distribucin muestral est inversamente relacionado con el tamao de la
muestra, tal como podemos observar en las frmulas para su obtencin. Por ejemplo, para el caso de una media
recordemos:

- 372 - Anlisis de Datos.

X = / n

Cuando la varianza poblacional es conocida.

~
X = SX / n = S / n 1

Cuando la varianza poblacional es desconocida.

Las expresiones anteriores indican claramente que el error tpico aumentar o disminuir, simplemente,
disminuyendo o aumentando el tamao muestral, respectivamente.
En consecuencia, la probabilidad asociada al estadstico transformado tambin se ve afectada, siendo ms
pequea cuanto mayor sea el tamao de la muestra. De este modo, si un investigador quiere obtener resultados
significativos, no tiene ms que utilizar muchos sujetos en sus anlisis, aun cuando las diferencias entre lo
observado y lo esperado no tengan valor alguno. En nuestro ejemplo utilizamos 500 jvenes. Qu habra
sucedido de haber sido un tamao muestral igual a 50?
= 14 aos

= 2,2

n = 50 jvenes

X = 13,6 aos

~
S X = 1,9

X = 2,2 / 50 = 0,32
Z = 1,28 con p = 0,09
La disminucin en el tamao de la muestra ha provocado que el error tpico aumente y tambin la probabilidad
asociada. De hecho, en este momento, siendo tan alta (mayor que cualquiera de los niveles de significacin que
escojamos, = 0,01 o = 0,05), concluimos que el resultado no es estadsticamente significativo, es decir, que la
diferencia encontrada podra adjudicarse al azar.
Como vemos, el tamao muestral no es una cuestin balad y puede conducirnos a un dilema importante: si
escogemos una muestra grande es ms fcil obtener un resultado significativo, que no quiere decir
necesariamente que sea importante; sin embargo, si extraemos una muestra pequea, aun cuando el resultado
fuese trascendente, no sera estadsticamente significativo y, en principio, podra llevarnos a pensar que no se
puede realizar la generalizacin a la poblacin. Ms adelante veremos las posibilidades de solucin de las que
disponemos. De momento, an tenemos que seguir reflexionando sobre las decisiones que tomemos en nuestros
anlisis.

Pruebas de significacin. - 373 -

Error tipo I, error tipo II y potencia


Cuando nos inclinamos a afirmar que unos resultados son o no significativos a partir del valor de alfa que
hemos escogido y de la probabilidad asociada que hemos obtenido, estas decisiones tienen unas consecuencias
que debemos analizar.
Si p es menor que decidimos que nuestros resultados muestrales son estadsticamente significativos,
mientras que al contrario, es decir, si p es mayor que , entonces no lo son. Puede ocurrir que la realidad sea
precisamente al revs y que para el primer caso, por ejemplo, las discrepancias se deban simplemente al azar,
mientras que para el segundo no hemos encontrado diferencias significativas cuando en realidad s existen. En
tales circunstancias estaramos cometiendo un error, denominados error tipo I y error tipo II, respectivamente.
En el cuadro de la siguiente pgina lo vemos ms claramente:
Efectivamente, en funcin de lo que suceda realmente en la poblacin podremos cometer un tipo u otro de error,
o no, segn nuestros resultados muestrales estadsticamente significativos o no significativos. El problema
estriba en que, al no poder trabajar con la poblacin al completo (por eso trabajamos con una muestra), no
sabemos con certeza qu acontece en ella y, por lo tanto, tampoco sabemos en principio si nuestras decisiones
son correctas o errneas.
ERROR TIPO I, ERROR TIPO II Y POTENCIA DE LA PRUEBA

Los resultados muestrales son


estadsticamente significativos.
(p < )
Los resultados muestrales no son
estadsticamente significativos.
(p > )

Las discrepancias entre la H0

Las discrepancias entre la H0

y la muestra son reales.

y la muestra se deben al azar.

Decisin correcta

Error tipo I

Potencia de la prueba

Probabilidad de cometerlo =

Error tipo II
Probabilidad de cometerlo =

Decisin correcta

Pues bien, justamente el nivel de significacin que escojamos nos sirve para saber el grado de error que
podemos estar cometiendo en nuestra decisin. De hecho, es precisamente la probabilidad de cometer el error
tipo I. Cuando utilizamos un = 0,05 la probabilidad de equivocarnos al afirmar que la poblacin ha cambiado
es de 0,05, mayor que de haber elegido = 0,01. Ahora podemos entender un poco mejor por qu se escogen
valores bajos para el nivel de significacin: porque debido a sus consecuencias, queremos que la probabilidad de
cometer el error tipo I sea pequea. Dmonos cuenta tambin, y una vez ms, que trabajar con alfas de 0,01 nos

- 374 - Anlisis de Datos.

convierte en ms conservadores que hacerlo con valores de 0,05, que nos torna ms liberales en nuestras
decisiones.
Por su parte, cuando nuestros resultados muestrales no son estadsticamente significativos pero s existe una
discrepancia real con la poblacin, tambin estamos cometiendo un error, denominado error tipo II, cuya
probabilidad de ocurrencia llamamos .
As como la probabilidad de cometer el error tipo I la determinamos a priori, no la conocemos, pero sabemos
cules son los factores de los que depende: del valor de que escojamos, del verdadero valor del parmetro en
cuestin y del error tpico de la distribucin muestral del estadstico. En cualquiera de los casos, el investigador
siempre buscar que la probabilidad de cometer ambos errores sea pequea. Ahora bien, la disminucin de uno
significa el aumento de otro. Qu puede hacer entonces? Una posibilidad es decidir cul de los dos errores
tiene consecuencias ms graves. Por ejemplo, si los resultados significativos implicasen un gasto crucial del
presupuesto del Ministerio de Educacin de un pas cambiando los mtodos tradicionales de enseanza de
idiomas, habra que preguntarse hasta qu punto no ser ms conservadores con un alfa ms pequeo, aunque
ello signifique un aumento en el error tipo II, es decir, que tengamos que mantener que no hemos encontrado
mejoras en nuestro nuevo mtodo para el aprendizaje rpido de idiomas extranjeros.
ERRORES TIPO I Y II
H0

H1

Otra posibilidad, a la cual todo investigador aspira, es aquella en la que decide que los resultados son
estadsticamente significativos porque de hecho ha habido un cambio en la poblacin. Por ejemplo, cuando
decide a partir de sus resultados muestrales que la edad promedio de consumo de alcohol ha disminuido y,

Pruebas de significacin. - 375 -

efectivamente, as ha ocurrido en la poblacin. Esta decisin se denomina potencia de la prueba de significacin


y, siendo su probabilidad igual a 1 , cuanto mayor sea, ms seguro estar el investigador de sus resultados
estadsticamente significativos. En una escala de 0 a 1, convencionalmente se asume que el nivel mnimo de
potencia requerido para una investigacin debe ser igual o mayor que 0,80, lo que significara una = 0,2.
POTENCIA DE LA PRUEBA DE SIGNIFICACIN
H1

H0

1-

La mayora de los paquetes estadsticos muestra los valores de potencia a posteriori, con lo que calcular la
probabilidad de cometer el error tipo II no tiene dificultad alguna. Adems de comunicar estas probabilidades,
en nuestras investigaciones debemos informar sobre la relevancia terica de nuestra investigacin. Tal cuestin
trascendental la desarrollamos en el siguiente apartado.
Antes de terminar, mostramos la interesante la analoga que utiliza D. Fras-Navarro entre la decisin en un
juicio y el proceso de decisin estadstica. El objetivo de esta semejanza es comparar la presuncin de inocencia
con la verdad de la hiptesis nula como inicio del proceso de decisin estadstica, donde las decisiones tomadas
tienen unas consecuencias:

Consecuencias que tiene la


consideracin de la
potencia estadstica (R.
Bono y J. Arnau, 1995):
1. Si las estimaciones de
potencia obtenidas a priori
son bajas, el investigador
puede elegir aumentar la
potencia (lo que significa un
aumento del tamao
muestral) o abandonar la
investigacin (ya que los
costes son muy elevados o no
merece la pena).
2. No poder rechazar H0 no
significa que sea cierta. Sin
embargo, si la potencia es
alta, podra considerarse,
dentro de unos lmites, que
H0 podra ser cierta, ya que
la probabilidad de cometer
un error tipo II () ser baja.
3. Investigaciones que
obtienen potencias medias
(aproximadamente 0,50),
tendrn un patrn de
resultados inconsistentes: en
algunos casos sern
significativos y en otros no.

- 376 - Anlisis de Datos.

COMPARACIN ENTRE EL PROCESO DE JUICIO Y EL DE DECISIN ESTADSTICA


Proceso de juicio
Inicio:
Con este propsito, FrasNavarro recomienda la
pelcula de Billy Wilder
Testigo de Cargo (1957,
Witness for the
Prosecution), donde Leonard Vole es acusado del
asesinato de la seora
French. A pesar de que las
pruebas en su contra son
notables, el abogado criminalista Sir Wilfrid Roberts
acepta su defensa al creer
en su inocencia.

El objetivo del juicio:


Criterio para determinar la
culpabilidad:
Previo al proceso:
Durante el proceso:
Veredicto/Decisin:

Decisin correcta:

Asuncin de inocencia del acusado.

Asuncin de que H0 es cierta.

Demostrar que el acusado es


culpable.

Rechazar H0 y como consecuencia aceptar


H1.

Rechazar la inocencia ms all de


la duda razonable.

Rechazar H0 con un nivel de significacin


estadstica o alfa.

Reunir la mejor evidencia o


pruebas.

Planificar adecuadamente el diseo de


investigacin.

Resumir la evidencia hallada.

Calcular la prueba estadstica.

No culpable: el acusado no ha
cometido el delito.

Mantener H0: las poblaciones de los


grupos son iguales.

Culpable: el acusado s ha
cometido el delito.

Rechazar H0: las poblaciones de los


grupos no son iguales (hiptesis
alternativa).

Culpable si el acusado
realmente es culpable.

Concluir que existen diferencias cuando


realmente
es
cierto
(potencia
estadstica).

No culpable si el acusado
realmente lo es.

Decisin incorrecta:

Calidad de la decisin:

Proceso de decisin estadstica

Concluir que no hay diferencias cuando


realmente no existen (nivel de
confianza).

Culpable pero el acusado


realmente es inocente.

Error de Tipo I: rechazar la hiptesis


nula siendo realmente verdadera.

No Culpable cuando el acusado


realmente es culpable.

Error de Tipo II: mantener la hiptesis


nula siendo realmente falsa.

Calidad de las pruebas aportadas.

Validez del diseo de investigacin.

Pruebas de significacin. - 377 -

Tamao del efecto


Tras realizar una prueba de significacin podemos encontrarnos con resultados muestrales estadsticamente
significativos, o no, a partir de los cuales tomamos decisiones acerca de cambios que se han producido, o no, en
la poblacin. Segn hemos visto, ceirnos nicamente a la probabilidad asociada, es muy arriesgado y poco
informativo, a la luz de sus inconvenientes inherentes. Imaginemos, por ejemplo, una prueba de significacin
para averiguar si un mtodo de reduccin del tabaquismo es eficaz. Encontramos una diferencia de tres
cigarrillos entre los sujetos no sometidos al tratamiento y a los que s se les aplica, resultando esta desigualdad
estadsticamente significativa. Un resultado as podra tener como consecuencia toda una movilizacin nacional
desde el Ministerio de Sanidad para ayudar a los adolescentes. Ahora bien, ese resultado de tres cigarrillos,
estadsticamente significativo, es realmente importante? Una disminucin de tres cigarrillos puede
considerarse como un xito de nuestro nuevo tratamiento? Es evidente que no.
Confundir la significacin estadstica con la importancia prctica es ciertamente un error muy comn y notorio
en la figura del investigador que busca afanosamente la significacin estadstica hasta debajo de las piedras
(A. H. Seuc, 1996, p. 219). Ms que considerar que una cosa es la significacin estadstica y otra la significacin
prctica, el investigador realmente desconoce qu es la primera y su relacin con la segunda. Su inters por las
pruebas estadsticas se produce porque es lo que se acostumbra aplicar y porque piensa que ello le facilitar
la publicacin de sus resultados, o bien la concesin de apoyos econmicos. En definitiva, est mostrando un
total desconocimiento del proceso de contraste de hiptesis y de sus consecuencias.

Casi todos los paquetes


estadsticos de Anlisis de
Datos presentan, como primer
resultado, una prueba de
significacin con la
probabilidad asociada al
estadstico, teniendo que
buscar el investigador, entre
sus algoritmos de anlisis,
otras estrategias alternativas
que, en algunos casos, no
aparecen y debe realizar a
mano. De ah que muchos
investigadores nicamente
basan sus decisiones en la
significacin estadstica. .

Tomemos otro ejemplo: el sueo. Podemos afirmar que la poblacin ha disminuido, de manera estadsticamente
significativa, una hora en el promedio de sus hbitos de sueo, lo que puede tener consecuencias desde nimias
hasta severas, porque sabemos que el descanso est directamente relacionado con la salud de las personas. Por
tanto, habr que decidir si esa hora de diferencia es realmente importante o no.
Estos dos ejemplos ponen de manifiesto una cuestin importantsima y es que obtener resultados
estadsticamente significativos no quiere decir que sean clnicamente relevantes porque, recordemos todo lo visto
hasta ahora, tenemos el problema de que la probabilidad asociada a un estadstico, que determina la prueba de
significacin, est directamente relacionada con el tamao muestral escogido, con el error tpico de la
distribucin muestral, con el nivel de significacin que fijamos a priori, etc. y puede variar nuestras
decisiones. Por tanto, si queremos llegar a conclusiones cabales e intachables en nuestras investigaciones
deberemos realizar otros anlisis alternativos a la probabilidad asociada y que la eviten, o bien que la
acompaen.
Las posibilidades que tenemos son varias. Podemos empezar, simplemente, observando los estadsticos
obtenidos y compararlos con valores esperados. Si por ejemplo con nuestro nuevo mtodo para reducir el
consumo de tabaco hemos encontrado en la muestra una diferencia entre los sujetos sin tratamiento y los
sujetos con tratamiento de X S X C = 3 cigarrillos, parece evidente, sin necesidad de ninguna prueba ms, que
el tratamiento no ha sido eficaz. La probabilidad asociada, que bien podra ser p = 0,0073, dara lugar a la
algaraza de algunos si la presentramos en un informe como prueba de la validez de nuestro programa de

Cuando llegamos a un punto en


que los procedimientos estadsticos
se convierten en sustitutos del
pensamiento, en vez de ayudas a
l, y ello nos conduce a
conclusiones absurdas, ha llegado
el momento de regresar al camino
del sentido comn.
David Bakan
Acadmico estadounidense

- 378 - Anlisis de Datos.

intervencin. Incluso la potencia asociada a la decisin, aun cuando fuese elevada, podra llevar a la batahola
entre aquellos que deciden sobre los presupuestos de sanidad. A qu se debe un resultado como el anterior?
Sencillamente, podra deberse a tamaos de muestra muy elevados en relacin con las desviaciones tpicas de
las muestras (recordemos el apartado 13.3.). En este sentido, como sealan diversos autores (M.D. Fras, J.
Pascual y J.F. Garca, 2000; A. Borges, C. San Luis, A. Snchez e I. Caadas, 2001), la interpretacin de la
significacin estadstica deja de tener sentido cuando el tamao de la muestra es tan grande que cualquier
diferencia detectada, por pequea que sea, permita rechazar la hiptesis de nulidad de las diferencias.
Tambin podra suceder justo al revs: haber obtenido una diferencia de 15 cigarrillos tras el tratamiento
teraputico y no ser estadsticamente significativa, por el mero hecho de haber trabajado con una muestra
pequea. En esta situacin, no informar de los resultados sera una absoluta torpeza, ya que disponemos de
una herramienta eficaz para paliar el tabaquismo.
Necesitamos, entonces, alguna medida del cambio que sea independiente del tamao muestral. Tal medida la
encontramos en el tamao del efecto, un concepto elaborado por Jacob Cohen (J. Cohen, 1988, 1990), que nos
dar una dimensin de la importancia real y de la relevancia de un resultado estadstico. Algunos autores se
refieren a l como el impacto del tratamiento (M.D. Fras, J. Pascual y J.F. Garca, 2002). Cualquiera que sea el
trmino que utilicemos, como ya deca G.V. Glass (1976), la significacin estadstica es la menos interesante de
los resultados. Estos se deberan describir en trminos de la magnitud de la medida; no slo cmo afecta el
tratamiento a los sujetos, sino cunto les afecta. (Pg. 4)
La idea del mtodo propuesto por Cohen es muy bsica: liberar al estadstico de contraste del tamao de la
muestra utilizada en la investigacin:
=

1 0

En la expresin anterior, 0 se refiere al valor de propuesto en H0; 1 a la media propuesta en H1 y estimada


~
medianteX y a la desviacin tpica poblacional, estimada mediante SX cuando es desconocida.
As pues, tenemos la llamada d de Cohen:
d=

X1 X 0

o bien

d=

X1 X 0
~
SX

Como podemos observar, no se trata de otra cosa que del estadstico de contraste Z multiplicado por 1
lo que conseguimos nuestro objetivo de independizarlo del tamao muestral.

n , con

Pruebas de significacin. - 379 -

Vamos a aplicarlo a nuestros datos sobre la disminucin de la edad promedio en el consumo de tabaco.
Recordemos:
Z=

13,6 14
2,2 / 500

p = 0,00002

= 4,06

Con el tamao del efecto obtenemos:


d=

X1 X 0

13,6 14
2,2

= 0,182

O, lo que es lo mismo:
d=

Z
n

4,06
500

= 0,182

Lo que realmente hemos calculado es una diferencia tipificada: la diferencia entre las dos medias dividida por
una desviacin tpica, lo que equivale a una puntuacin tpica. As pues, lo que nos dice es cuntas desviaciones
tpicas hay entre las dos medias, por lo que su interpretacin es sencilla y muy til.
Si suponemos que la distribucin es normal en la poblacin y, por ejemplo, hemos obtenido una d = 2 entre dos
grupos, esto quiere decir que la media del grupo con media mayor se aparta dos desviaciones tpicas de la
media del grupo con media ms pequea. La media ms pequea ahora es Z = 0 y la media mayor es Z = 2.
Segn las proporciones de la tabla de la distribucin normal, el sujeto medio del grupo con media mayor supera
al 97,72 por ciento de los sujetos del grupo con media menor. En otras palabras, la misma puntuacin que en
un grupo (el de media menor) equivale al percentil 98, en el otro grupo (con media mayor) corresponde al
percentil 50:

- 380 - Anlisis de Datos.

TAMAO DEL EFECTO MEDIANTE d


Media menor Media mayor

d=2
2

En los siguientes grficos, mostramos valores de d y los correspondientes alejamientos de las medias:
DIFERENTES VALORES DE d Y DISTANCIAS ENTRE LAS MEDIAS

d = 0,5
0,5

d=2
2

d=4
4

Vayamos a nuestro ejemplo. Dado que el tamao del efecto ha arrojado un valor d = 0,182, esto quiere decir que
la media establecida en H0 se aleja 0,182 desviaciones tpicas de la media que hemos obtenido en el grupo que
hemos estudiado. Buscamos esta distancia tipificada en la tabla de la curva normal y obtenemos, en trminos
de porcentaje, el sujeto medio de la poblacin est por encima del 57,22 por ciento de los sujetos de la muestra.

Pruebas de significacin. - 381 -

Es decir, una misma puntuacin que en la muestra equivale al percentil 57,22 en la poblacin es el percentil
50. Como vemos, el alejamiento no es elevado. A pesar de haber obtenido un resultado estadsticamente
significativo no ha resultado clnicamente relevante.
El tamao del efecto, as calculado, tiene todas las ventajas que vimos en el tema 6 sobre las puntaciones
tpicas:

El valor obtenido es independiente de las puntuaciones originales. En otras palabras, se trata de una
magnitud que se puede comparar con otras provenientes de otros estudios o instrumentos. Si por
ejemplo deseamos contrastar dos grupos en autoeficacia utilizando una escala con 40 tems en uno y
otra escala con 10 tems en el otro, las diferencias entre las medias no son comparables directamente,
pero s lo son las diferencias tipificadas.

Un resultado estadsticamente no significativo, sobre todo en muestras pequeas, pero clnicamente


relevante, constituye una buena justificacin para proponer hiptesis que podramos verificar con
muestras grandes.

Al contrario de lo anterior, un resultado estadsticamente significativo puede deberse nicamente a los


grados de libertad utilizados. Una medida del tamao del efecto nos indicar si es o no relevante. Por
ejemplo, si es pequeo, aun habiendo encontrado diferencias estadsticamente significativas, nos
hablar de la irrelevancia del resultado de la prueba de significacin.

Adems, podemos comparar diferencias entre grupos en variables distintas. Por ejemplo, en qu se
diferencia un grupo de nios y otro de nias, en aptitud numrica y oral? No podemos llegar a una
interpretacin en puntuaciones directas, pero s desde el momento en que transformamos estas
diferencias en tamaos del efecto.

Como todos los valores del tamao del efecto son comparables entre s, podemos promediar los
obtenidos en estudios diferentes y resumir todos los resultados en un nico dato. En esto consiste
precisamente el procedimiento cuantitativo del meta-anlisis, pero, sin necesidad de llegar a l,
cualquier investigador que haya realizado varios estudios comparando diversas medias en la misma
variable con el mimo instrumento, puede calcular la media de los tamaos del efecto para dar una
sntesis de sus resultados, en lugar de limitarse a sealar cuntas veces ha habido un resultado
significativo.

Muchos investigadores, a modo de recetario, valoran la magnitud del tamao del efecto como grande, medio o
pequeo siguiendo las indicaciones de J. Cohen (1988), que han sido muy aceptadas por la comunidad
cientfica. Sin embargo, lo cierto es que slo se trata de una orientacin, tal como propone su autor. Son del todo
arbitrarios y no pueden ser interpretados como una norma:

- 382 - Anlisis de Datos.

d 0,20 pequeo

d 0,50 moderado

d 0,80 grande

De seguro, el tamao del efecto pequeo, por ejemplo, en principio es una referencia til y, por su puesto,
muestra una relevancia prctica nula o escasa. Sin embargo, puede ser de gran inters en reas nuevas de
investigacin, o cuando trabajamos con instrumentos de medicin muy limitados o en perodo de
experimentacin (aqu supondramos que con mejores instrumentos el tamao del efecto bien podra superar el
valor de 0,20), o en estudios meramente exploratorios en los que nos planteamos su continuidad, etc. Por esto,
la propuesta de Cohen debe ser tomada, tal el autor como advierte, como una simple orientacin.
En efecto, el autor plantea interpretar como efecto mediano aquel detectable a ojo desnudo o perceptible en la
prctica diaria sin necesidad de medirlo formalmente; grande sera aquel de magnitud tal que probablemente
no se justifique hacer una investigacin para demostrar algo tan evidente y, pequeo, aquel que, no cumpliendo
las condiciones de uno mediano, s es lo suficientemente importante para justificar el estudio y su continuidad.
Lo que realmente es de gran utilidad es la propia interpretacin de d y, en caso de duda, la comparacin de los
valores obtenidos por nosotros con los de otros investigadores en el mismo contexto o variables, o bien, la
verificacin de los resultados de diferentes estudios sobre el mismo constructo. Lo que s se debe mostrar de
forma rutinaria, nos aconseja, es la proporcin de sujetos del grupo inferior superados por el sujeto medio del
grupo con mayor media, ya que este dato ancla cualquier otra valoracin.
G.V. Glass, B. McGaw y M.L. Smith (1981) y R. Coe (2002) nos aportan tambin otra sugerencia importante
para facilitar su valoracin. Se trata de tener en cuenta los costos y beneficios. Su planteamiento es que una
innovacin que produce un ligero aumento o beneficio y no supone un coste importante bien puede merecer la
pena tenerla en cuenta. Por tanto, adems de tener en cuenta el valor absoluto y relativo del tamao del efecto,
deberemos analizar la razn coste/beneficio.
Otra medida muy utilizada para medir el tamao del efecto en los diseos de medidas repetidas es el
coeficiente de correlacin biserial-puntual, propuesto por H. Friedman en 1968, entre las puntuaciones de la
variable dependiente y la variable grupo. Su atractivo reside en que su valor cuadrtico nos aporta la
proporcin de varianza de la variable dependiente que viene explicada por la pertenencia a uno de los dos
grupos y, al poseer un mximo y un mnimo, facilita en gran medida la valoracin del tamao del efecto
encontrado.
La preferencia por d o r depende del investigador. Bien es cierto que el uso de d est ms difundido en la
literatura cientfica (A. Pardo y R. San Martn, 1994), tal vez por su facilidad de interpretacin, ya que se trata
de una distancia tipificada. En cambio, la comprensin de r es menos automtica, para el lector profesional no
experto en estadstica, al tratarse de una proporcin de varianza explicada. En cualquier caso, ambas medidas
del tamao del efecto son intercambiables, como enseguida se ver, dado que una se puede transformar en la
otra.

Pruebas de significacin. - 383 -

Existen otros procedimientos para obtener el tamao del efecto para variables cuantitativas, adems de d y r,
pero todos ellos son variaciones de los presentados, conformando, as, las llamadas familia d y familia r,
respectivamente. Adems, habra una tercera, llamada familia de las Ratio, derivadas de la estimacin del
riesgo calculado en tablas 2 x 2, muy utilizadas en estudios epidemiolgicos en biomedicina (I. Iraurgi, 2009).
Todas ellas pueden consultarse, por ejemplo, en R. Ledesma, G. Macbeth y N. Cortada (2008), donde, adems,
se presenta un recorrido histrico y de desarrollo desde su aparicin hasta hoy. Puesto que la mayora de
medidas existentes hacen referencia a su clculo en dos o ms muestras, no las vamos a tratar en este texto. Lo
que s vamos a reproducir es la grfica del trabajo de revisin que llevaron a cabo Ledesma et al en la que se
puede observar los porcentajes de artculos cientficos que informaron del tamao del efecto en las revistas de
Psicologa indizadas en Redalyc (Red de Revistas Cientficas de Amrica Latina y Caribe, Espaa y Portugal)
en 2007, lamentablemente, muy exiguos:
REVISTAS HIBEROAMERICANAS QUE INFORMAN DEL TAMAO DEL EFECTO EN 2007

- 384 - Anlisis de Datos.

Antes de finalizar este tema, caben aqu importantes reflexiones. Segn hemos visto, cuando la probabilidad
asociada es mayor que el nivel de significacin, concluimos que los resultados no son estadsticamente
significativos, por lo que no nos permitan rechazar la H0 y, por tanto, no podremos considerar como vlida la
H1. No rechazar la hiptesis nula implica mantenerla, lo que en ningn significa aceptarla. Aunque para
algunos la regin de rechazo () y de no rechazo (1 ) son mutuamente excluyentes y, por tanto, el rechazo de
una implica la aceptacin de la otra, el razonamiento del contraste es otro. En primer lugar, que no hayamos
encontrado evidencia para rechazarla no quiere decir que otros investigadores s la hallen. Pensemos en esta
hiptesis: en agosto nunca llueve. Por ms apoyo a favor de esta hiptesis, a la luz de los das de sol
registrados, basta un solo da de lluvia para tener que rechazarla. En un proceso de decisin estadstica nunca
se concluye que la hiptesis nula es cierta, slo se mantiene dicha hiptesis dado que hasta el momento la
evidencia encontrada no permite rechazarla.
Por otra parte, muchos manuales de Anlisis de Datos proponen contrastes bilaterales y unilaterales, tambin
llamados de dos colas y una cola, respectivamente. Llevar a cabo uno u otro depender de las hiptesis
estadsticas que se hayan planteado. Cuando las hiptesis se conciben nicamente en trminos de igualdad o
desigualdad el contraste ser bilateral. Si las hiptesis se disean de forma que en la hiptesis alternativa se
indica no slo desigualdad, sino cul es su direccin, es decir, en trminos de mayor o menor, estaremos en un
caso unilateral. Por ejemplo, podemos plantearnos que hombres y mujeres difieren en aptitud verbal. La
hiptesis alternativa sera:
H1: H M
Se trata de un contraste bilateral. En cambio, si la hiptesis es que las mujeres tienen una mayor aptitud
verbal que los hombres, o menor, los contrastes seran unilaterales:
H1: H < M
O bien:
H1: H > M
En el primer caso, el rechazo de la hiptesis nula nicamente nos revela la existencia de una diferencia entre
hombres y mujeres en aptitud verbal, cuestin esta que puede resultar un poco exigua. Sin embargo, un
contraste unilateral, no slo detecta la desigualdad entre ambos, sino tambin la direccin (ms aptas o menos
aptas que los hombres), con lo cual, es ms informativo. Por esta razn, en este libro nos hemos decantado por
los contrastes unilaterales o de una cola, que son los que hemos trabajado.
La prueba de significacin es una herramienta utilizada por gran parte de los investigadores y no est exenta,
como hemos tenido ocasin de comprobar, de peligros e inconvenientes. Su uso y abuso debido a la sencillez del
procedimiento no ha dejado impasibles a muchos metodolgos, hasta el punto de manifestar su rechazo
absoluto. Tal vez no se trate tanto de erradicar la prueba de significacin como se ha llegado a proponer (puede

Pruebas de significacin. - 385 -

consultarse A. Borges, C. San Luis, J. A. Snchez e I. Caadas, 2001). Quizs, desde una postura ms eclctica,
se mejora la situacin aportando algunos recursos desde el momento en que incorporamos en el informe otras
medidas como el tamao del efecto, la potencia del contraste, la replicacin de resultados y el uso del
meta-anlisis.
En la introduccin del captulo hemos hablado de la estimacin de parmetros, otra tcnica de inferencia
estadstica, segn la cual, deseamos averiguar entre qu valores se espera que se encuentre un parmetro
desconocido a la luz de los resultados muestrales obtenidos. Se tratara de obtener un intervalo de confianza de
esos valores. Este procedimiento, que desarrollamos en el tema siguiente, supera la respuesta dicotmica que
aporta el contraste de hiptesis: adems de decirnos si un parmetro es mayor o menor que, tambin nos
informa de su cuanta. Se contribuye, de esta manera, a una solucin tambin eficaz a la problemtica de las
pruebas de significacin.

Estimacin de parmetros
En las tcnicas de inferencia estadstica, el contraste de hiptesis puede resultar til en la investigacin
cientfica, siempre y cuando lo acompaemos de otros resultados como, por ejemplo, el tamao del efecto. Si no
lo hacemos as y nos basamos nicamente en la prueba de significacin, poco o nada habremos avanzado. Ms
bien al contrario, nuestra divulgacin quedar ms exigua que en el caso de haber presentado nicamente
estadsticos descriptivos y grficos, que de por s son muy informativos. Es ms, la lectura de la publicacin
constituira una prdida de tiempo. La importancia de informar del tamao del efecto, como hemos visto en el
tema anterior, radica en que sin l no se est notificando en qu medida o grado se producen los efectos que los
autores dicen encontrar. Adems, el tamao del efecto integra los diferentes resultados, no directamente
comparables, de un conjunto de estudios en una nica escala de medida, posibilitando as la comparacin de los
mismos. En general, podemos decir que el contraste de hiptesis permite valorar las consecuencias que se
derivan de los modelos tericos cuando se acompaa de otros resultados indispensables para su evaluacin; es
decir, la validacin.
La otra cara de la moneda a las pruebas de contraste de hiptesis, la estimacin de parmetros, es muy
importante en la investigacin, tanto como lo es el tamao del efecto, y casi ms que las pruebas de
significacin. En realidad, es la base de la modelizacin puesto que es el procedimiento que permite determinar
los coeficientes (parmetros) del modelo. Adems, al preguntarnos cul es el valor de un parmetro en la
poblacin, o la diferencia entre dos estadsticos poblacionales, estamos obteniendo un intervalo de confianza
(que, a su vez, es una forma de tamao de efecto) ms informativo que la prueba de significacin. En general,
se asegura que calcular intervalos de confianza es un til complemento, e incluso un buen sustituto, a las
pruebas de significacin. La obtencin de intervalos de confianza en el anlisis de los datos puede considerarse
una buena solucin a todas las crticas que se achacan a las pruebas de significacin de la hiptesis nula. El
principal argumento a favor sostiene que, mientras las pruebas de hiptesis slo responden a la cuestin de si
unos estadsticos que representan parmetros difieren o no, los intervalos confidenciales, adems de
proporcionar una respuesta a esta duda, estiman la cuanta de la diferencia.
En este tema nos vamos a dedicar por entero a la estimacin de parmetros: distinguiremos dos niveles en este
proceso, estudiaremos las caractersticas de un buen estimador, cmo construirlos y cmo obtener intervalos de
confianza.

-1-

Cunto placer se obtiene del


conocimiento intil."
B. A. William Russell
Filsofo y matemtico (1872 1970)

Estimacin puntual
Como ya sabemos, el proceso de estimacin de parmetros consiste en inferir el valor desconocido de un
estadstico poblacional o de un parmetro de un modelo. Este paso podemos realizarlo de dos maneras:

Estimacin puntual. Se trata de un procedimiento mediante el cual otorgamos un nico valor al


parmetro desconocido a partir del resultado obtenido en la muestra. Por ejemplo, tras un programa de
intervencin, encontramos que el 60 por ciento (p = 0,60) de nios y adolescentes ha convertido en un
hbito propio un estilo de vida que incluye el ejercicio. Una estimacin puntual nos llevara a podemos
afirmar que la proporcin en la poblacin es: = 0,60.

Estimacin por intervalos. En este caso, daremos un rango de posibles valores, dentro del cual
estimamos se encuentra el verdadero valor del parmetro. Siguiendo el ejemplo anterior, podramos
afirmar que la proporcin se encuentra entre 0,50 y 0,70, es decir: 0,50 < < 0,80

Aunque tengamos la sensacin de ser la estimacin puntual ms sencilla que por intervalos y, por tanto, ms
parsimoniosa, las probabilidades de acierto y de error con que realicemos la inferencia son tan diferentes en
cada caso que la eleccin de un procedimiento u otro depender de la situacin concreta en la que nos hallemos.
Pronto comprenderemos qu queremos decir con esta afirmacin.
Adems, no basta con hacer una extrapolacin directa de los estadsticos muestrales conocidos a los parmetros
desconocidos (por ejemplo, sustituir 1, , , , etc. por b1,X, p, SX, etc.) sin garantas. Esto significa que deben
cumplir una serie de cualidades para llamarse estimadores de sus correspondientes parmetros. En efecto,
recordemos que los estadsticos son variables aleatorias que pueden asumir cualquier valor, por lo que tienen
una distribucin muestral, con todos sus posibles valores, con una esperanza matemtica y con un error tpico.
As pues, para una apropiada estimacin puntual, debern poseer unas mnimas propiedades para poder
utilizarlos en este proceso inferencial. Las vemos a continuacin:

Carencia de sesgo
Diremos que un estimador, , es un estimador insesgado si la esperanza de su distribucin muestral es igual al
=
E ( )
valor del parmetro, :

-2-

Consistencia
Diremos que es un estimador consistente de si la diferencia entre ambos tiende a cero, a medida que
aumenta el tamao de la muestra, n. Formalmente:
lm P (| |< ) = 1

En otras palabras, si n tiende a infinito, la probabilidad de que | |sea menor que cualquier valor , por
pequeo que sea ste, tiende a 1.

Eficiencia relativa
Entre dos estimadores 1 y 2 del mismo , diremos que 1 es ms eficiente que 2 si su error tpico es menor,
es decir:

<
1

Recordemos que el error tpico refleja el mayor o menor alejamiento de los posibles valores del estadstico a su
esperanza matemtica. Nuestro deseo es que la distribucin del estimador est muy concentrada, es decir, que
tenga una varianza pequea. As pues, entre dos posibles estimadores de un parmetro, preferiremos aquel
cuyo error tpico sea menor.

Suficiencia
Diremos que un estimador es suficiente si se basta por s solo para estimar , es decir, si agota toda la
informacin de la muestra relacionada con , de forma que ningn otro proporciona ms informacin a partir
de la misma. Aunque el concepto es ms complejo, un ejemplo puede ayudarnos a comprenderlo, si quiera, de
forma intuitiva.
Si partimos de una distribucin simtrica, sabemos que la media de la muestra,X, es un buen estimador de la
media poblacional, , aunque tambin podramos utilizar la mediana, o el promedio de los valores extremos de
la distribucin, o la media de los cuartiles primero y tercero, etc. Sin embargo, basta con observar las frmulas
de estos estadsticos para darnos cuenta de que no utilizan toda la informacin de la muestra, como lo hace la
media. As pues, el estimador suficiente de esX.

-3-

Del mismo modo, la varianza y la varianza insesgada, as como la proporcin son estimadores suficientes de 2
y de , respectivamente.

Mtodos de obtencin de estimadores


Existen diferentes procedimientos para la obtencin de buenos estimadores: momentos, mnimos cuadrados,
mxima verosimilitud, mnimo ji-cuadrado, etc. Nosotros comentaremos dos y de la manera ms intuitiva, ya
que conviene conocerlos, aunque no los estudiemos en profundidad:

Mtodo de mnimos cuadrados. Este mtodo trata de obtener aquel estimador que minimice las distancias
(al cuadrado) entre el valor estimado del parmetro y los resultados muestrales observados:

X i

sea mnimo

donde i = 1, 2, , n

No siempre es el mejor mtodo, pero resulta muy til para estimar los parmetros de la regresin, por
ejemplo. Recordemos que, de hecho, lo utilizamos en tema 8. As pues, referimos al lector al mismo para un
recordatorio.

Mtodo de mxima verosimilitud. Este mtodo obtiene como estimador de un parmetro aquel valor que
hace, lo ms verosmil posible, la muestra obtenida. En otras palabras, se trata de elegir, de entre todos los
posibles valores del parmetro, aquel que maximice la probabilidad de obtener el resultado particular
observado.

Estimacin por intervalos


La estimacin por intervalos es, en general, ms recomendable que la estimacin puntual porque nos permite
conocer el grado de fiabilidad de los resultados que obtengamos: reconoce la presencia de una incertidumbre en
la estimacin de un parmetro, indicando el grado de confianza de incluirlo el intervalo dentro de sus lmites.
Mediante la estimacin por intervalos, en lugar de un solo valor, proporcionaremos un rango de posibles
valores del parmetro, que se denomina intervalo de confianza, siendo los dos valores extremos los lmites del
intervalo. La principal ventaja de este mtodo es la seguridad con la que podemos realizar las estimaciones. En
el grfico siguiente, los corchetes indican cules son los lmites del intervalo y la llave los posibles valores
estimados del parmetro . La zona rayada, llamada nivel de confianza, es la probabilidad asociada al intervalo
de posibles valores del parmetro .

-4-

ESTIMACIN POR INTERVALOS


Recordemos la funcin de
distribucin de una variable
aleatoria X:
F (X) = P (X Xi)

|
]

Cuanto mayor sea el intervalo de valores, lgicamente, mayor ser la probabilidad de que se encuentre en l el
verdadero valor de . Dicho con otras palabras, cuanto mayor sea el nivel de confianza con el que se quiera
trabajar, ms amplio ser el intervalo:

Si X se ajusta, por ejemplo, a


una distribucin normal,
podemos realizar una
transformacin a puntuaciones
tpicas y encontrar las
probabilidades asociadas a
diferentes rangos de valores:
P (-1 < Z < 1) =
= P (Z < 1) P (Z < -1) =
= 0,8413 0,1587 = 0,6826

RELACIN ENTRE LA AMPLITUD DEL INTERVALO Y EL NIVEL DE CONFIANZA

-1

P (-2,5 < Z < 2,5) =


= P (Z < 2,5) P (Z < -2,5) =
= 0,9938 0,0062 = 0,9876

La otra cara de la moneda la encontramos en la precisin en la estimacin. En efecto, a mayor confianza en la


estimacin, mayor es el rango de posibles valores del parmetro, es decir, menos preciso es el intervalo. Al
revs, si queremos un intervalo ms preciso, ser a fuerza de perder confianza.
Qu se puede hacer en los casos anteriores, con qu margen trabajar? Normalmente, por convenio, se adoptan
los niveles del confianza de 0,95 o 0,99. Por ejemplo, si pretendemos estimar una media poblacional y
utilizamos un nivel de confianza de 0,95, esto quiere decir que el 95 por ciento de las veces que extraigamos una
muestra de la poblacin y calculemos la mediaX, la media estar dentro del intervalo. Para una
investigacin concreta, podemos elegir de los dos aquel que se utilice con mayor frecuencia por la comunidad

-5-

-2

En el segundo caso, el intervalo


de valores es mayor que en el
primero y tambin la
probabilidad asociada a ese
intervalo.
En el mtodo de estimacin por
intervalos, esas probabilidades
son los niveles de confianza.

cientfica en el tema en cuestin y, por supuesto, deber ser el mismo a lo largo de toda la investigacin, dando
as coherencia a los resultados obtenidos.
ERROR EN LA ESTIMACIN

/2

/2

Por otro lado, el opuesto al nivel de confianza lo constituye el margen de error () en la estimacin e indica el
porcentaje de los casos en los que el valor del parmetro se puede encontrar fuera del intervalo. Fijmonos en
que , las zonas rayadas en el grfico anterior, es /2 en cada una de ellas.
El nivel de confianza y el margen de error son inversamente proporcionales, como se aprecia en la siguiente
ilustracin:
RELACIN ENTRE EL NIVEL DE CONFIANZA Y EL MARGEN DE ERROR

= 0,05
Nivel de confianza = 1 0,05 = 0,95
0,025

0,95

0,025

-6-

= 0,01
Nivel de confianza = 1 0,01 = 0,99
0,005

0,99

0,005

Conocer la distribucin muestral de un estadstico, su esperanza matemtica y su error tpico sern


fundamentales para obtener el intervalo de confianza del correspondiente parmetro que deseamos estimar. En
los siguientes apartados presentamos la obtencin de los intervalos correspondientes a la media, a la varianza
y a la proporcin.

Intervalo de confianza de la media


En el tema 12 hemos expuesto cul es la distribucin muestral de la mediaX en funcin de las condiciones de
la variable aleatoria X en la poblacin. Vamos a partir de la situacin en la que conocemos la varianza
poblacional, 2, y presentamos despus el caso en el que la desconocemos.

Intervalo de confianza con conocida


Si la variable aleatoria X se distribuye de forma normal en la poblacin, la distribucin muestral de la media
X sabemos que es:

X N ;
Podemos realizar una transformacin a puntuaciones Z que sigan una distribucin Z N (0 ; 1):

-7-

Z=

X E( X ) X
=
X
/ n

Por tanto, podemos determinar la probabilidad de que la variable Z se encuentre entre dos valores concretos:
P (Z/2 Z Z1 /2 ) = 1
DETERMINACIN DEL INTERVALO DE CONFIANZA

/2

1 /2

/2

/2

1 /2

La expresin anterior tambin puede escribirse de la siguiente manera:

X
P Z / 2
Z1 / 2 = 1

/ n

Despejando / n :

P Z / 2 / n X Z1 / 2 / n = 1
Restando la mediaX en todos los trminos:

P X + Z / 2 / n X + Z1 / 2 / n = 1
Multiplicando por 1:

-8-

P X Z / 2 / n X Z1 / 2 / n = 1
Teniendo en cuenta que Z/2 = Z1 /2:

P X |Z / 2 | / n X + |Z / 2 | / n = 1
DETERMINACIN DEL INTERVALO DE CONFIANZA

/2

X + Z / 2 / n

La expresin:

/2

1 /2

X + Z1 / 2 / n
X + | Z / 2 | / n

X | Z / 2 | / n

| Z / 2 | / n
se denomina error mximo de estimacin.
En definitiva, el intervalo de confianza para la media viene dado por:

[ X |Z / 2 | / n ; X + |Z / 2 | / n ]
Veamos el siguiente ejemplo. El TTCT (Torrance Thinking Creative Test) es un test muy utilizado en el
contexto acadmico internacional, tanto para la identificacin de alumnos superdotados, como para la
evaluacin de la produccin creativa. Consta de dos pruebas independientes, el TTCT-Verbal y el TTCTFigurativo, siendo el objetivo de esta ltima escala la evaluacin de las producciones creativas a travs de
dibujos y composiciones (componer un dibujo, acabar un dibujo y lneas paralelas). En la adaptacin espaola
de la TTCT-Figurativo con alumnos entre 5 y 12 aos, M. Ferrando, C. Ferrndiz, M.R. Bermejo, C. Snchez, J.

-9-

Parra y M.D. Prieto (2007) encontraron los siguientes resultados en educacin primaria de primer ciclo en las
provincias de Murcia y Alicante:
RESULTADOS EN EL TEST DE PENSAMIENTO CREATIVO
Originalidad

Fluidez

Flexibilidad

Elaboracin

Media

25,5

19,3

14,9

17,5

Desviacin tpica

11,9

6,7

5,2

8,3

Mnimo

2,6

Mximo

69,6

40

30

47,6

Deseamos estimar la creatividad de los nios superdotados. Concretamente, nos vamos a centrar en la
subescala fluidez, variable que se distribuye de forma normal y que mide el nmero de ideas. Hemos elegido
para ello una muestra de 100 nios, obteniendo una mediaX = 23 y una desviacin tpica SX = 5. Entre qu
valores podemos inferir se encuentra la media de la poblacin de nios superdotados con un nivel de confianza
n.c. = 1 = 0,95? Necesitamos encontrar los lmites del intervalo [ ; ] de posibles valores de con un margen
de error igual a = 0,05:
INTERVALO DE CONFIANZA Y NIVEL DE CONFIANZA PARA = 0,05

= 0,05 /2 = 0,025
0,025

0,025

n.c. = 1 0,05 = 0,95


[ ; ] intervalo de posibles valores de

- 10 -

Dado que se nos ha informado que la distribucin muestral es normal, podemos tipificarla y acudir a las
probabilidades de su funcin de distribucin:

INTERVALO DE CONFIANZA Y NIVEL DE CONFIANZA PARA = 0,05

Intervalo: [-1,96 ; 1,96]


0,025

0,025

[
1,96

P ( -1,96 < < 1,96) = 0,95

]
1,96

Sin embargo, necesitamos estos lmites en puntuaciones directas:


INTERVALO DE CONFIANZA Y NIVEL DE CONFIANZA PARA = 0,05

Intervalo de : [ X | Z / 2 | / n ; X + | Z / 2 | / n ]

[
[ X 1,96 / n

P X 1,96 / n X + 1,96 / n = 0,95

0,95

]
X + 1,96 / n ]

- 11 -

Por tanto, teniendo en cuenta que conocemos la desviacin tpica de la poblacin, = 6,7:
Lmite inferior: X 1,96 / n = 23 1,96 6,7 / 100 = 21,69
Lmite superior: X + 1,96 / n = 23 + 1,96 6,7 / 100 = 24,31
As pues, el intervalo de confianza de la media en fluidez de los nios superdotados es:
Intervalo de confianza de : [21,69 ; 24,31]
Adems:
P (21,69 < < 24,31) = 0,95
Es decir, con una probabilidad de 0,95, la fluidez de los nios superdotados se encuentra dentro del intervalo
[21,69 ; 24, 31].
Hagamos una importante aclaracin sobre el significado del nivel de confianza. Segn acabamos de ver, un
intervalo tiene asociado un nivel de confianza que podra interpretarse, en principio, como la probabilidad de
que el parmetro desconocido se encuentre entre los lmites del intervalo. Sin embargo, esto no es del todo
correcto. En el ejemplo que acabamos de estudiar, sera errneo afirmar que la media en fluidez de los nios
superdotados, con una confianza de 0,95, se encuentra entre 21 y 25.
La realidad es la siguiente: cuando extraemos una muestra de la poblacin, obtenemos una mediaX concreta y
a partir de ella calculamos un intervalo, puede ser que contenga al parmetro o puede ser que no. Parece
evidente, entonces, que, si lo contiene, su probabilidad es igual a 1 y, en caso contrario, es igual a 0. Para
interpretar correctamente el nivel de confianza asociado al intervalo, en nuestro caso de 0,95, debemos pensar
de la siguiente manera: si extraemos un nmero elevado de muestras, todas del mismo tamao y calculamos la
media en cada una de ellas, obtendremos tambin un nmero elevado de intervalos de confianza. Pues bien, el
95% de todos ellos comprenden al parmetro y el 5% no o, dicho de otro modo, de cada 100 intervalos que
construyamos, cabe esperar que 95 capten el valor del parmetro (intervalos correctos) y 5 no lo capten
(intervalos incorrectos). Por tanto, la probabilidad va asociada con el conjunto de los intervalos, no con cada uno
de ellos, pero como la probabilidad de que la muestra asuma un intervalo que incluya a la es igual a 1 , se
tiene la confianza de que eso ha ocurrido. En la figura siguiente, los intervalos correspondientes aX1 yX4 no
cubren el valor del parmetro, mientas que los intervalos deX2 yX3 s lo hacen:

- 12 -

INTERVALOS DE CONFIANZA Y SU RELACIN CON

Por otro lado vimos que el Teorema del Lmite Central establece que la distribucin muestral de la media se
aproxima a la curva normal a medida que el tamao de la muestra va aumentando (en la prctica, recordemos,
con n > 30, el ajuste es bastante bueno) sin que necesariamente la variable aleatoria X tenga que seguir una
distribucin normal. De este modo, cuando el tamao muestral sea grande y debamos estimar la media
poblacional, tambin podemos utilizar:

[ X |Z / 2 | / n ; X + |Z / 2 | / n ]

Intervalo de confianza con desconocida


Si la variable aleatoria X se distribuye de forma normal en la poblacin, pero la varianza 2 es desconocida, la
distribucin muestral de la media X es:

- 13 -


S2
X t ; X
n 1

con gl = n 1 grados de libertad.


Por tanto:

X
T1 / 2;gl = 1
P T / 2;gl

SX / n 1

Siguiendo el mismo razonamiento como hicimos con la variable Z, llegamos a:

P X |T / 2;gl | S X / n 1 X + |T / 2;gl | S X / n 1 = 1
Por tanto, el intervalo de confianza para la media es:
[ X |T / 2;gl | S X / n 1 ; X + |T / 2;gl | S X / n 1 ]

Aunque hay varios


procedimientos de
posicionamiento de los
electrodos superficiales, el
sistema internacional DiezVeinte es el ms utilizado.

Veamos un ejemplo. Los potenciales evocados cognitivos (PEC) son pequeas variaciones en el
electroencefalograma (EEG) que se encuentran sincronizadas con un estmulo cognitivo, constituyendo un
indicador neurofisiolgico del procesamiento subyacente a esos estmulos. Entre los PEC, el ms conocido es el
P300, que se obtiene cuando un estmulo resulta relevante para la tarea que realiza el sujeto, o bien
inesperado. La amplitud de la onda disminuye segn decrece la relevancia de la tarea y la motivacin. Muchos
estudios han revelado la existencia de alteraciones en los PEC en nios con un trastorno por dficit de atencin
con hiperactividad (TDAH), en el sentido de una disminucin de la amplitud y un incremento de la latencia del
componente P300. M.A. Idiazbal, A.B. Palencia-Taboada, J. Sangorrn y J.M. Espalader-Gamissans (2001)
evaluaron el procesamiento de la informacin mediante el componente P300, en la modalidad auditiva y visual,
en 18 nios con TDAH del subtipo predominantemente inatento, segn los criterios del DSM-IV, frente a otros
18 nios sin tal diagnstico (grupo control). Para ello, inspeccionaron la actividad elctrica cerebral en todos los
puntos del sistema internacional y analizaron las ondas registradas en cada electrodo. La amplitud se midi
con respecto a la lnea base preestmulo. Tras comprobar la normalidad de las variables, algunos de sus
resultados, en la modalidad auditiva, los presentamos en la tabla. Podemos observar en ella que, en todas las
reas cerebrales, la latencia es mayor en los nios con TDAH, frente al grupo control, y menor la amplitud.
Qu latencia de onda podemos estimar en el rea cerebral T3, tanto en nios con TDHA como en nios sin el
trastorno, para el P300 auditivo? Nada sabemos de las medias ni de las varianzas en la poblacin general y en

- 14 -

la patolgica. Adems, dado que los tamaos muestrales son pequeos, debemos realizar una estimacin por
intervalos recurriendo a la distribucin t de Student. Vamos a trabajar con un nivel de confianza de 0,99.
Para cada uno de los subgrupos, sabemos que los grados de libertad son:
gl = 18 1 = 17
1. Obtencin del intervalo de confianza de la latencia en nios sin TDAH:
X = 330,1

SX = 32,6

Distribucin muestral de la latencia:

X t ;

32,6

17

|T0,005;17 |= 0,498
Intervalo de confianza:

[ 330,1 0,498 32,6 / 17 ; 330,1 + 0,498 32,6 / 17 ] = [ 326,16 ; 334,04 ]


P (326,16 < < 334,04 ) = 0,95
2. Obtencin del intervalo de confianza de la latencia en nios con TDAH:
X = 371,1

SX = 52,7

Distribucin muestral de la latencia:

52,7 2

X t ;

17

|T0,005;17 | = 0,498
Intervalo de confianza:

- 15 -

[ 371,1 0,498 52,7 / 17 ; 371,1 + 0,498 52,7 / 17 ] = [ 364,73 ; 377,46]


P (364,73 < < 377,46 ) = 0,95
P (364,73 < < 377,46) = 0,95
Dmonos cuenta que hemos aplicado un margen de confianza elevado en la estimacin que hemos realizado en
ambas poblaciones, lo que da lugar a intervalos de confianza amplios. Pues bien, los dos intervalos estimados
no llegan a compartir ningn valor, lo que nos est indicando, adems de los posibles valores que puede tomar
la variable latencia en las poblaciones de nios con y sin TDAH, la elevada diferencia entre las mismas.
Para finalizar, presentamos un cuadro resumen sobre la estimacin de :
ESTIMACIN DE A PARTIR DE LA MEDIA DE LA MUESTRA

Distribucin de la v.a. X

Normal

Normal

Conocida

Conocida

Desconocida

n 30

X | Z / 2 | / n

X | t / 2; n 1 | / n

Estimacin de
Puntual
Intervalo de confianza

X | Z / 2 | / n

- 16 -

En la tabla aparece la
probabilidad asociada en
la columna con sobrenombre
p. Aunque ya tratamos
ampliamente este aspecto en
el tema anterior, recordemos
que debera ser observada
en los informes de
investigacin con la misma
pero inversa intensidad de
su profusa publicacin.

- 17 -

Factores que afectan al intervalo de confianza


Segn hemos visto en los apartados anteriores, la mayor o menor amplitud de un intervalo (o tambin, menor o
mayor precisin) depende, en primer lugar, del nivel de confianza con el que decidamos trabajar. De este modo,
con 1 = 0,95 tendremos intervalos menos amplios (o ms precisos) que con la eleccin de 1 = 0,99. Hay
dos factores ms de los que depende la amplitud o la precisin de un intervalo: el tamao de la muestra y del
error tpico.

Tamao de la muestra
Recordemos que el tamao de la muestra constitua un problema en las pruebas de significacin, ya que su
aumento poda dar lugar a resultados estadsticamente significativos sin tener por qu ser clnicamente
relevantes. Pues bien, en la estimacin de parmetros, lejos de ser una contrariedad aumentar el tamao
muestral significar un intervalo ms preciso (ms pequeo). Vemoslo, por ejemplo, para la media muestral:

[ X |Z / 2 | / n ; X + |Z / 2 | / n ]
Dado que n se encuentra en el denominador, su aumento produce un cociente ms pequeo y, en consecuencia,
su producto por Z/2 dar lugar a un valor ms pequeo. Utilicemos el primer ejemplo que vimos en el apartado
14.3 sobre la estimacin de la fluidez de nios superdotados para ilustrar la influencia del tamao de la
muestra sobre el intervalo de confianza. Los datos que obtuvimos, con un tamao muestral igual a 100, fueron:
Lmite inferior: X 1,96 / n = 20 1,96 6,7 / 100 = 18,69
Lmite superior: X + 1,96 / n = 20 + 1,96 6,7 / 100 = 21,31
Intervalo de confianza de : [18,69 ; 21,31]
Si la muestra fuese ahora igual a 300, veamos qu ocurre:
Lmite inferior: X 1,96 / n = 20 1,96 6,7 / 300 = 19,24
Lmite superior: X + 1,96 / n = 20 + 1,96 6,7 / 300 = 20,76

- 18 -

Intervalo de confianza de : [19,24 ; 20,76]


Grficamente, podemos constatar mejor este aumento de la precisin en la estimacin:
PRECISIN DEL INTERVALO DE CONFIANZA EN FUNCIN DEL TAMAO DE LA MUESTRA

18,69

20

19,24

21,31

n = 100

20

20,76

n = 300

Error tpico
Tambin el error tpico tiene un efecto directo sobre la precisin del intervalo de confianza. En efecto, cuanto
menor sea, menor ser el intervalo de valores que estimemos. Si el error tpico es:
X

o bien

SX

n 1

es claro que su disminucin vendr dada, bien por un aumento del tamao de la muestra, bien por una
desviacin tpica ms pequea, ya sea poblacional o muestral. As pues, el intervalo de confianza ser ms
preciso. Grficamente:

- 19 -

PRECISIN DEL INTERVALO DE CONFIANZA EN FUNCIN DEL ERROR TPICO

18,69

20

21,31

19,24 20 20,76

Error tpico igual a 1,20

Error tpico igual a 0,60

Contraste de hiptesis e intervalo de confianza


En el tema anterior nos decantamos por los contrastes unilaterales dado que nos dan la direccin de una
magnitud y no se limitan a declarar un valor o una diferencia distintos de cero, como hacen los primeros. Por
otro lado, enseguida constataremos que un intervalo de confianza incluye la decisin que habramos tomado en
un contraste bilateral.
En efecto, vamos a utilizar el siguiente ejemplo. Supongamos que venimos asumiendo que la inteligencia en la
poblacin de adultos sigue una distribucin normal con media = 90 y desviacin tpica = 15. Extraemos una
muestra aleatoria de 100 sujetos y obtenemos unaX = 95. A la luz de los resultados, mediante una prueba de
significacin, cabra preguntarse si esta diferencia se debe al azar o, por el contrario, es estadsticamente
significativa. Un contraste bilateral, simplemente, planteara que la media ha cambiado, por lo que hablamos
de poblaciones diferentes. Realicemos el proceso:
H0: = 90
H1: 90

- 20 -

Z=

90 95
15 / 100

= 3,34

Con un nivel = 0,05 tenemos que /2 = 0,025


Adems, p/2 = 0,0004/2 = 0,0002
Dado que p es menor que , rechazamos H0 y concluimos que la inteligencia ha cambiado estadsticamente,
nada ms. Slo un contraste unilateral nos permitira afirmar que ha aumentado o disminuido, segn el caso.
Grficamente:
CONTRASTE BILATERAL SOBRE LA INTELIGENCIA

de
rgen de
cia al
nica-

funcin
o.
/2 = 0,025

/2 = 0,025

Construyamos ahora un intervalo de confianza sobre la media con el mismo margen de error = 0,04:
Intervalo de : [ 95 1,96 15 / 100 ; 95 + 1,96 15 / 100 ] = [ 92,06 ; 97,94 ]

P (92,06 97,94 ) = 0,95


El intervalo obtenido, no slo no incluye el valor contenido en H0, lo que ya nos est indicando su rechazo, sino
que, adems, nos muestra un rango de valores entre los que puede encontrarse el valor de la media de

- 21 -

inteligencia en la poblacin. De ah la poca practicidad de los contrastes bilaterales a la que aludamos en el


tema anterior.
INTERVALO DE CONFIANZA PARA LA INTELIGENCIA

0,95

[
92,06

]
97,94

En las pginas precedentes hemos verificado la superioridad de la estimacin de parmetros sobre la prueba de
significacin. Esto no quiere decir que la segunda quede invalidada. Resulta til cuando queremos probar la
validez de un modelo, sin embargo, siempre debe ir acompaada de otros resultados como el tamao del efecto o
el intervalo de confianza ya que, por s misma, slo responde a la pregunta de si hemos encontrado un efecto
estadsticamente significativo, el cual, en caso afirmativo, puede resultar, adems, una falacia a tenor del
tamao de la muestra utilizado.
Para finalizar este tema, invitamos al lector a una reflexin acerca de las pruebas de inferencia estadstica
estudiadas en estos dos ltimos temas. Sin necesidad de conocer ms aparato matemtico que el que se ha
estudiado en este libro, vamos a servirnos de dos ejemplos extrados de un informe publicado por Ministerio de
Ciencia e Innovacin en 2009 acerca de la obesidad infantil y adolescente.
La obesidad infantojuvenil constituye un importante problema de salud en nuestro pas debido a su
prevalencia ascendente, su persistencia en la edad adulta y su asociacin con otras enfermedades, adems del
enorme impacto econmico que supone. Los cambios en la alimentacin y en el estilo de vida han propiciado el
aumento de esta patologa. El tratamiento y fundamentalmente la prevencin implican la adquisicin de
hbitos saludables de alimentacin y de ejercicio fsico, pero se requiere el apoyo del gobierno y de las

- 22 -

undial de
ine la
el
omo una
mal y
que puede
la salud y
por un
olumen
ganismo
mo la
XXI por las
a
o de las
por su

a calidad
sanitario.
2005 haba
1.600
as
s y 20
es de cinco
millones
B. Se
o 2015
amente,
personas
s de 700
p. 23 del

instituciones para poder implementar muchos de los cambios requeridos.(P. Rivero, 2009; p.8) En el marco del
Proyecto GuaSalud del Plan de Calidad el Ministerio de Ciencia e Innovacin ha publicado la Gua de Prctica
Clnica sobre la Prevencin y el Tratamiento de la Obesidad Infantojuvenil, en el que se han evaluado distintos
tipos de intervencin en el estilo de vida para el control del peso en nios y nias y adolescentes. Tales acciones
han sido: consejo sobre nutricin y actividad fsica, terapia conductual, disminucin de las actividades
sedentarias, apoyo social o psicolgico y una intervencin combinada (dieta, ejercicio y modificacin
conductual). De los cuantiosos resultados del informe, slo nos vamos a centrar en los dos siguientes.
Una de las muestras en las que se estudi la efectividad de la terapia cognitivaconductual se refiere a un
grupo de 47 adolescentes con una media de edad 14,5 1,6 aos y con un ndice de masa corporal (IMC) de
30,9 4,2. Los sujetos fueron repartidos de forma aleatoria en un grupo experimental (con diez sesiones
semanales de terapia cognitiva-conductual y cinco sesiones telefnicas quincenales) y en un grupo control (sin
tratamiento). Los resultados mostraron cambios significativos en el IMC (intervencin: 1,3 0,4; control:
0,3 0,3), en el peso (intervencin: 1,9 1,0 Kg.; control: 3,8 0,9) y en la grasa corporal (experimental:
1,5 0,9 Kg.; control: 2,3 0,9). (p. 78)
Otra intervencin en el mbito familiar, que compar sesiones educativas con familias solamente o bien con
familias y menores, fue evaluada en 32 familias. Las sesiones promovan la dieta sana, el aumento de la
actividad fsica y la disminucin de la conducta sedentaria, facilitando herramientas a las familias para
mejorar su autoridad. Los menores tenan una media de edad de 8,7 aos y un IMC > P85. A los seis meses el
IMCz del grupo con asistencia de familias pas de 2,0 a 1,6 (p<0,05), a diferencia del grupo con asistencia de
familias e hijos, cuyo IMCz pas de 2,1 a 2,0. (p. 84) (IMCz se refiere a puntuaciones tpicas.)
A la luz de los conceptos aprendidos, estamos seguros de que lector sabr sacar sus propias y acertadas
conclusiones sobre la eficacia de las intervenciones expuestas en estos dos ejemplos.

- 23 -

Intervalos de confianza
Una de las aportaciones ms impactantes sobre el uso sensato de las herramientas estadsticas aplicadas a las
ciencias socio sanitarias ha venido por parte de la Task Force on Statistical Inference (L. Wilkinson y Task
Force on Statistical Inference, 1999), resaltando el uso de los intervalos de confianza. As como en medicina se
est advirtiendo un cambio notable en este sentido, por desgracia, otras Ciencias de la Salud y Sociales siguen
un camino muy lento (F. Fidler, G. Cumming, N. Thomason y M. Burgman, 2004). En esta lnea, el tema
anterior vimos la estimacin de parmetros como una alternativa muy eficaz a las pruebas de significacin. En
l estudiamos la diferencia entre una estimacin puntual y una estimacin por intervalos, las caractersticas de
un buen estimador y los mtodos para su obtencin. Por su parte, para la estimacin por intervalos, por razones
didcticas, nos centramos nicamente en el intervalo de confianza para la media, ya que nos vali para
entender todo el proceso de clculo, los factores que afectan a la precisin de un intervalo y la superioridad de
la estimacin por intervalos frente a una prueba de significacin. As pues, vistos los conceptos fundamentales
y tenindolos presentes, el presente tema es una continuacin del anterior. En este momento vamos a
presentar los intervalos de confianza de otros parmetros, como son, la varianza, la proporcin, los coeficientes
de correlacin de Pearson y Spearman y los parmetros de la regresin lineal simple. Sepa el lector que para
cualquier parmetro, o combinacin de parmetros, existe su intervalo de confianza, sin embargo, aunque no
van a ser objeto de este libro, puede acudirse a cualquier manual de anlisis de datos para su consulta, que no
revestir dificultad alguna, ya que se apoyan en los mismos conceptos aqu aprendidos.

Intervalo de confianza de la varianza


Ya vimos en el tema 12 que la distribucin muestral de
distribucin normal.

nS X2

es n2 1 si la variable aleatoria X sigue una

Por tanto, podemos determinar la probabilidad de que se encuentre entre dos valores concretos:

- 422 - Anlisis de datos.

nS 2
P 2 / 2:n 1 2X 12 / 2:n 1 = 1

Dividiendo por nS 2X los tres miembros de la desigualdad, tenemos:

2
2
1
P / 2:2n 1 2 1 / 22:n 1 = 1
nS

nS X
X

De donde:

nS 2

nS 2
P 2 X 2 2 X = 1

1 / 2:n 1
/ 2:n 1
As pues, el intervalo de confianza de la varianza es:

nS 2X
nS 2X
;
2

2
/ 2:n 1 1 / 2:n 1
DETERMINACIN DEL INTERVALO DE CONFIANZA DE 2

/2

/2

1 /2

nS2X

2 / 2:n 1

nS 2X

12 / 2:n 1

Intervalos de confianza. - 423 -

Siguiendo del mismo razonamiento para la cuasivarianza, tenemos:


~2
~
(n 1) S
(n 1) S X2
X
2 2
=1
P 2

1 / 2:n 1
/ 2:n 1

~2
~
(n 1) S
(n 1) S 2X
X
;
2

2
/ 2:n 1 1 / 2:n 1
Veamos el siguiente ejemplo. El dolor cumple una beneficiosa misin para nuestra integridad, al alertarnos
sobre un dao a nuestro organismo o la aparicin de una enfermedad. Cuando se prolonga ms all de la
curacin de la enfermedad o de la herida, o bien aparece y desaparece de forma recurrente sin guardar relacin
con ninguna causa orgnica conocida o bien es producto de una larga enfermedad de difcil curacin, entonces
pasa a ser un grave problema para el individuo que lo padece: deja de ser el sntoma de un problema, para
convertirse el problema en s mismo. Si permanece durante ms de seis meses y es resistente a la teraputica
convencional, debemos hablar, entonces, de dolor crnico (M.A. Vallejo Pareja, 1998). Este padecimiento tiene
un efecto directo, entre otras emociones negativas como la ansiedad o la depresin, sobre la ira, una reaccin al
dolor con consecuencias, a su vez negativas, en los hbitos de salud y en el estilo de vida en los pacientes. M M.
Truyols, M M. Medinas, J. Perez, A. Palmer y A. Ses (2010) aplicaron el Inventario de Expresiones de Ira
Rasgo-Estado de C.D. Spielberg a un grupo de 15 pacientes diagnosticados de lumbalgia crnica y a un grupo
control de 13 sujetos. Los resultados que encontraron en la dimensin intensidad de la ira, distribuida
normalmente, fueron los siguientes:
INTENSIDAD DE LA IRA EN PACIENTES CON LUMBALGIA CRNICA
Media

Desviacin tpica

Lumbalgia (n = 15)

10,67

1,11

Control (n = 13)

10

0,00

Las medias apenas presentan diferencias y podramos pensar que la intensidad de la ira en pacientes con
lumbalgia crnica no es significativamente mayor que en el grupo control. Sin embargo, el anlisis de las
desviaciones tpicas refleja algo que no debe escaprsenos. Calculemos los intervalos de confianza:
Intervalo de confianza en pacientes con lumbalgia crnica:

- 424 - Anlisis de datos.

Actividad propuesta
Un estudio llevado a cabo por
M.C. Mguez y E.Becoa (2009) a
lo largo de 10 aos sobre la
evolucin del consumo de tabaco
en estudiantes de Psicologa, arroj
los siguientes resultados:
Consumo de cigarrillos
1996-97

1999-00

n = 835

n = 842

nS 2X
nS 2 15 1,11 15 1,11
= [2,23 ; 0,70]
; 2 X =
;
2
23,68
0,05:14 0,95:14 6,57
Intervalo de confianza sin lumbalgia crnica:

nS 2X
nS 2 13 0,00 13 0,00
; 2 X =
;
= [0 ; 0]
2
21,03
0,05:12 0,95:12 5,23

SX

SX

Efectivamente, las desviaciones tpicas, como sabemos, son un reflejo de las diferencias individuales. Con un
nivel de confianza de 0,95, podemos afirmar que los sujetos aquejados de lumbalgia crnica manifiestan
diferencias en relacin con la intensidad de la ira que sienten. Sin embargo, entre personas sin dolor crnico
esto no sucede, donde la desviacin tpica ha tomado un valor igual a cero. Aunque es cierto que este resultado
matemtico indica que todos los sujetos sanos tienen la misma intensidad en la ira y el sentido comn nos lleva
a declinar esta afirmacin, tambin lo es el hecho de las diferencias que entre ambos grupos se pueden
constatar, siendo los pacientes con lumbalgia crnica mucho ms diferentes entre s en cuanto a la ira que
sienten.

11,0

6,5

10,3

6,3

Terminamos con el siguiente cuadro resumen:

SX

SX

12,9

6,9

12,8

7,9

2003-04

2006-07

n = 835

n = 688

Difieren los grupos entre s a lo


largo de la evolucin? Realcese
una estimacin por intervalos con
= 0,01? Qu cabe esperar que
ocurra en el curso actual?

ESTIMACIN DE 2
A partir de la varianza de la muestra
Puntual

Intervalo de confianza

~
S 2X
nS 2X
nS 2
; 2 X
2
/ 2:n 1 1 / 2:n 1

A partir de la cuasivarianza de la muestra


Puntual

Intervalo de confianza

~
S 2X
~2
~
( n 1) S
(n 1) S 2X
X
; 2
2
1 / 2:n 1
/ 2:n 1

Intervalos de confianza. - 425 -

Intervalo de confianza de un percentil


Cuando no podemos calcular la media en una distribucin por las razones que ya aludimos en el Tema 3 y
debemos calcular una mediana, tambin es interesante obtener su intervalo de confianza. Existen diferentes
mtodos para su obtencin y, teniendo en cuenta que la mediana es un percentil 50 nosotros presentamos el
siguiente planteamiento:
Supongamos que partimos de una poblacin con una distribucin completamente desconocida, cuyos valores
estn relacionados con un percentil concreto. De este modo, el valor de x corresponde al percentil 90 (P90)
siempre que el 90 por ciento de los casos se encuentren por debajo de x.
Supongamos adems que tenemos una muestra de tamao n, con los valores X1, X2,, Xk, Xk + 1,..., Xn. Dado que
cada observacin es una variable aleatoria, tenemos n variables aleatorias: X1, X2,, Xk, Xk + 1,..., Xn y, puesto
que es bastante probable que los valores de la muestra estn en orden ascendente, debemos considerar las
variables aleatorias de los datos ordenados y que designaremos como Y1, Y2,, Yk, Yk + 1,...,, ..., Yn.
Si admitimos ahora que el percentil Pi se sita en el intervalo de valores entre Yk y Yk+1, lo que necesitamos
saber es cul su probabilidad; es decir: P(Yk Pi Yk+1). Dmonos cuenta de que hay dos resultados posibles
para cada valor de la muestral: o bien se sita por debajo del percentil i o no. Adems, la probabilidad de que
cualquier valor muestral particular est por debajo del percentil i es simplemente p, y es fijo. Por otro lado, nos
hallamos ante n valores de la muestra que, seleccionados al azar, constituyen n variables aleatorias
independientes. Se trata, por tanto, de las condiciones de una distribucin binomial. As pues:
P( Yj Pi Yk 1 ) =

n!
pi (1 - p)n i
X i ! (n X i )!

Tngase en cuenta que i = 0 es un valor posible en la frmula binomial y esto es equivalente al percentil que se
sita por debajo del primer valor de los datos de la muestra ordenada. Del mismo modo, el valor i = n en la
frmula binomial genera la probabilidad de que el percentil se site por encima del ltimo valor de los datos
ordenados.
Veamos el siguiente ejemplo. Una noticia de un peridico publicaba en 2013 que la nueva cepa de gripe aviar
terminaba con la vida de ms de un tercio de los pacientes afectados de un hospital, que registr la edad de
nueve pacientes elegidos al azar: 22, 31, 57, 42, 4, 15, 27, 62, 12. Vamos a buscar los intervalos de confianza al
95 por ciento, tanto para la mediana como para el tercer cuartil (o percentil 75) de edad en el momento de la
muerte de esta enfermedad. Para ello, en primer lugar, ordenamos los valores:
4, 12, 15, 22, 27, 31, 42, 57, 62
Para la mediana, p = 0,50 y para el tercer cuartil p = 0,75. Aplicando la formula anterior para cada uno de ellos
tenemos las distribuciones binomiales de los dos cuantiles:

El procedimiento es vlido
para la mediana, para los
cuartiles, para los deciles,
etc., es decir, para cualquier
percentil (o cuantil).

- 426 - Anlisis de datos.

DISTRIBUCIONES DE PROBABILIDAD DE LOS DOS CUANTILES


Mediana (p = 0,50)
X=i
P(X = i)
0
1
2
3
4
5
6
7
8
9

0,0020
0,0176
0,0703
0,1641
0,2461
0,2461
0,1641
0,0703
0,0176
0,0020

Cuartil 3 (p = 0,57)
P(X = i)
0,0000
0,0001
0,0012
0,0087
0,0389
0,1168
0,2336
0,3003
0,2253
0,0751

Para construir un intervalo de confianza del 95 por ciento, tenemos que elegir las probabilidades que acumulen
o superen este valor (nunca de menos). Para la mediana, elegimos los valores del 2 al 7 de i; es decir: 0,0703 +
0,1641 + 0,2461 + 0,2461 + 0,1641 + 0,0703 = 0,9610. Buscando en los datos ordenados, el valor ms bajo de
nuestro intervalo es 12 y el ms alto 57. Por lo tanto, el intervalo de confianza del 95 por ciento para la
mediana es [12,57]. Podemos estar seguros, con un 95 por ciento de seguridad, de que la edad promedio de
muerte de la enfermedad fue de entre 12 y 57 aos. (En realidad, podemos estar con un 96,1 por ciento de
seguridad con este intervalo.)
Para el tercer cuartil, elegimos los valores de 5 a 9 de i; por tanto: 0,1168 + 0,2336 + 0,3003 + 0,2253 + 0,0751
= 0,9511. A partir de los datos ordenados, vemos que este intervalo comenzar en el quinto valor, 27, y
terminar en el ltimo, 62. As pues, podemos estar seguros, con un 95 por ciento de seguridad, de que el tercer
cuartil de edad en la muerte de la enfermedad fue de entre 27 y 62 aos. (En realidad, podemos estar con un
95,11 por ciento de seguridad con este intervalo.)

Intervalo de confianza de la proporcin


Disponemos de diferentes mtodos analticos y grficos para la obtencin del intervalo de confianza de la
proporcin, que se utilizan en funcin del tamao de la muestra de estudio y de la distribucin muestral
empleada. Nosotros simplemente vamos a presentar uno, sencillo y que solventa diversos inconvenientes.

Intervalos de confianza. - 427 -

Segn sabemos, la distribucin muestral de la proporcin sigue el modelo binomial con parmetros:
(1 )

p B ;

donde E(p) =

2p =

p(1 p)
n

Por otra parte, cuando el tamao de la muestra es grande, la distribucin binomial tiende a ajustarse a la
normal aplicando el Teorema del Lmite Central. En estos casos, podemos hacer la siguiente transformacin:

Z=

p E( p)
p

que sigue una distribucin N (0 ; 1).


As pues:

P Z / 2

Z1 / 2 = 1

(1 ) / n

Como hemos hecho en casos anteriores, llegamos a la siguiente expresin:

P |Z / 2 | (1 ) / n + |Z / 2 | (1 ) / n = 1

Con el consiguiente intervalo de confianza:


[ p|Z / 2 | p(1 p) / n ; p+ |Z / 2 | p(1 p) / n ]

Sin embargo, tenemos un problema, que es el hecho de aparecer en ambas ecuaciones el parmetro que
necesitamos estimar. Entre las diferentes propuestas para solucionarlo, E. Cepeda-Cuervo, W. Aguilar, V.
Cervantes, M. Corrales, I. Daz y D. Rodrguez (2008), compararon diversas metodologas para la obtencin de
intervalos de confianza de la proporcin, mediante estudios de simulacin. Su conclusin ha sido la
conveniencia de utilizar el intervalo de Wald ajustado, por su mejor comportamiento que otros mtodos
(intervalo de Wald, intervalo de Coppler-Pearson, intervalo de score, intervalo bayesiano, etc.). Adems, es
sencillo de aplicar y resuelve el problema que supondra el uso de la distribucin binomial cuando p se
aproxima a 0 o a 1:

El T.L.C. se aplica tambin


en este caso, no slo en el de
la media, ya que:
p=

n xitos
n

no deja de ser una media.


Por tanto, a medida que
aumenta el tamao de la
muestra, p tender a la
normalidad.

- 428 - Anlisis de datos.

P ~
Z / 2

~
(1 ~
)
~
+ Z / 2
~
n

~
(1 ~
)
=1
~

donde:

~
X
~
p= ~
n
Z
~
X = X + /2
2
2

~ = n + Z2
n
/2
En el caso concreto de un nivel de confianza igual a 0,95, Z20,025 = 1,962 4. Esto significa aadir 4 pseudo
observaciones: dos xitos y dos fracasos en el clculo de la proporcin de la muestra. Este nmero de pseudo
observaciones aadidas puede verse a veces como k2, que vara segn el nivel de confianza adoptado. As,
cuando es 0,99, tendramos 5,4 5.
INTERVALO DE CONFIANZA PARA LA PROPORCIN

/2

/2

Veamos un ejemplo. Desde la Psicologa Forense, C. Saboro Valverde y J. Gamboa Ramrez (2006) estudiaron
la prevalencia de un trastorno de la personalidad psicoptica en un grupo de 60 mujeres costarricenses

Intervalos de confianza. - 429 -

privadas de libertad. Para ello utilizaron la Lista de Chequeo de la Psicopata (PCL-R), un cuestionario de 20
tems, cuyo rango de puntuaciones oscila entre 0 y 40, considerndose un resultado igual o mayor a 25 el punto
de corte para la asignacin a la categora de psicopata. En la muestra estudiada encontraron que 6 mujeres
presentaban rasgos de personalidad antisocial: impulsividad, estilo de vida parastico, carencia de metas
realistas a largo plazo, irresponsabilidad, ausencia de remordimiento o culpa, problemas conductuales
tempranos y delincuencia juvenil. En consecuencia, fueron consideradas como psicpatas antisociales. Qu se
puede inferir de este resultado?

p=

6
= 0,10 es la proporcin de mujeres con psicopata antisocial en la muestra estudiada.
60

La estimacin que podemos hacer de es:

P ~
Z 0,025

~
(1 ~
)
~
+ Z 0,025
~
n

~
(1 ~
)
= 0,95
~

Para ello, calculamos primero:

Z 02,025
1,96 2
~
X=X+
=6+
= 7,92
2
2
2
~ = n + Z2
n
0,025 = 60 + 1,96 = 63,84

~
X 7,92
~
p= ~ =
= 0,12
n 63,84
Por tanto:

0,12 0,88
0,12 0,88
0,12 + 1,96
P 0,12 1,96
= 0,95

63,84
63,84

P (0,04 0,20 ) = 0,95

El intervalo de confianza es [0,04 ; 0,20].

- 430 - Anlisis de datos.

Podemos concluir, por tanto, que el porcentaje de mujeres costarricenses privadas de libertad que presenta un
trastorno de la personalidad psicoptica oscila entre el 4 y el 20 por ciento. Se trata de un porcentaje muy
similar al de la prevalencia encontrada, entre 9 y 23 por ciento, segn los datos proporcionados por los autores.
TABLA DE DATOS DEL EJERCICIO PROPUESTO EN EL MARGEN DE LA PGINA

Intervalos de confianza. - 431 -

Intervalo de confianza para la correlacin de Pearson


El modelo de la correlacin de Pearson supone que las dos variables X e Y son aleatorias y no slo Y, como
sucede en el caso de la regresin, donde los valores de X estn determinados. As pues, en este contexto, no las
denominamos variable independiente y dependiente, respectivamente, como ya sabemos.
Adems, para poder realizar inferencia estadstica, la funcin de densidad conjunta de X e Y debe ser bivariada
normal:
f ( x, y ) =

1
2
2x y 1 xy

(x )2
( x x )( y y ) ( y y ) 2
1
x

ex
2 xy
+
2
x y
x2
2y

2(1 xy )

Deseamos obtener el intervalo de confianza del coeficiente de correlacin de Pearson, definido as:
XY =

XY
=
X Y

E (X X ) ( Y Y )
E (X X )2

E ( Y Y )2

El estimador de mxima verosimilitud de xy es el coeficiente de correlacin de Pearson (puede consultarse su


demostracin en J. Amn, 1988), que vimos en el tema 7:
rXY ==

(X X) ( Y Y)
(X X)

( Y Y)

Al igual que cualquier otro estadstico, la correlacin rXY de Pearson tiene una distribucin muestral. En efecto,
si en n infinitos pares de puntuaciones calculamos el coeficiente obtenemos su distribucin. Cuando el valor
absoluto de la correlacin en la poblacin es baja (por ejemplo menos de 0,4) entonces la distribucin muestral
es aproximadamente normal. Sin embargo, con altos valores de correlacin, la distribucin tiene un sesgo
negativo. El siguiente grfico muestra la distribucin muestral de r de Pearson cuando, por ejemplo, la
correlacin de la poblacin es de 0,60 y n = 12.
Grficamente, el sesgo negativo es evidente:

- 432 - Anlisis de datos.

El sesgo tiende a disminuir


a medida que aumenta el
nmero de datos, llegando a
ser mnimo en muestras
grandes. Para una
estimacin ms exacta suele
utilizarse el coeficiente de
correlacin ajustado:
rXY = 1 (1 rXY )

SESGO DE LA DISTRIBUCIN MUESTRAL DEL COEFICIENTE DE CORRELACIN DE PEARSON

n 1
n2

El sesgo del estimador del


coeficiente de correlacin no
debe confundirse con la
inestabilidad de la varianza
de la que adolece tambin
este estadstico. Fue
tambin Fisher quien lo
evidenci y el que introdujo
la transformacin (no lineal)
Zr.

La trasformacin Zr se
comporta razonablemente
bien para inferir xy cuando
las variables X e Y sigan
una distribucin normal
bivariada. Por tanto, el
investigador tiene que
asegurarse de que se
respetan las condiciones
de normalidad. En caso
contrario, tanto porque la
transformacin no est
diseada en otras condiciones, como porque los
resultados de estudios de
simulacin lo demuestran,
no debe emplearse (A.
Snchez y A. Borges, 2005).

Este sesgo hace difcil la estimacin directa de los lmites a la hora de determinar el intervalo de confianza para
la correlacin. Sin embargo, Fisher (1915, 1921) propuso una transformacin del coeficiente, llamada Z de
Fisher, cuya distribucin es aproximadamente normal:
Zr =

1 1 + rXY
ln
2 1 rXY

con media igual a

1 1 + rXY
y error tpico
ln
2 1 rXY

1
n3

De este modo, Zr tiene una distribucin aproximadamente N (0 ; 1), por lo que la estimacin por intervalos del
coeficiente viene dada por:

Z r Z / 2

n3

donde

Zr =

1 1 + rxy
ln
2 1 rxy

El intervalo obtenido no lo es propiamente de xy, sino de Zr, por lo que habr que transformar los lmites
encontrados:
rXY =

e 2Zr 1
e 2Zr + 1

Intervalos de confianza. - 433 -

Tambin puede recurrirse a la tabla correspondiente que nos facilita los clculos y las conversiones.
Veamos el siguiente ejemplo. El aumento del nmero de lesiones de los deportistas en los ltimos aos ha
provocado un paulatino inters desde diferentes disciplinas cientficas, entre las que se incluye la psicologa,
cuyos investigadores buscan establecer qu tipo de relaciones pueden darse entre las diferentes variables
psicolgicas o psicosociales y las lesiones del deportista. A. Olmedilla, M.D. Andreu y A. Blas (2005) exploraron
la relacin entre variables psicolgicas, como la autoconfianza, la percepcin de xito, la motivacin y la
ansiedad competitiva) y frecuencia de lesiones. De entre el conjunto de resultados que obtuvieron, extraemos
los siguientes:
CORRELACIONES DE PEARSON ENTRE EL NMERO DE LESIONES Y LAS VARIABLES PSICOLGICAS
Percepcin de xito

Ansiedad

Confianza

Motivacin

Correlacin de Pearson

0,30

0,11

0,19

0,06

Sig. (bilateral)

0,006

0,318

0,115

0,564

81

81

67

81

Como se aprecia en la tabla, slo aparecen las correlaciones de Pearson, su significacin estadstica y el tamao
de la muestra utilizado en cada variable. Aunque no se nos informa del tamao del efecto, sabemos que el
coeficiente de determinacin nos dira que porcentaje de varianza comparten nmero de lesiones y cada una de
las variables psicolgicas estudiadas. As, por ejemplo, podramos decir que la percepcin de xito y el nmero
de lesiones tienen una relacin directa (a mayor percepcin, mayor nmero de lesiones) y un 9 por ciento de
varianza comn. Que sea un porcentaje alto o bajo, en otras palabras, que sea clnicamente relevante, no se
estipula desde la significacin estadstica, sino que son los propios investigadores los que deben considerar este
resultado a la luz de otras investigaciones y del cuerpo terico que sustenta la investigacin. Por otro lado,
tampoco nos presentan, como sera deseable, los intervalos de confianza de las relaciones encontradas, por lo
que vamos a calcular uno nosotros mismos. Siguiendo con la variable psicolgica percepcin de xito, tenemos:

Z r Z / 2

Consultando en la tabla 7, al valor de rXY = 0,30 le corresponde una Zr = 0,3095. Por lo tanto, con un margen de
error de 0,05, el intervalo de confianza, es:

0,3095 1,96

; 0,3095 1,96

81 3

81 3

- 434 - Anlisis de datos.

[0,0876 ; 0,5314]
Como ste no es el intervalo de confianza de XY sino de Zr, debemos acudir de nuevo a la tabla para su
transformacin. En definitiva, el intervalo buscado es:
[0,09 ; 0,49]
En conclusin, con un margen de confianza de 0,95 podemos decir que la relacin entre la percepcin de xito y
el nmero de lesiones se encuentra en el intervalo [0,09 ; 0,49].

Intervalo de confianza para la correlacin de Spearman


El coeficiente de correlacin de Spearman se utiliza cuando los datos son ordinales. Tambin es muy
apropiado cuando no se cumplen las condiciones de aplicacin del coeficiente de correlacin de Pearson, sin
embargo, es sobre este ltimo coeficiente sobre el que se ha desarrollado tal nmero de tcnicas de inferencia,
que muchas veces los investigadores tratan a los coeficientes como si fuesen la rXY de Pearson. Esta prctica de
har que no importa (J.C. Nunnally e I.J. Bernstein, 1995), no es menos psima que calcular intervalos de
confianza para rXY de Pearson usando correlaciones ordinales (C. Merino y J. Livia, 2007). Ya en 1993, A.R.
Gilpin propuso la transformacin de coeficientes de correlacin tales como de Spearman y de Kendall a rXY
de Pearson, as como diferentes medidas del tamao del efecto, y present tablas para facilitar la conversin.
Autores posteriores han publicado mtodos informatizados para realizar los cmputos (vase, por ejemplo, D.A.
Walker, 2003 y C. Merino y J. Livia, 2007).
Si los datos iniciales son puntuaciones de variables continuas, entonces el resultado de la correlacin de
Pearson calculada con los rangos coincide con Spearman. Sin embargo, la distribucin muestral de rXY obtenida
con las puntuaciones iniciales no necesariamente ser la misma que con Spearman (la transformacin a rangos
antes de calcular un estadstico puede alterar la distribucin muestral de ese estadstico). Cuando las variables
X e Y son cuantitativas, los coeficientes de Pearson y Spearman estn relacionado mediante la siguiente
ecuacin:

XY = 2 sen
6
donde = 3,1416
M.T. Rupinski y W.P. Dunlap (1996) encontraron que esta conversin tienden a tener un error tpico mayor que
el correspondiente de Pearson, por lo que, en principio, tendra un efecto directo en la estimacin del intervalo
de confianza. Sin embargo, su impacto puede considerarse insignificante a nivel prctico. De este modo, con el

Intervalos de confianza. - 435 -

estadstico anterior, pueden realizarse comparaciones entre diversos resultados de distintos investigadores,
para la generalizacin de hallazgos, etc.
Por otro lado, se recomienda utilizar la normalizacin de la distribucin mediante la transformacin de Fisher,
como hicimos con el coeficiente de correlacin de Pearson, con objeto de calcular el intervalo de confianza:
Zs =

1
1+
ln
2
1

Que sigue una distribucin aproximadamente normal con media igual a

1 1+
y error tpico
ln
2 1

1,06
.
n3

En definitiva, el intervalo de confianza viene dado por:


Zs Z / 2

1,06
n3

e 2Zs 1

e 2Z s + 1

Recordemos el ejemplo del apartado 7.4, en el que calculbamos el coeficiente de correlacin de Spearman entre
el tipo de prueba utilizada por un profesor en un examen (test o de resolucin de problemas) y el rendimiento
en su asignatura. Los resultados fueron = 0,92 con n = 10. Pues bien, vamos a calcular el intervalo de
confianza de esta relacin con un = 0,05.
Zs =

1 1 + 0,93
ln
= 1,658
2 1 0,93

El intervalo que buscamos es:

1,658 1,96

1,06
10 3

1,06
n3

calculado con rangos, en


lugar de:

Como ocurra con Zr, deben transformarse los lmites obtenidos, lo que haremos mediante la inversa:
=

A pesar de que algunos


autores han encontrado una
mejor estimacin del
error tpico utilizando

1,658 + 1,96

Ahora debemos invertir los valores:

1,06
= [0,8953 ; 2,4207]
10 3

1
n3

no parece haber una gran


evidencia sobre las ventajas
o desventajas de utilizar
estas frmulas en la prctica
(D.W. Zimmerman, R.H.
Zumbo y R.H. William,
2003).

- 436 - Anlisis de datos.

e 20,8953 1
20,8953
+1
e

e 2 2,4207 1
= [0,71 ; 0,98]
e 2 2,4207 + 1

Como conclusin diremos, con una confianza de 0,95, que se estima entre 0,71 y 0,98 la relacin entre ambos
tipos de prueba. Dada esta magnitud, podemos afirmar que los alumnos que tengan buenas notas en la prueba
tipo test, tambin las tendrn en la resolucin de problemas (o al revs), y viceversa.

Modelo de regresin lineal simple


Hoy por hoy, describir un hecho en trminos de modelo refleja el concepto contemporneo de lo que es Ciencia.
Como afirmara M. Bunge en 1976, el cientfico moderno es esencialmente un animal que construye y contrasta
modelos (citado en C. San Luis y A. Snchez, 1998; p. 15). Pero, qu es un modelo? Los modelos que nos
interesan, los matemticos, se pueden definir, simplemente, como la formulacin mediante ecuaciones de las
leyes que gobiernan la naturaleza de algn fenmeno.

Ley de Weber

Un ejemplo de modelo sera la ley de Weber, quien estudi el hecho de que, para resultar perceptible un cambio
en la intensidad de ciertos estmulos, el incremento que deben experimentar stos es tanto mayor cuanto mayor
sea su intensidad (encender de noche las luces de un coche, por ejemplo, produce una sensacin luminosa ms
fuerte que al encenderlas de da):
E = KE,

con K > 0

La expresin anterior indica que el incremento de estimulacin, E , necesario para que resulte perceptible, es
proporcional al nivel de estimulacin. Se trata de una ecuacin que se encuadra dentro de los llamados modelos
deterministas, ya que constituye un sistema cuyo estado en un momento del tiempo determina completamente
su estado en cualquier otro momento del tiempo; todos los parmetros de su ecuacin son perfectamente
conocidos.
Por el contrario, en los modelos estocsticos (denominados tambin estadsticos o probabilsticos), a la relacin
funcional entre las variables hay que aadir un trmino de ajuste. stos ltimos son los habituales en Ciencias
Sociales. Un ejemplo de modelo estocstico sera aquel en el que queremos estudiar la capacidad de venta y slo
disponemos de la variable extraversin como explicativa. Sabiendo que hay otras que afectan a esta capacidad,
slo podemos plantear el siguiente modelo:
Y = bX + ,

con b > 0

Un sujeto percibe un punto


luminoso en una pantalla, cuya
intensidad es 100 cd/cm2. Para
que note un incremento de
brillo, hay que aumentar la
intensidad, por lo menos, 10
cd/cm2, es decir, una dcima
parte (0,1). Por tanto, cuando
perciba un punto de 500
cd/cm2, habra que aumentar la
intensidad por lo menos 50
cd/cm2, ya que:
K= 10 / 100 = 50 / 500 = 0,1

- 222 - Anlisis de datos.

En la ecuacin anterior, refleja la imposibilidad de recoger todas las variables implicadas en la capacidad de
venta, de ah que hayamos tenido que recurrir a un modelo estocstico.

Pasos en la generacin de un modelo


Vamos a crear un modelo matemtico sencillo, en el que van a intervenir dos variables, una dependiente o
criterio y otra independiente o predictora. Como vimos en el primer tema, la primera har referencia al
fenmeno psicolgico de inters que pretendemos modelizar a partir de la segunda, que es aqulla que vamos a
observar o manipular para averiguar su relacin con la dependiente, o los cambios que produce en ella. Antes
de comenzar, veamos algunos ejemplos de modelos matemticos entre dos variables:
MODELO CUADRTICO DEL RENDIMIENTO
5,00

Y = b0 + b1 X + b2 X2 con b2 < 0

4,00

Rendimiento

Segn este modelo, una baja ansiedad tiene como


resultado un bajo rendimiento. Sin embargo, ste
se ve favorecido a medida que aumenta la
ansiedad. Llegado un punto en el que el
rendimiento es mximo, empieza a decrecer segn
va aumentando la ansiedad, pudiendo producirse
el bloqueo cuando sta llega al lmite. Se conoce
como la ley de Yerkes-Dodson. Esta funcin podra
explicar las situaciones de exmenes a las que
suele enfrentarse el estudiante.

3,00

2,00

1,00

0,00
0,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

8,00

Ansiedad

9,00 10,00 11,00 12,00 13,00 14,00

Modelo de regresin lineal simple. - 223 -

MODELO EXPONENCIAL DEL RECUERDO


Y = bX
Este modelo indica que la probabilidad de recordar
las cosas va decreciendo a medida que pasa el
tiempo, de tal manera que al principio esta
disminucin es ms rpida hasta que llegado un
momento se va estabilizando poco a poco la falta de
memoria, sin que llegue a mejorar.

MODELO LINEAL DE LA RECUPERACIN DEL RECUERDO


1.000,00

Y = b0 + b1 X

Tiempo en milisegundos

800,00

600,00

400,00

200,00

0,00

10

Tamao del conjunto de la memoria

11

12

13

En un experimento sobre la recuperacin de la


informacin, Stenberg encontr una relacin lineal
entre el tiempo de reaccin en milisegundos (T) y el
tamao del conjunto de memoria (N). Los
parmetros del modelo son 38 y 397, quedando as:
T = 397 + 38 N. Es decir, a medida que aumenta la
cantidad de cosas a recordar, tambin lo hace el
tiempo que necesitamos para ello. Aunque pueda
resultar obvio, lo interesante ha sido determinar que
la funcin es lineal, no por ejemplo potencial con
exponente mayor que 1, porque esto indicara un
grandsimo
esfuerzo
para
memorizar,
desproporcionado con la cantidad de cosas a
recordar.

- 224 - Anlisis de datos.

MODELO LOGARTMICO DE LA SENSACIN DE BRILLO


14,00

Luminancia
(nits)
1.6 * 109
600.000
120.000
11.000
8.000
2.500
2.000
200
0,0004

Fuente
Disco solar a medio da.
Disco solar en el ocaso.
Lmpara incandescencia
60 W.
Fluorescente.
Cielo despejado.
Disco lunar en plenilunio.
Cielo cubierto.
Pantalla de ordenador.
Cielo en noche oscura.

13,00

Y = logbX

12,00
11,00

con b > 1

La luminancia es la intensidad luminosa por unidad


de superficie, lo que coloquialmente designamos, por
ejemplo, como brillo de una pantalla o de una estrella.
Un aspecto curioso es que la respuesta del ojo humano
a las variaciones de luminancia es prcticamente
logartmica. Basta una reduccin del 18% de la
luminancia entre dos objetos para que parezca uno la
mitad de brillante que el otro.

10,00

Sensacin luminosa

Luminancia de algunas fuentes de luz:

9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
0,00

10,00

20,00

30,00

40,00

Intensidad luminosa

50,00

60,00

70,00

Las representaciones anteriores muestran distintos tipos de relaciones entre las variables, constatando con ello
que las funciones matemticas de ajuste entre ellas pueden ser de diferentes y variados tipos. Nosotros
estudiaremos los modelos lineales, por ser los ms sencillos, e invitamos al lector a la consulta de los no
lineales. Los pasos que seguiremos en la construccin del modelo son los siguientes:
1. Revisin de la literatura cientfica que nos permita contextualizarnos en el fenmeno de inters. En
este paso describiremos el problema, el sistema o el fenmeno real que deseamos modelizar, para lo
cual estudiaremos otros modelos construidos o, en el caso de no haber ninguno propuesto por otros
cientficos, escogeremos las variables implicadas e importantes para la comprensin del fenmeno en
estudio que deseamos modelizar. Esto significa una simplificacin de la realidad, de modo que el modelo
tenga pocos parmetros (lo que, adems de suponer una aplicacin del principio de parsimonia,
incrementar su poder explicativo) que debern ser interpretables segn lo que nos haya sugerido la
literatura sobre la que nos hemos basado.
2. Observacin y exploracin de la realidad. Si el paso anterior lo hemos llevado a cabo profunda y
debidamente, habremos operacionalizado adecuadamente las variables predictora y criterio y podremos
proceder a su cuantificacin. En este momento, la eleccin de los mtodos de medida son de vital
importancia, a fin de cometer los menores errores que, como hemos comentado, pueden provocar

Modelo de regresin lineal simple. - 225 -

grandes diferencias entre los resultados que obtengamos con la ecuacin matemtica y la realidad
investigada.
3. Construccin de la matriz con los valores de los sujetos en la variable predictora y en la variable
criterio. En esta matriz se debe comprobar que no existen errores de entrada, de codificacin o de
especificacin; constataremos posibles anomalas (casos ausentes y/o extremos); describiremos las
variables mediante el estudio grfico y cuantitativo de su simetra, etc., todo ello encaminado al
conocimiento de los datos y de las variables.
4. Representacin grfica de la nube de puntos. Es absolutamente imprescindible que el diagrama de
dispersin nos muestre una relacin lineal entre las variables, ya sea directa o inversa. Si no es as
deberemos buscar funciones matemticas de otro tipo para poder continuar con los siguientes pasos. Si
es razonable un modelo lineal podemos, adems, cuantificar la relacin entre las variables, mediante la
covarianza o, mejor, a partir del coeficiente de correlacin de Pearson puesto que tienen unos valores
mximo y mnimo que nos ayudarn a la interpretacin de la magnitud de la asociacin.
5. Construccin del modelo, que no es otra cosa que encontrar la funcin matemtica que mejor se ajuste a
nuestros datos. Tal modelo, si es adecuado, nos permitir explicar el fenmeno de inters y predecirlo e,
incluso, aplicarlo a problemas y fenmenos similares. Cuando se trabaje con ms de dos variables
predictoras, no todas necesariamente formarn parte del modelo final, por lo que, en este punto, la
metodologa estadstica jugar un papel importante y, sobretodo, la creatividad del investigador,
basada en un conocimiento profundo del comportamiento real, adquirido en las fases anteriores.
6. Estudio del ajuste del modelo lineal a los datos (y, por supuesto, no al revs). Este paso es fundamental
porque si el ajuste no es bueno, debemos recurrir a otros modelos. En este momento nos preguntaremos
cun bien est explicada la variable dependiente por la independiente. Si el porcentaje de explicacin es
bajo -ya sea porque nuestras mediciones no han sido correctas, ya sea porque las variables escogidas no
son adecuadas en nuestro estudio exploratorio- nos hallamos ante un modelo matemtico pobre y de
baja calidad, por lo que deberemos plantearnos no continuar.
7. Interpretacin del modelo a partir de los parmetros obtenidos. Debemos dar un contenido terico al
modelo y constatar su contexto de aplicacin y su utilidad. Un modelo sin relevancia prctica de nada
sirve, como muchas veces sucede en la investigacin. A este respecto, cabe recordar las palabras de E.
Leiser, que ya en 1992 (p. 50) se lamentaba de la falta de aplicabilidad al hablar sobre el papel de las
matemticas en la investigacin. Por una parte, -afirmaba- se sigue elaborando modelos matemticos
cada vez ms refinados, buscando despus con autntico fervor campos para su aplicacin. Por otra
parte, estos modelos no contribuyen casi nada a las cuestiones prcticas de la psicologa actual.

La ciencia consiste en sustituir


el saber, que pareca seguro, por
un modelo, o sea, por algo
problemtico.
J. Ortega y Gasset
Filsofo (1883-1955)

- 226 - Anlisis de datos.

8. Estudio de la fiabilidad del modelo. Esto significa que las predicciones que podamos realizar con l
cometan el mnimo error posible (ningn error ser imposible, como sabemos, con un modelo
estocstico). Para ello, utilizaremos otros datos provenientes de muestras de la misma poblacin, o bien,
si es factible, podemos medir a los mismos sujetos un tiempo despus. La clave es conseguir un modelo
matemtico similar al primero.
9. Estudio de la validez del modelo. Siguiendo pasos similares a los de la construccin del conocimiento
cientfico, debemos aplicar un proceso deductivo y obtener consecuencias del modelo, con la finalidad de
predecir nuevas relaciones empricas, no contenidas en los datos originales, que permitan ponerlo a
prueba. En esta fase debemos asegurarnos de que el modelo es correcto y aproxima la realidad
suficientemente para la finalidad prevista, para lo cual es necesario contrastar los resultados obtenidos
mediante deduccin con observaciones reales. En otras palabras, del modelo que hemos propuesto se
deben derivar hiptesis contrastables con la realidad a fin de poder mantenerlo o refutarlo. Estas
hiptesis no se deben comprobar, lgicamente, con los datos medidos para la construccin del modelo,
sino que debemos utilizar otras muestras diferentes, si bien deben pertenecer a la misma poblacin.
10. Por ltimo, en funcin de las decisiones tomadas en la fase de validacin, el modelo deber ser mejorado
o podr aplicarse para la prediccin y para la toma de decisiones. En cualquier caso, aun cuando un
modelo funcione correctamente en determinadas condiciones, eventualmente aparecern mejoras en los
instrumentos de medida o nuevas reas de posible aplicacin que obligarn a iniciar todo el proceso
nuevamente. En palabras de Bunge (1972; citado por C. San Luis y A. Snchez, 1998; p. 15), la
formacin de cada modelo comienza por simplificaciones, pero la sucesin histrica de los modelos es un
progreso en complejidad.
El paso 1 responde a un proceso de estudio e investigacin de la literatura cientfica o a experimentaciones
previas. Sin este paso, todo lo dems dejar de tener sentido y, aunque se escape de los cometidos de este
manual, nos vemos obligados a insistir al lector que no abandone este aspecto, no slo cuando lleve a cabo su
propia investigacin, evidentemente, sino tambin (y sobre todo) cuando lea informes de investigacin
publicados. Un punto de vista crtico en cuanto a la adecuacin de la seleccin de variables y su
operacionalizacin, en definitiva, de su buena contextualizacin y del estado actual de la investigacin, es
absolutamente esencial. Como hemos repetido en varias ocasiones, los trabajos de investigacin, por el mero
hecho de estar publicados en revistas cientficas, no necesariamente deben ser de calidad. Con respecto a los
pasos 2, 3 y 4, todos los temas precedentes han dado cuenta de cmo se tienen que realizar, de los
procedimientos matemticos, de la interpretacin de resultados, de los problemas y las dificultades que entraa
la cuantificacin, etc., con lo que disponemos de los cimientos necesarios para la modelizacin. Pasemos de
lleno, entonces, a construir un modelo matemtico.

Modelo de regresin lineal simple. - 227 -

Ecuacin de regresin lineal con dos variables


Nuestro inters es la creacin de un modelo lineal entre dos variables, para lo que recurriremos a la funcin:
Y = b0 + b1 X +
En la anterior ecuacin las variables Y y X son, respectivamente, la criterio y la predictora. Los parmetros b0 y
b1, llamados coeficientes de regresin, son propios de cada fenmeno que queramos modelizar y son los que
debemos determinar. Como sabemos que no podemos recoger en el modelo todas las variables implicadas
debemos aadir el trmino de error . Este error refleja la diferencia entre una puntuacin real Y y una
puntuacin predicha por el modelo, que llamaremos Y, es decir:
= Y Y
Por tanto:
Y = b0 + b1 X + = b0 + b1 X + (Y Y)
Despejando Y tenemos:
Y = b0 + b1 X
Esta expresin se denomina ecuacin de regresin de Y sobre X. Puesto que slo disponemos de una variable
predictora, podemos referirnos a ella como regresin lineal simple.
Cmo se articula todo lo anterior? Vamos a plantear un ejemplo para clarificar la ecuacin y sus trminos.
El VIH/SIDA, una enfermedad crnica y estigmatizante, supone mltiples cambios para la vida de la persona,
que afectan notablemente a su bienestar psicolgico y a su calidad de vida. El tratamiento de los pacientes se
ha realizado, fundamentalmente, desde una perspectiva biomdica, descuidando muchas veces la influencia
que los factores psicolgicos puedan tener en la evolucin de la enfermedad. En 2008 A. W. Carrico y M. H.
Antoni llevaron a cabo una revisin de intervenciones psicolgicas eficaces en el tratamiento del VIH en los
ltimos 10 aos. Identificaron 14 estudios en los que se encontr una mejora del bienestar psicolgico, as como
otros efectos beneficiosos en la regulacin neuroendocrina y en el estado inmunolgico de los pacientes tras una
intervencin psicolgica. Debido al amplio y diverso abanico de intervenciones, registros, sujetos, etc., es decir,
teniendo en cuenta la diversidad de resultados provocada por la particularidad de los estudios a lo largo de tan
largo perodo de tiempo, nosotros decidimos realizar una investigacin a gran escala bien articulada y
sistematizada, con el fin de modelizar el bienestar psicolgico de los pacientes de VIH. Junto con un equipo de
mdicos y psiclogos registramos las variables biomdicas consideradas ms importantes por los expertos y las

- 228 - Anlisis de datos.

variables psicolgicas que la literatura cientfica ha delimitado como fundamentales. Adems, utilizamos un
programa de intervencin psicoteraputica de 6 meses de duracin, por lo que la recogida de los anteriores
datos se realizar antes y despus del tratamiento. Por el momento, nos vamos a fijar nicamente en el nmero
de sesiones a las que ha acudido (X) y el bienestar psicolgico (Y) medido con un test psicomtrico. Los
resultados se muestran a continuacin (por razones obvias, presentamos los datos de 76 pacientes nicamente):
TRATAMIENTO PSICOTERAPUTICO Y BIENESTAR PSICOLGICO EN PACIENTES CON VIH
Paciente

Nmero de sesiones

Bienestar psicolgico

Paciente

Nmero de sesiones

Bienestar psicolgico

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

33
33
42
44
44
45
17
25
41
41
26
39
40
41
21
22
23
42
42
45
46
29
34
35
36
18
19
38
39
47
47
39

140
144
138
142
160
135
114
125
152
158
132
144
153
134
138
130
139
124
128
138
142
130
110
148
124
134
124
150
120
145
149
144

39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70

56
56
66
67
67
68
47
53
64
65
55
61
62
63
51
51
52
65
65
68
69
56
57
57
59
47
48
60
61
70
63
61

154
165
176
158
170
172
156
158
162
158
174
169
172
144
160
174
156
162
176
184
175
150
164
168
140
159
130
185
154
180
144
169

Modelo de regresin lineal simple. - 229 -

(Continuacin de la tabla anterior)

Paciente

Nmero de sesiones

Bienestar psicolgico

Paciente

Nmero de sesiones

Bienestar psicolgico

33
34
34
36
37
38

40
41
20
21
19
36

153
134
116
120
128
136

71
72
73
74
75
76

62
63
50
50
48
59

172
144
142
144
157
170

Si queremos construir un modelo lineal explicativo, lo primero que vamos a hacer es representar grficamente
los resultados con un diagrama de dispersin para averiguar si existe tal linealidad entre las variables:
NUBE DE PUNTOS DE LAS VARIABLES NMERO DE SESIONES Y BIENESTAR PSICOLGICO

Podemos constatar una relacin lineal positiva entre el nmero de sesiones psicoteraputicas que el paciente de
VIH ha recibido y su bienestar psicolgico 6 meses despus de la terapia. Si cuantificamos esta relacin, los
valores que obtenemos son:

- 230 - Anlisis de datos.

ANLISIS CUANTITATIVO DE LAS VARIABLES NMERO DE SESIONES Y BIENESTAR PSICOLGICO


Media

Desviacin tpica

Nmero de sesiones

46,73

14,88

76

Bienestar psicolgico

148,97

18,06

76

Nmero de sesiones
Correlacin de Pearson
Nmero de sesiones

Covarianza
N
Correlacin de Pearson

Bienestar psicolgico

Covarianza
N

Bienestar psicolgico

,784

221,316

210,646

76

76

,784

210,646

326,159

76

76

Vistos los resultados tras el anlisis visual y el anlisis cuantitativo, podemos plantearnos buscar una funcin
lineal que se ajuste a los datos. Tal funcin nos permitir la explicacin del efecto de la intervencin psicolgica
en pacientes con VIH y la aplicacin del modelo que construyamos a otros sujetos que se incorporen a la
terapia. Para ello, debemos establecer, en primer lugar qu variable queremos predecir a partir de la otra. En
nuestro caso, nos interesar pronosticar el bienestar psiclogico, por tanto, sta es nuestra variable
dependiente o criterio Y, dejando como variable independiente o predictora X el nmero de sesiones. Debido a
esto, la ecuacin de regresin es de Y sobre X, y no al revs. Todas las dems variables psicolgicas y
biomdicas que hemos dejado de lado constituyen nuestro error aleatorio. En definitiva:
Bienestar psicolgico = b0 + b1 Nmero de sesiones +
Formalmente:
Y = b0 + b1 X +
Ahora debemos buscar, de entre todas las posibles funciones lineales, la ecuacin que mejor se ajuste a los
datos. Si nos damos cuenta, la formulacin anterior es la de una lnea recta, as pues, debemos encontrar
aqulla con la que menos errores de prediccin cometamos al utilizarla. A continuacin, mostramos algunas
posibles rectas:

Modelo de regresin lineal simple. - 231 -

DIFERENTES FUNCIONES LINEALES DE AJUSTE A LOS DATOS

stas y otras son todas posibles, cada una con sus propios parmetros, b0 y b1. Ahora bien, la que nos interesa
es la que mejor se ajuste a la nube de puntos ya que, con ella cometeremos menos errores de prediccin.

- 232 - Anlisis de datos.

Intuitivamente podemos ver que, de las 4 anteriores, la ltima es la recta ms cercana a todo el conjunto de
puntos y sta es la que debemos obtener. Para ello, vamos a valernos del llamado mtodo de los mnimos
cuadrados porque es el que calcula la recta de regresin minimizando los errores de prediccin. Vamos a
estudiarlo con detenimiento.
Antes de nada, vamos a hacer una importante aclaracin. Nuestra intencin es obtener una ecuacin que nos
permita, no slo explicar el bienestar psicolgico de los pacientes a partir de las sesiones de terapia, sino
tambin predecir en otros pacientes que se incorporen al programa cul va a ser su bienestar psicolgico en
funcin de las sesiones que tomen. De los 76 pacientes que disponemos en este momento sabemos todos los
resultados, no as de los que vengan nuevos, pero es con nuestra muestra con la que debemos obtener los
parmetros de la ecuacin. As pues, utilizaremos sus puntuaciones reales de bienestar, Y, y las que
pronosticaramos de aplicar la ecuacin de regresin, Y, para construir el modelo y para ponerlo a prueba. Si
todo va bien, entonces s podremos utilizarlo con nuevos pacientes que se incorporen al programa.
Dicho lo anterior, llamamos Y a las puntuaciones reales e Y a las puntuaciones predichas por la ecuacin de
regresin. Mediante el mtodo de los mnimos cuadrados, pretendemos que la diferencia entre los valores
pronosticados Y y los reales Y sea mnima, en otras palabras, que el error de prediccin en cada sujeto sea
mnimo:
Para el paciente 1

1 = Y1 Y1 = mnimo

Para el paciente 2

2 = Y2 Y2 = mnimo

76 = Y76 Y76 = mnimo

Para el paciente 76

En definitiva, el mtodo busca que, en conjunto, los errores de prediccin sean mnimos:
i = (Yi Yi ) sea mnimo donde i = 1, 2,, 76
Los valores Y pronosticados son exactamente los puntos determinados por la recta, de tal manera que algunos
de los valores reales Y estarn por encima y otros por debajo de Y. Esto significa que algunas diferencias sern
positivas y otras negativas, con lo que, en conjunto, la suma quedar anulada. Por esta razn, cada una de las
diferencias se eleva al cuadrado y el sumatorio anterior queda de la siguiente manera:
2
i = (Yi Yi )2 sea mnimo

donde i = 1, 2,, 76

Ahora entendemos mejor por qu hablamos de mnimos cuadrados. Podemos verlo grficamente tambin:

Modelo de regresin lineal simple. - 233 -

RECTA DE REGRESIN DE Y SOBRE X

Los puntos que conforman la recta son los pronosticados Y. Para cada uno de ellos, su correspondiente valor
real Y est por encima, dando lugar a una diferencia positiva entre los dos, o por debajo, con lo que esta
diferencia ser negativa. En la suma de todas estas diferencias positivas y negativas se compensan unas con
otras y finalmente se anulan, de ah que las elevemos al cuadrado.
Como dijimos anteriormente, de todas las infinitas rectas posibles, el mtodo de mnimos cuadrados obtiene los
parmetros b0 y b1 que cumplen:
(Yi Yi )2 = (Yi b0 b1Xi)2

sea mnimo

Para ello, se deriva la expresin Y = b0 + b1 X con respecto a b0 y b1, se igualan a 0 las ecuaciones normales
obtenidas y se despejan los coeficientes:

=0
b 0

=0
b1

- 234 - Anlisis de datos.

b 0

Donde

b1

son las derivadas parciales de respecto a b0 y b1.


Es decir:
( Yi b 0 b1X i ) 2
= 2 ( Yi b 0 b1X i ) = 0
b 0
( Yi b 0 b1X i ) 2
= 2 ( Yi b 0 b1X i ) X i = 0
b1
Lo que es equivalente a:
( Yi b 0 b1X i ) = 0
( Yi b 0 b1X i ) X i = 0
De donde:
Y i = nb 0 + b1 X i
2
X i Y i = b 0 X i + b1 X i

Estas dos ltimas expresiones se llaman ecuaciones normales, a partir de las cuales despejamos b0 y b1:
b 0 = Y b1X
b1 =

Xi Yi n X Y
2
2
Xi n X

Vamos a aplicar las frmulas anteriores a nuestros datos:

Modelo de regresin lineal simple. - 235 -

OBTENCIN DE LA ECUACIN DE REGRESIN DE Y SOBRE X


Sujeto

XY

X2

Sujeto (continuacin)

X (continuacin)

Y (continuacin)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

33
33
42
44
44
45
17
25
41
41
26
39
40
41
21
22
23
42
42
45
46
29
34
35
36
18
19
38
39
47
47
39
40
41
20
21
19
36

140
144
138
142
160
135
114
125
152
158
132
144
153
134
138
130
139
124
128
138
142
130
110
148
124
134
124
150
120
145
149
144
153
134
116
120
128
136

4620
4752
5796
6248
7040
6075
1938
3125
6232
6478
3432
5616
6120
5494
2898
2860
3197
5208
5376
6210
6532
3770
3740
5180
4464
2412
2356
5700
4680
6815
7003
5616
6120
5494
2320
2520
2432
4896

1089
1089
1764
1936
1936
2025
289
625
1681
1681
676
1521
1600
1681
441
484
529
1764
1764
2025
2116
841
1156
1225
1296
324
361
1444
1521
2209
2209
1521
1600
1681
400
441
361
1296

39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76

56
56
66
67
67
68
47
53
64
65
55
61
62
63
51
51
52
65
65
68
69
56
57
57
59
47
48
60
61
70
63
61
62
63
50
50
48
59

154
165
176
158
170
172
156
158
162
158
174
169
172
144
160
174
156
162
176
184
175
150
164
168
140
159
130
185
154
180
144
169
172
144
142
144
157
170

3552

11322

XY (continuacin)

X2 (continuacin)

8624
9240
11616
10586
11390
11696
7332
8374
10368
10270
9570
10309
10664
9072
8160
8874
8112
10530
11440
12512
12075
8400
9348
9576
8260
7473
6240
11100
9394
12600
9072
10309
10664
9072
7100
7200
7536
10030

3136
3136
4356
4489
4489
4624
2209
2809
4096
4225
3025
3721
3844
3969
2601
2601
2704
4225
4225
4624
4761
3136
3249
3249
3481
2209
2304
3600
3721
4900
3969
3721
3844
3969
2500
2500
2304
3481

544953

182608

- 236 - Anlisis de datos.

b1 =

X Y n X Y 544953 76 46,74 148,97


=
= 0,95
2
2
182608 76 46,74 2
X nX

b 0 = Y b1X = 148,97 0,95 46,74 = 104,57


La ecuacin de regresin que nos permite pronosticar el bienestar psicolgico a partir del nmero de sesiones
queda, en definitiva, como sigue:
Y = 104,57 + 0,95 X
La interpretacin que hacemos es la siguiente: por cada sesin a la que acuda el paciente, su bienestar
psicolgico se ver incrementado en 0,95 unidades.
Si se incorporara a la terapia un sujeto que tiene previsto acudir a 50 sesiones, por ejemplo, su bienestar
alcanzara un valor de Y = 104,57 + 0,95 50 = 152,07, lo cual ya es una mejora teniendo en cuenta que la
media es igual a 148,97. Ahora bien, esa mejora es mucho o poco? Pudiera parecer que s, sin embargo, puede
ser slo aparentemente. Recordemos el tema 6, en el que estudiamos un tipo de puntuaciones que nos dan
respuesta ms especifica a la pregunta. En efecto, las puntuaciones tpicas nos proporcionan una localizacin
del sujeto que nos permite interpretar su posicin de forma ms precisa que simplemente expresar que un
sujeto mejorar o no. En el siguiente apartado lo vemos con ms detenimiento.
Una importante observacin es la siguiente. Hemos obtenido la ecuacin que nos permite pronosticar el
bienestar psicolgico de los pacientes con VIH que acuden a psicoterapia en funcin del nmero de sesiones en
las que participen, es decir, de Y sobre X. Calcular la ecuacin al revs, de X sobre Y, nos llevara a coeficientes
de regresin distintos. Basta con mirar las ecuaciones para calcular b0 y b1 para darnos cuenta de que la mera
sustitucin de X por Y, y viceversa, da lugar a diferentes resultados. Adems, qu sentido tiene pronosticar el
nmero de sesiones a partir del bienestar psicolgico si ste se supone se alcanza despus de la intervencin?

Representacin grfica de la ecuacin de regresin


Puesto que la ecuacin de regresin, desde un punto de vista geomtrico, es la de una lnea recta, b0 es el punto
de corte del eje de ordenadas y b1 es su pendiente. Para su representacin necesitamos dos puntos, que los
obtenemos proporcionando dos valores a X y aplicando la ecuacin para ver cul es el valor de Y. El primero de
ellos ya lo tenemos, que es (0 ; b0) como acabamos de decir. En efecto, si X es igual a 0:
Y = b0 + b1 0 = b0

Modelo de regresin lineal simple. - 237 -

Por lo tanto, la recta pasa por el punto (0 ; b0)


En nuestros datos:
Y = 104,57 + 0,95 0 = 104,48

(0 ; 104,57)

Con respecto al segundo, sustituiremos X por su mediaX y b0 por su expresin matemtica:

Y' = Y b1X + b1X = Y


Por lo tanto, la recta pasa por el punto ( X ; Y )
En efecto, en nuestros datos:
Y = 104,57 + 0,95 46,74 = 148,97

(46,74 ; 148,97)

RECTA DE REGRESIN DE Y SOBRE X

b0 = 104,48

MODELIZACIN
Evaluacin del modelo lineal simple
Un modelo matemtico debe demostrar su fiabilidad, su validez y su utilidad. Si bien la tarea de construirlo es
importante, no menos lo es verificar sus cualidades. Tal y como apuntbamos en el paso 6 para la generacin de
un modelo matemtico (vase tema anterior), debemos preguntarnos si la variable dependiente queda
debidamente explicada por la variable independiente. En otras palabras, debemos averiguar si la ecuacin que
hemos construido se ajusta bien a los datos. En nuestro ejemplo sobre el bienestar psicolgico, la pregunta es si
est bien explicado por las sesiones teraputicas, incluso, si podemos utilizar esta variable para pronosticarlo.
En caso contrario, deberemos preguntarnos a qu se debe su inadecuacin, si a los instrumentos utilizados en
la recogida de datos, si a la eleccin de la variable independiente, si a la falta de otras variables importantes en
el modelo que rebajen el error de prediccin, etc., con el fin de mejorar el modelo o bien de abandonarlo.
Adems de realizar el estudio del ajuste a los datos, debemos preguntarnos por la confiabilidad que nos
proporcionar en el caso de utilizarlo con fines prcticos. Si al construirlo con otra muestra obtenemos
coeficientes de regresin dispares en relacin con el original, nos encontraremos con un modelo no fiable y su
uso sera un desacierto y una torpeza.
En definitiva, aunque el mtodo de mnimos cuadrados nos proporciona una tcnica que ya nos garantiza que el
error en la prediccin ser el menor con la ecuacin que construimos que con cualquier otra, tampoco significa
que no cometamos ninguno. Esto nos lleva a pensar que debemos ver la manera de valorar si ese error es
suficientemente pequeo o, a pesar de haber construido el modelo con garanta matemtica de ser el mejor
posible, su valor es relevante una vez contextualizado. Por esta razn, debemos evaluar el modelo de regresin.
A lo largo de este tema, nos centraremos en estas cuestiones tan importantes.

Ajuste del modelo a los datos


La primera respuesta a las dudas anteriores la vamos a encontrar en el estudio sobre la bondad de ajuste del
modelo a los datos, mediante el coeficiente de determinacin, definido como la proporcin o porcentaje de
varianza de la variable criterio que viene explicada por la variable predictora. Su clculo es muy sencillo
porque nicamente debemos elevar al cuadrado el coeficiente de correlacin de Pearson entre las dos variables,
y ya lo tenemos. Sin embargo, vamos a explicarlo detenidamente para que se entienda mejor.
Partimos de los valores conocidos en las variables predictora y criterio, medidas en una muestra de tamao n.
Nuestro inters es el pronstico de las puntuaciones de la variable criterio en otra muestra semejante, pero de
la que slo tenemos datos en la variable predictora. Si no disponemos de ningn elemento mejor, podramos
utilizar la media de Y para el pronstico, pero esta actuacin nos hace cometer el siguiente error:

- 252 - Anlisis de datos.

Yi Y

Error cometido en un sujeto cualquiera al utilizar la media para el pronstico.

En la expresin anterior, Yi es la puntuacin real del sujeto, desconocida, y la diferencia con la media,Y, es el
error en el pronstico si la utilizamos para predecirla.
Si construimos la ecuacin de regresin y la aplicamos para la prediccin, sabiendo que no es perfecta,
seguimos cometiendo un error, aunque mejoremos nuestra estimacin:
Yi Yi'

Error cometido en un sujeto cualquiera al utilizar la ecuacin de regresin.

Cunto mejora el uso de la ecuacin de regresin en lugar de la media en el pronstico?


Yi' Y

Error evitado al utilizar la ecuacin de regresin en lugar de la media.

Las expresiones anteriores nos permiten establecer la siguiente igualdad para un sujeto cualquiera:

(Y

) (

) (

Y = Yi Yi' + Yi' Y

Esta frmula es una relacin de distancias de la puntuacin de un sujeto con respecto a la media y a la recta de
regresin. Podemos observarlo grficamente:

Evaluacin del modelo lineal simple. - 253 -

ERRORES EN EL PRONSTICO PARA UN SUJETO CUALQUIERA

Yi Y

Yi Yi'
Yi' Y

El punto marcado en negrita es la puntuacin real Yi de un sujeto cualquiera. La llave de la izquierda


representa su distancia a la media (Yi Y), que es igual a la distancia a la recta (Yi Yi) ms la distancia de
sta a la media (Yi Y), ambas indicadas por las llaves de la derecha.
Vamos a hacer con el conjunto la muestra lo mismo que para este sujeto:
n

'
'
Yi Y = Yi Yi + Yi Y

i =1

i =1

i =1

El problema de la expresin anterior es, como de sobra sabemos, que los sumatorios quedan anulados, por
tanto, vamos a elevarlos al cuadrado. Adems, vamos a dividir cada uno de ellos por el tamao de la muestra n:
n

Yi Y

i =1

n
n
n

'
Yi Yi' + Yi' Y
Yi Yi
i
i =1
=1

i =1
=
=
n
n

'
Yi Y

i =1

- 254 - Anlisis de datos.

Si X e Y son dos variables, la


varianza de la suma de las
variables es igual a:

S(2X + Y ) = S2X + S2Y 2 SXY


Si X e Y son independientes,
entonces:

Pues bien, si nos fijamos un poco, el primer trmino de la igualdad es la frmula de la varianza de las
puntuaciones de Y. El segundo es el promedio de errores que cometemos al pronosticar con la ecuacin de
regresin y el tercero es el promedio de errores que evitamos con la ecuacin. Lo que acabamos de hacer se
denomina descomposicin de la varianza de Y o de la varianza total y su utilidad enseguida la veremos. De
momento, presentamos grficamente mediante los diagramas de Venn de la particin que acabamos de realizar
(vase adems el margen de la hoja):

S(2X + Y ) = S2X + S2Y

DESCOMPOSICIN DE LA VARIANZA EN PARTES

En nuestro contexto tenemos:

2
Y

=S

2
Y'

S 2Y

+ S 2 S Y '
2

Veamos a qu es igual S Y ' :


S

2
Y '

Z Y' Z
[ Z Y ' ( Z Y Z Y ' )]
=
=
=
n
n
[1 Z X ( Z Y Z Y ' ) ]
=
=
n
Z X Z Y 1 Z X Z Y '
= 1

=
n
n
2
2
Z X Z Y 1 Z X
= 1

=
n
n
= 1 rXY 12 S 2Z X =

2
= rXY rXY rXY
=0

S 2

S 2

S 2Y '

varianza total de Y = varianza de los errores + varianza de regresin


VD

VI

Es decir, la varianza total es igual a la suma de la varianza de los errores de prediccin ms la varianza debida
a la regresin. Esta descomposicin en partes independientes nos ser muy til.
Adems, vamos a dividir cada una de las varianzas anteriores por la varianza de Y:

Por tanto:

DESCOMPOSICIN DE LA VARIANZA EN PROPORCIONES

S 2Y = S 2Y ' + S 2

Lo que adems, demuestra la


independencia entre los
errores de prediccin y las
puntuaciones pronosticadas.
Y lo mismo cabe decir de la
independencia entre los
errores y la variable
independiente, puesto que la
variable pronosticada es una
combinacin lineal de la
variable independiente.

S 2Y

S 2Y '

S 2Y

S 2Y

S 2Y
S 2

S 2Y

S 2Y

S 2Y '
S 2Y

S 2

S 2Y

S 2Y '
S 2Y

1 = proporcin de varianza de error + proporcin de varianza explicada


VD

VI

Evaluacin del modelo lineal simple. - 255 -

En la expresin anterior, el segundo miembro es la proporcin de varianza de error, es decir, la proporcin de


error que cometemos en los pronsticos.
Por su parte, el ltimo miembro es la proporcin de varianza explicada por la regresin, que es igual al
coeficiente de correlacin de Pearson al cuadrado. He aqu la demostracin:
Si

Y = b0 + b1 X

Teniendo en cuenta las propiedades de la varianza


S 2Y ' = b12 S X2
Por otro lado:
X Y n X Y ( X X )( Y Y )
=
2
2
2
X nX
(X X)

b1 =

Si dividimos por n el ltimo miembro:


( X X )( Y Y ) / n S XY
= 2
2
SX
(X X) / n

b1 =
As pues:

S
S 2Y ' = b12 S 2X = XY
S2
X

S 2X = S XY

S 2X

Por lo tanto:
S 2Y '
S 2Y

S 2XY / S 2X
S 2Y

S 2XY

S 2Y S 2X

2
= rXY

El anterior, denominado coeficiente de determinacin, expresa la proporcin de varianza de la variable criterio


que viene explicada por el modelo o, lo que es lo mismo, por su relacin con X.

- 256 - Anlisis de datos.

Por su parte, llamamos coeficiente de alienacin a la proporcin de varianza de la variable Y que no viene
explicada por el modelo, es decir, la proporcin de varianza de error:
2
1 rXY

Teniendo en cuenta que


S 2Y
S 2Y

=1

S 2Y '
S 2Y

2
= rXY

podemos establecer la siguiente relacin y ver la figura anterior de la siguiente manera:


DESCOMPOSICIN DE LA VARIANZA EN PROPORCIONES
1

2
1 rXY

2
rXY

1 =

2
(1 rXY
)

2
rXY

1 = coeficiente de alienacin + coeficiente de determinacin


VD

VI

En definitiva, disponemos de dos elementos para valorar el modelo, en relacin con su adecuacin a los datos,
que son:

el coeficiente de determinacin:

2
R 2 = rXY

el coeficiente de alienacin:

2
CA = 1 rXY

Como es evidente, el aumento de uno significa la disminucin del otro, y viceversa. Qu nos interesa? Que el
coeficiente de determinacin sea lo ms elevado posible, porque ello ser indicador de un mejor ajuste del
modelo a los datos y, por ende, mejores pronsticos.

Evaluacin del modelo lineal simple. - 257 -

Condiciones para la construccin del modelo


Por razones didcticas, presentamos los supuestos en este apartado; sin embargo, tengamos claro que es lo
primero que debe comprobar el investigador antes de abalanzarse a la construccin de su modelo particular.
Cabe decir que la mayora de las pruebas para comprobar el grado de su cumplimiento analiza los errores de
prediccin, llamados tambin residuos (recordemos cmo se obtienen: = Y Y), sobretodo cuando se trabaja
con ms de una variable independiente. Nosotros haremos mencin a los valores de las variables observadas o a
los errores en funcin del supuesto del que hablemos y de la prueba que utilicemos para el anlisis. Adems,
aun siendo conscientes que en este momento no podemos expresarlos de manera formal y rigurosa (necesitamos
conceptos de probabilidad y de inferencia estadstica), s queremos presentarlos, si quiera de forma intuitiva,
porque nos parece absolutamente importante concienciarnos de la necesidad de emplear adecuadamente las
herramientas matemticas de las que tanto provecho obtenemos, evitando las meras aplicaciones a ciegas,
como ya estamos acostumbrados a ver en los informes de investigacin publicados. Pasemos pues, a detallar las
condiciones de construccin del modelo.

Relacin lineal entre las variables

Este supuesto lo hemos presentado desde el principio como condicin sine qua non para la construccin de la
ecuacin. Efectivamente, el diagrama de dispersin debe mostrarnos una nube de puntos alrededor de una
lnea recta. Dicho con otras palabras, la pendiente debe ser constante, no debe variar en funcin de los valores
de la predictora.
Tal y como vimos en nuestro ejemplo, la relacin entre las variables nmero de sesiones y bienestar psicolgico
de nuestros pacientes gira alrededor de una lnea recta, por lo que este supuesto podemos darlo por cumplido:

Algunos autores
distinguen el trmino de
error, refirindonos a la
diferencia entre el valor
observado y el valor de la
recta de regresin
poblacional, y residual,
como la diferencia entre
valor observado y el valor
predicho por el modelo de
regresin en la muestra.
No obstante, en la prctica,
la obtencin de ambos es la
misma:
Y Y

- 258 - Anlisis de datos.

RELACIN LINEAL ENTRE LAS VARIABLES NMERO DE SESIONES Y BIENESTAR PSICOLGICO


VALORES PREDICHOS (Y) Y RESIDUALES ()
Sujeto

Yi'

i = Yi Yi'

1
2
3
4
5
6
7
8
9
10

135,89
135,89
144,46
146,36
146,36
147,32
120,67
128,28
143,51
143,51

4,10
8,10
-6,46
-4,36
13,63
-12,32
-6,67
-3,28
8,48
14,48

76

160,64

9,35

11322

0,00

Mn.

Mx.

120,67

171,11

Media
148,97

14,15

D.T.

-26,85

23,40

0,00

11,21

Si esto no fuera as, es decir, si la pendiente de la recta variara en funcin de los valores de X dando lugar a
otro tipo de relacin (recordemos los ejemplos del tema anterior), el modelo de regresin lineal an podra
continuar siendo vlido, a pesar de ello, en algunas situaciones muy particulares linealizando la relacin por
medio de una transformacin (por ejemplo, logartmica) de la variable criterio Y, o de la variable predictora X, o
de ambas. Esta prctica tendra sentido si resolviera la presencia de otros problemas que, enseguida, veremos.
Sin embargo, linealizar los datos slo por un afn de construir una ecuacin lineal cuando podemos recurrir a
otros modelos curvilneos de prediccin parece que no tiene mucho fundamento.

Nivel de medida de las variables

Adems del supuesto anterior, tambin hemos partido de la construccin del modelo con variables
cuantitativas. Esta condicin es obligatoria para la variable criterio, pero no necesariamente para la predictora,
no al menos en todos los casos. En efecto, podemos aplicar el modelo de regresin lineal simple a variables
predictoras dicotmicas, tambin llamadas binarias. Recordemos que son aquellas que toman dos valores que,
por convenio, hemos codificado con 0 y 1, como por ejemplo, el sexo, la presencia o no de una patologa, la
asistencia o no a una terapia, etc. Lo mismo cabe decir de las variables dicotmizadas que, recordemos tambin,
son aqullas que siendo continuas o politmicas, las reducimos a dos categoras. Un sencillo caso lo tenemos en
el reajuste del grado de estrs a dos niveles: alto y bajo.

Evaluacin del modelo lineal simple. - 259 -

Para nuestro ejemplo, supongamos que hemos convertido la variable independiente nmero de sesiones a dos
categoras: elevada asistencia (codificada con 1) y baja asistencia (con cdigo 0). Al aplicar todo el anlisis de
regresin obtendramos los siguientes resultados:
RELACIN ENTRE EL BIENESTAR PSICOLGICO Y EL GRADO DE ASISTENCIA A LA TERAPIA

b 0 = 148,97 24,75 0,474 = 137,24


b1 =

5832 76 0,474 148,97


36 76 0,474 2

= 24,59

R2 = 0,474
CA = 1 0,474 = 0,526
Ecuacin de regresin: Y = 137,24 + 24,59 X

CLCULOS PARA LA OBTENCIN DE LA ECUACIN DE REGRESIN DEL BIENESTAR


Sujeto

XY

X2

Sujeto (continuacin)

Y (continuacin)

X (continuacin)

XY (continuacin)

X2 (continuacin)

1
2
3
4
5
6
7
8
9
10
11
12

140
144
138
142
160
135
114
125
152
158
132
144

0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0

39
40
41
42
43
44
45
46
47
48
49
50

154
165
176
158
170
172
156
158
162
158
174
169

1
1
1
1
1
1
0
1
1
1
1
1

154
165
176
158
170
172
0
158
162
158
174
169

1
1
1
1
1
1
0
1
1
1
1
1

- 260 - Anlisis de datos.

13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

153
134
138
130
139
124
128
138
142
130
110
148
124
134
124
150
120
145
149
144
153
134
116
120
128
136

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0

51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76

172
144
160
174
156
162
176
184
175
150
164
168
140
159
130
185
154
180
144
169
172
144
142
144
157
170

1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1

172
144
160
174
156
162
176
184
175
150
164
168
140
0
130
185
154
180
144
169
172
144
142
144
157
170

1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
1
1
1

5832

36

Por un lado, podemos observar que, lgicamente, en el diagrama de dispersin la nube de puntos ya no puede
estar alrededor de una lnea recta, puesto que la variable grado de asistencia a la terapia ahora slo tiene como
valores: 1 (elevada) y 0 (baja). Por su parte, el valor del coeficiente de determinacin nos indica que el 47,4% de
la variacin observada en el bienestar puede ser explicada por el hecho de una asistencia elevada o no a la
terapia.
Por otro lado, dmonos cuenta de que, al aplicar la ecuacin de regresin a un sujeto cualquiera, siempre vamos
a pronosticar el mismo valor para los sujetos que tienen un nivel elevado de asistencia y tambin a los que
tienen un valor bajo:
Y = 137,24 + 24,75 1 = 161,99
Y = 137,24 + 24,75 0 = 137,24

Evaluacin del modelo lineal simple. - 261 -

Adems, hay que tener cuidado con la codificacin que realicemos. En nuestro caso, hemos utilizado los valores
0 y 1, pero bien podramos haber empleado 1 y +1 (u otros cualesquiera). Con estos cdigos habramos
obtenido el mismo ajuste de la ecuacin a los datos; sin embargo, los coeficientes de regresin habran sido
diferentes, por lo que tambin la interpretacin que hicisemos de ellos sera distinta:
RELACIN ENTRE EL BIENESTAR PSICOLGICO Y EL GRADO DE ASISTENCIA A LA TERAPIA

R2 = 0,474
CA = 1 0,474 = 0,526
Ecuacin de regresin: Y = 146,62 + 12,37 X

Por ltimo, si la variable predictora tiene ms de una categora, es decir, es politmica, deberemos utilizar una
tcnica consistente en generar un conjunto de c 1 variables (siendo c el nmero de categoras de la variable
predictora) llamadas ficticias (dummy en ingls). Cada variable es una categora y sus valores son 0 y 1 segn
el sujeto la posea o no. Por ejemplo, si la variable tiene 4 categoras (sntomas de una enfermedad; niveles de
motivacin: muy bajo, bajo, medio y alto, etc.), aunque hablamos de una sola variable independiente, debemos
construir 3 variables ficticias e introducirlas en la ecuacin, por lo que nos hallaramos ante un modelo de
regresin mltiple.
Otra cosa bien distinta es que nos hallemos ante una variable dependiente categrica. En estos casos, cabe
decir, sencillamente, que existen otros modelos matemticos ms adecuados que el modelo de regresin lineal y
de ellos daremos cuenta en su momento.

- 262 - Anlisis de datos.

OBTENCIN DE DW
Suj.

i i 1

(i i 1 )2

i2

1
2
3
4
5
6
7
8
9
10

4,10
8,10
-6,46
-4,36
13,63
-12,32
-6,67
-3,28
8,48
14,48

4,00
-14,57
2,10
18,00
-25,95
5,65
3,39
11,77
6,00

16,00
212,17
4,39
324,00
673,50
31,92
11,46
138,57
36,00

16,82
65,62
41,80
19,09
185,81
151,80
44,50
10,79
72,02

76

9,35

2,53

6,40

87,50

0,00

22419,03

Independencia de los valores observados o aleatoriedad de los errores

Dado un sujeto cualquiera, su puntuacin en la variable Y no debe estar influenciada en ningn sentido por los
valores observados en otros sujetos. Esto significa que los errores de prediccin deben ser aleatorios. Sabemos
que algunos errores son positivos, otros negativos y otros iguales a cero. Pues bien, no deben presentar ningn
patrn sistemtico en la secuencia de observacin (en la serie no debe haber, por ejemplo, una sucesin
sospechosa de valores negativos o de positivos) o, lo que es lo mismo, no deben estar autocorrelacionados.
Una buena recogida de datos ya nos debe garantizar, lgicamente, la independencia de las observaciones (en
nuestro ejemplo, se debera suponer que los pacientes son independientes entre s). Sin embargo, en situaciones
en las que obtenemos los datos siguiendo una secuencia temporal, por ejemplo, debemos comprobar que las
observaciones no estn autocorrelacionadas. El estadstico DW de Dubin-Watson nos mide el grado de
independencia entre ellas:
n

DW =

9425,15

2
( i i 1 )

i=2

i =1

donde i es el error de una observacin cualquiera y i 1 es el error de la observacin anterior.


A partir de su resultado, podemos utilizar la siguiente regla, aunque no sea muy rigurosa: si su valor se
aproxima a 2, los errores (o las observaciones) no estn correlacionados; si es igual a 0 hay una autocorrelacin
perfecta positiva y si su resultado es 4, es perfecta pero negativa (C. Prez, 2005). Suele asumirse que los
residuos son independientes cuando toma valores comprendidos entre 1,5 y 2,5 (A. Pardo y M.A. Ruiz, 2005).
En nuestros datos, obtenemos el siguiente resultado:
DW =

22419,03
= 2,3786
9425,15

Frente a lo que caba suponer, debemos tener mucha cautela con este resultado. Aunque ciertamente uno de los
lmites es igual a 4, un valor tan cercano a 2,5 deber hacernos sospechar de la falta de independencia entre las
puntuaciones de nuestros pacientes. Deberemos revisar el mtodo de recogida de datos, los hospitales
analizados, la terapia en cuanto a la persona o personas encargadas, etc. buscando posibles sesgos en la
muestra.
Que no se cumpla la condicin de independencia afecta gravemente a los resultados del modelo de regresin
porque se obtienen estimadores de los parmetros y predicciones ineficientes. Esto se debe a que no se cumple
la propiedad de la varianza, segn la cual, la varianza de la suma de variables independientes es igual a la

Evaluacin del modelo lineal simple. - 263 -

suma de las varianzas de cada variable, propiedad necesaria para la construccin de la ecuacin de regresin,
como ya sabemos. Aunque suele proponerse, en situaciones muy restringidas, probar con una transformacin
de los datos, lo mejor es recurrir a otros mtodos de anlisis, como son las series temporales o los modelos de
regresin dinmica.

Los errores aleatorios deben ajustarse a una distribucin normal

RESIDUOS TIPIFICADOS (Z)

Este supuesto dice que la distribucin de la variable formada por los errores debe ser normal (vase tema 5), es
decir, los errores que hemos observado y los que deberamos obtener suponiendo esta distribucin normal
deberan ser parecidos.
Es importante conocer la causa por la que no se cumple la normalidad ya que esta informacin puede ayudar a
corregir el modelo de regresin. Entre otros motivos, la falta de normalidad puede ser debida a un conjunto
pequeo de observaciones atpicas que originan apuntamiento o a la existencia de una variable cualitativa
oculta que hace que la distribucin sea multimodal. En estos casos, se puede mejorar el modelo corrigiendo
estos problemas. En otras ocasiones la falta de normalidad es debida a una fuerte asimetra de la distribucin
que, en muchos casos, va acompaada de otros problemas, como la falta de linealidad o la heterocedasticidad
(de la que hablaremos en el siguiente punto). Transformar la variable criterio puede arreglar ambos problemas.
La familia de transformaciones de Box-Cox es la ms empleada cuando nos encontramos con problemas de no
normalidad y heterocedasticidad; sin embargo, una exposicin aqu excede el alcance de este manual. Otra
posibilidad ms sencilla es una transformacin ordinal de las variables. En este caso, se codifican los valores de
cada variable asignando nmeros de orden, del ms bajo al ms alto, segn su cuanta ascendente, y obtenemos
los coeficientes de regresin de modo habitual, slo que la pendiente nicamente informa del sentido del efecto
dado su carcter ordinal. Por ejemplo, si b1 = 4, diremos que el aumento en la variable predictora produce una
disminucin en la variable criterio, nada ms. Puede consultarse en M. Ato, J.L. Losilla, J.B. Navarro, A.L.
Palmer y M.F. Rodrigo (2000) una exposicin del procedimiento ms detallada.
Una primera alternativa para comprobar este supuesto es representar grficamente la distribucin observada
de los errores en la muestra. Si el histograma de frecuencias de los residuos no se ajustara a una distribucin
normal, pudiera deberse a la existencia de valores atpicos, por ejemplo. Sin embargo, conseguir la normalidad
eliminando el par de puntuaciones del sujeto que produce las anomalas es una tctica que suele practicarse,
pero de la que ya hemos comentado que la justificacin no debe ser estadstica, sino que tiene que venir de otra
ndole y bien fundamentada, por ejemplo, que en la investigacin el sujeto no se corresponde con la poblacin de
partida por razones que s vienen al caso (por decirlo de una manera popular, se nos ha colado) y deberemos
notificarlo. Nuestro histograma es el siguiente:

Sujeto

Z i

1
2
3
4
5
6
7
8
9
10

4,10
8,10
-6,46
-4,36
13,63
-12,32
-6,67
-3,28
8,48
14,48

0,37
0,72
-0,58
-0,39
1,22
-1,10
-0,60
-0,29
0,76
1,29

76

9,35

0,83

0,00

0,00

Mn.

Mx.

Media

D.T.

-26,85

23,40

0,00

11,21

-2,40

2,09

0,00

1,00

Z i =

i
S

- 264 - Anlisis de datos.

HISTOGRAMA DE LOS ERRORES DE PREDICCIN

En la figura anterior vemos, por un lado, la distribucin de los errores observados y, por otro, cmo deberan
repartirse en el caso de ajustarse a una distribucin normal. Sin necesidad de ninguna otra prueba, el
histograma de los errores de prediccin nos muestra una falta total de simetra y un apuntamiento que ni
siquiera se presenta en los valores centrales. Una vez ms, no parece que el modelo matemtico sea lcito, pues
los datos no cumplen las condiciones para su construccin (ojo, esta ltima afirmacin no quiere decir que sean
malos, simplemente que el modelo no es el adecuado para estos datos).
Otra forma de comprobar este supuesto es mediante el grfico de probabilidad normal de los residuos. En el eje
de abscisas colocamos las proporciones acumuladas de los errores, ordenados y tipificados, y en el eje de
ordenadas las proporciones acumuladas tericas, que son las que corresponden a las puntuaciones tpicas de
una curva normal con media y desviacin tpicas iguales a 0 y 1, respectivamente. Vemoslo:

Evaluacin del modelo lineal simple. - 265 -

GRFICO DE PROBABILIDAD NORMAL DE LOS RESIDUOS

PROPORCIONES ACUMULADAS
OBSERVADAS Y TERICAS
Z

ni

pa i (observ.)

pa i (ter.)

-2,40
-1,93
-1,84
-1,83
-1,82
-1,80
-1,47
-1,32

1
1
1
1
3
1
1
1

0,013
0,026
0,030
0,053
0,092
0,105
0,118
0,132

0,008
0,026
0,032
0,033
0,034
0,035
0,070
0,093

0,93
1,10
1,13
1,21
1,22
1,29
1,32
1,53
1,87
2,09

2
1
1
1
1
1
1
1
1
1

0,882
0,895
0,908
0,921
0,934
0,947
0,961
0,974
0,987
1,000

0,823
0,864
0,870
0,886
0,888
0,901
0,906
0,937
0,969
0,981

76

Si la distribucin de los errores se ajustara a una curva normal, stos deberan aparecer alineados sobre la
diagonal del grfico, y no es as, siendo un resultado que caba esperar a la vista del histograma de los residuos
que obtuvimos anteriormente.

Homocedasticidad

El supuesto de homocedasticidad, o igualdad de varianzas, implica que los residuos no presentan ningn
patrn sistemtico respecto de las predicciones, sino que deben ser uniformes en todo el rango de los valores
pronosticados. Este supuesto lo podemos comprobar en la nube de puntos del diagrama de dispersin entre los
errores y las puntuaciones pronosticadas, ambas variables tipificadas, que debe presentar la apariencia de
aleatoriedad en una banda paralela al eje de abscisas. Una apertura en abanico de la nube suele ser indicativa
del incumplimiento de homocedasticidad.

- 266 - Anlisis de datos.

GRFICO PARA COMPROBAR LA HOMOCEDASTICIDAD

RESIDUOS TIPIFICADOS (Z)


Y PRONSTICOS TIPIFICADOS (ZY)
Yi'

Sujeto

Z i

Yi'

1
2
3
4
5
6
7
8
9
10

135,89
135,89
144,46
146,36
146,36
147,32
120,67
128,28
143,51
143,51

0,37
0,72
-0,58
-0,39
1,22
-1,10
-0,60
-0,29
0,76
1,29

4,10
8,10
-6,46
-4,36
13,63
-12,32
-6,67
-3,28
8,48
14,48

-0,92
-0,92
-0,31
-0,18
-0,18
-0,11
-1,99
-1,46
-0,38
-0,38

76

160,64

0,83

9,35

0,82

0,00

0,00

0,00

Mn.

Mx.

Media

D.T.

120,67

171,11

148,97

14,16

ZY

-1,91

1,56

0,00

1,00

-26,85

23,40

0,00

11,21

-2,40

2,09

0,00

1,00

Z i =

i
S

Yi'

Yi' Y'
SY'

En la nube de puntos no aparece muy clara la homocedasticidad. Aunque no se observa la apertura en abanico
que hemos comentado, tambin es cierto que aparece un rea abajo a la izquierda donde hay una ausencia de
puntuaciones, que podra estar provocando heterocedasticidad, as que debemos estar alerta con este supuesto.
Entre las distintas posibilidades para corregir la heterocedasticidad, se puede probar una transformacin de la
variable mediante la raz cuadrada, logartmica o la inversa. Si es provocada por las puntuaciones de algn
sujeto, eliminarlo para mejorar el modelo es una cuestin de la que ya hemos hablado y volveremos a hacerlo
en el siguiente punto.

Otros problemas: casos atpicos y casos de influencia

En el ajuste de la recta de regresin a una muestra de datos, observar el diagrama de dispersin es muy
importante. Adems de comprobar la linealidad entre las variables, nos sirve para detectar casos atpicos,
datos que se separan claramente de la nube de puntos. Es importante localizarlos porque van a afectar
directamente a los coeficientes de regresin (como al coeficiente de determinacin), que van a resultar muy
inestables, es decir, van a ser muy diferentes de una muestra a otra. Veamos nuestro diagrama de dispersin:

Evaluacin del modelo lineal simple. - 267 -

DETECCIN DE CASOS EXTREMOS

En el grfico puede ser que no observemos puntuacin extrema alguna con lo que, en principio, no tendramos
por qu preocuparnos.
Tambin podemos recurrir al grfico de los valores pronosticados frente a los residuos tipificados para tener
otro elemento ms de juicio:

- 268 - Anlisis de datos.

DETECCIN DE CASOS EXTREMOS

En la figura hemos marcado la puntuacin ms alejada de la distribucin, que corresponde al paciente nmero
23. Por si tenemos alguna duda de su alejamiento, podemos obtener los parmetros de la recta y el coeficiente
de determinacin con la muestra excepto con las puntuaciones de este sujeto. Veamos con qu nos encontramos:
ANLISIS DE REGRESIN ELIMINANDO EL CASO 23
R

R cuadrado
,788

,621

b0

b1
105,837

Durbin-Watson
0,931

2,360

Evaluacin del modelo lineal simple. - 269 -

No parece que la combinacin de puntuaciones de este sujeto altere los resultados del anlisis, puesto que las
diferencias con o sin l son despreciables en el ajuste del modelo, en sus parmetros y en la grfica de los
residuos. Ahora bien, si hubiese resultado que este paciente era un caso extremo, qu habramos hecho?, lo
habramos eliminado? Recordemos todo lo dicho en el tema 5 sobre las puntuaciones atpicas. Por otro lado, la
prctica habitual de eliminarlo de los anlisis podra habernos conducido a la aparicin de otros casos extremos
y, entonces, qu deberamos hacer, eliminarlos tambin? Podramos entrar en un juego de eliminacin de
sujetos y reestimacin de parmetros que podra prolongarse hasta la extincin de la muestra y, finalmente,
qu diramos en nuestro informe, que todos los pacientes estudiados eran casos extremos?
Por otra parte, existe una clase de puntuaciones que, sin ser necesariamente extremas, s ejercen un efecto
importante en el clculo de la estimacin de la ecuacin y del ajuste. Suelen denominarse puntos de influencia y
conviene conocerlos, aunque no tienen por qu ser perjudiciales, simplemente ocurre que su repercusin es
mayor que el de otras puntuaciones. A pesar de esta aclaracin, su desarrollo excede el nivel de lo expuesto
hasta ahora en este libro.
Tambin cabe sealar que el uso de la ecuacin de regresin con una finalidad predictiva puede ser de gran
utilidad. En este sentido, conviene aclarar que la recta que hemos obtenido se ha ajustado a partir de un rango
concreto de valores de X observados en la muestra. Salirnos de los lmites de X podra ser un descuido fatal, ya
que, fuera de ese rango, la relacin entre X e Y bien podra ser muy diferente, tal como se muestra en la grfica
siguiente:

- 270 - Anlisis de datos.

RANGO DE VALORES DE X VLIDOS PARA REALIZAR PREDICCIONES

Como ltima reflexin sobre los supuestos para la construccin de la ecuacin de regresin, debemos reiterar
que el hecho de que los datos no se ajusten al modelo, en absoluto significa que no sean buenos datos;
simplemente sucede que no podemos aplicar el modelo lineal porque es l el que no se ajusta a la muestra. As
pues, a la hora de realizar transformaciones no lleguemos a un acoso de la muestra hasta conseguir un modelo
lineal que, en ocasiones, no sabremos ni interpretarlo. No es mejor buscar el modelo ms adecuado a ella y no
al revs?

Fiabilidad del modelo


En el apartado anterior hemos presentado las condiciones que deben cumplir los datos de la muestra para la
creacin de un modelo lineal. Sin embargo, pese a haberlas expuesto despus del mtodo para la construccin
de la ecuacin, debemos tener claro que se trata de un paso previo y que debemos garantizar la legitimidad del
modelo propuesto para la explicacin y la prediccin de un fenmeno (en este sentido, insistimos al lector en la
desconfianza que debe profesar ante aquellos trabajos cientficos publicados en los que nada se expone acerca

Evaluacin del modelo lineal simple. - 271 -

de los supuestos del modelo lineal presentado, que tanto abundan en la literatura). Ahora bien, el trabajo no ha
terminado. An nos quedan dos pasos ms: el estudio de la fiabilidad y de la validez.
En relacin con la fiabilidad del modelo, debemos asegurarnos, en primer lugar, que nos va a proporcionar
estimaciones precisas, para lo cual, el error de estimacin debe ser lo ms pequeo posible. Como hemos
estudiado en pginas precedentes, no tenemos ms que acudir al coeficiente de determinacin, o al de
alienacin, para saber si el modelo se ajusta bien o no a los datos. ste es un primer paso y nicamente la
cuanta razonablemente buena de la magnitud del coeficiente de determinacin nos permitir seguir adelante
con el anlisis de fiabilidad. Si es as, debemos comprobar, adems, que el modelo propuesto no va a variar de
una muestra a otra porque, en caso contrario, no tendramos ninguna confiabilidad en sus predicciones.
La mejor tctica para analizar la fiabilidad del modelo es construirlo en otra muestra, perteneciente a la misma
poblacin, en la que debemos obtener similares coeficientes de determinacin. El mtodo se conoce como
validacin cruzada, y se procede de la siguiente manera:
1. Calculamos el coeficiente de determinacin en nuestra muestra, que llamamos muestra de trabajo, R2T .
2. A continuacin, aplicamos la ecuacin de regresin a otra muestra, llamada muestra de validacin o
muestra de prueba, en la que hemos medido la variable X y calculamos las estimaciones en la variable
dependiente, esto es, Yi' .
3. Obtenemos el coeficiente de determinacin, R2P , entre las estimaciones anteriores y nuestra variable
dependiente Y.
4. Por ltimo, calculamos la diferencia R2T R2P , que se conoce como coeficiente de correlacin de validacin
cruzada o ndice de reduccin en la validacin cruzada. Aunque no hay reglas firmes al respecto, suele
aceptarse que un valor inferior a 0,1 indica un modelo muy fiable, mientras que un resultado superior a
0,90 nos revelara un modelo muy poco fiable.
Algunos manuales de anlisis de datos proponen mtodos para el estudio de fiabilidad, derivados de la
validacin cruzada, a partir de la misma muestra donde se ha obtenido la ecuacin de regresin. Vamos a
describir sucintamente en qu consisten algunos de ellos, ya que en algunos casos requieren un nivel un poco
ms avanzado del que ahora disponemos.
Una posibilidad, la ms sencilla y siempre y cuando la muestra sea grande, es dividirla aleatoriamente en dos
mitades y aplicar el procedimiento anterior de validacin cruzada. Otra opcin es extraer un sujeto de la
muestra, calcular el coeficiente de alienacin sin l, repetir el proceso con cada una de las observaciones
(Jackknife) y promediar los coeficientes obtenidos en todos los pasos para estimar el poder predictivo del
modelo original. Tambin por pasos, podemos dividir la muestra en k partes iguales; en cada paso, una acta
como muestra de prueba y las restantes como muestra de trabajo; se calcula el coeficiente de correlacin de

- 272 - Anlisis de datos.

El Jackknife y el
Bootstrap son tcnicas de
simulacin de datos que
utilizan una y otra vez las
observaciones originales
para constituir un universo,
del cual extraer repetidas
muestras (re-muestreo). El
primero, que se traduce del
ingls como navaja, va
recortando la muestra,
quitando una observacin
cada vez. El segundo,
proviene de la frase hecha
inglesa pull up by your own
bootstraps, que significa
confiar en tus propios
recursos. La gran potencia
computacional requerida por
estas tcnicas ha llevado a
denominarlas tcnicas de
computacin intensiva, por
lo que su utilizacin prctica
no ha sido posible hasta el
desarrollo informtico
necesario alcanzado a
finales del siglo pasado.

validacin cruzada en cada momento y se escoge el modelo que tiene el error de validacin cruzada ms
pequeo. Un ltimo mtodo que comentamos parte de la muestra original de la que se extraen muestras con
repeticin (Bootstrap) y en cada una de ellas se construye el modelo de regresin, utilizando la muestra original
como muestra de prueba, y se calcula el error de prediccin. El promedio de todos esos errores nos dar una
estimacin del poder predictivo del modelo construido originalmente.
En cualquier caso, si bien los mtodos anteriores pueden resolver el estudio de la fiabilidad debemos optar, en
primer lugar, por la recogida de datos en otra muestra que acte de prueba para el anlisis, por no decir en
varias, que sera lo ideal para la generalizacin de resultados. Slo cuando esto no sea practicable, recurriremos
a alguna de las tcnicas mencionadas. Pensemos que recortar la muestra o dividirla en partes puede dar lugar
al clculo del coeficiente de determinacin (o del error de prediccin) en submuestras demasiado pequeas, con
todos los problemas que ello puede conllevar.
Para nuestro ejemplo, de haber resultado un modelo adecuado, lo ideal para el estudio de la fiabilidad sera
utilizar como muestra de prueba otros sujetos distintos, aunque de la misma poblacin. Como ejemplo de
aplicacin del mtodo de dos mitades, hemos dividido de forma aleatoria nuestra muestra, con 38 sujetos cada
una, resultando R2T = 0,288 y una ecuacin igual a Y = 112,507 + 0,687 X. Al aplicarla en la segunda mitad,
R2P = 0,263 . Por tanto, R 2T R 2P = 0,025 nos hablara de un modelo fiable. Sin embargo, ya vimos que los datos no

cumplan con los requisitos necesarios para la aplicacin del modelo lineal, as que lo que acabamos de realizar
es nicamente un ejemplo de estudio de fiabilidad con los mismos datos. La investigacin no siempre da como
resultado los frutos que deseamos.

Validez del modelo


En relacin con la validez del modelo, segn se desprende de los pasos para generarlo vistos en el apartado 8.1
del tema anterior, nos encontraramos en la penltima fase, si todas las precedentes han ido bien.

Ley de Bates sobre

investigacin: Investigar es entrar


en un callejn para ver si tiene
salida.
Arthur Bloch, Escritor

La necesidad de validar un modelo es una consecuencia de su propia creacin porque se trabaja con
suposiciones que, en el mejor de los casos, son slo vagamente ciertas como, por ejemplo, cuando usamos
funciones lineales, que no reflejan la verdadera relacin no-lineal entre las variables, por ser ms fciles de
tratar estadsticamente. Otro ejemplo lo encontramos en la presuncin, muy habitual, de que los parmetros
del modelo no varan con el tiempo, lo que permite enormes simplificaciones en la modelizacin. Sin embargo, si
bien esta suposicin sera aceptable en Fsica, puede llevar a grandes errores en Ciencias Sociales y de la
Salud, donde los fenmenos son muchas veces estacionales. Tambin podemos llegar a un modelo errneo,
simplemente, por las propias variables utilizadas, que no son las adecuadas. Por ejemplo, podramos construir
una ecuacin muy fiable, precisa y estable para explicar la ansiedad y, sin embargo, un anlisis de su validez
podra revelarnos que, en realidad, no mide ansiedad, sino depresin, o bien que hemos dejado de lado otras

Evaluacin del modelo lineal simple. - 273 -

ms importantes, o, incluso que es la existencia de otras ocultas las que explican la ansiedad y no las que
hemos utilizado.
El puente entre la realidad y el modelo lo proporcionan los datos y la forma de validarlo consiste,
fundamentalmente, en suponer cmo se comportarn en determinadas circunstancias las variables
contempladas en l, procedimiento que denominamos establecimiento de hiptesis. A continuacin, ya sea
provocando experimentalmente la situacin de inters, ya sea esperando que se produzca, contrastamos la
hiptesis propuesta con lo realmente sucedido, es decir, comparamos los resultados que predice el modelo con
los resultados conocidos del mundo real. A esta forma de proceder la llamamos contraste de hiptesis y sobre
ello ya hemos hablado en temas anteriores. Es evidente que las discrepancias que encontremos afectarn al
modelo, en el sentido de su validacin (aunque debemos tener claro que la realidad, debido a su extrema
complejidad, nunca coincidir completamente con los resultados predichos por un modelo, de forma que lo que
se analiza es cmo sera el fenmeno si se dieran unas circunstancias y no intervinieran otros factores).
En nuestro ejemplo sobre el bienestar psicolgico, teniendo en consideracin que es una primera aproximacin
a la modelizacin de ese fenmeno (slo hemos tratado una variable independiente) y de haber sido admitido,
deberamos probar hiptesis de diferente ndole. Por ejemplo, que un modelo lineal es ms adecuado que otro
no lineal; que una variable predictora podra ser suficiente atendiendo al principio de parsimonia; que
realmente el bienestar psicolgico puede ser explicado por la terapia y no por una evolucin natural del
paciente con el paso del tiempo; que la terapia realmente mide bienestar y no, por ejemplo, autoeficacia en el
manejo de sntomas, etc.

Se imagina el lector un modelo


matemtico fiable y preciso del
modelo geocntrico del astrnomo
egipcio Ptolomeo? En su obra ms
importante, La recopilacin
matemtica, ms conocida como
Almagesto (traduccin al latn del
rabe al-Majisti, obra magna),
plante una teora geomtrica para
explicar matemticamente los
movimientos y posiciones
aparentes de los planetas, del sol y
de la luna contra un fondo de
estrellas inmviles. As, la Tierra
estaba fija y a su alrededor giraba
cada da la esfera de las estrellas
fijas, llevando consigo las esferas
del sol, de la luna y de los planetas,
usando combinaciones de
movimientos circulares llamados
epiciclos. Ptolomeo cre nuevas
demostraciones geomtricas y
teoremas para que el modelo
funcionara desde el punto de vista
matemtico. Aunque
posteriormente se demostr su
incorreccin, fue admitido durante
catorce siglos. Pues bien, por
mucho que hubiese llegado hasta
nuestros das su modelo
matemtico geocntrico y, a tenor
de los avances computacionales se
demostrara su fiabilidad, nunca
sera vlido.

Muestreo
Este tema lo dedicamos a introducir algunos conceptos fundamentales sobre las tcnicas de muestreo y de
obtencin del tamao de la muestra para llevar a cabo una investigacin. Ciertamente, cabe afirmar que ste, y
no otro, debera ser el primero de los captulos ya que, al fin y al cabo, cmo vamos a comenzar una
investigacin con una muestra si desconocemos el procedimiento para escogerla y la cantidad de sujetos que
van a formar parte del estudio. Vistas as las cosas, toda la estadstica descriptiva y la inferencia que hemos
estudiado deberan aparecer tras este tema. Sin embargo, como pronto tendremos ocasin de comprobar, los
conceptos de probabilidad estudiados son absolutamente necesarios para entender su alcance e importancia en
el muestreo, de ah que hayamos reservado para el final del libro.
Antes de presentar los distintos procedimientos de muestreo, vamos a adelantar que la piedra angular en este
tema es el azar, que da lugar a muestras probabilsticas, a partir de las cuales se inferirn valores desconocidos
de la poblacin. Si la muestra se extrae al azar, y por lo tanto es aleatoria, podremos tener cierta confianza en
que sus caractersticas tienden a parecerse, en mayor o menor medida, a todo el conjunto de la poblacin.
Adems, el muestreo probabilstico es la base de los anlisis formales de inferencia estadstica que hemos visto
hasta el momento (recordemos aquello de se extrae una muestra aleatoria de la poblacin que tantas veces
hemos referido). Otros procedimientos de muestreo no probabilstico que tambin mostraremos, aunque se
utilizan en la investigacin, slo se parecen muy superficialmente al probabilstico (aunque a veces pasan por
l) y carecen de la ventaja fundamental de ste, a saber, la posibilidad de calcular el error muestral. Adems,
las muestras obtenidas pueden contener tal cantidad de sesgos que las conclusiones a las que con ellas
lleguemos puede resultar un autntico desastre. Por lo tanto, aun constituyendo el muestreo el ltimo tema que
vamos a ver, de su exquisito cuidado derivar el acierto de nuestra inferencia estadstica.
Vamos a comenzar planteando el siguiente ejemplo. Deseamos averiguar el nivel de adaptacin de los
estudiantes extranjeros que cursan bachiller en nuestro pas. Para ello, lo primero que vamos a hacer es
localizar el censo para saber con qu tamao poblacional contamos. Si consultamos la los datos de la pgina
Web del Instituto Nacional de Estadstica (INE, 2011), encontramos que un total de 33.493 chicos y chicas
estudiaron bachillerato en 2008-09. Los resultados de la bsqueda se muestran en la siguiente tabla:

El sabio no se sienta para


lamentarse, sino que se pone
alegremente a su tarea de reparar
el dao hecho.
William Shakespeare
Escritor (1564-1616)

- 450 - Anlisis de datos.

ALUMNADO EXTRANJERO EN EL CURSO 2008-09

El reparto de esta poblacin, segn su procedencia y sexo, era el siguiente:


ALUMNADO EXTRANJERO EN EL CURSO 2008-09

Muestreo. - 451 -

Como sucede en este ejemplo, en la mayora de las ocasiones, la poblacin objeto de estudio es tan grande que
ser imposible, en la prctica, acceder a todos los sujetos. Por consiguiente, deberemos seleccionar a un grupo
ms pequeo que contenga todas las propiedades de la distribucin, de la heterogeneidad, etc. de la poblacin.
Una muestra que rena las caractersticas ms adecuadas deber cumplir con las siguientes condiciones (R.
Sierra, 2008):
1. Debe ser parte del universo o poblacin, no su totalidad.
2. Su tamao ha ser proporcional al tamao de la poblacin, de otro modo, su utilidad prctica no sera
admisible.
3. No debe presentar anomalas, porque resultara viciada.
4. Tiene que ser un fiel reflejo de la poblacin. Por ejemplo, si existen divisiones o sectores diferenciados
en la poblacin, la muestra deber abarcarlos y en la misma proporcin que en la poblacin.
Una muestra as elegida nos permitir la generalizacin de los resultados de nuestras investigaciones. Las
tcnicas de muestreo, bien aplicadas, nos brindarn la posibilidad de buenas selecciones, con las ventajas
adicionales de una reduccin de costes, de tiempo y de mejor accesibilidad. Como sealan M. Laurete y
A.M. Mayoral (2001), su mayor vala es la posibilidad de cuantificar la confianza o certeza que tenemos al
describir el fenmeno de inters de la poblacin a partir de la muestra. Sea el que fuere el mtodo de muestreo
elegido por el investigador, la muestra resultante deber ser representativa de la poblacin.
Casi todos los manuales de anlisis de datos clasifican los diferentes tipos de muestreo en dos grupos,
probabilsticos y no probabilsticos. La diferencia fundamental entre unos y otros estriba en el principio de
equiprobabilidad. De este modo, en el muestreo probabilstico, todos los sujetos de una poblacin N tienen la
misma probabilidad de ser elegidos para formar parte de la muestra de tamao n. Esto no ocurre en el
muestreo no probabilstico, donde la muestra seleccionada se obtiene por conveniencia o accesibilidad. Cabe
decir que la consecuencia de utilizar un mtodo u otro es inmediata, como imaginar el lector, en la
generalizacin de los resultados. En los siguientes apartados vamos a presentar los diferentes procedimientos
para obtener una muestra, siguiendo la clasificacin mencionada.

Mtodos probabilsticos de seleccin de la muestra


Bajo este epgrafe, se enmarcan los mtodos caracterizados por que todos los sujetos de la poblacin de inters
tienen la misma probabilidad de ser escogidos, por lo que nos aseguran la representatividad de la muestra
elegida y, en consecuencia, son los ms recomendables. A la muestra as obtenida la llamaremos muestra
aleatoria. Ahora bien, la forma de seleccionar a los sujetos puede ser diferente en funcin de las caractersticas
de la poblacin que queremos estudiar, o bien, segn la viabilidad para llevarla a cabo. Vamos a ver a

- 452 - Anlisis de datos.

continuacin los ms utilizados. Aunque tienen sus propias peculiaridades, en ocasiones, se pueden
intercambiar o, incluso, combinar.

Muestreo aleatorio simple o irrestrictamente aleatorio

Se entiende por censo la


enumeracin completa de
los individuos que forman la
poblacin sometida a
estudio, detallados y
reconocidos por sus
caractersticas. El fin
principal de las
investigaciones basadas en
censos suele ser el
meramente descriptivo. (M.
Landete y M.A. Martnez,
2001; pg. 35)

Se trata del procedimiento ms sencillo. Consiste en seleccionar una muestra de tamao n de una poblacin de
tamao N, de manera que todos los sujetos tengan la misma probabilidad de ser elegidos. La muestra
resultante recibe el nombre muestra aleatoria simple. Veamos con un ejemplo cmo obtenerla.
Queremos averiguar si los mdicos de un hospital poseen algn tipo de formacin psicoteraputica certificada
complementaria a su titulacin oficial. Al acudir al censo del centro encontramos 631 mdicos registrados. Dado
que no vamos a entrevistar a todos ellos, decidimos seleccionar una muestra aleatoria de 100 mdicos. Para
ello, asignamos un nmero, del 1 al 631, a cada uno de ellos; introducimos en una urna 631 bolas, tambin
numeradas, y se extraen al azar 100 de ellas. Los nmeros de esas bolas se corresponden con los mdicos que
debemos seleccionar.
Si queremos evitar el uso de las bolas, no siempre disponibles y de cuyas caractersticas (peso, rozamiento, etc.)
depende la adecuacin del procedimiento, podemos acudir a la tabla de nmeros aleatorios. Se trata de una
tabla con un conjunto de dgitos del 0 al 9 que no muestran una tendencia en su aparicin, lo que asegura que
la probabilidad de que aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad de que
ocurra cualquier otro. Los nmeros se pueden leer de uno en uno, en grupos de dos, tres, cuatro, etc. dgitos; se
puede empezar en cualquier lugar y continuar en filas, en columnas, diagonalmente, etc., siendo el resultado la
obtencin de nmeros aleatorios. De este modo, las combinaciones de dgitos tienen la misma probabilidad de
ocurrir que las otras combinaciones de un nmero igual de dgitos.
EJEMPLO DE TABLA DE NMEROS ALEATORIOS
9469960530065938484430920199507368844804841990060698988387673511403939568
1214257791187113856440355252065841181918542313340633396153447124597459208
9472973684120022943510984165069238518680855438661686648568774340590536486
5706842608629987111811548918339486630565309291983094510520900386680423119
3122069167807158220569116503836967674354492782501506725781021430984732088
8592088233381444584660890289792454024048786720774404546089526857212148718
9526564138578703041871806256918322186530201764546317780787643693353144067
4223857537807468021732806631700464234805899917410093837296170974604534117
4125822300693605421011950056083664094606217507554020221539053872454790352
9596424777564239517450845734699401835076837342436606324258251785186246731
5172525379232197174614001050200846013830207317647069859980395108069852817
0341529470239486971584467386025925083874233822642593959420403346691486148
1493171209502153848258698235263707915650215122248448847422388314629233572
9651912423930936409988326134353862266387906052702970084992684455749447881

Muestreo. - 453 -

Para nuestro ejemplo, lo primero que debemos hacer es obtener el listado de mdicos del hospital, a cada uno de
los cuales, le hemos asignado un nmero (igual que en el procedimiento de las bolas). Acudimos a la tabla de
nmeros aleatorios y escogemos una fila al azar, la quinta por ejemplo. Debemos utilizar grupos de 3 cifras, ya
que tenemos a nuestros mdicos numerados del 001 al 631 y, de ese modo, todos tienen la misma probabilidad
de ser elegidos. Si obtenemos un nmero mayor que 631, pasaremos al siguiente y, si alguno se repite, lo
excluimos tambin:
312206916780715822056911650383696767435449278250150672578
El primer nmero y el segundo los buscamos en el censo y vemos a qu mdicos corresponden, los cuales,
pasarn a formar parte de la muestra; el tercero, cuarto, quinto y sexto los desechamos por ser mayores que
631; el sptimo lo incluimos, por lo que debemos localizar al mdico del censo con tal cifra, y as sucesivamente
hasta completar los 100 que necesitamos para la muestra.
En este punto conviene aclarar la diferencia entre muestreo aleatorio con reposicin y sin reposicin. Nuestro
ejemplo, efectivamente, corresponde al segundo tipo, sin reposicin, porque no es nuestra intencin entrevistar
a un mdico ms de una vez. Es por esta razn por la que tambin lo denominamos irrestrictamente aleatorio.
Bajo la primera clasificacin, con reposicin, los elementos de la poblacin elegidos vuelven a pasar al censo, de
manera que pueden aparecer en la muestra ms de una vez.
La ventaja fundamental del muestreo aleatorio simple es su sencillez de aplicacin. Sin embargo, necesitamos
disponer del censo de la poblacin y esto no siempre es posible. Adems, aun cuando contsemos con l, si la
poblacin de partida es muy grande, localizar a los sujetos que van a formar parte de la muestra podra ser una
tarea imposible o muy costosa. Por ejemplo, si en lugar de seleccionar a los mdicos de un hospital, debiramos
hacerlo sobre los mdicos de un pas, tendramos muchsimas dificultades: realizar un listado completo a partir
de millones de personas, seleccionar a los sujetos entre tamaos de ficheros muy grandes, localizarlos y
proceder al trabajo de campo, es decir, a la recogida de informacin. Los costes y el tiempo empleado en la
obtencin de la muestra podran hacer que la investigacin fuese inviable.

Muestreo aleatorio sistemtico


Una manera de solventar las dificultades anteriores es recurrir al muestreo aleatorio sistemtico, que no es ms
que una variacin del anterior. Tambin partimos de un censo, pero la diferencia principal estriba en extraer al
azar un solo elemento, en lugar de n, al que llamamos i. Los dems elementos sern los que ocupen las
posiciones:
i, i + k, i + 2k, , i + (n 1)k

Hay muchos mecanismos para


obtener nmeros aleatorios,
como por ejemplo, a partir de
situaciones reales (la lista de los
nmeros de Lotera Nacional
premiados a lo largo de su
historia), de mtodos manuales
(lanzamiento de monedas, de
dados, dispositivos mecnicos,
electrnicos), de mtodos de
computacin analgica (el
comportamiento de una corriente
elctrica), de tablas de bibliotecas
(nmeros aleatorios publicados).
Sea cual fuere el mtodo, se
caracterizan por mostrar una
verdadera aleatoriedad en la
realizacin de experimentos, ya
que cumplen dos condiciones:
1. No se puede predecir el
resultado de un ensayo.
2. No es posible obtener dos
veces de forma voluntaria la
misma secuencia de
resultados, aun partiendo de
idnticas condiciones iniciales.
Por su parte, los nmeros
pseudo-aleatorios son
generados por medio de una
funcin matemtica determinista
(a partir de un valor inicial se
aplica la funcin), por lo que slo
manifiestan un comportamiento
similar a los aleatorios. Aunque
no cumplen con las condiciones
anteriores, son sometidos a
diversos tests para comprobar
hasta qu punto se asemejan a
una sucesin aleatoria. Se recurre
a ellos porque son ms rpidos
de generar.
(C. San Luis y A. Bruno, 1998 y
A.M. Mancilla, 2000)

- 454 - Anlisis de datos.

En la expresin anterior, k es el coeficiente de elevacin e indica que los individuos se toman de k en k. Se


obtiene mediante:
k=

N
n

donde N es el tamao de la poblacin y n el tamao de la muestra que necesitamos.


En el ejemplo sobre los mdicos con formacin psicoteraputica certificada, si la poblacin es de 160.000 y la
muestra que necesitamos es de 1.000 mdicos, tenemos que k es igual a:
k=

160000
= 160
1000

El primer nmero elegido al azar, y no superior a 160, podra ser, por ejemplo, i = 90. Por tanto, la seleccin
sera:
90, 250, 410,, 159930
El principal inconveniente de este tipo de muestreo es la periodicidad en la poblacin. En efecto, si el censo est
ordenado conforme a algn criterio (por ejemplo, el sexo), existe el riesgo de introducir una homogeneidad en la
muestra que en la poblacin no existe (por ejemplo, que extraigamos siempre hombres, o mujeres), dado que k
es una constante. Por esta razn, hay que estudiar previamente el listado original y, si es necesario, romper la
disposicin de los sujetos para luego volver a ordenarlos.
En la siguiente figura podemos observar la diferencia entre una situacin con y sin periodicidad. En la
segunda, el valor de k obtenido siempre nos lleva a elegir a sujetos que comparten una misma caracterstica,
por lo que la muestra resultante estar sesgada. Ser muy importante revisar la poblacin de partida y
disponer los elementos de tal forma que se evite este fenmeno.

Muestreo. - 455 -

SITUACIONES DIFERENTES EN EL MUESTREO ALEATORIO SISTEMTICO

Ausencia de periodicidad

Presencia de periodicidad

En definitiva, si bien este tipo de muestreo tiene como principal ventaja su sencillez, tengamos en cuenta que
sta puede convertirse en su principal enemigo. Veamos a continuacin otro procedimiento aleatorio de
extraccin de sujetos de la poblacin.

Muestreo aleatorio estratificado


Decidir qu sujetos van a participar en la muestra no es tarea fcil cuando no estn bien mezclados en la
poblacin, sino que se encuentran agrupados por determinadas caractersticas, es decir, en estratos, como por
ejemplo, la profesin, el lugar de residencia, el sexo, el estado civil, etc. El objetivo del muestreo aleatorio
estratificado es que los estratos de la poblacin estn representados adecuadamente en la muestra. Una vez
estn determinados, se puede aplicar un muestreo aleatorio simple dentro de cada uno de ellos.
Un ejemplo de muestreo aleatorio estratificado lo encontramos en la distribucin de hombres y mujeres en el
hospital: si los mdicos varones exceden en gran nmero al de las mujeres, digamos en una proporcin 10:4,
este muestreo reflejar el mismo equilibrio en la muestra de 10:4.
La siguiente figura muestra la diferencia entre un muestreo aleatorio simple y un muestreo aleatorio
estratificado.

- 456 - Anlisis de datos.

MUESTREOS ALEATORIOS SIMPLE Y ESTRATIFICADO

Muestreo aleatorio simple

Muestreo aleatorio estratificado

Los estratos de la poblacin pueden representarse en sus correspondientes muestrales de diferentes maneras:

Por afijacin proporcional: La distribucin se realiza de acuerdo con el tamao de la poblacin en cada
estrato. En efecto, si partimos de una poblacin N, con estratos de tamao Ni, una vez determinado el
tamao de la muestra global n, cada submuestra ni ser igual a:
ni = n

Ni
N

Por afijacin ptima: Aqu se tiene en cuenta la variabilidad de cada estrato poblacional, por lo que los
tamaos de las submuestras responden tambin a la desviacin tpica de los estratos de la poblacin.
As pues, los tamaos de las submuestras, ni, vendrn dados por:
ni =

n N i i
N i i

En este caso, suele suceder que se desconoce i, por lo que habr que recurrir a estudios previos o
realizar un trabajo piloto para estimar las varianzas de los estratos.
Las anteriores no son las nicas formas de repartir la muestra. El investigador puede elegir la particin como
desee, siempre y cuando mantenga la representatividad de la poblacin y tenga en cuenta, adems, que puede

Muestreo. - 457 -

perder la precisin para un mismo tamao muestral global si no utiliza la afijacin proporcional u ptima (M.
Landete y A.M. Mayoral, 2001).

Muestreo aleatorio por conglomerados


En los mtodos anteriores hemos seleccionado directamente a los sujetos de la poblacin. A los sujetos as
escogidos los llamamos unidades muestrales. Sin embargo, en el muestreo aleatorio por conglomerados, la
unidad muestral la constituyen grupos de sujetos, que reciben el nombre de conglomerado. Siguiendo con el
ejemplo del hospital, cada unidad hospitalaria (los servicios de digestivo, de psiquiatra, de reumatologa, etc.)
constituira un grupo y, con este mtodo, elegiramos aleatoriamente un nmero de unidades (conglomerados) e
investigaramos a todos los mdicos pertenecientes a las unidades seleccionadas.
La ventaja principal de este mtodo radica en que no necesitamos el listado completo de toda la poblacin. En
efecto, como slo precisamos muestrear los conglomerados y estudiar a los sujetos que los conforman, no se
requiere el resto de la poblacin. Por esta razn, adems, otro de los beneficios frente a otro tipo de muestreos
es la reduccin de costes y tiempo de realizacin, ya que las muestras estn ms concentradas.
Grficamente, el muestreo aleatorio por conglomerados quedara representado con la siguiente figura:
MUESTREO ALEATORIO POR CONGLOMERADOS

Normalmente, los conglomerados responden a distribuciones naturales, como sucede en las familias, que viven
en casas, las cuales se agrupan en barrios y estos en municipios, que pertenecen a provincias, etc. Cualquiera
de estos grupos puede tomarse como unidades de muestreo. De hecho, como se utilizan con frecuencia con reas
geogrficas, tambin suele llamarse muestreo por reas (J. Rodrguez, 2001). Sin embargo, a veces sucede que

- 458 - Anlisis de datos.

los conglomerados son tan grandes que no puede investigarse a todos los sujetos que los conforman. En estos
casos, deberemos emplear un submuestreo, por lo que hablaremos de muestreo polietpico o multietpico.

Muestreo aleatorio polietpico o multietpico


Tal y como acabamos de decir, si en los conglomerados tenemos un nmero elevado de sujetos, procedemos a
otro muestreo dentro de cada conglomerado, es decir, nos hallaramos ante una segunda etapa de muestreo.
Incluso, en ocasiones, debemos realizar varias etapas, de ah el trmino muestreo aleatorio polietpico o
multietpico.
En cada una de las etapas podemos utilizar un muestreo aleatorio simple, estratificado, sistemtico, etc., con la
ventaja de que el listado de la poblacin se va reduciendo a medida que avanzamos en el proceso, necesitando
nicamente a los integrantes de la ltima etapa.
Grficamente, el proceso de dos etapas lo mostramos a continuacin:
MUESTREO ALEATORIO POLIETPICO O MULTIETPICO

Todos los procedimientos de muestreo anteriores, denominados aleatorios, al mismo tiempo que proporcionan
una muestra, permiten al investigador conocer la probabilidad de error que con ella cometer en su estudio (es
decir, su grado de representatividad), ya que la determinacin de su tamao se fundamenta en la teora de la

Muestreo. - 459 -

probabilidad, como ms adelante veremos. No siempre es posible recurrir a mtodos aleatorios, por lo que
utilizaremos otros. En el siguiente apartado presentamos algunos.

Mtodos no probabilsticos de seleccin de la muestra


Este tipo de muestreo no permite una inferencia estadstica rigurosa, con medicin del error y de intervalos de
confianza, ya que no sabemos si la muestra obtenida es representativa de la poblacin (no todos los sujetos
tienen la misma probabilidad de ser escogidos). Sin embargo, en ocasiones, cuando estamos llevando a cabo un
estudio exploratorio en sus primeras fases, y la poblacin es muy homognea, si el coste es muy elevado,
podemos recurrir a l y obtener algunos resultados interesantes que podran dirigir los siguientes pasos de la
investigacin. Por supuesto, hay que tener en cuenta que la generalizacin se ve totalmente reducida, ya que
este muestreo slo nos permite describir a la muestra y realizar inferencias nicamente lgicas. Dicho con
palabras ms prosaicas, debemos utilizarlo, exclusivamente, para ver por dnde van los tiros.

Muestreo por cuotas o accidental


Mediante este procedimiento se determinan unas cuotas a partir de las cuales se seleccionan a los sujetos. Las
cuotas suelen partir de un nmero fijado de sujetos con determinadas caractersticas, por ejemplo, 100 mdicos
de familia, de entre 25 y 45 aos y con residencia en una comunidad concreta. A partir de aqu, se escogen los
primeros que cumplan con las especificaciones y se les entrevista.
Este mtodo se utiliza mucho en el campo de las encuestas de opinin porque aligera y facilita la recogida de
datos. Puede dar buenos resultados, casi cercanos a los muestreos probabilsticos, siempre que el diseo
muestral sea riguroso en todo momento y no se practiquen sustituciones (J. Rodrguez, 2001). Sin embargo, al
no ser aleatorio, no se deber recurrir a l en el caso de la toma de decisiones importantes posteriores a la
investigacin.

Muestreo intencional u opintico


El investigador selecciona la muestra, procurando que sea representativa de la poblacin, en funcin de su
criterio, intencin u opinin. Es muy frecuente utilizar este procedimiento en investigaciones en las que las
muestras estn compuestas por sujetos a los que se tiene fcil acceso. Vase el caso, por ejemplo, de profesores
investigadores que recogen los datos de los alumnos de universidad o institutos. Aqu, aun cuando la asignacin
a grupos experimentales y controles en la investigacin sea de forma aleatoria, esto no significa que la muestra
lo sea. Este hecho es una cuestin de extrema importancia cuando se pretende generalizar comportamientos

- 460 - Anlisis de datos.

estudiados a partir de este tipo de muestras que, en su mayora, responden a caractersticas muy particulares
de los sujetos estudiados.

Muestreo sin normas, circunstancial, errtico, discrecional


La muestra escogida responde ms a una cuestin de comodidad, o bien a caractersticas acerca de lo que cree
el investigador que puede aportar al estudio. Cabra en este apartado tambin el muestreo bola de nieve, que
consiste en localizar a algunos sujetos, que conducen a otros y, as sucesivamente, hasta obtener la muestra que
se precisa. Suele ser frecuente en poblaciones muy especficas, como las conformadas por delincuentes, ciertos
enfermos, grupos religiosos pequeos, etc.
Una vez hemos recorrido los principales diseos de muestreo aleatorio y no aleatorio, cabe preguntarse cmo
calcular n. Precisamente a dedicar la segunda parte de este captulo a las herramientas concretas para
determinar el tamao muestral necesario en una investigacin concreta.

El tamao de la muestra

Recomendamos el repaso de
los temas 14 y 15 antes de
abordar los siguientes
apartados.

Con el fin de determinar el tamao de la muestra en una investigacin concreta deberemos preguntar, en
primer lugar, cmo es la poblacin desde un punto de vista de su heterogeneidad. De este modo, podremos
elegir el procedimiento ms adecuado para la obtencin de la muestra aleatoria, a lo que hemos dedicado las
anteriores pginas. En segundo lugar, nos preguntaremos qu queremos estudiar en la poblacin, por ejemplo,
el promedio de mdicos que tienen una formacin psicoteraputica certificada, la proporcin de mdicos
varones o de mujeres con este tipo de adiestramiento, etc., en resumen, qu parmetro necesitamos estimar. A
partir de la respuesta a estas dos cuestiones, y teniendo en cuenta todo lo que sabemos acerca de la distribucin
muestral de los estadsticos y la obtencin del los intervalos de confianza examinados en los temas anteriores,
resulta muy fcil calcular, como veremos a continuacin, el tamao muestral necesario, as como la precisin
con la que trabajaremos en nuestras estimaciones.

Tamao de la muestra para estimar una media en la poblacin

El primer caso lo vamos a dedicar al clculo del tamao de la muestra cuando queremos estimar la media de la
poblacin. Recordemos que (vase el apartado 14.4) una variable aleatoria X que sigue una distribucin normal
en la poblacin, da lugar a una distribucin muestral de la media X :

Muestreo. - 461 -

X N ;
Adems, el intervalo de confianza para la media viene dado por:

[ X |Z / 2 | / n ; X + |Z / 2 | / n ]
Grficamente:
INTERVALO DE CONFIANZA DE UNA MEDIA

/2

1 /2

X + Z / 2 / n
X | Z / 2 | / n

/2

X + Z1 / 2 / n
X+ | Z / 2 | / n

Recordemos, adems, que la expresin:


e = | Z / 2 | / n
se denomina error mximo de estimacin.
Pues bien, teniendo en cuenta todas estas premisas, si lo que necesitamos es determinar el tamao de la
muestra, no tenemos ms que despejar n de la expresin anterior:

- 462 - Anlisis de datos.

La frmula del tamao


muestral obtenida se refiere
a poblaciones infinitas. Si
consideramos la poblacin
finita, es habitual encontrar,
en los manuales de anlisis de
datos, la siguiente correccin:
nf =

n
1+

n
N

donde N es el tamao de la
poblacin finita.

n =

Z 2 / 2 2
e2

As pues, para calcular el tamao muestral cuando queremos estimar una media en la poblacin, necesitamos
saber con qu nivel de confianza queremos realizar la estimacin y qu error mximo estamos dispuestos a
asumir.
Vamos a recordar el ejemplo del apartado 14.4. para ilustrar las ideas anteriores. En aquel momento, vimos
que la adaptacin espaola del TTCT (Torrance Thinking Creative Test) con alumnos entre 5 y 12 aos arroj
los siguientes resultados en educacin primaria de primer ciclo en las provincias de Murcia y Alicante:

Lo mismo se aplica a otros


parmetros, adems de la
media, y a otros muestreos,
como, por ejemplo, el
estratificado.

Por lo general, no
obtendremos valores enteros
de n. Cuando se trate del
clculo del tamao de la
muestra y nuestro resultado
sea un valor decimal, la
regla es incrementar el valor
de n hasta el nmero entero
ms prximo.

RESULTADOS EN EL TEST DE PENSAMIENTO CREATIVO


Originalidad

Fluidez

Flexibilidad

Elaboracin

Media

25,5

19,3

14,9

17,5

Desviacin tpica

11,9

6,7

5,2

8,3

Mnimo

2,6

Mximo

69,6

40

30

47,6

Adems, desebamos estimar la creatividad de los nios superdotados en la subescala fluidez (variable que se
distribuye de forma normal), para lo cual, escogamos una muestra de 100 nios, en la que obtenamos una
mediaX = 23 y una desviacin tpica SX = 5. Trabajando con un margen de error = 0,05 el intervalo de
confianza resultante fue [21,69 ; 24,31]. Ahora nos vamos a proponer, precisamente, el proceso previo, es decir,
determinar el tamao de la muestra que necesitaramos para estimar la fluidez media de los nios
superdotados, con un error mximo de estimacin de 1 punto en el promedio y con el mismo margen de
confianza:
n=

1,96 2 6,7 2
12

= 172,45 173

Es decir, necesitaramos una muestra de 173 nios superdotados para estimar su grado de fluidez.
Si, en lugar de trabajar con un margen de error de 0,05, escogiramos uno ms pequeo, como es 0,01, el
tamao de la muestra sera igual a:

Muestreo. - 463 -

n=

2,582 6,7 2

= 298,85 299

12

El resultado anterior nos indica que seguridad y tamao muestral tienen una relacin directa: cuanto mayor
sea el nivel de confianza con el que queramos estimar un parmetro, ms sujetos necesitaremos en nuestra
investigacin.
Adems, el tamao de la muestra es indirectamente proporcional al error mximo de estimacin. En efecto, si
en nuestro ejemplo asumiramos un error igual a 2 puntos en la estimacin del promedio de fluidez, en lugar
de un punto como hicimos, tendramos, con = 0,05:
n=

1,96 2 6,7 2
22

= 43,11 44

Como vemos, precisin del intervalo de confianza, error mximo de estimacin y tamao muestral son
elementos de una frmula que pueden ser manejados por el investigador (no as la varianza poblacional). Sin
embargo, manejados no debe ser sinnimo de manipulados, en el sentido de ir calculando n a partir de
diferentes valores del error mximo de estimacin y del nivel de confianza, hasta conseguir un tamao
muestral apropiado con nuestros recursos. Esta accin puede tener consecuencias desastrosas en la estimacin
posterior del parmetro. As mismo, para poder aplicar la frmula anterior, debemos demostrar que la variable
aleatoria de inters (en nuestro ejemplo, la fluidez) sigue una distribucin normal.
Por otro lado, hasta ahora hemos supuesto que la varianza poblacional es conocida. Cuando esto no sucede, que
es lo ms habitual, recordemos al lector que la distribucin de la media, manteniendo igual los dems
supuestos, se ajusta a una t de Student, en la que utilizamos la desviacin tpica insesgada de la muestra
(normalmente, calculada en una muestra piloto) para estimar . Por tanto, n es igual a:
n=

~
t 2 / 2; n 1 S 2
e2

Tamao de la muestra para estimar una varianza en la poblacin


En el caso de estimara una varianza, segn vimos en el tema 15, el intervalo de confianza es:

nS X2

nS 2
; 2 X
2
/ 2:n 1 1 / 2:n 1

- 464 - Anlisis de datos.

Mientras que, para la cuasivarianza, tenemos:

~2
~
(n 1) S
(n 1) S 2X
X
; 2
2

/ 2:n 1 1 / 2:n 1
Cuando las muestras son grandes, con n > 100, la distribucin muestral de la varianza sesgada o insesgada se
puede aproximar a la normal (vase A. Pardo y R. San Martn, 1994) con:

( )

E S 2X = 2

S2
X

= 2

2
2
S2
n
n

donde S2 se refiere tanto a la varianza como cuasivarianza de la muestra.


Por lo tanto, se puede construir el intervalo de confianza mediante:
2
2
2 2
; S2 + Z / 2 S2
S Z / 2 S

n
n

Puesto que el error mximo de estimacin es:


e = Z / 2 S2

2
n

El tamao de muestra que necesitamos para estimar una varianza poblacional es igual a:
n=

2 S 4 Z 2 / 2
e2

donde S2 se refiere tanto a la varianza como cuasivarianza de la muestra.


Veamos el siguiente ejemplo. Entre los enfoques para evaluar la credibilidad de un testimonio, las
manifestaciones fisiolgicas (salivacin, sudoracin, ritmo cardaco, etc.) y comportamentales (movimiento
corporal, contacto ocular, lenguaje y voz, etc.) podran no tener en cuenta las diferencias individuales en la
expresin emocional (es lo que se conoce como riesgo de Brokaw), como tampoco el hecho de que una persona
sincera pueda presentar la apariencia de una mentirosa debido a la tensin a la que est sometida (lo que se

Muestreo. - 465 -

denomina error de Otelo). Por esta razn, en las investigaciones forenses, la valoracin de la credibilidad se
centra en el testimonio en s mismo, ms que en el testigo. Desde este enfoque, J. Bembibre y L. Higueras
(2010) utilizaron la adaptacin espaola del Profile of Mood States (POMS) para evaluar, entre otros, si los
criterios del modelo de control de fuentes (SM) servan para discriminar entre testimonios verdaderos y falaces,
instruyendo a quien menta para exculpar a un delincuente (experimento 1) como para inculpar a un inocente
(experimento 2). Veamos los resultados obtenidos con 120 estudiantes (60 hombres y 60 mujeres) en el
experimento 2:
RESULTADOS CUANDO SE INCULPA A UN INOCENTE
Testimonio verdadero

Testimonio falso

Media

D.T

Media

D.T.

Detalles

60,21

8,04

53,94

7,47

Operaciones cognitivas

16,20

6,94

20,60

6,02

Pensamientos y sentimientos del testigo (acerca de s mismo)

6,83

2,26

4,99

1,60

Tensin

4,64

1,72

9,80

2,06

Depresin

4,69

1,05

8,00

2,34

Es decir, en esta muestra, los participantes que mienten para inculpar a un inocente producen menos detalles y
ms operaciones cognitivas, con pensamientos y sentimientos en la lnea que predice el modelo. Sin embargo, si
calculamos los coeficientes de variacin, observaremos la mayor disparidad en la condicin de tensin, por lo
que, tal y como vimos en el tema 4, las medias no deberan compararse. Si nos planteramos un experimento
aleatorio para estimar la variabilidad en tensin, con un margen de confianza de 0,95; con un error no mayor a
medio punto y aproximando la distribucin a la curva normal, el tamao de la muestra debera ser igual a:
n=

n=

2 1,72 4 1,96 2
0,52
2 2,06 4 1,96 2
0,52

= 268,97 269 para la condicin de sinceros.

= 553,44 554 para la condicin de mentirosos.

Podemos observar que una mayor varianza viene acompaada de un mayor tamao muestral para la
estimacin de su valor en la poblacin.
En el siguiente apartado presentamos el procedimiento para estimar una proporcin en la poblacin.

El modelo de control de
fuentes asume que el
recuerdo de la informacin
percibida incluye ms
elementos perceptivos
(espaciales y temporales),
semnticos (detallismo),
afectivos (reacciones
emocionales) y de apoyo
(sobre lo que ocurri antes y
despus) y menos elementos
cognitivos que el recuerdo de
sucesos imaginados. Diversas
investigaciones avalan la
utilidad de este modelo para
diferenciar un testimonio
veraz de otro falso.
Por su parte, el POMS es un
cuestionario multidimensional
del estado de nimo
subjetivo y no de rasgos
estables de la personalidad,
con siete escalas: depresin,
clera, vigor, fatiga, tensin,
confusin y una puntuacin
total.

- 466 - Anlisis de datos.

Tamao de la muestra para estimar una proporcin en la poblacin


Es muy habitual plantearse estudios en los que deseamos averiguar la proporcin de sujetos que tienen una
opinin favorable o no hacia cierto comportamiento, el porcentaje de enfermos aquejados de una determinada
dolencia, etc. En estos casos estamos interesados en el parmetro y lo que debemos calcular es el tamao
muestral que necesitamos para su estimacin.
Procediendo de la misma manera que acabamos de hacer con la media y la varianza, debemos recurrir a la
distribucin muestral de la proporcin. Recordemos (tema 15) que la proporcin sigue el modelo binomial con
parmetros:
(1 )

p B ;

donde E(p) =

2p =

p(1 p)
n

Con el consiguiente intervalo de confianza:


[ p|Z / 2 | p(1 p) / n ; p+ |Z / 2 | p(1 p) / n ]

En la expresin anterior el error mximo de estimacin es:


e =|Z / 2 | (1 ) / n

Nos encontramos con el mismo inconveniente que el que tenamos cuando queramos estimar la proporcin de
la poblacin: aparece en la ecuacin de la que nos queremos servir para obtener el tamao de la muestra
necesario para su estimacin. Podemos plantearnos varias soluciones:
1. Deducir de trabajos pilotos o estudios previos.
2. Estimar mediante ~
p , con lo que:
n=

z 2 / 2 ~
p (1 ~
p)
e2

3. Trabajar con una varianza mxima, lo que significa que = 1 = 0,5, de modo que
n=

z 2 / 2 0,25
e2

Muestreo. - 467 -

Este procedimiento, el ms ampliamente utilizado, nos lleva a un mayor nmero de sujetos, al


considerar la varianza mxima, pero tambin tendremos una mayor exactitud en nuestra estimacin.
Veamos el siguiente ejemplo. Un estudio llevado a cabo por el Instituto Coca-Cola de la Felicidad y la
Universidad Complutense de Madrid (2011) tuvo como objetivo principal analizar la relacin entre el estado de
salud percibido y el nivel de felicidad de los espaoles, concretamente, responder a la siguiente cuestin: las
personas ms felices son menos proclives a los problemas de salud? Al observar la ficha tcnica de la
investigacin, encontramos lo siguiente:
FICHA TCNICA DEL INFORME SOBRE FELICIDAD Y SALUD

Las conclusiones a las que


llegaron fueron las
siguientes:
Las personas que estn
ms satisfechas con su
vida perciben que su
estado de salud es mejor.
El grupo de personas
menos felices presenta
ms problemas de salud,
exceptuando alergias y
problemas dermatolgicos.
Las personas ms felices
que tienen un problema de
salud perciben que su
estado es mejor, siendo el
apoyo de familiares y
amigos un factor mediador
principal.
La satisfaccin puede verse
influida por el grado de
afectacin derivado de la
enfermedad y por la
preocupacin que
experimenta la persona al
respecto.
El apoyo social y el
optimismo constituyen
importantes factores
amortiguadores ante
condiciones adversas.

Con los datos anteriores, veamos cul es el tamao de la muestra:


n=

1,96 2 0,25
0,018 2

= 2964,19

El resultado se asemeja a las 3000 encuestas realizadas. Una duda que nos puede surgir es cul sera el
tamao muestral si asumisemos un error de estimacin ms pequeo, por ejemplo, de un 1 por ciento.
Vemoslo:

En general, el informe
defiende la importancia del
apoyo social para superar los
problemas y afirma que las
personas ms satisfechas,
ante un problema de salud,
se encuentran mejor que las
menos satisfechas.

- 468 - Anlisis de datos.

n=

1,96 2 0,25
0,012

= 9604

Como era de esperar, un error de estimacin ms pequeo va siempre acompaado de un tamao muestral ms
grande. Ahora bien, una cuestin importante que debemos plantearnos es por qu los autores del trabajo
escogieron un tamao de error igual al 1,8 por ciento y no otro. Invitamos al lector a la lectura del informe para
dar respuesta a esta pregunta.

Potencia y tamao de la muestra


Segn vimos la potencia de la prueba de significacin se define como la capacidad de sta para detectar un
efecto estadsticamente significativo, es decir, de rechazar H0 cuando realmente hay una discrepancia, por
mnima que sea, entre la hiptesis planteada y lo que sucede realmente en la poblacin (por ejemplo, en la
hiptesis nula hemos planteado que la duracin del sueo es de 8 horas, mientras que en la poblacin el
promedio es de 7 horas y 45 minutos).
La potencia de la prueba depende, como ya expusimos, no slo del tamao del efecto, sino tambin de las
probabilidades de cometer los errores tipo I y tipo II y del error tpico de la distribucin muestral del estadstico
en cuestin. Por tanto, si quisiramos aumentarla en un contraste tendramos, como primera opcin, disminuir
. La consecuencia inmediata sera un incremento de 1 - , pero tambin de y, aumentar la potencia a base de
agrandar la probabilidad de cometer el error tipo I, no parece que tenga mucho sentido. La siguiente ilustracin
nos muestra esta relacin entre errores y potencia:
POTENCIA DE LA PRUEBA EN FUNCIN DE LOS VALORES DE Y
H1

H1

H0

H0

Muestreo. - 469 -

Otra posibilidad sera disminuir el error tpico de la distribucin muestral que, como sabemos, est
inversamente relacionado con el tamao de la muestra. De este modo, manteniendo constante , lograramos
incrementar la potencia de la prueba (y, en consecuencia, se producira una disminucin de ) si
aumentramos el tamao de la muestra. En la siguiente ilustracin mostramos una curva de potencia en la que
se puede observar, sin modificar el valor de , la relacin directa entre la potencia y el tamao de la muestra:
POTENCIA DE LA PRUEBA EN FUNCIN DEL TAMAO DE LA MUESTRA
Potencias asociadas a diferentes tamaos muestrales
Tamao del efecto

Tamao de la muestra

Potencia

0,7
0,7
0,7
0,7
0,7
0,7
0,7
0,7
0,7

10
30
40
50
75
100
150
175
200

0,33924
0,72434
0,83287
0,90171
0,97643
0,99491
0,99981
0,99997
0,99999

Curva de potencia
1,0

Tamao de
la muestra

10
30
50
100
150

Potencia

0,8

0,6

0,4

0,2

0,0
0,5

0,6

0,7

0,8

0,9

- 470 - Anlisis de datos.

En la tabla y grfico anteriores se presentan los resultados obtenidos tras calcular la potencia a partir un
tamao de efecto igual a 0,7 y un nivel de significacin = 0,05, con tamaos de muestra desde 10 hasta 200.
Si nos fijamos, la potencia va aumentando rpidamente hasta que llegamos a un valor de n = 150, donde ese
incremento es ms lento. Por tanto, tras una valoracin de costes y beneficios, podramos detenernos en un
tamao muestral igual a 100 con el que alcanzaramos una potencia de 0,99.
Visto lo anterior, tambin cabra preguntarse qu tamao de muestra necesitaremos para que la prueba de
significacin tenga una potencia de, por ejemplo, 0,95? Muchos programas estadsticos dan respuesta a esta
cuestin, con lo que es fcil resolver la duda. No obstante, hay que hacer una importante advertencia que no
debe pasar inadvertida y que no es ms que una consecuencia derivada de la observacin de la curva de
potencia: en una prueba de significacin estadstica se puede rechazar una hiptesis nula simplemente
aumentando el tamao de la muestra, aunque el tamao del efecto sea pequeo. En otras palabras, podemos
obtener un resultado estadsticamente significativo, con una elevada potencia, siempre que el tamao muestral
sea lo suficientemente grande; sin embargo, no necesariamente ser clnicamente relevante.
Las frmulas que hemos presentado en este captulo para obtener los tamaos muestrales no son las nicas,
como supondr el lector. Efectivamente, hay muchas ms, que conjugan no slo el nivel de confianza, el error
mximo de estimacin elegido y la varianza de la distribucin o la potencia que se desea en la prueba
estadstica, sino tambin, la poblacin finita o infinita de partida o el tipo de muestreo. Por ejemplo, si es
estratificado, la muestra y submuestras resultantes sern ms precisas que en un muestreo aleatorio simple.
Sin embargo, en nuestra opinin, se puede sustituir la complejidad de los clculos en algunos casos de muestreo
con las frmulas ms sencillas aqu presentadas, quedando compensada la falta de precisin con la mayor
exactitud en las estimaciones que supone trabajar con muestras ms grandes.
Por otro lado, los resultados en cualquier investigacin contendrn cierto grado de incertidumbre, ya que la
poblacin no habr sido evaluada en su totalidad, sino slo parte de ella (adems, la muestra no es una rplica
exacta en miniatura de la poblacin). Aparte de este error muestral, estamos sujetos, como sabemos, al error de
medicin, que depende de los instrumentos de medida. Podemos reducir la incertidumbre, es decir, el error
muestral, utilizando muestras ms grandes y podemos disminuir el error de medicin aumentando la fiabilidad
de los instrumentos, lo que no siempre es posible. Por esta razn, es muy importante especificar el grado de
precisin en la estimacin mediante el establecimiento del error mximo de estimacin. Aunque puede
presentar ciertas dificultades precisarlo, ya que ciertamente no estamos acostumbrados a pensar en trminos
de error, es responsabilidad del investigador delimitarlo y del lector saber interpretarlo.

Anlisis de datos en el SPSS


En el presente documento damos las instrucciones y un ejemplo para realizar todos los
anlisis estudiados a travs del SPSS. Este software comercial la UNED lo pone disponible
para los alumnos. Para su uso debern ponerse en contacto con:
Soporte Informtico Estudiantes
Telfono: 91 398 88 01
Horario: de 9 a 19 h. de lunes a viernes
(excepto festivos nacionales)
Correo electrnico: buzonestudiantes@csi.uned.es
Identificndose como estudiantes del Master de Recursos humanos de la Fac. de Psicologa.
Tambin encontrar en la red mucha informacin sobre este software incluso manuales de
iniciacin a su uso, etc.
Para comenzar a trabajar deber tener abierto el fichero de datos: DATOS.sav disponible en
el organizador.
A continuacin, se presenta la matriz de datos correspondiente a una muestra de 20 pacientes diagnosticados
de depresin (este fichero de datos llamado DATOS.sav lo tiene disponible en el organizador para aquello que
quieran utilizarlo para ir haciendo los ejemplos.) a los que tambin se les ha medido la ansiedad antes y
despus de aplicarles una terapia, as como otras variables y sus modalidades (vanse PANTALLA 1 y
PANTALLA 2). Nuestro objetivo es averiguar si la terapia es efectiva para mejorar la depresin y si es un buen
predictor de la autoestima de los pacientes tras su aplicacin. Para ello, a lo largo de los temas, iremos
realizando diferentes anlisis en nuestras variables en funcin de su nivel de medida y de objetivos concretos.
Previo a los anlisis, tenemos que estudiar nuestra matriz de datos, comprobando la adecuacin de las medidas
mediante su exploracin. Esto lo podemos empezar a hacer ya con las herramientas que disponemos. As pues
vamos a comenzar realizando una distribucin de frecuencias con la depresin antes y despus del tratamiento,
los das de duracin del mismo y el nivel de autoestima tras la terapia.
Una vez hemos introducido los datos en el SPSS y definido sus variables, vamos al men Analizar y a la
opcin Estadsticos descriptivos y, dentro de sta, a Frecuencias (PANTALLA 3).

-1-

Se nos despliega un cuadro de dilogo (PANTALLA 4) en el que especificamos las variables a analizar, en
nuestro caso, las referentes a la depresin antes y despus de la terapia, los das de duracin del tratamiento y
el nivel de autoestima tras el mismo. Pulsamos Mostrar tablas de frecuencias y Aceptar.

DISTRUBUCIN DE FRECUENCIAS
PANTALLA 1

-2-

PANTALLA 2

PANTALLA 3

-3-

PANTALLA 4

Dese cuenta el lector cmo


de la misma matriz de datos
vamos a extraer cuatro
distribuciones de
frecuencias, tantas como
necesitamos en estos
momentos. De hecho, cada
variable da lugar a una.

El primer resultado que se nos ofrece es una tabla con los sujetos analizados. Como podemos observar en la
TABLA 1, no ha habido ningn caso perdido en nuestras variables.

TABLA 1

En TABLA 2 vemos las distribuciones de frecuencias para las variables nivel de depresin antes y despus del
tratamiento. En la primera columna de cada una se encuentran los distintos niveles de depresin antes y

-4-

despus y llama la atencin cmo disminuye tras la terapia: si antes oscila entre los valores 35 y 70, despus
del tratamiento baja a niveles comprendidos entre 8 y 47.

TABLA 2

En las siguientes tablas vemos ordenadas tambin las variables tiempo de tratamiento y nivel de autoestima
tras la terapia. Con respecto a la primera (TABLA 3), los sujetos han necesitado entre 5 y 26 das de terapia
para su recuperacion. En relacin con la segunda (TABLA 4), aunque pueda parecernos menos ilustrativa que
las anteriores, ya nos est informando de los niveles de autoestima mximo y mnimo de los sujetos y de cmo
stos estn repartidos entre las modalidades, con lo que la distribucin de frecuencias ha cumplido con su
objetivo de ser ms reveladora que la matriz de datos original.

-5-

TABLA 3

TABLA 4

OBTENCIN DE GRFICOS
En el tema anterior obtuvimos las distribuciones de frecuencias de las variables depresin antes y despus de
la terapia, das de tratamiento y nivel de autoestima despus del mismo. Vamos a completar las distribuciones
de las dos primeras con representaciones grficas y un diagrama de tallo y hojas para cada una.
En nuestra matriz de datos, vamos al men Analizar, opcin Estadsticos descriptivos, Frecuencias
(PANTALLA 1). Al abrirse el cuadro de dilogo seleccionamos nuestras variables y pulsamos Grficos, con lo
que nos aparece un pequeo cuadro con diversas posibilidades. Como nuestras variables son cuantitativas,
seleccionamos Histogramas (vase PANTALLA 2). En este cuadro pulsamos Continuar y, a continuacin,
Aceptar. Veamos los grficos.

-6-

En las distribuciones de
frecuencias del tema
anterior ya tenemos los
porcentajes y las
proporciones de las
variables, ya que el SPSS
las ofrece por defecto.

PANTALLA 1

PANTALLA 2

-7-

En la FIGURA 1 tenemos los histogramas de las variables antes y despus del tratamiento, tal y como los
devuelve el SPSS. Fijmonos en que la mxima una imagen vale ms que mil palabras, en este caso, no se
cumple. En efecto, como el origen de coordenadas es distinto en cada variable, no se aprecia la mejora de los
pacientes. Por tanto, si queremos un histograma realmente informativo, debemos editar los grficos.
FIGURA 1

Para la variable nivel de depresin antes del tratamiento, por ejemplo, nos situamos encima del grfico y lo
pulsamos dos veces, con lo que nos aparece el editor de grficos. Al tocar tambin dos veces sobre la escala de
valores se nos abre un cuadro de dilogo en el que definimos su origen, desde la pestaa Escala, con el valor
cero (PANTALLA 3) e incrementos de cinco en cinco. En este comando es muy importante definir el mismo
origen, incremento, mximo y mnimo de la escala en ambas variables si queremos que los histogramas sean
realmente ilustrativos y comparables. En las dems pestaas podemos hacer modificaciones a nuestro gusto,
como tambin pulsando dos veces diferentes secciones del propio grfico. Por ejemplo, nosotros hemos
eliminado los colores desde las propias barras del histograma. Y haciendo lo mismo para la variable depresin
despus del tratamiento, el resultado se puede ver en la FIGURA 2. Ahora se puede comparar perfectamente
con el nivel de depresin antes, constatando la mejora de los pacientes, an sin tener que fijarnos en los rangos
de las variables, ni en sus medias.

-8-

PANTALLA 3

FIGURA 2

Podemos evitarnos todo el procedimiento anterior con un grfico de tallo y hojas. Como ya se seal en el texto
del captulo, su ventaja radica en su gran utilidad: vemos todas y cada una de las puntuaciones de cada

-9-

variable, podemos detectar posibles casos extremos, vacos en los valores de la variable, compararla con otras,
etc.
Volvemos al men Analizar, a la opcin Estadsticos descriptivos pero, ahora, a Explorar (PANTALLA 4).
De nuevo se abre un cuadro de dilogo, seleccionamos nuestras variables y las colocamos en el recuadro de
Dependientes; en el de Mostrar seleccionamos nicamente Grficos y, por ltimo, pulsamos a la derecha
Grficos. De este modo nos aparece otro cuadro (PANTALLA 5) donde podemos seleccionar Tallo y hojas y,
seguidamente, Continuar. Esto nos devuelve al primer cuadro de dilogo para poder Aceptar.
PANTALLA 4

El SPSS, por defecto,


selecciona Diagrama de
cajas en este subcomando.
Por el momento vamos a
olvidarnos del grfico
resultante; cuando
estudiemos estadsticos de
tendencia central, posicin y
variabilidad tendremos
ocasin de constatar su
practicidad.

- 10 -

PANTALLA 5

En la TABLA 1 se encuentra el diagrama de tallo y hojas de la variable nivel de depresin antes del
tratamiento. En ella aparecen los datos de los 20 pacientes, oscilando los niveles entre los valores 35 y 70. La
mayora de los sujetos se concentra en torno a los valores 40 y encontramos un caso extremo en el nivel igual a
70 (los inmediatamente anteriores tienen niveles iguales a 60 y 63).
TABLA 1
nivel de depresin antes del tratamiento Stem-and-Leaf Plot
Frequency

Stem &

,00
3
4,00
3
6,00
4
5,00
4
1,00
5
1,00
5
2,00
6
1,00 Extremes
Stem width:
Each leaf:

.
.
.
.
.
.
.

Leaf
5779
112334
66779
2
6
03
(>=70)

10
1 case(s)

- 11 -

En la TABLA 2, correspondiente al nivel de depresin despus de la terapia, la concentracin de sujetos se


encuentra entre los valores 15 y 25, lo que indica una clara disminucin en el nivel de depresin tras el
tratamiento. Sin embargo, tambin aqu tenemos un sujeto con valor extremo igual a 47, diez y once unidades
por encima de los dos sujetos con niveles ms altos (36 y 37). Dado que esta matriz es muy pequea, es muy
conveniente localizar estos valores extremos para ver si se trata de sujetos distintos o del mismo.
Inspeccionndola, vemos que el sujeto nmero 16 es el que se corresponde con los valores extremos en
depresin antes y despus de la terapia. Fijndonos un poco ms, tambin se trata del sujeto con mayor edad,
con la autoestima ms baja y los niveles de ansiedad y de apata ms elevados, pero tambin, el que menos
tiempo ha estado en la terapia. Aunque en temas posteriores aprenderemos a localizar a sujetos con valores
extremos sin tener que buscarlos en la matriz (lo que sera una tarea terriblemente ardua con matrices de
datos suficientemente grandes), dmonos cuenta de lo informativo que resulta un diagrama de tallo y hojas
para conocer las variables de nuestras investigaciones.
TABLA 2
nivel de depresin despus del tratamiento Stem-and-Leaf Plot
Frequency

Stem &

1,00
0
3,00
1
5,00
1
4,00
2
3,00
2
1,00
3
2,00
3
1,00 Extremes
Stem width:
Each leaf:

.
.
.
.
.
.
.

Leaf
8
044
57799
1334
578
0
67
(>=47)

10
1 case(s)

TENDENCIA CENTRAL Y DISPERSIN


En la matriz de datos tenemos una variable llamada grupo de tratamiento con tres niveles, cada uno con un
objetivo concreto de terapia en funcin del nivel de depresin inicial de cada sujeto. Vamos a averiguar qu
niveles medios de depresin tenan cada uno de ellos al inicio de la terapia y despus de la misma para ver qu
mejora ha habido.
Para ello, siguiendo el procedimiento que ya conocemos, Analizar, Estadsticos descriptivos y Explorar,
entramos en el cuadro de dilogo de la PANTALLA 1, en el que colocamos nuestras variables de inters en la
Lista de dependientes y en la Lista de factores (esta casilla es la que nos permite obtener los resultados de

- 12 -

la depresin antes de la terapia por grupos de tratamiento. Adems, al pulsar Estadsticos, en el subcuadro
sealamos Descriptivos (por el momento, no se preocupe el lector de la indicacin sobre el Intervalo de
confianza para la media). Por ltimo, Continuar y Aceptar. El mismo procedimiento seguimos para la
variable nivel de depresin despus del tratamiento.
Los primeros resultados se encuentran en la TABLA 1, donde observamos el reparto de sujetos por grupo:
cuatro en el primero, diez en el segundo y seis en el tercero, habiendo sido todos los sujetos analizados.
PANTALLA 1

TABLA 1

- 13 -

En la TABLA 2 aparecen los principales descriptivos de la variable depresin antes y despus del tratamiento
por grupo (debemos sealar que hemos eliminado de cada una de ellas todos aquellos ndices que por el
momento no hemos estudiado). En el primer cuadrante de la tabla nos damos cuenta de que los grupos de
tratamiento se han establecido en funcin del nivel de depresin previo, es decir, de menor a mayor. Tambin
observamos que el primer grupo es muy simtrico, ya que los valores de la media aritmtica y de la mediana
son prcticamente iguales, lo que no ocurre con respecto al segundo, en el que la mediana (igual a 43) se aleja
bastante de la media aritmtica (igual a 47,20). Esto nos est indicando la presencia de algn caso extremo y
habr que estar al tanto. Si recordamos del tema anterior el diagrama de tallo y hojas para la depresin antes y
despus de la terapia, pudimos localizar al sujeto con valores extremos. Ahora slo tendramos que ir a la
matriz para confirmar que este sujeto pertenece al grupo dos (insistimos en que se trata de una matriz pequea
que podemos inspeccionar sin ninguna dificultad; existen otros procedimientos para localizar este tipo de
puntuaciones sin recurrir al escrutinio directo de la matriz cuando sta es muy grande).
Por otro lado, a la vista de la disminucin de la cuanta en los ndices de tendencia central, podemos concluir
que se ha producido una mejora en la depresin en los tres grupos.
TABLA 2

Recordemos tambin que algunos de los sujetos de nuestra investigacin tambin tomaban medicacin, por lo
que resulta muy pertinente preguntarse si han mejorado sus niveles de depresin tras el tratamiento. Para
ello, lo nico que tenemos que hacer es seguir exactamente el mismo procedimiento en el SPSS, slo que la
variable de agrupacin ahora va a ser la toma de medicacin y es la que tenemos que colocar en la Lista de
factores. Hacindolo de este modo llegamos a la TABLA 3, en la que tambin constatamos una mejora, pero
no slo en los sujetos que se han medicado, sino en todos en general.
Una pregunta importante aqu sera hasta qu punto es la terapia, la medicacin o ambos a la vez los que
producen que los pacientes mejoren sus niveles de depresin. En efecto, un anlisis de las variables en
conjunto, y no por separado, sera lo ideal para aclarar qu reduce la depresin. Uno de los procedimientos ms

- 14 -

utilizados para responder a esta cuestin se conoce como Anlisis de varianza, una tcnica ampliamente
tratada en el manual que sigue a ste. Por el momento lo dejamos aqu, con la esperanza de haber sembrado en
el lector la curiosidad necesaria para seguir adelante.
TABLA 3

Para terminar vamos a obtener los percentiles en la variable autoestima y con qu puntuaciones de su escala
podramos hacer tres grupos iguales que se correspondieran con una autoestima baja, media ya alta. En el
men Analizar, Estadsticos descriptivos, Frecuencias, entramos en el cuadro de dilogo de la
PANTALLA 2. Una vez aqu, hemos desplazado nuestra variable a la derecha, hemos pulsado Mostrar tablas
de frecuencias, para generar la distribucin de frecuencias, y Descriptivos, con lo que aparece un subcuadro
donde vamos a especificar qu anlisis queremos. En primer lugar, en la casilla de Puntos de corte para
grupos iguales escribimos 3. Si quisiramos algunos percentiles concretos, no tendramos ms que escribirlos
y aadirlos en la casilla de Percentiles, pero, como los queremos todos, los obtendremos de la distribucin de
frecuencias. Por ltimo, pulsamos Continuar y Aceptar.
En la TABLA 4 aparecen los dos puntos de corte de la variable que nos dividen a los sujetos en tres grupos del
mismo tamao. En otras palabras, aquellos que con una puntuacin menor de 72 tienen una autoestima baja,
los que se sitan entre 72 y 81 una autoestima media y aquellos con valores mayores que 81 tienen una
autoestima alta.

- 15 -

PANTALLA 2

TABLA 4

- 16 -

Fijmonos que la columna de los porcentajes acumulados de la TABLA 5 son los percentiles que buscamos. Por
ejemplo, la puntuacin 75 de autoestima (primera columna) es el percentil 50 (ltima columna) o mediana; es
decir, aquella que deja por debajo de s al 50 por ciento de los sujetos (ntese que tambin es el decil 5 o el
cuartil segundo). Del mismo modo, la puntuacin 87 es el percentil 90 o aquella que deja por debajo de s al 90
por ciento de los sujetos de la distribucin.
TABLA 5

DISPERSIN
Recordemos los histogramas que vimos sobre el nivel de depresin antes y despus del tratamiento (FIGURA
1). Pues bien, vamos a completar los datos descriptivos para comparar los resultados en ambas variables.
Para obtener medias, desviaciones tpicas, etc. podemos acudir a los comandos que conocemos: Frecuencias,
Descriptivos y Explorar. Sin embargo, la obtencin de los coeficientes de variacin resulta un poco ms

- 17 -

Sin necesidad de crear


variables, simplemente con
una calculadora de bolsillo
podemos obtener los
coeficientes de variacin
a partir de las medias y
desviaciones tpicas
obtenidas en cualquiera de
los comandos descriptivos del
SPSS.

engorrosa en el SPSS porque debemos crear primero, en la matriz de datos, una variable con valores 1
(realmente se trata de una constante), tal como se puede ver a la derecha de la PANTALLA 1.
Una vez hemos creado la variable, seguimos esta secuencia: Analizar, Estadsticos descriptivos, Razn. Al
abrirse el cuadro de dilogo (PANTALLA 2), seleccionamos en el Numerador el nivel de depresin antes del
tratamiento y en el Denominador la variable de unos y pulsamos Estadsticos. Una vez aparece el
subcuadro, seleccionamos Media, CDV centrado en la media (nos devolver el coeficiente de variacin que
buscamos) y Desviacin tpica. Pulsamos Continuar y Aceptar.
Procedemos del mismo modo con la variable nivel de depresin despus del tratamiento. Los resultados se
encuentran en la TABLA 1 y en la TABLA 2.
FIGURA 1

- 18 -

PANTALLA 1

- 19 -

PANTALLA 2

TABLA 1

- 20 -

TABLA 2

Si nos fijamos nicamente en las desviaciones tpicas, diramos que el nivel de depresin presenta
prcticamente la misma dispersin en ambos momentos, lo que significara que todos los sujetos han mejorado
en el mismo grado despus del tratamiento, mantenindose casi el mismo patrn de diferencias individuales.
Sin embargo, los coeficientes de variacin indican algo bien distinto:
42,4 / 19,6 = 2,16
En efecto, al relativizar la dispersin respecto a la media, vemos que el tratamiento ha funcionado de forma
muy dispersa en los sujetos y, como resultado, aunque se ha producido una mejora general (la media en
depresin se ha reducido considerablemente de 46,9 a 22,7), algunos pacientes han mejorado mucho y otros
bastante poco, mostrando una mayor heterogeneidad en los niveles de depresin que antes de la terapia. Cabra
preguntarse entonces qu variable puede provocar un efecto tan diferente del tratamiento en los pacientes.

RALCIN ENTRE VARIABLES


Qu relacin existe entre las variables de la matriz tiempo de tratamiento y depresin despus del
tratamiento? La respuesta a esta pregunta requiere una representacin grfica de ambas variables para
determinar que estadstico utilizar. En otras palabras, vamos a obtener en el SPSS un diagrama de dispersin
con el fin de comprobar si podemos calcular el coeficiente de correlacin de Pearson. Para ello debemos seguir
la secuencia Grficos Generador de grficos (PANTALLA 1). Al abrirse el cuadro de dilogo, en Galera,
seleccionamos Dispersin/Puntos y, de las ocho posibilidades, arrastramos la primera (PANTALLA 2) hacia
arriba a la derecha, tal y como se nos indica. Tambin arrastramos las variables tiempo y nivel de depresin
despus del tratamiento a los ejes (PANTALLA 3) y pulsamos Aceptar.

- 21 -

El diagrama de dispersin que nos devuelve el SPSS lo encontramos en la FIGURA 1. Para que el resulte
realmente informativo debemos editarlo y esto podemos hacerlo, como sabemos, pulsando dos veces sobre la
grfica. El resultado lo hallamos en la FIGURA 2. Es clara la relacin lineal entre ambas variables, por lo que
es pertinente el clculo del coeficiente de correlacin de Pearson, lo que hacemos mediante la secuencia
Analizar Correlaciones Bivariadas (PANTALLA 4). En el cuadro de dilogo seleccionamos las
variables; en Coeficientes de correlacin pulsamos Pearson y en Opciones pedimos, para obtener la
covarianza, Productos cruzados diferenciales y covarianzas (PANTALLA 5).
PANTALLA 1

- 22 -

PANTALLA 2

- 23 -

PANTALLA 3

FIGURA 1

- 24 -

PANTALLA 4

PANTALLA 5

- 25 -

TABLA 1

TABLA 2

Las filas en la que est


escrito Sig. (bilateral) hacen
referencia al concepto de
probabilidad asociada
que veremos en breve..

En la TABLA 1 tenemos las medias y desviaciones tpicas de las variables depresin antes y despus del
tratamiento, que tambin se pueden obtener con otros comandos como ya hemos visto en captulos precedentes.
En la TABLA 2 observamos la covarianza entre las variables, igual a -49,453, En relacin con el signo, ste
indica una relacin entre las variables negativa, lo cual era de esperar si la terapia es efectiva: cuantos ms
das de tratamiento, menor ser el nivel de depresin despus del mismo. Con respecto a su magnitud, el
resultado, como el de las varianzas o desviaciones tpicas aisladas, no nos dice nada, por lo que vamos a la fila
que contiene la correlacin de Pearson, cuyo valor es de -0,774, indicando una elevada correlacin lineal entre
las variables. Por lo tanto, podemos predecir el nivel de depresin despus del tratamiento en funcin de los
das de terapia? En el siguiente tema realizaremos el anlisis.

- 26 -

ESTUDIO DE LA FORMA DE LA DISTRIBUCIN


Para las dos variables con las que venimos trabajando, el nivel de depresin antes y despus del tratamiento, el
comando Explorer del SPSS nos devuelve los diagramas de caja si seleccionamos Grficos o Ambos en la
parte baja de la izquierda del cuadro de dilogo (PANTALLA 1). Adems, al pulsar Estadsticos en la parte
alta de la izquierda, se nos abre un subcuadro en el que vamos a pedir Descriptivos, Estadsticos robustos
centrales y Valores atpicos. Para concluir pulsamos Continuar y Aceptar. Los resultados los comentamos
a continuacin.

PANTALLA 1

La FIGURA 1 nos muestra los diagramas de caja correspondientes a las variables depresin antes y despus
del tratamiento. Si nos fijamos en las escalas de las grficas, son tan diferentes que no nos permiten tener una
visin de lo que ha sucedido con la terapia; de hecho, parece que no se ha producido apenas un cambio. Sucede
como con los histogramas: tenemos que editarlos para ver qu efecto ha tenido el tratamiento. Lo ms

- 27 -

importante es definir el origen de la escala, el incremento y el mximo y el mnimo (PANTALLA 2). De paso,
nosotros hemos quitado los colores, aunque no es el asunto ms importante.
El resultado se puede ver en la FIGURA 2, en la que se aprecia muy claramente el cambio. Es ahora cuando el
grfico cumple con su cometido. Tambin nos muestra que el sujeto nmero 16 tiene un nivel de depresin
extremo, en relacion con su grupo, tanto antes como despus del tratamiento.

FIGURA 1

- 28 -

PANTALLA 2

FIGURA 2

- 29 -

La TABLA 2 muestra las puntuaciones ms altas y ms bajas en cada una de las dos variables. No significa
que sean extremas, aunque lleve ese ttulo, por lo que es el investigador el que decide cules son extremas. Por
ejemplo, las puntuaciones ms altas en depresin antes del tratamiento son 70, 63, 60, 56 y 52
(correspondientes a los sujetos 16, 14, 14, 6, y 1, respectivamente). Las distancias son 7 (70 63), 3, 4 y 4, por lo
que podramos considerar al sujeto 16 como un caso extremo. Con respecto a los valores ms bajos, 35, 37, 37,
39 y 41, las distancias son todas iguales a 2 o menos, por lo que no se detectan casos extremos. Para la variable
depresin despus del tratamiento sucede que el sujeto nmero 16 vuelve a aparecer con valor extremo,
corroborndose as lo que los diagrama de caja nos han revelado.
En la TABLA 1 tenemos los principales estadsticos descriptivos de las dos variables analizadas. El alejamiento
de los ndices de asimetra del valor uno, indica que ambas se alejan de lo que se consideraa una distribucin
normal. Los histogramas, lo mismo que los estadsticos, muestran esa asimetra positiva en los dos momentos
(mayor acmulo de puntuaciones bajas)
Por otro lado, en el SPSS el estadstico que calcula la curtosis de la distribucin tendr un valor igual a cero si
es una distribucin normal o mesocrtica; mayor que cero si es se concentran ms en el centro y presentan
colas ms estrechas hasta los valores extremos de la distribucin, leptocrtica y menor que cero si platicrtica.
En nuestro caso, tanto los grficos como los estadsticos nos muestran dos distribuciones leptocrticas.

- 30 -

Es improbable, por no decir


imposible, que tengamos
distribuciones que se ajusten
perfectamente a una curva
normal. Se suelen aceptar
desviaciones de 0,5 por encima o
por debajo de los valores de
simetra u curtosis que definen a
una distribucin normal.

. TABLA 1

Recordemos los histogramas que


obtuvimos en el tema 2. Podemos
editarlos para ver la distribucin
normal. El resultado es un grfico
ms informativo que los propios
estadsticos:

- 31 -

TABLA 2

TABLA 3

- 32 -

En la TABLA 3 tenemos los estimadores-M, o estimadores robustos, para localizar el centro de la distribucin.
Se trata de medias ponderadas en las que los pesos asignados a cada valor dependen del lugar donde se
encuentren respecto del centro de la distribucin. De este modo, los valores ms cercanos tendrn pesos
mayores y los ms alejados menores. Son preferibles a la media aritmtica en el caso de distribuciones con
valores extremos. El SPSS ofrece el estimador M de Huber, el estimador biponderado de Tukey, el estimador M
redescente de Hampel y el estimador en onda de Andrew: todos ellos difieren en los pesos que asignan a los
datos de la distribucin. En nuestro ejemplo, se obtienen resultados menores que sus correspondientes medias
aritmticas antes y despus del tratamiento. Esto indica lo que ya sabemos: la presencia de casos extremos
como es el sujeto 16. En definitiva, hay que tener mucha precaucin en la obtencin de los estadsticos ms
sensibles. Si decidiramos eliminar al sujeto de la muestra, no solamente debemos informar de ello, sino
tambin tenemos que volver a calcular todos los estadsticos y realizar los grficos.

PUNTUACIONES TIPICAS
En esta ocasin nos vamos a preguntar lo siguiente: Podemos afirmar que el sujeto nmero cinco que tiene en
la escala de depresin antes y despus del tratamiento unas puntuaciones de 46 y 25, respectivamente, ha
mejorado tras el tratamiento? La respuesta ya sabemos que se encuentra en las puntuaciones tpicas, as que
vamos a ver cmo obtenerlas en el SPSS.
En la secuencia Analizar Estadsticos descriptivos Descriptivos accedemos a la PANTALLA 1, en la
que seleccionamos las dos variables y, en la parte de abajo del cuadro a la izquierda, pulsamos Guardar
valores tipificados como variables y Aceptar. Una vez hecho esto, el SPSS nos devuelve las medias y
desviaciones tpicas con las que ha calculado las puntuaciones tpicas. Si volvemos a la matriz de datos
(PANTALLA 2) comprobamos que se encuentran las dos variables nuevas (adems hemos resaltado al sujeto
con puntuaciones 46 y 25 en cada una de las dos variables) y, en la Vista de variables (PANTALLA 3), las
vemos ya etiquetadas.
El sujeto nmero cinco aparentemente ha mejorado sus niveles de depresin despus de la terapia, ya que su
puntuacin ha descendido de 46 a 25. Sin embargo, en relacin con su grupo, puede decirse que esa mejora es
slo aparente, ya que su puntuacin tpica a aumentado de -0,097 (aqu se encontraba prcticamente en la
media) a 0,238 en la escala de depresin.
Adems, con los datos de la TABLA 2 y de la TABLA 3 (obtenidos en el comando Analizar Estadsticos
descriptivos Frecuencias que ya conocemos) podemos obtener un baremo si estamos interesados en saber
qu nivel de depresin tiene un sujeto, antes de comenzar la terapia, en relacin con el grupo.

- 33 -

PANTALLA 1

TABLA 1

- 34 -

PANTALLA 2

PANTALLA 3

- 35 -

TABLA 2

TABLA 3

TABLA 4
Puntuacin directa

Percentil

35
37
39
41
42
43
44
46
47
49
52
56
60
63
70

5
15
20
30
35
45
50
60
70
75
80
85
90
95
100

- 36 -

Puntuacin tpica
-1,29
-1,07
-0,85
-0,64
-0,53
-0,42
-0,31
-0,09
0,01
0,22
0,55
0,98
1,42
1,74
2,50

DISTRIBUCIN MUESTRAL
Supongamos que, tras una revisin en la literatura cientfica, sabemos que en la poblacin los niveles
estndares de depresin siguen una distribucin normal con media igual a 47,5. Podemos afirmar que los
niveles de la muestra de pacientes se asemejan a la poblacin tras la terapia? Lo primero que vamos a hacer es
obtener la media y desviacin tpicas muestrales mediante la secuencia que conocemos Analizar
Estadsticos descriptivos Descriptivos, que nos devuelve los resultados de la TABLA 1.
TABLA 1
En el anlisis que
realizamos a continuacin
tambin nos devolver los
resultados de la TABLA 1.

La media en nuestros pacientes es 46,9, un valor ms bajo que en la poblacin y no sabemos si se trata de una
diferencia debida al azar o es que nuestros pacientes presentan realmente niveles ms bajos. Suponiendo que
nuestra variable siguiera una distribucin normal, como slo conocemos la media de la poblacin y no la
varianza, la distribucin muestral de la media sigue un modelo t de Student. Para ello, debemos seguir la ruta
Analizar Comparar medias Prueba T para una muestra, que se muestra en la PANTALLA 1. En el
cuadro de dilogo seleccionamos nuestra variable de inters y en Valor de prueba ponemos el dato que tenemos
sobre la media de la poblacin en depresin, es decir, 47,5 y pulsamos Aceptar (PANTALLA 2).

- 37 -

PANTALLA 1

PANTALLA 2

- 38 -

Los resultados de la prueba t de Student los vemos en la TABLA 2. Para saber cul es la probabilidad de
obtener una media en la muestra como la que hemos obtenido debemos acudir a la columna Sig. (bilateral)
donde aparece la probabilidad buscada; ahora bien, debemos dividir el valor que ofrece entre dos:
0,774 / 2 = 0,387. Segn nos parezca o no esta probabilidad grande, concluiremos que nuestros datos no son
muy diferentes de los de la poblacin, o s.
TABLA 2

Si realizamos el mismo anlisis con la variable nivel de depresin despus del tratamiento, tanto la media de
la muestra (TABLA 3), como la probabilidad que obtenemos ahora (TABLA 4), s nos permiten concluir que
tras la terapia los niveles de depresin son considerablemente ms bajos que en la poblacin.
TABLA 3

- 39 -

TABLA 4

PRUEBAS DE SIGNIFICACION
Vamos a retomar los resultados de la prueba t de Student para el nivel de depresin antes y depus del
tratamiento que obtuvimos en el tema anterior. Los presentamos en la TABLA 1 y en la TABLA 2,
respectivamente.
TABLA 1

TABLA 2

- 40 -

Ahora ya sabemos que la columna Sig. (bilateral) es la probabilidad asociada a cada uno de los estadsticos de
contraste. El hecho de poner bilateral es porque, en el establecimiento de las hiptesis, la alternativa se ha
formulado como una diferencia entre las medias, no como un incremento mayor o menor; es decir:
Hantes: a 47,5

Vanse en el tema anterior


todos los datos y resultados
que aqu se utilizan.

Hdespus: d 47,5
Este hecho implica que las probabilidades asociadas para cada uno de los estadsticos de contraste se reparten
por igual entre las dos colas de sus distribuciones (Figura 1 y Figura 2), por lo que deberemos dividir entre dos
si queremos un contraste unilateral, que es ms informativo, como ya sealamos anteriormente. Entonces, si
tomamos = 0,05, para el primer caso, siendo p = 0,774 / 2 = 0,387 mayor que , nuestra conclusin debe ser
que no encontramos que el nivel de depresin antes del tratamiento sea estadsticamente inferior al de la
poblacin (a la misma conclusin llegaramos con = 0,01). En relacin con el nivel de depresin despus del
tratamiento, dado que la probabilidad asociada es igual a 0,000, nuestra conclusin debe ser que que los
niveles de depresin son significativamente menores tras la terapia; en otras palabras, el tratamiento ha
funcionado.
FIGURA 1
T; df=19

0,387

0,387

- 41 -

FIGURA 2
T; df=19

0,000

0,000

Como ms importante que la prueba de significacin es la obtencin del tamao del efecto, vamos a calcularlo
en nuestro ejemplo a partir del valor t de Student que nos ofrece el SPSS. Para el nivel de depresin antes del
tratamiento:

da

El tamao de efecto es tan pequeo que podemos afirmar que no encontramos una diferencia relevante con la
poblacin de los niveles de depresin de la muestra antes del tratamiento.
Con respecto a los niveles despus del tratamiento, tenemos que:

dd

t
n

- 42 -

En este caso, s podemos hablar de una diferencia clnicamente relevante, por lo que afirmamos que el
tratamiento ha disminuido los niveles de depresin tras aplicarlo a los pacientes.

INTERVALOS DE CONFIANZA
Para los niveles de depresin antes y despus del tratamiento, la ltima columna de las tablas que nos ofrece
el SPSS cuando realizamos un anlisis de medias (TABLA 1 y TABLA 2, respectivamente) muestra los
intervalos de confianza, al 95 por ciento, calculados para las diferencias de medias entre la establecida en la
hiptesis nula y la obtenida en la muestra.
TABLA 1

TABLA 2

Debemos tener en cuenta dos hechos:


1. Los lmites de ambos intervalos no se han obtenido a partir de la media con la frmula que vimos en el
apartado 14.4 para varianza poblacional desconocida; es decir, con

- 43 -

[ X |T

/ ;gl |

SX / n

; X |T

/ ;gl |

SX / n

sino con la diferencia de medias entre el valor muestral y el valor de H0.


2. En la depresin antes del tratamiento el intervalo incluye el valor cero, mientras que despus del
tratamiento el intervalo no lo contiene. Si recordamos lo comentado en el apartado 14.6., la inclusin
del valor cero implica el no rechazo de H0, y viceversa. En otras palabras, antes del tratamiento, no
encontramos diferencias en los niveles de depresin poblacionales y muestrales; sin embargo, tras el
tratamiento s las constatamos. No obstante, volvemos a lo ya dicho en diferentes ocasiones y es que un
contraste bilateral es tan poco informativo como no realizarlo.

REGRESIN
Para obtener los parmetros del modelo de regresin que predice el nivel de depresin despus del tratamiento
en funcin de los das de terapia. Para ello vamos a seguir los siguientes comandos (PANTALLA 1): Analizar
Regresin Lineales.

PANTALLA 1

- 44 -

Cuando se abre el cuadro de dilogo (PANTALLA 2) situamos nuestra variable criterio en Dependientes y la
predictora en Independientes. Para obtener los coeficientes de regresin en puntuaciones directas y tpicas,
en la opcin de Estadsticos, pulsamos Coeficientes de regresin: Estimaciones y Continuar. Tambin
podemos ver en nuestra matriz de datos las puntuaciones pronosticadas, tanto en directas como en tpicas, si
pulsamos en el subcuadro del comando Guardar las opciones Valores pronosticados: No tipificados y
Tipificados (PANTALLA 3) y, como siempre, Continuar y Aceptar.

PANTALLA 2

- 45 -

PANTALLA 3

Los resultados los encontramos en la TABLA 1. Los coeficientes de regresin en puntuaciones directas se
encuentran en la columna de Coeficientes no estandarizados y la ecuacin sera la siguiente:
Y = 38,869 1,123 X
El signo negativo nos indica, como sucede con el coeficiente de correlacin de Pearson, una relacin negativa
entre las variables: cuantos ms das de tratamiento siga el paciente, menor ser su nivel de depresin. En
otras palabras, la terapia mejora los niveles de depresin.
En puntuaciones tpicas, podemos comprobar (columna de Coeficientes tipificados) que 1 es igual al coeficiente
de correlacin, es decir, igual a -0,774, siendo la ecuacin:
Z'Y = 0,774ZX

- 46 -

TABLA 1

En la matriz de datos podemos ver las variables con los valores pronosticados tanto en la Vista de datos
(PANTALLA 4), como en la Vista de variables (PANTALLA 5).
PANTALLA 4

- 47 -

PANTALLA 5

COMPROBACIN DE SUPUESTOS EN MODELO SIMPLE


:
Para analizar la independencia de los valores observados, siguiendo la secuencia que ya vimos, Analizar
Regresin Lineales y una vez hemos definido las variables dependiente e independiente en el cuadro de
dilogo emergente, en Residuos, pulsamos Durbin-Waton; para el ajuste de la recta a los datos la opcin
Ajuste del modelo y entonces Continuar.
Para la comprobacin de la distribucin normal de los errores, en la opcin Grficos, se nos abre un
subcuadro en el que pulsamos Grficos de residuos tipificados: Histograma y Grfico de prob. normal.
Tambin debemos comprobar la homocedasticidad y la presencia de casos extremos, para lo que debemos
situar en el eje Y la variable Zresid y en el eje X la variable Zpred (PANTALLA 2).

- 48 -

PANTALLA 1

La presencia de casos
extremos tambin se puede
detectar en el diagrama de
dispersin que vimos en el
tema 7.

PANTALLA 2

- 49 -

En la TABLA 1 tenemos un valor de 2,49 en el estadstico de Durbin-Watson, lo que indica que los residuos son
independientes. Por otro lado, en el ajuste de la recta a los datos vemos que el coeficiente de determinacin es
igual a 0,599. Sin embargo, el que debemos interpretar es el valor de R cuadrado corregida, ya que R cuadrado
no es un buen estimador de su parmetro (en el tema 14 se detalla por qu). De este modo, se puede afirmar
que los das de tratamiento explican un 57,6 por ciento del nivel de depresin despus de la terapia.
TABLA 1

En la FIGURA 1 vemos claramente un alejamiento de los datos de la distribucin normal, tal y como exige el
modelo. Sin embargo, en la FIGURA 2 no se detecta falta de homocedasticidad (no se observa una apertura en
forma de abanico) ni tampoco casos extremos (todos los sujetos se encuentran entre los valores -3 y +3).
En definitiva, tenemos que la variable das de tratamiento explica razonablemente bien el nivel de depresin
despus de la terapia.
FIGURA 1

Las consecuencias de la falta


de normalidad son:
1. Los estimadores por
mnimos-cuadrados de los
parmetros del modelo no
son eficientes; es decir, de
varianza mnima (vase
tema 14).
2. Los intervalos de
confianza de los parmetros
del modelo y los contrastes
de significacin slo son
aproximados y no exactos
(vase tema 15).
Ambas cuestiones se
entendern mejor en los
temas sealados.

- 50 -

FIGURA 2

- 51 -

CONSTRUCCIN DE UN PROYECTO DE INVESTIGACIN


Etimolgicamente, Diseo significa plan, programa o hace referencia a algn tipo de
anticipacin de aquello que se pretende "conseguir", es decir, la construccin de un objeto
de estudio.
El "diseo de investigacin se define como el plan global de investigacin que (...) intenta
dar de una manera clara y no ambigua respuestas a las preguntas planteadas en la
misma Alvira, F. (1996). Esta definicin carga las tintas nuevamente en la dimensin
estratgica del proceso de investigacin. Estrategia es un patrn de decisiones
coherente, unificador e integrativo que determina y revela el propsito en trminos de
objetivos a largo plazo, programas de accin, y prioridades en la asignacin de
recursos...respondiendo adecuadamente a las oportunidades y amenazas en el medio
ambiente" Hax, A. Y Majluf, N (1996)
LA ESTRUCTURA DE LA INVESTIGACIN
.
Etapa I Anteproyecto:
+
Ttulo.
Introduccin.
Planteamiento o formulacin del Problema.
Objetivos.
Cronograma
Etapa II:
++
Hiptesis o preguntas directrices.
Marco terico.
Metodologa.

Etapa III:
+++
Proceso de recoleccin de datos
Plan de anlisis e interpretacin de los datos.
Conclusiones y recomendaciones.
Bibliografa.
Anexos.
1.-Del ttulo
El ttulo debe ser explcito y sin ambigedades la idea principal del trabajo, por cuanto
debe reflejar en forma clara el contenido que se espera en el documento, con su sola
lectura.
La estructura del ttulo no es rgida, pero facilita la labor de plantear objetivos pues exige
un esfuerzo importante por acotar el mbito de accin que se pretende abordar.

2.-Planteamiento o formulacin del problema


En general, los objetivos planteados responden a explicitar o describir una condicin
social o fsica relevante. Sin embargo, el planteamiento del problema representa la
extensin del objetivo en tanto establece los lmites y los alcances del proyecto de
titulacin.
En el planteamiento del problema se explicitan las implicancias del tema, por tanto, deben
establecerse las relevancias (terica, metodolgica o prctica) y las justificaciones, es
decir, por qu es importante ejecutar el estudio, a quines afecta, cmo y de qu forma.
Adems, esclarecer la viabilidad del proyecto, en este sentido los alumnos deben
cuestionarse acerca de la posibilidad de llevarla a cabo e indagar si hay alguna institucin
interesada en financiar el estudio.
Finalmente, como punto opcional, deben redactarse preguntas de investigacin, puesto
ayudan a elucidar posibles relaciones no previstas entre las variables; cuya elaboracin
es aportativa a la hora de desarrollar hiptesis, pautas de trabajo, guas de entrevista y
preguntas significativas; y en general, facilita el proceso de recoleccin de datos.
A continuacin se presenta algunas preguntas bsicas para formular un problema:
Cul es la condicin que quiere ser estudiada?
A quin afecta?
Cmo los afecta?
Cules son las implicancias de ello?
Por qu es importante estudiar esta condicin? (Relevancia)
Es posible de llevar a cabo la investigacin? (Viabilidad)
3.-Objetivos
La formulacin de un problema es una etapa previa para la formulacin de los objetivos
de la investigacin, pues stos representan finalmente lo que se pretende alcanzar. Por
tanto, los ttulos de la investigacin planteada, deben favorecer a la formulacin del
objetivo general, llegando a establecer esta vez, en forma especfica, qu es lo que se
pretende conocer.
Su redaccin exige, al igual que el ttulo, un importante esfuerzo por acotar y establecer
los lmites y alcances del tema a abordar. Sin embargo, llegada sta etapa los
investigadores, ya debieran tener relativamente clara sus intenciones, puesto que
suponemos han identificado ya en el planteamiento del problema un objeto de estudio.
La real complejidad de plantear objetivos radica en que una vez establecido un norte
virtual que se pretende alcanzar, debe establecerse una ruta que evidencie que este es
posible de ser conseguido.
Por tanto, los objetivos especficos representan cada uno de los pasos que los alumnos
realizarn para alcanzar su meta, puesto que dependen absolutamente del objetivo
general. En este sentido, representa la estrategia concreta para abordar la realidad.

Su correcta enunciacin depender de la claridad y coherencia de los investigadores,


puesto que exigen con anterioridad la posible relacin sujeto-objeto, los rasgos
operativos, y la evaluacin de la productividad de la misma.
Ejemplo de estructura de ttulo para investigaciones de carcter cuantitativo. Debe haber,
entonces, a) un Verbo infinitivo: los verbos infinitivos indican accin, pero en metodologa
se refieren al nivel de profundidad del estudio, en este caso: Explorar, Describir o Explicar.
O en su defecto si es pertinente: Evaluar, Diagnosticar, Acreditar, o Certificar; b)Variable
Independiente y Variables Dependientes: la variable independiente (X) es la que genera o
afecta un evento particular, la dependiente (Y), de modo que establece una relacin de
potenciacin o inhibicin entre ellas; c) un Universo o poblacin, que representa el total de
los elementos involucrados en el estudio; d) Una Muestra, que es una fraccin de la
poblacin considerada relevante dado los objetivos del estudiante; e) Tiempo y Espacio,
representa la ubicacin tmporo-espacial del evento a estudiar.
4.-Marco terico
El Marco terico cumple mltiples funciones, entre las ms relevantes: gua la
investigacin, permite establecer un escenario para interpretar los resultados, proporciona
el lenguaje pertinente para redactar las conclusiones, y vislumbrar posibles soluciones
ante el problema enunciando.
La construccin de un marco terico es un proceso dinmico y su forma definitiva ser
siempre en funcin del objetivo planteado. Sin embargo, debe comenzar por una revisin
bibliogrfica.
Ahora entendemos por revisin bibliogrfica al examen exhaustivo de referencias,
experiencias o antecedentes anteriores en torno al tema de carcter cientficas, ya sea un
autor, una empresa, o una organizacin. Esta finaliza al alcanzar el punto de saturacin,
es decir, que sta concluye cuando no se encuentran ms hallazgos de los disponibles.
La estructura del marco terico puede establecerse en tres partes principales, que van de
lo general a lo particular: (a) Antecedentes Previos, que contiene los datos de carcter
histrico en referencia al tema; (b) Hallazgos bibliogrficos, en donde se recogen los
principales hallazgos cientficos realizadas en torno al mismo.
Y (c) la Definicin de conceptos. Aspecto que merece un apartado especial, puesto que
se debe definir la o las Variables (u Objeto) de estudio en forma triple, como sigue:
(i) Definicin Nominal: siendo esta la definicin de libro o diccionario de su objeto. (ii)
definicin Real o de Trabajo: sta incluye las dimensiones identificadas por el o los
investigadores.
Cabe destacar, que las dimensiones son aspectos discernibles de la realidad, que
expresadas en orden de inclusin, sealaramos: Dimensiones Variables - ndices.
Punto que requiere un tratamiento especial en cada caso de acuerdo a los objetivos
planteados.
Esta definicin, a diferencia de su predecesora, que es realizada por autores, es

realizada por los propios investigadores en un esfuerzo por acotar su objeto de estudio,
pero a la vez incluye la explicacin del mbito que alcanza cada Dimensin.
Y (iii) la Definicin operacional, que es la que se desarrolla en funcin de los mtodos que
se utilizar para extraer la informacin deseada.
Finalmente, cabe destacar que cuando no se cuenta con un Corpus (conjunto de teoras)
ampliamente desarrollado es posible reducir el campo semntico de tan complejo
concepto, y dado determinados objetivos podra llamarse: ptica terica, Perspectiva
terica, o Enfoque terico de acuerdo a lo establecido por el equipo institucional.
5.-Cronograma o Carta Gantt
Es indispensable que el equipo de investigacin programe las actividades puntuales que
le permitirn alcanzar el objetivo general, anteriormente planteado, indicando el nmero
de actividades u objetivos especficos, nombre de la tarea, comienzo y trmino de las
actividades, el porcentaje de avance en funcin de fechas concretas, segn lo indica el
modelo. O en su defecto o ausencia, deber incluir el Marco Lgico.

6.-Metodologa
En este modelo lo fundamental es el uso adecuado de las metodologas cuantitativa o
cualitativa, el carcter explcito y lo riguroso de sus argumentaciones formulaciones tanto
como sus objetivos. Razn por la cual el equipo de investigacin debe explicitar los pasos
que ha de seguir para alcanzar su objetivo general, pero tambin detallar la forma en
cmo la informacin requerida va a ser extrada. Y explicar la tcnica especfica de
recoleccin de datos y cmo ella ser transformada en informacin.
El anlisis e interpretacin del dato, y el proceso de transformar ste en informacin
depender del paradigma desde el cual se aborde la realidad. Del mismo modo las
conclusiones y recomendaciones, haciendo hincapi en que el lenguaje con el que se
interpreta el dato ser en funcin del marco terico, anteriormente planteado.
En este sentido, cabe destacar, que la oposicin [7] cuantitativo/cualitativo comienza por
una distincin ontolgica entre cantidad y cualidad. Por tanto, debe explicitar qu tipo de
investigacin ser, a qu nivel de profundidad trabajar, qu procedimiento de muestreo
ser utilizado, lo cual implica una breve discusin sobre el enfoque epistemolgico
pertinente.
Adems, de acuerdo a la metodologa utilizada, debe clarificar cmo se dise el
instrumento de recoleccin de datos, establecer una unidad de anlisis y una unidad de
observacin, plan de anlisis, esquema de exposicin, trabajo de campo, diagnsticos,
intervenciones, evaluaciones, y procedimientos para determinar la validez y la
confiabilidad o criterios de rigor cientfico, en concordancia con el diseo propuesto.
En cuanto al anlisis debe detallar la tcnica a utilizar, de acuerdo al tipo de estudio que
este realizando. Cabra explicitar el tipo de diseo que el alumno(a) va a utilizar, al igual
que el tipo de estudio.

7.-Bibliografa
a.-La bibliografa citada en el texto(a pi de pgina) considerar la informacin de carcter
primario y secundario referidas en la investigacin, como sigue:
-Apellido del autor (es).
-Nombre del autor(es).
-Titulo del texto entre comillas y en cursivas.
-Editorial y edicin.
-Ciudad y ao.
-Pgina o pginas.
Ejemplo 1: Alvira, F. El anlisis de la realidad social. Mtodos y tcnicas de
investigacin, 1a. reimpresin, 2a. edicin. Madrid: Alianza Universidad Textos, 1996,
pp.87-109.
Ejemplo 2: Ibez, J. "Perspectivas de la investigacin social: el diseo en las tres
perspectivas". En GARCIA FERRANDO, M., J. IBAEZ Y F. ALVIRA El anlisis de la
realidad social. Mtodos y tcnicas de investigacin. 1era reimpresin 2da edicin.
Madrid: Alianza Universidad Textos, 1996, p. 56.
b.-El ndice bibliogrfico general(inclua en los anexos) considerar la informacin de
carcter primario referidas en la investigacin, como sigue:
DELEUZE, Gilles, Qu es un dispositivo?" en Michel Foucault, filsofo, Gedisa,
Barcelona, 1990.
FOUCAULT, Michel, Las palabras y las cosas, Siglo XXI, Mxico, 1993.
VATTIMO, Gianni, La sociedad transparente, Paids, Barcelona, 1990.
Le Nouvel Observateur, junio, 1984,
http://identidades.org/fundamentos/foucault_moral.htm.
8.-Anexos
Los anexos incluyen: glosario, fotos, mapas, trascripcin de entrevistas, presentacin de
instrumentos de recoleccin, entre otros, segn se justifique su pertinencia para la
coherencia general del trabajo.
+++++++++
BIBLIOGRAFA
] Alvira, F. El anlisis de la realidad social. Mtodos y tcnicas de investigacin, 1a.
reimpresin, 2a. edicin. Madrid: Alianza Universidad Textos, 1996. pp. 87-109.
Hax, A. Y Majluf, N., Gestin de empresa, Ed. Dolmen, Santiago, 1996, p. 485.