Professional Documents
Culture Documents
I Introduccin Preeliminar...............................................................1
I.1 Introduccin................................................................................................1 I.2 Aproximaciones iniciales...............................................................................2
IV Introduccin de Datos...............................................................16
IV.1 Presentacin del ejemplo ..........................................................................16 IV.2 Plan de codificacin de las variables ..........................................................17 IV.3 Entrada del diccionario de Datos................................................................18
V Tabulacin de Datos...................................................................20
V.1 Introduccin..............................................................................................20 V.2 Distribucin de Frecuencia..........................................................................20 V.3 Estadsticos...............................................................................................21 V.4 Representacin grfica de las distribuciones de frecuencia.............................22 V.5 Formato de los resultados...........................................................................23 V.6 Ejemplo para una variable cualitativa..........................................................24
Para comenzar site el puntero del ratn en el icono de SPSS que se encuentra en el escritorio (siempre que se haya creado un acceso directo) y pulse dos veces seguidas el botn izquierdo, esto origina que se abra la siguiente ventana, en la cual deberemos dar clic en la opcin Cancel (Cancelar).
Figura 1.1 Ventana de inicio del SPSS Luego de haber seleccionado la opcin Cancel (Cancelar) el programa esta listo para iniciar a trabajar, para lo cual dispone de un men principal situado en la parte superior de la ventana la cual explicaremos a continuacin.
Men: Si procede a seleccionar cada opcin del men principal podr hacerse una idea somera de las posibilidades que el programa ofrece y aunque en los diferentes captulos veremos con detalle la mayora de las opciones, bueno es que ahora adelantemos un resumen de los mismos.
Figura 1.2 Men Principal. File (Archivo): Mediante este men se pueden abrir, crear o grabar los diferentes ficheros que SPSS emplea ya sean de datos, instrucciones, grficos o resultados. Igualmente es posible controlar las tareas de impresin. Edit (Edicin): Permite realizar las tareas de edicin: modificar, borrar, copiar, pegar, insertar variables o insertar casos, ir a un caso especifico o modificar algunas opciones del programa. View (Ver): Nos permite determinar si podemos ver las lneas de divisin, las etiquetas, determinar la fuente de letra (negrita, subrayada, etc.), barra de estado entre otras opciones. Data (Datos): Este men permite definir variables as como efectuar modificaciones en los ficheros de datos: Seleccionar, aadir, ponderar, etc. Transform (Transformar): Aqu se encuentran todas las opciones relativas a la modificacin y generacin de nuevas variables. Las funciones de este men y del anterior son temporales y slo estn vigentes durante la sesin sin que afecten al fichero original de datos. Si se quieren convertir en permanentes deben grabarse los cambios. Analyze (Anlisis): Mediante este men se accede a los diferentes anlisis estadsticos que se hayan instalado. Grapas (Grficos): Permite la creacin y edicin de diversos tipos de grficos de alta resolucin, algunos de ellos son tambin accesibles a travs de determinadas tcnicas estadsticas. Utilities (Utilidades): Utilidades que permiten conocer la definicin de variables, modificar el men principal, etc. Window (Ventana): Dispone de las funciones habituales para controlar las ventanas del sistema tales como ordenar (Vertical, Horizontal o en Cascada). Help (Ayuda): Proporciona ayuda al usuario en el formato tpico de Windows, adems de tiles tutrales que lo guan paso a paso.
Barra de Estado: Para acabar con esta breve descripcin de la ventana principal se explicar lo relativo a la barra de estado, esta aparece en el extremo inferior derecho de la ventana y est dividida en varias zonas de aviso. Figura 1.3 Barra de Estado. En la primera aparece lo relativo al procesador de SPSS, en esta muestra el nombre del comando que en ese momento se est ejecutando e informacin adicional como, por ejemplo, el nmero de casos procesados. Otros mensajes que aparecen hacen referencia a si en la sesin se ha efectuado algn tipo de seleccin de casos del fichero activo, si el fichero ha sido dividido en funcin de los valores de alguna variable o si se est empleando algn tipo de ponderacin.
Ventana de Resultados: Los resultados de los diferentes subprogramas tales como listados, tablas, informe de las modificaciones efectuadas en los datos, los mensajes y avisos de errores se van grabando en el fichero de resultados donde es posible su edicin. Una ventana de este tipo se abre automticamente cuando se inicia el sistema y se pueden tener abiertas tantas como se quiera. Ventana de Sintaxis: En esta es posible ir pegando y si se quiere decir editando- los mandatos e instrucciones correspondientes a las opciones que se vayan seleccionando en los diferentes cuadros de dilogos. Veamos una cuestin importante que afecta a las ventanas de ficheros de texto (resultados y sintaxis) cuando se tienen abiertas simultneamente ms de una de cada tipo. La ventana activa es la que est actualmente seleccionada, pero esto no debe confundirse con lo que SPSS denomina ventana designada, si se tienen abierta ms de una ventana de resultados, independientemente de cul sea la activa, dichos resultados se irn grabando en la ventana designada. Para saber de cul se trata, SPSS antecede a su nombre un signo de exclamacin en la barra de herramientas. En cualquier momento se puede cambiar tal designacin empleando el icono que con tal smbolo aparece en la barra de iconos de este tipo de ventanas (ver figura 2.2).
Figura 2.2 Icono de designacin de ventanas. Vistas las tipologas de ficheros y ventanas de SPSS, vamos ahora a ver con ms detalle el modo de operacin en los cuadros de dilogos.
II.3 Normas de operacin en los cuadros de dilogo Los tres componentes bsicos son: el cuadro de lista de variables de origen o fuente, el de la lista de variables seleccionadas y los botones de instrucciones u rdenes. El primer cuadro incluye la lista completa de las variables contenidas en el fichero de datos que est vigente en ese momento de la seleccin, inicialmente contendr todas las variables. En el segundo cuadro aparecen las variables que se han seleccionado para ese determinado anlisis, segn las caractersticas del anlisis, pueden ser una nica lista o ms de una. Entre la lista de variables origen y la lista de variables destino siempre aparece un botn conteniendo una flecha que sirve para pasar de un cuadro a otro las variables seleccionadas en la direccin deseada, con el fin de activar o desactivar una determinada seleccin.
Variables de destino
Figura 2.3 Cuadro de dialogo Frecuencias. Veamos ahora los diferentes procedimientos de seleccin de variables, en primer lugar si slo hay un cuadro de variables destino la seleccin se puede hacer directamente haciendo doble clic sobre las variables origen que se desea, si hay ms de un cuadro deben emplearse los botones correspondientes, como normalmente es preciso seleccionar ms de una variable, existen diferentes tcnicas para proceder a selecciones mltiples. Si se desea seleccionar un subconjunto de variables y todas ellas figuran adyacentes en la lista, se puede usar el procedimiento de hacer clic y arrastra el ratn, manteniendo pulsado el botn izquierdo del mismo; o marcar la primera luego desplazar el puntero hasta la ltima y en ella emplear mayscula-clic. Si el subconjunto por seleccionar est formado por variables que no estn agrupadas todas juntas, se selecciona la primera con el procedimiento habitual y el resto empleando simultneamente el botn izquierdo del ratn y la tecla de Control (ctrl.). La misma tcnica es vlida para desactivar las selecciones realizadas. La direccin de la flecha del botn indica el sentido de paso de la variable seleccionadas de un cuadro a otro.
Junto a los cuadros de listas de variables, el tercer elemento del cuadro de dilogo son los botones de instrucciones o de acciones. Los cinco que aparecen en la columna derecha son comunes a la mayora de estos cuadros de dilogo, ver figura 2.3. El primero es el botn de OK (Aceptar) y como su nombre lo indica se emplea para finalizar la operacin en el cuadro y proceder a ejecutar el subprograma con las especificaciones introducidas. Una vez pulsado, se procesa y cierra el cuadro volviendo a la pantalla inmediatamente anterior. El segundo es Paste (Pegar) que permite generar instrucciones escritas en el lenguaje de mandatos de SPSS y pasar las mismas a la ventana de sintaxis, al presionar este botn la ejecucin queda aplazada con objeto de poder editar el programa en la ventan de sintaxis y posteriormente ordenar el procesamiento de las instrucciones desde ella. En tercer lugar aparece el botn Reset (Restablecer), si se pulsa todas las especificaciones y selecciones que se hubiesen realizado quedan anuladas y el cuadro principal y los subsiguientes o adicionales retornan a los valores pre establecidos por el sistema. El cuarto es Cancel (Cancelar) el cual anula las especificaciones realizadas y devuelve el control al men anterior o principal sin proceder a efectuar ninguna accin. Por ltimo el de Help (Ayuda) que proporciona informacin adicional sensible al contexto abriendo las ventanas tpicas de Windows para esta funcin. Junto con estos cinco botones bsicos en la mayora de los cuadros van a aparecer otros cuyo nombre va seguido de puntos suspensivos y que permiten abrir cuadros de dilogo adicionales, lgicamente el nmero, nombre y funcin de los mismo vara en cada subprograma, pero podemos emplear los que aparecen en el de Frecuencias, pues la estructura y apariencia es similar a todos ellos (Figura 2.3). Pulsemos el botn Formato y as abriremos este cuadro adicional, que es el que nos quedaba (Figura 2.4).
Figura 2.4 Cuadro de dilogo Formato. En l nos encontramos con los componentes y la estructura habitual, en primer lugar los cuadros adicionales contienen tres botones de instrucciones: Continue (Continuar): Incorpora las opciones especificadas y devuelve el control al cuadro principal.
Cancel (Cancelar): Se vuelve al cuadro inicial anulando las especificaciones seleccionadas, si la hubiere, devolviendo el cuadro a su estado inicial con los valores pre establecidos por el sistema. Help (Ayuda): Proporciona ayuda correspondiente a las opciones de este cuadro de dialogo. Junto con estos tres botones, los cuadros de dilogo adicionales permiten establecer una serie de especificaciones suplementarias al programa principal y para ello se valen de tres tipos de recursos. Cuadro de opciones aditivas: Sirven para marcar aquellas opciones que deseamos activar pudindose seleccionar tantas como se deseen. Crculos de opciones excluyentes: Por el contrario las opciones que aparecen precedidas por crculos son mutuamente excluyentes, esto quiere decir que slo se puede elegir una de entre las que aparecen en cada grupo. En algunos cuadros el sistema de los botones es sustituido por el de las listas desplegables, de forma que la opcin preseleccionada es la nica que aparece acompaada por una flecha que al pulsarla permite desplegar la lista y ver le resto de las posibilidades. Cuadro de texto: Por ltimo en muchos casos aparecen cuadros de texto como el que se presenta en la Figura 2.4 en el cual se permite fijar el nmero mximo de categoras (Maximum number of categories) de las variables, de tal forma que si tal valor se excede la tabla correspondiente es suprimida del listado.
Archivos de hojas de clculo como Excel, Lotus y Multiplan. Archivos de sistemas de gestin de bases de datos como dBASE y Acces. Archivos de datos grabados en ASCII con o sin tabulacin. Ficheros de datos SPSS creados en otros entornos y sistemas operativos.
III.1 Cuestiones generales sobre la matriz de datos Si en el men de File (Archivo) abrimos un nuevo fichero de datos (File, New, Data) en la pantalla se abre la ventana del editor de datos con el titulo Untitled (Sin Titulo), ver Figura 3.1.
Figura 3.1 Ventana Editor de Datos. La parte fundamental de esta ventana es la tabla de doble entrada que aparece y que es el fichero de datos vaco, este tipo de fichero SPSS siempre tiene la estructura de una matriz rectangular, las filas representan los casos o sujetos y las columnas las variables, lgicamente en la interseccin de cada fila y columna se encuentra el valor que dicha variable asume para el caso en cuestin.
III.2 Definicin de las variables de la Matriz Este es un proceso iterativo que debe realizarse con todas las variables que conforman, o van a conformar, el fichero de datos. Para ello se comienza seleccionando la primera de las variables potenciales y procediendo a su definicin, Una vez finalizada sta, se repite el proceso con la segunda y as sucesivamente hasta finalizar. Como luego veremos, si se dispone de un grupo de variables con la misma estructura, con objeto de simplificar el trabajo, es posible proceder de forma conjunta a la definicin de cada grupo. Para seleccionar una variable en la matriz basta con situar el puntero en el encabezado de la misma y hacer doble clic, como resultado se abre el cuadro de dilogo de la definicin de variables (Figurara 3.2). Como vemos la definicin de una variable soporta cinco tareas:
Denominar la variable. Definir el tipo de la misma Fijar un formato de columna. Asignar etiquetas significativas a variables y valores. Definir cdigo especficos para los valores ausentes o perdidos.
El nombre se escribe en la primera columna que aparece y el resto de las cuatro funciones se accede presionando la tecla TAB o dando clic en cada uno de ellos.
Figura 3.2 Definicin de variables. Name (Nombre): Especifique el nombre de la variable, este puede contener hasta un mximo de 64 caracteres y debe iniciar con un carcter literal. Type (Tipo): Define el tipo de variable que se va introducir, esta puede ser:
Numeric (Numrica): una variable cuyos valores son numricos. Comma (Coma): una variable numrica cuyos valores son separados por comas cada tres lugares. Dot (Punto): una variable numrica cuyos valores son separados por puntos cada tres lugares. Scientific notation (Notacin Cientfica): una variable numrica en notacin cientfica. Date (Fecha): Variable numrica en formato de fecha, se puede seleccionar un formato de varios. String (Carcter): Los valores de una variable string (carcter) no son numrcas y por lo tanto no es posible realizar operaciones de suma, resta, multiplicacin o divisin, si por ejemplo hemos definido una variable de tipo carcter e introducimos el carcter 1 y 2 estos no se pueden sumar puesto que el sistema los identifica como carcter y no como valores numricos.
Decimals (Decimales): Se especifica cuantos decimales contendr una variable numrica. Label (Etiqueta): Se escribe una descripcin de la variable. Values (Valores): Se especifica el significado de los valores de algunas variables, por ejemplo, si definimos una variable denominada SEXO esta puede tener dos valores 1 o 2 entonces en esta opcin podemos darle significado a estos valores denominando 1 como Femenino y 2 como Masculino. III.3 Denominacin de variables SPSS exige que se asigne un nombre a cada variable con objeto de identificar correctamente los diferentes conjuntos de datos que conforman cada campo y poder as proceder a los diversos tratamientos. La extensin mxima de los nombres es de 64 caracteres sin espacio, forzosamente el primero de ellos debe ser una letra, los restantes pueden ser cualquier combinacin de letras, obviamente los nombres deben ser nicos no estando permitida su repeticin en el mismo fichero de datos. Es indiferente que se usen maysculas o minsculas pues internamente el sistema opera siempre con mayscula, independientemente de la forma en que aparezcan los nombres. Por ltimo hay una serie de palabras clave que tienen un significado especial para SPSS ya que se emplean en diferentes procesos y subprogramas y que, en consecuencia, no se pueden usar como nombre de variables y son los siguientes: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH
III.4 Etiquetado de variables y valores Existen la posibilidad de asignar etiquetas ilustrativas a las variables y a los valores de las mismas, vamos ahora a ver el modo en que stas pueden ser declaradas, para ello, en la ventana de definicin de datos se pulsa en el botn de Values (Valores) con lo que inmediatamente se abre el correspondiente cuadro adicional (ver Figura 3.4).
Figura 3.4 Etiqueta de Variables y Valores. Las Etiquetas de valores (Value Label) slo merece la pena para variables cualitativas en las que los cdigos asignados a los valores no resulten significativos y muy especialmente cuando se haya realizado una codificacin numrica de los mismo, las etiquetas de los valores (Value Label) pueden tener una extensin mxima de 60 caracteres. Esta posibilidad no es viable con variables alfanumricas largas es decir aquellas cuya longitud excede de ocho carateres. Como vemos en la Figura 3.4 es posible Crear (Add), Modificar (Change) y Borrar (Remove) las etiquetas de los valores. Para crea las etiquetas el procedimiento es el siguiente:
En primer lugar se selecciona en la lista de la etiqueta que se quiere modificar con lo que aparecen el valor y el texto de la etiqueta en los cuadros correspondientes, a continuacin se realizan las modificaciones que se estimen oportunas y una vez acabado se pulsa el botn de Change (Cambiar) y la nueva correspondencia aparecer en la lista. Si la modificacin que se quiere realizar es ms radical y consiste en la supresin de la etiqueta, basta con seleccionarla y pulsar el botn Remove (Borrar). III.5 Definicin de cdigo para los valores ausentes o perdidos (Missing) Con este trmino se entienden aquellos casos en que no se dispone de informacin sobre el valor de una variable determinada. SPSS distingue dos tipos de valores ausentes (Missing), los definidos por el propio sistema (system-missing values) y los definidos por el usuario (user-missing values). Los primeros (system-missing values) son automticamente asignados a todas las casillas vacas que aparezcan en una variable declarada como numrica y son representados por una como (o un punto si el sistema emplea la notacin sajona). Es posible establecer distinciones entre diferentes tipos de informacin ausente asignando cdigos especficos a los valores ausentes y en este caso se trata de valores ausentes definidos por el usuario (user-missing values). Es posible realizar esto con todo tipo de variables excepto con las alfanumricas largas, es decir las que sobrepasan los ochos caracteres. Para especificar este tipo de valores, debe pulsarse el botn correspondiente en la ventana de definicin de datos y como de costumbre se abre el cuadro adicional (ver Figura 3.5).
Figura 3.5 Definicin de Datos Perdidos En el vemos dos opciones mutuamente excluyentes, la primera, preseleccionada por el sistema, es la de la ausencia de valores ausente definidos por el usuario, todos los valores, excepto los blancos, son considerados como vlidos, las dos restantes se corresponden con las dos formas de asignar valores ausentes de que dispone el sistema. En cualquiera de las dos basta con teclear los valores en los cuadros de texto correspondiente.
Con esto finaliza la exposicin de las etapas que conforman el proceso de definicin de las variables, este proceso se debe realizar con todas y cada una de las variables que constituyen la matriz de datos.
IV Introduccin de Datos
Ahora vamos a discutir los procedimientos de introduccin de datos utilizando las posibilidades que brinda el editor que SPSS tiene incorporado, y ms adelante se abordarn las tareas de edicin. Para ello vamos a comenzar presentando las caractersticas del ejemplo que vamos a utilizar para practicar lo que hemos visto anteriormente. Algo muy importante que merece la pena mencionar es que un cuidadoso diseo previos de una base de datos es un requisito precursor para lograr la calidad de los resultados finales. IV.1 Presentacin del ejemplo Supongamos que la alcalda de Len decide efectuar un estudio sobre las condiciones generales de las viviendas y sus habitantes, para ello se realiza una encuesta, en dicha encuesta a los habitantes se les solicita que aporten la siguiente informacin:
Material con que se encuentran construidas las PAREDES. Como accede al AGUA potable. Si tiene o no inodoros. Material con el cual esta construido el PISO. Si tiene acceso a LUZ elctrica. Cuantos CUARTOS tiene para dormir. Zona en que se ubica la casa (Urbano, Rural) Barrio.
Adems de las condiciones de las viviendas se les pregunta sobre las personas que viven en estas y se le solicita la siguiente informacin:
Nombres y Apellidos. Sexo. Fecha de Nacimiento. Ocupacin. Educacin. Sucesos tales como Inmigraciones, Nacimientos. Fecha en que ocurrieron estos sucesos.
Emigraciones,
Defunciones,
Nuevos
En estos seis aspectos que denominaremos variables, las valoraciones se expresan mediante categoras, por ejemplo en cuanto a las paredes se expresan a travs de cinco categoras; 1 Ladrillos/Cemento, 2 Adobe/Taquezal, 3 Madera, 4 Palma y 5 Cartn / Ripios / Metal / Plstico. En cualquier estudio es altamente recomendable incluir siempre una variable que identifique a los casos del anlisis, en nuestro ejemplo aunque no mencionamos un identificador esto queda implcito. La ventana del editor de datos cada caso est presidido por un nmero, pero este representa el identificador interno del sistema.
IV.2 Plan de codificacin de las variables La primera variable para las condiciones de viviendas es CI_VIVIENDA y se trata del identificador, es una variable alfanumrica cuyo valor puede estar conformado por nmeros, letras o nmeros y letras, pero su longitud es de 7 espacios, el texto de la etiqueta sera Cdigo de Vivienda. La segunda es PAREDES es una variable numrica con 5 valores: 1. Ladrillo / Cemento. 2. Adobe / Taquezal. 3. Madera. 4. Palma. 5. Cartn / Plstico / Metal / Ripios. La siguiente es AGUA es una variable numrica con 6 valores: 1. Tubera adentro. 2. Tubera puesto comunal. 3. Pozo propio. 4. Pozo comunal. 5. Ro / Quebrada. 6. Agua comprada en barril / Bidones. La cuarta variable es EXCRETA la cual puede tener 3 valores: 1. Inodoro. 2. Excusado. 3. No tiene. La quinta variable es PISO que puede tener los siguientes valores: 1. Ladrillo de cermica. 2. Ladrillo de cemento. 3. Ladrillo de barro. 4. Embaldosado. 5. Suelo. La sexta variable es AGUA: 1. Si. 2. No. La variable CUARTOS es una variable numrica la cual puede tener valores mayores o iguales que 0, pero sin decimales.
IV.3 Entrada del diccionario de Datos En SPSS al conjunto de caractersticas y opciones relativas a la definicin de variables y datos se le denomina diccionario de datos, vamos a comenzar creando este diccionario, para ello del men File (Archivo) debe seleccionarse la opcin New (Nuevo) y de la lista seleccionar Data (Datos) (File -> New -> Data). Como resultado obtenemos en la ventana del editor de datos la matriz (Figura 4.1), ahora vamos a definir las diferentes variables comenzando por CI_VIVIENDA. En primer lugar seleccionamos la primera columna de la matriz haciendo doble clic el cual nos enva a la ventana Variable View (Vista de Variables) y en esta parte escribimos la definiciones de esta variables tales como Nombre, Tipo, Ancho, Decimales, Etiquetas, Valores y definicin de valores perdidos (Figura 4.2).
Figura 4.2 Definicin de variables para condiciones de las Viviendas. Una vez denominada la variable, vamos a proceder de forma similar con el resto de sus atributos, pulsamos el botn Type (Tipo) y en el cuadro adicional modificamos la extensin fijndola en 7 caracteres y cero dgitos decimales (Figura 4.3), pulsamos el botn OK para volver a la ventana inicial.
Figura 4.3 Definicin del tipo de Variable. Para introducir las etiquetas de los valores, abrimos el cuadro correspondiente pulsando el botn ubicado debajo del nombre de la columna Values (Valores) despus del cual aparece una cuadro de dialogo donde definimos los valores y las etiquetas que le dan significado a estos (Figura 4.4).
V Tabulacin de Datos
V.1 Introduccin Ante cualquier problema abordado desde el aparato estadstico se precisa de una depuracin de los datos consistente en identificar para cada variable los valores incorrectamente transcritos, los valores anmalos, los ausentes, etc. Conviene disponer de una descripcin simple y grfica de las variables, todo ello se puede examinar a travs de las tablas de las distribuciones de frecuencia as como de los diagramas de barras, histogramas y estadsticos descriptivos. V.2 Distribucin de Frecuencias Con el fin de obtener las tablas de frecuencia, las representaciones grficas correspondientes y los estadsticos asociados, se entra en este cuadro de dialogo: Analyze -> Descriptive Statistic -> Frecuencias. Se seleccionan las variables objeto del procedimiento (Figura 5.1). Si se hace clic sobre OK directamente se obtienen para cada una de las variables:
Etiquetas de las variables. Valores y sus etiquetas. Frecuencia absoluta. Porcentaje sobre el total de casos. Porcentaje de los casos perdidos (o ausentes) o porcentaje vlido. Porcentaje acumulado eliminando los casos ausentes. Nmero de casos vlidos. Nmero de caos ausentes.
Figura 5.1 Definir variables a emitir Frecuencia. Display frequency tables (Ver tablas de frecuencias): como opcin por defecto, muestra la tabla de frecuencias; si se la suprime y no se selecciona algn estadstico o
grfico slo se mostraran las frecuencias absolutas junto con los nmeros de casos vlidos y ausentes. V.3 Estadsticos Para obtener las estadsticas bsicas en el mdulo de frecuencia es preciso hacer clic sobre Statistics (Estadsticas) dentro del cuadro de dilogo de la Figura 5.1, de esta forma se abre el cuadro de dilogo correspondiente representado en la figura 5.2.
Figura 5.2 Estadsticas en el modulo de Frecuencias. Aqu nos encontramos con las medidas de tendencia central habituales: media, mediana, moda y suma. Adems se presentan las medidas de dispersin: desviacin tpica, varianza, rango, mnimo, mximo y el error tpico de estimacin de la media. En cuanto a la forma de la distribucin, facilita los coeficientes de asimetra y curtosis.
Quartiles (Cuarteles): los que muestra los valores de los percentiles 25, 50 y 75. Cut Points for equal groups (Puntos de Corte para grupos iguales): Muestra los valores de los percentiles que dividen al grupo en un nmero predeterminado de subgrupos, slo hay que especificar el nmero de subgrupos que por defecto es 10. Percentil(es) (Percentiles): Muestra los valores de los percentiles que el usuario desee, no hay ms que especificar una serie de nmeros entre 0 y 100 que aparecern en el recuadro. Para lograr una lista de ellos se presiona tras cada una Add (Agregar), si alguno se quiere cambiar Change (Cambiar) y si al usuario no le gusta alguno de los que ha especificado Remove (Remover). Values are group midpoints (Los valores son puntos medios de intervalos): Si se han agrupo los datos en intervalos, se pueden estimar los percentiles para los datos originales, es decir, sin agrupar, suponiendo que los casos se distribuyen uniformemente en cada grupo, por supuesto carece de sentido aplicarlo a variables no agrupadas en intervalos.
V.4 Representacin grfica de las distribuciones de frecuencia Para obtener los distintos diagramas asociados a una distribucin de frecuencia hay que recurrir al cuadro de dilogo correspondiente haciendo clic en el cuadro Charts (Grficas), ya situado en l (Figura 5.3) nos encontramos con Chart Type (Tipo de grfica) y sus distintas alternativas:
None (Ninguno): Sin diagrama, es la opcin por defecto. Bar Charts (Grfico de Barras): Diagrama de barras, se determina la escala segn la mayor frecuencia absoluta. Pie Charts (Grfico de pastel): Diagrama de sectores o pastel. Histograms (Histogramas): Se obtiene el histograma de frecuencia slo para las variables numricas (se quiere decir para las variables numricamente codificadas), as mismo se puede superponer a un histograma la curva normal activando esta opcin With normal curve (Con curva normal).
En cada diagrama de barras (Bar charts) se puede caracterizar el eje vertical del diagrama a travs de Chart Values (Valores de la grfica) que presenta dos opciones:
Frequencies (Frecuencias): Por defecto, en el eje vertical se representan las frecuencias absolutas. Percentages (Porcentajes): Se presentan los porcentajes.
Figura 5.3 Grficos en el mdulo de Frecuencia. Hay que resear que el aspecto de las grficas se puede mejorar a gusto del usuario, haciendo doble clic sobre l se nos presenta (al cabo de un tiempo) la ventana Chart Editor (Editor de Grficos) con sus barras de botones en donde se puede cambiar colores de barras, modificar el titulo y otros. Esto es algo ms complicado y se ver con algo ms de detalle mas adelante en este curso.
V.5 Formato de los resultados El objetivo de esta opcin es modificar el aspecto de los resultados, en el cuadro de dilogo de Frecuencias se hace clic en Format (Formato) nos encontramos (ver Figura 5.4) con los dos primeros aspectos, se tiene la siguiente observacin sino no se ha seleccionado la opcin Display frequency tables (Ver tablas de frecuencia) algunas opciones de este cuadro de dilogo no se habilitaran:
Order by (Ordenar por): Controla el orden de aparicin de los resultados segn las siguientes alternativas o Ascending values (Valores ascendentes): por defecto, los valores se presentan en orden ascendente. o Descending values (Valores descendentes): los valores se presentan en orden descendente. o Ascending counts (Frecuencia Ascendente): los valores se presentan en orden ascendente segn su frecuencia. o Descending values (Frecuencia Descendente): los valores se presentan en orden descendente segn su frecuencia. Multiple Variables (Variables Multiples): Controla la forma en que muestra el resumen estadstico segn las siguientes alternativas: o Compare variables (Comparar variables): muestra en un solo cuadro los resultados estadsticos de todas las variables. o Organize output by variables (Organizar resultado por variables): En este caso los resultados de los estadsticos se mostraran en tablas independientes. Suppress tables with more than n categories (Suprimir tablas con ms de n categoras): Presenta solo las tablas correspondientes a las variables con menor o igual nmero que las especificadas en el recuadro, por defecto 10.
V.6 Ejemplo para una variable cualitativa Se obtiene para la variable cualitativa PARED, que se refiere al material con que esta construida las paredes de las casas, la distribucin de frecuencia (figura 5.5) sin estadsticos y se solicita un diagrama de barras en las cuales se muestre el porcentaje. El resto de las opciones es por defecto.
Figura 5.5 Ejemplo de frecuencia. Se observa que hay un bloque de resultados (figura 5.6) en el cual se muestra los valores vlidos, Frecuencia absoluta, Porcentaje, Porcentaje vlido y porcentaje acumulado, luego se hace un conteo de los valores perdidos por el sistema y por el usuario.
PARED Frecuencia 9077 153 450 10 1240 42 10972 10 12 22 10994 Porcentaje 82.6 1.4 4.1 .1 11.3 .4 99.8 .1 .1 .2 100.0 Porcentaje vlido 82.7 1.4 4.1 .1 11.3 .4 100.0 Porcentaje acumulado 82.7 84.1 88.2 88.3 99.6 100.0
Vlidos
Perdidos
Ladrillo / Cemento Adobe / Taquezal Madera Palma Cartn / Plstico / Metal / Ripios Otros Total 99 Sistema Total
Total
Figura 5.6 Distribucin de frecuencia de la variable PARED. Por ltimo se hace referencia a la grfica de barra de la variable PARED.
P R D A E
100
8 0
6 0
j a t n e c r o P
40
2 0
0 Lad rillo / C m nto e e A e/ dob T ezal aqu M era ad P lm a a C n/ art P stico / l M etal / R ipios O s tro
P RD A E
Figura 6.1 Estadsticos descriptivos. Se selecciona la variable objeto del procedimiento (figura 6.1) y, por defecto, si se hace clic sobre OK (Aceptar), se obtiene por cada variable:
VI.3 Opciones Con el fin de obtener otros estadsticos adems de los obtenidos por defecto, se hace clic en Options (Opciones) en el cuadro de dilogo en que nos encontramos. En el
nuevo (figura 6.2) las se agrupan en tres bloques precedidoe la variable a travs de todos los casos. En el primer bloque estn las medidas de dispersin:
Std. Deviation (Desviacin tpica): estimacin insesgada de la desviacin tpica. Variance (Varianza): estimacin insesgada de la varianza. Range (Rango): rango o amplitud total. Minimum (Mnimo): mnimo de los valores que la variable adopta. Maximim (Mximo): mximo de los valores que la variable adopta. S.E. mean (E.T. media): error tpico de estimacin de la media.
Por ltimo, el bloque titulado Display Order (Ver por Orden), bajo el que se controla el orden de aparicin de los resultados y presenta las siguientes alternativas:
Variable list (Lista de variables): se presentan las variables segn el orden del archivo. Alphabetic (Alfabtico): el orden de presentacin de las variables es alfabtico. Ascending means (Medias ascendentes): las variables se presentan en orden ascendente. Descending means (Medias descendentes): al revs que la anterior.
VI.4 Ejemplo
Otra forma de obtener una descripcin simple de una variable cuantitativa la ofrece el presente procedimiento, la ventaja es que se pueden salvar o guardar las puntuaciones tpicas de los sujetos en la o las variables que interesen (figura 6.3)
Figura 6.3 Estadsticas descriptivas de ejemplo. La variable en cuestin es la edad del habitante medida en aos, nos encontramos con los valores de todos los estadsticos disponibles (figura 6.4).
Se seleccionan (figura 7.1) las variables cuantitativas en el recuadro Dependent List (Lista Dependiente) y si se hace clic en OK (Aceptar) se obtienen para cada variable, por defecto, el diagrama de tallo y hojas, el de cajas, as como los estadsticos de tendencia central, de dispersin, asimetra, etc. La media recortada al 5% y el recorrido intercuartil (IQR). Adems se puede especificar en Factor List (Lista de Factores) una serie de variables que jugaran el papel de factor; cada combinacin entre variables dependientes y factores se trata como un problema diferente. En el tercer recuadro en Label Case by (Etiquetar casos por) se puede seleccionar una variable que servir para etiquetar a los casos anmalos e inusuales; es decir, en lugar de que tales casos se vean identificados, por defecto, por sus numero de secuencia, lo sern por las etiquetas de los valores de la variable que se haya especificado. En Display (Mostrar) se presentan tres alternativas:
Statistics (Estadsticos): slo presenta los estadsticos. Plots (Grficos): solo se presentan las grficas.
Figura 7.1 Cuadro de dialogo Explore. VII.3 Estadsticos En funcin de lo que se haya seleccionado en Display (Mostrar), se obtendran o no los estadsticos. Suponiendo que all se haya seleccionado Both (Ambos) o Estatistics (Estadsticos). Se hace clic en el Estatistics y se entra al cuaro de dilogo del que ahor nos ocupamos (figura 7.2).
Descriptives (Descriptivos): por defecto, se obtienen los estadsticos habituales, as como la media recortada al 5%, recorrido intercuartil y los ndices de asimetra y apuntamiento acompaados de sus respectivos errores tpicos, en el recuadro de texto adjunto se especifica el nivel de confianza para la etimacin por intervalo de la media en Confidence Interval for Mean. M-estimators (Estimadores robustos centrales): estimadores robustos de tendencia central, se presentan los de Huber, Andrew, Hampel y Tukey. Outliers (Valores atpicos): los casos etiquetados como extremos son los correspondientes a los 5 de mayor valor y a los 5 de menor. Percentiles (Percentiles): muestra los percentiles 5, 10, 25, 50, 75, 90 y 95 obtenidos
Figura 7.2 Estadsticos VII.4 Grficas Si se hace clic en Continue (Continuar) se vuelve al cuadro de dilogo inicial y, suponiendo que anteriormente no se ha seleccionado alguna alternativa que impida el obtener grficas, sin ms que hacer clic en Plots (Grficas) nos situamos ya en eel cuadro de dilogo correspondiente (figura 7.3). En l se observa que hay tres bloques de opciones y alternativas.
Factor levels together (Nivels de factores juntos): por defecto, en la misma grfica se presentan las cajas de los distintos grupos correspondientes al factor; hay una grfica por cada combinacin entre factores y variables. Dependents together (Dependientes juntas): para cada nivel del factor se representan las cajas de las distintas variables dependientes, incluyndose todos los niveles en una misma grfica; si el factor tiene bastantes niveles, la grfica es prcticamente ilegible. None (Ninguno): no se presenta este tipo de grfica.
Stem-and-leaf (Tallo y hojas): por defecto, se presenta para cada variable dependiente el diagrama de tallo y hojas. Histogram (Histograma): histograma obtenido agrupando los valores de la variable dependiente en intervalos de igual amplitud.
Para estudiar si una distribucin sigue una ley normal se dispone de:
Normalita plots with tests (Grfico con prueba de normalidad): se obtienen las grficas Q-Q de probabilidad normal (Q-Q Plot) y las de probabilidad normal eliminada la tendencia (detrended), as como los valores de los estadsticos de Shapiro-Wilks, Kolmogorov-Smirnov y Lilliefors.
Con el fin de examinar si hay homocedasticidad se dispone de Spread vs. Level with Levene Test (Dispersin por nivel con prueba de Levene): para lo que evidentemente ha habido que declarar con anterioridad algn factor:
None (Ninguno): por defecto, se suprimen las grficas de dispersin por nivel, as como la prueba de Leven. Power estimation (Estimador de potencia): se representa para cada nivel o grupo de la grfica de los logaritmos neperianos de la mediana contra el logaritmo neperiano del recorrido intercuartil; se muestra tambin la potencia estimada a que hay que elevar la variable dependiente para lograr la homocedasticidad. Transformed (Transformado): el usuario especifica alguna de las transformaciones de la lista desplegable, que por defecto es el logaritmo natural o neperiano. Untransformed (No transformado): no se procede a ninguna transformacin de los datos.
Figura 7.3 Grficas. VII.5 Opciones Tras pulsar en Continue (Continuar): se regresa al cuadro de dilogo inicial y en l, haciendo clic en Options (Opciones), se presenta unas alternativas para controlar el tratamiento de los valores ausentes (figura 7.4) Missing Values (Valores perdidos):
Exclude cases listwise (Excluir casos segn lista): por defecto, se excluyen los casos con valores ausentes en alguna de las variables dependientes y/o factores declararados.
Exclude cases pairwise (Excluir casos segn parejas): dado que puede haber varias variables dependientes y varios factores, que son tratados como se ha indicado con anterioridad, slo se suprimen del anlisis aquellos casos con algn valor ausente en la dependiente o el factor que se combinan. Report values (Mostrar valores): los casos con valores ausentes para los factores son tratados como niveles suplentarios.
VII.6 Ejemplo Se trata de explorar o examinar la variable denominada aflatoxina, un veneno cuya concentracin vara mucho, en rendimiento, entre las cosechas. Un procesador de granos ha recibido ocho producciones de la cosecha, Pero la distribucin de aflatoxina en partes por milln (PPM) debe evaluarse antes de que ellos lo puedan aceptar. Para iniciar el anlisis exploratorio Entramos al cuadro de dialogo inicial:
Analyze (Analizar) Descriptive Statistics (Estadsticas Descriptivas) Explore (Explorar)
Luego seleccione Aflatoxina PPB como la variable dependiente y luego seleccione Corn Yield como factor y por ultimo dar clic en OK.
Figura 7.5 Anlisis Exploratorio de Datos. Para evaluar como la media de Aflatoxina PPB varia por produccin de maz, puede pivotear los resultados descriptivos para mostrar los estadsticos que desee, para esto siga los siguientes pasos: 1. En la tabla de los resultados de doble clic para poder editar los datos. 2. Se mostrara un cuadro de dialogo con el titulo Pivoting Trays 1, sino se muestra este cuadro puede hacerlo que se muestre de la siguiente forma a. Pvot Pivoting Trays. 3. Seleccione el tercer icono que se muestra en la parte inferior izquierda del cuadro.
5. Cierre el cuadro y luego desactive el modo de edicin de la tabla de resultados dando clic fuera de esta.
De acuerdo a las leyes nacionales el producto no es adecuado para el consumo si la Alflotoxina excede los 20 PPB. Los resultados muestran claramente que las producciones correspondientes a 4, 7 y 8 caen por debajo de los 20 PPB
Descriptives Mean Aflatoxin PPB Corn Yield 1 2 3 4 5 6 7 8 Statistic 20.2500 33.0625 32.6875 14.6875 33.0000 31.3750 17.0625 8.4375 Std. Error 1.07819 3.04339 2.57669 .66281 1.55724 .71224 1.04670 .76903
El diagrama de Cajas (Boxplot) le permite comparar cada grupo usando cinco estadsticos: la media, los percentil 25 y 75, los valores mnimos y mximos.
La cinta negra que se presenta dentro de cada caja representa el percentil 50 o medina, de la distribucin. Por ejemplo la medina de Afloxitina # 1 es de 21.5, note que las medinas varan. Las bisagras superior e inferior o los Limites de la caja, muestran el percentil 25 y 75 de cada distribucin. Para el rendimiento # 2 el limite inferior es de 24.75 y el superior es de 36.75. Los bigotes aparecen por encima y por debajo de las bisagras. Los bigotes son lneas verticales que terminan finalizando en lneas horizontales que representan los valores mas altos y bajos que no son estadsticamente considerados como outliers (Valores atpicos). Para el rendimiento # 2 el
70.00
20
60.00
50.00
71
40.00
30.00
B P n i x o t a l f A
20.00 10.00 0.00 1 2 3 4 5 6 7 8
Corn Yield
Como se ve en la figura 8.1 podemos seleccionar las variables que constituirn las Filas (Rows) por un lado, y las Columnas (Columns) por otro. El que se especifique ms de una variable de cada tipo no implica que se vayan a tratar todas conjuntamente; se procesan las posiblies combinaciones de dos en dos, siendo cada una de un tipo. Por defecto, haciendo clic en OK (Aceptar) y sin ms especificaciones, se obtienen las frecuencias absolutas de cada casilla as como las medidas de asociacin que se vern posteriormente en Statistics (Estadisticos).
Veamos ahora cmo funcionan las variables de control. Por cada categora de esta tercera variable, la de control, se presenta una tabla de contingencia simple de las dos variables. En caso de que hubiese, por ejemplo, dos variables control, se producira una tabla de contingencia simple de las dos variables control. Hacer esto operativo consiste en especificar en el recuadro inferior derecho el nombre codificado de la variable control, procediendo como habitualmente en la seleccin de variables. As, seleccionamos el primer grupo de variables control, por ejemplo con dos variables: aparecer sobre el citado recuadro Layer 1 of 1 (Capa 1 de 1); si seleccionamos otro grupo con otras tres variables control, tras hacer clic en Next (Siguiente), podremos observar Layer 2 of 2 (Capa 2 de 2); si hacemos clic en Previous (Previo) aparecer el primer grupo de variables control. Los resultados consistirn en tablas simples de contingencia para cada combinacin de categoras de las variables control del primer grupo y del segundo, es decir, no se combinan las variables del mismo grupo, con lo que en este ejemplo el nmero de variables que se combinan entre si es de 6 y no C(5,2)=10. Dentro de este cuadro de dilogo nos quedan otras opciones:
Suppress tables (Suprimir tablas): no se muestra ninguna tabla, sino slo los estadsticos, pero exclusivamente en el caso en que por lo menos alguno de stos haya sido solicitado. Display Clustered bar Charts (Mostrar grficos de barras): muestra un grfico de barras.
VIII.3 Estadsticos asociados a las Tablas de Contingencia El cuadro de dilogo correspondiente Statistics (Estadsticos) figura 8.2 se pueden observar cuatro que no tienen encabezamiento.
Chi-square (Chi cuadrado): Incluye a ella misma, la de la razn de verosimilitud y la prueba de linealita de Mantel-Haenszel; para tablas 2 x 2 y en el caso en que la frecuencia esperada en alguna de las casillas sea menor que 5 se realiza la prueba exacta de Fisher. Se presenta la correlacin de Yates en el resto de tablas 2 x 2. Correlations (Correlaciones): Para datos numricos se presentan los coeficientes de correlaciones de Pearson y de Speraman. Kappa: De Cohen, slo para tablas cuadradas en que las categoras de las dos variables son las mismas; pinsese por ejemplo en la medicin de una misma variable por dos observaciones distintas. Risk (Riesgo): Slo para tablas 2 x 2 relacionadas con estudios prospectivos y retrospectivos. McNemar: Prueba no paramtrica para dos variables dicotmicas relacionadas. Esta prueba se utiliza normalmente en una situacin de medidas repetidas, en la que la respuesta de cada sujeto se obtiene dos veces, una antes y otra despus de que ocurra un evento especificado. La prueba de McNemar determina si la tasa de respuesta inicial (antes del evento) es igual a la tasa de respuesta final (despus del evento). Esta prueba es til para detectar cambios en las respuestas causadas por la intervencin experimental en los diseos del tipo antes-despus.
Contingency coefficient (Coeficiente de Contingencia): Medida de asociacin basado en la Chi Cuadrado, el valor estar entre 0 y 1, donde el cero indica no asociacin entre las filas y las columnas y los valores cercanos a uno indica alto grado de asociacin entre las variables. Phi and Cramers V (Phi y V de Cramer): Lamda: Uncertainty Coefficient:
Cuando una de las variables se considera medida bajo escala nomilan y la otra es intervalo:
Eta:
VIII.4 Resultados en cada casilla Si se hace clic en Cell (Celdas) del cuadro de dilogo principal para ver sus posibilidades. Ya abierto el cuadro de dilogo correspondiente (figura 8.3) nos encontramos con tres bloques con opciones aditivas. En cuanto a las frecuencias absolutas Counts (Frecuencias):
Observed (Observadas): por defecto, empricas. Expected (Esperadas): tericas, que representan independencia entre ambas variables.
la
situacin
de
total
Row (Fila): Casos en cada casilla respecto de casos en su fila en porcentaje. Column (Columna): Anlogamente por columnas. Total: Casos en cada casilla sobre el total de la tabla en porcentaje.
Unstandardized (No tipificados): Residuos en frecuencias absolutas. Standardized (Tipificados): Los anteriores tipificados. Adjusted standardized (Tipificados corregidos): los anteriores ajustados.
VIII.5 Ejemplo sin variable de control Para determinar la tasa de satisfaccin al cliente, una compaa realiz un estudio entrevistando a 582 clientes en cuatro tiendas. Del resultado del estudio se determin que la calidad del servicio al cliente fue el factor mas importante. Dada esta informacin, se desea probar si cada una de las tiendas provee un similar y adecuado servicio al cliente.
4. Pretest para determinar las personas que conocen de estadsticas. 5. Pretest para determinar las personas que conocen de SPSS. 6. Adecuar los ejemplos de para las bases de datos. 7. Hojas de ejercicios por tema. 8. Revisar la base de datos que vamos a adecuar a los 9. Prepara un flder con todo los documento. 10. Documento con las medidas basica. 11. Que es una base de datos. 12. tener dos o tres CD con la documentacin de las medidas basicas.