You are on page 1of 28
Organizacion de los datos para reducir al minimo el error estadistico Introduccién 36 Control del error de muestteo 37 Estimacién estadfstica cuidadosa contra adivinacién o estimacién apresurada 40 Enror de muestreo y su manejo con la teoria de la probabilidad 41 Control del error de medicién 42 Niveles de mediciGn: seleccién cuidadosa de los procedimientos estadisticos 42 Medicion 42 Variables nominales 43 Variables ordinales 44 ‘Variables de intervalo’ 44 Variables de raz6n 45 ‘Cémo mejorar el nivel de medicién 47 Distinci6n del nivel de medida y unidad de medida 47 Codificacién y conteo de observaciones 48 Introduccion Asi sea rei Distribuciones de frecuencias 50 Estandarizacién de distribuciones de puntuaciones 51 Codificacién y conteo de datos de intervalo/razén 52 Redondeo de las observaciones de intervalo/raz6n 53 Los limites reales de puntuaciones redondeadas 53 Distribuciones de frecuencias de proporciones y de porcentajes para variables de intervalo/razén 55 Distribuciones de frecuencias de porcentajes acumulados 56 Percentiles y cuartiles 58 ‘Agrupacién de datos de intervalo/razén 60 Insensatez y falacias estadtsticas: la importancia de tener una muestra epresentativa 61 da para la investigacién cientifica, la mercadotecnia de un producto, un pro- néstico meteorolégico o una simple apuesta, la prediccién del futuro es un pasatiempo co- iin. Los cientificos realizan predicciones empiricas para probar la exactitud de sus ideas. Por ejemplo, ;cudl es la probabilidad de que seas victima de un delito en tu érea de trabajo? Maadriz (1996) encontré tres factores de prediccién basados en la idea de que el riesgo de ser victima de un delito puede reducirse por medio del estudio cuidadoso de actividades ru- tinarias. Un primer factor de riesgo es la exposicién, o vulnerabilidad circunstancial, como EEE trabajar solo por la noche en una tienda. Un segundo factor es la proximidad a delincuentes potenciales, como trabajar en una tienda ubicada en una zona con un alto indice delictivo. Un tercero es el atractivo del objetivo, es decir, desear la propiedad de una victima, por ejemplo: tener grandes cantidades de dinero disponibles. Si el duefio de una tienda pusiera a sus empleados en riesgo innecesario, un robo o asesinato no serfa un suceso aleatorio 0 una equivocacién; seria un error. En el capitulo 1 notamos que los errores son grados conocidos de imprecisién. Conocer 1a relacién entre las circunstancias y la probabilidad de un robo permite realizar ediciones preventivas que reduzcan las oportunidades calculadas para que los “errores” ocurran. Las mediciones para la reduccién del riesgo podrian incluir tener al menos dos empleados presentes, cerrar a las 11:00 p.m., ubicarse en un lugar de trdnsito denso, manejar pequefias cantidades de dinero disponible ¢ instalar sistemas de alarma. La reduccién del error depende de la comprensién de las relaciones que predicen entre variables. Como brevemente anotamos en el capitulo 1, la estadistica trata sobre la comprensién exacta y el control del error estadistico, los grados conocidos de imprecision en los proce- dimientos utilizados para reunir y procesar informacién. Los errores no son equivocaciones. Los errores son cantidades conocidas de imprecisién que pueden calcularse y reducirse por una seleccién cuidadosa e informada de disefios de muestreo, instrumentos de medicién y férmulas estadisticas. Error estadistico Grado conocido de imprecision en los procedimientos utili- zados para reunir y procesar informacién. El anidlisis estadistico cominmente implica un muestreo: analizar slo una pequefia par- te del grupo que se estudia. Por ejemplo, para aprender acerca de todas las tiendas pequefias, podriamos estudiar una muestra de 20 tiendas. ,Pueden los datos de la muestra de 20 tiendas revelar con precisin cémo funcionan todas ellas? La investigacién también comprende 1a observacién y la medicin. ;Podemos suponer que nuestras mediciones son completamente exactas? El muestreo y la medici6n son dos fuentes potenciales de error al obtener conclusio- nes en la investigacién. El error de muestreo representa la inexactitud en las predicciones sobre una poblacién que resulta del hecho de que no observamos a todos los sujetos de la poblacién. El error de medicién es la inexactitud en la investigacién que se deriva de ins- trumentos de medicién imprecisos, de las dificultades en la clasificacién de las observacio- nes y de la necesidad de redondear los nimeros. Después de estudiar cada uno de estos tipos de error, mostraremos cémo estan relacionados. Control del error de muestreo Analizar significa escoger algo y examinarlo con detalle de manera organizada. Al realizar trabajo estadistico, analizamos grupos de personas, objetos 0 acontecimientos y medimos va- riables para obtener promedios, tendencias 0 porcentajes. La medicién de una sola persona, por ejemplo, registrar como 19 afios de edad de Maria Lépez, no proporciona un estadistico; simplemente es una observacién. Sin embargo, determinar que la edad promedio de un grupo de 30 estudiantes es de 19.5 afios es calcular un estadistico con base en un conjunto de observaciones. El campo de la estadistica implica el resumen de c4lculos de numerosas observaciones, es decir, la adicion de un grupo de mediciones. Nuestros intereses se enfocan en observar muchos casos, recabar informacién precisa sobre ellos y hacer declaraciones concisas sobre el grupo, no sobre los individuos. EI grupo de sujetos que observamos a menudo es bastante pequefio. Nuestro propési es estudiar el ntimero pequefio de sujetos para obtener conclusiones sobre la poblacién grande a la cual esos sujetos pertenecen. Estudiar cada caso de un fenémeno es imprécti costoso ¢ innecesario. Por ejemplo, no tenemos que encuestar a cada votante probable pa determinar el apoyo al candidato A. En cambio, podemos encuestar una muestra representa tiva de votantes probables, quizé 500. Este grupo més pequefio se lama muestra, mientras. grupo més grande, completo, al que pertenece se denomina poblacién o universo. La figura 2-1 ejemplifica la noci6n del muestreo. La poblacién (0 universo) es un grup grande de personas de interés particular que deseamos estudiar y entender. Con frecuenci las poblaciones estudiadas incluyen a las personas de un pais, estado o comunidad; los preso en las instalaciones correccionales de un estado; los estudiantes actualmente inscritos en un universidad; las familias con hijos en edad escolar; los pacientes de un hospital; los jefes d cocina en restaurantes de la ciudad de Nueva York, y los ejecutivos de corporaciones. Un muestra es un subgrupo pequefio de la poblacién; la muestra se observa y se mide y despué se utiliza para obtener conclusiones sobre la poblacién. Poblacién (0 universo) Grupo grande de personas de interés particular que deseamos estudiar y entender. Muestra Subgrupo pequefio de la poblacién; la muestra se observa y se mide y después se utiliza para obtener conclusiones sobre la poblacién. El muestreo es algo que hacemos todo el tiempo. Probamos una cucharada (una mues. tra) para decidir si agregamos mAs picante en polvo a la olla (la poblacién). Para explora una carrera académica, por ejemplo sociologia, tomariamos uno o dos cursos (una muestra para determinar si el universo de ideas y actividades de la sociologia nos agrada. Una primera cita con alguien es un muestreo de la personalidad del individuo, una primera exposicién a universo de sus tendencias de conducta y actitudes. El muestreo es una conducta humana comin y eficaz. xX Xx x XxX XXX x Gee Xe XEKIX EX, X° Poblacién (por ejemplo, _ x X todos los estudiantes en X el campus) X-=la medici6n de una caracteristica de una persona (u objeto), por ejemplo la edad FIGURA 2-1 Relacién de una poblacién (univer- 0) de mediciones con una muestra de mediciones Un pardmetro es un célculo resumido Un estadistico es un célculo resumido de las mediciones realizadas en todos de las mediciones realizadas en una muestra, los sujetos de una poblacién (por ejemplo, _ para estimar un parametro (por ejemplo la la edad promedio real de todos los edad promedio de la muestra de estudiantes) estudiantes en el campus) Nuestro interés, sin embargo, no est4 en la muestra por sf misma. En cambio, quere- mos aprender sobre la poblacién entera. Para adquirir informacién completamente correcta Tespecto de una poblacién entera, medirfamos todos sus miembros y resumirfamos los re- sultados en términos mateméticos, reportando porcentajes, tasas y promedios. Al cdiculo resumido de mediciones realizadas en todos los sujetos en una poblacién se le llama paré- metro. Por ejemplo, el promedio de edad de presos en la prisién Sharpwire es un parémetro. El porcentaje de ejecutivos mujeres en la Menrule Plastics Corporation es un parémetro. Por desgracia, la mayorfa de las poblaciones son tan grandes que no podemos invertir el tiempo y los recursos necesarios para medir a todos los miembros. Por ejemplo, serfa absurdo medir las estaturas de todos los adultos en un pais. A causa de los altos costos para medir a cada sujeto en una poblacién, los verdaderos valores de los parémetros comtinmente son desco- nocidos. Por fortuna, el muestreo nos permite estimar parémetros con precisién. Con las mues- tras calculamos estadisticos en vez de parémetros. Un estadistico es un cdlculo resumido de mediciones realizadas en una muestra para estimar un pardmetro poblacional. Por ejemplo, en una muestra de 800 republicanos registrados en Nueva Jersey, encontrariamos que 74 por ciento apoyan al gobernador. Este porcentaje constituye un estadistico: slo una estima- ci6n del verdadero apoyo al gobernador. Una muestra y las estadisticas calculadas acerca de ésta son simples herramientas para obtener conclusiones sobre una poblacién en general, la poblacién no como un todo. Estas conclusiones, si se realizan siguiendo procedimientos estadisticos adecuados, se Ilaman generalizaciones estadisticas. Paradmetro Caiculo resumido de mediciones realizadas en todos los sujetos de una poblacién. Estadistico Calculo resumido de mediciones realizadas en una muestra para estimar un parametro poblacional. Nunca debemos perder de vista el hecho de que la poblaci6n es lo que nos preocupa. Por ejemplo, una muestra de votantes en una “encuesta de salida” (tomada cuando las personas salen de las casillas) sugerirfa que el candidato A es el ganador. Esta, sin embargo, es una estimaci6n, una aproximacién del nivel de apoyo real. El verdadero ganador s6lo se conocer después que se cuenten todos los votos, es decir, cuando la poblacién entera de votantes haya sido medida. Una manera de recordar que una muestra slo proporciona estimaciones es comparar los resultados de varias muestras de la misma poblaci6n. Si un profesor de estadistica mandara acada uno de los 30 miembros del grupo a reunir una muestra de 10 compafieros estudiantes y estimara el promedio de edad de los estudiantes, cada miembro del grupo obtendrfa un resultado ligeramente diferente. (Si no ests convencido, consigue ti mismo dos muestras.) Esta variabilidad en los resultados de las muestras slo refleja el hecho de que el estadistico, en una muestra tnica, es s6lo una estimacién del verdadero parametro de la poblacién. Entonces, {,c6mo confiaremos en los resultados de una sola muestra? La respuesta a esta pregunta implica una noticia buena y una mala; la mala es que el estadista debe reconocer que las conclusiones de una muestra no son totalmente correctas, dado que estos estadfsticos son sélo estimaciones de parémetros; la buena noticia es que los procedimientos estadisticos y la l6gica de la teoria de probabilidad permiten a los estadistas especificar un grado de error conocido en las predicciones y, por consiguiente, estipular el grado de confianza que tendria- Pg Capitulo2 Organizacién de los datos para reducir al minimo el error estadistico mos en una conclusién basada en estadisticos. En pocas palabras, aun cuando las esti nes estadisticas no son perfectas, sabemos qué tan cerca estén de la perfeccién. Estimacién estadistica cuidadosa contra adivinacién o estimacién apresurada La imaginacién estadistica enfatiza el entendimiento de un detalle en su contexto apropi: teniendo cuidado de no emitir conclusiones simplistas o fantésticas. La estimaci6n estadi ca es diferente del sentido comtin de la “adivinaci6n o estimacién apresurada”, que a men es tendencioso. Una estimacién estadistica es el informe de una medida de resumen bas enel muestreo sistemdtico y en mediciones precisas e informadas, con grados conocidos, error y confianza. Una adivinacién o estimaci6n apresurada es un informe de una medic de resumen basada en las experiencias personales limitadas y comiinmente subjetivas, dencia anecdética u observaciones informales apresuradas. La adivinaci6n podria ocurrir cuando un reportero de noticias elige al candidato A co el seguro ganador porque el reporte de las encuestas de salida lo apoya con 52 por ciento probables votantes. En contraste, tomando en cuenta el tamaiio de la muestra, un estadis seria més cauto y destacaria el hecho de que 52 por ciento significa 52 més y menos 5 punt porcentuales; por consiguiente, el apoyo se encuentra entre 47 y 57 por ciento. La victoria candidato A no est asegurada porque el apoyo podria ser de sdlo 47 por ciento. Ademés, ej estadista mantiene un grado de confianza para la estimacién de 95 por ciento. (No podemos exigir 100 por ciento de confianza hasta que todos los votos se contabilicen.) La estimaciéy estadistica cuidadosa es diferente incluso de una buena suposicién. El estadista difiere de otros “pronosticadores” en dos maneras importantes: el estadista (1) controla y maneja el grado de error en las estadisticas reportadas y (2) sefiala de forma precisa la confianza en sus conclusiones. Un tipo particularmente insidioso de la estimacién apresurada es un estereotipo pre juicioso, es decir, una generalizacion falsa que implica que todos los individuos de una’ categoria comparten ciertas caracteristicas, normalmente indeseables. Existe un estereotipo racista, por ejemplo, en creer que los afroamericanos son ignorantes, perezosos 0 inmorales para mantener a sus familias y que ésta es la causa de pobreza en Estados Unidos. De hecho, casi 7 de cada 10 estadounidenses pobres son blancos y la mayoria de la gente pobre tiene empleo. Las estimaciones apresuradas a menudo se gufan por sentimientos que refuerzan estereotipos y sentimientos como odio, temor y superioridad. En contraste, las generalizacio- nes estadisticas se interpretan con cautela y dentro del contexto més grande de comprobacién cientifica con sus resguardos contra la subjetividad. La tabla 2-1 compara las estimaciones apresuradas con las estimaciones estadisticas. TABLA 2-1 | “Estimacién apresurada” del sentido comin contra estimacién estadistica Estimacion apresurada del sentido comin Estimacién estadistica La idea se basa en experiencias personales La idea se basa en muestreo sistematico limitadas y comiinmente subjetivas, evidencia yen medicién. anecdética u observaciones apresuradas. Produce conjeturas y conclusiones equivocadas. Produce estimaciones confiables con grados conocidos de error y confianza. Genera y refuerza estereotipos. Produce generalizaciones estadisticas. Usualmente es un asunto de opinién. Usualmente es un asunto de hecho. Error de muestreo y su manejo con Ia teoria de la probabilidad Como la tinica manera de conocer un pardmetro verdadero es mediante el sondeo de la po- blaci6n entera, cada estadistico calculado de una muestra es una estimacién. Por casualidad, los estadisticos de algunas muestras estén més cerca del valor del parametro verdadero que otros. La teoria de la probabilidad (capitulo 6) consiste en el andlisis y la comprensién de las probabilidades de los acontecimientos. Nos brinda un conjunto de reglas para determinar la exactitud de los estadisticos de la muestra y calcular los grados de confianza que tenemos en las conclusiones sobre una poblacién. Para manejar exitosamente el error de muestreo debemos concentrarnos en sus fuentes especificas: el tamajio y la representatividad de la muestra. El tamaiio de la muestra se refiere al mimero de casos u observaciones que constituyen una muestra: el niimero de personas u objetos observados. De manera general, cuanto mayor sea la muestra, menor seré el rango del error. Suponga que un investigador envia a dos asistentes para determinar la edad promedio de todo el alumnado. Uno les pregunt6 sus edades a 3 estudiantes, mientras que el segundo les pregunt6 a 1000. La intuici6n nos lleva a tener mayor confianza en los resultados de la muestra mayor, porque la muestra més pequefia pudiera reunir mds facilmente s6lo a estudiantes jéve- nes 0 s6lo mayores. En un capitulo posterior aprenderemos a calcular e informar estadisticos con un “intervalo de confianza” con una cantidad exacta de error para cualquier tamafio de muestra dada. Con una muestra de 1 000 encontrarfamos que la edad promedio en el campus es de 22.4 afios, mas o menos 0.3 afios, lo que sugiere que el promedio de edad se ubica entre 22.7 afios (esto es 22.4 + 0.3) y 22.1 afios (es decir, 22.4 — 0.3). El cAlculo de “mas menos algin error de muestreo” esta basado en probabilidades matematicas de la teorfa de la probabilidad. La teorfa de la probabilidad también nos permite sefialar exactamente qué tan a menudo un estadistico predeciré el parémetro incorrectamente, es decir, qué tan a menudo los errores pueden causar una respuesta incorrecta. Por ejemplo, podemos advertir que 5 por ciento de las veces nuestros procedimientos generan una conclusi6n falsa. Al especificar este nivel de error, sin embargo, estamos percibiendo también nuestro nivel de confianza. Si nuestra esti- macién es incorrecta sélo el 5 por ciento de las veces, entonces es correcta el 95 por ciento del total; asi, tenemos 95 por ciento de certeza. Un segundo factor que afecta la exactitud del muestreo es hasta qué punto todos los segmentos de una poblacién realmente est4n incluidos en la muestra: la representatividad de la muestra. Una muestra representativa es aquella en la que todos los segmentos de la po- blacién estdn incluidos en la muestra en sus proporciones correctas respecto a la poblacién. Por ejemplo, si una poblacién del campus realmente es 54 por ciento hombres y 46 por ciento mujeres, una muestra representativa tendra que acercarse a esos porcentajes. Muestra representativa Muestra en la que todos los segmentos de la po- blacién estan incluidos en la muestra en sus proporciones correctas respecto a la poblacion. Una muestra no representativa es aquella en la que algunos segmentos de la poblacién estan representados en exceso o con defecto en la muestra. Este es un tipo riesgoso de error de muestreo porque puede generar resultados totalmente engafiosos. Supongamos, por ejem- plo, que la administracién del campus desea encuestar a estudiantes sobre su apoyo para am- pliar el estadio de fiitbol. Los voluntarios de la asociacién estudiantil de enfermeria llevan a cabo la encuesta y se les pide registrar el voto de cada décimo estudiante; en cambio, ellos re- gistran los votos de cada décimo estudiante que sale del edificio de enfermeria. Sin sorpresa, Capitulo 2 Organizacién de los datos para reducir al minimo el error estadistico los resultados muestran que s6lo 23 por ciento de estudiantes estén a favor de la ampli {Por qué? Porque los miembros de la asociacién en realidad encuestaron a la poblacig estudiantes de enfermeria, que en su gran mayorfa son mujeres y, por tanto, no es rep tativa del campus en conjunto. Dirfamos que esta muestra est sesgada por una porcién desproporcionada de mujeres. Tal muestra no representativa permitié que un segmento, poblacién tuviera mds “votos” de lo que les correspondia sobre una cuestiGn. Hay una variedad de disefios de muestreo, pero uno de los mas empleados es la mu aleatoria simple. Una muestra aleatoria simple es aquella en la cual cada persona (u o 10) de la poblacién tiene la misma oportunidad de ser seleccionado(a) para formar parte 1a muestra, (En términos técnicos, decimos que todos en la poblacién tienen una misma, babilidad de inclusin en la muestra.) Este disefio es como una rifa o loteria, en la que persona de la poblaci6n slo entraria una vez. Una muestra aleatoria de tamaiio sufici produciré normalmente una muestra representativa. Muestra aleatoria simple Muestra en Ia cual cada persona (u objeto) de la poblacién tiene la misma oportunidad de ser seleccionado(a) para formar parte de la muestra Control del error de medicién Ademés de evitar los errores de muestreo, debemos definir con precisién cémo se las mediciones y cémo se codificarén las respuestas una vez que se recopilen los datos. conjunto de procedimientos u operaciones para medir una variable se llama definicién o racional. Por ejemplo, supongamos que utilizamos datos del censo de Estados Unidos pe dirigir un estudio sobre la pobreza urbana, con una muestra de 300 ciudades. Existen vari formas de operacionalizar una medida de la pobreza. El desafio consiste en seleccionar manera que represente con mayor precisién cudntos hogares en una ciudad estén habit por familias pobres. Una medida es el porcentaje de hogares que reciben vales de aliment ‘Una segunda es la tasa de desempleo en la ciudad. Una tercera serfa el porcentaje de hog: que viven abajo del nivel de pobreza que se define en el émbito federal (ingreso especifi justo para el tamafio de la familia). De hecho, la tercera opcién generalmente se recon\ ‘como la mejor aproximacién hacia la pobreza para una comunidad, y por ello la escogeriay ‘mos como nuestra definicién operacional. Una gufa eficaz para la eleccién de una definici operacional consiste en identificar los tipos comunes de error de medicién y hacer todo posible para minimizarlos. Niveles de medicién: seleccién cuidadosa de los procedimientos estadisticos Medicién La medici6n es a asignacién de simbolos, tanto nombres como niimeros, a las diferencias que observamos en las cualidades 0 cantidades de una variable. La medicién de un sujeto particular de la muestra en una variable es la puntuacién del sujeto para esa variable 0, para usar terminologfa computacional, un c6digo. Supongamos por un momento que la clase de estadistica constituye una muestra. Podriamos registrar las variables de edad, semestre, género, promedio y raza. Para una estudiante, Juana, estas puntuaciones son 20 en edad, pri mer ingreso en semestre, femenino en género, 3.25 en promedio y blanca en raza; para otro, a Capitulo 2 Organizaci6n de los datos para reducir al mfnimo el error estadistico los resultados muestran que s6lo 23 por ciento de estudiantes estan a favor de la ampli {Por qué? Porque los miembros de la asociacién en realidad encuestaron a la poblacig estudiantes de enfermerfa, que en su gran mayorfa son mujeres y, por tanto, no es rep tativa del campus en conjunto. Dirfamos que esta muestra est sesgada por una porcién desproporcionada de mujeres. Tal muestra no representativa permitié que un segmento poblacién tuviera mas “votos” de lo que les correspondia sobre una cuesti6n. Hay una variedad de disefios de muestreo, pero uno de los més empleados es la m aleatoria simple. Una muestra aleatoria simple es aquella en la cual cada persona (u to) de la poblacién tiene la misma oportunidad de ser seleccionado(a) para formar parte la muestra. (En términos técnicos, decimos que todos en la poblacién tienen una misma babilidad de inclusi6n en la muestra.) Este disefio es como una rifa o loterfa, en la que persona de la poblacién s6lo entrarfa una vez. Una muestra aleatoria de tamafio sufici produciré normalmente una muestra representativa. Muestra aleatoria simple Muestra en la cual cada persona (u objeto) de la poblacién tiene la misma oportunidad de ser seleccionado(a) para formar parte de la muestra. Control del error de medicién ‘Ademés de evitar los errores de muestreo, debemos defini con precisién cémo se hi las mediciones y cémo se codificardn las respuestas una vez que se recopilen los datos. conjunto de procedimientos u operaciones para medir una variable se llama definici6n 0 racional. Por ejemplo, supongamos que utilizamos datos del censo de Estados Unidos dirigir un estudio sobre la pobreza urbana, con una muestra de 300 ciudades. Existen formas de operacionalizar una medida de la pobreza. El desafio consiste en seleccionar manera que represente con mayor precisién cudntos hogares en una ciudad estén habit por familias pobres. Una medida es el porcentaje de hogares que reciben vales de aliment Una segunda es la tasa de desempleo en la ciudad. Una tercera seria el porcentaje de hog: que viven abajo del nivel de pobreza que se define en el ambito federal (ingreso especific justo para el tamafio de la familia). De hecho, la tercera opcién generalmente se recon: como la mejor aproximaci6n hacia la pobreza para una comunidad, y por ello la escogeria mos como nuestra definicién operacional. Una gufa eficaz para la elecci6n de una definici6n operacional consiste en identificar los tipos comunes de error de medicién y hacer todo k posible para minimizarlos. Niveles de medicién: selecci6n cuidadosa de los procedi ntos estadisticos Medicién La medicién es la asignacién de simbolos, tanto nombres como niimeros, a las diferencia: que observamos en las cualidades 0 cantidades de una variable. La medicién de un sujet particular de la muestra en una variable es 1a puntuacién del sujeto para esa variable 0 para usar terminologia computacional, un cédigo. Supongamos por un momento que la clase de estadfstica constituye una muestra. Podriamos registrar las variables de edad, semestre género, promedio y raza. Para una estudiante, Juana, estas puntuaciones son 20 en edad, pri mer ingreso en semestre, femenino en género, 3.25 en promedio y blanca en raza; para otro Llp “_— Bonnet YY témica comin en las encuestas es cualquiera con las respuestas “sf” y “no” y, en disefios investigacién de laboratorio, aquella que distingue la “presencia” (el grupo experimental) Ja “ausencia” (el grupo de control). Por ejemplo, al probar la efectividad de un nuevo camento contra la fiebre de heno, al grupo experimental se le administra la nueva droga y -gistra como 1. Al grupo de control se le da una droga de imitacién (0 placebo) y se regi: como cero. En la computadora Ilamamos GRUPO a esta variable. Cuando deseamos aislar grupo experimental para el andlisis, damos instrucciones a la computadora para que busq los cédigos de GRUPO y seleccione dichos casos con el cédigo 1. Variables ordinales Al igual que las variables nominales, las variables ordinales designan categorias, pero te nen la propiedad adicional de permitir clasificar las categorias desde la mayor hasta |, menor, de la mejor a la peor o de la primera a la tiltima, Las variables ordinales comunes incluyen clasificacién de clase social (alta, media, baja, indigente), nivel de clase educativa (Gltimo afio, primer ingreso, etc.) y calidad de vivienda (esténdar, insuficiente, en ruinas) Las preguntas de estudio que miden actitudes y opiniones a menudo emplean puntuaciones ordenadas. Por ejemplo, la variable “actitud hacia el aborto legal” podria ordenar el grado de acuerdo mediante el uso de categorias de respuesta: totalmente de acuerdo, de acuerdo, no sabe, en desacuerdo, totalmente en desacuerdo. Este conjunto de cédigos ampliamente utilizado se denomina escala de Likert, en honor a su creador, Rensis Likert (1932). Variables de intervalo Las variables de intervalo tienen las caracteristicas de las variables nominales y ordinales y ademés una unidad numérica de medicién definida. Las variables de intervalo identifican las diferencias en monto, cantidad, grado o distancia y se les asignan puntuaciones numéricas muy titiles. Los ejemplos incluyen la temperatura (registrada al grado térmico més cercano) y el coeficiente de inteligencia (CD, que va desde cero hasta 200 puntos. Con las variables de intervalo, los intervalos o distancias entre las puntuaciones son las mismas entre cualquier par de puntos en la escala de medicién. Por ejemplo, con la variable temperatura, la diferencia entre 10y 11 grados Fahrenheit es la misma que entre 40 y 41. Un conjunto de unidades de medicién ordenadas hace posible sumar, restar, multiplicar y dividir puntuaciones y calcular promedios. Las variables de intervalo dan un sentido de “cudnto” o “de qué tamajio”, qué tan ca- liente, qué tan obstinado, qué tan conservador, qué tan deprimido, qué tan largo y qué tan pesado. Con las variables de intervalo pensamos en términos de distancia entre las puntua- ciones sobre una linea recta. Por ejemplo, si el promedio de las calificaciones de un grupo en una prueba es 80 y Carlos obtuvo 85 y Berta 90, entonces la puntuacién de Berta estuvo dos veces més arriba del promedio que la puntuacién de Carlos. Ademés, los margenes de error con las variables de intervalo estén més definidos y son més ficiles de manejar porque las puntuaciones numéricas pueden redondearse. ‘Comparar las propiedades de variables de intervalo y variables ordinales es informativo. A diferencia de las variables de intervalo, las variables ordinales carecen de una unidad de medicién determinada, aun cuando las categorias ordenadas sean numeradas. Por ejemplo, la posicién final en una carrera de caballos (1, 2, 3, etc.) es s6lo ordinal; simplemente indica qué caballos cruzaron la linea final en primero, segundo y tercer lugar, y asf sucesivamente, pero no aclara qué tan separados terminaron unos de otros. Ademés, la resta entre nimeros de posicién de una variable ordinal proporciona s6lo diferencias entre los lugares que ocupan, no distancias entre sus posiciones. Por ejemplo, si los caballos lamados “Piernas Largas” Niveles de medici6n: seleccién cuidadosa de los procedimientos estadfsticos 45, y “Problemas en el Puente” terminan en tercero y sexto lugar, respectivamente, entonces “Piernas Largas” Iegé tres posiciones adelante. Estos caballos podrian haber Ilegado a la meta separados por unas cuantas pulgadas 0 cientos de yardas. Mientras las variables ordina- les permiten algunos célculos, como diferencias en posiciones y posicién promedio, tienen utilidad matematica limitada. Las variables de intervalo poseen utilidad matematica mucho mayor que las variables ordinales. Variables de razén Las variables de razén poscen las caracteristicas de las variables de intervalo y un punto cero verdadero, donde una puntuacién cero significa “ninguno” o ausencia de atributo. Peso, estatura, edad, distancia, tamajio de la poblacién, duracién en tiempo y promedio son ejemplos de variables de raz6n. Comparar variables de raz6n con variables de intervalo resulta informativo porque am- bas tienen intervalos establecidos en su unidad de medicién; pero sélo las variables de razén incluyen un punto cero con significado. Algunas variables de intervalo pueden tener una pun- tuacién de cero, pero el punto cero es arbitrario; es decir, podria colocarse en cualquier punto dentro del rango posible de una variable porque el cero no significa “ninguno”. Por ejemplo, la temperatura cero no significa ausencia de temperatura. Asi, en la escala Fahrenheit est ubicado en 32 grados abajo del punto de congelacién, mientras que en la escala Celsius se encuentra en el punto de congelacién. Los puntos cero verdaderos de las variables de raz6n permiten incluso mayor flexibi dad en los célculos y el andlisis estadistico. Al igual que las variables de intervalo, las varia- bles de raz6n pueden multiplicarse y dividirse, pero también podemos calcular razones, de ahi su nombre. Una raz6n es la cantidad de una observacién con respecto a otra. Por ejem- plo, si Juan come tres rebanadas de pizza y Esther come una, la raz6n es tres a uno, que se escribe como 3:1. Con una variable de nivel de raz6n, la respuesta para una raz6n calculada tiene sentido, mientras que con una variable de intervalo no la tiene. Por ejemplo, un joven de 40 kilogramos es dos veces mas pesado que uno de 20 kilogramos, una raz6n de 2:1. Pero no tiene sentido afirmar que una variable de intervalo temperatura en Miami, donde hay 80 grados, es cuatro veces mAs calurosa que en Nueva York, donde hay 20 grados. Nueva York no es calurosa en absoluto. Entonces, una manera de determinar si una variable tiene un cero verdadero es intentar interpretarlo como una raz6n. Si la raz6n no tiene sentido, la variable est4, si acaso, en un nivel de intervalo y su punto cero es arbitrario. Debido a las similitudes de los procedimientos estadisticos aplicados a las variables de intervalo y a las de raz6n, a menudo agrupamos estas distinciones refiriéndonos a estas varia- bles como intervalo/raz6n. De igual modo, nos referimos a las variables nominales/ordinales. La tabla 2-2 resume las propiedades de los cuatro niveles convencionales de medicién. En resumen, para determinar el nivel de medici6n de una variable, formula estas pregun- tas y sigue el diagrama de arbol que presentamos a continuaci6n: 1, {Se marca la variable si se usan nombres de categorfa como “masculino” o “femenino”? Si es asf, entonces el nivel de medici6n es nominal. Estos nombres de categoria ;pueden clasificarse de bajo a alto, por ejemplo clase baja, clase obrera, clase media y clase alta? Si es asf, entonces el nivel de medicién es ordinal. 2. 4Se marca la variable si se usan valores numéricos, por ejemplo 1, 2, 3, etc., pero las puntuaciones simplemente designan posiciones, por ejemplo primero, segundo y terce- 10? Si es asf, entonces el nivel de medici6n es ordinal. 46 Capitulo 2. Organizacién de los datos para reducir al minimo el error estadistico TABLA 2-2 | Caracteristicas de los cuatro niveles de medicién ee Nivel de Operaciones 4 medicién Ejemplos Cualidades mateméticas permitidas Nominal Género, raza, preferencia religiosa, _Cllasificacién en dos Conteo del ntimero estado civil categorias; denominacién _de casos (es decir, de categorias frecuencia) de cada categoria de la variable; comparacién de tamarios de categorias Ordinal Rango de clase social, preguntas Clasificacién de Todo lo anterior més de actitud y opinién categorias; ordenamiento _juicios de mayor que y de rangos de categorias menor que, y célculos de de bajo a alto diferencias y promedios de rangos Intervalo Temperatura, indices resumidos, Todo lo anterior mas Todo lo anterior més escalas de actitud y opinién distancias entre operaciones matematicas puntuaciones tiene una como suma, resta, unidad fija de medida multiplicacion, divisi6n y Razon Peso, ingresos, edad, escolaridad, Todo lo anterior y un raices cuadradas tamario de poblacién punto cero real Todo lo anterior més el célculo de razones significativas 3. {Se puntia la variable mediante valores numéricos que tienen un intervalo dado o u dad de medida como pulgadas, millas 0 grados? Si es asi, entonces el nivel de medida de intervalo. {La variable también tiene un punto cero real? Si es asf, entonces el niv de medida es una raz6n. Determinacién del nivel de medida de una variable a Categorias nombradas Puntuaciones numéricas No clasificada Clasificada Puntuaciones: Intervalo de medida dlasificadas (unidad) determinado Sin punto Punto cere real cero real Nominal Ordinal Ordinal | | (porejemplo (por ejemplo (por ejemplo lugar Intervalo Raz6n ‘genero) nivel declase) en que termina) (porejemplo _(por ejemplo temperatura _peso en libras) ambiente en grados) Niveles de medicién: seleccién cuidadosa de los procedimientos estadisticos 47 TABLA 2-3 | Creacién de un indice para transformar diversas variables nominales en una variable de razén Numero y Nivel de nombre de Definicion operacional medi- Cédigo (como variable (cémo se mide la variable) cién se registra) 1. FUMA Es fumador habitual? Nominal = no tsi 2. ALCOHOLICO —_ Ha consumido cinco o mas Nominal O=no bebidas alcohdlicas en el tiltimo mes 3. EJERCICIO Hace ejercicio regularmente Nominal O=no 4. DROGAS Ha usado una droga ilicita en Nominal 0 =no el ultimo mes 5. CONDEBR Ha conducido en estado de Nominal 0 =no Tesi ebriedad 6. RIESGO Numero de conductas de riesgo Raz6n ‘Suma de respuestas “si* que reports Cémo mejorar el nivel de medicién Para aprovechar las unidades de medida establecidas, es frecuente que los cientfficos inven- ten formas de cambiar variables nominales/ordinales a variables de intervalo/raz6n. La tabla 2-3 presenta diversas variables nominales que se transformaron en una variable de nivel de raz6n llamada indice de comportamiento de riesgo de salud. Las variables nominales se re- gistran como cero para no y 1 para sf. Esto se llama codificacién prototipo porque las puntua- ciones numéricas son artificiales; 0 y 1 no distinguen montos o cantidades. En cambio, cero significa que el factor de riesgo no est presente y 1 que sf est4 presente. La variable de razon RIESGO es el ntimero total de factores de riesgo de un individuo y esta variable tiene un punto cero real. Si Jeremfas fuma, bebe, conduce en estado de ebriedad y consume drogas, mientras que Adan s6lo fuma, entonces Jeremfas tiene una conducta cuatro veces més riesgo- sa que Adén, una raz6n de 4:1. Esperamos que tu puntuacin de RIESGO sea mas baja. Distincién del nivel de medida y unidad de medida El lector debe tener cuidado de distinguir los términos nivel de medicién de unidad de me- dida, El nivel de medici6n se aplica a toda la variable y da informacién sobre los puntos fuertes y débiles de la medicién de una variable. Por ejemplo, :podemos calcular promedios de una Variable? Si el nivel de medicién de la variable es intervalo o raz6n, por ejemplo la variable edad, entonces sf. Por otro lado, si el nivel de medicién es nominal (por ejemplo, género), entonces la respuesta es no. La unidad de medida, no obstante, es un término que se emplea sdlo con variables de intervalo/raz6n. Fija el intervalo determinado para los valores numéricos empleados como puntuaciones para una variable de intervalo/raz6n. Por ejemplo, podemos elegir medir el ancho de un escritorio con una pulgada como unidad de medida. En cambio, si escogemos medir el escritorio con una regla métrica, entonces un centimetro es nuestra unidad de medida. La falta de atencién a las unidades de medida puede resultar en equivocaciones costosas. Por ejemplo, en 1999, el sistema de gufa del Orbitador del Clima de Marte, de la National Aeronautics and Space Administration (NASA), envié inadvertida- mente a la nave espacial a la atmésfera marciana causando la destruccién del orbitador. Un Capitulo 2 OrganizaciGn de los datos para reducir al mfnimo el error estadistico equipo de ingenieria de proyectos utiliz6 unidades métricas de medida (es decir, partes, metros) para comunicarse con otro equipo que supuso que los nimeros estaban en unid: inglesas (partes de pulgadas). Esta confusién acerca de las unidades de medida costé a NASA $125 millones de délares (http://www.cnn.com/TECH/space/9909/30/mars.mettic/), Codificacién y conteo de observaciones _ Una vez completa la recoleccién de datos, el siguiente paso en el manejo de datos consiste en. codificar y registrar todas las mediciones en una hoja de cAlculo o en un archivo de datos de. computadora. La tabla 2-4 presenta un ejemplo de un registro 0 guia de codificacién, que es una descripcién concisa de simbolos que describen el significado de cada puntuacién para cada variable. Tales datos vienen de un estudio ficticio sobre estudiantes del Instituto Apple Pond. En este registro de codificacién sustituimos simbolos numéricos por las categorfas de masculino y femenino y por niveles de escolaridad. Esto se hace porque a las computadoras se les facilita contar y seleccionar ntimeros (en lenguaje computacional, simbolos numér cos) que palabras (caracteres 0 simbolos de cadena). En un registro de codificacién, se debe tener cuidado en ser muy preciso porque la codificacién de respuestas podria introducir un error de medicién. Cada variable se codifica siguiendo dos principios bésicos: inclusividad y exclusividad. El principio de inclusividad establece que para una variable determinada debe haber una puntuacién o un cédigo para cada observacién realizada, Dicho de otra manera, ,incluimos una categoria de respuesta 0 puntuacién para toda respuesta posible? Por ejemplo, con la variable nominal raza podrfa- ‘mos indicar las categorfas de blanco, afroamericano, nativo americano, asiético-americano, hispano y otra(s). La categoria de respuesta ofra(s) evita la necesidad de ocupar espacio en el cuestionario para las categorias que se espera tengan pocas respuestas en el lugar del estudio (esquimales en Kansas). El cédigo otra(s) es una categoria residual que abarca los remanen- tes (piensa en la palabra residuo). Aun cuando ignoramos la cuestién de cémo codificar a las personas de ascendencia mix- ta, si slo usamos blanco y afroamericano, la categorfa de raza no-serd inclusiva de, por decir, asidtico-americano. Sin su propia categoria u otra(s) no es factible suponer que todos los asiético-americanos se registrardn de la misma forma. Algunos anotardn blanco, pero otros quizé dejen sin contestar el espacio de la pregunta. Después de calcular los totales quiz4 no TABLA 2-4 | Registro de codificacién para respuestas de cuestionarios de especialistas en justicia en el Instituto Apple Pond ‘Nombre de la variable Descripcion de éédigos de la variable NOMBRE DEL ESTUDIANTE —_ Registre el nombre, apelidos paterno y materno; espacio en blanco = faltante EDAD Registre la edad informada hasta 97 afos; 98 = 98 afios 0 més; 99 = fatante GENERO (= hombre, 1 = mujer, 9 = fatante PROMEDIO Promedio en una escala de cuatro puntos = numero de puntos de calidad ganados por hora crédito (redondeado a dos lugares decimales); 9.99 = faltante nuevo ingreso; 2 = segundo ao; ESCOLARIDAD intermedio inicial; itante Codificacién y conteo de observaciones 49. seamos capaces de sefialar exactamente cudntos tenemos de cualquier raza. Perdimos a los asidtico-americanos que no contestaron la pregunta, y algunos de nuestros “blancos” son asidtico-americanos pero no tenemos nocidn de cudntos. Semejante descuido de pérdida de control sobre el error de medicién puede hacer que los datos de raza sean inservibles. El principio de exclusividad sostiene que para una variable determinada a cada obser- vaci6n se asigna una y sélo una puntuacion. Asi, cada categoria debe excluir puntuaciones que no le pertenezcan y cualquiera de las dos categorias no debe compartir una respuesta. Por ejemplo, con la variable afiliacién religiosa en la nifez, las categorias de respuesta protes- tante, bautista, catdlico, judio y otra(s) no serfan mutuamente excluyentes porque un bautista quiz se anote como bautista, mientras otro lo haga como protestante. Cuando se sumen los totales de cada categoria, no podremos decir cudntos bautistas habia en la muestra. Algunos quiza se registraron como “protestante”, pero no tenemos forma de especificar quiénes y cudntos lo hicieron. La tabla 2-5 muestra los resultados del Estudio Social General de 1994 para esta variable. La exclusividad se asegura formulando a los protestantes las pregun- tas adicionales necesarias para conocer sus denominaciones especificas. (Para ayudar a la comprensi6n sobre la informacién de las tablas de este texto, modificaremos las tablas para diferenciar claramente las “Especificaciones” de los datos disponibles y los “CAlculos”. En los reportes publicados de estas tablas, dichos términos no aparecerian.) TABLA 2-5 | Distribucién de la afiliacién religiosa en la nifiez, respuesta a las. preguntas: zen qué religin fue educado? Si fue protestante, gen qué denominacién especifica, sila hay? Especificaciones Calculos a) b) Categoria de respuesta Namero Porcentaje de la muestra total Protestante Bautista 706 23.73 Metodista 319 10.72 Luterano 220 7.39 Presbiteriano 139 467 Episcopal 68 229 Otra 309 10.39 Ninguna denominacion Ciglesia sin denominacién 69 2.32 Total protestante 1830 61.51 Catélica 882 29.65 Judia 55 1.85 Ninguna 127 427 Ota 74 2.49 Sin respuesta 7 023 Total 2975 100.00 Fuente: National Opinion Research Genter, General Social Survey 1994 ww iepsrumich.eculgss/codebookdrelig6.him www icpsrumich.edu/gss/codebook/denom16.him Capitulo 2 Organizacion de los datos para reducir al minimo el error estadlstico TABLA 2-6 | Hoja de célculo de respuestas al cuestionario de 10 especialistas en justicia delictiva en el Instituto Apple Pond (datos ficticios) Especificaciones Nombre del estudiante Edad = _Género Promedio _Escolaridad Jessica A Cortland 19 1 3.21 2 Mark E Pippin 22 0 2.75 4 Stayman V Winesap 19 ° 2.43 1 Barry D Mcintosh at ° 3.39 3 Harriet G Smith 20 1 3.87 3 Antonio B Rome 22 o 2:32 3 Robert J Cox 18 ° 3.25 1 Rodney | Greening 20 ° 9.99 2 ‘Thomas R York 22 o 2.47 4 Goldie D Licious 19 1 3.68 2 Regresa al registro de codificacién de la tabla 2-4 y observa que el principio de inclusi vidad se cumple proporcionando un cddigo para los datos perdidos, llamados valores per didos. Decimos, por ejemplo, que el género y escolaridad tienen un valor perdido de 9. E algunos estudios, los valores perdidos se presentan cuando por accidente el entrevistador se salta una pregunta o un encuestado no contesta. Al calcular los estadisticos para una variable pasamos por alto los casos que resulten en un valor perdido. La tabla 2-6 es una hoja de cAlculo de los resultados de la aplicacién del cuestionaric empleado en una encuesta aplicada a 10 especialistas en justicia delictiva del Instituto Apple Pond. Una hoja de célculo es una matriz que muestra las puntuaciones de todas las variables organizadas en columnas; y todos los casos, en filas. Una hoja de célculo es ttil para ordenar y resumir datos de una forma eficaz. Por ejem- plo, si contamos répidamente el mimero de mujeres en la muestra sumando las unidades ci- tadas bajo “Género”. Mediante esta simple hoja de célculo podemos ver répidamente que la muestra se compone de siete hombres y tres mujeres; existen dos estudiantes de primer aio, tres de segundo afio, tres de tercer afio y dos de tltimo afio; el rango de edades oscila entre los 18 y los 22 afios, y el rango del promedio va de 2.43 a 3.87 con un caso no reportado. Por supuesto, para una muestra grande, un procedimiento eficaz implica tanto la especificacién de estos cddigos de la hoja de célculo en un archivo de datos de la computadora como hacer que el programa computacional se encargue de los célculos. Los archivos de datos de compu- tadora estén organizados como estas hojas de trabajo. ribuciones de frecuencias Una vez que todos los datos estén organizados en una hoja de célculo o en un archivo de datos de computadora, el siguiente paso en el andlisis consiste en enfocarse por separado en cada variable y contestar la pregunta: {cudntos sujetos caen en cada categorfa o puntuacién? Organizamos los datos de cada variable en una distribucién de frecuencias, que es una lista de todas las puntuaciones observadas de una variable y la frecuencia (f) de cada puntua- cidn (0 categoria). Utilizamos letras mayuisculas para representar una variable. Si X se define Distribuciones de frecuencias $1 como la variable género, la distribucién de frecuencias de X simplemente muestra cudntos hombres y mujeres hay en la muestra. La tabla 2-5 mostrada anteriormente proporciona la distribucion de frecuencias para la afiliacién religiosa en la nifiez. Distribucién de frecuencias Lista de todas las puntuaciones observadas de una variable y la frecuencia (f) de cada puntuacién (0 categoria). Estandarizacién de distribuciones de puntuaciones El conocimiento de la frecuencia de una categoria no resulta muy informativo por sf mismo. Por ejemplo, alguien nota que existen cinco millonarios que viven en una ciudad. Cinco no son muchos para la ciudad de Nueva York, pero lo serfan para un pueblo de 800 personas. Asf, es més informativo reportar la frecuencia de una categoria como una proporcién 0 por- centaje con respecto al ntimero total de sujetos de la muestra. La imaginacién estadistica nos impulsa a expresar la frecuencia de una categoria en un contexto mayor, como una parte en relaci6n con un todo. Planteamos la pregunta: cinco millonarios de cudntas personas? Como observamos en el capitulo 1, las fracciones, las proporciones y los porcentajes ofrecen denominadores comunes o “medidas estandar” para facilitar la comparaci6n de categorias y muestras. Para una muestra como un todo, la distribucién de frecuencias con proporciones consiste en una lista de la proporcién de respuestas para cada categoria o puntuacién de una variable. La distribucién de frecuencias de distribucién es una lista del porcentaje de respuestas para cada categoria o puntuacién de una variable. tribuci6n de frecuencias con proporciones Lista de la propor- cién de respuestas para cada categoria o puntuacién de una variable. Distribucién de frecuencias de porcentajes Lista del porcentaje de respuestas para cada categoria o puntuacién de una variable. Para obtener estas distribuciones para cada categoria de respuesta o puntuaci6n de una variable, escribimos una fracci6n y después la dividimos para obtener la proporcién y el por- centaje. Para facilitar la interpretacién, la distribucién de frecuencias de porcentajes es la que comtinmente se reporta. Por ejemplo, en los datos de la hoja de cAlculo del Instituto Apple Pond de la tabla 2-6 podemos observar que el porcentaje de hombres es #hombres _ 7 P (de la muestra de estudiantes que son hombres] = "== = —~ = 0.7000 n % (de la muestra de estudiantes que son hombres] = (p) (100) = (0.7000) (100) = 70.00% donde p es la proporcién y n es el tamajio de la muestra. Después de hacer lo mismo para las mujeres, tenemos la distribucién de frecuencias de los porcentajes de la variable género en la columna de la derecha de la tabla 2-7. En ésta también se incluyen la frecuencia y las distribuciones de frecuencias proporcionales. El total de todas las proporciones y porcentajes para la distribucién serd igual a 1.0000 y 100.00 por ciento, respectivamente, considerando el error de redondeo. Capitulo 2 Organizacién de los datos para reducir al minimo el eror estadstico TABLA 2-7 | Frecuencia, frecuencia proporcional y distribuciones de frecuencias porcentuales de la variable género para una muestra de 10 estudiantes del Instituto Apple Pond Especificaciones Frecuencia Frecuencia Género (x) Frecuencia () proporcional porcentual (%) Hombre 7 0.7000 70.00 Mujer 3 0.3000 30.00 Total 10 = 1.0000 100.00 Calculo de las frecuencias proporcionales y porcentuales de una categoria de una categoria _ # en categoria p [de Ia muestra total (n) en tina categorfa] =£S° me catezorta, _ Hen categoria n n % (de la muestra total (n) en una categoria) = [de la muestra total (n) en una categorfa]) (100) donde [de la muestra total (n) en una categoria] = proporcién de todos los casos que caen en la categoria, = frecuencia de casos (0 niimero de casos) en la categoria, n= tamafio de la muestra La tabla 2-5 (en la pagina 49) muestra la frecuencia y la distribucién de frecuencias con porcentajes para la variable afiliacin religiosa en la nifiez. Codificacién y conteo de datos de intervalo/razén Las variables con niveles de medicién de intervalo/raz6n se distinguen de las variables no- minales/ordinales por sus cualidades numéricas, sobre todo por sus unidades de medicién, como millas, kilémetros, pulgadas, segundos y kilogramos. Tales variables “cuantitativas” nos permiten imaginar una regla y pensar linealmente en términos de la distancia entre pun- tos sobre una linea recta. Es mds, podemos hacer mediciones muy precisas. Una medicién precisa es aquella en la que el grado de error de medicién es suficiente- mente pequefio para la tarea en cuestidn, La precision depende de circunstancias précticas y se controla al especificar el error de redondeo. Por ejemplo, al cortar dos troncos de dos pies de largo para una chimenea, un pequefio grado de precisién sera suficiente porque podemos Codificacién y conteo de datos de intervalo/razén $3 darnos el lujo de tener un elevado grado de error, por ejemplo, “medio pie de m4s o de me- nos”. En contraste, para una prueba de calidad de tarjetas de circuitos de microcomputadoras puede exigirse una precision de una milésima de pulgada. El grado de precisién es cuestion de tolerancia. Preguntamos: {qué error de medicién podemos tolerar (0 soportar) sin encon- trar problemas prdcticos sacar conclusiones cientificas con falla? Redondeo de las observaciones de intervalolrazén La observacién de una variable de intervalo/razén tal vez no nos ofrezca la puntuacién verdadera porque sus mediciones a menudo pueden hacerse de manera infinitamente més precisa. Por ejemplo, podemos medir distancias hasta la unidad ms cercana en kiléme- tros, metros, centimetros, y as{ sucesivamente. Por tanto, redondeamos las puntuaciones de intervalo/raz6n hasta cierto grado de precisién elegido y especificado. De esta manera, reconocemos que el c6digo registrado para la puntuaci6n tiene algiin error de medicién. El error de redondeo es la diferencia entre la puntuacion real o perfecta (que quizé nunca conozcamos) y nuestra puntuacién observada y redondeada. El error de redondeo depen- de de qué posicién decimal elegimos como nuestro nivel de precision, nuestra unidad de redondeo. (Si es necesario, el estudiante debe revisar en el apéndice A la ubicacién de las posiciones decimales.) Si decidimos medir el tiempo a la centésima de segundo mis cerca- na, como se efectia en los eventos olimpicos de pista, entonces nuestra unidad de redondeo es la posicién de las centésimas. El procedimiento para redondear una puntuacién de una variable de intervalo/razén es como sigue: 1. Especifica la unidad de redondeo segiin su posicién decimal. 2. Observa el mimero a la derecha de la unidad de redondeo y sigue estas reglas: A. Sies 0, 1, 2,3 04, redondea hacia el entero inferior. B. Sies 6, 7, 8 0 9, redondea hacia el entero superior. C. Si es 5, observa la siguiente posicién decimal a la derecha y, si el mtimero es 5 0 mayor, redondea hacia el entero superior; si no existe algin mimero en esa siguiente posicién decimal, deja el redondeo en ese mimero. Piensa en el redondeo como un movimiento hacia el punto mds cercano sobre una linea. Por ejemplo, si redondeamos al entero mds cercano (la posicién de las unidades), simplemente estamos moviendo al entero mas cercano. 2 21 22 23 24 25 26 27 28 29 3 2 Cercano a2 Cercano a3 3 Por tanto, aqui 2.1, 2.2, 2.3 y 2.4 se redondean hacia abajo a 2 s6lo porque estén més cerca de 2 que de 3. Se ofrecen ejemplos adicionales en el apéndice A. Los limites reales de puntuaciones redondeadas Una vez que conocemos las puntuaciones redondeadas, los ntimeros en la posicién decimal de la unidad de redondeo se consideran estimaciones. El valor real de una puntuacién podria ser cualquiera de las puntuaciones que se redondean para obtener la puntuacién registrada. 54 Capitulo 2 Organizacién de los datos para reducir al mfnimo el error estadistico Por ejemplo, supongamos que redondeamos la estatura de Jonathan a la pulgada més cere y registramos 69 pulgadas. Varias horas después, con Jonathan ausente, Alan nos pregun cual es la estatura de Jonathan, Observamos nuestra hoja de célculo de datos y vemos cédigo de 69 pulgadas. En este momento, podemos afirmar que la estatura real de Jonaths esté entre 68% y 69% pulgadas, 0 69 mas menos media pulgada. Este rango de posib valores reales de una puntuacién (ya) redondeada se llama limite real o limite verdad de la puntuacién. Los limites reales de una puntuacién redondeada especifican el rango de ntimeros q podrian redondearse para obtener la puntuacién registrada, En este sentido, calcular los jf mites reales es la inversa del redondeo. Por ejemplo, supongamos que registramos cuén tiempo toma a cada uno de los 150 estudiantes completar un proyecto de laboratorio de qu mica y lo redondeamos a la hora més cercana. También considera que 56 de estos estudian reciben una puntuacién de dos horas. Algunos de ellos tomaron un poco menos de dos h y otros un poco més. Precisamente, un estudiante que registra dos horas pudo haber tomad s6lo 90 minutos (1% horas), el limite real inferior, 0 hasta 150 minutos (244 horas), el limite real superior. Una puntuacién de dos horas en realidad significa entre 1% y 2¥ horas; pot eso llamamos limites reales a este rango de tiempos. Limite real Limite real inferior de dos superior de dos. horas 11/2 «————_—_—— 2 horas ————_—_—_>_horas 21/2 (90 minutos) (120 minutos) (150 minutos) Calculamos los Ifmites reales moviéndonos media unidad de redondeo en cada direcciér utilizando el siguiente procedimiento: Calculo de limites reales de una puntuaci6n de intervalo/razon 1. Observa la puntuaci6n e identifica la “unidad de redondeo”, el lugar decimal al que la puntuacién se redondeo (como en la columna B que sigue). (Para ubicaciones del lugar decimal, revisa la figura A-1 del apéndice A.) 2. Divide entre 2 esta unidad de redondeo (como en la columna C que sigue). Atencién: no dividas el nimero del lugar decimal de la unidad de redondeo entre 2. 3. Resta el nimero del paso 2 de la puntuacién redondeada observada, para obtener el limite real inferior (LRI, como en la columna D que sigue). 4. Suma el resultado del paso 2 a la puntuacién redondeada observada, para obtener el limite real superior (LRI, como en la columna E que sigue).

You might also like