You are on page 1of 71

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/279517332

Estadistica Aplicada a Analisis Bibliometrico

Research · July 2015
DOI: 10.13140/RG.2.1.4981.8728

CITATION READS

1 103

1 author:

Ramón Piloto-Rodríguez
Universidad Tecnológica de la Habana, José Antonio Echeverría
103 PUBLICATIONS 203 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Knowledge Cell on Biofuels View project

Desarrollo y aplicación de herramientas de ingeniería de procesos en la evaluación tecnológica de
plantas industriales View project

All content following this page was uploaded by Ramón Piloto-Rodríguez on 02 July 2015.

The user has requested enhancement of the downloaded file. All in-text references underlined in blue are added to the original document
and are linked to publications on ResearchGate, letting you access and read them immediately.

Curso de estadística aplicada a análisis bibliométrico

Impartido en 2010 al IDICT

(Instituto de Información Científico Tecnológica de Cuba)

Prof. Dr. Ramón Piloto-Rodríguez

La estadística es la primera de las ciencias inexactas. Edmont Goncourt

Capítulo 1

Introducción a la estadística. Conceptos generales

En el presente capítulo se abordarán brevemente algunos de los conceptos fundamentales que
se utilizarán con bastante frecuencia en el texto.

Podríamos comenzar a modo de pregunta, formulada así:

¿Qué es la Estadística?

La respuesta más adecuada es la siguiente: es la ciencia de la toma de decisiones en presencia
de incertidumbre.

Otras definiciones más románticas pero bien adecuadas serian:

• La estadística es la primera de las ciencias inexactas.

• La estadística es la única herramienta que mientras más se usa, más filosa se vuelve.

Objeto de la Estadística

1. Descripción de datos empíricos (Estadística Descriptiva).

2. Análisis científico de datos experimentales (Inferencia Estadística).

3. Predicción.

En general, todo trabajo relacionado con la compilación, manipulación, análisis,
interpretación y forma de presentación de los datos numéricos puede considerarse que
pertenece al campo de la estadística.

La estadística descriptiva comprende el tratamiento de los datos, lo cual incluye organización
y estructuración de los mismos.

La estadística inductiva o inferencia estadística incluye la realización de generalizaciones,
predicciones, estimados y toma de decisiones, tomando en consideración la incertidumbre.

La frontera entre la estadística descriptiva e inductiva es cada vez más pequeña, debido a que
el objetivo final de compilar y presentar datos, casi siempre es tomar algún tipo de decisión.

Para comprender mejor la diferencia entre ambas, podemos recurrir al siguiente ejemplo:

Se desea comparar la producción científica en revistas de impacto de dos departamentos
durante un año. El primer departamento tiene cinco investigadores, mientras el segundo tiene
ocho.

Si se realiza un conteo del número de artículos publicados por todos los miembros de cada
departamento y se divide entre sus respectivos números de miembros se obtienen las medias
1

1 para el ejemplo anteriormente expuesto. también conocidos por datos no agrupados serán ilustrados mediante el siguiente ejemplo. La estadística es una ciencia que trabaja con datos previamente obtenidos. mientras el segundo tuvo 2 por investigador. caemos en el campo de la estadística inductiva. 2 . Los datos o variables discretos. Normalmente se presentan en diagramas de barras o histogramas de frecuencias. a preguntas planteadas con anterioridad. lo cual representa el número de publicaciones por investigador. La cantidad de publicaciones en ese orden son: X1= 2 X2= 1 X3= 3 X4=1 X5=2 X6=1 X7=3 X8=0 X9=2 X10=1 Estos datos son discretos. Este parámetro obtenido pertenece a la estadística descriptiva. Los datos básicamente pueden ser de dos tipos: • Datos cualitativos • Datos cuantitativos Los datos cuantitativos puede a su vez ser de dos tipos: • Datos cuantitativos discretos • Datos cuantitativos continuos Los datos cuantitativos discretos son aquellos datos que solo pueden tomar un número finito o numerable de valores reales. Si deseamos conocer si existen o no diferencias significativas entre los resultados obtenidos para ambos departamentos o cual de estos tiene un mayor rendimiento. La frecuencia absoluta representada en la Tabla 1. relativo al número de artículos publicados en un año por 10 investigadores. Los datos continuos son aquellos que pueden tomar cualquier valor en un intervalo de números reales. Pueden tomar un número infinito de valores reales. ya que la variable solo admite valores aislados. es el número de veces que se repite un valor determinado de la variable. Estos datos pueden ser presentados en forma de tabla de frecuencias. Ahora supongamos que el primer departamento tuvo 3 publicaciones por investigador como promedio.aritméticas para cada uno de los departamentos. Desde el punto de vista matemático-estadístico es muy útil la representación de los datos relacionados con la frecuencia con que estos aparecen en el conjunto de datos experimentales o mediciones. La frecuencia absoluta o repetición. La estadística inductiva intenta dar respuesta a través de sus métodos.

El número de intervalos que se definen para el conteo de valores se denomina clases. Tabla 1. publicaciones Fig. En el ejemplo anterior hay 4 clases.1 Valores de la variable Frecuencias absolutas 0 1 1 4 2 3 3 2 Total 10 Una propiedad importante que se observa en la Tabla 1.1 Histograma de frecuencias absolutas Una forma usual de representar gráficamente las frecuencias absolutas es mediante el polígono de frecuencias tal como se muestra en la Fig.2. Uno de los criterios más aceptados para seleccionar el número de intervalos (k) es: K= (2) 4 3 frecuen cia 2 1 0 0 1 2 3 4 No. n= (1) donde fab representa la frecuencia absoluta del componente o dato i.1 es que la suma total de las frecuencias absolutas es igual al número total de mediciones (n). 3 .1.1.

= (4) 4 . 4 frecuencia 3 2 1 0 0 1 2 3 4 No.3 Histograma de frecuencias relativas También es útil disponer de la frecuencia acumulativa (fac) que tiene como base a la frecuencia absoluta. publicaciones Fig.2 Polígono de frecuencias absolutas En muchas ocasiones es conveniente trabajar con frecuencias relativas. Se define como frecuencia relativa (fr): = = (3) Su representación grafica para el ejemplo analizado se muestra a continuación: 40 30 porciento 20 10 0 0 1 2 3 4 No.1.1. publicaciones Fig.

la media quedará aumentada o disminuida en esa cantidad. si deseamos conocer cuál es el valor más frecuente. Las estaturas pueden adoptar cualquier valor en dicho intervalo. Media aritmética: conocida también con el nombre de promedio o simplemente media. cual el valor medio. 10 8 porciento 6 4 2 0 0 1 2 3 4 No.4 Histograma de frecuencias acumulativas En cuanto a las variables continuas. publicaciones Fig. Es la más importante de las medidas de tendencia central. Existe un grupo de estadígrafos que nos permiten caracterizar mas adecuadamente los conjuntos numéricos y se denominan en general medidas de descripción de los conjuntos numéricos. si los datos están más o menos dispersos. moda.1. 2. un ejemplo sería la estatura de los individuos en un grupo poblacional. Si se suma o resta un constante a todos los datos del conjunto.90 m. 5 . Como su nombre lo indica éstos pertenecen a la estadística descriptiva. Los diferentes histogramas presentados para el ejemplo en variables discretas son igualmente aplicables para la descripción y organización de datos numéricos en el caso de variables continuas.50-1. • Medidas de dispersión. no logran brindar suficiente información sobre el conjunto de datos en cuestión. la media es ese mismo valor. tendríamos una descripción más completa del conjunto numérico. Por ejemplo. mediana. Se simboliza mediante y se define como: = (5) Propiedades de la media: 1. Si el conjunto de datos está formado por un solo valor que se repite. Las medidas de tendencia central son: media aritmética. Se dividen en dos grupos: • Medidas de tendencia central. Aunque los histogramas de frecuencias son útiles para comparar y analizar conjuntos de datos. que podría estar entre 1.

3. 5. La suma de las desviaciones de los datos respecto a su media es cero. Moda: valor que aparece con más frecuencia en un conjunto numérico. la media queda multiplicada o dividida por esa constante. 7. Ej: Determinar la mediana de: 2. 4. Si el conjunto es par.3. ésta será el número que ocupe la posición central. 4. entonces corresponderá al promedio de los dos números centrales. Recorrido o amplitud. 4. 3. Desviación estándar relativa o coeficiente de variación. cada una con igual número de datos. 4. entonces la mediana es el promedio de los dos números centrales: (4. 2. 4. 5. 6. 7. 2.1. Ej: 1.5. 0.8. 5. 0. 5. 4. 1. 5. 3. Si todos los datos son multiplicados o divididos por una constante. 2. 3. Como está formado el conjunto por diez datos. 5. Existen tres modas (2. variación o esparcimiento. 3. Ej: 2.2. desviación típica o error cuadrático medio. 4. 7.5) Ej: 1. 1. Si el número de datos es impar.5.7. La amplitud o recorrido se define como: R = Xmax – X min (6) 6 . 5.4.5. 5.5) Medidas de dispersión Estas no dan idea de la posición de los datos sino que dan una idea de su agrupamiento. No hay moda. La moda es 4. 0. Desviación estándar. 1. 4. Entre estas se encuentran: 1. Mediana: Es el valor o dato que divide al conjunto ordenado de forma ascendente o descendente en dos partes. 8 Primero se ordenan de forma ascendente o descendente. 3. 4. 8. Dispersión o varianza.3.

La dispersión o varianza mide la desviación de los datos respecto a su valor medio. Se representa como Sr o COV y se define como: Sr = (10) Lo más frecuente es expresarla en valor porcentual. En el caso de las medias fj = n y en el caso de dispersiones fj = n-1 7 . = (12) donde fj representa los grados de libertad m es el número de dispersiones que se promedian. Sr = ⋅100 (11) Tanto las medias como las dispersiones pueden promediarse pero solo es esto posible teniendo en cuenta el peso específico de cada una de las medias o dispersiones participantes en el cálculo.Se define la dispersión o varianza muestral como: = (7) Equivalente a: = (8) El valor entre corchetes de la expresión anterior es lo que en estadística se denomina como suma de cuadrados. La desviación estándar (S) se define como la raíz cuadrada de la dispersión: S= (9) Desviación estándar relativa o coeficiente de variación: Es también una mediada de dispersión pero referente a la media. Desviación estándar: Es el estadígrafo que más nombres tiene. Un valor pequeño de S2 indica que los datos están agrupados y uno alto indica que están dispersos alrededor de la media.

etc. Rabindranath Tagore Capítulo 2 Conceptos de Población y Muestra. Este conjunto es normalmente finito pero tan grande que se puede asumir que es infinito y también demasiado grande para ser considerado como un todo en un determinado estudio.1 se ilustran ambos conceptos de forma bastante simplificada. número de investigadores en el planeta. Los valores determinados a partir de la población total o universo se denominan parámetros o se especifica que corresponde al estadígrafo en cuestión para la población. es trabajar con un subconjunto de la población. El análisis de los diferentes tipos de muestreo que se pueden realizar a una población. conocido con el nombre de muestra. Lo que se hace en muchas ciencias con frecuencia. Ej. Ej. Pruebas de Hipótesis En la estadística como población se considera cualquier conjunto (finito o infinito) de individuos u objetos con determinada característica. En muchos casos la población es también denominada universo. dejas fuera la verdad. se estudiarán más adelante. El procedimiento mediante el cual se seleccionan muestras de una población es conocido como muestreo. desviación estándar. La forma de selección de una muestra es un factor importante ya que de ello dependen los resultados que se obtienen. mediana. etc. Fig. 8 . Gotas de agua en el mar.1 Representación esquemática de dos casos de conjuntos de población y muestra Esta separación entre población y muestra define su vez estadígrafos para un conjunto o el otro. Ej. Media. población mundial. En la Fig. Los valores calculados totalmente a partir de una muestra son conocidos con el nombre de estadígrafo. Si cierras la puerta a todos los errores. Media poblacional. varianza poblacional.

Rechazar la hipótesis nula cuando debimos aceptarla. Pruebas de Hipótesis Las pruebas de hipótesis o contraste de significación permiten comparar. Tabla 2. podemos en este análisis cometer dos tipos de error. probar o verificar igualdades o diferencias entre los valores comparados. contrastar. Por ej. Los fundamental en estas prueba es verificar si las diferencias observadas son casuales.En el Capítulo 1 se estableció la diferencia entre la estadística descriptiva en inductiva o inferencia estadística. Realización de una Prueba de Hipótesis El comienzo de toda prueba de hipótesis consiste precisamente en partir de una hipótesis estadística. Para una discusión rigurosa de la base teórica de las pruebas de Hipótesis recomendamos consultar la bibliografía propuesta al final del Capítulo.1 Tipos de Errores en pruebas de hipótesis Nuestra decisión es: Ho verdadera Ho falsa No rechazar la hipótesis nula Decisión correcta Error β (o de tipo 2) Rechazar la hipótesis nula Error α (o de tipo 1) Decisión correcta 9 . Estas diferencias se muestran a continuación en forma de tabla. o aceptarla cuando realmente las medias eran diferentes. Hipótesis nula (H0) = (no existen diferencias significativas entre las medias) Pueden y deben existir hipótesis contrarias a ésta: Hipótesis alternativa (H1) ≠ (existen diferencias significativas entre las medias) Tenemos entonces que decidir a partir de los datos experimentales cual de las hipótesis es la correcta con cierto margen de error. aleatorias o reales. A continuación comenzaremos una descripción breve de las principales Pruebas de hipótesis que se pueden realizar al trabajar con muestras y algunos ejemplos prácticos. Tipos de error Dada la naturaleza probabilística del problema.

05 (5 %) aunque en función del tipo de trabajo es usual trabajar con 0. éste tiene que ser eliminado de los datos y de ser posible repetir esa determinación. Es evidente que el ensayo o prueba es más riguroso mientras alfa es más pequeña. (estando ordenados los datos en forma ascendente o descendente) y R es el recorrido. cuantificados a través del valor de la probabilidad. Se demuestra que hay error burdo si Qexp > Q(α . En la mayoría de los trabajos de investigación se utiliza un nivel de significación 0. n) El valor de Q(α .Nivel de significación α El nivel de significación no es más que la probabilidad (en tanto por uno) de cometer un error α o de tipo 1. pero es importante señalar que mientras más se disminuye la probabilidad de cometer un error de tipo 1. el tipo de prueba realizada incluye tres comparaciones en una. (10 %). para el valor de α escogido y para un tamaño de muestra n. La mayoría de los softwares en la actualidad tienen un estadígrafo estandarizado que engloba el conjunto de todos los demás estadígrafos utilizados en pruebas de hipótesis. 10 ..05. Para ello se utiliza la prueba Q (13) donde: X1 es el valor dudoso. n) no podemos rechazar la hipótesis nula. de rechazar la hipótesis nula siendo esta cierta. sospechándose que es una equivocación. más alta es la de cometer un error de tipo 2. Prueba de hipótesis para la determinación de errores burdos Se utiliza cuando se sospecha que un valor del conjunto de datos es extremo o muy diferente respecto al resto. Hoy en día.01 (1 %) o 0. o sea. Si Qexp ≤ Q(0. n) se extrae de una tabla que se encuentra en la literatura básica de estadística. Si el valor analizado es clasificado como error burdo. con el empleo de los medios de computación y lo softwares especializados es posible realizar rápida y eficazmente todo tipo de pruebas de hipótesis en muy corto tiempo y sin el empleo de los estadígrafos específicos para cada prueba. De forma general. X2 es el valor vecino al dudoso. A continuación se describen muy brevemente algunas de las principales pruebas de hipótesis que se aplican a conjuntos de datos y la forma de cálculo de los estadígrafos correspondientes.

Si Q(0. un grupo amplio de pruebas de hipótesis que se pueden realizar en dependencia del tipo de comparación o análisis a realizar. existen varias formas de estimar el intervalo de confianza de la media. Tabla 2. 11 . Su basamento teórico y las tablas para la realización del cálculo de los respectivos estadígrafos pueden encontrarse en la literatura recomendada al final del capítulo. F de Fischer Comparación de una media muestral con el valor medio t de Student poblacional Comparación de datos pareados t de Student Comparación de varias dispersiones Q de Cochran.05. n) ≤ Qexp ≤ Q(0. El intervalo de confianza para la media nos brinda los límites (para un α dado) dentro de los cuales debe encontrarse el valor medio real o poblacional. n) debemos rechazar la hipótesis nula. En el próximo capítulo abordaremos el caso particular de la prueba de hipótesis para la distribución normal y los diferentes tipos de muestreo y formas de determinación del tamaño de una muestra a tomar de una población. Intervalo de confianza para la media Debido a que el número de valores a analizar no siempre es suficientemente grande. El análisis antes expuesto es el básico para cualquier estadígrafo y prueba de hipótesis. se debe aumentar el número de datos para mejorar el análisis. = = ±∆ (14) Donde t es el valor tabulado para la t de Student. S es la desviación estándar y n el número de valores.2 Pruebas de hipótesis y sus estadígrafos fundamentales Prueba de hipótesis Estadígrafo que utiliza Comparación de dos dispersiones F de Fischer Comparación de dos medias t de Student. Uno de estos está basado en el uso de la t de Student.01.01. adicionalmente a las ya descritas. n) no debemos llegar a conclusiones definitivas y si es posible. Prueba para la distribución normal Chi-cuadrado Existe. α es el nivel de significación. Si Qexp > Q(0.

En el caso de los muestreos probabilísticos. La ciencia es la progresiva aproximación del hombre al mundo real. si están muy dispersos o si el costo de un análisis completo a la población es muy alto. 12 . Ejemplos de población: • El conjunto formado por todos los investigadores de un país. las muestras son finitas. la muestra debe ser representativa de la población en lo que se refiere a la característica en estudio. el muestreo aleatorio simple es el más ampliamente utilizado. Esto sólo se puede lograr con una buena selección de la muestra y un trabajo muy cuidadoso en la recogida de los datos. Conceptualmente podríamos dejar planteado que: Población. Una solución a estos problemas consiste en medir solo una parte de la población. junto al muestreo estratificado y el muestreo por racimos. Tipos de muestreo Al realizar un muestreo en una población podemos hablar de muestreos probabilísticos y no probabilísticos. O sea. si los elementos se destruyen o si sufren daños al ser medidos. El tamaño de la población es la cantidad de elementos de ésta y el tamaño de la muestra es la cantidad de elementos de la muestra. Las dificultades comienzan si el número de elementos de la población es infinito. la distribución de la característica analizada en la muestra debe ser aproximadamente igual a la distribución de la característica en la población. La muestra debe obtener toda la información deseada para tener la posibilidad de extraerla. denominada muestra y tomar el peso en la muestra como una aproximación del verdadero valor del peso de la población. • El conjunto de todos los estudiantes de una universidad. Para que los resultados obtenidos de los datos muestrales se puedan extender a la población. Max Planck Capítulo 3 Muestreo y tamaño de muestras En el capítulo anterior se realizó un análisis de los conceptos de población y muestra. Las poblaciones pueden ser finitas e infinitas. La representatividad en estadística se logra con el tipo de muestreo adecuado que en muchos casos incluye la aleatoriedad en la selección de los elementos de la población que formarán la muestra. sin embargo. No es más que aquel conjunto de individuos o elementos en el que es posible observar y medir del mismo una característica o atributo.

y mediante un generador de números aleatorios extraer tantos elementos de la población como indique el tamaño de muestra. sino solo una característica que mediremos u observaremos en él y cuyo valor será el valor de una variable aleatoria que en cada elemento de la población puede tomar un valor que será un elemento de cierto conjunto de valores. que es llamada distribución poblacional. Para ello se extrae un elemento de la población. cada una de las cuales tiene la misma distribución. por lo que de esta forma se pueden hacer infinitas extracciones de la población. Muestreo con reposición: Es aquel en que un elemento puede ser seleccionado más de una vez en la muestra. Muestreo sin reposición: No se devuelve los elementos extraídos a la población hasta que no termina el muestreo en sí. Cuando se hace un muestreo probabilístico. En la práctica no nos interesa el elemento de la población seleccionado en general. X2. De modo que una muestra simple aleatoria X1. Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple. …. aun siendo ésta finita. debemos tener en cuenta principalmente dos aspectos: • El método de selección. Existen a su vez dos formas de extraer una muestra de una población: con reposición y sin reposición. 13 . ya sea el muestreo con reposición o sin reposición. Otro procedimiento para obtener una muestra de una población.Muestreo aleatorio simple: Es aquel en que cada elemento de la población tiene la misma probabilidad de ser seleccionado para integrar la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos número coincidan con los extraídos. es mediante la utilización de la tabla de números aleatorios pero solamente para poblaciones finitas.Xn se puede interpretar como un conjunto de valores de n variables aleatorias independientes. se observa y se devuelve a la población. • El tamaño de la muestra Método de selección Una forma de extraer una muestra aleatoria de una población finita es enumerando todos los elementos que conforman la población. la utilización de estas tablas puede realizarse de diferentes modos pero en el presente trabajo solo expondremos el que consideramos más eficiente ya que no se necesita de la búsqueda de una gran cantidad innecesaria de números aleatorios en tabla.

1 (fijado por el investigador). podría ser conveniente establecer una función que genere números aleatoriamente entre uno y un millón. Si tenemos un millón de hormigas. y constituye una medida de la precisión de la n 2 estimación. 14 . hoy en día. que cubra el número total de valores en la población.000. Para ello se debe establecer un rango de valores que puede tomar la variable aleatoria. el cual establece el criterio de selección de estas cinco hormigas en un millón quedaría a modo de ejemplo:(319630. 575210. 729604. 747308. pero debido al avance de los medios informáticos. 246564). Así cada elemento de la población. El tamaño de la muestra Al realizar un muestreo probabilístico nos debemos preguntar ¿Cuál es el número mínimo de elementos de análisis que se necesitan para conformar una muestra n que asegure un error estándar menor que 0. Ej. Para determinar el tamaño de muestra necesario para estimar µ con un error máximo permisible d prefijado y conocida la varianza poblacional (σ2) podemos utilizar la ecuación: 2  σ Z (1− α )  n=  2  (15)  d   donde d es el error estándar o error máximo prefijado y está dado por la expresión σ d= Z (1− α ) para el nivel de confianza 1-α. dado que la población tiene N elementos? Para la selección del tamaño de una muestra de una población tenemos que tener presente además si es conocida o no la varianza poblacional. esté la misma formada por elementos cualitativos o cuantitativos puede recibir un número de los probables a obtener como identificación del mismo. las cuales se pueden encontrar en la literatura reportada al final del capítulo. para poder continuar con el desarrollo del mismo y poder analizar posteriormente algunos ejemplos de aplicaciones al muestreo. Si la población es de un millón de elementos.Existen diferentes tablas de números aleatorios. estableceríamos un acotamiento para la función generadora de números aleatorios y su variable aleatoria (Xa) entre 1 ≤ Xa ≤ 1.000 El resultado de los cinco números aleatorios. por lo que podemos inferir además que: P{ x − µ < d } = 1 − α (16) Resulta necesario abundar un poco más en los conceptos y formulas expuestos en el presente capítulo. todas de la misma especie y queremos realizar un muestreo aleatorio de solo cinco de estas. la generación de números aleatorios se realiza con el auxilio de un software de cálculo o mediante una calculadora científica.

llamado probabilidad de A tal que se cumplen los siguientes axiomas: 0 ≤ P(A) ≤ 1 (17) P(S) = 1 (18) P(A∪B)=P(A)+P(B) (19) Si consideramos las distribuciones de frecuencia de datos. acorde a una función denominada distribución de probabilidad. existe un número P(A) asociado. Esta ciencia estudia los modelos matemáticos que permiten realizar experimentos aleatorios o estimar la probabilidad de que ocurra un evento determinado para un conjunto determinado de eventos. La más frecuente de todas es la de Gauss o distribución normal. tal como se analizaron en el capítulo 1.1 Curva de distribución normal 15 . representan una función matemática denominada función de distribución. dado un espacio S con un evento A. 3. Las figuras 3.La ecuación (15) propuesta para determinar el tamaño de muestra. Acorde a la definición general de probabilidad. acorde al ajuste matemático de los histogramas de frecuencias de las mismas. Fig.1-3. es una ecuación que combina la estadística con otra rama de las matemáticas denominada teoría de las probabilidades.4 muestran algunas de las distribuciones que se encuentran comúnmente en la práctica.

4 Curva de distribución de Laplace Es muy importante puntualizar que las funciones densidad de probabilidad también responden a este tipo de distribuciones de frecuencias.2 Curva de distribución Chi-cuadrado Fig. Las distribuciones de probabilidad nos muestran la probabilidad de ocurrencia de eventos en un experimento.3 Curva de distribución exponencial Fig. 3. 16 . En este caso la variable X se denomina como variable aleatoria. 3. 3. Fig.

5 Función densidad de probabilidad en variables discretas y función de distribución F(x) [Kreyszig] En el caso del análisis de variables continuas. Fig.3. La función densidad de probabilidad representa una función matemática y una variable aleatoria donde ambas pueden ser discretas o continuas. El análisis de este tipo de variables y funciones es mucho más sencillo que el caso de variables discretas.3. 17 .5 para un ejemplo en específico. la función de probabilidades es evaluada mediante una integral definida en un intervalo dado. la función de distribución de probabilidad queda planteada de la siguiente forma: F(x) = P(X ≤ x) (20) Representando la probabilidad de ocurrencia del intento X no exceda la cantidad x. En el primer caso. El análisis gráfico se muestra a continuación. la representación gráfica de una función densidad de probabilidades quedaría tal como muestra la Fig.Así.

Poisson e hipergeométrica las mas empleadas para variables discretas. Si suponemos o es posible determinar que el parámetro o índice analizado presenta una distribución normal. Precisamente son las distribuciones binomial. lo cual no sería posible de realizar para toda la población debido a los costos y al tiempo empleado en la investigación. se desea poder disponer de un resultado que sea válido para todo el conjunto de artículos que se encuentran en la base de datos. pero esto solo es posible si el conjunto de datos está distribuido normal o si este tipo de distribución es el mejor ajuste para los datos. Fig. La ecuación (15) es muy utilizada para determinar el tamaño de muestra. entonces podemos mediante (15) determinar el tamaño de muestra.3 y se desea una probabilidad de 0. Incluso muchas funciones son aproximadas a una distribución de Gauss para llevar a cabo un trabajo menos engorroso. mientras que para variables continuas es la distribución normal. 2  σ Z (1− α )  Retomando la ecuación (15) n =  2  . Sin embargo.6 Función de densidad de probabilidad en variables continuas para una distribución normal [Kreyszig] Un análisis detallado de la literatura especializada en muestreo plantea que el muestreo con reposición se representa mediante distribución binomial mientras que el muestreo sin reposición es representado mediante distribución hipergeométrica. se puede utilizar la distribución binomial independiente de si hay reposición o no. Si se supone que la desviación estándar es 0. También se plantea que si la población es infinitamente grande. La distribución normal es la mas empleada debido a su mayor ocurrencia y simplicidad.3. Tanto la desviación estándar σ como la diferencia d entre el valor del estadígrafo analizado y el valor poblacional deben ser establecidos por el investigador. entonces: 18 . Ejemplo: Se dispone de una población de 1000 artículos almacenados en una base de datos.95 de que el indicador que se va a estimar y su parámetro se diferencien en no más de 0. Se desea realizar un estudio o evaluación de un indicador x. en ésta el valor de Z (1− ) se extrae de la Tabla α  d  2   de distribución normal del Anexo 1.1.

se toma el número entero que viene a continuación. Si la varianza de la población es desconocida.N= 1000 d = 0.975 Este ultimo cálculo sale de la Tabla 1 de los anexos. Primeramente. nuevamente con ese valor de n se extrae una muestra de este tamaño de la población.3 1-α = 0.1 σ = 0. es decir. Por tanto según (15) n= = 34.= 0.95 1. como una segunda estimación de ( 2 ) σ y se aplica de nuevo la formula (15). No es posible encontrar una fórmula cuando la varianza poblacional es desconocida por lo que para ello es necesario utilizar el siguiente procedimiento. sustituyendo ( σ 2 ) por su estimación ( s 2 ). por exceso. Llega un momento en que las diferencias entre la 2 de 2 s σ tiende cero o a estabilizarse a medida que el tamaño de muestra tienda al valor adecuado. En este caso la muestra a tomar es de 35 artículos. se toma una pequeña muestra. tomando la muestra con el n obtenido como muestra piloto para la siguiente iteración. Con ella se estima la varianza poblacional ( σ 2 ) y con este valor se evalúa en la formula (15). El valor de n obtenido será aproximadamente el valor necesario. que se le llama muestra piloto. es decir para el análisis de fenómenos sociales o cuando se utilizan escalas nominales para verificar la ausencia o presencia del fenómeno a estudiar. que es lo que más frecuentemente se ve en la práctica. se le determina la varianza a esa muestra.57 Debido a que el número de elementos no puede ser fraccionario. se recomienda la utilización de la siguiente ecuación: n' n= (21) 1 + n' N 19 . aunque existen otros. Para determinar el tamaño de la muestra cuando los datos son cualitativos. En la práctica a lo sumo con tres iteraciones se obtiene el tamaño de muestra deseado. el tratamiento será diferente.

0001 n' 470 n= = = 429 1 + N 1 + 470 5000 n ' Si se considera que la muestra es muy grande. Entonces: N = 5000 se = 0.01 σ 2 = ( se) 2 = (0. 20 . el investigador entre sus opciones dispone de cambiar a error estándar de 0.05 o cambiar el nivel de confianza. se es error estándar que está dado por la diferencia entre ( µ − x ) la media poblacional y la media muestral (error estándar deseado). la cual podrá determinarse en términos de probabilidad como s 2 = p(1 − p) (23) Ejemplo: Se aplica una encuesta para determinar el nivel de conocimientos y de necesidad de una política de evaluación de publicaciones para los investigadores del país. Para el primer caso el tamaño de muestra a escoger cambiaría a n = 18.95) = 0. Se necesita saber cuántos investigadores es necesario encuestar para que sea representativo al total. se necesitarían 19 encuestas realizadas. que puede determinarse mediante: σ 2 = ( se ) 2 (22) ( se ) 2 es el error estándar al cuadrado. que nos servirá para determinar σ 2 .01) 2 = 0. s 2 es la varianza de la muestra. por lo que es la varianza poblacional.047 entonces: n' = = = 470 σ 2 0.01 con un nivel de confianza de 95 %.047 s2 0. Supongamos que la población de investigadores es de 5000 y que se desea un error estándar menor de un 0.0001 s 2 = p (1 − p ) = 0.7. Hasta aquí hemos podido determinar el tamaño de una muestra a tomar dentro de una población garantizando ciertos valores prefijados por el investigados de desviación estándar y de niveles de confianza fundamentalmente. s2 siendo n' = donde: 2 σ σ 2 es la varianza de la población. Es decir.95(1 − 0.

mezclarlos bien y sacar uno a uno tantos papelitos como lo indique el tamaño de la muestra. el cual elimina todo sesgo. El siguiente operador matemático nos permite general números aleatorios en un rango determinado de valores. una vez determinado el tamaño de muestra a tomar de una población.La pregunta que aún queda por responder es: una vez definido el número de elementos a tomar de la población: ¿De qué forma tomo de la población ese determinado número de elementos? La respuesta a esta interrogante se expondrá a continuación. es necesario entonces estratificar la muestra. debido a razones obvias. se recomienda la utilización del muestreo aleatorio simple.ENTRE(1:1000) Así. cuando no basta que cada uno de los elementos muestrales tengan la misma probabilidad de ser escogidos. Un ejemplo de ello es el muestreo estratificado. Es decir. Otro procedimiento para obtener una muestra de una población es mediante la utilización de tablas de números aleatorios pero solamente para poblaciones finitas. En el caso de necesitar n números entre 1 y 1000 es posible plantear =ALEATORIO. si se determina utilizar el muestreo aleatorio simple es posible seleccionar todos los elementos de muestra mediante números aleatorios. Muestreo aleatorio simple Un procedimiento para extraer una muestra aleatoria de una población finita es el de enumerar todos los elementos que conforman la población. Siempre que se pueda. 21 . escribir esos números en papelitos. Sin embargo debido a diferentes razones prácticas y económicas. Estas tablas pueden llegar hasta 1000 números aleatorios dispuestos en filas y columnas. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos número coincida con los extraídos de la bolsa. sino que además es necesario estratificar la muestra en relación a estratos o categorías que se presentan en la población y que son relevantes para los objetivos del estudio. Muestreo Estratificado A veces el estudio a realizar es complicado debido a que todos los elementos de la muestra n a tomar deben poseer determinado atributo. Debido a ello. Es decir. Entonces se diseña una muestra probabilística estratificada. establece una cota inferior y una superior para la generación de tantos números aleatorios como sean necesarios. en no pocas ocasiones es necesario el empleo de otras técnicas de muestreo que no emplean la aleatorización completa en la selección. En esta hoja de cálculo es posible aplicar el operador matemático: =ALEATORIO( ) Este operador genera un número aleatorio cualquiera. Con el uso de herramientas de computo como el Excel es posible la determinación de números aleatorios sin la necesidad del uso de tablas. echarlos en un bombo o bolsa.

Estas tres categorías definen entonces tres clases y por ende tres estratos. Se desea realizar un estudio de productividad científica para esta población. se desea realizar un análisis por clases o categorías. Es decir. La estratificación aumenta la precisión de la muestra e implica el uso de diferentes tamaños de muestra para cada estrato. sh es la desviación estándar de cada elemento del estrato h. el total de la subpoblación o número de elementos que componen cada estrato se multiplica por esta fracción constante a fin de obtener el tamaño de muestra para cada estrato. Esto se realiza mediante la ecuación: Nh × fh = nh (25) Es decir. el número de elementos que componen cada estrato se multiplica por el coeficiente de estrato y da como resultado el número de elementos a tomar dentro de cada estrato previamente conformado. Un ejemplo del uso de esta técnica de muestreo puede ser la siguiente: Ejemplo: Supongamos que trabajamos con la misma situación del ejemplo anterior del presente capítulo. Esto se expresa mediante. De esta manera. se desea realizar el análisis de productividad para investigadores con determinadas categorías científicas. es decir. se dispone de un población de 5000 investigadores (N = 5000). n el tamaño de la muestra. tantos como necesite el investigador acorde al número de categorías establecidas por él y se selecciona la muestra para cada estrato. N el tamaño de la población. Así se establecen las categorías de doctor en ciencias. Por consideraciones del encuestador.Lo que se hace es dividir a la población en subpoblaciones o estratos. Supongamos que en este caso de los 5000 investigadores hay: 850 Doctores 22 . n fh = = K ⋅ Sh (24) N donde fh es la fracción del estrato. Así la población queda estratificada y el tamaño de cada estrato lo definen el número de investigadores en cada clase. Se conoce que en un número determinado de elementos muestrales n = ∑ nh la varianza de la media muestral x puede reducirse al mínimo si el tamaño de la muestra para cada estrato es proporcional a la desviación estándar dentro del estrato. máster y licenciado o ingeniero. y K es una proporción constante que nos dará como resultado una n óptima para cada estrato. pero ésta es muy grande e implica una técnica de muestreo que difícilmente pueda ser totalmente al azar.

valor mayor que 429 debido a que la aproximación del número decimal obtenido siempre es por exceso. Los resultados del cálculo se muestran en la Tabla 3. de manera natural. pero pueden seleccionarse solo algunos de estos grupos o conglomerados para la realización del estudio.06 ≈ 207 Muestreo probabilístico por racimos Este muestreo también es conocido por muestreo por grupos o conglomerados. Los resultados dan un total de 432.086 = 206.84 ≈ 151 Licenciados 2396⋅0. Es necesario señalar que la selección de los Nh elementos de cada estrato deben realizarse entonces por muestreo aleatorio.1 Determinación del tamaño de muestra de cada estrato Estrato o subpoblación Nh × fh = nh Nh (tamaño de muestra en el estrato h) Doctores 850⋅0. en grupos que se suponen que contienen toda la variabilidad de la población.10 ≈ 74 Máster 1754⋅0. 23 . se recurre a otra modalidad de muestreo llamado por racimos. por distancias geográficas o por una combinación de estos y otros obstáculos. En este tipo de muestreo se reducen costos. la representan fielmente respecto a la característica a elegir.1. Tabla 3. Ahora es necesario determinar cuántos elementos es necesario tomar de cada estrato de manera que se garantice un total de elementos entre los tres estratos de 429. Tenemos entonces que la población es de 5000 investigadores y que el tamaño de la muestra a tomar es n = 429. es decir.086 = 150. por tiempo.086 N 5000 Esto define los tamaños de muestra a tomar para cada estrato. Se puede emplear solo cuando la población se encuentra dividida.1754 Máster 2396 Licenciados Recordemos además que el valor de n a tomar en la población fue de 429. La fracción para cada estrato fh será : n 429 fh = = = 0. tiempo y energía al considerar que muchas veces nuestras unidades de análisis se encuentran encapsuladas o encerradas en determinados lugares físicos o geográficos que denominamos racimos.086 = 73. Se utiliza en casos donde el investigador se ve limitado por recursos financieros.

por estratos o aleatorios simples. al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo de unos grupos con respecto a otros. Al igual que en el muestreo estratificado. Incluso se necesita saber que temas prefieren y de qué forma acceden a dichas revistas. Se puede decidir analizar por racimos donde cada racimo puede ser cada cuadra de la ciudad. Se necesita saber con precisión.A continuación se muestran algunos ejemplos de racimos: Tabla 3.000 cuadras. se seleccionan los racimos. El muestreo por racimos supone una selección en dos etapas. Para ello se hace una selección que asegure que todos los elementos del racimo tienen la misma probabilidad de ser elegidos. Una vez establecidos estos valores por el investigador y conociendo el tamaño de la población. siguiendo los pasos de una muestra probabilística simple.2 Ejemplos de racimos Unidad de Análisis Posibles Racimos Adolescentes Secundarias Obreros Industrias Amas de casa Mercados Niños Escuelas Personajes de televisión Programas de televisión Se realiza eligiendo varios de los grupos que le componen al azar. entonces con ayuda de las ecuaciones (21-23) se determina el número de cuadras n. Es necesario conocer cuantas cuadras hay que tomar para un error estándar y una probabilidad de ocurrencia determinados. Supongamos que la ciudad tiene 8. Análisis por racimos: Se desconoce el número total de habitantes con las características arriba señaladas.000. y dentro de estos racimos se seleccionan los elementos que van a ser medidos. Ejemplo: Muestreo estratificado y por racimos.000 de habitantes que tiene una ciudad. Sin embargo tenemos que tomar una muestra que abarque todos los adultos de la ciudad. y ya elegidos algunos podemos estudiar a todos los elementos de los grupos elegidos o bien seguir aplicando dentro de ellos más muestreos por grupos. Entonces. En la segunda. Los cuestionarios se aplican por entrevistadores a una muestra de personas adultas. Procedimiento: Se diseña un cuestionario que pregunte sobre estos temas en particular. cual es nivel de lectura de revistas de corte científico-técnico por parte de 3. En este caso se utilizan las ecuaciones para 24 . Población: Todas aquellas personas de ambos sexos que tengas 18 o más años de edad. primero es necesario determinar el número de cuadras a analizar dentro de la ciudad. Es decir. En la primera. ambas con procedimientos probabilísticos. a partir de las cuales se obtiene finalmente cada elemento muestral. las cuadras se utilizan como unidades muestrales.

Así.16 s 2 0.1 σ 2 = ( se) 2 = (0.002 8000 La distribución de los 16 elementos muestrales de acuerdo a los cuatro estratos socioeconómicos quedaría de la siguiente manera: 25 .3 Estratificación de una población Estrato Número de cuadras 1 120 2 2364 3 3440 4 2076 T = 8 000 Estratificación de la muestra: n fh = = KSh N 16 fh = = 0.16 entonces: n' = = = 16 σ 2 0. Se pueden clasificar estos niveles de ingresos en cuatro estratos (muy alto. Tabla 3.01 n' 16 n= = = 16 1 + N 1 + 16 8000 n ' Se deben tomar 16 cuadras para el estudio.1) 2 = 0.muestreo de datos cualitativos dada la naturaleza del estudio que se utiliza a modo de ejemplo. bajo). Se conoce además que las 8000 cuadras se distribuyen por estratos de la siguiente forma. medio.80(1 − 0. según su nivel de ingresos. alto.01 s 2 = p (1 − p ) = 0. para un error estándar no mayor de 0.80) = 0.1 y una probabilidad de ocurrencia de 80 %: N = 8000 (es en este caso la unidad muestral es el número de cuadras y no los habitantes) se = 0. Se sabe además que la población de las 8000 cuadras está dividida socialmente por estratos socioeconómicos.

4 Selección de elementos muestrales por estrato Estrato No. Tabla 3. A continuación elegimos el elemento de comienzo. hasta lograr el número de sujetos determinados en cada conglomerado acorde al procedimiento expuesto en la siguiente tabla. Total de personas a sujeto por cuadra encuestar por estrato 1 120 1 20 20 2 2364 5 30 150 3 3440 7 45 315 4 2076 4 55 220 Totales T = 8 000 n = 17 150 705 Muestreo aleatorio sistemático Se elige un elemento al azar y a partir de él. a intervalos constantes. Por ejemplo si tenemos una población formada por 5000 elementos y queremos extraer una muestra de 25 elementos.002 nh 1 120 (0. Por último. una del primer estrato. de cuadras fh = 0. 7 del tercero y 4 del cuarto estrato. Este procedimiento también se hace de manera aleatoria. 26 . se eligen los demás hasta completar la muestra. y a partir de él obtenemos los restantes elementos de la muestra sumando al primer número el intervalo calculado. en primer lugar debemos establecer el intervalo de selección que será igual a 5000/25 (N/n) = 200.5 Selección del número de elementos por estrato Estrato Nh cuadras Nh Número de hogares. se seleccionarán de un total de 8000 cuadras.002) 7 4 2076 (0. 5 del segundo. Tabla 3.002) 4 T = 8 000 n = 17 Tenemos que en principio. se seleccionan a los sujetos dentro de cada conglomerado.002) 5 3 3440 (0.002) 1 2 2364 (0. tomando aleatoriamente un número entre 1 y 200. Estas cuadras a seleccionar por estrato se deben elegir aleatoriamente.

Es posible incluso la utilización de varios procedimientos de muestreo dentro de un mismo análisis estadístico. 233.. depende tanto del tipo de datos. Posteriormente se realiza en estudio en cuestión sobre los 25 elementos seleccionados mediante la aleatorización sistemática. valorando únicamente la comodidad o la posibilidad en términos de costo de la investigación..33. tiempo u otro factor no estadístico. 433. En él la muestra se obtiene de cualquier forma.4833. 27 . como de la desviación estándar. Siempre que sea posible se debe evitar este tipo de muestreo. también conocido como muestreo sin norma. probabilidad. Es oportuno señalar que aunque no fue tratado en el capítulo. etc. Estos parámetros estadísticos son prefijados por el investigador acorde a sus necesidades o a su experiencia previa en el tipo de investigación que el mismo realiza. Este último es también seleccionado por el investigados acorde a los objetivos de su investigación y a la complejidad de la misma y de la población en sí. La selección del tamaño de muestra es en muchos casos independiente del tipo de muestreo a emplear. La selección del tamaño de una muestra tal como ha sido ilustrado en este capítulo.…. existe un tipo de muestreo denominado muestreo errático.

El modelo básico de la regresión lineal es el correspondiente a: y = a + bx (26) donde x e y representan las variables independiente y dependiente respectivamente. los estadígrafos y la elaboración del grafico del ajuste matemático. Sin embargo pueden presentarse relaciones más complejas como parabólica. La diferencia entre estos dos valores es conocida en estadística como residual. logarítmica. La principal ventaja de la regresión lineal respecto al resto de la gran cantidad de funciones matemáticas que podemos encontrar en un análisis de regresión. se establece antes de este análisis cuales son las variables independientes (x) y cuales las dependientes (y). exponencial. El análisis de la línea recta o regresión lineal se realiza en la estadística básica mediante el método conocido como mínimos cuadrados. Los coeficientes a y b se denominan constantes del modelo o parámetros. El problema general de hallar las ecuaciones de las curvas propuestas que se ajustan mejor al conjunto numérico analizado se denomina ajuste de curvas. Cada valor de residual queda Estos residuales son calculados para cada punto analizado dentro del conjunto de datos. Duda siempre de ti mismo. Estos problemas pueden ser resueltos aplicando el llamado análisis de regresión. etc. Louis Pasteur Capítulo 4 Análisis de Regresión y Correlación Regresión En casi todos los campos del conocimiento humano. Se establece que los valores de las variables independientes son despreciables en comparación con los de las dependientes. Regresión lineal En muchos campos es frecuente encontrarse con relaciones lineales entre dos o más variables. Es decir. es necesario establecer y caracterizar relaciones entre variables o conjuntos de datos. hasta que los datos no dejen lugar a dudas. Para cada valor de x existe un valor de y teórico (predicho por la ecuación). Esta es una forma de definir la curva optima. cuyo símbolo es . También es común nombrar a como constante del modelo y b como pendiente del mismo. etc. El análisis de regresión puede ser aplicado siempre que se conozca cual es la dependencia entre dos o más variables. dispersión. hiperbólica. Establecer estas relaciones implica la obtención de modelos matemáticos simples con constantes de modelo que generalmente poseen un significado físico de interés y para los cuales en muchas ocasiones es necesario evaluar su intervalo de confianza. al igual que su valor al cuadrado. radica en la sencillez del procedimiento matemático de evaluación de los coeficientes. Además de ello. 28 . desviación estándar. existe para cada valor de x un valor de y real o experimental.

Es posible determinar los errores estándar correspondientes a ambos. 29 . También es necesario determinar si el intercepto es significativo o no. Para ello se analiza un total de 20 autores y su correspondiente índice calculado. El índice analizado es referido como índice P (IndP). Para ello lo más adecuado es realizar un análisis de regresión simple.Estos residuales al cuadrado = son analizados grupalmente para saber cuan adecuado es el ajuste realizado. la cual corresponderá a los valores menores de los mínimos cuadrados o residuales al cuadrado. Se desea conocer la relación matemática existente entre el número de artículos publicados por cada autor en un período de tiempo determinado (variable independiente) y un índice creado para evaluar la productividad científica de los autores. El análisis de residuales puede complementar el análisis de la "bondad" del ajuste. será seleccionada la recta optima. las ecuaciones de ajuste de la línea recta son: b= (27) para la pendiente y: a= (28) para el intercepto. Acorde al método de los mínimos cuadrados. así como los estadígrafos fundamentales referidos a estos. obtenidas a partir de conjuntos de datos que contienen errores. Los datos del número de artículos publicados por los 20 autores y sus respectivos índices P calculados se muestran en la Tabla 4. Los coeficientes a y b son variables aleatorias. en este punto es la determinación de los coeficientes a y b.1. así como sus intervalos de confianza. De la infinita cantidad de posibilidades de trazo de una recta. El objetivo fundamental. Las ecuaciones respectivas pueden encontrarse en las referencias bibliográficas.los valores de los residuales al cuadrado (mínimos cuadrados) serán mayores mientras peor sea el ajuste. Un ejemplo de lo expuesto hasta aquí en el presente capítulo puede ser enfatizado mediante un ejemplo.

6 3 0 2.2 4 3 4. así como el error estándar y la probabilidad.6 2 0 2. En ella se muestra el valor obtenido para los coeficientes del ajuste.7 1 6 2.5 1 0 2.0 4 1 4.6 5 1 4.0 3 0 3.0 3 1 3.0 4 2 2. Tabla 4.2 2 1 3.0 7 2 4.8 2 2 2.6 3 4 3. 30 .2.2 1 1 1.0 2 3 2.6 8 4 5.2 Los resultados fundamentales del análisis de regresión se muestran en la Tabla 4.1 Numero de artículos publicados e índice P por autor Artículos publicados Número de citas Índice P recibidas 2 1 3.4 3 1 4.1 4 0 3.

En este caso con la ecuación obtenida se puede calcular el índice P para cualquier cantidad n de artículos publicados.2 0.4 ± 0.2 Análisis de Regresión Parámetro Valor estimado Error estándar Probabilidad Intercepto (a) 1.01 0. el valor real de a está en el intervalo 1.0000 Los resultados obtenidos primeramente nos dicen que la relación entre el número de artículos publicados y el índice P es la siguiente: Ind P = 1. 6 5 4 IndP 3 2 1 0 0 2 4 6 8 articulos Fig. Es decir.0000 Pendiente (b) 0. El valor de la probabilidad nos permite determinar si el coeficiente en cuestión es o no estadísticamente significativo.05 indican que el parámetro analizado es estadísticamente significativo.8 + 0.8 ± 0.01.4 0.4⋅n donde n es el número de artículos publicados. Este tipo de ecuación obtenida para un análisis de correlación permite establecer y calcular numéricamente un indicador o variable cualquiera una vez determinada su relación cuantitativa con determinado número de factores o variables independientes. La columna de errores estándar dan un estimado del error en el valor reportado para cada uno de estos coeficientes. la significación estadística está determinad para valores menores de 0. Tabla 4. En este caso ambos coeficientes son estadísticamente significativos y por ende no pueden ser eliminados del modelo matemático 31 .01.8 0.1 Ajuste lineal para los datos de artículos publicados versus índice P En el caso de trabajar para un 99 % de intervalo de confianza.4.2. En el caso de b el valor real está en el intervalo 0. Para un 95% de intervalo de confianza. valores de probabilidad menores de un 0.

2.2 Ind P Fig. sino solo analizado. El diagrama de residuales para el ejemplo tratado se muestra en la Fig. así como la línea recta en negro que representa la regresión lineal para el mejor ajuste mínimo cuadrático.2 4. Los valores de residuales obtenidos quedan así distribuidos por encima y por debajo de esa línea. El residual como ya ha sido indicado no es más que la diferencia entre el resultado de una medición y el valor predicho para esta por la ecuación que le corresponde. Las líneas azules representan para un 95 % de confianza.4. Otro análisis que se realiza con mucha frecuencia en la regresión es el análisis de residuales. Esta región representa los valores por debajo de 1.4 2.2 5.5⋅σ. Lo cierto es que el análisis de residuales es un recurso bastante fiable para analizar si el ajuste es adecuado o no.1. No obstante ello no quiere decir que el valor deba ser eliminado.6 -0.2 Gráfico de residuales para la regresión lineal La línea horizontal representa residual cero que es el valor ideal para todo modelo o relación matemática obtenida.2 3.6 residuales 0.2 6.6 1. Valores que exceden este límite deben ser primero que todo analizados como posibles errores burdos y revisarlos o repetir la determinación. Incluso permite determinar si es necesario cambiar el modelo matemático a otro que no sea lineal. mientras que entre las líneas azul y rojo se encuentra la región comprendida entre 1. 4. 32 .4 -1. pues es natural que algunos valores predichos excedan el valor real y otros le aproximen por defecto. El gráfico de los datos así como su ajuste lineal se muestra en la Fig. En la figura mostrada se observan los valores obtenidos para cada autor evaluado. Valores por encima de este intervalo caen por fuera de la frontera en rojo. 4.obtenido para la regresión lineal. En el gráfico se observan dos regiones bien limitadas en azul y rojo. la cual se denomina límite de confianza o de acción. Es por ello que se suele llamar límite de acción.5 ≤ σ ≤ 3. los límites de predicción. Los residuales son estimados del error aleatorio de la determinación y pueden ser utilizados para estimar la precisión del método.4 -2.2. Se puede convertir la suma de cuadrados en varianza y por tanto en desviación estándar.

En este caso estamos en presencia de un análisis de regresión múltiple. 2.2 a ninguna función matemática por lo que podemos concluir que están distribuidos aleatoriamente. En nuestro ejemplo todos los residuales están por debajo de 2. lo cual es muy adecuado. Por lo que debemos esperar no encontrar ninguna seria relación entre los residuos. Esto último normalmente se analiza como una tendencia a 50 % de los datos para cada signo con determinado margen de variación. Es de esperar que los residuales obtenidos satisfagan una distribución normal. debe haber además consistencia en la magnitud del residuo y ausencia de tendencias en su signo.La suma de los cuadrados de los residuales es muy útil para decir cuán bien la línea ajusta los puntos. En resumen. En nuestro ejemplo no hay evidencia de ajuste de los residuales mostrados en la Fig. Se añade la variable número de citas recibidas. queremos añadir otra variable independiente para ajustar matemáticamente al índice en estudio. Si todos los puntos caen en la línea de ajuste entonces cada residual será igual a cero.4. Los errores aleatorios tienen que ser independientes entre sí. 3. un buen análisis de residuales debe buscar valores pequeños de residuales. Si no obedecen a ésta podemos plantear una de las siguientes conclusiones: 1. Es decir. Los errores aleatorios presentan otro tipo de distribución. Analicemos el mismo ejemplo anterior para el caso que deseáramos hacer una análisis más complejo. Si encontramos por ejemplo que la lista de residuos contiene grupos claros o tendencias es de esperar que: 1. así como análisis de residuales y de valores de probabilidades para determinar que coeficientes son significativos y cuáles no. Se ha ajustado a la ecuación equivocada.+anxn (29) Es posible realizar análisis de mínimos cuadrados también en este ajuste. Pero en ocasiones es necesario correlacionar más de una variable independiente en su relación con una variable dependiente. Con la ecuación de regresión se pueden calcular las áreas predichas para cada punto y por tanto los residuales. Los errores de las determinaciones no son independientes. Este análisis básicamente tiene el mismo tipo de análisis anteriormente expuesto pero la regresión lineal. 33 . Alguna extraña influencia es causada en ciertos períodos de tiempo. Los valores recomendados están generalmente entre ± 2 para el 96 % de los puntos. pero buscando una ecuación matemática del tipo: y = a +a1x1+a2x2+…. Se ha ajustado la data a la ecuación equivocada. 2. Además de ello hay 11 de 20 valores con residual negativo lo cual ilustra la paridad en el cambio de signos.6 y el 90 % por debajo de 2. Debemos esperar entonces que los residuos positivos y negativos se mezclen de una forma totalmente aleatoria. Análisis de regresión en el caso de más de una variable independiente El análisis anterior es aplicable cuando solo hay una variable independiente.

15 En el análisis de regresión múltiple se analiza generalmente el intervalo de confianza para cada valor estimado de coeficientes tal y como se muestra en la Tabla 4.77 0.0000 0. Tabla 4.07 0. Esto llevaría a eliminar ese factor del modelo obtenido. El diagrama de residuales para la regresión múltiple se muestra en la Fig. El análisis de residuales muestra valores menores de 1.3 Regresión múltiple para Ind P El análisis de residuales tiene el mismo significado y criterios que para el caso de regresión lineal. el grafico correspondiente a la relación entre las tres variables analizadas se muestra en la Fig.En este caso tenemos entonces dos variables independientes y una dependiente.16 0. Los resultados del análisis de regresión múltiple se muestran en la siguiente tabla.46 0.1.26 0. 6 5 4 IndP 3 2 1 6 0 3 4 5 0 2 2 4 6 0 1 citas 8 articulos Fig. Se desea así obtener la ecuación que relaciona al índice P y estas dos variables independientes. la observación más importante de la Tabla 4. es decir no depende del número de citas recibidas para un 95 % de intervalo de confianza dado que la probabilidad P > 0.23 2.9335) es evidente que el índice P no está relacionado de manera alguna.0000 1. Las citas recibidas se presentan en la Tabla 4. Además de ello no hay tendencia alguna a un patrón en los residuales y hay 11 de 20 valores por debajo de la 34 .006 0. por lo que la relación de índice P quedaría justo como en el ejemplo de regresión lineal.05.9335 -0.3.3.3 Análisis de Regresión Múltiple para el índice P Parámetro Estimado Error Probabilidad Límite Límite estándar inferior superior Constante 1.32 0.31 Artículos 0.59 Citas -0.07 0.4. 4.4.3 es que dado el valor obtenido de probabilidad para el coeficiente que representa las citas recibidas (0.3 en todos los casos.4.

requiere de un análisis adicional que viene a complementar adecuadamente este tipo de estudio que se denomina análisis de correlación. Si r = -1 la relación es también 35 . Es por ello que la parte restante del presente capítulo está dedicada al análisis de correlación. 1.1 -0.4 Análisis de residuales para el caso de regresión múltiple El análisis de regresión. se dice que la relación es rigurosamente lineal.5 0.7 1. El coeficiente de correlación es un parámetro adimensional que varía entre -1 ≤ r ≤ +1. por lo que el ajuste parece ser bastante adecuado a los datos. residuales y sus distribuciones o comportamiento.4. Para el análisis de regresión simple se aplica la correlación simple. Esto se realiza con el objetivo de ver hasta qué punto están realmente relacionadas las variables del modelo que se obtiene en el análisis de regresión. Además.3 -0.3 0.7 -1. es prácticamente imposible ver un estudio profundo de análisis de regresión que no incluya análisis de correlación y viceversa. Estadísticamente hablando. Análisis de correlación El análisis de correlación comprende la evaluación del grado de relación existente entre las variables estudiadas. El coeficiente de correlación (r) o su cuadrado (r2) conocido como coeficiente de determinación. al aumentar una variable aumenta la otra o al disminuir una disminuye la otra. valores de probabilidades y análisis de los gráficos obtenidos.9 residual 0.1 0 1 2 3 4 5 6 Ind P predicho Fig. Si se obtiene r = 1. la cual define que si todos los pares de valores (x-y) satisfacen exactamente una ecuación dada de dos variables.línea que representa residual cero. Aunque un análisis de regresión que comprenda todo lo antes expuesto es bastante completo. La forma de determinar si el ajuste es adecuado o no se ha basado en el análisis de mínimos cuadrados. nos permite establecer la relación entre variables mediante el ajuste de modelos matemáticos pre-establecidos. caracterizan la importancia de la relación existente. entonces se dice que dichas variables están perfectamente correlacionadas.

El análisis lo desea realizar mediante la cuantificación de los artículos acumulados. Los resultados primarios del estudio se muestran en la Tabla 4. Si el valor es r = 0 o cercano a este.4.4.4 Acumulado de artículos publicados para una revista por años Años desde el inicio de la Artículos publicados en la revista revista 3 25 5 40 10 100 15 180 20 250 25 344 36 . se dice que no existe correlación entre las variables. cuando una aumenta la otra disminuye y viceversa. más rigurosa será la correlación entre las variables. Tabla 4. En la Fig.rigurosamente lineal (siempre que se haya aplicado regresión lineal) pero la relación entre ambas variables es inversa. La determinación de estos dos coeficientes está basada en las siguientes ecuaciones: r2 = (30) r= (31) Existen otras ecuaciones derivadas de estas más fáciles de trabajar cuando los cálculos son manuales y en dependencia del tipo de correlación que se aplique se deberá usar una ecuación diferente para la evaluación de estos estadígrafos. Mientras más cercanos a uno sean los coeficientes de correlación. son independientes una de otra. Es decir. El autor emplea el método de conteo directo y desea aplicar estadísticamente la regresión simple mediante mínimos cuadrados y evaluar el coeficiente de correlación para la relación entre las variables analizadas. El investigador en cuestión está analizando el número de artículos publicados en una revista determinada por años.5 se muestra el gráfico correspondiente al ajuste lineal de los valores de la tabla anterior. Pongamos un ejemplo donde el investigador investiga la relación entre sus variables mediante regresión y correlación simples.

se puede resolver incluyendo en los datos el par ordenado (0. año cero.4.73 .8 0.1009 Pendiente (b) 13. - r2 98. el intercepto (lugar donde la línea recta corta el eje de las ordenadas) es negativo (-32.0000 r 0.1) y ello para este estudio no tiene significado físico. Fig. Una vez añadido el par ordenado el ajuste lineal queda según el siguiente gráfico: Fig.6 Acumulado de artículos publicados incluido el (0.8 0.5 Acumulado de artículos publicados Es de notar que en este resultado dada la ecuación y línea de ajuste.9936 .5 Análisis de Regresión Simple Parámetro Valor estimado Error estándar Probabilidad Intercepto (a) -19.7 0.4. no se había publicado ningún artículo.8 9. - 37 .0) debido a que cuando comenzó la revista.0) Tabla 4. Este problema que no es estadístico pero sí práctico.

36 %) por lo que existe una fuerte relación entre ambas para una relación lineal.80 0. sin embargo esta última es significativa estadísticamente y el intercepto no. Debido a que el intercepto no es significativo podemos dejar la relación entre las variables como: y = b⋅x donde x son los años e y es el acumulado de artículos publicados. Es importante observar que en magnitud (tomando valores modulares) el intercepto es bastante mayor que la pendiente.6 Comparación de modelos alternativos modelo r r2 Lineal 0.9936 98. Para un 95 % de intervalo de confianza el valor de la Probabilidad debe ser menor que 0. sino de su probabilidad basada en pruebas de hipótesis. A continuación se muestra una tabla con los coeficientes obtenidos para 10 modelos. Mediante esta ecuación se puede analizar la tendencia de la revista para un futuro cercano (extrapolación) acorde a la tendencia natural de la misma. Tabla 4.05 para ser significativo. Para ello se debe hacer un análisis de modelos alternativos y comparar con el lineal ya obtenido basando la comparación fundamentalmente en los coeficientes de correlación. pero ello solo sería un pronóstico.9219 85.73 0.6 puede haber duda si el modelo más adecuado para relacionar las variables es el lineal. Ello se debe a que el análisis de significancia no depende de la magnitud del valor en sí.5 indican que el intercepto no es significativo. Sin embargo al observar con detenimiento tanto las Fig.4.Los resultados de la Tabla 4.9839 96.5 y 4.00 Exponencial No ajusta No ajusta Reciproca y No ajusta No ajusta Reciproca x No ajusta No ajusta Doble reciproca No ajusta No ajusta Logaritmo de x No ajusta No ajusta Multiplicativa No ajusta No ajusta Logística No ajusta No ajusta Los resultados de dicha tabla nos muestran que al parecer el mejor ajuste para esos datos es mediante regresión lineal debido a que es el que correlaciona mas fuertemente las variables 38 . El coeficiente de correlación obtenido refleja buena correlación entre las variables analizadas (99.

39 . • Análisis de residuales.analizadas. • Evaluación de los coeficientes de correlación y de variación. Para concluir el tema en cuestión.3 -20 80 180 280 380 Y predicho Fig. • Evaluación de los coeficientes del modelo.7 1. Una vez analizados todos los elementos antes expuestos es muy difícil que un investigador elija el modelo de ajuste menos adecuado para su investigación. aunque sí presentan valores pequeños y se distribuyen de igual forma por encima y debajo de la línea de residual cero.7 residuales 0. un análisis de relación entre variables (regresión y correlación) no debe dejar de incluir: • Análisis del gráfico obtenido.3 -1. 2.4.3 -2.7 Análisis de residuales para la regresión lineal No obstante. un análisis de residuales para los otros dos modelos alternativos muestra tendencias más fuertes a ser ajustables matemáticamente por lo que se concluye que la relación más probable es la lineal. • Comparación de modelos alternativos. Sin embargo el análisis del grafico de residuales que se muestra a continuación correspondiente a la regresión lineal puede generar dudas debido a que no parecen estar del todo distribuidos aleatoriamente los residuales. • Evaluación de la significación de los coeficientes.7 -0.

Albert Einstein Capítulo 5. Diseños de experimentos Los investigadores realizan experimentos virtualmente en todos los campos. etc. métodos. consiste en una pérdida de precisión y en la necesidad de mencionar resultados sin indicar como se obtuvieron. y otros que transforman la entrada en una salida que tiene una o más respuestas observables. Una forma muy utilizada para representar los espacios factoriales es mediante curvas de nivel o 40 . Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios deliberados en las variables de entrada del proceso o sistema.1 algunas variables del proceso pueden ser controlables y otras no.1 Representación de un proceso o sistema El proceso puede ser una combinación de maquinas. objetos.xn) Espacio factorial Es el espacio comprendido entre los ejes del sistema de coordenadas en el que se representan los valores de los factores. y = f(x1. El precio que hay que pagar por abandonar el lenguaje matemático. El proceso o sistema a estudiar puede ser representado gráficamente mediante la siguiente figura: Fig. personas.5. Algunos conceptos generales relacionados con los diseños factoriales Factor Son las variables independientes que influyen o pueden influir en el proceso investigado. x2.……. Tal como señala la Fig. 5. Función o variable respuesta La variable que es objeto de estudio y a través de la cual se expresan los resultados es la denominad variable respuesta (y). de manera que sea posible observar e identificar la influencia de las causas en los cambios en la respuesta de salida. Este no tiene porque constituir un espacio real pues los factores pueden no serlo y entonces estamos hablando de espacio matemático imaginario.. Los factores pueden ser variables cualitativas o cuantitativas.

Son también muy útiles si a continuación del diseño factorial se desea llevar a cabo un proceso de optimización pues nos indica hacia qué zona se debe desplazar para encontrar los valores óptimos de las variables analizadas.5. Este tipo de representaciones permiten de manera visual observar y analizar la tendencia de las variables independientes o de la variable respuesta en el espacio factorial analizado.5.2.5. Fig. 41 .2 Representación gráfica de algunos tipos de curvas de nivel Superficie de Respuesta o Superficie de Nivel La forma geométrica o representación gráfica de la variable repuesta como función de los factores es conocida como superficie de nivel. Se entiende así que una curva de nivel es un corte en un plano de la figura en el espacio representada por la superficie de respuesta.5. Esto depende de los objetivos de la investigación.2. En la Fig. En el análisis de diseños factoriales se trabajan y analizan con bastante frecuencia ambos gráficos o al menos uno de ellos. Dos ejemplos de curvas de nivel se muestran en la Fig.3 se muestra la superficie de respuesta correspondiente a uno de los gráficos de curva de nivel de la Fig.simplemente mediante rectángulos.

Entre los objetivos de la aplicación del diseño de experimentos pueden incluirse: 1. Brindan información sobre la influencia de los diferentes factores en la variable respuesta. Permiten predecir cuantitativamente el valor de la función respuesta para valores dados de los diferentes factores. el objetivo puede ser desarrollar un proceso consistente o robusto. Al modelo matemático que se obtiene mediante diseño experimental se le denomina diseño estadístico experimental. Los métodos de diseño experimental tienen importancia en el desarrollo de procesos y en la mejora de rendimientos. 2. pueden servir como punto de partida para un proceso de optimización en la búsqueda de un extremo de la función respuesta. un proceso afectado mínimamente por fuentes de variabilidad externas. esto es. Determinar el mejor valor de la x que influye en y. 3.5. La utilidad o importancia de obtener modelos matemáticos radica fundamentalmente en: 1. Determinar el mejor valor de las x que influye en y. En muchos casos. Fig. Determinar cuáles variables tienen mayor influencia en la variable respuesta (y). 3. Con ayuda del diseño factorial es posible obtener un modelo matemático de prácticamente cualquier proceso. 42 . Este no es más que una ecuación de regresión que se obtiene de forma relativamente simple a partir de los datos experimentales. de modo que se minimice el efecto de las variables incontrolables. 2.3 Diagrama de superficie de respuesta Modelo matemático Un modelo matemático es una ecuación o sistemas de ecuaciones que relacionan con la variable respuesta los factores que influyen sobre ésta.

Es necesario desarrollar todas las ideas sobre los objetivos del experimento. 3. 3. Además. Análisis por bloques. Un bloque es una porción del material experimental que sea más homogénea que el total del material. La réplica se refiere a una o más repeticiones para cada experimento básico a realizar. La aleatorización usualmente confirma esta suposición. Por lo general su método consiste en realizar una serie de actividades en las cuales hacemos conjeturas acerca de un proceso. Aleatorización. 2. Los métodos estadísticos requieren que las observaciones sean variables aleatorias independientes. Obtención de réplicas.Aplicaciones del diseño experimental Los métodos de diseño experimental tienen amplia aplicación en muchas disciplinas. 4. Directrices para el diseño de experimentos A continuación se ofrece una guía del procedimiento recomendado para la implementación de un diseño de experimentos: 1. 2. La aplicación de técnicas de diseño experimental en una fase temprana del desarrollo de un proceso puede dar por resultado: 1. Menor tiempo de desarrollo. El análisis por bloques es una técnica que se usa para incrementar la precisión del experimento. el uso de réplicas permite al investigador calcular una estimación más precisa del efecto de un factor en el experimento. que llevan a realzar nuevos experimentos. Un planteamiento claro del problema contribuye a 43 . y entonces usamos la información del experimento para establecer nuevas conjeturas. al aleatorizar adecuadamente los experimentos se cancelan los efectos de factores extraños que pudieran estar presentes. Tal estimación permite determinar si las diferencias observadas entre replicas son estadísticamente significativas. Menor variabilidad y mayor cercanía a los requerimientos u objetivos. Se entiende por aleatorización el hecho de que tanto la asignación del experimento como el orden en que se realizan las pruebas individuales se determinan aleatoriamente. El uso de replicas permite tener una estimación del error experimental. En segundo lugar. Principios básicos del diseño experimental Los tres principios básicos en el diseño de experimentos son: 1. La aleatorización es la piedra angular que fundamenta el uso de los métodos estadísticos en el diseño de experimentos. realizamos experimentos para generar datos a partir del proceso. Comprensión y planteamiento del problema. Al realizarse un análisis por bloques se hacen las comparaciones entre las condiciones de interés del experimento dentro de cada bloque. Mejora en el rendimiento del proceso. Menores costos globales de la investigación.

los intervalos de dicha variación y los niveles específicos para los cuales se hará el experimento. los factores o variables sean transformados o codificados. Deben emplearse métodos estadísticos para analizar los datos. de modo que los resultados y conclusiones sean objetivos más que apreciativos. Selección de la variable respuesta. este paso resulta relativamente fácil. y con los en los resultados formulamos nuevas hipótesis. Realización de los experimentos. xi es el valor del factor en variable real. la ecuación obtenida después debe nuevamente ser descodificada para aplicarla a la realidad de la investigación. se transforman de variables reales a variables codificadas. Esto origina un nuevo sistema coordenado que se denomina sistema coordenado en variables codificadas. El análisis de residuos y la verificación de la idoneidad del modelo son también técnicas de gran utilidad. etc. 4. Elección del diseño experimental. y varios métodos gráficos que son importantes en la interpretación de tales datos. La experimentación es por ende un proceso iterativo. Al seleccionar la variable respuesta o variable dependiente. la cantidad adecuada de niveles a usar y las unidades de medida a emplear. 3. 2. Para que un experimento sea exitoso es necesario conocer los factores importantes. Esto permite desde el punto de vista del algebra matricial simplificación de procesos y cálculos. También debe considerarse la forma en que se controlarán estos factores para mantenerlos en los valores deseados. en el cual formulamos tentativamente hipótesis acerca de un sistema y realizamos experimentos para investigar dichas hipótesis. Si los tres pasos anteriores se han seguido de forma correcta. xoi representa el valor del factor i en el centro del diseño en variable real y ∆xi representa la semi-escala del eje del factor i. Análisis de datos. 6. Elección de factores y niveles.1) donde Xi representa el valor del factor en variable codificada. Para elegir el diseño es necesario considerar el tamaño de la muestra. Es frecuente que cuando se trabajan los diseños factoriales o experimentales. Durante todo el proceso es necesario saber que la experimentación es parte importante del proceso de aprendizaje. 7. Es decir. menudo en forma sustancial a un mejor conocimiento del fenómeno y de la solución final del problema. El experimentador debe elegir los factores que variarán en el experimento. los intervalos en los cuales deben hacerse variar esos factores. 44 . No obstante. numero de factores y niveles. 5. La ecuación que relaciona las variables reales y codificadas es la siguiente: = (5. los métodos estadísticos que se requieren no son complicados. Si el experimento fue diseñado correctamente y si se ha realizado conforme al diseño. y cómo se les medirá. Conclusiones y recomendaciones. así como la presencia o no de bloques. el investigador debe estar seguro de que la respuesta seleccionada brinda información realmente útil sobre el proceso en estudio. Existen muchos paquetes de software para el análisis de datos.

tal como se muestra en la Tabla 5. Diseños de tipo 2n El diseño factorial completo de tipo 2n permite obtener un modelo matemático del proceso estudiado en una región del espacio factorial.1 Factores en variables reales y codificadas para un diseño factorial Factor X1 X2 Nivel inferior en variable real 0 2 Nivel superior en variable real 10 20 ∆xi 5 11 Nivel inferior en variable codificada -1 -1 Nivel superior en variable codificada +1 +1 Una vez codificadas las variables o aun manteniendo las mismas en variables físicas reales se procede a la obtención de la matriz del diseño factorial que se seleccione y la realización de los experimentos o pruebas.1. para la determinación del número de experimentos a realizar. 3k. En este tipo de diseño se trabaja a dos niveles por cada factor y el número de factores debe primero que todo. El otro factor a analizar seria el número de artículos publicados (x2) que podría variar de 2 hasta 20.Un ejemplo de codificación de variables sería el siguiente: Uno de los factores a analizar en un diseño experimental que estamos creando es el número de citas recibidas por los autores en un año (x1). diseño desbalanceado) y sus particularidades. Mediante estos diseños. ser determinado por el investigador. Esto nos define un espacio factorial real y como consecuencia un espacio factorial en variables codificadas. la variable respuesta queda representada en forma de series de Taylor mediante: 45 . A continuación se comenzarán a analizar cada uno de los tipos de diseños experimentales más útiles (2k. donde la base b representa el número de niveles de variación de los factores y el exponente n representa el número de factores a analizar en el diseño. Tabla 5. Entre un gran número de autores se ha escogido un espacio factorial que va desde cero citas recibidas hasta 10. Así el diseño define una cantidad de experimentos N = 2n. La estructura de la potencia consta de una base y un exponente (bn). Diseños factoriales completos Los diseños factoriales completos tienen básicamente una estructura en potencias.

2) En el diseño de tipo 2n cada uno de los n factores toma solo dos valores en todo el conjunto experimental. Estos dos niveles para cada factor (nivel inferior y nivel superior) corresponden a -1 y +1 respectivamente. Para ello el investigador desea investigar cual es la influencia real que ejercen sobre esta variable o indicador dos factores (el factor de impacto de las revistas donde publican los autores y el número de autocitas). En este caso quedaron los factores y el espacio factorial definidos de la siguiente forma: Tabla 5. Tabla 5. A continuación se analizará un ejemplo en el que se utiliza el análisis factorial de tipo 22.y = A0 +A1X1+A2X2+…+AnXn+A12X1X2+A(n-1) nXn. un diseño apropiado podría ser el 22 = 4 experimentos básicos (dos factores variando a dos niveles). varían solo en dos niveles.2 Condiciones de realización de los experimentos en el 22 Nivel bajo Nivel alto Factor X1 2 (-1) 8 (+1) (factor de impacto) Factor X2 (autocitas) 1 (-1) 10 (+1) Las condiciones de realización de cada uno de los experimentos queda determinada por la matriz del diseño factorial seleccionado tal como muestra la Tabla 5. Ejemplo: Se desea realizar un análisis de la influencia de factores sobre el índice H de autores. 46 .Xn+A11X12+A22X22+…+AnnXn2 (5. Es decir. el siguiente paso es la realización de cada experimento o la sustracción de la información correspondiente de una base de datos.3 Condiciones del diseño 22 para índice H Experimento X1 X2 (yj) 1 -1 -1 Y1 2 -1 +1 Y2 3 +1 -1 Y3 4 +1 +1 Y4 Una vez establecida la matriz del diseño. de forma totalmente aleatoria. Debido a que se analizan dos factores.3. Los valores correspondientes al nivel bajo y alto de cada factor son definidos por el investigador.

Los resultados del diseño sumando dos réplicas por cada punto experimental son los
siguientes:

Tabla 5.4 Resultados del diseño 22 para índice H

Experimento X1 X2 (yj)

1 -1 -1 5

2 -1 +1 5

3 +1 -1 7

4 +1 +1 7

5 -1 -1 5

6 -1 +1 6

7 +1 -1 6

8 +1 +1 8

9 -1 -1 5

10 -1 +1 5

11 +1 -1 6

12 +1 +1 7

En la Tabla 5.4 se han presentado los resultados de los experimentos realizados y las dos
réplicas por cada punto o condición de trabajo. Uno de los primeros análisis a realizar en un
diseño factorial es el correspondiente al estimado de cada factor así como su error estándar.

Tabla 5.5 Sumario estadístico del diseño aplicado a Índice H

Factor Estimado Estimado en Error estándar Valor-P
variables ANOVA
reales

Promedio 6 6 ± 0.14 -

X1: FI 1.67 0.83 ± 0.29 0.0012 ≤ 0.05

X2: Autocitas 0.67 0.33 ± 0.29 0.0603

X1⋅X2: Interacción 0.33 0.17 ± 0.29 0.2921

r2 =87.50 %
Durbin-Watson = 3.13
47

También es muy importante el análisis de la probabilidad de cada factor para determinar
cuáles son estadísticamente significativos y cuáles no. Este resultado puede ser extraído de la
tabla referida como ANOVA (análisis de varianza) que ofrecen muchos paquetes estadísticos.

De la Tabla 5.5 se puede concluir que solo el factor de impacto (FI) es estadísticamente
significativo en el índice H, debido a los valores de probabilidades, que debido a que se
trabaja en este ejemplo con un nivel de significación de 0.05, el valor de probabilidad que
define significación estadística es P ≤ 0.05.

Estos resultados definen una ecuación de regresión correspondiente al diseño factorial
analizados y valida en el espacio factorial analizado,

ind H = 6 + 0.83⋅FI + 0.33⋅AutoC + 0.17⋅FI⋅AutoC (5.3)

la cual acorde al análisis de probabilidad puede plantearse como:

ind H = 6 + 0.83⋅FI (5.4)

La determinación de la significación de factores en la variable respuesta puede ser realizada
mediante el diagrama de Pareto. Este diagrama consiste en la construcción de un gráfico de
barras horizontales, una para cada factor, ordenadas en orden decreciente de magnitud y las
cuales solamente sobrepasan la línea vertical si son significativos estadísticamente para el
nivel de significación seleccionado. El análisis incluye un factor para la interacción entre
factores. El diagrama de Pareto que se muestra en la Fig.5.4 es más bien una representación
gráfica del resultados de los valores de probabilidades de la Tabla 5.5.

Fig.5.4 Diagrama de Pareto para analizar significación de factores

El coeficiente de variación (R-cuadrado) corrobora una correlación de 87.50 % según el
modelo obtenido para los datos experimentales. El valor del estadígrafo Durbin Watson (DW)
permite analizar si existe autocorrelación entre los valores de los residuales. Este análisis se
puede establecer mediante el gráfico de residuales pero el estadígrafo DW permite cuantificar
este análisis. Si el valor de DW es mayor de 1.4 entonces es posible concluir que no hay auto

48

correlación entre los residuales obtenidos según el modelo propuesto por el diseño aplicado.
El grafico de residuales se muestra en la Fig.5.5.

Fig.5.5 Diagrama de residuales para el diseño factorial 22

El diagrama de efectos principales es muy adecuado para el análisis de influencia de factores
cuando el resto de los factores analizados permanecen constantes. El diagrama de efectos
obtenidos para este diseño 22 se muestra en la Fig.5.6. En ella se observa la línea recta que
caracteriza la relación entre cada variable o factor analizado y la variable respuesta. La
pendiente positiva de la línea recta evidencia una influencia positiva sobre el índice H, es
decir, un aumento de cada uno de los factores provoca una variación en el índice H. Aún así
es necesario puntualizar que el factor autocitas no es significativo estadísticamente.

Fig.5.6 Diagrama de efectos principales

49

Para poder aplicar un diseño de tipo 2k es necesario que todos los factores tengan solo dos niveles de variación. Supongamos que además del FI y las autocitas.7 Superficie de respuesta para influencia de factores en Índice H Por último es posible obtener un diagrama en tres dimensiones denominado superficie de respuesta que muestra visualmente la variación que sufre la variable respuesta a medida que varían los factores que sobre ella pueden influir (en el espacio factorial analizado).5.7 Condiciones de realización de los experimentos en el 23 Factor Nivel bajo Nivel alto Factor X1 2 (-1) 8 (+1) (factor de impacto) Factor X2 (autocitas) 1 (-1) 10 (+1) Factor X3 (ranking) Segunda mitad (-1) Primera mitad (+1) 50 . Ejemplo: El análisis realizado para el diseño 22 pudo haber sido definido por el investigador con mayor complejidad. se desea incluir la influencia de la posición que ocupa la revista en el ranking dentro de una temática. Fig. lo cual tal como se ha definido es un factor cualitativo. La mitad superior del ranking (-1) y la mitad superior (+1). Esta superficie analizada en el espacio permite determinar cuáles son las zonas más favorables para obtener máximos. Tabla 5. Si queremos analizar tres niveles. entonces es un 23 que define una matriz básica de 8 experimentos. Debido a que son definidos dos niveles. se separa el ranking en este caso en dos mitades. mínimos o estacionarios para la variable respuesta y ser un buen punto de partida para procesos posteriores de optimización.

5⋅FI + 0.6) 51 .5) eliminando los factores no significativos quedaría: indH = 6.5⋅FI⋅Ranking (5.8 Condiciones del diseño 23 para índice H Experimento X1 X2 X3 (yj) 1 -1 -1 -1 Y1 2 -1 -1 +1 Y2 3 -1 +1 -1 Y3 4 -1 +1 +1 Y4 5 +1 -1 -1 Y5 6 +1 -1 +1 Y6 7 +1 +1 -1 Y7 8 +1 +1 +1 Y8 Los datos extraídos de la base de datos correspondientes para completar la matriz de diseño sumando una réplica por punto se muestran en la Tabla 5.5⋅FI⋅Ranking + 0. La ecuación de regresión para el diseño factorial analizado es: indH = 6. Tabla 5.5⋅Ranking + 0.25 + 0.25⋅autoC⋅Ranking (5.Las condiciones del diseño y su matriz correspondiente se muestran en la Tabla 5.8.9.25⋅autoC + 0.5⋅Ranking + 0.25 + 0.5⋅FI + 0.

2305 X3: Ranking 1.19 0.5 ± 0.0 ± 0.25 ± 0.0000 X1⋅X3 -1.39 0.0 0.0 0.39 1.5 0.0318 X2⋅X3 0.25 ± 0.25 ± 0.2305 52 .39 0.5 ± 0.5 ± 0.5 0.19 - X1: FI 1.39 0.25 6.10 Sumario estadístico del diseño 23 aplicado a Índice H Factor Estimado Estimado en Error estándar Valor-P variables ANOVA reales Promedio 6.19 0.0 -0.9 Resultados del diseño 23 para índice H Experimento X1 X2 X3 (yj) 1 -1 -1 -1 6 2 -1 -1 +1 6 3 -1 +1 -1 4 4 -1 +1 +1 8 5 +1 -1 -1 6 6 +1 -1 +1 7 7 +1 +1 -1 7 8 +1 +1 +1 8 9 -1 -1 -1 5 10 -1 -1 +1 6 11 -1 +1 -1 5 12 -1 +1 +1 7 13 +1 -1 -1 7 14 +1 -1 +1 6 15 +1 +1 -1 7 16 +1 +1 +1 6 Tabla 5.0318 X2: Autocitas 0.0 0.0318 X1⋅X2: Interacción 0. Tabla 5.

9 Diagrama de Pareto para influencia de factores en índice H 53 . lo cual debe ser corroborado o descartado con el análisis del gráfico de residuales mostrado a continuación.r2 =75. efectos principales y de superficie de respuesta para el diseño aplicado con una interpretación conceptualmente similar a la del ejemplo anterior para diseño 22.8 que no hay autocorrelación entre residuales. Fig. se sospecha que podría haber autocorrelación entre los residuales. Fig.17 Debido a que el estadígrafo de Durbin Watson es menor de 1.5.5.00 % Durbin-Watson = 1.11 se muestran los diagramas de Pareto.5.8 Diagrama de residuales para el diseño factorial 23 A continuación en las Fig. Es evidente en la Fig.5.9-5.4.

Fig. Es una forma de organizar la información o los experimentos haciendo el proceso de experimentación o selección más eficiente y menos engorroso.5.11. En el ejemplo anterior se extrajeron datos de una base de datos única. Así la matriz del diseño 23 por bloques quedaría expresada según la Tabla 5.5. Es necesario señalar que las matrices de los diseños han sido organizadas para un mejor entendimiento del lector de los experimentos a realizar. el estudio representado anteriormente de tres factores en la variable respuesta ind H podría sospecharse que también es dependiente o se ve influenciado por la base de datos empleada. Pero bien pudo diseñarse la investigación extrayendo los experimentos de la matriz básica (bloque 1) de una base de datos (base A) y los que correspondían a la réplica podrían ser en este caso los extraídos de la segunda base de datos (base B).10 Diagrama de efectos principales en el índice H Fig. por lo que no se descarta. Esto hace que el investigador no quiera a priori descartar la base de datos de la que se extrae la información y solo los resultados del diseño factorial dirán si el factor bloque (tipo de base de datos) es o no significativa. 54 . Por ejemplo.11 Superficie de Respuesta para el diseño factorial 23 Inclusión de análisis por bloques El análisis por bloques se utiliza cuando se sospecha que un factor no analizado directamente podría tener influencia en los resultados obtenidos. pero en el momento de realizar éstos.

11 Experimentos realizados para un diseño 23 por bloques Experimento Bloque X1 X2 X3 (yj) 1 1 -1 -1 -1 6 2 1 -1 -1 +1 6 3 1 -1 +1 -1 4 4 1 -1 +1 +1 8 5 1 +1 -1 -1 6 6 1 +1 -1 +1 7 7 1 +1 +1 -1 7 8 1 +1 +1 +1 8 9 2 -1 -1 -1 5 10 2 -1 -1 +1 6 11 2 -1 +1 -1 5 12 2 -1 +1 +1 7 13 2 +1 -1 -1 7 14 2 +1 -1 +1 6 15 2 +1 +1 -1 7 16 2 +1 +1 +1 6 55 . Tabla 5.su selección tiene que ser al azar. por lo que se concluiría en este caso que la base de datos utilizada no influiría en el Índice H. se debe concluir que el tipo de base de datos sí ejerce influencia en el Índice H y por ende o se decide incluir esta variable como factor en posteriores análisis de índice H o se decide siempre trabajar dentro de una única base de datos para cada investigación. Se puede comprobar que si el plan factorial hubiera sido diseñado tal y como muestra la Tabla 5.05. no seria significativo P = 1. En caso que el factor bloque sea significativo.000 > 0. de forma que sea eliminada esa influencia indirecta. el factor bloque analizado en la Tabla ANOVA al igual que cualquier otro factor.11 siendo los datos de bloque 1 extraídos de la base de datos A y los del bloque 2 extraídos de la base de datos B. En el caso del uso de bloques la aleatorización se llevaría a cabo dentro de cada bloque y se comenzaría a trabajar con el siguiente bloque una vez terminado con el primero de estos.

determinó que era muy importante el análisis de la curvatura de la superficie de respuesta.12 Condiciones de realización de los experimentos en el 32 Factor Nivel bajo Nivel medio Nivel alto Factor X1 2 (-1) 5 (0) 8 (+1) (factor de impacto) Factor X2 (autocitas) 1 (-1) 5 (0) 10 (+1) 56 . El más simple de estos diseños es el 32. 0. pero no necesariamente el nivel intermedio tiene que ser central. +1]. pero con la complejidad adicional que cuando el investigador estaba diseñando y planificando sus experimentos. Tabla 5. es posible establecer un nivel medio más cercano a uno de los extremos del espacio factorial. Entonces define las condiciones del diseño según la Tabla 5. obtener información sobre la curvatura.12. Esto permite manteniendo reducidos la complejidad y el tamaño del diseño. Por ello determinó que en lugar de un 22 utilizaría un 32 (cada factor variando a tres niveles).+ 0. En cualquier caso.Diseños factoriales de tipo 3n La diferencia más importante entre los diseños factoriales vistos hasta ahora y los diseños de tipo 3n radica en la base tres en la potencia y ello define tres niveles de variación por factor en lugar de dos. Para ello es usual emplear el diseño de tipo 3n. Estos son utilizados cuando el investigador está preocupado por la curvatura de la superficie de respuesta. el cual consta de dos factores variando cada uno a tres niveles y un total de 9 experimentos para conformar la matriz básica del diseño. Es decir. La adición de un tercer nivel permite modelar mediante una relación cuadrática la relación entre la variable respuesta y cada factor. Si tomáramos el mismo ejemplo que ha sido tratado hasta el momento para el análisis de influencia de factores en el índice H.1 para la codificación de variables cuando hay dudas acerca de la codificación de un factor acorde a su posición en el espacio factorial codificado.13. Otra vía para obtener más información sobre la curvatura de la superficie es mediante el empleo del 2n añadiendo al mismo varios puntos centrales. se debe utilizar la Ecuación 5. Ej.5. Normalmente una variación a tres niveles en variables codificadas se representa por [-1. Las condiciones de realización de cada uno de los experimentos queda determinada por la matriz del diseño factorial seleccionado tal como muestra la Tabla 5.

08⋅FI + 0.25⋅autoC2 -0.5⋅autoC -0. Tabla 5.8) 57 .14.25⋅autoC⋅FI (5. el siguiente paso es la realización de cada experimento o la sustracción de la información correspondiente de una base de datos.13 Matriz del diseño 32 para índice H Experimento X1 X2 (yj) 1 -1 -1 Y1 2 -1 0 Y2 3 -1 +1 Y3 4 0 -1 Y4 5 0 0 Y5 6 0 +1 Y6 7 +1 -1 Y7 8 +1 0 Y8 9 +1 +1 Y9 Una vez establecida la matriz del diseño.25⋅autoC⋅FI (5. La ecuación de regresión para el diseño factorial analizado es: indH = 6.25⋅FI2 + 0. de forma totalmente aleatoria.08⋅FI -0. Los resultados del diseño sumando una réplica por cada punto experimental se muestran en la Tabla 5.67 + 1.67 + 1.7) eliminando los factores no significativos quedaría: indH = 6.

Tabla 5.14 Resultados del diseño 32 para índice H Experimento X1 X2 (yj) 1 -1 -1 7 2 -1 0 5 3 -1 +1 4 4 0 -1 9 5 0 0 6 6 0 +1 7 7 +1 -1 8 8 +1 0 9 9 +1 +1 8 10 -1 -1 6 11 -1 0 6 12 -1 +1 4 13 0 -1 6 14 0 0 6 15 0 +1 6 16 +1 -1 6 17 +1 0 7 18 +1 +1 7 58 .

Tabla 5. Los diagramas correspondiente al diseño 32 del ejemplo tratado se muestran a continuación.0 ± 0.25 ± 0.33 % Durbin-Watson = 2.5 0.67 ± 0.8 que no hay autocorrelación entre residuales.5.5 -0.75 ± 0. Fig.0 0.61 0.08 ± 0.5 ± 0.50 0.0000 r2 =76.50 0. no debe haber autocorrelación entre los residuales. el cual muestra la curvatura que determina la influencia de los factores analizados en el índice H.45 - X1: FI 2. Este grado de curvatura no hubiera sido observado ni cuantificado a través de 59 .12 Diagrama de residuales par el diseño 32 El resto de los gráficos que pueden obtenerse para este tipo de diseño factorial es equivalente a los previamente analizados.17 1.4. Es evidente en la Fig.0011 X2: Autocitas -1.15 Debido a que el estadígrafo de Durbin Watson es mayor que 1.0316 X12 -0. lo cual puede ser comprobado con el análisis del gráfico de residuales mostrado a continuación.15 Sumario estadístico del diseño 32 aplicado a Índice H Factor Estimado Estimado en Error estándar Valor-P variables ANOVA reales Promedio 6.86 1. De particular interés es en este caso el diagrama de superficie de respuesta.86 0.5.5734 X22 0.67 6.0 -0.0696 X1⋅X2: Interacción 1.

Fig.5.13 Diagrama de Pareto para análisis de influencia de factores en el Índice H Fig.14 Diagrama de efectos principales y su influencia en el Índice H 60 .los coeficientes cuadráticos de la ecuación de regresión si se hubiese empleado el diseño solo a dos niveles de variación de factores.5.

Podríamos continuar con el mismo ejemplo de análisis de Índice H..16. un nuevo factor que ahora se incluye.15 Superficie de Respuesta para el diseño factorial 32 respecto al índice H Diseño Factorial 33 La diferencia entre el 32 y el 33 radica en que este ultimo presenta tres factores variando a tres niveles. sería apropiado para el análisis de influencia de FI. El análisis por bloques es también aplicable a este diseño.5. 0. El factor de impacto variará a dos niveles al igual que el número de autocitas y el índice H de la revista. El diseño 33 consta de 27 experimentos para la matriz básica sin contar las replicas. La matriz básica de un 33 totalmente aleatorizado y sin replicas se muestra en Tabla 5. Fig. Solamente realizando una réplica sería necesario trabajar con un total de 54 experimentos.17. Es decir. Diseño factorial desbalanceado El diseño desbalanceado se aplica cuando no es posible o no se desea variar todos los factores en igual cantidad de niveles de variación. Debido a que la matriz no es simétrica respecto a los niveles de variación de factores. +1). Es espacio factorial creado para este plan factorial se muestra en la Tabla 5. Esto implicaría separar el Ranking de revistas en tres clases (-1. pero ahora en su variante más compleja. 61 . autocitas y Ranking en el Índice H pero definiendo tres niveles de variación por cada factor. El factor cualitativo (Ranking o cuarto) se analizará en 4 niveles de variación. Esto es lo más cercano a la realidad pues existen 4 cuartos en el ranking de revistas. Se desea analizar la influencia en este índice de 4 factores variando a diferentes niveles. Cada bloque podría ser el número de experimentos correspondientes a una réplica. Sin embargo el análisis de resultados es similar a los tipos de diseños factoriales analizados anteriormente. ello implica una matriz más compleja numéricamente y en la codificación de las variables.

0 1.0 -1.0 1.0 27 2 0.0 0.0 24 2 -1.0 0.0 0.0 13 2 -1.Tabla 5.0 -1.0 9 1 1.0 1.0 -1.0 -1.0 0.0 18 2 1.0 17 2 -1.0 14 2 1.0 0.0 4 1 0.0 -1.0 20 2 -1.0 1.0 16 2 0.0 6 1 1.0 -1.0 0.0 0.0 0.0 1.0 25 2 1.0 -1.0 1.0 10 2 1.16.0 1.0 26 2 0.0 0.0 0.0 21 2 0.0 -1.0 -1.0 -1.0 0.0 0.0 1.0 1.0 0.0 0.0 0.0 -1.0 7 1 -1.0 -1.0 5 1 0.0 2 1 -1.0 -1.0 0.0 8 1 1.0 -1.0 1.0 -1.0 23 2 -1.0 -1.0 -1.0 1.0 1.0 19 2 -1.0 1.0 11 2 0.0 1.0 -1.0 22 2 -1.0 1.0 0. Matriz básica para factorial 33 de influencia de factores en el Índice H Experimento Bloque o réplica FI autocitas Ranking 1 1 1.0 62 .0 12 2 0.0 0.0 1.0 3 1 1.0 1.0 15 2 0.0 1.

etc. Tabla 5. En caso que dada la naturaleza de la investigación que se realiza y la rama de la ciencia o tecnología en que se trabaja. La matriz del diseño tiene que reproducir todas las combinaciones posibles de factores. En el caso de la codificación de variables. diagrama de Pareto. La complejidad en este tipo de diseño desbalanceado radica en poder crear la matriz completa que incluya todas las combinaciones de factores a todos sus correspondientes niveles de variación. La matriz correspondiente a los 32 experimentos se muestra en el Anexo 2.17. En caso que no sea un objetivo de la investigación la optimización y dada la disposición de un número de paquetes estadísticos informáticos. junto a una simplificación y sistematización de los cálculos para la posterior determinación de los puntos experimentales en el caso que posteriormente se desea aplicar un proceso de optimización.17 Condiciones de realización de los experimentos en el diseño desbalanceado Factor Nivel bajo Nivel medio Nivel alto Factor X1 (impacto) 2 (-1) 8 (+1) Factor X2 (autocitas) 1 (-1) 10 (+1) Factor X3 (índice H-revista) 10 (-1) 30 (+1) Factor X4 (Cuarto en el 1 (-1) 2 (-0. Es posible también la 63 . esta se realiza con el objetivo de ejecutar posteriormente en el análisis de la matriz del diseño. tal como queda diseñado el plan o análisis factorial a realizar mostrado en la Tabla 5.5) 4 (+1) Ranking) Se trata de mantener la variación de algunos factores solo a dos niveles pues el número de experimentos a realizar y la complejidad de la matriz son directamente proporcionales al número de factores y niveles de variación de éstos. un algebra matricial más simple y efectiva. es posible aun sin usar un diseño factorial en particular. Queda demostrado que la complejidad de la matriz a desarrollar y el número de experimentos a realizar son directamente proporcionales al número de factores seleccionados y el número de niveles en que estos varían. se puede prescindir de la codificación de variables y trabajar la matriz y los resultados en variables reales. tales como el diagrama de superficie de respuesta. así como la Tabla ANOVA. aplicar una matriz particular definida y ajustada a la situación real que se investiga y obtener resultados equivalentes a un diseño. podemos partir del 24 = 16⋅2 = 32 experimentos para la matriz básica sin replicas.5) 3 (+0. para determinar el número de experimentos básicos a realizar en la matriz del diseño. En este caso. sea difícil por determinadas razones el diseño estricto de niveles para la variación de factores. residuales.

64 .obtención de la ecuación de regresión estimada. todo lo cual sería más bien un equivalente a un análisis de regresión múltiple.

Segunda Ley de Murphy Capítulo 6 Consideraciones finales El presente curso de estadística aplicada a análisis bibliométrico pretendió introducir en el tema de la estadística y su uso como herramienta. La profundización en los temas abordados queda en manos del lector. a un grupo de investigadores en la temática. de forma tal que analizaran las bondades de esta herramienta matemática tomando los elementos de la misma que le parecieran necesarios para apoyar su labor investigativa en su campo. Es necesario recalcar una vez más que la estadística es solo una herramienta. Casi todos los temas han sido abordados brevemente acorde al tiempo disponible para la ejecución del presente curso. 65 . la cual puede realizar haciendo uso de la bibliografía recomendada o de otro número grande de bibliografía disponible en la temática. podemos decir que el curso cumplió su objetivo. Todo lleva más tiempo del que usted piensa. Si a partir de la culminación del curso pueden utilizar la estadística como buen aliado de sus resultados de investigación en el procesamiento de datos y suavizar la frontera con el uso de esta ciencia de manera que puedan en el futuro profundizar en ella o iniciar trabajos con partes de la estadística no estudiadas en el curso pero que consideran importantes para sus investigaciones. es un medio y no un fin en la investigación científica o en cualquier tarea a cumplir. Solo es necesario utilizarla cuando se necesita y siempre que los resultados de ella derivados sirvan para brindar conclusiones o den lugar a nuevas ideas dentro de la investigación que se realiza que sin su utilización no sería posible obtener o sostener. No podemos dejar de mencionar una vez más que la estadística es una ciencia inexacta y esto es algo que quien se vale de ella debe tener bien claro al mostrar y argumentar resultados.

[Kreyszig] E. Curso de Estadística General. Introducción a la elaboración matemática de resultados experimentales. 7. Ed. 1970. 1990. [Calero] A.C. [Montgomery] D. [Yamane] T. [Alpizar] J. López R. Editorial. La Habana. Técnicas de Muestreo. 1991. 2da Edición. 4. 1978. Iglesias M. Advanced Engineering Mathematics. 6. 2. Diseños y análisis de experimentos. Universidad de la Habana. 9th Edition. [Cansado] E. 66 . Revolucionaria. 1989. John Wiley & Sons. Instituto Cubano del Libro. [Yamane] T. 3. Statistics: an introductory analysis. Editorial Pueblo y Educación. 5.Referencias 1. Pueblo y Educación. 1970. Grupo Editorial Iberoamérica. Elementary Sampling Theory. 2006.

Distribución normal [Kreyszig] ) 67 .Anexo 1.

5 Y12 13 +1 -1 -1 -0.5 Y10 11 -1 +1 -1 -0.5 Y16 17 -1 -1 -1 +0.5 Y20 21 +1 -1 -1 +0.5 18 19 -1 +1 -1 +0.5 Y21 22 +1 -1 +1 +0.5 Y9 10 -1 -1 +1 -0.5 Y23 24 +1 +1 +1 +0.5 Y11 12 -1 +1 +1 -0.5 Y15 16 +1 +1 +1 -0.Anexo 2. Matriz del diseño experimental para el ejemplo de diseño desbalanceado con cuatro factores Experimento X1 X2 X3 X4 (yj) 1 -1 -1 -1 -1 Y1 2 -1 -1 +1 -1 Y2 3 -1 +1 -1 -1 Y3 4 -1 +1 +1 -1 Y4 5 +1 -1 -1 -1 Y5 6 +1 -1 +1 -1 Y6 7 +1 +1 -1 -1 Y7 8 +1 +1 +1 -1 Y8 9 -1 -1 -1 -0.5 Y13 14 +1 -1 +1 -0.5 Y17 18 -1 -1 +1 +0.5 Y19 20 -1 +1 +1 +0.5 Y14 15 +1 +1 -1 -0.5 Y24 25 -1 -1 -1 +1 Y25 26 -1 -1 +1 +1 Y26 68 .5 Y22 23 +1 +1 -1 +0.

27 -1 +1 -1 +1 Y27 28 -1 +1 +1 +1 Y28 29 +1 -1 -1 +1 Y29 30 +1 -1 +1 +1 Y30 31 +1 +1 -1 +1 Y31 32 +1 +1 +1 +1 Y32 69 View publication stats .