You are on page 1of 11

CONTROL ESTADÍSTICO DE UN PROCESO QUÍMICO BASADO EN EL ANÁLISIS DE

COMPONENTES PRINCIPALES
Néstor Manuel Ortiz-Rodriguez
Facultad de Matemáticas, Universidad Autónoma de Yucatán, Mérida, Yucatán

INTRODUCCIÓN

El objetivo de cualquier control estadístico de procesos (SPC) es controlar el desempeño de un proceso


en el tiempo, con el fin de comprobar si el proceso se comporta como se espera que lo haga y para
detectar cualquier evento inusual que pueda ocurrir. Al encontrar las causas asignables para los eventos
inusuales, las mejoras en la calidad del proceso se puede conseguir mediante la eliminación de estas
causas. Los gráficos de control son una herramienta esencial para el logro de esta meta. La mayoría de
los sistemas de SPC en la práctica se basan en un gráfico univariado como las cartas de Shewhart.
Estos enfoques, aunque eran eficaz en tiempos pasados cuando los datos eran escasos, son totalmente
inadecuados para los procesos modernos y las industrias manufactureras, donde un gran numero de
variables con alta correlación son recopilados gracias a los métodos automatizados (Ferrer 2007).

La aplicación de gráficos univariados al SPC para cada variable por separado obligará al operador
inspeccionar un gran número de gráficos de control. Cuando ocurren eventos inusuales en un proceso
que afecta no sólo la magnitud de las variables, sino también su relación entre sí. Estos eventos son a
menudo difíciles de detectar por los gráficos de una variable a la vez. Los métodos multivariados que
tratan todas las variables al mismo tiempo son un buen recurso. Un procedimiento de monitoreo y
control de proceso con variables múltiples apropiado para monitorear el vector de la media de procesos
es la carta de control T2 de Hotelling.

Los métodos convencionales de cartas de control de variables múltiples son razonablemente efectivos
siempre que p (numero de variables del proceso que se van a monitorearse) no sea muy grande. Cuando
p se incrementa el desempeño de la longitud promedio de la corrida para detectar un corrimiento
especificado en la media de estas variables en las cartas de control para variables múltiples también se
incrementa, debido a que el corrimiento se diluye en el espacio p dimensional de las variables del
proceso. Por consiguiente, en ocasiones son útiles otros métodos para monitorear el proceso,
particularmente en situaciones en las que la variabilidad del proceso no se distribuye por igual entre las
p variables. A los métodos para descubrir las subdimensiones en las que se mueve el proceso se llama
métodos de estructura latente uno de ellos es el análisis por componentes principales (Montgomery
2007).

En un proceso químico de destilación se tiene el registro de las cuatro principales variables en el


control del proceso de destilación. Estas son la temperatura del condensador °C (x1), temperatura del
hervidor °C (x2), flujo de alimentación m3/s (x3) y fracción de alimentación que se volatiliza % (x4).
Actualmente para monitoreo y control del proceso de destilación se cuenta con un total de seis gráficos
bivariados o elipses de control, sin embargo el manejo es complicado.

1
OBJETIVO

Reducir la dimensionalidad de los datos del proceso de destilación por medio del análisis multivariante
de componentes principales para permitir una fácil interpretación de los datos y la construcción de un
gráfico de control para valores futuros.

ANTECEDENTES

Componente principales
Los métodos estadísticos de proyección multivariada como el análisis de componentes principales
(PCA) se utilizan para reducir la dimensionalidad del espacio monitoreado mediante la proyección de
la información de las variables originales hacia abajo sobre subespacios de baja dimensión definida por
una pocas variables latentes (Jackson, 2003).

Los componentes principales de un conjunto de variables x1, x2,...xp de un proceso son tan solo un
conjunto particular de combinaciones lineales de estas variables. El primer componente principal es
z 1=c11 x 1c 12 x 2c1p x p , tal que la varianza de z1 se maximiza sujeta a la restricción de que la
p
suma de los pesos cuadrados es igual a uno, es decir ∑ c21i=1 . El segundo componente principal es
i=1
z 2 =c 21 x 1c 22 x 2 c 2p x p , tal que la varianza de z2 se maximiza sujeta a la restricción de que esta
incorrelacionada al primer componente principal y que la suma de los pesos cuadrados es igual a uno,
p
es decir ∑ c22i=1 . Los coeficientes de las combinaciones lineales del i-ésimo componente principal
i=1
son los vectores propios correspondiente al i-ésimo valor propio más grande (para i = 1,2 ,..., p). Este
proceso puede continuar hasta que muchos componentes como variables se han encontrado.

La intención básica de los componentes principales es encontrar el nuevo conjunto de direcciones


ortogonales que define la variabilidad máxima en los datos originales, esto lleva a una descripción del
proceso que requiere un numero considerablemente menor de variables que las originales.
La varianza del i-ésimo componente principal es el i-ésimo valor propio. Así la proporción de la
variabilidad en los datos originales explicada por el i-ésimo componente principal esta dada por el
cociente del i-ésimo valor propio y la suma total de los valores propios.

Gráfico de control usando PCA


Una vez que se han calculado los componentes principales y se ha seleccionado un subconjunto de los
mismos, pueden obtenerse nuevas observaciones de los componentes principales al sustituir las
observaciones originales en el conjunto de los componentes principales que se han conservado, a estas
observaciones se les llama puntuaciones de los componentes principales. La gráfica de control se
construye con los estadísticos T2 de Hotelling que se calcula a partir de la puntuaciones de los
componentes principales. Los estadísticos son graficados contra un limite de control superior igual a χ 2
k,α que es el punto porcentual α superior de la distribución ji-cuadrada con k grados de libertad (k es el
numero de componentes principales que se conservaron). Si las medias del proceso se mantienen en los
valores del vector media, entonces los valores del estadístico calculado deberá ser menores que el
limite de control superior. El limite de control inferior se cero.

2
METODOLOGÍA

Antes de la construcción de la carta de control, se realizo un análisis estadístico de los datos en el cual
se calcularon algunas de las medidas descriptivas relevantes de cada variable y se realizo un estudio de
normalidad de las variables. Dado que se trato de una muestras pequeña se utilizo el contraste de
Shapiro - Wilks, ya que son más convenientes para éste caso (Montgomery 2010).

Todos los sistemas de control estadístico de procesos se lleva a cabo en dos fases. La primera fase es la
construcción de modelos o gráficos de monitoreo que se construyen de acuerdo a un conjunto de datos
históricos en el control del proceso que se supone se encuentra estable. En la segunda fase (modelo
explotación), estas gráficas se utilizan para controlar la proceso a partir de datos en línea, asumiendo la
forma de la distribución a conocer junto con sus valores de los parámetros de control (Woodall, 2000).

Este trabajo se enfoco en la primera fase, en la cual una vez que se obtuvo el registro histórico de las
variables se procedió a estandarizar las variables. Luego se realizo el análisis de componentes
principales para obtener aquellos componentes principales que expliquen la mayor variabilidad y con
ello obtener las puntuaciones de los componentes principales. Estas nuevas variables (puntuaciones) se
utilizan para calcular los limites de control de prueba y graficarlos contra los mismos datos de los que
se derivaron. Los puntos que caen fueran de los los limites de control se eliminan, si se les encuentra
una causa asignable. El proceso se repite hasta que los datos restantes se encuentre entre los limite de
control. Una vez encontrado los limites adecuados los componentes principales elegidos serán la base
para el calculo de las puntuaciones a graficar de los valores futuros de las variables recogidas en el
proceso.

RESULTADOS

La Tabla 1 muestra el registro de las 20 observaciones que se realizaron a las 4 variables del proceso de
destilación. (Fuente: Montgomery 2007).

Tabla 1.- Registro de las variables del proceso químico


X1 X2 X3 X4
10 20.7 13.6 15.5
10.5 19.9 18.1 14.8
9.7 20 16.1 16.5
9.8 20.2 19.1 17.1
11.7 21.5 19.8 18.3
11 20.9 10.3 13.8
8.7 18.8 16.9 16.8
9.5 19.3 15.3 12.2
10.1 19.4 16.2 15.8
9.5 19.6 13.6 14.5
10.5 20.3 17 16.5
9.2 19 11.5 16.3
11.3 21.6 14 18.7
10 19.8 14 15.9
8.5 19.2 17.4 15.8
9.7 20.1 10 16.6
8.3 18.4 12.5 14.2
11.9 21.8 14.1 16.2
10.3 20.5 15.6 15.1
8.9 19 8.5 14.7

3
En la Tabla 2 se presentan los resultados del análisis estadístico descriptivo de las cuatro variables de
estudio. Los bajos valores de los coeficientes de variación indican que no hay demasiada
heterogeneidad entre las observaciones, esto es razonable ya que se trata de un proceso químico que
sensible a los cambios y se debe mantener lo mas estable posible. Se puede observar que las dos
temperatura medidas en el proceso son las que tienen la menor desviación típica de las cuatro variables
de estudio. En la Figura 1 se presenta la matriz de gráficas de dispersión, e indican que las dos
temperaturas tienen una alta correlación, mientras que las dos variables restantes muestran tan solo una
correlación moderada. En la Tabla 3 se resumen la prueba de normalidad utilizando la prueba de
Shapiro-Wilks, en la cual se observa que las cuatro variables de estudio tienen una distribución normal.

Tabla 2.- Resultados del análisis descriptivo

X 1

X 2

X 3

X 4

Figura 1.- Matriz de gráfica de dispersión de las 4 variables de estudio

Tabla 3.- Prueba de normalidad.

Es común calcular los componentes principales utilizando variables que se han estandarizado, por lo
que la matriz de covarianza se expresa en la forma de una matriz de correlaciones. La razón de ello es

4
que las variables originales del proceso con frecuencia se expresan en escalas diferentes y por
consiguiente, una variable puede dar la impresión de tener una contribución muy significativa en la
variabilidad total del sistema tan solo porque la escala de medición tiene magnitudes mas grades que
las demás variables (Montgomery 2007). A pesar de que la escala de medición para las cuatro
variables de estudio es similar en magnitud, como se puede observar en el promedio de las variables, es
conveniente en todo caso trabajar con la matriz de covarianza expresada en forma de correlaciones. La
matriz de covarianza de las 20 observaciones de las cuatro variables, en forma de correlaciones, es:

{ }
1.0000 0.9302 0.2060 0.3595
Σ = 09302 1.0000 0.1669 0.4502
0.2060 0.1669 1.0000 0.3439
0.3595 0.4502 0.3595 1.0000

Se puede observar en la matriz de covarianza que el coeficiente de correlación entre la temperatura del
condensador y hervidor es de 0.9302, lo que confirma la impresión visual obtenida en la matriz de
gráficas de dispersión.

En la Tabla 3 se presentan los resultados del análisis de componentes principales de las 20


observaciones, indicando los valores propios y los vectores propios, así como el porcentaje y el
porcentaje acumulado de la variabilidad explicada por cada componente principal. Se puede observar
que todas las constantes en el primer componente principal tienen aproximadamente la misma
magnitud y tienen el mismo signo, por lo que el primer componente principal puede considerarse como
un análogo del promedio de las 4 variables originales. Mientras que el segundo componente principal
es equivalente aproximadamente a la diferencia entre los promedios de las dos primeras variables y las
dos ultimas.

Tabla 3.- Resumen del análisis de componentes principales

En general, querrán conservarse suficientes componentes para explicar una proporción razonable de la
variabilidad total del proceso, pero no existe ningún lineamiento claro de cuánta variabilidad necesita
explicarse a fin de producir un procedimiento de monitoreo del proceso efectivo. Kaiser recomienda la
eliminación de los componentes principales de una matriz de correlación con las raíces latentes
menores de uno. Argumenta que los componentes principales con variaciones menores de uno
contienen menos información que una sola variable estandarizada cuya varianza es uno (Hsu, 2001).
Utilizando los valores propios mayores a uno, se tiene que tan sólo los dos primeros componentes
principales, pueden explicar más del 83% de la variabilidad en las cuatro variables originales. Por lo

5
tanto se eligen los dos primeros componentes para explicar la mayor parte de “movimiento” del
proceso, es decir la descripción del la variabilidad del proceso con un subconjunto relativamente
pequeño de las variables originales del proceso. Los dos componentes principales son los siguientes:

z i1=0.5941 x i10.60704 x i20.28553 x i30.44386 x i4

z i2=−0.33393 x i1−0.3296 x i20.79369 x i30.38717 x i4

Con estos componentes principales se calcularon las puntuaciones de los componentes principales o las
nuevas variables, con las cuales se construye la gráfica de control.

En la Figura 2 se grafican las 20 puntuaciones de los componentes principales, junto con el contorno de
confianza aproximado de 95%. Se observa que las 20 puntuaciones de zi1 y zi2 se localizan dentro de la
elipse. Esta representación se considera como un dispositivo de monitoreo o carta de control para las
variables de los componentes principales, y la elipse es un limite de control aproximado. Las
puntuaciones se usan como una distribución de referencia empírica para establecer la región de control
del proceso.

2 . 5

1 . 5

0 . 5
z i2

- 0 . 5

- 1 . 5

- 2 . 5
- 3 . 8 - 1 . 8 0 . 2 2 . 2 4 . 2
z i 1
Figura 2.- Carta de la trayectoria de los componentes principales

Una vez hallado el valor del estadístico T2 para cada una de las 20 puntuaciones de los componentes
2
principales se construye una carta de control ji-cuadrada con un limite de control superior LCS= χ α ,k  .
Para un α=0.05 y k=2 el valor de χ 2=5.99 . Como se observa en la Figura 3 ninguno de los
estadísticos T2 se encuentra por arriba del limite de control superior por lo tanto el proceso esta bajo
control estadístico.

6
6
U C L = 5 . 9 7
5
4
T 2 d e H o t e llin g

3
2
1
0
0 4 8 1 2 1 6 2 0 2 4
O b s e r v a c i ó n

Figura 3.- Carta de control ji-cuadrada para las puntuaciones de los componentes principales

CONCLUSIONES

Se puede concluir que el proceso de destilación se encuentra en control estadístico; por lo tanto los dos
componentes principales elegidos que explican aproximadamente el 83% de la variabilidad de las
variables originales se pueden utilizar para calcular las puntuaciones de las variables futuras que se
recogen durante el proceso. Mientras las puntuaciones se mantengan dentro de la elipse no habrá
evidencia de que el proceso se encuentre fuera de control.
Las dos primeras variables, la temperatura del condensador y hervidor, tiene una dependencia
altamente positiva, mientras que las demás son moderadamente positivas. Es por ello que es
conveniente que el monitoreo y control de las cuatro variables se realice por medio de cartas de control
con análisis de componentes principales.

7
REFERENCIAS

1. Ferrer, Alberto (2007). Multivariate Statistical Process Control Based on Principal Component
Analysis (MSPC-PCA): Some Reflections and a Case Study in an Autobody Assembly Process,
Quality Engineering, 19: 4, 311-325
2. Hsu, Chih-Ming(2001). Solving multi-response problems through neural networks and principal
component analysis, Journal of the Chinese Institute of Industrial Engineers, 18: 5, 47-54.
3. Jackson, J. E. (2003). A User´s Guide to Principal Components. New York: Wiley.
4. Johnson, R. A. (2007). Applied Multivariate Statistical Analysis. 7a. Edición, Pearson.
5. Montgomery, D.C. Diseño y Análisis de Experimentos. 2a. edición, Limusa Wiley. Mexico, DF.
2010.
6. Montgomery, D.C (2007). Control Estadístico de la Calidad. 3a. edición, Limusa Wiley, Mexico
DF.
7. Woodall, W.H. (2000). Controversies and contradictions in statistical process control. Journal of
Quality Technology, 32(4):341–350.

8
Anexo
Resultados en Statgraphics
Análisis de Componentes Principales

Resumen del Análisis

Datos/Variables:
X1
X2
X3
X4

Entrada de datos: observaciones


Número de casos completos: 20
Tratamiento de valor perdido: lista considerada
Estandarizado: si

Número de componentes extraídos: 2

Análisis de Componentes Principales


-----------------------------------------------
Componente Porcentaje de Acumulado
Número Autovalor Varianza Porcentaje
1 2.31806 57.952 57.952
2 1.0118 25.295 83.247
3 0.608824 15.221 98.467
4 0.0613104 1.533 100.000
-----------------------------------------------

El StatAdvisor
--------------
Este procedimiento realiza un análisis de componentes principales.
El propósito del análisis es obtener un pequeño número de
combinaciones lineales de las 4 variables que explican la mayoría de
la variabilidad en los datos. En este caso, se han extraído 2
componentes, ya que los 0 componentes tenían autovalores mayores o
iguales a 1.0. Juntos explican el 83.2466% de la variabilidad en los
datos originales.

Gráfico de Sedimentación
2.4
2
Autovalor

1.6
1.2
0.8
0.4
0
0 1 2 3 4
Componente

9
Tabla de Pesos de los Componentes

Componentes Componentes
1 2
------------ ------------
X1 0.594104 -0.333932
X2 0.607045 -0.329602
X3 0.285531 0.793694
X4 0.443857 0.387172

El StatAdvisor
--------------
Esta tabla muestra las ecuaciones de los componentes principales.
Por ejemplo, el primer componente principal tiene la ecuación

0.594104*X1 + 0.607045*X2 + 0.285531*X3 + 0.443857*X4

donde los valores de las variables en la ecuación están estandarizados


substrayendo sus medias y dividiéndolos por sus desviaciones típicas.

Diagrama de dispersión
1.7
Componente 2

0.7

-0.3

-1.3

-2.3
-2.7 -1.7 -0.7 0.3 1.3 2.3 3.3
Componente 1
Tabla de Componentes Principales

Componentes Componentes
Fila 1 2
------ ------------ ------------
1 0.291681 -0.603401
2 0.294281 0.491533
3 0.197337 0.640937
4 0.839022 1.46958
5 3.20488 0.879172
6 0.203271 -2.29514
7 -0.992105 1.67046
8 -1.70241 -0.360891
9 -0.142461 0.560808
10 -0.994981 -0.314934
11 0.944697 0.504711
12 -1.2195 -0.0912936
13 2.60867 -0.421764
14 -0.123785 -0.0876728
15 -1.10423 1.47259
16 -0.278251 -0.947627

10
17 -2.65608 0.135288
18 2.36528 -1.30494
19 0.411311 -0.21893
20 -2.14662 -1.17849

El StatAdvisor
--------------
Esta tabla muestra los valores de los componentes principales por
cada fila del fichero de datos. Seleccione Peso de los Componentes de
la lista de Opciones Tabulares, para obtener las ecuaciones para cada
componente. Seleccione Diagrama de dispersión 2D o Diagrama de
dispersión 3D en la lista de Opciones Gráficas para trazar este dato.
Puede guardar los componentes pulsando el cuarto botón de la izquierda
en la barra de herramientas del análisis.

Gráfico de Pesos del Componente


0.8 X3
Componente 2

0.6
0.4 X4

0.2
0
-0.2
X1
X2
-0.4
0.28 0.38 0.48 0.58 0.68
Componente 1

Biplot
3.7 X3
Componente 2

2.7
1.7 X4

0.7
-0.3
X1
X2
-1.3
-2.3
-2.7 -0.7 1.3 3.3 5.3
Componente 1

11

You might also like