You are on page 1of 28

UNIVERSIDAD DE PUERTO RICO

Recinto de Río Piedras
Facultad de Administración de Empresas Instituto de Estadística

ANALISIS DISCRIMINANTE, HERRAMIENTA EN ESTADISTICA GERENCIAL
José C. Vega Vilca, PhD Presentación en la Escuela Graduada Marzo 2008

INTRODUCCION
En negocios hay muchas situaciones donde sujetos en estudio pueden ser separados en dos o más grupos bien definidos. Estos sujetos pueden ser personas personas, ciudades ciudades, universidades universidades, países u otros otros. El propósito del Análisis Discriminante es construir un clasificador basado en datos multivariados, pertenecientes a grupos bien conocidos por el investigador, para ser usado en clasificación de nuevos sujetos y puedan ser localizados en alguno de estos grupos en estudio. Según las características (multivariadas) de los nuevos sujetos, podremos dar respuesta a casos tales como: 1.- ¿Comprará, este cliente nuestro producto, o no? 2 - ¿Devolverá, 2. ¿Devolverá este cliente el crédito crédito, o no? 3.- ¿Se adaptará, este candidato al puesto de trabajo, o no?

José Vega, PhD

2

en una de estas dos poblaciones José Vega.EL PROBLEMA GENERAL EN CLASIFICACIÓN Población 1: π1 Población 2: π2 Cada punto representa un sujeto. en el p de p p-dimensiones espacio Clasificar estos nuevos objetos. PhD 3 .

CASO PRÁCTICO: los objetos j se representan p dentro de un espacio muestral Ω Ω Región 1: R1 clasificador Región 2: R2 José Vega. PhD 4 .

x3 . PhD 5 p1 = P (x ∈ π 1 ) .2 Probabilidad apriori de pertenecer a población 1 p 2 = P (x ∈ π 2 ) Probabilidad apriori de pertenecer a población 2 José Vega. x p ) )' vector aleatorio : punto en el espacio f i (x ) función de densidad de población i. i=1. x2 .CONCEPTOS R1 : Región donde los sujetos son clasificados como perteneciente a π1 R2 : Región donde los sujetos son clasificados como perteneciente a π2 Ω : Espacio muestral. cuando realmente pertenece a πj x = ( x1 . R1∪ R2 = Ω R1∩ R2 = φ c(i | j) : costo de clasificar un objeto en πi . L .

PhD Es la función discriminante D( x ) = ln f1 (x ) f 2 (x ) 6 .REGIONES DE CLASIFICACIÓN R1 : ⎡ c(1 | 2) ⎤ ⎡ p2 ⎤ f1 (x ) ≥ ⎢ ⎥ ⎥ ⎢ f 2 (x ) ⎣ c(2 | 1) ⎦ ⎣ p1 ⎦ ⎡ c(1 | 2) ⎤ ⎡ p2 ⎤ f1 (x ) < ⎢ ⎥ ⎥ ⎢ f 2 (x ) ⎣ c(2 | 1) ⎦ ⎣ p1 ⎦ R2 : Generalmente se asume que: ⎡ c(1 | 2) ⎤ ⎢ c(2 | 1) ⎥ = 1 y ⎣ ⎦ ⎡ p2 ⎤ ⎢ ⎥ = 1 ⎣ p1 ⎦ Regiones de clasificación R1 : D(x ) ≥ 0 R2 : D(x ) < 0 José Vega.

PhD 7 .DISTRIBUCIÓN NORMAL p-VARIADA ′ El vector aleatorio x = ( x1 x2 L x p ) tiene distribución normal p-variada. si su función de densidad es : f (x ) = 1 (2π ) p 2 ∑ 1 2 ⎧ 1 ⎫ exp ⎨ − (x − μ )' ∑ −1 (x − μ ) ⎬ ⎩ 2 ⎭ ⎡σ 11 σ 12 ⎢σ σ 22 21 ∑ = ⎢ ⎢ M M ⎢ ⎢σ p1 σ p 2 ⎣ L σ1p ⎤ L σ2p⎥ ⎥ L M ⎥ ⎥ L σ pp ⎥ ⎦ vector de medias ⎡ ⎢ μ = ⎢ ⎢ ⎢ ⎢ ⎣ M ⎥ ⎥ μp ⎥ ⎦ μ1 ⎤ μ2 ⎥ ⎥ Matriz de covarianzas p = 1: univariada f (x ) = 1 2π σ 2 ⎧ ⎪ 1⎛ x−μ ⎞ exp⎨ − ⎜ ⎟ ⎪ ⎩ 2⎝ σ ⎠ p = 2: bivariada ⎫ ⎪ ⎬ ⎪ ⎭ José Vega.

PhD 8 .CLASIFICACIÓN EN DOS POBLACIONES NORMALES Sean f1 (x ) y f 2 (x ) las funciones de densidad correspondientes a las p poblaciones en estudio: π1 y π2 . respectivamente p f1 (x ) = f 2 (x ) = 1 (2π ) (2π ) p 2 ∑1 ∑2 1 2 ⎧ 1 ⎫ −1 ( x − μ1 ) ⎬ exp ⎨ − (x − μ1 )' ∑1 ⎩ 2 ⎭ ⎧ 1 ⎫ −1 (x − μ 2 ) ⎬ exp ⎨ − (x − μ 2 )' ∑ 2 ⎩ 2 ⎭ 1 p 2 1 2 Regiones de clasificación Es la función discriminante R1 : D(x ) ≥ 0 R2 : D(x ) < 0 D(x ) = ln f1 (x ) f 2 (x ) José Vega.

PhD k = ⎛ ∑1 1 ln ⎜ ⎜ ∑ 2 2 ⎝ 1 ' −1 1 μ1 ∑1 μ1 − μ '2 ∑ − 2 μ2 2 ( ) 9 .C Caso a) ) : Σ1 = Σ2 = Σ (discriminante (di i i t lineal) li l) R1 : D(x) = (μ1 − μ2 )' ∑−1 x − R2 : D(x) = (μ1 − μ2 )' ∑−1 x − 1 (μ1 − μ2 )' ∑−1 (μ1 + μ2 ) ≥ 0 2 1 (μ1 − μ2 )' ∑−1 (μ1 + μ2 ) < 0 2 Caso b) : Σ1 ≠ Σ2 (discriminante cuadrático) R1 : D(x) = − R2 : D(x) = − 1 −1 −1 x' ∑1 −∑2 x + 2 1 −1 1 x' ∑1 −∑− 2 x + 2 ⎞ ⎟ + ⎟ ⎠ ( ) (μ ∑ ' 1 ' 1 −1 1 −1 − μ'2 ∑2 x − k ≥ 0 ) ( ) (μ ∑ −1 1 1 − μ'2 ∑− 2 x − k < 0 ) donde : José Vega.

un vector observado i = 1. PhD … (2) 10 . 2 x0 Usando probabilidad condicional P(π 2 | x 0 ) = P(π 2 ∩ x 0 ) P(x 0 ) = P(π 2 ) P(x 0 | π 2 ) P(x 0 ) = p2 f 2 (x 0 ) P(x 0 ) … (1) Usando probabilidad total P(x0 ) = P(x0 ∩ π1 ) + P(x0 ∩ π 2 ) = P(π1 ) P(x0 | π1 ) + P(π 2 ) P(x0 | π 2 ) P(x0 ) = p1 f1(x0 ) + p2 f2 (x0 ) José Vega.CLASIFICACIÓN: “PROBABILIDAD POSTERIOR” P(π i | x 0 ) probabilidad de clasificar en πi .

Reemplazando (2) en (1) y asumiendo que p1 = p2 P(π 2 | x 0 ) = f 2 (x 0 ) f1 (x 0 ) + f 2 (x 0 ) = f1 (x 0 ) f 2 (x 0 ) 1 + 1 = 1 exp[D(x 0 )] + 1 P(π 1 | x 0 ) = f1 (x 0 ) f1 (x 0 ) + f 2 (x 0 ) = 1 + 1 f 2 (x 0 ) f1 (x 0 ) = 1 1 + exp[− D(x 0 )] Regla de clasificación Si P(π 1 | x 0 ) > P(π 2 | x 0 ) ⇒ x0 se clasifica en π1 de otro modo en π2 José Vega. PhD 11 .

μ 2 .ESTIMACION (1) En el caso de aplicación. PhD 12 . La función discriminante se construye con una muestra de cada población muestra de población 1 ⎛ x11 x12 L x1p ⎞ ⎜ ⎟ x x L x ⎜ 21 22 2p ⎟ ⎜ ⎟ ⎟ X = ⎜ M M ⎟ ⎜ M ⎟ ⎜ ⎟ ⎜ ⎜x x L x ⎟ np ⎠ ⎝ n1 n2 muestra de población 2 ⎛ y11 y12 L y1p ⎞ ⎜ ⎟ y y L y ⎜ 21 22 2p ⎟ ⎜ ⎟ ⎟ Y = ⎜ M M ⎟ ⎜ M ⎟ ⎜ ⎟ ⎜ ⎟ ⎜y ⎝ m1 ym2 L ymp ⎠ ∑1 ⇒ S x μ1 ⇒ x ∑2 μ2 ⇒ Sy ⇒ y José Vega. los parámetros μ1 . ∑1 y ∑ 2 son desconocidos.

L . PhD x 0 = ( x1 . x p )' si si D(x 0 ) ≥ 0 D(x 0 ) < 0 13 . x3 .ESTIMACION (2) En discriminante lineal se supone que: ∑1 = ∑ 2 La matriz de covarianza común: S= (n − 1)S x + (m − 1)S y n+m−2 REGIONES DE CLASIFICACION R1 : D(x) = ( x − y )' S −1x − R2 1 (x − y )' S −1 ( x + y ) ≥ 0 2 1 : D(x) = (x − y )' S −1x − ( x − y )' S −1 (x + y ) < 0 2 CLASIFICACION Un nuevo sujeto representado por: Será clasificado en: π 1 Será clasificado en: π 2 José Vega. x2 .

Grupos: 1) Clientes NO suscritos a Wall Street Journal 2) Clientes suscritos a Wall Street Journal Variables discriminantes: Ingreso: ingreso anual de la persona Inversión: cantidad total invertido en bonos y acciones José Vega.APLICACION 1: Clasificación en dos grupos Una empresa tiene el registro de 84 clientes. Algunos de ellos están suscritos a la revista Wall Street Journal ( (WSJ) ) y los otros no. PhD 14 .

GRAFICO DE PUNTOS: REPRESENTACION DE LOS DOS GRUPOS José Vega. PhD 15 .

63 63 80485.19 53000.ANALISIS DISCRIMINANTE ( (1) ) PROMEDIOS grupo N0 SUSCRITOS:NO SUSCRITOS: SI Ingreso Inversión 66042. PhD .00 MATRIZ DE COVARIANZAS COMUN Ingreso Inversión Ingreso 14812033021 6123163684 Inversión 6123163684 7663422105 MATRIZ DE CLASIFICACION N0-suscrito N0 suscrito SI SI-suscrito suscrito NO-suscritos 52 5 SI-suscritos 2 25 TOTAL 57 27 84 16 José Vega.11 66042 11 24952 24952.

1867125* Ingreso g + 25297.92316 ECUACION DE LA RECTA RECTA: CLASIFICADOR D ( x) = 0 0 00006586* Ingreso − 0 0.0003527348* 0003527348* Inversion + 8.00006586* 0.0003527348* Inversión + 8.00006586* Ingreso − 0.08 José Vega.92316 8 92316 = 0 Inversión = 0.ANALISIS DISCRIMINANTE (2) ( ) FUNCIÓN DISCRIMINANTE (D) D(x) = 0. PhD 17 .

REPRESENTACION GRAFICA DEL CLASIFICADOR Malaclasificacion: 5 azules 2 rojos clasificador José Vega. PhD 18 .

PhD 19 .0003527348* 10000 + 8.COMO CLASIFICAR A UN NUEVO CLIENTE? Nuevo cliente: Ingreso: 60000 Inversión: 10000 Solución 1: Ubicar x 0 en el gráfico de puntos x 0 = (60000.92316 D(x0 ) = 9 9. (60000 10000) ' S l ió 2 Solución 2: U Usar l la f función ió di discriminante i i t D (x 0 ) = 0.347412 347412 > 0 El nuevo cliente li t No N está tá suscrito a WSJ José Vega.00006586* 60000 − 0.

PhD 20 .347412) + 1 1 1 = = 0.9999128 1 + exp[− D(x 0 )] 1 + exp(−9.COMO CLASIFICAR A UN NUEVO CLIENTE? Solución 3: usando probabilidad posterior (p1 = p2) P(π 2 | x 0 ) = 1 1 = = 0.347412) P(π 1 | x 0 ) = Se cumple que: P(π 1 | x 0 ) > P(π 2 | x 0 ) El nuevo cliente No está suscrito it a WSJ José Vega.0000872 exp[D(x 0 )] + 1 exp(9.

PhD P (π i | x 0 ) .CLASIFICACIÓN EN MÁS DE DOS GRUPOS Trabajando con tres grupos • Usando U d l la f función ió di discriminante: i i t asumiendo i d que p1 = p2 = p3 clasificar x 0 en una de las tres poblaciones D12 (x 0 ) ≥ 0 D12 (x 0 ) < 0 π 1 si π 2 si ∧ ∧ D13 (x 0 ) ≥ 0 D23 (x 0 ) ≥ 0 π 3 si i D13 (x 0 ) < 0 ∧ D23 (x 0 ) < 0 • Usando probabilidad posterior calcular : clasificar José Vega. 2. 3 x 0 en la población donde P(π i | x 0 ) es el valor más grande 21 . i = 1.

PhD 22 . La compañia tiene registrado a 119 universidades en tres grupos: Grupos: ) Universidades U e s dades que NUNCA U C le e co compraron pao e el libro bo 1) 2) Universidades que YA NO compran el libro 3) Universidades que SIGUEN comprando el libro Variables discriminantes: X1: total de alumnos en la universidad X2: promedio SAT X3: porcentaje de cursos que requieren asistencia X4: número de PC disponibles en la universidad X5: porcentaje de estudiantes con PC propia X6: promedio anual de estudiantes matriculados José Vega. es representante de un libro de computación con el cual ha alcanzado sus mejores ventas.APLICACION 2: Clasificación en tres grupos Una compañia especializada en textos universitarios.

60 950.7297 59.2750 80.30e+04 3038.5 1016284.5 -414582.1429 59.2 13996125.04e+03 11217.9 -229036851 8.ANALISIS DISCRIMINANTE (1) ( ) PROMEDIOS: GRUPO X1 X2 X3 X4 X5 X6 1) 14799.5 1045239 8.1 3234841 3.3 13996126 1.46 921.59500 148.3 2743.5 -229036851.29e+04 58951.1 4432.1 -414582.4 28703.500 2) 14888.98571 9680.6 1045238.40e+06 -689418.4 -6095139. PhD 23 .95135 9878.9 X4 X5 X6 1.5 1787913 3.952 MATRIZ DE COVARIANZAS COMUN X1 X2 X3 503920787.3 -689418.93e+01 2743.9 58951.87838 101.8 1403197.2857 51.93250 14997.48333 153.9 1117937215 X1 X2 X3 X4 X5 X6 José Vega.2 -6095139.1500 54.23e+06 1787912.4 28703.378 3) 19575.6216 43.0 82864.05 1134.9 19.

ANALISIS DISCRIMINANTE (2) ( ) MATRIZ DE CLASIFICACION GRUPO1 39 0 0 GRUPO2 0 34 3 GRUPO3 1 3 39 TOTAL 40 37 42 119 GRUPO1 GRUPO2 GRUPO3 José Vega. PhD 24 .

0060218883 -0.72691 José Vega.25612 D13 (x) -0.0010176201 0.0001415569 -25.0001594750 -57.0145923633 0.0583431022 -0.0643649905 -0.5000922141 -0.0002646156 0.2357332707 0.5711362115 0.0544522169 -0.0003010319 31.0103142274 0.1812810538 0.0710439974 -0.FUNCION DISCRIMINANTE El clasificador consta de tres funciones: D12 (x) D13 (x) D23 (x) C fi i t d Coeficientes de l las f funciones i Variables X1 X2 X3 X4 X5 X6 Constante D12 (x) 0.0007530045 0.0042781359 -0.52921 D23 (x) -0. PhD 25 .

PhD 26 .COMO CLASIFICAR A UNA NUEVA UNIVERSIDAD? Nueva universidad: X1 17455 X2 1068 X3 79.5 X6 17400 Solución 1: Usar la función discriminante D12 (x 0 ) = 7.143177 D23 (x0 ) = −0.2042108 La nueva universidad i id d pertenence al grupo 1.3 X4 154 X5 46. Nunca comprarán el libro D12 (x 0 ) ≥ 0 ∧ D13 (x 0 ) ≥ 0 José Vega.347388 D13 (x 0 ) = 7.

9985675 1 + exp[− D12 (x 0 )] + exp[− D13 (x 0 )] La nueva universidad pertenence al grupo 1.143177 D23 (x0 ) = −0. PhD 27 .2042108 P(π 3 | x 0 ) = 1 = 0.0007891055 exp[D13 (x 0 )] + exp[D23 (x 0 )] + 1 1 P(π 2 | x 0 ) = = 0. NUNCA comprarán el lib libro José Vega.COMO CLASIFICAR A UN NUEVA UNIVERSIDAD? Solución 2: Usar la probabilidad posterior (p1 = p2 = p3) D12 (x 0 ) = 7.347388 D13 (x 0 ) = 7.0006433502 exp[D12 (x 0 )] + 1 + exp[− D23 (x 0 )] P(π 1 | x 0 ) = 1 = 0.

Duxbury M di K Mardia K. (2000). Managerial Statistics.. Bibb Bibby J J. Zappe C. M Multivariate lti i t A Analysis. PhD 28 .BIBLIOGRAFIA Albright S.. l i A Academic d i P Press José Vega.. (1979) (1979). K Kent tJ J.. Winston W.