You are on page 1of 25

´

Repaso probabilidad y calculo sobre matrices

´
Mauricio A. Alvarez, PhD

Facultad de Ingenier´ıas
´
Universidad Tecnologica de Pereira

1 / 25

Contenido

Repaso de Probabilidad

Repaso de Matrices

2 / 25

. 3 / 25 . N donde nij se define como el numero ´ de realizaciones en las que X = xi y Y = yj . q Se tienen N realizaciones de X y Y . xM } y Y = {y1 . . . . . ´ Nociones Basicas I q Sean dos variables aleatorias X = {x1 . Y = yj ) = . . . q Se define la probabilidad conjunta como nij p(X = xi . yL }. .

Y = yj ). q Se define la probabilidad marginal de X = xi como L ci 1 X X p(X = xi ) = = nij = p(X = xi . N N j j=1 ci yj } nij }r j xi 4 / 25 . del valor de Y). ´ Nociones Basicas II q Sea ci el numero ´ de realizaciones en las que X toma el valor xi (ind.

ci ´ Ademas. Y ) = p(Y |X )p(X ) = p(X |Y )p(Y ). ´ Nociones Basicas III q Se define la probabilidad condicional de Y = yj dado X = xi como nij p(Y = yj |X = xi ) = . nij nij ci p(X = xi . P q Regla de la suma: p(X ) = Y p(X . Y = yj ) = = N ci N = p(Y = yj |X = xi )p(X = xi ). Y ). q Regla del producto: p(X . 5 / 25 .

Y ) = p(X )p(Y ) 6 / 25 . ´ Nociones Basicas IV q Teorema de Bayes: p(X |Y )p(Y ) p(Y |X ) = . p(X ) q Independencia: p(Y |X ) = p(Y ). p(X .

p(X.Ejemplo Suponga que X toma 9 valores y Y toma dos valores. Se tienen N = 60 realizaciones. Y ) p(Y ) Y =2 Y =1 X p(X) p(X|Y = 1) X X 7 / 25 .

dx 8 / 25 . −∞ Igualmente. a q ´ de distribucion La funcion ´ de probabilidad (o´ distribucion ´ acumulativa) se define como Z x P(x) = p(z)dz. −∞ q Para un intervalo Z b p(x ∈ (a. dP(x) p(x) = .Densidad de probabilidad I q ´ de densidad de probabilidad p(x) debe cumplir que La funcion p(x) ≥ 0 Z ∞ p(x)dx = 1. b)) = p(x)dx.

Densidad de probabilidad II P (x) p(x) δx x 9 / 25 .

XD .   X1  X2  X= . . q Estas variables aleatorias pueden representarse como un vector columna de dimensiones D × 1.Vectores aleatorios q ´ Supongase un conjunto de D variables aleatorias X1 . . . . xD )> . X2 . .. . x2 . 10 / 25 .     .  XD q Un valor espec´ıfico de X se denota como x = (x1 . . .

debe satisfacer p(x) ≥ 0 Z ∞ p(x)dx = 1.Densidad de probabilidad conjunta q La densidad de probabilidad conjunta para X. p(x) 11 / 25 . . q Teorema de Bayes: p(x|y)p(y) p(y|x) = . y) = p(y|x)p(x) = p(x|y)p(y). −∞ q Regla de la suma: Z p(x) = p(x. . q Regla del producto: p(x. p(x) = p(x1 . . . y)dy. xD ).

N i=1 q ´ f (x) dado Y = y se define La esperanza condicional de una funcion como X Ex [f |y ] = p(x|y)f (x). E[f ] = p(x)f (x)dx. 12 / 25 . x q ´ f (x) se define como La esperanza muestral de una funcion N 1 X E[f ] ≈ f (xi ). x q ´ f (x) esta´ definida como La varianza de una funcion var[f ] = E[f (x) − E[f (x)]]2 = E[f (x)2 ] − E[f (x)]2 .Valor esperado y Covarianza I q ´ f (x) esta´ definida El valor esperado o la esperanza de una funcion como X Z E[f ] = p(x)f (x).

    . 13 / 25 . q La esperanza de un vector de variables aleatorias X. y] = Ex.y [{x − E[x]}{y> − (E[y])> }] = Ex.y [xy ] − E[x]E[y]. se defin como cov[x. se define como   E[x1 ]  E[x2 ]  E[x] =  .Valor esperado y Covarianza II q La covarianza de dos variables aleatorias X y Y se define como cov[x.y [xy> ] − E[x](E[y])> ..y [{x − E[x]}{y − E[y]}] = Ex.  E[xD ] q La covarianza para el caso de vectores de variables aleatorias X y Y. y] = Ex.

q La anterior cantidad es una matriz.  cov[xD . x1 ] cov[xD . x2 ] · · · cov[x1 . . xD ]  cov[x] =    .   .. x2 ] ··· cov[xD . x1 ] cov[x1 . x1 ] cov[x2 . x]. x2 ] · · · cov[x2 .Valor esperado y Covarianza III q ´ se considera un vector de variables aleatorias X Si solo cov[x] ≡ cov[x. xD ] 14 / 25 . ··· ··· . la matriz de covarianza. xD ]  cov[x2 ..   cov[x1 .

  1 1 > −1 N (x|µ. (2π)D/2 |Σ|1/2 2 15 / 25 . σ 2 ) = exp − (x − µ) 2 . ´ Gaussiana I Distribucion q ´ Gaussiana en el caso univariado se define como La distribucion   1 1 N (x|µ. σ 2 )dx = µ. (2πσ 2 )1/2 2σ 2 q Esperanza Z E[x] = xN (x|µ. q Varianza var[x] = E[x 2 ] − E[x]2 = σ 2 q Para el caso multivariado. Σ) = exp − (x − µ) Σ (x − µ) .

σ 2 ) 2σ µ x 16 / 25 . ´ Gaussiana II Distribucion N (x|µ.

1986. 17 / 25 . Addison-Wesley Iberoamericana. Paul (1986): Probabilidad y Aplicaciones Estad´ısticas.Referencias Meyer.

q De lo anterior se puede demostrar que (AB)−1 = B−1 A−1 . q ´ se tiene Tambien (A> )−1 = (A−1 )> . donde i indexa las filas y j indexa las columnas. q La matrix inversa de A. q De lo anterior se puede demostrar que (AB)> = B> A> . 18 / 25 . ´ Identidades basicas de matrices I q Una matriz A tiene elementos Aij . satisface AA−1 = A−1 A = I. Si no hay IN denota la matriz identidad de dimension ambiguedad. se usa I. q La matriz traspuesta A> tiene elementos (A> )ij = Aji . denotada como A−1 . q ´ N × N.

y de aqu´ı La anterior identidad es util ´ de invertir. pero pocas columnas (y facil por consiguiente C). q Otra identidad importante es la identidad de Woodbury. q Suponga que P es N × N y R es M × M (luego B es M × N). 19 / 25 . (A + BD−1 C)−1 = A−1 − A−1 B(D + CA−1 B)−1 CA−1 . q Si M  N. ´ Identidades basicas de matrices II q La siguiente es una identidad muy util ´ que involucra inversas de matrices (P−1 + B> R−1 B)−1 B> R−1 = PB> (BPB> + R)−1 . es mas ´ barato evaluar el lado derecho que el izquierdo. mientras B tiene muchas filas. q ´ cuando A es grande y diagonal. de manera que el lado derecho es mas´ barato de evaluar que el izquierdo.

q Se puede demostrar que tr(AB) = tr(BA). luego Si A y B son matrices de tamano |IN + AB> | = |IM + A> B|. q El determinante del producto dos matrices esta´ dado como |AB| = |A||B|. q El determinante de la inversa de una matriz esta´ dado como 1 |A−1 | = . tr(ABC) = tr(CAB) = tr(BCA). |A| q ˜ N × M. 20 / 25 .Trazas y determinantes q Las trazas y los determinantes aplican a matrices cuadradas. q Igualmente. q La traza tr(A) de una matriz A se define como la suma de los elementos de la diagonal principal.

con componentes   da ∂ai = . q ´ se definen las derivadas de una escalar x con respecto a un Tambien vector a o una matriz. por ejemplo   dx ∂x = .Derivadas de matrices I q En algunas oportunidades es necesario considerar las derivadas de vectores y matrices con respecto a escalares. dx i ∂x q ´ para la derivada de una matriz con respecto a una escalar La definicion es igual. da i ∂ai 21 / 25 . q La derivada de un vector a con respecto a una escalar x es un vector.

la derivada de una vector a con respecto a otro vector b es   da ∂ai = . ∂x ∂x ∂x q La derivada de la inversa de una matriz se puede obtener como ∂(A−1 ) ∂A −1 = −A−1 A . db ij ∂bj q Se puede demostrar que ∂ > ∂ > (x a) = (a x) = a.Derivadas de matrices II q Igualmente. ∂x ∂x q Similarmente. ∂ ∂A ∂B (AB) = B+A . ∂x ∂x 22 / 25 .

∂x ∂x q Si x es un elemento de A. ∂A 23 / 25 .Derivadas de matrices III q Se puede demostrar que   ∂ −1 ∂A ln |A| = tr A . se tiene ∂ tr(AB) = Bji . ∂Aij q ´ compacta como El resultado anterior se puede escribir de forma mas ∂ tr(AB) = B> .

∂A 24 / 25 . ∂A q Igualmente se puede demostrar que ∂ ln |A| = (A−1 )> .Derivadas de matrices IV q Del resultado anterior se tienen las siguientes propiedades ∂ tr(A> B) = B ∂A ∂ tr(A) = I ∂A ∂ tr(ABA> ) = A(B + B> ).

Referencias Minka. 25 / 25 .ee. R. Petersen. Kaare B. http: //www.ac. and Pedersen. and Neudecker. Wiley. Mike (2011): The Matrix Reference Manual. H. Brookes. (1999): Matrix Differential Calculus with Applications to Statistics and Econometrics.imperial.uk/hp/staff/dmb/matrix/intro. J. Magnus.html. (2000): Old and New Matrix Algebra Useful for Statistics. Michael S. Thomas P. (2007): The Matrix Cookbook.