You are on page 1of 44

Inferencia estadstica:

teora de distribuciones

Tema 1




Itziar Aretxaga
Conceptos bsicos de la inferencia estadstica
Definiciones:
Espacio de la muestra () es el conjunto de los posibles valores de un
experimento
Evento (A) es el conjunto de valores tomados por el experimento dentro
del espacio de la muestra. El evento complementario es A
c
A
Variable aleatoria x(A
i
) es una funcin definida en el espacio de N posibles
eventos A
i
.
Funcin de distribucin o probabilidad acumulada, F, es la probabilidad de
que cuando se mide un valor de la variable aleatoria x, ste sea menor o
igual a x. F es una funcin monotnicamente creciente.
Si x es , entonces F()=0, F()=1.

Probabilidad discreta, P
r
, de una variable discreta r, es la frecuencia con
que ocurre r.

Densidad de probabilidad, o funcin de frecuencia, o funcin diferencial de
probabilidad, P(x), de una variable continua x, es P(x)=dF/dx, de manera
que la probabilidad de que x tome un valor entre x y x+dx sea P(x)dx.

Ejemplos de distribuciones de probabilidad
discreta, densidades de probabilidad y
funciones acumuladas de probabilidad:
Probabilidad discreta, en funcin de
una variable unidimensional,
representada como un histograma
de encasillado irregular.
Probabilidad discreta
representada como un
histograma bidimensional de
encasillado regular
Probabilidad discreta y su
correspondiente probabilidad
acumulada
Densidad de probabilidad
(Figs. Stuart & Ord, Kendalls Advanced Theory of Statistics)
Axiomas de probabilidad (Kolmogorov):

0 P(A) 1
P() = 1, P() = 0
si AB A B = P(A U B) = P(A) + P(B)

Ejemplo: clculo de la probabilidad de que en una tirada de una moneda, salga o guila o sol.
AS = , P(A U S) = P(A) + P(S)= + = 1

Independencia:

si P(A|B) = P(A) P(AB)=P(A)P(B)

Ejemplo: clculo de la probabilidad de que en dos tiradas de una moneda, salgan dos guilas
P(AA) = =

Probabilidad condicional:
P(A|B) = P(AB) / P(B)

Ejemplo: clculo de la probabilidad de que en dos tiradas de una moneda, dada una primera
guila, salga otra guila P(A|A) = P(AA)/P(A) = / =

Conceptos bsicos de la inferencia estadstica
Teorema de Bayes
P(B|A)P(A)
P(A|B) = P(B|A) P(A)/P(B) =
P(B|A)P(A) + P(B|A
c
)P(A
c
)
de lo que se deduce (aunque resulta filosficamente controvertido),
P(H|X) P(X|H) P(H)
Funcin posterior Funcin de probabilidad Funcin a priori
ste es el fundamento de la inferencia bayesiana, que deriva la
probabilidad de que una hiptesis H sea cierta, dado un conjunto de
observaciones X.
Ejemplo:
Supongamos que el 90% de las estrellas de un cmulo estelar se encuentran en la secuencia
principal. Hemos diseado un mtodo de clasificacin estelar, segn el cual, el 95% de las
estrellas de secuencia principal son reconocidas como tales, y el 93% de las estrellas que no lo
son, tambin son reconocidas como no pertenecientes a la secuencia principal. Cul es la
probabilidad de que nuestra clasificacin reconozca una estrella como de secuencia principal, y
que sta realmente lo sea?
P(X|H) = 0.95 P(X
c
|H
c
) = 0.93 P(H)=0.90
P(H|X) = 0.95 x 0.90 / (0.95 x 0.90 + 0.07 x 0.10) = 0.9919, es decir, 99.2%
Esperanza (x) de una variable aleatoria x es el valor que esperamos
adopte en promedio.
si la distribucin es discreta
si la distribucin es continua
Esperanzas de uso comn:
media
variancia
la desviacin estndar es
covariancia
Propiedad de la covariancia:
Si x e y son independientes cov(x,y)=0.
Ntese que una covariancia nula no indica necesariamente independencia.
) (x x x c > <
Esperanzas
) ( ) (
1
i
N
i
i
x P x x

=
c
dx x P x x ) ( ) (
}


c
) ( ) ( ) ) ( (
2 2 2 2
x x x x c c c o =
) ( ) ( ) ( )) )( (( ) , ( y x xy y y x x y x c c c c = cov
Momentos de una distribucin
1
er
momento: describe el valor central. Se define como
media si la distribucin es continua.
Otras medidas del valor central son
mediana

moda x
mod
es el valor para el cul la distribucin toma su mximo absoluto

}



=
dx x xP x x
N
x
N
i
i
) (
1
1
o

+
+
par es si
impar es si
N x x
N x
x
N N
N
) ( 2 / 1

2 / ) 1 ( 2 /
2 / ) 1 (
med
dx
dF
x f = ) (
(Fig. Roe, Probability and Statistics in Experimental Physics)
siguen un orden alfabtico
Momentos de una distribucin
2
o
momento: describe la anchura de la distribucin. Se define como
variancia,
2
:
1/N se debe reemplazar por 1/(N1) si la media de x no se conoce a priori,
como en las estimaciones experimentales.
Otras medidas de la anchura de la distribucin:
anchura a media altura, FWHM=ab, tal que P(a)=P(b)=P
max
/2.
Para una gaussiana FWHM=2.3556
desviacin absoluta media,
x
:
que es ms robusta frente a valores
que se devan mucho de x
mod
.
intervalo R x
max
x
min,
nivel de confianza al 68.3% [a,b] tal que y el intervalo
[a,b] es mnimo.

cuartiles [a,b] tal que
}



=
dx x P x x x x
N
N
i
i
) ( ) ( ) (
1
2 2
1
2 2
o o o
dx x P x x x x
N
x
N
i
i x
) (
1
1
}



=
A A o
683 . 0 ) ( =
}
b
a
dx x P
} }


= =
b
a
dx x P dx x P 25 . 0 ) ( 25 . 0 ) ( y
FWHM
(Wall J.V., 1979, Q. Jr. R. Astr. Soc., 20, 138)
Ejemplo:
Momentos de una distribucin
Los momentos de orden superior son menos robustos y, por lo tanto, menos
utilizados
3
er
momento: describe la asimetra de la distribucin.
asimetra (skewness)

4
o
momento: describe el aplanamiento de la distribucin.
kurtosis
En general:
}

dx x P x x m
x x
N
m
N
i
i
) ( ) (
) (
1
3
3
3
1
3
3
o
o
}

dx x P x x m
x x
N
m
N
i
i
) ( ) (
) (
1
4
4
4
1
4
4
o
o
}

dx x P x x m
x x
N
m
k
k
k
N
i
k
i
k
) ( ) (
) (
1
1
o
o
(Figs. Press et al., Numerical Recipes)
Se suele medir en una escala que
toma 3 como su cero, ya que ste
es el valor de la kurtosis de una
distribucin normal estndar
Distribuciones habituales: binomial
Definicin: variable de Bernouilli es aqulla cuyo espacio de muestra slo
contiene dos resultados.
x 1 0
P(x) p q1p
Distribucin: si en n intentos se obtienen k aciertos, la distribucin de
probabilidad del nmero de aciertos viene dada por
P(k) = ( ) p
k
q
nk
donde ( )

Momentos de la distribucin:
media <x> =
i
x
i
P(x
i
) = np
variancia
2
(x) =
i
(x
i
<x>)
2
P(x
i
) = npq
Ejemplo: Supongamos que la probabilidad de encontrar una estrella de masa m
*
>10 M

en un
cmulo estelar joven es del 4%. Cul es la probabilidad de que en una muestra escogida al azar,
entre 10 miembros del cmulo encontremos 3 estrellas con m
*
>10 M

?
p=0.04
n=10 P(3)=10! / 3! / 7! x 0.04
3
x 0.96
7
= 0.006, es decir 0.6%
k=3
n
k
n
k
n!
k! (n-k)!
(Fig. Hyperstat Online Textbook)
n=4
k=x=2
p=0.5
Distribuciones habituales: poissoniana
Definicin: proceso poissoniano es aqul compuesto de eventos discretos
que son independientes en el espacio y en el tiempo.
Distribucin: si el nmero de eventos esperados, ,
en un intervalo de extensin h es = h ( da la
tasa de eventos por unidad de h), entonces la
probabilidad de que ocurran n eventos en h viene
dada por

Momentos de la distribucin:
media <x> =
i
x
i
P(x
i
) = = h
variancia
2
(x) =
i
(x
i
<x>)
2
P(x
i
) = = h
Ejemplo: La seal promedio recibida de una fuente es de 10 cuentas
por segundo. Calcular la probabilidad de recibir 7 cuentas en un segundo dado.
h=1 P(7)=10
7
x e
10
/ 7! = 0.09, es decir 9%
n=7 A comparar con la probalidad en el mximo, si te parece baja:
=10 P(10)=10
10
x e
10
/ 10! = 0.125, es decir 12.5%
Moraleja: las probabilidades poissonianas para un nmero de eventos dado, son siempre
pequeas, incluso en el mximo de la distribucin de probabilidad. Si se desea discutir si el
nmero de eventos es tpico, se debe comparar con la media y la variancia.

n
e


n!
P(n) =
(Fig. Carnegie Mellon, Biological Sci.)
Distribuciones habituales: gaussiana
Propiedades: es la distribucin ms utilizada en las ciencias porque
1. muchas variables aleatorias se pueden aproximar por una distribucin
gaussiana (vase el teorema central del lmite)
2. es fcil de utilizar matemticamente
Distribucin:

La distribucin normal estndar: =0 y =1.
Momentos de la distribucin:
media <x> = xP(x)dx =
variancia
2
(x) = (x )
2
P(x)dx =
2
Significancias habituales:
1: P( x +) = 0.683 (La integral de la distribucin
2: P(2 x +2) = 0.955 est tabulada en todos los
3: P(3 x +3) = 0.997 libros de estadstica bsica)
Ejemplos: perfil de las lneas de emisin en un espectro unidimensional, perfil radial de objetos
puntuales en una imagen ptica (patrn de dispersin de una imagen puntual),

(


=
2
2
) (
2
1
exp
2
1
) (
o

t o
x
x P
(Fig. Univ. of Georgia, Hyperphysics)
Ejemplo: distribucin de brillo de
una estrella, patrn de dispersin
de una fuente puntual
(Aretxaga et al. 1999, MNRAS)
Teorema central del lmite
Si para cada nmero entero n, las observaciones x
1
,x
2
,...,x
n
se derivan de
forma independiente de una distribucin cualquiera de media y variancia

2
, entonces la suma S
n
=x
1
+x
2
+ ... +x
n
es asintticamente gaussiana, en el
sentido que



donde (z) es una distribucin normal estndar.
El teorema tambin se cumple, en trminos menos restrictivos, si las x
i

se derivan de ciertas i distribuciones, que pueden ser diferentes entre s.
En este caso, se deben cumplir varios criterios. Uno de los ms comunes
es el criterio de Lindeberg:
donde es un nmero prefijado
arbitrariamente. Entonces el teorema es cierto si
es decir, si la suma no est dominada por fluctuaciones individuales.
) (
2
lim
z z
n
n S
P
n
n
|
o

=
|
|
.
|

\
|
s

= >
= s
=
n k x x
n k x x x
y k k
y k k k
k
,..., 1 , 0
,..., 1 ,


co
co

si
si
Sea
1 / ) ... (
2
2 1
+ + +
n
y n
o
ste es uno de los teoremas ms utilizados en CC Fsicas. Debido a l las
distribuciones poissonianas y binomiales se pueden aproximar por una
gaussiana para nmeros grandes de eventos. Tambin la adicin de
nmeros generados por cualquier otra distribucin forma una distribucin
aproximadamente normal.

Aplicaciones del teorema central del lmite
(Fig. Roe, Probability and Statistics in Experimental Physics)
Existen situaciones fsicas en las que las condiciones para el uso del
teorema central del lmite no se cumplen, y por lo tanto una aplicacin
ciega del mismo lleva a resultados erroneos.

Ejemplo: scattering mltiple de una partcula (Byron P. Roe, 2001, Probability and
Statistics in Experimantal Physics, Springer.)


El proceso de scattering simple resulta en

El proceso de scattering mltiple, sin embargo, da

Excepciones a la aplicacin del teorema
3
) (
u
u
u u
dL d K
dL d f
dL d dL d f u o u u u ) 2 / exp( ) (
2 2

(Fig. Roe, Probability and Statistics in Experimental Physics)
Distribucin gaussiana multidimensional
En dos dimensiones, la distribucin centrada en (0,0) tiene la forma:
donde es el coeficiente de correlacin, definido por
Los momentos caractersticos son:

En general, en p dimensiones, la distribucin gaussiana centrada en
viene dada por:
donde x es el vector de la muestra (de p dimensiones), es su valor
medio, y es la matriz de correlacin entre las variables x
Ejemplo: clculo de las probabilidades de propiedades intrnsecas atribuibles a galaxias (u otros
objetos) a travs de mapas color-color
Ejemplo: distribucin de redshift derivado de un diagrama color-color
(Aretxaga et al. 2003,MNRAS)
Distribuciones habituales: chi-cuadrado

Definicin: sea
2
=z
1
2
+z
2
2
+...+z
f
2
, donde z
i
son nmeros generados
independientemente a partir de una distribucin normal estndar.
Distribucin: la densidad de probabilidad de
2
con f grados de libertad, se
puede deducir de la distribucin normal, y resulta ser



Momentos de la distribucin:
media <
2
> = xP(x)dx = f
variancia
2
(
2
) = (x f)
2
P(x)dx = 2f
momento k m
k
=f (f+2)...(f+2k2)=<(
2
)
k
>
Propiedades:
1. es una distribucin frecuentemente utilizada para medir desviaciones de
medidas experimentales respecto de un modelo adoptado.
2. cuando , donde (x) es la
distribucin normal estandar. La aproximacin es buena para f 30.

) 2 / exp(
2 ) 2 / (
1
2
1
) (
2
1
2
2
2
_
_
_
|
|
.
|

\
|
I
=

f
f
P
) ( 2 / ) (
2
x f f f | _ entonces
(Fig. Univ. of Arkansas, Community College at Hope)
Distribuciones habituales: F

Definicin: sean y
1
,y
2
,...,y
m
e w
1
,w
2
,...,w
n
dos conjuntos de nmeros
independientes derivados de distribuciones normales estndar. Se define la
distribucin F como

Distribucin: la densidad de probabilidad de F viene dada por


que normalmente se expresa


Propiedades: es una distribucin frecuentemente utilizada para comparar
dos conjuntos de datos y su representacin de un modelo. Un valor muy
grande o muy pequeo de F indica qu distribucin se ajusta mejor a los
datos. Sin embargo es til estudiar el valor de
2
para corroborar que ambas
presentan un ajuste razonable.

=
=

n
m
n w
m y
F
1
2
1
2
/
/


v
v
( ) ( )( ) 2
1
2
1 / 2 / 2 /
2
) (
n m
m
n Fm m n
F
n
m n m
F P
+

+ I I
|
.
|

\
|
|
.
|

\
|
+
I
=
( ) ( )( )
2 / ) (
1 2 /
1
2
1 2 / 2 /
2
) (
n m
m
m
x m n
x
n m
x P
+

+ I I
|
.
|

\
|
+
I
=


v
v
2
2
w
y
x
(Fig. NIST/SEMATECH Engineering Statistics Handbook)
(m,n)
Distribuciones habituales: t Student

Definicin: sea x
1
,x
2
,...,x
n
un conjunto de datos independientes derivados
de una distribucin gaussiana de media 0 y variancia
2
. Se define t


Distribucin: la densidad de probabilidad de t viene dada por
y la de t
2
por la distribucin F con m=1.




Propiedades: se utiliza frecuentemente para comparar muestras de una
distribucin que se cree que es aproximadamente gaussiana, pero cuya
variancia se desconoce.
P.D.: Student era el sednimo de W.S. Gosset (1876-1937), un pionero estadista que trabaj en la
Cervecera Guinness de Dubln como qumico, y public sus resultados bajo seudnimo para
escapar de la poltica de la compaa, que prohiba publicar a los empleados.

n
i
i
n x
x
t
1
2
/
( )
( )
2 / ) 1 (
2
1
2 /
2 / ) 1 ( 1
) (
+
|
|
.
|

\
|
+
I
+ I
=
n
n
t
n
n
n
t P
t
(Figs. Eric W. Weisstein)
Distribuciones habituales: log normal

Distribucin: la densidad de probabilidad de una variable log x distribuda
segn una funcin gaussiana es



Momentos de la distribucin:
media <x> = xP(x)dx = exp(+
2
/2)
variancia
2
(x) = (x <x>)
2
P(x)dx = (exp
2
1) exp(2+
2
)

Ejemplo: fotomultiplicadores, que convierten seales dbiles de fotones en seales elctricas.
Sea n
0
=a
0
el nmero inicial de e

producidos por cada fotn. El nmero final de fotones tras pasar


por k etapas de fotomultiplicacin ser n
k
=
i
a
i
, de manera que log n
k
=
i
log a
k
. En virtud del
teorema central del lmite, log n
k
se aproxima a una distribucin gaussiana para valores grandes
de k, y por lo tanto, n
k
se aproxima a una distribucin log-normal.
|
|
.
|

\
|

=
2
2
2
2
) (log
exp
1
2
1
) (
o

to
x
x
x P
Clculo de errores
En Astronoma se trabaja continuamente con distribuciones de medidas
(flujo, nmero de objetos, ...)
El error asociado a una cantidad =(x,y,..,) dependiente de las variables
x,y,..., si stas no estn correlacionadas, y su variancia es pequea, se
puede aproximar en primer orden por



Si los errores estn correlacionados, y las variancias son pequeas, viene
dado por


Si estas condiciones no se cumplen, entonces hay que recurrir a un Monte
Carlo (vase tema 2) para calcular los errores.

(Kendalls Advanced Theory of Statistics I: Distribution Theory, Stuart & Oed, Edward Arnold
Publ., seccin 10.5)
+
|
|
.
|

\
|
c
c
+
|
.
|

\
|
c
c
=
2
2
2
2
2
y x
y x
o
u
o
u
o
u
) , cov(
1 ,
2
j i ij ij
j
N
j i
i
x x C C
x x
=
|
.
|

\
|
c
c
|
.
|

\
|
c
c
=
c
c
c
c
=

=
donde
x x
u u u u
o
u
C
,
Clculo de errores
Ejemplo: clculo del flujo emitido por una lnea espectral.
Flujo entre a y b: L=
i
l
i
= 1050 x 3 + 1100 x 2+ 1300 = 6650

L
2

=
i
l
i
= L
Determinacin del nivel de continuo: c=1/N
i
c
i
= 1/10
1
10
1000 = 1000 L=650 100

c
2
= 1/N
2

i

ci
2
= 1/N
2

i
c
i
= c/N
Continuo bajo la lnea: C = 1000 x 6 = 6000 ;
C
2
=

6
2

c
2
= 3600
Lnea: L = L C = 6650 6000 = 650;
L
2
=
L
2
+
C
2
= 6650 + 3600

+
|
|
.
|

\
|
c
c
+
|
.
|

\
|
c
c
=
2
2
2
2
2
y x
y x
o
u
o
u
o
u
1150
1000
1050
1100
1200
a b
flujo
Ejemplo de aplicacin erronea del clculo de propagacin de errores
(Byron P. Roe, 2001, Probability and Statistics in Experimental Physics, Springer)

Algunas veces, los efectos no lineales en la propagacin de errores hace que las frmulas
anteriores dejen de funcionar.

En 1983 F. James revis los datos de un experimento en el que se haba encontrado una masa
no nula para el neutrino e

. La masa se meda a partir de la cantidad R







donde, sin entrar en detalles, a,b,c,d,e eran cantidades medibles, K era un valor fijo, y si
R<0.420, entonces el neutrino tena masa. El experimento encontraba R=0.165 con un error
derivado de la propagacin lineal de
R
=0.073. La conclusin obvia era que el neutrino tena
masa, ya que R=0.420 se encontaba a 3 sigmas, correpondiendo a una probabilidad de uno en
mil.

Sin embargo, la frmula para el clculo de R es fuertemente no lineal, y la frmula de
propagacin poda fallar, especialmente porque los errores de las cantidades medidas eran, en
s, bastante grandes. Para comprobarlo, James realiz unos clculos de Monte Carlo
suponiendo que a,b,c,d tenan errores gaussianos independientes entre s, y evalu la
distribucin de R. Encontr que el 1.5% del tiempo, los resultados daban R>0.42, haciendo el
resultado mucho menos robusto de lo que anteriormente se crea.

En muchos casos prcticos, los errores tienen largas colas de probabilidad, con las que hay
que trabajar con mucho cuidado, sin sobreinterpretar el valor de la desviacin cuadrtica
media.
a
Ke
d K
c b
e K
d
a
R
|
|
.
|

\
|

=
2
2
1 2 ) (
Anlisis de identidad de dos distribuciones

Test de t-Student: Tienen dos distribuciones la misma media?
Suposiciones: las muestras estn derivadas de distribuciones gaussianas
con la misma variancia. Por lo tanto, el test es paramtrico.
Estrategia: medir el nmero de desviaciones estndar que las separa
(err = /N)
Mtodo: sean las muestras A {x
i
}, i=1,...,N
A
de media x
A

B {x
i
}, i=1,...,N
B
de media x
B
e igual variancia
2
.

Se definen s
D
y t




La probabilidad de que t tome un valor as de grande o ms viene dada
por la distribucin t-Student con n N
A
+N
B
grados de libertad, donde un
valor pequeo significa que la diferencia es muy significante.



Esta funcin est tabulada en los libros de estadstica bsica, y se puede
encontrar codificada en la mayora de las bibliotecas de programacin.



2 / 1
1 1
2 2
1 1
2
) ( ) (
(
(

|
|
.
|

\
|
+
+
+


= =
B A B A
N
i
N
i
B i A i
D
N N N N
x x x x
s
A B
D
B A
s
x x
t

( )
2
) 1 (
2
1
) 2 / (
2 / ) 1 ( 1
) , (
+

} |
|
.
|

\
|
+
I
+ I
=
n
t
t
n
x
dx
n
n
n
n t P
t
(Press et al., Numerical Recipes)
Anlisis de identidad de dos distribuciones

Variante del test de t-Student: Tienen dos distribuciones la misma
media?
En el caso de que las variancias de las dos muestras sean diferentes,

A
2

B
2
, se definen t y n








donde n no tiene por qu ser un nmero entero.
La probabilidad de que t sea as de grande o ms viene aproximadamente
dada por la misma distribucin P(t,n) anterior.

2 / 1 2 2
) / / (
B B A A
B A
N N
x x
t
o o +

( )
1
) / (
1
) / (
/ /
2 2 2 2
2
2 2

B
B B
A
A A
B B A A
N
N
N
N
N N
n
o o
o o
(Press et al., Numerical Recipes)
Anlisis de identidad de dos distribuciones

Test F: Tienen dos distribuciones diferente variancia?
Suposiciones: las distribuciones son gaussianas. El test es, por lo tanto,
paramtrico.
Estrategia: se analiza el cociente de las variancias y su desviacin de la
unidad.
Mtodo: sean las muestras A {x
i
}, i=1,...,N
A
de media x
A
y variancia
A
2
B {x
i
}, i=1,...,N
B
de media x
B
y variancia

B
2

Se define F
A
2
/
B
2
, donde
A
>
B.
La significancia de que la variancia de la distribucin A sea mayor que la de
la distribucin B viene dada por la distribucin F con n
A
N
A
1 y n
B
N
B
1
grados de libertad en el numerador y denominador:



donde


La distribucin F est tabulada en los libros de estadstica bsica, y se
encuentra codificada en la mayora de las bibliotecas de programacin.
( )
1
2
0
1
2
) 1 (
) 2 / ( ) 2 / (
2 / ) (
2 ) , (

I I
+ I
=
}
A B
n x n
B A
B A
B A
t t dt
n n
n n
n n F P
2 / 2 /
2 /
A B
B
n F n
n
x
+

(Press et al., Numerical Recipes)


0 si x
i
<x
1 si x
i
x

) 2 exp( ) 1 ( 2 ) (
2 2
1
1
j P
j
j
=

KS
( ) D N N
e e
/ 11 . 0 12 . 0 + +
Anlisis de identidad de dos distribuciones

Test Kolmogorov-Smirnov: Son dos distribuciones diferentes?
Suposiciones: las distribuciones son continuas. El test no es paramtrico,
lo que lo hace muy eficaz. Es un test muy popular en Astronoma.
Estrategia: medir la desviacin mxima de las distribuciones acumuladas.
Mtodo: sean las muestras

A {x
i
}, i=1,...,N
A

B {x
i
}, i=1,...,N
B

Se define la distribucin acumulada S
N
(x) 1/N
i
f(x
i
) , donde

f(x
i
) { para cada muestra. La diferencia mxima entre ellas

viene dada por D max |S
A
(x)S
B
(x)|

La significancia de que las dos distribuciones
difieran viene dada aproximadamente por



donde

y N
e
=N
A
N
B
/(N
A
+N
B
). La expresin es buena
para N
e
4 (Stephens 1970) .
Anlisis de identidad de dos distribuciones

El test de Kolmogorov-Smirnov no es muy sensible si la diferencia mxima
entre las distribuciones acumuladas ocurre en los extremos de las
mismas.
Para solucionar este problema, se introdujo una variante del test.

Test de Kuiper: Son dos distribuciones diferentes?
Suposiciones y estrategia: las mismas que K-S.
Mtodo: se definen las diferencias mximas por exceso, D
+
, y por
defecto, D

, y la diferencia combinada
D D
+
+ D

= max [ S
A
(x) S
B
(x) ] + max [ S
B
(x) S
A
(x) ] .
La significancia con la que las dos distribuciones difieren viene dada por
P
KP
= 2
j
(4j
2

2
1) exp(2j
2

2
) ,
donde [ N
e
+ 0.155 + 0.24 / N
e
] D y N
e
N
A
N
B
/(N
A
+N
B
)

Anlisis de identidad de una distribucin observada con una distribucin
terica: tanto KS y KP se pueden aplicar a una sola distribucin para
estudiar si se deriva de una distribucin terica P(x). La estrategia es la
misma, y las ecuaciones son vlidas, substituyendo S
B
(x) por P(x) y
haciendo N
e
=N
A
.
(Press et al., Numerical Recipes)
QSOs: 85%




RQ QSOs: 39%





RL QSOs: 99.5%
(Aragn-Salamanca et al. 1996, MNRAS, 281, 945)
Ejemplo: distribucin de galaxias dbiles entorno a QSOs
Anlisis de identidad de dos distribuciones

Test Kolmogorov-Smirnov multidimensional: (Peacock 1983, MNRAS, 202,
615; Fasano & Franceschini 1987, MNRAS, 225, 155)

Dificultad: en una dimensin, K-S es independiente de cmo se ordenan los
datos, pero en N dimensiones, existe ms de una forma de ordenarlos.

Estrategia: se consideran las cuatro posibles acumulaciones de los n datos
de una muestra siguiendo los ejes de coordenadas. En 2D, se considera el
nmero de datos de la muestra que cae en cada cuadrante
(x<X
i
, y<Y
i
), (x<X
i
, y>Y
i
), (x>X
i
, y<Y
i
), (x>X
i
, y>Y
i
) , i=1,...,n,
y se compara con la distribucin padre o la distribucin de comparacin. Se
define D
BKS
como la diferencia normalizada ms grande de entre todos los
cuadrantes y todos los puntos.
En 3D, de igual manera,
(x<Xi, y<Y
i
, z<Z
i
), (x<X
i
, y<Y
i
, z>Z
i
), (x<X
i
, y>Y
i
, z>Z
i
),
(x>X
i
, y<Y
i
, z<Z
i
), (x>X
i
, y<Y
i
, z>Z
i
), (x>X
i
, y>Y
i
, z>Z
i
), i=1,...,n.

Significancia: formalmente no existe una expresin rigurosa que d la
probabilidad de que las dos distribuciones difieran. Se han realizado
diversos Monte Carlos con distribuciones en el plano y el espacio que
presentan diferentes niveles de correlacin. Fasano & Franceschini (1987)
proveen de tablas y expresiones polinomiales para calcular la diferencia
crtica Z
n
D
BKS
N
e
que rechaza la identidad de las dos distribuciones, dados
n, CC (coeficiente de correlacin) y SL (el nivel de significancia).

Anlisis de identidad de dos distribuciones

Clculo de la dependencia de la
diferencia crtica entre dos
distribuciones 2D con el coeficiente
de correlacin de los puntos, el
nmero de puntos y el nivel de
confianza escogido para rechazar la
hiptesis nula de identidad (Fasano &
Franceschini 1987).
Modelos de correlacin entre los datos explorados
y x
y x
CC
o o
) , cov(

Anlisis de identidad de dos distribuciones



Aproximaciones polinomiales a las significancias encontradas en el Monte
Carlo. Estos polinomios estn codificados en varios paquetes de anlisis
estadstico (ejem. Numerical Recipes)
(Wall J.V., 1996, Q. Jr. R. Astr. Soc., 37, 519)
Inferencia clsica frente a inferencia bayesiana
(Loredo T. 1992, en Statistical Challenges in Modern Astronomy, ed. Feigelson & Babu,
Springer, http://www.astro.cornell.edu/staff/loredo/bayes/tjl.html)
Dos diferentes interpretaciones del trmino probabilidad:
frecuentista: frecuencia con que un cierto resultado se obtiene en la
repeticin infinita de un proceso.
bayesiana: plausibilidad de que una proposicin (modelo) pueda dar
cuenta de un conjunto de datos.
En muchas situaciones se obtiene el mismo resultado utilizando las dos
tcnicas, pero existen excepciones notables (ejem. Kraft et al. 1991, ApJ, 374,
344).
Los dos mtodos son fundamentalmente diferentes. Parten de
concepciones opuestas sobre cul es la informacin fidedigna y por
evaluar (modelo o datos). Los clculos bayesianos discriminan entre
hiptesis plausibles, mientras que los clculos frecuentistas evalan la
validez del conjunto de datos dada una hiptesis que se toma como
cierta.

Teorema de Bayes:

) (
) (
) ( ) (
D P
H D P
H P D H P =
Inferencia bayesiana

Pasos a seguir en la inferencia Bayesiana:
1. Especificar el modelo, o hiptesis a evaluar: en general tendremos
varias H
i
a comparar

2. Asignar las probabilidades:
a priori o anterior P(H
i
)
anterior predictiva P(D)
de muestreo P(D|H
i
)

3. Calcular la probabilidad posterior mediante el teorema de Bayes.




4. Comparar los resultados entre los diferentes modelos, mediante el
cociente de probabilidades posteriores P(H
i
|D)/P(H
j
|D), por ejemplo.

) (
) (
) ( ) (
D P
H D P
H P D H P =
Ejemplo: estimacin de una media poissoniana
Supongamos que hemos obtenido una medida de n eventos en un intervalo de tiempo T,
y que deseamos inferir la frecuencia de eventos, r .
1.- Especificamos la hiptesis H, de que el proceso es poissoniano con una frecuencia de
eventos 0 s r s r
max
.
2.- Asignamos probabilidades:
de muestreo:
a priori (anterior): , que en este caso es una probabilidad no informativa
anterior predictiva:
3.- Aplicamos el teorema de Bayes para calcular la probabilidad posterior:

Si Tr
max
>> n, entonces la funcin incompleta gamma se puede aproximar por
y la probabilidad posterior resulta


Para el caso particular en el que se detectan 7 eventos en 1 segundo, la probabilidad de que el
proceso tenga una media de 10 eventos por segundo es del 9%:
(nota: comprese con la probabilidad frecuentista)
P(10 | 7)
(Loredo 1992)
Ejemplo: estimacin de una media poissoniana sobre un fondo
Supongamos que hemos obtenido una medida de N
on
eventos en un intervalo de tiempo
T
on
, y que deseamos inferir la frecuencia de eventos de la seal, s , sobre el fondo, b. Se
supone que se puede estimar el fondo de una medida independiente de N
off
eventos en un
intervalo T
off.

Como en el caso anterior


Para la medida con seal y fondo conjuntamente:

donde

es la probabilidad de muestreo

p(s|b) = p(s)= 1/s
max

p(b) = p(b | N
off
)
p(N
on
) = 1/T
on
s
max
prob. anterior predictiva ( )

Para calcular la probabilidad posterior de la seal, hay que marginar el parmetro b,
calculando p(s|N
on
) = } db p(sb|N
on
). Realizando la expansin del trmino (s+b)
N
on
se
encuentra

dan la probabilidad a priori
}
(Loredo 1992)
!
) (
) | (
off
off off
off
off off
N
e bT T
N b p
bT N
=
) (
) | (
) ( ) | (
) (
) | (
) ( ) | (
on
on
on
on
on
N p
sb N p
b p b s p
N p
sb N p
sb p N sb p = =
!
] ) [(
) | (
on
) (
on
on
on on
N
e T b s
sb N p
T b s N +
+
=

=
=

+
+

+
+
= =
on
on on
0 on
off on
on off
on
off on
on of
0
on on
on
)! (
)! (
) / 1 (
)! (
)! (
) / 1 (
,
!
) (
) | (
N
j
j
i
f
i
N
i
sT i
i
j N
j N N
T T
i N
i N N
T T
C
i
e sT T
C N s p
Se debe resaltar que ste es un clculo ambiguo bajo la inferencia frecuentista, aunque hay
algunas publicaciones con aproximaciones no libres de inconsistencias (OMorgain, 1973,
Nature, 241, 376; Cherry et al. 1980, ApJ, 242, 1257)

Ejemplo: medida en la que b n (Kraft et al. 1991, ApJ, 374,344) inconsistencias de los
clculos frecuentistas.
Supngase que b de conoce por un mtodo alternativo con una gran precisin

Clculo frecuentista para constreir s:
Existen muchos mtodos propuestos que no son correctos desde el punto de vista del
planteamiento real del problema (vase Kraft et al.). Lo que s es correcto, es calcular los
lmites de confianza (CL) de un s+b dado, con la funcin de probabilidad



y substraer a estos el b previamente determinado.

Clculo bayesiano:
No existe ninguna ambigedad en el planteamiento del problema. Se deben calcular los CL de
la densidad de la probabilidad posterior P(s| n,b)




El intervalo de s para diferentes valores de CL, n, b se encuentra tabulado, aunque es simple
calcularlo al resolver los CL con la expresin anterior.




b s
n b s
b
N b
N N
s
N s
N N n
n
b s e
N
s e
N
s e
n P
b
b s
s
+ =
+
= =
+

donde ,
!
) (
! !
) (
) (
,
!
) (
!
) (
) (
1
0
n
b n e
i
b e
nb s P
n b s n
i
i b
+
(

=
+

(Kraft et al. 1991)


(Kraft et al. 1991)
La comparacin de ambos mtodos indica que el clculo frecuentista incurre en
contradicciones cuando n<b, ya que los lmites superiores de los CL llegan a ser negativos.
Sin embargo, para casos en que b<n, los lmites calculados son prcticamente iguales.


frecuentista
bayesiana
frecuentista
bayesiana