You are on page 1of 49

Reviso de

Estatstica
Profa. Jussara M. Almeida
1o Semestre de 2010

Por qu?
Modelagem probabilstica
Avaliao dos resultados
Qual a probabilidade do tempo de residncia no disco 1
ser inferior a 0.5 segundo?
Depende da distribuio de probabilidade do tempo de
residncia?
O tempo mdio de resposta uma boa estimativa do
desempenho do sistema?
Depende da variabilidade de R: varincia, desvio padro

Caracterizao da carga
Como modelar o tempo entre chegada de requisies no
servidor?

Varivel Aleatria
Uma varivel aleatria (VA) X em um espao
amostral s uma funo X: S que atribui um
nmero real a cada ponto amostral em S
ou

Uma varivel aleatria uma varivel que recebe um


valor numrico como resultado de um experimento.

Exemplos de Varivel Aleatria


Tempo entre chegadas de clientes em um servidor
# visitas CPU de uma requisio
Tempo de residncia no sistema
Seja Rn o tempo de residncia de um cliente j que
encontra n clientes na fila no momento de chegada
Xi = tempo de servio de cliente i

(iid)

Y = tempo residual do cliente em servio quando o dado


cliente j chega
Ento:
R o = Xi ,
Rn = Y + X1 + X2 + ... + Xn, n 1

Distribuio de Probabilidade de
uma Varivel Aleatria
Funo de distribuio acumulada (CDF) F da VA
X definida para todos os nmeros reais b,
b , como:
F(b) = P(X b)

Propriedades de uma CDF


F uma funo no decrescente: se a b F(a) F(b)

lim F (b) 1
b

lim F (b) 0

CDF uma caracterizao completa de uma VA.

Variveis Aleatrias Discretas


Pode assumir um nmero contvel de valores
Funo Probabilidade de Massa (PMF) p():
p(a) = P(X = a)
Propriedades:
p(xi) 0, i = 1, 2, ...
p(x) = 0,

para todos outros valores de x

p ( xi ) 1
i 1

CDF e PMF:

F ( a ) p ( xi )
i 1

Funo de Probabilidade de Massa


Representao grfica da PMF

p(x)

Seja X o nmero de visitas que cada requisio


faz ao disco
p(X): p(0) = 0.25 p(1) = 0.5 p(2) = 0.25
0.6
0.5
0.4
0.3
0.2
0.1
0

Funo de Probabilidade de Massa

1
# visitas ao disco

Histograma

# Requisies

Outra representao grfica equivalente


Plota o nmero de vezes que a sada de um experimento
aleatrio foi igual a cada ponto amostral
Ex: se total de requisies ao servidor = 1000
Histograma

600
500
400
300
200
100
0
0

1
# visitas ao disco

Variveis Aleatrias Contnuas


Pode assumir um nmero incontvel de valores
Funo Densidade de Probabilidade (PDF) f():
b

Propriedades:

P ( a X b) f ( x )
a

f(x) 0, x

f (x ) 1

CDF e PDF:

F (a )

f ( x)

Mtricas Simples para


Caracterizao de uma
Varivel Aleatria

Expectativa
Valor Esperado de uma VA X

E( X )

xp( x )

E( X )

x , p ( x )0

X discreta

xf ( x ) dx

X contnua

Ex: demanda mdia nos discos se:

90% das requisies visitam disco 1,

tempo de servio de disco 1 15 ms,


tempo de servio do disco 2 de 10 ms e
nmero de visitas por requisio o mesmo para os dois discos e
igual a 20 (arquivos com mesmo tamanho)

D = D1 0.9 + D2 0.1 = 20 0.015 0.9 + 20 0.010 0.1

Expectativa
Expectativa de uma funo da VA X

E ( g ( x ))

g ( x ) p( x )

x , p ( x )0

E ( g ( x ))

X discreta

g ( x ) f ( x )dx

X contnua

Ex: utilizao mdia dos discos para = 100


U = D
U = U1 0.9 + U2 0.1
= D1 0.9 + D2 0.1 =
= 100 20 0.015 0.9 + 100 20 0.010 0.1

Varincia
Varincia de uma VA X: variabilidade, espalhamento
dos valores de X
0.6

0.25

0.5

0.2
p(Y)

p(X)

0.4
0.3
0.2

0.15
0.1
0.05

0.1

0
80

90

100
X

110

140

10 50 90 100 110 140 175 190 215

E(X) = E(Y) = 100


Var(X) = 162.5 Var(Y) = 4645.8

Varincia
Varincia de uma VA X: variabilidade, espalhamento
dos valores de X
0.6

0.25

0.5

0.2
p(Y)

p(X)

0.4
0.3
0.2

0.15
0.1
0.05

0.1

0
80

90

100
X

110

10 50 90 100 110 140 175 190 215

140

Var ( X ) E ( X ) 2 E ( X 2 ) E ( X ) 2
Var ( aX b) a Var ( X )
2

Desvio Padro e
Coeficiente de Variabilidade
Desvio Padro SD(X)

SD ( X ) Var ( X )
Coeficiente de Variabilidade (CV)

SD ( X )
CV ( X )
E( X )
Diferentemente de SD, que depende da unidade das medies,
o CV uma medida sem unidade
Mede a quantidade de variabilidade relativo ao valor mdio
Permite comparar a variabilidade existente em
distribuies/amostras diferentes

Distribuio de Probabilidade
Para uma caracterizao completa de uma VA preciso
determinar a sua distribuio de probabilidade
CDF ou PMF (se discreta) ou PDF (se contnua)
Existem vrias distribuies discretas e contnuas na
literatura que seguem comportamento bem definido
Conhec-las importante, pois podemos aplicar resultados
previamente desenvolvidos
Ex: uma distribuio exponencial tem uma cauda mais leve
do que uma distribuio Pareto

Caudas pesadas tm impacto no consumo de recursos


(ex: tempo de servio)
Vamos fazer uma reviso rpida. Aluno deve revisar caps 4 e
5 de A First Course in Probability, Sheldon Ross

Distribuies Discretas
Bernoulli
Binomial
Poisson
Geomtrica
Zipf
Vrias outras no livro do Ross

Distribuies Discretas
Bernoulli (p)
X = {0,1}

X = {sucesso, falha}

p(0) = P(X=0) = 1-p


p(1) = P(X=1) = p

Binomial (n, p)
X = # sucessos em n experimentos independentes,
onde a probabilidade de sucesso em um experimento p

n i
p(i ) p (1 p )1i
i
E(X) = np

i 0,1,..., n

Var(X) = np(1-p)

Distribuies Discretas
Poisson ()
Nmero de eventos independentes que ocorrem em um intervalo de
tempo (veja discusso em Ross, 4.8)
Nmero de chegadas em um servidor em 1 hora
Nmero de erros de impresso em uma pgina de um livro

p (i ) P ( X i ) e

i
i!

i 0,1,..., n

E(X) = Var(X) =
= # mdio de eventos que ocorrem no perodo
Aproximao para VA Binomial com n grande e p pequeno (Ross)
Se X = Binomial(n,p), X Poisson( = np)

Distribuies Discretas
Poisson ()
Muito comumente usado para modelar chegada de sesses
de usurios
servidores Web, multimdia, banco de dados, ftp, e-mail
Sesses so iniciadas por usurios
Chegada de duas sesses tendem a ser independentes:
Poisson uma boa aproximao
Contra-exemplo:
Chegada de requisies em um servidor Web
Premissa de independncia no vlida: existe
dependncia entre requisies para o arquivo HTML
e as imagens embutidas nele

Distribuies Discretas
Geomtrica (p)
Nmero de experimentos (sucesso/falha) at que um
sucesso ocorra

p( n ) P ( X n ) (1 p ) n 1 p

n 1,..., n

E(X) = 1/p
Var(X) = (1-p)/p2

Nmero de retransmisses de mensagem

Distribuies Discretas
Zipf()
Comumente usada quando a distribuio altamente
concentrada em poucos valores
Popularidade de arquivos em servidores Web/multimdia
90% dos acessos so para 10% dos arquivos
Popularidade de palavras na lngua inglesa

Seja i, o elemento que ocupa a i-esima posio no ranking


de concentrao

C
P( X i )
i

i 1,2,...

C a constante de normalizao
Zipf: lei das Potncias

Distribuio Zipf
Modela popularidade dos remetentes de e-mails
para a UFMG

Distribuies Contnuas
Uniforme
Normal
Exponencial
Pareto
LogNormal
Gamma : ver Ross
Weibull : ver Ross

Distribuies Contnuas

Uniforme (a,b)

X uniformemente distribuda no intervalo [a,b], se

PDF : f ( x )

1
se a x b
ba
0
caso contrrio

CDF : F ( x )

0
xa
ba
1

se x a
se a x b
se x b

Normal (, ) ou Gaussiana

f ( x)

1
e
2

( x )2
2 2

= valor esperado
2 = varincia

Distribuies Contnuas

Exponencial ()

Quantidade de tempo at que determinado evento ocorra


Tempo entre chegadas de sesses em um servidor

F ( x ) 1 e x
f ( x ) e x
= taxa de chegadas

x0 0

1/ = tempo mdio entre chegadas

P(X 1/ ) = 1 e-1/ = 1 1/e ~ 63%


E(X) = 1/
Var(X) = 1/2 SD(X) = 1/ CV(X) = 1
CV = 1 exponencial (aproximao???)

Distribuies Exponencial e Poisson


Seja uma distribuio Poisson que denote o nmero de eventos N(t)
em um intervalo de tempo t
Seja T1 o momento do 1o evento
Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos
Sequncia {Tn, n=1, 2, ...}: tempos entre chegadas

P(T1 t) = P(N(t) = 0) = e

-t

T1 exponencial()

P(T2 t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s)


= Prob (0 eventos em (s, s+t) (eventos Poisson
so independentes)
=e

-t

T2 exponencial()

T1 , T2, ..., Tn so independentes e tm mesma


distribuio exponencial()

Distribuies Exponencial e Poisson


Processo de
Chegadas
Poisson

Tempo entre
Chegadas
Exponencial

Independncia
entre eventos

Distribuio Exponencial
Exponencial () :
P ([ X t x ] [ X t ])
P( X t )
P (t X t x )

1 P( X t )
P( X t x ) P( X t )

1 P( X t )

P( X t x | X t )

Propriedade
sem memria
(memoryless)

1 e ( t x ) (1 e t )

1 (1 e t )
1 e r e x 1 e t

e t
e r (1 e x )
x

e
P( X x )
t
e

Propriedade Memoryless

Tempo de residncia R de um cliente depende do # de clientes na


fila quando ele chega ao centro, nos tempos de servios destes
clientes e no tempo que o cliente que est sendo servido no
momento de chegada ainda permanecer em servio.
Seja Xi a VA para o tempo de servio de cliente i na CPU
Seja Xi: exponencial() para todos os clientes
Seja Y a VA que denota o tempo residual que o cliente que est
em servio no momento de chegada ainda permanecer em
servio
Y tambm tem distribuio exponencial com parmetro
Tempo que ainda falta independe do tempo que j esteve em
servio

Ns usamos este resultado quando derivamos R para MVA


Estado futuro no depende do estado passado

Propriedade Memoryless
Distribuio exponencial a nica
distribuio contnua que tem a
propriedade memoryless
Por sua vez, distribuio geomtrica
a nica discreta que tem a
propriedade memoryless
(FAZER)

Outras Distribuies Contnuas


Pareto(, k)

Tamanho de arquivos Web


Think time de um navegador Web
Nmero de bytes em uma transferncia FTP

k
f ( X ) (,
k x)
x k , k 0
F(X ) 1
Lognormal
x
Durao de sesses de usurios e de reqs interativas a vdeo

( 1)

Tamanho de e-mails
Uma VA X Lognormal (, ) se Y = ln(X) Normal (, )

f (X )

1
e
2 x

(ln( x ) ) 2
2 2

x0

xk

Sumrio
Caracterizao de uma VA X
Mdia de X
Varincia, desvio padro, CV
CDF
PMF (discreta) ou PDF (contnua)
Modelo de distribuio e seus parmetros
Vrias outras
Melhor caracterizao depende do que voc est
tentando calcular

Combinando Variveis Aleatrias

Funes de Distribuio Conjuntas


Se X e Y so independentes
FX,Y(a,b) = F(a)F(b)
pX,Y(a,b) = P(X=a)P(X=b)
fX,Y(x,y)= f(x)f(y)

(contnuas)

Prob(X = a, Y b) =p(X=a)F,Y(b) (X discreta,


Y contnua)
E(g(X)h(Y)) = E(g(X))E(h(Y))

Aplicaes de Distribuio Conjunta


Distribuio multinomial:
Chegada de
clientes

p1
p2
pm

fluxo 1
fluxo 2
fluxo m

n
n1 n2
p1 p2 ... pmnm
P ( X 1 n1 X 2 n2 ... X m nm )
n1n2 ...nm

Aplicaes de Distribuio Conjunta


Transaes no servidor A tm tempo de execuo TA exponencial()
Transaes no servidor B tm tempo de execuo T B exponencial()
Se duas transaes T1 e T2 chegam nos sites A e B, respectivamente,
ao mesmo tempo e so servidas imediatamente, qual a probabilidade de
que T1 termine antes que T2

P (T1 T2 ) P (T1 x | T2 x ) P (T2 x )dx


0

P (T1 x ) P (T2 x )dx (1 e x )e x dx

( ) x

( )

( ) x

e
dx

Funes de Variveis Aleatrias

Soma de Poissons
X e Y so VAs independentes, X Poisson(1) e Y Poisson(2)
Qual a distribuio de Z=X+Y ?
n

P( X Y n ) P( X k , Y n k )
k 0
n

P ( X k ) P(Y n k )
k 0
n

e 1
k 0

1k 2 n2 k
e
k!
( n k )!

Z=X+Y Poisson(1+ 2)

k n k

( 1 2 )
1 2
e

k 0 k! ( n k )!
n

e ( 1 2 )

n!

n!
e ( 1 2 )
k n k
n

1 2
1
2
k
!
(
n

k
)!
n
!
k 0
n

n i n i
Teorema Binomial : p q ( p q) n
i 0 i
n

Aplicao: Soma de Poissons


Chegada de sesses em um servidor Web, clientes esto em
duas regies. Mede separadamente em cada regio e acha
Poisson. Qual o processo de chegada agregado?
Poisson 1
Poisson 2

Poisson 1 + 2++ n

Poisson n

Resultado se estende para n VAs independentes, cada uma com


distribuio Poisson

Soma de Exponenciais
X e Y so independentes, X exponencial () e Y exponencial()
Qual a distribuio de Z=X+Y ?
z

F ( Z X Y z ) F ( X x | Y z x ) F (Y z x )dx
0

F ( X x ) F (Y z x )dx
0

Z=X+Y Erlang com 2


estgios e parmetro

( x ) f Y ( z x )dx

e x e ( z x ) dx
0
z

e
0

2 z

dx ze
0

2 z 2 z

e
2

Aplicao: tempo de operao de um sistema com redundncia


(X = tempo de operao de componente principal, Y = tempo do

Soma de Exponenciais
Genericamente: X1, X2, ... Xn, todas independentes e
exponencial(): Z = X1 + X2 + ... Xn Erlang de n estgios

( z ) k z
F (Z z)
e
k!
k 0
n 1

z0

Ex: tempo de processamento dividido em vrias etapas. A durao d


cada etapa exponencialmente distribuda com mesmo
Exp()

Exp()

Exp()

Exp()

Erlang(n,)

Se Xi exponencial (i), onde i so diferentes

Distribuio dos Mnimos


Sistema composto de n componentes. Sistema funciona se
ambos componentes esto operando corretamente
Tempo de falha : X1, X2, ...., Xn exponencial ()
Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)
P(Z z) = P (pelo menos um Xi z) = ?
P (exatamente um Xi z) = ?

n
n 1
P( exatamente 1 X i z ) FX ( z )1 FX ( z )
1
n
z
z n 1
1 e 1 (1 e )
1

Distribuio dos Mnimos


P(Z z) = P (pelo menos um Xi z)
n
j
n j
P ( pelo menos 1 X i z ) FX ( z ) 1 FX ( z )
j 1 j
n

n
z j
z n j
1 e e
j 1 j
n

Z tem distribuio
exponencial com
parmetro n

p = (1-e-z)

n j
n j
p 1 p
j 1 j
n

n j
n j
p 1 p
j 0 j
n

n 0
n
p 1 p
0

1 (1 p ) 1 1 1 e
n

1 e nz

Distribuio dos Mximos


n tarefas independentes : X1, X2, ...., Xn: exponencial ()
Tempo de resposta = tempo de execuo da tarefa mais longa
Z = max (X1, X2, ...., Xn)
Ex: tempo de resposta de mquina de busca composta de n
processadores executando em paralelo. Cada mquina processa
consulta em uma partio do dicionrio

Front-end:
atraso desprezvel

Distribuio dos Mximos


n tarefas independentes : X1, X2, ...., Xn: exponencial ()
Tempo de resposta = tempo de execuo da tarefa mais longa
Z = max (X1, X2, ...., Xn)

P( Z z ) P (max( X i ) z )
P ( X 1 z X 2 z ... X n z )
P ( X n z ) P ( X 2 z )...P( X n z )
(1 e z )(1 e z )...(1 e z ) (1 e z ) n

Exemplo
Considere um computador paralelo com n processadores.
Sejam X1, X2, ..., Xn, os tempos de falha dos processadores,
cada um exponencialmente distribudo com parmetro .
Qual a distribuio da capacidade de processamento Cn do
computador?
Ordene Xis em ordem crescente.
Seja Yi a VA que ocupa a i-esima posio: Y1 = min(Xi)
Cn = nY1 + (n-1) (Y2 Y1) + (n-2)(Y3-Y2)+ ... +
(n-j)(Yj+1 Yj)+ ... + (Yn Yn-1)
Y1 = min(Xi) exponencial(n)

Exemplo (cont.)
Sejam W1, W2, ..., Wn-j os tempos restantes de processamento
de cada um dos processadores ainda operando depois que j
processadores falharam
Yj+1 Yj = min(W1, W2, ..., Wn-j)
Pela propriedade memoryless da exponencial
Wi exponencial()
Logo Yj+1 Yj exponencial((n-j) )

Exemplo (cont.)
Lembre que: Cn = nY1 +... +(n-j)(Yj+1 Yj)+ ... + (Yn Yn-1)
Quais as distribuies de: (n-j)(Yj+1 Yj) e nY1
Se X exponencial():

P ( rX x ) F ( X x / r ) 1 e

x
r

Y = rX exponencial(/r)

Y1 = min(Xi) exponencial(n) nY1 exp (n/n) ~ exp()


Yj+1 Yj exponencial((n-j) ) (n-j)(Yj+1 Yj) exponencial()

Logo C = soma de exponencial(): C Erlang(,n)