A DESIGUALDADE DE CHEBY CHEV

HÉLIO BERNARDO LOPES
O PROBLEMA
Seja X uma variável aleatória contínua, definida em R, com
função densidade de probabilidade dada por:
[ ]
[ ]
1
2
0 2
0 0 2
x x
x
⇐ ∈
⇐ ∉
¹
'
¹
¹
¹
¹
¹
,
,
O valor médio de X - o seu primeiro momento ordinário, portanto -
e o seu segundo momento ordinário valem, respectivamente:
[ ]
[ ]
E X x xdx
E X x xdx
· ·
· ·


1
2
0
2
4
3
2 2 1
2
0
2
2
pelo que a variância de X toma o valor:
[ ]
[ ]
[ ] ( ) V X E X E X · − · −
|
.

`
,
· ⋅
2
2
2
2
4
3
2
9
Admita-se, agora, que se pretende calcular a seguinte
probabilidade:
P X − <
|
.

`
,

4
3
2
3
.
Ora, tendo-se:
X X − < ⇔

< <
+ 4
3
2
3
4 2
3
4 2
3
o valor da probabilidade procurada vale:
1
2
4 2
3
4 2
3
0 629 xdx
~
,
+

≅ ⋅
Esta é, pois, uma estimativa da probabilidade de que a variável
aleatória X assuma valores no intervalo:
4 2
3
4 2
3
− +
]
]
]

,
centrado no valor médio de X :
[ ] E X
X
· · µ
4
3
e de semi-amplitude igual ao desvio-padrão de X :
σ
X
· ⋅
2
3
Neste caso, foi possível obter o valor da probabilidade procurada,
conseguido com a precisão que se entendeu, dado ser conhecida a
distribuição da variável aleatória X em causa.
Pode, porém, acontecer que se conheçam o valor médio e o
desvio-padrão da variável aleatória, mas se desconheça a
correspondente distribuição, o que impossibilita o cálculo tal como
anteriormente apresentado. É para uma situação deste tipo que a
Desigualdade de Chebychev se mostra de enorme utilidade.
Este importante instrumento da Teoria da Probabilidade é válido
para uma qualquer variável aleatória, com a única condição de ser finito
o valor da respectiva variância, o que acarreta que os dois primeiros
momentos ordinários o sejam também.
Este resultado é válido, por igual, para o caso de distribuições
discretas, mas acarreta, em qualquer caso e como seria sempre de
esperar, uma imprecisão na estimativa achada para a probabilidade do
acontecimento em causa.
A DESIGUALDADE DE MARKOV
A Desigualdade de Markov, cuja demonstração se omite aqui, mas
que pode encontrar-se nos manuais dos autores portugueses mais
consagrados, constitui o suporte para se chegar à Desigualdade de
Chebychev.
Seja, então,
g X ( )
uma função mensurável da variável aleatória
X , e que não assuma valores negativos, ou seja,
g X ( )
≥0. Então, se
existir o valor médio de
g X ( )
,
[ ] E g X ( ) , ter-se-á que:
∀ ∈ c
R
+
,
[ ]
[ ]
P g X c
E g X
c
( )
( )
≥ ≤ ⋅
Torna-se, assim, evidente que, no caso de se ter:
g X X ( ) ·
a Desigualdade de Markov conduz ao seu corolário:
[ ]
[ ]
P X c
E X
c
≥ ≤ ⋅
Retomando o exemplo da distribuição inicial, facilmente se pode
mostrar que:
[ ] P X xdx x ≥

]
]
]
· · ·

4
3
1
4
0
1
2
4
3
2
2
4
3
2
, (5).
Em contrapartida, se se desconhecesse a distribuição da variável
aleatória X , e se recorresse ao anterior resultado, particularização da
Desigualdade de Markov, obter-se-ia:
P X ≥

]
]
]
≤ ·
4
3
1
4
3
4
3
o que, sendo inteiramente evidente, seria, por igual, de uma completa
inutilidade, dado que a probabilidade de um qualquer acontecimento
não pode assumir um valor superior à unidade.
A DESIGUALDADE DE CHEBYCHEV
A partir da Desigualdade de Markov, tome-se:
g X X c t
X X
( ) ( ) · − ∧ · µ σ
2 2 2
onde µ
X
e σ
X
são, respectivamente, o valor médio e o desvio-padrão
de X , e onde t ∈ R
+
. Virá, então, por substituição na Desigualdade de
Markov:
[ ]
[ ]
P X t
E X
t t t
X X
X
X
X
X
( )
( )
− ≥ ≤

· · µ σ
µ
σ
σ
σ
2 2 2
2
2 2
2
2 2 2
1
ou seja:
[ ]
P X t
t
X X
− < ≥ − ⋅ µ σ 1
1
2
Esta expressão, ou a imediatamente anterior, constitui a importante
Desigualdade de Chebychev, para o caso de uma única variável
aleatória.
O que a última expressão mostra é que a probabilidade de que a
variável aleatória X assuma valores num intervalo centrado no valor
médio de X e com semi-amplitude t
X
σ , é, no mínimo, de:
1
1
2
− ⋅
t
Seja, então, estimar:
P X P X P X − <

]
]
]
· − < ⋅

]
]
]
· ∈
]
]
]

]
]
]

4
3
1
3
4
3
2
2
2
3
1
5
3
,
Se se conhecer a distribuição de X , esta probabilidade vale:
P X xdx ∈
]
]
]

]
]
]
· ·

1
5
3
0 4
1
2
1
5
3
, , ( ).
Contudo, se essa distribuição for desconhecida, e se recorrer à
Desigualdade de Chebychev, virá, dado ser:
t ·
2
2
que a mesma fornece:
P X − < ⋅

]
]
]
≥ −
|
.

`
,

· −
4
3
2
2
2
3
1
1
2
2
1
2
o que, sendo naturalmente evidente, é também cabalmente inútil. Ou
seja, −1 é o limite mínimo para a probabilidade procurada.
Note-se que se pode deduzir, a partir da Desigualdade de Markov,
uma outra propriedade mais particular, mas exigindo o conhecimento de
maior informação.
Assim, se para a variável aleatória X se conhecer o momento
absoluto ordinário de ordem r ∈ R
+
, tem-se que é válido o resultado:
[ ]
[ ]
P X c
E X
c
r
r
≥ ≤
onde c ∈ R
+
. Veja-se, como aplicação do que acaba de referir-se, o
seguinte
EXEMPLO. Suponha-se, então, que se conhece o momento absoluto
ordinário de quinta ordem, cujo valor é:
[ ]
E X
5
9 14 ≅ ,
e se pretende calcular:
P X ≥

]
]
]

3
2
Deitando mão da anterior propriedade, ter-se-á:
P X ≥

]
]
]

|
.

`
,

≅ ⋅
3
2
9 14
3
2
1 20
5
,
,
Ora, se a distribuição fosse conhecida, o valor da probabilidade em
causa seria:
P X xdx ≥

]
]
]
· · ·

3
2
7
16
0 4375
1
2
2
3
2
,
o que mostra que o limite superior conseguido anteriormente, sendo
evidente, está muito longe de trazer o que quer que seja de útil como
informação. É, tal como se disse anteriormente, o preço a pagar pelo
facto de se desconhecer a distribuição da variável aleatória em causa, e
também pelo distanciamento da distribuição em estudo face ao modelo
gaussiano.
O que já pôde perceber-se é que, ao nível do exemplo inicialmente
considerado, a Desigualdade de Chebychev se mostrou bastante
redundante, já que a informação que produziu foi relativamente inútil.
Tal é, claro está, o custo que a sua generalidade comporta.
O único caminho para melhorar o valor das suas contribuições é o
de restringir o conjunto das distribuições a que se aplica, havendo
necessidade de se conhecer, ao menos, que o seu comportamento tem
maior proximidade com o de tipo gaussiano.

Uma tal melhoria também pode conseguir-se, contudo, se forem
conhecidos momentos de ordem superior à segunda. É o que se passa
com o caso de uma variável aleatória de valor médio nulo, µ · 0,
variância
σ
2
, e se for conhecido o momento absoluto ordinário de quarta
ordem:
[ ]
µ
4
4
· E X
obtendo-se, então:
[ ] P X t
t t
≥ ≤

+ −
σ
µ σ
µ σ σ
4
4
4
4 4 2 4
2
com t > 1.
Veja-se, agora, um outro caso, já numa situação muito mais
próxima do modelo gaussiano, que se apresenta com o seguinte
EXEMPLO. Seja, então, uma variável aleatória, X , normal, de valor
médio e variância, respectivamente, 6 e 0,36:
( ) X N ~ ; , . 6 0 36
Nestas circunstâncias, o desvio-padrão de X vale:
σ
X
· 0 6 , .
Se se pretender calcular a probabilidade do acontecimento:
X − < 6 1
virá, recorrendo à tabela da lei normal reduzida:
[ ] P X − < ≅ 6 1 0 905 , .
Em contrapartida, se se desconhecer a distribuição de X e se
recorrer à Desigualdade de Chebychev, obter-se-á:
[ ] P X P X − < · − < ⋅

]
]
]
≥ −
|
.

`
,

· 6 1 6
1
0 6
0 6 1
1
1
0 6
0 64
2
,
,
,
,
dado ter-se aqui:
t · ·
1
0 6
1 6
,
, ( ). •
Por aqui se vê, pois, que a Desigualdade de Chebychev forneceu
um limite mínimo para a probabilidade procurada, embora muito distante
do valor estimado no caso de ser conhecida a distribuição da variável
aleatória em estudo, agora com um comportamento muito mais próximo
do gaussiano que no caso do exemplo anterior.
UM CASO PARTICULAR IMPORTANTE
Admita-se, agora, que se possuem n variáveis aleatórias,
semelhantes e independentes, cada uma com valor médio
µ
e
variância
σ
2
, sendo n ∈ N.
A média aritmética das n variáveis aleatórias é a nova variável
aleatória:
X
X
n
i
i
n
·
·

1
cujo valor médio e variância são, respectivamente:
[ ]
[ ]
E X
V X
n
·
·
µ
σ
2
Recorrendo à Desigualdade de Markov, mas tomando agora a nova
função g : R→R, definida por:
( ) ( ) g X X · − µ
2
para a qual:
( )
[ ]
E X
n
− · µ
σ 2
2
virá:
( )
[ ]
[ ]
P X t
nt
P X t
nt
− ≥ ≤ ⇔ − ≥ ≤ ⋅ µ σ
σ
σ
µ σ
2
2 2
2
2 2 2
1
1
( )
        
A expressão (1) é, pois, a da Desigualdade de Chebychev, quando
a variável aleatória em causa é a média aritmética de n variáveis
aleatórias, semelhantes e independentes, situação que se coloca
frequentemente na prática. A este propósito, veja-se o seguinte
EXEMPLO. Tomando, ainda, os dados do anterior exemplo, e
admitindo que se tomou uma amostra de dimensão 100 da referida
população, mas desconhecendo que se está perante uma distribuição
normal, ter-se-á:
[ ]
[ ]
E X
V X
·
· ·
6
0 36
100
0 0036
,
,
pelo que será:
σ
X
· 0 06 , .
Se neste caso se pretender estimar um valor para a probabilidade
do acontecimento:
X − < 6 1
virá:
( )
P X P X − < · − < ⋅

]
]
]
≥ −
|
.

`
,

≈ 6 1 6
1
0 06
0 06 1
1
100
1
0 06
0 999964
2
,
,
,
,
Esta é uma estimativa do mínimo da probabilidade procurada. De
facto, se se soubesse que:
( ) ( ) X N Z
X
N ~ ; ,
,
~ ; 6 0 0036
6
0 06
0 1 ⇔ ·

tirar-se-ia da tabela da lei normal reduzida que:
[ ]
P X − < ≅ 6 1 1.
A maior aproximação entre a anterior estimativa, 0,999964, e o
valor real, quando se conhece a distribuição, deve-se ao facto de se ter
usado uma amostra já grande, através da distribuição da sua média
aritmética. •
UM SEGUNDO CASO PARTICULAR IMPORTANTE
A Desigualdade de Chebychev a que se chegou inicialmente refere-
se a um intervalo centrado no valor médio da variável aleatória em
causa.
Podem considerar-se, contudo, intervalos centrados num valor real
qualquer,
τ
, não necessariamente coincidente com o valor médio.
Retomando a Desigualdade de Markov e fazendo:
( ) g X X ( ) · −τ
2
ter-se-á:
( )
[ ]
( )
[ ]
P X t
E X
t
− ≥ ≤

τ σ
τ
σ
2
2 2
2
2 2
ou seja:
[ ]
( ) ( ) ( )
[ ]
P X t
E X
t
− ≥ ≤
− + −
τ σ
µ µ τ
σ
2
2 2
ou ainda:
[ ]
( )
[ ]
( ) [ ] ( )
[ ]
P X t
E X E X E
t
− ≥ ≤
− + − − + −
τ σ
µ µ τ µ µ τ
σ
2 2
2 2
2
ou, finalmente:
[ ]
( )
P X t
t t
− ≥ ≤ +

τ σ
µ τ
σ
1
2
2
2 2
2 ( )
            
dado que o primeiro momento central de X é nulo:
[ ] E X − · µ 0
e que:
( )
[ ]
( ) E µ τ µ τ − · −
2 2
( )
[ ]
E X − · µ σ
2
2
.
A expressão (2) pode tomar a forma:
[ ]
( )
P X t
t t
− < ≥ − −

τ σ
µ τ
σ
1
1
2
2
2 2
3 ( )
      
onde (3) fornece uma estimativa do limite inferior da probabilidade de X
assumir valores no intervalo:
] [ τ σ τ σ − + t t ,
centrado em τ e não em
µ
.
De igual modo, se se tiver a função:
( ) ( ) g X X · −τ
2
a Desigualdade de Chebychev virá neste outro formato:
( )
( )
P X t
nt t
− < ≥ − −

τ σ
µ τ
σ
1
1
2
2
2 2
que é também de muito fácil obtenção.
UM TERCEIRO CASO PARTICULAR IMPORTANTE
A Desigualdade de Chebychev pode apresentar-se de um modo
mais geral. Considerem-se, então, n ∈N, variáveis aleatórias
independentes, X
i
, ( i = 1,..., n ), todas elas de média nula, µ · 0, e
variância, σ
i
2
, ( i = 1,..., n ).
Seja, agora, a variável aleatória:
X X X X
n i
i
n
· + ⋅ ⋅ ⋅ + ·
·

1
1
para a qual se tem:
[ ] ( )
[ ]
E X E X X
n i
i
n
n
2
1
2
2
1
2
· + ⋅ ⋅ ⋅ + · ·
·
∑ ∑
σ .
Sejam, então, os acontecimentos:
D X t
D X X t
D X X t
n
n
n n
n
1 1
2 1 2
1
· <
· + <
· + ⋅ ⋅ ⋅ + <



.........................................
A Desigualdade de Chebychev garante, então, que:
( ) P D D D
t
P D
t
n i
i
n
1 2 2
1
2
1
1
1
1
∩ ∩ ∩ ≥ − ⇔

]
]
]
≥ − ⋅
·
...

Trata-se de uma propriedade de essencial interesse para a
obtenção de uma condição suficiente para a conhecida lei forte dos
grandes números.
O CASO ESTOCÁSTICO
O conceito de processo estocástico constitui, pode dizer-se assim,
uma generalização do de variável aleatória. De facto, o processo
estocástico mais não é que um conjunto de variáveis aleatórias, todas
igualmente distribuídas, mas cada uma delas dependente de um
parâmetro definido em certo domínio.
Para certo valor desse parâmetro obtém-se uma variável aleatória,
com a referida distribuição. Em contrapartida, para certo valor da
variável aleatória, obtém-se uma função do parâmetro antes referido,
definido no domínio considerado.
Ao domínio onde se encontra definido o parâmetro considerado dá-
se o nome de conjunto-índice do processo estocástico correspondente.
De um modo geral, os casos mais importantes são aqueles em que
o parâmetro do processo estocástico é a variável tempo. Se o conjunto-
índice é o conjunto dos números naturais, N, ou o dos inteiros, Z, ou
uma sua parte própria, o processo estocástico diz-se de parâmetro
discreto. Se o conjunto-índice é o corpo real, ou uma sua parte própria,
o processo estocástico designa-se de parâmetro contínuo.
Também no caso de um processo estocástico:
{ ¦ X t t T ( ): ∈
onde t é o parâmetro do processo, com valores no domínio T , se pode
considerar uma função de valor médio do processo estocástico.
Em torno desta função de valor médio dispõem-se, para um e outro
lado, as diversas realizações do processo estocástico, cada uma
definida para um certo valor de t T ∈ .
É, então, possível mostrar que, se o processo estocástico:
[ ] { ¦ X t t a b ( ): , ∈
for diferenciável em média quadrática, e fazendo:
[ ] { ¦
[ ] { ¦
g t E X t
g t E X t
1
2
1
2
2
2
1
2
( ) ( )
( ) ( )
'
·
·
se tem:
[ ]
[ ]
E X t g a g b g t g t dt
t a b
a
b
sup ( ) ( ) ( ) ( ) ( ) .
, ∈

]
]
]
≤ + + ⋅

2
1
2
1
2
1 2
1
2
E desta propriedade se pode obter, como corolário, a Desigualdade
de Markov para o caso dum processo estocástico nas condições
indicadas:
∀ ∈ c
R
+
,
[ ]
[ ]
P X t c
E X t
c
t a b
t a b
sup ( )
sup ( )
,
,


>

]
]
]

]
]
]
2
2
Se for m t ( ) a função de valor médio do processo estocástico X t ( ) ,
pode obter-se a Desigualdade de Chebychev para o caso de um
processo estocástico nas condições referidas, ou seja:
[ ]
P X t m t c
c
dt
c
X a X b
X t
X t
a
b
( ) ( )
( ) ( )
( )
( )
'
− ≤ ≥ −
+
+

]
]
]
]
]

1
2
2 2
2 2
σ σ
σ σ
onde t ∈ [a,b] e c ∈ R
+
. Trata-se, pois, de um limite inferior para a
probabilidade de o processo estocástico se situar no interior de certa
região centrada na sua função de valor médio.
Se se considerarem duas realizações do processo estocástico em
causa, sejam X e Y , ambas com valor médio nulo e variância unitária,
e se for
ρ
o coeficiente de correlação entre as duas realizações -
variáveis aleatórias, portanto -, pode mostrar-se que se tem:
{ ¦
[ ] E max X Y , ≤ + − 1 1
2
ρ
e também que:
[ ] [ ]
[ ]
P X E X t Y E Y t
t
X Y
− ≥ ∨ − ≥ ≤
+ −
⋅ σ σ
ρ 1 1
2
2
E é claro que se for Y constante, será ρ · 0 , obtendo-se, então, a
expressão já antes achada para a Desigualdade de Chebychev no caso
de uma só variável aleatória:
[ ]
[ ]
P X E X t
t
X
− ≥ ≤ ⋅ σ
1
2
Fica assim tratada a Desigualdade Chebychev mas numa variedade
muito mais vasta de situações que as normalmente contempladas nos
textos de uso corrente ao nível dos cursos de licenciatura onde o tema
está usualmente presente.
BIBLIOGRAFIA
MELLO, F. Galvão de (1993): Probabilidades e Estatística, Conceitos e
Métodos Fundamentais - Volume I, Escolar Editora, Lisboa.
MURTEIRA, Bento José Ferreira (1990): Probabilidades e Estatística -
Volume I, 2ª Edição Revista, Editora McGraw-Hill de Portugal, Lda..
OLIVEIRA, J. Tiago de (1990): Probabilidades e Estatística: Conceitos,
Métodos e Aplicações, Volume I, Editora McGraw-Hill de Portugal, Lda..
PARZEN, Emanuel (1972): Processos Estocasticos, Paraninfo, Madrid.