Teoria da informação

Rodrigo Pavão (rpavao@gmail.com) junho de 2011

A teoria da informação é um ramo da matemática que estuda quanticação da informação. Essa teoria teve seus pilares estabelecidos por Claude Shannon (1948) que formalizou conceitos com aplicações na teoria da comunicação e estatística. A teoria da informação foi desenvolvida originalmente para compressão de dados, para transmissão e armazenamento destes. Porém, foi planejada para aplicação ampla, e têm sido usada em muitas outras áreas. A medida de entropia de Shannon é aproximadamente igual à da complexidade de Kolmogorov, que oferece a explicação computacional de que a complexidade de um objeto é dada pelo tamanho do menor programa de computador capaz de descrevê-lo. Por exemplo, o objeto quanto parece aleatório, poderia ser descrito sucintamente por for

10111000110001111000,

11111111111111111111, que não i=1:20 print 1 en-

que parece aleatório, não poderia ser descrito

por um programa tão curto, pois precisa da descrição literal do objeto

10111000110001111000.

print

O presente texto foi elaborado com base no segundo capítulo do livro  Elements of Information Theory , que apresenta os conceitos fundamentais da teoria. Estes conceitos foram descritos nos moldes apresentados pelos autores do livro, acrescentando exemplos e simplicações desenvolvidos pelo autor do presente texto ou publicados na fonte Wikipedia. Para facilitar a compreensão, os cálculos descritos neste texto foram implementados em uma planilha do Excel, disponível em http://www.ib.usp.br/∼rpavao/entropia.xls.

Entropia
O conceito de informação é muito amplo para ser capturado por uma única denição. No entanto, para qualquer distribuição de probabilidades, é possível denir uma quantidade denominada  entropia que tem muitas propriedades que estão de acordo com a noção intuitiva do que uma medida de informação deveria ser. Entropia é a medida de incerteza de uma variável aleatória, dada pela equação

H=

pi ∗log(1/pi ), em que pi indica a probabilidade de evento da

distribuição de probabilidades de uma variável aleatória discreta. No presente

1

refere-se apenas às suas probabilidades. portanto. 10. pois nessa condição não há incerteza. assim.5 para cada um dos eventos) também é de A Figura 1 apresenta as relações entre 1 bit. log(1/pcara ) = log(1/pcoroa ) = 1. A entropia das mensagens.5 ∗ 1 = 1). Figura 1  Relações entre h. dos valores assumidos por ela. a codicação ótima para cada evento deve conter 2 bits (11. A entropia do evento i é dada por hi = log(1/pi ). a incerteza é máxima quando p = 0. usamos log base 2. Note que entropia é uma função da distribuição da variável aleatória. 01 e 00.5. respectivamente). C e D = 0. C e D e responder como saídas séries de são equiprováveis nas mensagens (p 0 ou 1.5 ∗ 1 + 0. a entropia é expressa em bits. e. a entropia dos evento cara é de 1 bit. Se os eventos A. Um determinado sistema codicador foi projetado para receber como entradas séries de eventos A. dada pela .25 cada). A entropia do evento (h) é dada por do evento ponderada pela sua probabilidade (p ∗ h) é p de log(1/p). Uma estratégia bastante intuitiva para entender o conceito de entropia é através da aplicação da codicação ótima de mensagens.5 (eventos equiprováveis). não depende. B. No exemplo dos lances da moeda honesta. h. conforme descrito pela fórmula de entropia do evento (h). a entropia dada por p ∗ log(1/p). p ∗ h e H em função das probabilidades um evento binário. O valor de entropia (H ) é zero quando p=0 ou p = 1. B. H = pcara ∗ log(1/pcara ) + pcoroa ∗ log(1/pcoroa ) = 0. Outra explicação possível para o conceito de entropia da distribuição de probabilidades (H ) é a de que esta é uma média ponderada das entropias dos eventos dessa distribuição (hi ). a entropia da distribuição de probabilidades (H ) é dada pela soma das entropias dos eventos ponderada pelas suas probabilidades. assim como a entropia do evento coroa. o que corresponde ao valor máximo da entropia.texto. a média ponderada (com probabilidade 0. A entropia do lance de uma moeda honesta é 1 bit (pcara = pcoroa = 0. p ∗ h e H em função dos valores de probabilidade de um evento binário (em que a variável aleatória inclui apenas os eventos 0 ou 1). por outro lado.

como 3. As relações entre essas medidas são expressas no diagrama da Figura 2. essa convenção é facilmente justicada por continuidade. convenção 0 ∗ log0 = 0 é usada x na teoria da informação. entropia condicional e informação mútua A teoria da informação é também capaz de lidar com um par de variáveis aleatórias. a quantidade informação associada às variáveis aleatórias conjuntamente (a entropia conjunta.25. quints. 001 e 000. log(1/pi ) ≥ 0. a entropia 1. Se os eventos A. mútua. 2. 4. tem o valor de tamanho médio por evento descrito. . respectivamente) conforme descrito pela fórmula de entropia do evento (h). respectivamente. 0. que representa o Note que nesse contexto de codicação H é uma medida da quantidade de informação requerida. H(X. uma vez que quando idade zero não muda a entropia.125 e 0. aleatória é conhecida (a entropia condicional. na média. septs. que representa o tamanho médio por evento descrito.75 bits. Os valores de entropia (H e disso é que x ∗ log(x) tende a zero tende a zero (ver Figura 1). outras bases poderiam ser usadas. A entropia das mensagens dada pela fórmula de entropia da distribuição de probabilidades (H ). 10 ou e. quarts. que expressa entropia em bits. 6. respectivamente. a quantidade de informação de uma variável aleatória dado que outra variável H(X|Y )) e também a quantidade de informação que uma variável aleatória contém acerca da outra (informação I(X.! fórmula de entropia da distribuição de probabilidades (H ). Notas sobre entropia Além do log base 2.125. também tem o valor de 2 bits.5. 1. e a entropia seria expressa em trits. ótima de mensagens. dits ou nats. 3 e 3 bits 01. C e D são apresentados com as probabilidades (1. o que implica em h) são sempre maiores ou iguais a zero. A prova Entropia conjunta. B. Figura 2  Relações entre entropia e informação mútua. Assim. a codicação ótima para os eventos deve conter 0. 0. 7. feita por A A troca de base pode ser Hb (X) = (logb a) ∗ Ha (X). por exemplo. 5. a adição de termos com probabil- 0 ≤ pi ≤ 1. para descrever a variável aleatória. É capaz de quanticar. sexts. Y )). Y )).

há a propriedade H(X) − H(X|Y ) = H(Y ) − H(Y |X). também tem o valor de 2 bits.y . Y ) − H(Y ). C e D de log(pi /qi ) = 1. p Distância A distância de KullbackLeibler.5. 10. A informação mútua é dada por I(X. com h(qi ) = 2 bits para cada evento para a distribuição p resulta em ineciência (i.y ∗ log py|x . 0. seguindo a mesma estratégia apresentada previamente. 2. B.com/matlabcentral/leexchange/authors/85655. Y ) = x y px. 001 e 000. em que os valores H(X.y ∗ log pxx. Y ). Nessa equação. Y ) podem ser calculados pela equação da entropia para uma variável aleatória. 1 A entropia condicional é dada por H(X|Y ) = x y px. Uma ∗p estratégia simples de cálculo é I(X. Uma implementação computacional para quanticação da entropia conjunta. Y ) = H(X&Y ) = px&y ∗ 1/px&y . também chamada de entropia relativa.75 bits. entropia condicional e informação mútua.e. e a codicação ótima para h(pi ) = 1. B. como se fossem equiprováveis (qi para cada evento teria 2 bits (11. 0. dada pela fórmula de entropia da distribuição de probabilidades q. B. 01.yy .125. No entanto. capaz de lidar com mais de duas variáveis aleatórias. então. H(Y ) e H(X. A distância de KullbackLeibler dades D(p||q) = pi ∗ log(pi /qi ) = pi ∗ log(1/qi ) − pi ∗ log(1/pi ) é uma medida da ineciência dada por assumir que a distribuição de probabili- q sendo que a verdadeira distribuição é as probabilidades do evento de probabilidade p. na forma xi &yi . conforme de(h(q)). gasto adicional de bits) para os eventos A. C e D é de os eventos envolveria pi = 0. Y ) = x y px. Y pode ser considerada uma variável aleatória única. denindo. pi e qi indicam i de uma variável aleatória discreta nas distribuições p e q. com uma distribuição probabilística de eventos xi e yi concatenados.125 e 0. a distribuição verdadeira dos eventos A." 1 H(X. Y ) = H(X) + H(Y ) − H(X. acesse as rotinas em http://www.25 cada).25. uma forma de obter a A entropia conjunta é dada por informação mútua entre as distribuições. Note que H(X|Y ) geralmente difere de H(Y |X). respectivamente). 0. C e D nas mensagens. . a equação da entropia para uma variável aleatória pode ser usada para quanticação da entropia conjunta. foi desenvolvidas para Matlab por Will Dwinnell. é uma medida da distância entre duas distribuições de probabilidade.mathworks. respectivamente. Y ) e H(Y ) podem ser calculados pela equação da entropia para uma variável aleatória. no entanto. a aplicação da codicação para distribuição q . Se o sistema codicador fosse planejado para tratar os eventos A. pois X. que a entropia das mensagens verdadeira é de H(p) = 1. que representa o tamanho médio esperado por evento descrito. No entanto. 3 e 3 bits (1.y ∗ log px. também facilita o entendimento do conceito de distância. Uma estratégia simples de cálculo é H(X|Y ) = H(X. 01 scrito pela fórmula de entropia do evento = 0. a codicação 00. Dessa forma. respectivamente). =1 e =1 bit. A entropia esperada das mene sagens (H(q)). H(X. em que os valores H(X). A aplicação na codicação ótima de mensagens. Essa denição não é realmente nova.

dada H(p. quando ponderada pelo os valores de distância nunca sejam negativos. se a verdadeira distribuição de uma variável aleatória fosse conhecida. q) = pi ∗log(1/qi ) = H(p)+D(p||q). fosse usado um código para uma distribuição q. C e D têm distribuição esperada dada por e 0. a ineciência ponderada associada a cada evento (pi e a soma destas. em que os eventos A.25 bit. 3 e 3 bits e H(q) = 1.875 bit.25.75 bits). A Figura 3 apresenta diferentes distribuições probabilísticas de trinta eventos. =0. Note que a notação de entropia ∗ log(pi /qi )) cruzada é a mesma da entropia conjunta. como no exemplo qi = 0. por serem pouco frequentes na distribuição verdadeira. os eventos com mesma probabilidade nas distribuições esperada e verdadeira estão associados . pi baixo tem importância re- duzida na denição do valor de distância nal  essa propriedade garante que Finalmente.5. 0. =1.# respectivamente (note que ineciência de em =1 bit representa economia de 1 bit).125 e =0. 0. seriam necessários H(p) + D(p||q) bits. respectivamente. a ineciência média por evento descrito pela codicação para distribuição q para distribuição verdadeira p seria de D(p||q) = 0.125 bit.125 (h(qi ) = 1.e.125 Assim. Essa quantidade de informação é denominada entropia cruzada. Se.125. sua ineciência (negativa). porém essa relação é encontrada apenas em alguns média por evento descrito pela codicação para distribuição verdadeira casos. Nesse caso. Já eventos com ineciência ponderada menor do que zero (i. B.125.75 bits) e distribuição verdadeira dada por pi = 0.125.5 (h(pi ) = 3. 0. a ineciência para os eventos seria de log(pi /qi ) = =2.25 e 1 bit. 2 e 1 bits e H(p) = 1. 0. entretanto. para descrever a variável aleatória. respectivamente.25 e 0. 3. os conceitos. As ineciências ponderadas pelas probabilidades verdadeiras dos eventos resulta pi ∗ log(pi /qi ) = 0. são distintos. Nesse caso. a ineciência igual a zero. na média. e as ineciências ponderadas pelas probabilidades verdadeiras seriam pi ∗ log(pi /qi ) = =0. seria possível construir um código com descrição média de tamanho H(p). 0.25. que consiste na distância de KullbackLeibler (D(p||q)). Assim. =0. 0. A ineciência Outras relações são encontradas com outras distribuições. que consiste do número médio de bits para identicar um evento de uma distribuição verdadeira por p usando um esquema de codicação baseado na distribuição q . Note que os valores de ineciência ponderada maiores do que zero correspondem a eventos que ocorrem na distribuição verdadeira com maior probabilidade do que na distribuição esperada.. 2. q para distribuição p é de D(p||q) = 0. no entanto. eventos com codicação mais econômica do que a codicação ótima) são eventos que ocorrem na distribuição verdadeira com menor probabilidade do que na distribuição esperada. 1 e 2 bits. a D(p||q) observada foi igual à diferença entre H(p) e H(q).5.

70 bits e D(p||q3) = 1. Os valores de D(p||q) são sempre maiores que zero (se as distribuições p e q são diferentes) ou iguais a zero (se as distribuições p e q são iguais). sem a aplicação. uma possibilidade é modicar sutilmente as dis- tribuições. e os usados 0. em que os valores das probabilidades são os mesmos . denindo uma probabilidade irrisória mínima para os eventos. da geometria euclidiana. As curvas ajustadas foram inseridas apenas para facilitar a visualização das distribuições. cujos valores originais variavam entre para os cálculos variavam entre Apesar do nome. Notas sobre distância As convenções 0 ∗ log(0/q) = 0 e p ∗ log(p/0) = ∞ são usadas na teoria da informação. tadas na Figura 3.$ Figura 3  Distâncias de Kullback-Leibler entre diferentes distribuições de probabilidade de trinta eventos discretos.14 (com a aplicação desse procedimento D(p||q1) = D(p||q2) = 0. Essa característica está representada na Figura 3. D(p||q1) = D(p||q2) = D(p||q3) = ∞).19.83 bits.01 e 0. a distância de Kullback-Leibler não é propriamente uma distância entre as distribuições. essas convenções são justicadas por continuidade. Nos casos em que se deseja diferenciar entre as distâncias que envolvem distribuições presentes na distribuição D(p||q1) e D(p||q2) q1 e q2 que não apresentam alguns dos eventos p. uma vez que ela não é simétrica e não satisfaz a desigualdade triangular. Esse procedimento foi aplicado aos valores de probabilidade das distribuições apresen- 0 e 0.

png [3] http://pt. 1991.org/wiki/File: KL-Gauss-Example. [2] http://en. Isto é.83). Thomas.% (porém referentes a eventos diferentes): D(p||q2) = D(q2||q3) = 0.83 bits. WileyInterscience. em geral o valor de D(p||q) é diferente do valor de D(q||p). Além disso. Elements of Information Theory. JA.wikipedia.7 = 1.70 bits.7 + 0. New York. a distância entre Referências [1] Cover TM. D(p||q3) = 1. e p e q3 não pode ser obtida pela soma da distância p a q2 com a distância q2 a q3 (0.org/wiki/Complexidade_de_Kolmogorov#Objetivo_ da_complexidade_de_Kolmogorov .wikipedia.

Sign up to vote on this title
UsefulNot useful