You are on page 1of 6

Teora de la informacin

La teora de la informacin, tambin conocida como


teora matemtica de la comunicacin (mathematical
theory of communication) o teora matemtica de la
informacin, es una propuesta terica presentada por
Claude E. Shannon y Warren Weaver a nales de la dcada de los aos 1940. Esta teora est relacionada con las
leyes matemticas que rigen la transmisin y el procesamiento de la informacin y se ocupa de la medicin de la
informacin y de la representacin de la misma, as como
tambin de la capacidad de los sistemas de comunicacin
para transmitir y procesar informacin.[1] La teora de la
informacin es una rama de la teora matemtica y de las
ciencias de la computacin que estudia la informacin y
todo lo relacionado con ella: canales, compresin de datos
y criptografa, entre otros.

incluyendo la televisin y los impulsos elctricos que se


transmiten en las computadoras y en la grabacin ptica
de datos e imgenes. La idea es garantizar que el transporte masivo de datos no sea en modo alguno una merma
de la calidad, incluso si los datos se comprimen de alguna manera. Idealmente, los datos se pueden restaurar a su
forma original al llegar a su destino. En algunos casos, sin
embargo, el objetivo es permitir que los datos de alguna
forma se conviertan para la transmisin en masa, se reciban en el punto de destino y sean convertidos fcilmente a
su formato original, sin perder ninguna de la informacin
transmitida.[2]

Historia
2 Desarrollo de la teora

La teora de la informacin surgi a nales de la Segunda


Guerra Mundial, en los aos cuarenta. Fue iniciada por
Claude E. Shannon a travs de un artculo publicado en
el Bell System Technical Journal en 1948, titulado Una
teora matemtica de la comunicacin (texto completo
en ingls). En esta poca se buscaba utilizar de manera
ms eciente los canales de comunicacin, enviando una
cantidad de informacin por un determinado canal y midiendo su capacidad; se buscaba la transmisin ptima
de los mensajes. Esta teora es el resultado de trabajos
comenzados en la dcada 1910 por Andrei A. Markovi, a quien le sigui Ralp V. L. Hartley en 1927, quien
fue el precursor del lenguaje binario. A su vez, Alan Turing en 1936, realiz el esquema de una mquina capaz
de tratar informacin con emisin de smbolos, y nalmente Claude Elwood Shannon, matemtico, ingeniero
electrnico y criptgrafo estadounidense, conocido como
el padre de la teora de la informacin, junto a Warren Weaver, contribuy en la culminacin y el asentamiento de la Teora Matemtica de la Comunicacin de
1949 que hoy es mundialmente conocida por todos como la Teora de la Informacin-. Weaver consigui darle
un alcance superior al planteamiento inicial, creando un
modelo simple y lineal: Fuente/codicador/mensaje canal/decodicador/destino. La necesidad de una base terica para la tecnologa de la comunicacin surgi del aumento de la complejidad y de la masicacin de las vas
de comunicacin, tales como el telfono, las redes de
teletipo y los sistemas de comunicacin por radio. La teora de la informacin tambin abarca todas las restantes
formas de transmisin y almacenamiento de informacin,

El modelo propuesto por Shannon es un sistema general


de la comunicacin que parte de una fuente de informacin desde la cual, a travs de un transmisor, se emite
una seal, la cual viaja por un canal, pero a lo largo de su
viaje puede ser interferida por algn ruido. La seal sale
del canal, llega a un receptor que decodica la informacin convirtindola posteriormente en mensaje que pasa
a un destinatario. Con el modelo de la teora de la informacin se trata de llegar a determinar la forma ms
econmica, rpida y segura de codicar un mensaje, sin
que la presencia de algn ruido complique su transmisin.
Para esto, el destinatario debe comprender la seal correctamente; el problema es que aunque exista un mismo
cdigo de por medio, esto no signica que el destinatario va a captar el signicado que el emisor le quiso dar al
mensaje. La codicacin puede referirse tanto a la transformacin de voz o imagen en seales elctricas o electromagnticas, como al cifrado de mensajes para asegurar
su privacidad. Un concepto fundamental en la teora de
la informacin es que la cantidad de informacin contenida en un mensaje es un valor matemtico bien denido y
medible. El trmino cantidad no se reere a la cuanta de
datos, sino a la probabilidad de que un mensaje, dentro
de un conjunto de mensajes posibles, sea recibido. En lo
que se reere a la cantidad de informacin, el valor ms
alto se le asigna al mensaje que menos probabilidades tiene de ser recibido. Si se sabe con certeza que un mensaje
va a ser recibido, su cantidad de informacin es cero.[3]
1

5 ELEMENTOS DE LA TEORA

Finalidad

mentales de cada pas que forma parte de Internet, lo que


proporciona un servicio prcticamente gratuito. A principios de 1994 comenz a darse un crecimiento explosivo
de las compaas con propsitos comerciales en Internet,
dando as origen a una nueva etapa en el desarrollo de la
red. Descrito a grandes rasgos, TCP/IP mete en paquetes la informacin que se quiere enviar y la saca de los
paquetes para utilizarla cuando se recibe. Estos paquetes
pueden compararse con sobres de correo; TCP/IP guarda
la informacin, cierra el sobre y en la parte exterior pone
la direccin a la cual va dirigida y la direccin de quien
la enva. Mediante este sistema, los paquetes viajan a travs de la red hasta que llegan al destino deseado; una vez
ah, la computadora de destino quita el sobre y procesa
la informacin; en caso de ser necesario enva una respuesta a la computadora de origen usando el mismo procedimiento. Cada mquina que est conectada a Internet
tiene una direccin nica; esto hace que la informacin
que se enva no equivoque el destino. Existen dos formas
de dar direcciones, con letras o con nmeros. Realmente,
las computadoras utilizan las direcciones numricas para mandar paquetes de informacin, pero las direcciones
con letras fueron implementadas para facilitar su manejo
a los seres humanos. Una direccin con letras consta de
dos a cuatro partes. Una direccin numrica est compuesta por cuatro partes. Cada una de estas partes est
dividida por puntos.

Otro aspecto importante dentro de esta teora es la resistencia a la distorsin que provoca el ruido, la facilidad
de codicacin y descodicacin, as como la velocidad
de transmisin. Es por esto que se dice que el mensaje
tiene muchos sentidos, y el destinatario extrae el sentido
que debe atribuirle al mensaje, siempre y cuando haya
un mismo cdigo en comn. La teora de la informacin
tiene ciertas limitaciones, como lo es la acepcin del concepto del cdigo. El signicado que se quiere transmitir
no cuenta tanto como el nmero de alternativas necesario para denir el hecho sin ambigedad. Si la seleccin
del mensaje se plantea nicamente entre dos alternativas
diferentes, la teora de Shannon postula arbitrariamente
que el valor de la informacin es uno. Esta unidad de informacin recibe el nombre de bit. Para que el valor de
la informacin sea un bit, todas las alternativas deben ser
igual de probables y estar disponibles. Es importante saber si la fuente de informacin tiene el mismo grado de
libertad para elegir cualquier posibilidad o si se halla bajo alguna inuencia que la induce a una cierta eleccin.
La cantidad de informacin crece cuando todas las alternativas son igual de probables o cuanto mayor sea el
nmero de alternativas. Pero en la prctica comunicativa
real no todas las alternativas son igualmente probables,
lo cual constituye un tipo de proceso estocstico denominado Marko. El subtipo de Marko dice que la cadena Ejemplo: sedet.com.mx 107.248.185.1
de smbolos est congurada de manera que cualquier seUna de las aplicaciones de la teora de la informacin son
cuencia de esa cadena es representativa de toda la cadena
los archivos ZIP, documentos que se comprimen para su
completa.
transmisin a travs de correo electrnico o como parte
de los procedimientos de almacenamiento de datos. La
compresin de los datos hace posible completar la transmisin en menos tiempo. En el extremo receptor, un soft4 Teora aplicada a la tecnologa
ware se utiliza para la liberacin o descompresin del archivo, restaurando los documentos contenidos en el arLa Teora de la Informacin se encuentra an hoy en da chivo ZIP a su formato original. La teora de la informaen relacin con una de las tecnologas en boga, Internet. cin tambin entra en uso con otros tipos de archivo; por
Desde el punto de vista social, Internet representa unos ejemplo, los archivos de audio y vdeo que se reproducen
signicativos benecios potenciales, ya que ofrece opor- en un reproductor de MP3 se comprimen para una fcil
tunidades sin precedentes para dar poder a los individuos descarga y almacenamiento en el dispositivo. Cuando se
y conectarlos con fuentes cada vez ms ricas de informa- accede a los archivos se amplan para que estn inmediacin digital. Internet fue creado a partir de un proyecto tamente disponibles para su uso.[4]
del departamento de defensa de los Estados Unidos llamado DARPANET (Defense Advanced Research Project
Network) iniciado en 1969 y cuyo propsito principal era
5 Elementos de la teora
la investigacin y desarrollo de protocolos de comunicacin para redes de rea amplia para ligar redes de transmisin de paquetes de diferentes tipos capaces de resistir las 5.1 Fuente
condiciones de operacin ms difciles, y continuar funcionando an con la prdida de una parte de la red (por Una fuente es todo aquello que emite mensajes. Por ejemejemplo en caso de guerra). Estas investigaciones dieron plo, una fuente puede ser una computadora y mensajes
como resultado el protocolo TCP/IP (Transmission Con- sus archivos; una fuente puede ser un dispositivo de transtrol Protocol/Internet Protocol), un sistema de comunica- misin de datos y mensajes los datos enviados, etc. Una
ciones muy slido y robusto bajo el cual se integran to- fuente es en s misma un conjunto nito de mensajes: todas las redes que conforman lo que se conoce actualmen- dos los posibles mensajes que puede emitir dicha fuente.
te como Internet. El enorme crecimiento de Internet se En compresin de datos se tomar como fuente el archivo
debe en parte a que es una red basada en fondos guberna- a comprimir y como mensajes los caracteres que confor-

5.5

Informacin

3
casos, representarse con un cdigo de menor longitud que
el mensaje original. Supongamos que a cualquier mensaje S lo codicamos usando un cierto algoritmo de forma
tal que cada S es codicado en L(S) bits; denimos entonces la informacin contenida en el mensaje S como
la cantidad mnima de bits necesarios para codicar un
mensaje.

5.5 Informacin

Esquema de la comunicacin ideado por Claude E. Shannon.

man dicho archivo.

5.2

Tipos de fuente

Por la naturaleza generativa de sus mensajes, una fuente


puede ser aleatoria o determinista. Por la relacin entre
los mensajes emitidos, una fuente puede ser estructurada
o no estructurada (o catica).
Existen varios tipos de fuente. Para la teora de la informacin interesan las fuentes aleatorias y estructuradas.
Una fuente es aleatoria cuando no es posible predecir cul
es el prximo mensaje a emitir por la misma. Una fuente
es estructurada cuando posee un cierto nivel de redundancia; una fuente no estructurada o de informacin pura
es aquella en que todos los mensajes son absolutamente aleatorios sin relacin alguna ni sentido aparente. Este
tipo de fuente emite mensajes que no se pueden comprimir; un mensaje, para poder ser comprimido, debe poseer un cierto grado de redundancia; la informacin pura
no puede ser comprimida sin que haya una prdida de
conocimiento sobre el mensaje.[5]

La informacin contenida en un mensaje es proporcional


a la cantidad de bits que se requieren como mnimo para
representar al mensaje. El concepto de informacin puede entenderse ms fcilmente si consideramos un ejemplo. Supongamos que estamos leyendo un mensaje y hemos ledo cadena de c"; la probabilidad de que el mensaje contine con aracteres es muy alta. As, cuando efectivamente recibimos a continuacin aracteres la cantidad de informacin que nos lleg es muy baja pues estbamos en condiciones de predecir qu era lo que iba a
ocurrir. La ocurrencia de mensajes de alta probabilidad
de aparicin aporta menos informacin que la ocurrencia de mensajes menos probables. Si luego de cadena de
c leemos himichurri la cantidad de informacin que
estamos recibiendo es mucho mayor.

6 Entropa e informacin
La informacin es tratada como magnitud fsica, caracterizando la informacin de una secuencia de smbolos
utilizando la entropa. Se parte de la idea de que los canales no son ideales, aunque muchas veces se idealicen las
no linealidades, para estudiar diversos mtodos de envo
de informacin o la cantidad de informacin til que se
pueda enviar a travs de un canal.

La informacin necesaria para especicar un sistema fsico tiene que ver con su entropa. En concreto, en ciertas
5.3 Mensaje
reas de la fsica, extraer informacin del estado actual de
un sistema requiere reducir su entropa, de tal manera que
Un mensaje es un conjunto de ceros y unos. Un archivo, la entropa del sistema ( S ) y la cantidad de informacin
un paquete de datos que viaja por una red y cualquier cosa ( I ) extrable estn relacionadas por:
que tenga una representacin binaria puede considerarse
un mensaje. El concepto de mensaje se aplica tambin a
S SI 0
alfabetos de ms de dos smbolos, pero debido a que tratamos con informacin digital nos referiremos casi siempre
6.1 Entropa de una fuente
a mensajes binarios.

5.4

Cdigo

Un cdigo es un conjunto de unos y ceros que se usan


para representar un cierto mensaje de acuerdo a reglas
o convenciones preestablecidas. Por ejemplo, al mensaje
0010 lo podemos representar con el cdigo 1101 usando para codicar la funcin (NOT). La forma en la cual
codicamos es arbitraria. Un mensaje puede, en algunos

De acuerdo a la teora de la informacin, el nivel de informacin de una fuente se puede medir segn la entropa
de la misma. Los estudios sobre la entropa son de suma importancia en la teora de la informacin y se deben principalmente a C. E. Shannon. Existe, a su vez, un
gran nmero de propiedades respecto de la entropa de
variables aleatorias debidas a A. Kolmogorov. Dada una
fuente F que emite mensajes, resulta frecuente observar
que los mensajes emitidos no resulten equiprobables sino

7 OTROS ASPECTOS DE LA TEORA

que tienen una cierta probabilidad de ocurrencia dependiendo del mensaje. Para codicar los mensajes de una
fuente intentaremos pues utilizar menor cantidad de bits
para los mensajes ms probables y mayor cantidad de bits
para los mensajes menos probables, de forma tal que el
promedio de bits utilizados para codicar los mensajes
sea menor a la cantidad de bits promedio de los mensajes originales. Esta es la base de la compresin de datos.
A este tipo de fuente se la denomina fuente de orden-0,
pues la probabilidad de ocurrencia de un mensaje no depende de los mensajes anteriores. A las fuentes de orden
superior se las puede representar mediante una fuente de
orden-0 utilizando tcnicas de modelizacin apropiadas.
Denimos la probabilidad de ocurrencia de un mensaje
en una fuente como la cantidad de apariciones de dicho
mensaje dividido entre el total de mensajes. Supongamos
que Pi es la probabilidad de ocurrencia del mensaje-i de
una fuente, y supongamos que Li es la longitud del cdigo
utilizado para representar a dicho mensaje. La longitud
promedio de todos los mensajes codicados de la fuente
se puede obtener como:
H=

n
i=0

Pi Li

Promedio ponderado de las longitudes de los cdigos de acuerdo a sus probabilidades de ocurrencia,
al nmero H se lo denomina Entropa de la fuente
y tiene gran importancia. La entropa de la fuente
determina el nivel de compresin que podemos obtener como mximo para un conjunto de datos, si
consideramos como fuente a un archivo y obtenemos las probabilidades de ocurrencia de cada carcter en el archivo podremos calcular la longitud promedio del archivo comprimido, se demuestra que
no es posible comprimir estadsticamente un mensaje/archivo ms all de su entropa. Lo cual implica
que considerando nicamente la frecuencia de aparicin de cada carcter la entropa de la fuente nos
da el lmite terico de compresin, mediante otras
tcnicas no-estadsticas puede, tal vez, superarse este lmite.
El objetivo de la compresin de datos es encontrar
los Li que minimizan a H, adems los Li se deben determinar en funcin de los Pi, pues la longitud de los
cdigos debe depender de la probabilidad de ocurrencia de los mismos (los ms ocurrentes queremos
codicarlos en menos bits). Se plantea pues:
H=

n
i=0

Pi f (Pi )

A partir de aqu y tras intrincados procedimientos matemticos que fueron demostrados por Shannon oportunamente se llega a que H es mnimo cuando f(Pi) = log2
(1/Pi). Entonces:
H=

n
i=0

Pi ( log2 Pi )

La longitud mnima con la cual puede codicarse un mensaje puede calcularse como Li=log2 (1/Pi) = -log2 (Pi).
Esto da una idea de la longitud a emplear en los cdigos
a usar para los caracteres de un archivo en funcin de su
probabilidad de ocurrencia. Reemplazando Li podemos
escribir H como:
H=

n
i=0

Pi log2 Pi

De aqu se deduce que la entropa de la fuente depende nicamente de la probabilidad de ocurrencia de cada
mensaje de la misma, por ello la importancia de los compresores estadsticos (aquellos que se basan en la probabilidad de ocurrencia de cada carcter). Shannon demostr,
oportunamente que no es posible comprimir una fuente
estadsticamente ms all del nivel indicado por su entropa. [6][7]

7 Otros aspectos de la teora


Fuentes de informacin
Teorema de muestreo de Nyquist-Shannon
Entropa
Neguentropa
Informacin mutua
Canales
Capacidad
Compresin de datos
Codicacin de fuente
Cdigos no-singulares
Cdigos unvocamente decodicables
Extensin de cdigo
Cdigos prejo (o cdigos instantneos)
Control de errores
FEC
ARQ
Parada y espera
Rechazo mltiple
Rechazo selectivo
Tcnicas hbridas
Concatenacin de cdigos
Tipo 1
Tipo 2
Deteccin de errores

5
Bits de redundancia
Mtodos de control de errores
Paridad
Cdigos autochequeo y autocorrectores
Cdigos de bloque
Distancia Hamming
Paridad horizontal y vertical
Cdigos lineales
Cdigos cclicos
CRC16
CRC32

Vase tambin
Informacin
Teora algortmica de la informacin

Referencias

[1] Teora matemtica de la comunicacin


[2] Teora Matemtica de la Comunicacin
[3] Teora de la Informacin
[4] Teora Matemtico-informacional
[5] Teora de la Informacin | Textos Cientcos
[6] Teora de la Informacin
[7] Teora Matemtica de la Informacin

10

10
10.1

TEXT AND IMAGE SOURCES, CONTRIBUTORS, AND LICENSES

Text and image sources, contributors, and licenses


Text

Teora de la informacin Fuente: http://es.wikipedia.org/wiki/Teor%C3%ADa%20de%20la%20informaci%C3%B3n?oldid=80080605


Colaboradores: AstroNomo, PACO, ManuelGR, Interwiki, Sms, Ivan.Romero, Loco085, Yurik, Edub, Rembiapo pohyiete (bot), LP, RobotQuistnix, Sebasg37, Chobot, Jesuja, Eloy, Er Komandante, Chlewbot, Paintman, Fercufer, BOTpolicia, ULIF050020014, Valdrik, Davius, CaesarExcelsus, Thijs!bot, JAnDbot, Gbsuar, TXiKiBoT, Lalaconyforever, Elisardojm, Humberto, Cinevoro, VolkovBot, Urdangaray,
Technopat, Muro Bot, SieBot, Pompilio Zigrino, Correogsk, Estirabot, BetoCG, Nerika, Julian leonardo paez, Ucevista, AVBOT, Diegusjaimes, Arjuno3, Luckas-bot, Nallimbot, Barnacaga, SuperBraulio13, Xqbot, Jkbw, Botarel, Execoot~eswiki, Rcamacho, Frandzi.rangel,
Velual, EmausBot, ChessBOT, WikitanvirBot, Loekiller, Earnaor, MerlIwBot, Nicoletis, Invadibot, Acratta, RosenJax, Addbot, JacobRodrigues, Egis57 y Annimos: 63

10.2

Images

Archivo:Esquema_de_comunicacin_Shannon.png Fuente: http://upload.wikimedia.org/wikipedia/commons/b/b6/Esquema_de_


comunicaci%C3%B3n_Shannon.png Licencia: CC BY-SA 3.0 Colaboradores: Trabajo propio Artista original: Nicoletis

10.3

Content license

Creative Commons Attribution-Share Alike 3.0