You are on page 1of 4

Teoría de la información

La teoría de la información, también conocida como teoría matemática de la


comunicación o teoría matemática de la información, es una propuesta teórica
presentada por Claude E. Shannon y Warren Weaver a finales de la década de los años
1940. Esta teoría está relacionada con las leyes matemáticas que rigen la transmisión y
el procesamiento de la información y se ocupa de la medición de la información y de la
representación de la misma, así como también de la capacidad de los sistemas de
comunicación para transmitir y procesar información. La teoría de la información es una
rama de la teoría matemática y de las ciencias de la computación que estudia la
información y todo lo relacionado con ella: canales, compresión de datos y criptografía,
entre otros.

Teoría aplicada a la tecnología.

La Teoría de la Información se encuentra aún hoy en día en relación con una de


las tecnologías en boga, Internet. Desde el punto de vista social, Internet representa unos
significativos beneficios potenciales, ya que ofrece oportunidades sin precedentes para
dar poder a los individuos y conectarlos con fuentes cada vez más ricas de información
digital. Internet fue creado a partir de un proyecto del departamento de defensa de los
Estados Unidos llamado ARPANET (Advanced Research Projects Agency Network)
iniciado en 1969 y cuyo propósito principal era la investigación y desarrollo de
protocolos de comunicación para redes de área amplia para ligar redes de transmisión de
paquetes de diferentes tipos capaces de resistir las condiciones de operación más
difíciles, y continuar funcionando aún con la pérdida de una parte de la red (por ejemplo
en caso de guerra). Estas investigaciones dieron como resultado el protocolo TCP/IP
(Transmission Control Protocol/Internet Protocol), un sistema de comunicaciones muy
sólido y robusto bajo el cual se integran todas las redes que conforman lo que se conoce
actualmente como Internet.

Elementos de la teoría.

Fuente.
Una fuente es todo aquello que emite mensajes. Por ejemplo, una fuente puede
ser una computadora y mensajes sus archivos; una fuente puede ser un dispositivo de
transmisión de datos y mensajes los datos enviados, etc. Una fuente es en sí misma un
conjunto finito de mensajes: todos los posibles mensajes que puede emitir dicha fuente.
Tipos de fuente.
Por la naturaleza generativa de sus mensajes, una fuente puede ser aleatoria o
determinista. Por la relación entre los mensajes emitidos, una fuente puede ser
estructurada o no estructurada (o caótica).

Existen varios tipos de fuente. Para la teoría de la información interesan las


fuentes aleatorias y estructuradas. Una fuente es aleatoria cuando no es posible predecir
cuál es el próximo mensaje a emitir por la misma. Una fuente es estructurada cuando
posee un cierto nivel de redundancia; una fuente no estructurada o de información pura
es aquella en que todos los mensajes son absolutamente aleatorios sin relación alguna ni
sentido aparente.

Mensaje.
Un mensaje es un conjunto de ceros y unos. Un archivo, un paquete de datos que
viaja por una red y cualquier cosa que tenga una representación binaria puede
considerarse un mensaje. El concepto de mensaje se aplica también a alfabetos de más
de dos símbolos, pero debido a que tratamos con información digital nos referiremos
casi siempre a mensajes binarios.

Código.
Un código es un conjunto de unos y ceros que se usan para representar un cierto
mensaje de acuerdo a reglas o convenciones preestablecidas. Por ejemplo, al mensaje
0010 lo podemos representar con el código 1101 usado para codificar la función (NOT).
La forma en la cual codificamos es arbitraria. Un mensaje puede, en algunos casos,
representarse con un código de menor longitud que el mensaje original.

Información.
La información contenida en un mensaje es proporcional a la cantidad de bits
que se requieren como mínimo para representar al mensaje. El concepto de información
puede entenderse más fácilmente si consideramos un ejemplo. Supongamos que
estamos leyendo un mensaje y hemos leído "cadena de c"; la probabilidad de que el
mensaje continúe con "caracteres" es muy alta. Así, cuando efectivamente recibimos a
continuación "caracteres" la cantidad de información que nos llegó es muy baja pues
estábamos en condiciones de predecir qué era lo que iba a ocurrir.
Big Data (Macrodatos)
Big data, macrodatos es un concepto que hace referencia a un conjunto de datos
tan grandes que aplicaciones informáticas tradicionales de procesamiento de datos no
son suficientes para tratar con ellos y los procedimientos usados para encontrar patrones
repetitivos dentro de esos datos.

Big Data es un término que describe el gran volumen de datos, tanto


estructurados como no estructurados, que inundan los negocios cada día. Pero no es la
cantidad de datos lo que es importante. Lo que importa con el Big Data es lo que las
organizaciones hacen con los datos. Big Data se puede analizar para obtener ideas que
conduzcan a mejores decisiones y movimientos de negocios estratégicos.

Cuando hablamos de Big Data nos referimos a conjuntos de datos o


combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad
(variabilidad) y velocidad de crecimiento (velocidad) dificultan su captura, gestión,
procesamiento o análisis mediante tecnologías y herramientas convencionales, tales
como bases de datos relacionales y estadísticas convencionales o paquetes de
visualización, dentro del tiempo necesario para que sean útiles.

Herramientas Big Data

1. Hadoop
No se puede hablar de Big Data sin hablar de la veterana Apache Hadoop. Esta
herramienta Big Data open source se considera el framework estándar para el
almacenamiento de grandes volúmenes de datos; se usa también para analizar y
procesar, y es utilizado por empresas como Facebook y Yahoo!.

La biblioteca Hadoop utiliza modelos de programación simples para el


almacenamiento y procesamiento distribuido de grandes conjuntos de datos en clusters,
dando redundancia para no perder nada y, al mismo tiempo, aprovechando muchos
procesos a la vez. Dispone de un sistema de archivos distribuido en cada nodo del
cluster: el HDFS (Hadoop Distributed File System), y se basa en el proceso de
MapReduce de dos fases. Soporta diferentes sistemas operativos y también se usa
frecuentemente sobre cualquiera de las principales plataformas en la nube, como
Amazon EC2/S3 o Google Cloud.

2. MongoDB
Dentro de las bases de datos NoSQL, probablemente una de las más famosas sea
MongoDB. Con un concepto muy diferente al de las bases de datos relacionales, se está
convirtiendo en una interesante alternativa para almacenar los datos de nuestras
aplicaciones. MongoDB es una base de datos orientada a documentos (guarda los datos
en documentos, no en registros). Estos documentos son almacenados en BSON, que es
una representación binaria de JSON.
3. Elasticsearch
Elasticsearch es una potente herramienta para la búsqueda entre grandes
cantidades de datos, especialmente cuando los datos son de tipo complejo. Nos permite
indexar y analizar en tiempo real un gran volumen de datos y hacer consultas sobre
ellos. Un ejemplo de uso son las consultas de texto completo; al estar los datos
indexados, los resultados se obtienen de forma muy rápida. En el IIC utilizamos esta
herramienta para indexar datos dentro de nuestras soluciones de entorno digital.

4. Apache Spark
Apache Spark es un motor de procesamiento de datos de código abierto
realmente rápido. Creado por Matei Zaharia en la Universidad de Berkeley, se considera
el primer software open source que hace la programación distribuida (muy en esencia,
consiste en distribuir el trabajo entre un grupo de ordenadores, “cluster”, que trabajan
como uno) realmente accesible a los científicos de datos. Se pueden programar
aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. pudiendo ser,
según el programa, hasta 100 veces más rápido en memoria o 10 veces más en disco que
Hadoop MapReduce.

5. Apache Storm
Apache Storm es un sistema de computación distribuida en tiempo real orientado
a procesar flujos constantes de datos, por ejemplo, datos de sensores que se emiten con
una alta frecuencia o datos que provengan de las redes sociales, donde a veces es
importante saber qué se está compartiendo en este momento. Apache Storm puede ser
utilizado para procesar los logs de nuestras aplicaciones para ver el uso que se hace de
los distintos servicios y gestión de errores; para extraer información de redes sociales a
través de sus APIs y analizar un fenómeno en tiempo real; recoger y procesar datos de
sensores; buscadores verticales, web analytics, etc.

6. Lenguaje R
R es un lenguaje de programación y entorno de software para cálculo estadístico
y gráficos. El lenguaje R es de los más usados por los estadistas y otros profesionales
interesados en la minería de datos, la investigación bioinformática y las matemáticas
financieras. R se parece más al lenguaje de las matemáticas que a otros lenguajes de
programación, lo que puede ser un inconveniente para los programadores a la hora de
elegir programar en R para temas de Big Data.

7. Python
Python es un lenguaje avanzado de programación con la ventaja de ser
relativamente fácil de usar para usuarios que no estén familiarizados con la informática
de manera profesional, pero que necesitan trabajar con análisis de datos (estadistas,
biólogos, físicos, lingüistas…). Es una herramienta para Big Data muy eficiente, en
parte debido a la gran comunidad existente, por lo que Python dispone de muchas
librerías ya hechas por otros usuarios.

You might also like