Professional Documents
Culture Documents
Documento de Apoyo - Tecnologías Big Data
Documento de Apoyo - Tecnologías Big Data
1 Objetivos................................................................................................... 4
2 Introducción .............................................................................................. 4
7 Conclusiones .......................................................................................... 19
8 Objetivos................................................................................................. 20
13 Conclusiones .......................................................................................... 29
2 Introducción
• Dispositivos móviles
• Discos duros:
• RFID:
El uso de las TIC ayuda a conseguir una mejora de los procesos en la toma de
decisiones estratégicas.
Hasta ahora, los datos históricos que se usaban para el análisis eran datos internos
de la organización almacenados en bbdd tradicionales y hojas de cálculo de los
distintos usuarios o departamentos y en su mayoría procedentes de los sistemas de
información transaccionales.
Extraer información geo localizada, entendiendo como tal los datos de cualquier tipo
acompañados de información de la localización donde se han generado esos datos,
pudiendo destacar algunos ejemplos del tráfico y para las Smart Cities:
Se conocen muchos casos en los que Big Data se ha aplicado con éxito
proporcionando una gran información para el fin requerido. Algunas de las más
conocidas podrían ser las campañas políticas de algunos partidos políticos
consiguiendo:
Aunque los beneficios del Big Data son incalculables y cada día tiene una mayor
utilidad debido a la sociedad de la información en la que vivimos hay que destacar
la gran dificultad que tiene estas tecnologías.
• Integración
• Verificación de la calidad
• Otros problemas:
Las 5Vs del big data hacen que las arquitecturas para el procesamiento y análisis
de datos previas (sistemas de información estructurada) no sean adecuadas tales
como los data warehouse montados sobre un SGBDR. El volumen es uno de los
principales responsables, pero no el único ya que los SGBDR distribuidos actuales
permiten procesar cientos de terabytes.
• Hadoop/MapReduce
• Bases de datos NoSQL
• BBDD relacionales extendidas
4.1 Hadoop/MapReduce
Las BDs NoSQL rompen una o más reglas de los BD relacionales para dar soporte
a las 5Vs del Big Data estando destinadas al almacenamiento de información no
relacional: fuentes semi estructuradas y no estructuradas. La mayoría no
implementa el lenguaje de consulta SQL y están optimizadas para las lecturas y
escrituras aleatorias siendo generalmente adecuadas para tareas distintas del
análisis.
5.2 MapReduce
• Map: Divide la entrada en muchas piezas pequeñas de forma que cada pieza
pueda ser procesada de forma independiente y en paralelo
Para simplificar la gestión y análisis de Big Data en Hadoop han surgido diversas
herramientas:
Se cuenta con paquetes o instalador que facilitan la instalación del entorno Hadoop
en distintos sistemas operativos: Ubuntu, CentOS, Windows Server...
• No sirve sólo para datos almacenados en la forma de clave: valor, sino que los
procesos MapReduce pueden diseñarse para procesar distintos tipos de
archivo mientras podamos determinar la parte que es clave y cual valor.
• La dificultad de desarrollo es muy elevada, sobre todo, si la comparamos con
lenguajes de consulta de BD como SQL.
• Han surgido diversas herramientas construidas sobre la base MapReduce /
HDFS que simplifican el procesamiento y análisis de Big Data.
9 Apache Pig
Pig Latin Este lenguaje permite describir cómo los datos procedentes de una o más
fuentes de datos han de ser leídos, procesados y escritos en una o más salidas. De
forma matemática, un script de PIG describe un DAG (Grafo Acíclico Dirigido).
Algunas características a destacar es que no tiene sentencias condicionales (ej. if
else) y no permite definir bucles (ej. for, while).
10 Apache Hive
Para estos casos existen los Sistemas de Gestión de Bases de Datos relacionales
con características extendidas para Big Data. Consisten en una evolución de los
SDBGDR clásicos con soporte MPP (Massively Parallel Processing). Son
adecuados para análisis OLAP en datos estructurados, aunque su mayor
inconveniente es el precio y la infraestructura.
En los últimos años han surgido soluciones también para la problemática del Big
Data que nos permiten afrontar las características del Big Data (5v’s) añadiendo
beneficios de la computación en la nube a la infraestructura de nuestra solución.
12.2 Desventajas
A modo de resumen algunos de los puntos globales que debemos tener en mente
entorno al Big Data y a los proyectos de aplicación son:
La siguiente bibliografía debería ser leída con atención con el fin de que se afiancen
los conocimientos teóricos expuestos el tema.