Documento de Apoyo - Tecnologías Big Data

Tabla de contenido
1 Objetivos................................................................................................... 4
2 Introducción .............................................................................................. 4
3 Aplicaciones del Big Data ......................................................................... 7
3.1 Decisiones estratégicas ............................................................................ 7
3.2 Posibilidades analíticas de Big Data ......................................................... 7
3.3 Aplicaciones con datos de Redes Sociales .............................................. 8
3.4 Uso de información geo localizada ........................................................... 8
3.5 Algunos casos de éxito ............................................................................. 9
3.6 Dificultades del Big Data......................................................................... 10
3.6.1 Volumen ................................................................................................. 11

3.7 Gestión de datos Streaming ................................................................... 11
3.8 Integración de las fuentes....................................................................... 12
3.9 Verificación de la calidad ........................................................................ 12
3.10 Otros problemas ..................................................................................... 13
4 Arquitecturas Big Data ............................................................................ 13
4.1 Hadoop/MapReduce ............................................................................... 14
4.2 Bases de datos NoSQL (Not Only SQL) ................................................. 15
4.3 SGBDR Extendidos ................................................................................ 15
5 Entorno Hadoop / Map Reduce .............................................................. 15
5.1 HDFS ...................................................................................................... 16

5.2 MapReduce ............................................................................................ 16
6 Herramientas entorno Hadoop ............................................................... 17
6.1 Distribuciones de Hadoop....................................................................... 18
7 Conclusiones .......................................................................................... 19
8 Objetivos................................................................................................. 20
9 Apache Pig ............................................................................................. 20
9.1 Pig Latin.................................................................................................. 20
9.2 Operadores y funciones ......................................................................... 21
9.3 Usos de Pig ............................................................................................ 22
9.4 Algunas consideraciones ........................................................................ 22
10 Apache Hive ........................................................................................... 22
11 Otras Arquitecturas y Herramientas ....................................................... 23
11.1 Big data en tiempo real ........................................................................... 23
11.2 Apache Spark ......................................................................................... 24
11.3 Apache Storm ......................................................................................... 24
11.4 SGBDR extendidos con MPP ................................................................. 25
11.5 Bases de datos NoSQL .......................................................................... 25
12 Soluciones en la Nube (Big Data en la nube) ......................................... 27
DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

HERRAMIENTAS DEL BIG DATA Y GOBIERNO DEL
UNIDAD DIDÁCTICA 1:
DATO
DOCUMENTO: TECNOLOGÍAS BIG DATA
Pág. 2
12.1 Ventajas.................................................................................................. 28
12.2 Desventajas ............................................................................................ 28
13 Conclusiones .......................................................................................... 29
14 Bibliografía Esencial ............................................................................... 30
15 Bibliografía Recomendada ..................................................................... 31

DATO
Pág. 3
1 Objetivos
Los objetivos principales perseguidos en esta clase son:
• Entender el crecimiento actual de existencia de los datos y sus distintas

fuentes de origen.
• Conocer las aplicaciones de Big Data.
• Entender las principales arquitecturas Big Data y algunas herramientas del
entorno Hadoop.
2 Introducción
La cantidad de datos que se manejan a diario están aumentando considerablemente

con el paso del tiempo siendo capaces de recoger información desde distintos
DISPOSITIVOS tales como:
• Dispositivos móviles
• Conexión a internet de alta velocidad

• Cada vez más potentes
• Proporcionan información de localización

DATO
Pág. 4
• Sensores:
• Medidores inteligentes de energía

• Dispositivos médicos
• Vehículos
• Edificios
• Discos duros:
• Más grandes, más rápidos y más asequibles
• RFID:
• En la actualidad: más de 12 millones de tags RFID

• Tarjetas de crédito e identificación
• Seguimiento de productos
• Automatización venta

DATO
Pág. 5
Y desde distintas APLICACIONES como pueden ser:
• Redes sociales Millones de publicaciones cada día: texto,

localización geográfica, fotos, videos
• Open data Datos para uso libre: meteorológicos, socio económicos,
de energía, servicios públicos.
• Smart Cities Aplicaciones y sistemas para la mejora de la ciudad
• Internet of the Things Redes de dispositivos que se comunican de
forma autónoma: smartphones, electrodomésticos, vehículos, etc.
El volumen generado aumenta diariamente y se ha calculado que se generan unos

2.5 exabytes de datos, consiguiendo que cada dos meses se duplique el volumen
generado. Hay organizaciones concretas como el CERN y Facebook que generan
más de 500 Terabytes al día.
La información ha pasado de ser escasa a ser realmente abundante haciendo que

los datos se hayan convertido en la nueva materia prima de los negocios, casi tan
importantes como el capital y la mano de obra.
El aprovechamiento adecuado de estos datos, puede dar lugar a importantes

beneficios (transformar los datos en información útil para la empresa) pero esto
conlleva una serie de dificultades a la hora de tratarlos como puede ser el tamaño,
la estructura, variedad de formatos, calidad, etc.….

DATO
Pág. 6
3 Aplicaciones del Big Data
3.1 Decisiones estratégicas
En el ámbito empresarial, el objetivo principal del análisis de datos es la mejora de

los procesos de toma de decisiones (mejores decisiones estratégicas implican
mejora del rendimiento empresarial)
Mediante el análisis adecuado de los datos históricos disponibles, es posible:
1. Analizar las causas de un problema o situación actual

2. Determinar posibles estrategias
3. Predecir el resultado de su aplicación
El uso de las TIC ayuda a conseguir una mejora de los procesos en la toma de
decisiones estratégicas.
3.2 Posibilidades analíticas de Big Data
Hasta ahora, los datos históricos que se usaban para el análisis eran datos internos
de la organización almacenados en bbdd tradicionales y hojas de cálculo de los
distintos usuarios o departamentos y en su mayoría procedentes de los sistemas de
información transaccionales.

DATO
Pág. 7
Sin embargo, el Big Data permite nuevos tipos de análisis, pudiendo manejar datos
internos y datos externos consiguiendo la integración de ambos tipos. El manejo de
ambos tipos de datos es la clave para extraer nuevo conocimiento útil y ventajoso,
aunque implica un proceso complejo que supone un reto en Big Data.
Algunos de los campos y aplicaciones más usadas como fuentes de datos en el
ámbito del Big Data son:
3.3 Aplicaciones con datos de Redes Sociales
Muchas de las redes sociales permiten la descarga de datos, tanto aquellos de

carácter público como los privados según se disponga de los permisos correctos a
través de una API. Con estos datos se pueden obtener:
• Estudio de hábitos de conexión, gustos, opiniones, estados de ánimo…

• Proveedores de internet: gestión de calidad del servicio (QoS)
• Seguridad y vigilancia
3.4 Uso de información geo localizada
Extraer información geo localizada, entendiendo como tal los datos de cualquier tipo
acompañados de información de la localización donde se han generado esos datos,
pudiendo destacar algunos ejemplos del tráfico y para las Smart Cities:

DATO
Pág. 8
• Planificaciones urbanísticas
• Mejora del transporte público y las comunicaciones
• Delimitación de comunidades de personas (ej. Útil para estudiar la
propagación de un virus)
3.5 Algunos casos de éxito
Se conocen muchos casos en los que Big Data se ha aplicado con éxito
proporcionando una gran información para el fin requerido. Algunas de las más
conocidas podrían ser las campañas políticas de algunos partidos políticos
consiguiendo:
• Integración de datos de encuestas, redes sociales, afiliados…

• Pronosticar resultados con alta precisión y optimizar la ubicación de la
publicidad.
Aunque los beneficios del Big Data son incalculables y cada día tiene una mayor
utilidad debido a la sociedad de la información en la que vivimos hay que destacar
la gran dificultad que tiene estas tecnologías.

DATO
Pág. 9
3.6 Dificultades del Big Data
EL big data proporciona un gran abanico de posibilidades a las organizaciones, pero

las 5 v’s son un problema en sí mismas, incluso algunas encuestas recientes a
empresas que usan big data muestran que:
• Sólo un 12% afirman tener gran éxito en su uso

• Frente a un 64% de éxito moderado y un 24% de fracaso
• El fracaso se debe a problemas como:
• Complejidad de la integración de las fuentes de datos
• Pobre calidad de los datos
• Gestión de datos generados en tiempo real
• Falta de personal con las habilidades adecuadas
• Elección de la arquitectura incorrecta
A continuación, se detallan algunos de los problemas asociados a las 5 v’s.

DATO
Pág. 10
3.6.1 Volumen
• El procesamiento y análisis de los enormes volúmenes es uno de los

problemas más evidentes y antiguos
• Sin embargo, la tecnología actual aporta soluciones como Apache Hadoop y
las bases de datos NoSQL
• De bajo coste y escalables en volumen

• Procesamiento y análisis de terabytes de datos en minutos o segundos
sobre hardware comercial.
3.7 Gestión de datos Streaming
• Datos generados y distribuidos en tiempo real “Streaming” + Oportunidad de

análisis “Real Time” RETOS del tiempo real:
• Integración
• Verificación de la calidad

DATO
Pág. 11
3.8 Integración de las fuentes
• Combinación o integración de fuentes de datos internas y externas, una de las

formas de añadir valor a los datos originales y prepararlos para el análisis.
• La variedad o heterogeneidad de las fuentes, hace que esta tarea requiera un
gran esfuerzo humano:
• Sobre todo, cuando se maneja un gran número de fuentes

• A tener en cuenta: distintas modelos de datos, distinto formato, falta o
inexistencia de metadatos...
3.9 Verificación de la calidad
Es muy difícil comprobar la veracidad o precisión de los datos contenidos en las

fuentes externas debido a que:
• Su generación no depende de nosotros

• Falta de datos, ruido, alteraciones…
Es necesario garantizar la calidad de los datos antes y después de los procesos de

integración.

DATO
Pág. 12
3.10 Otros problemas
• Falta de personal con las habilidades adecuadas

• Selección de la arquitectura idónea
• ¿Qué base de datos NoSQL es la más adecuada?

• ¿Clúster local o uso de servicios y almacenamiento en la nube?
• Otros problemas:
• Coexistencias con Almacenes de datos (DWH)

• Coste de implementación y mantenimiento
• Pobre integración entre herramientas Big Data existentes
4 Arquitecturas Big Data
Las 5Vs del big data hacen que las arquitecturas para el procesamiento y análisis
de datos previas (sistemas de información estructurada) no sean adecuadas tales
como los data warehouse montados sobre un SGBDR. El volumen es uno de los
principales responsables, pero no el único ya que los SGBDR distribuidos actuales
permiten procesar cientos de terabytes.

DATO
Pág. 13
La variedad de datos de origen requiere un procesamiento eficiente de las fuentes
semi y no estructuradas, además de las estructuradas capaz de conseguir una
escalabilidad frente a la adición de nuevos tipos de fuentes de datos.
La velocidad necesita un soporte para adquisición y procesamiento de datos en
streaming, además de la carga por lotes.
Surgen tres principales arquitecturas para dar soporte a los nuevos:
• Hadoop/MapReduce
• Bases de datos NoSQL
• BBDD relacionales extendidas
4.1 Hadoop/MapReduce
Apache Hadoop es un entorno de código abierto que implementa Hadoop HDFS

(Sistema de archivos distribuidos). MapReduce consiste en un modelo de
programación para el procesamiento de datos en paralelo optimizado para lectura
secuencial de grandes volúmenes de datos, siendo muy eficiente y permitiendo
complejos análisis estadísticos.

DATO
Pág. 14
4.2 Bases de datos NoSQL (Not Only SQL)
Las BDs NoSQL rompen una o más reglas de los BD relacionales para dar soporte
a las 5Vs del Big Data estando destinadas al almacenamiento de información no
relacional: fuentes semi estructuradas y no estructuradas. La mayoría no
implementa el lenguaje de consulta SQL y están optimizadas para las lecturas y
escrituras aleatorias siendo generalmente adecuadas para tareas distintas del
análisis.
4.3 SGBDR Extendidos
También existen Sistemas de Gestión de Bases de Datos (SGBDR) Extendidos muy

eficientes que permiten el procesamiento distribuido MPP (Massively Parallel
Processing) pero ofrecen una menor escalabilidad frente a la variedad de las fuentes
de datos que las otras arquitecturas.
5 Entorno Hadoop / Map Reduce
Es un entorno de código abierto que describe un método de procesamiento de datos

distribuido permitiendo escalar usando hardware comercial. En su núcleo, Hadoop
tiene dos funciones principales:

DATO
Pág. 15
5.1 HDFS
Diseñado para la lectura secuencial de grandes volúmenes de datos, pero no

adecuado para lecturas y escrituras aleatorias de datos.
5.2 MapReduce
MapReduce es un modelo de programación para el procesamiento de datos en

paralelo que surge de los principios de la computación distribuida. Fue desarrollado
por Google antes de existir Hadoop.
Hadoop es una implementación de MapReduce dónde éste también es un motor de

ejecución. Por tanto, la combinación de MapReduce y HDFS nos permite procesar
cientos de gigabytes, e incluso terabytes, en menos de un minuto.
Los usuarios desarrollan programas MapReduce que se envían al motor
MapReduce para su procesamiento. El concepto “Job” significaría el programa
MapReduce en Hadoop que están escritos en lenguaje Java u otros a través del uso
de librerías permitiendo la distribución de la carga de trabajo a lo largo del clúster
HDFS siendo responsable de la ejecución de los “Jobs”
Cada trabajo Map Reduce se descompone en dos procesos:
• Map: Divide la entrada en muchas piezas pequeñas de forma que cada pieza
pueda ser procesada de forma independiente y en paralelo

DATO
Pág. 16
• Reduce: Los resultados del procesamiento de cada pieza son recopilados,
agregados y procesados
6 Herramientas entorno Hadoop
Para simplificar la gestión y análisis de Big Data en Hadoop han surgido diversas
herramientas:

DATO
Pág. 17
6.1 Distribuciones de Hadoop
Una distribución de Hadoop consiste en un paquete de software que incluye una o

más de las herramientas anteriores junto con HDFS y MapReduce. En algunos
casos se añaden modificaciones y nuevas herramientas.
Se cuenta con paquetes o instalador que facilitan la instalación del entorno Hadoop
en distintos sistemas operativos: Ubuntu, CentOS, Windows Server...
Existe la distribución Sandbox que consiste en distribuciones de Hadoop instaladas

y pre configuradas para su funcionamiento en una máquina virtual no siendo
necesario instalar Hadoop, únicamente ejecutar la máquina virtual descargada.
Otra distribución es la Standalone: para ser ejecutada en un solo equipo, no en

clúster. Recomendado para formación en el uso del entorno Hadoop y sus
herramientas y permitiendo el desarrollo de prototipos.

DATO
Pág. 18
7 Conclusiones
A modo de resumen algunos de los puntos relacionados con la arquitectura Hadoop

/ Map Reduce que debemos tener en mente son:
• No sirve sólo para datos almacenados en la forma de clave: valor, sino que los
procesos MapReduce pueden diseñarse para procesar distintos tipos de
archivo mientras podamos determinar la parte que es clave y cual valor.
• La dificultad de desarrollo es muy elevada, sobre todo, si la comparamos con
lenguajes de consulta de BD como SQL.
• Han surgido diversas herramientas construidas sobre la base MapReduce /
HDFS que simplifican el procesamiento y análisis de Big Data.

DATO
Pág. 19
8 Objetivos
Los objetivos principales perseguidos en esta clase son:
• Profundizar en las principales herramientas (Apache Pig y Apache Hive) del

entorno Hadoop.
• Adquirir una visión de las posibles soluciones en la nube.
• Conocer las herramientas de Big Data para tiempo real
9 Apache Pig
Apache Pig es la plataforma de código abierto para la carga, manipulación y

transformación de datos en una arquitectura Hadoop / MapReduce. El lenguaje de
script para los flujos de datos se denomina
9.1 Pig Latin
Pig Latin Este lenguaje permite describir cómo los datos procedentes de una o más
fuentes de datos han de ser leídos, procesados y escritos en una o más salidas. De
forma matemática, un script de PIG describe un DAG (Grafo Acíclico Dirigido).
Algunas características a destacar es que no tiene sentencias condicionales (ej. if
else) y no permite definir bucles (ej. for, while).

DATO
Pág. 20
9.2 Operadores y funciones
Incluye operadores y funciones para la mayoría de las operaciones de manipulación

de datos tales cómo unión (join), ordenación (sort), filtrado (filter), agregación (group
by), etc. Además, los usuarios pueden desarrollar nuevas funciones para la lectura,
transformación y escritura de datos.

DATO
Pág. 21
9.3 Usos de Pig
El uso de esta herramienta es generar procesos ETL obteniendo una mayor

potencia y control sobre los flujos de datos que las herramientas tradicionales de
diseño de procesos ETL. Realiza la ejecución en paralelo en el clúster HDFS y
permite la exploración de datos en bruto pudiendo trabajar con fuentes de datos
cuyo modelo es desconocido, incompleto o inconsistente y soporta “integración al
vuelo” ya que los datos se pueden integrar en el momento del análisis.
9.4 Algunas consideraciones
Para el procesamiento secuencial de grandes volúmenes de datos, el clúster HDFS

es el repositorio de entrada y salida. Soporta archivos almacenados en HDFS con
distintos niveles de estructura y formato: JSON, XML, texto, CSV, ... También
permite entrada y salida desde tablas de Apache Hive y Hbase, pero no dispone de
conectores O/JDBC estándar y no soporta conexión directa con herramientas de BI
o BD’s externas a Hadoop.
10 Apache Hive
Apache Hive es una herramienta para la implementación de Almacenes de Datos

(DW) en el entorno Hadoop. Emplea el Hive Query Language (HQL) que consiste
en un dialecto del lenguaje SQL que permite realizar consultas sobre datos
almacenados en el clúster Hadoop.

DATO
Pág. 22
Ofrece una capa de abstracción sobre HDFS / MapReduce haciendo que las
sentencias SQL se traduzcan en procesos MapReduce al ejecutarse.
Además, ofrece una conexión con BD’s, herramientas de BI y ETL externas a

Hadoop mediante conectores J/ODBC, aunque su tiempo de respuesta es alto.
11 Otras Arquitecturas y Herramientas
Hadoop/MapReduce está optimizado para el procesamiento y el análisis secuencial

y aunque soporta el modo Real Time existe algunas grandes carencias, como por
ejemplo el soporte de transacciones.
Los procesos Map/Reduce suelen ser costosos y no están pensados para

volúmenes pequeños de datos, por lo que para afrontar estas limitaciones tenemos
otras soluciones de arquitectura para tiempo real como, SGBDR extendidos con
MPP o BD NoSQL.
11.1 Big data en tiempo real
La característica de velocidad en Big Data implica la necesidad de procesar datos

en Real Time o streaming. Además, algunos datos pueden ser volátiles y deben ser
procesados en el menor tiempo posible. Recientemente han surgido algunas
herramientas en el ecosistema Hadoop para soportarlo, tales como Apache Storm
y Spark.

DATO
Pág. 23
11.2 Apache Spark
Es una plataforma que implementa una arquitectura “In-Memory” para el

procesamiento y análisis de Big Data en Tiempo Real. “In Memory” significa que
hace uso de la memoria RAM de los equipos del clúster HDFS.
No Aplica el modelo de computación Map/Reduce y puede llegar a ser hasta 100

veces más rápido que HDFS/MapReduce.
11.3 Apache Storm
Es un sistema de procesamiento distribuido, tolerante a fallos y en tiempo real de

datos en Streaming.
Soporta el procesamiento de más de un millón de filas por segundo y nodo. En vez

de implementar el modelo Map/Reduce, se basa en el uso de topologías. Se definen
grafos formados por Spouts (fuente de datos) y nodos Bolt (procesamiento de
datos).
DATO
Pág. 24
11.4 SGBDR extendidos con MPP
Cuando exista otro escenario diferente y necesitemos procesar y analizar grandes

volúmenes de datos Big Data y que el nivel de estructura predominante sea el
estructurado, es decir, información estructurada donde se almacenan documentos
en columnas.
Para estos casos existen los Sistemas de Gestión de Bases de Datos relacionales
con características extendidas para Big Data. Consisten en una evolución de los
SDBGDR clásicos con soporte MPP (Massively Parallel Processing). Son
adecuados para análisis OLAP en datos estructurados, aunque su mayor
inconveniente es el precio y la infraestructura.
11.5 Bases de datos NoSQL
Nuestro objetivo es el desarrollo de aplicaciones de Business Intelligence que haga

uso de Big Data (para ello necesitamos características similares a los sistemas
OLAP evolucionadas a Big Data)

DATO
Pág. 25
En algunos casos podemos necesitar realizar análisis de elementos
interrelacionados como podría ser por ejemplo el análisis de relaciones entre los
usuarios de redes sociales y las aplicaciones para el análisis de trayectoria a partir
de datos RFID y por tanto la mejor opción sería el uso de Base de datos NoSQL.
Veamos algunas de sus caracteristicas:
• Están orientadas a la lectura y actualización aleatoria de registros

• Relajan las restricciones ACID (necesarias para OLTP)
• Permiten la inserción, actualización y borrado a nivel de fila (Hive solo lo
permite por configuración y está desaconsejado)
• Existen diversos tipos de bases de datos NoSQL:
• Clave / Valor (Redis, InfluxDB)

• Orientadas a Documento (MongoDB, CouchDB)
• Big Table (Cassandra)
• Orientadas a Grafos (AllegroGraph, Cytoscape)

DATO
Pág. 26
12 Soluciones en la Nube (Big Data en la nube)
El concepto de computación en la nube (Cloud computing) consiste en aplicaciones,

servicios y almacenamiento que se ejecutan de forma distribuida en otras
computadoras distintas a la nuestra, y a los que se accede a través de internet.
En los últimos años han surgido soluciones también para la problemática del Big
Data que nos permiten afrontar las características del Big Data (5v’s) añadiendo
beneficios de la computación en la nube a la infraestructura de nuestra solución.
Existen diferentes proveedores de soluciones en la nube, siendo algunos de los más

destacados Windows Azure, Amazon Web Services, Google Cloud Platform,…

DATO
Pág. 27
12.1 Ventajas
Algunas de las ventajas de este planteamiento serían:
• Optimización de recursos y costes ya que “Pay-as-you-go”, es decir, asumes

el coste en función de las necesidades actuales
• Reduce las necesidades IT de infraestructura y ofrece un fácil escalado hacia
arriba y hacia abajo del proyecto
• Muy apropiado para prototipos o pruebas de concepto
• Sistemas con alta tolerancia a fallos hardware
• Permite dar los primeros pasos a emprendedores, estudiantes,
investigadores, etc. hasta llegar a grandes sistemas para pymes, grandes
empresas, sector público, etc.
12.2 Desventajas
Algunas de las desventajas de estas soluciones serían:
• Tiempo de subida y descarga de datos a la nube (puede afectar al

rendimiento)
• Dificultad para la ejecución de procesos MapReduce sobre HDFS
• Seguridad y privacidad de los datos almacenados en la nube
• No controlamos las versiones del software en algunas soluciones
• Cambios en los API / Servicios

DATO
Pág. 28
13 Conclusiones
A modo de resumen algunos de los puntos globales que debemos tener en mente
entorno al Big Data y a los proyectos de aplicación son:
• Existen diferentes alternativas a Hadoop/Map Reduce para entornos Big

Data y cada arquitectura o herramienta da soporte a una casuística
específica y hay que aplicarlas donde la solución sea óptima
• Para elegir las herramientas a utilizar es necesario hacer un buen estudio de
nuestro problema para elegir la más adecuada. Además, estás herramientas
pueden ser complementarias, y podemos utilizarlas para diferentes partes de
nuestro escenario, creando así una mejor solución
• Se ha nombrado solo algunas herramientas ya que cada día aparecen
nuevas para abordar y optimizar diferentes escenarios

DATO
Pág. 29
14 Bibliografía Esencial
La siguiente bibliografía debería ser leída con atención con el fin de que se afiancen
los conocimientos teóricos expuestos el tema.
• Wikipedia, enciclopedia digital. Enlace:

• https://es.wikipedia.org/wiki/Macrodatos
• Powerdata, consultora especializada en BI y Big Data. Enlace:
• https://www.powerdata.es/big-data
• TechTarget, comunidad especializada en BI, DWH y Big Data Enlace:
• https://searchdatacenter.techtarget.com/es/definicion/Big-data

DATO
Pág. 30
15 Bibliografía Recomendada
En las siguientes comunidades se puede ampliar profundamente sobre los temas

vistos en el tema.
• Tutorialspoint, comunidad con recursos y tutoriales para formación online.

Enlace:
• https://www.tutorialspoint.com/es/hadoop/hadoop_mapreduce.htm
• Geeky Theory, plataforma para cursos especializados en desarrollo y
programación de nuevas tecnologías. Enlace:
• https://geekytheory.com/fundamentos-de-apache-hadoop-y-mapreduce
• Apache, comunidad con recursos y tutoriales de las distintas aplicaciones.
Enlaces:
• MapReduce: https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html
• Hive: https://hive.apache.org/
• Pig: https://pig.apache.org/
• Spark: https://spark.apache.org/

DATO
Pág. 31

Documento de Apoyo - Tecnologías Big Data

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Documento de Apoyo - Tecnologías Big Data

Uploaded by

Copyright:

Available Formats

Tabla de contenido

3 Aplicaciones del Big Data ......................................................................... 7

3.1 Decisiones estratégicas ............................................................................ 7

3.2 Posibilidades analíticas de Big Data ......................................................... 7

3.3 Aplicaciones con datos de Redes Sociales .............................................. 8

3.4 Uso de información geo localizada ........................................................... 8

3.5 Algunos casos de éxito ............................................................................. 9

3.6 Dificultades del Big Data......................................................................... 10

3.6.1 Volumen ................................................................................................. 11

3.8 Integración de las fuentes....................................................................... 12

3.9 Verificación de la calidad ........................................................................ 12

3.10 Otros problemas ..................................................................................... 13

4 Arquitecturas Big Data ............................................................................ 13

4.1 Hadoop/MapReduce ............................................................................... 14

4.2 Bases de datos NoSQL (Not Only SQL) ................................................. 15

4.3 SGBDR Extendidos ................................................................................ 15

5 Entorno Hadoop / Map Reduce .............................................................. 15

5.1 HDFS ...................................................................................................... 16

6 Herramientas entorno Hadoop ............................................................... 17

6.1 Distribuciones de Hadoop....................................................................... 18

9 Apache Pig ............................................................................................. 20

9.1 Pig Latin.................................................................................................. 20

9.2 Operadores y funciones ......................................................................... 21

9.3 Usos de Pig ............................................................................................ 22

9.4 Algunas consideraciones ........................................................................ 22

10 Apache Hive ........................................................................................... 22

11 Otras Arquitecturas y Herramientas ....................................................... 23

11.1 Big data en tiempo real ........................................................................... 23

11.2 Apache Spark ......................................................................................... 24

11.3 Apache Storm ......................................................................................... 24

11.4 SGBDR extendidos con MPP ................................................................. 25

11.5 Bases de datos NoSQL .......................................................................... 25

12 Soluciones en la Nube (Big Data en la nube) ......................................... 27

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

12.2 Desventajas ............................................................................................ 28

14 Bibliografía Esencial ............................................................................... 30

15 Bibliografía Recomendada ..................................................................... 31

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

Los objetivos principales perseguidos en esta clase son:

• Entender el crecimiento actual de existencia de los datos y sus distintas

La cantidad de datos que se manejan a diario están aumentando considerablemente

• Conexión a internet de alta velocidad

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

• Medidores inteligentes de energía

• Más grandes, más rápidos y más asequibles

• En la actualidad: más de 12 millones de tags RFID

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

• Redes sociales Millones de publicaciones cada día: texto,

El volumen generado aumenta diariamente y se ha calculado que se generan unos

La información ha pasado de ser escasa a ser realmente abundante haciendo que

El aprovechamiento adecuado de estos datos, puede dar lugar a importantes

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

3.1 Decisiones estratégicas

En el ámbito empresarial, el objetivo principal del análisis de datos es la mejora de

Mediante el análisis adecuado de los datos históricos disponibles, es posible:

1. Analizar las causas de un problema o situación actual

3.2 Posibilidades analíticas de Big Data

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

3.3 Aplicaciones con datos de Redes Sociales

Muchas de las redes sociales permiten la descarga de datos, tanto aquellos de

• Estudio de hábitos de conexión, gustos, opiniones, estados de ánimo…

3.4 Uso de información geo localizada

DIPLOMADO VIRTUAL EN: BIG DATA BUSINESS INTELLIGENCE

3.5 Algunos casos de éxito