Juan José Camargo-Vega - Jonathan Felipe Camargo-Ortega - Luis Joyanes-Aguilar

ISSN 0121-1129
eISSN 2357-5328

Conociendo Big Data

Knowing the Big Data
Conhecendo Big Data

Fecha de Recepción: 1 de Octubre de 2014 Juan José Camargo-Vega∗
Fecha de Aceptación: 1 de Diciembre de 2014 Jonathan Felipe Camargo-Ortega∗∗
Luis Joyanes-Aguilar∗∗∗

Resumen
Teniendo en cuenta la importancia que ha adquirido el término Big Data, la presente investigación buscó estudiar
y analizar de manera exhaustiva el estado del arte del Big Data; además, y como segundo objetivo, analizó las
características, las herramientas, las tecnologías, los modelos y los estándares relacionados con Big Data, y por
último buscó identificar las características más relevantes en la gestión de Big Data, para que con ello se pueda
conocer todo lo concerniente al tema central de la investigación.

La metodología utilizada incluyó revisar el estado del arte de Big Data y enseñar su situación actual; conocer las
tecnologías de Big Data; presentar algunas de las bases de datos NoSQL, que son las que permiten procesar datos
con formatos no estructurados, y mostrar los modelos de datos y las tecnologías de análisis de ellos, para terminar
con algunos beneficios de Big Data.

El diseño metodológico usado para la investigación fue no experimental, pues no se manipulan variables, y de tipo
exploratorio, debido a que con esta investigación se empieza a conocer el ambiente del Big Data.

Palabras clave: Big Data, Hadoop, MapReduce, NoSQL, Análisis de datos, Modelo de datos.

Abstract
Given the importance acquired by the term Big Data, the present investigation aims to study and analyze thoroughly
the Big Data state of art. Moreover, a second objective is to study the features, tools, technologies, models and

* D.E.A. - M. Sc. Universidad Pedagógica y Tecnológica de Colombia (Tunja-Boyacá, Colombia). jjcamargovega@uptc.edu.co
** Universidad El Bosque (Bogotá-Cundinamarca, Colombia). jfcamargo@unbosque.edu.co
*** Ph. D. Universidad Pontificia de Salamanca (Madrid, España). luis.joyanes@upsam.es

Revista Facultad de Ingeniería (Fac. Ing.), Enero-Abril 2015, Vol. 24. No. 38. pp. 63-77 63

. pp. 63-77

Hadoop. pois não se manipulam variáveis. os modelos e os standards relacionados com Big Data. Enero-Abril 2015. as tecnologias. as ferramentas. para que com ele possa conhecer-se todo o concernente ao tema central da pesquisa. Also display data models and the analysis technologies they offer.Conociendo Big Data standards related to Big Data. Hadoop. Regarding the methodology used in the development of the research. because no variables are manipulated. analisou as características. Data Analysis. e sim de tipo exploratório. MapReduce. 38 . only begins to know the Big Data evirioment. MapReduce. apresentar algumas das bases de dados NOSQL. conhecer as tecnologias de Big Data. Ing. The methodology desing used in this investigation. e como segundo objetivo. e mostrar os modelos de dados e as tecnologias de análise deles. para terminar com alguns benefícios de Big Data. because with the present investigation. No. included to review the state of the art of Big Data. a presente pesquisa buscou estudar e analisar de maneira exaustiva o estado da arte do Big Data. Vol. to end with some benefits from Big Data. And finally it seeks to identify the most relevant features that manage Big Data. e por último buscou identificar as características mais relevantes na gestão de Big Data. to present some of the NoSQL databases. was not experimental.). Análise de dados. NoSQL. Keywords: Big Data. A metodologia utilizada incluiu revisar o estado da arte de Big Data e ensinar sua situação atual. Data Model Resumo Tendo em conta a importância adquirida pelo termo Big Data. so it can be known everything about the focus of the investigation. to know the Big Data technologies. além disso. O desenho metodológico usado para a pesquisa foi não experimental. que permitem processar dados com formatos não estruturados. Palavras chave: Big Data. devido a que com esta pesquisa se começa a conhecer o ambiente do Big Data. and show what is its current situation. which are those that allow to process unstructured data formats. 64 Revista Facultad de Ingeniería (Fac. NoSQL. Modelo de dados. 24. neither exploratory ones.

ocasionando agregado con información que no ha sido manejada. y Big Data. haciendo que las soluciones sean la forma como hoy crecen los datos en volumen. Para [2].“Forrester define Big Data como las técnicas y información almacenada en diferentes medios o bases tecnologías que hacen que sea económico hacer frente de datos. además. Juan José Camargo-Vega . Vol. Khera explicó que: “Big Data se tratarlos con las herramientas de bases de datos y trata de muchos terabytes de datos no estructurados”. a las empresas. si se gestiona correctamente. velocidad y variedad. el cual tenga gran importancia de la Big Data y a mostrar que los datos se representación y análisis de datos para tener un valor generan con cierta velocidad y variedad. siempre y cuando velocidad o variedad de información que demanda desconozcan el uso de Big Data. a los datos a una escala extrema. Enero-Abril 2015. del cual existen innumerables definiciones. la encuesta datos”. Estado del arte de Big Data del negocio”. puede proporcionar una Por su parte. sobre lo que significa Big Data. procesos y procedimientos Revista Facultad de Ingeniería (Fac. Big Data. Big Data se refiere “al tratamiento encontró que 59% de las organizaciones carecen de las y análisis de enormes repositorios de datos. 2) Escala extrema de datos que supera a la tecnología actual debido a su volumen. 3) Como un problema de Big Data se puede contemplar El valor económico. el analista Dan Kusnetzky. velocidad y variedad. No. los procesos y procedimientos que permitan a una organización crear. Big Data son “cantidades que el 49% de las organizaciones están algo o muy masivas de datos que se acumulan con el tiempo preocupados por la gestión de Big Data. Estado actual de Big Data el término Big Data. donde “La información es poder. 24. esto es debido al gran avance y uso de las tecnologías de información. entre ellas se tienen: Las investigaciones en Big Data son bastantes en la actualidad. de decisiones y automatización del proceso”. de forma que puedan formas costeables e innovadoras de procesamiento gestionar datos y convertirlos en conocimiento útil en de información que permitan ideas extendidas. y el 27% dice que tiene herramientas comunes de gestión de bases de una comprensión parcial [10]. los cuales pueden ser de gran importancia. lo que significa que la presente investigación se orientó a evidenciar la que la empresa tenga personal. sus tecnologías y su aprovechamiento. tan herramientas necesarias para gestionar los datos de sus desproporcionadamente grandes que resulta imposible sistemas de TI [10]. independientemente su tamaño.Luis Joyanes-Aguilar I. toma sus labores diarias. y para [3]. Kusnetzky [4]. Big Data “se refiere a las herramientas.Jonathan Felipe Camargo-Ortega . Gartner [8] define el Big Data como “un gran volumen. del Grupo cantidad de conocimiento…” [10]. el término aplica a la información que no puede ser procesada o analizada mediante procesos Una encuesta realizada por LogLogic encuentra tradicionales. aquí se presentan algunas de ellas: Según [1]. Para iniciar. 38 65 . que las personas hacen de ellas.). asequibles y ayuden a la inversión de los negocios”. manipular y administrar grandes conjuntos de datos e instalaciones El sector empresarial presenta gran desconocimiento de almacenamiento”. se presentan algunas definiciones sobre A. Y [9] indica que “Big Data consiste en consolidar toda la información de una organización y ponerla al servicio II. hoy las compañías no saben qué hacer con el gran volumen de datos e En [5]. sobre sus alcances. Según la encuesta. el crecimiento en volumen. señala que “La frase Big Data se el 62% mencionó que ya había gestionado más de refiere a las herramientas. Es por ello cosas: 1) Las técnicas y la tecnología. analíticas convencionales”. Introducción que permitan a una organización crear. Ing. manipular y gestionar conjuntos La presente investigación es útil para las personas que de datos muy grandes y las instalaciones de no tienen mayor conocimiento sobre lo que significa almacenamiento”. pero que el que son difíciles de analizar y manejar utilizando 38% no entiende lo que es. y al uso diario Según [7]. De la misma forma. Big Data trata de tres principalmente en la toma de decisiones.

la infraestructura de de representar los datos. and Services 2013-2017 de IDC. incluyendo el productos de desarrollos de software (páginas web. datos de navegación de sitios web Velocidad y Variedad. foros. Análisis de Big Data crecimiento compuesto del 27% hasta llegar a los 32. ampliamente publicitado papel de científico de datos”. Vol. ejemplo [13]. como ya se mencionó. provenientes de audio y video. Dimensiones de Big Data geoespaciales. correos electrónicos o producto En [11]. redes sociales. el 29% mencionó que se mejoraría la 66 Revista Facultad de Ingeniería (Fac. o Big Data. en Estados Unidos. solo sumo de energía. No. el 45%. que por sí preguntó: “¿Cuál de los siguientes beneficios se sola genera más de 7 terabytes (TB) diariamente. los termómetros. demostrados en la encuesta realizada los 35 zettabytes (ZB) en el 2020. gran variedad de fuentes. “proyecta que para el 2018.y tasa de crecimiento del mercado general de tecnologías una de las justificaciones es que los datos provienen de de la información y comunicaciones” [12]. Call Center.). 38 . 10 TB de datos cada día. se generan desde páginas web. pues las empresas un ejemplo [14] es el convertir 350 mil millones de u organizaciones carecen de personas capacitadas en lecturas de los medidores por año para predecir el con- Big Data. 24. Las redes sociales por TDWI (The Data Warehousing Institute). existen muchas formas grandes cambios en el servidor.400 millones de dólares en 2017. incomprensible. redes sociales. y de produciría si la organización implementa alguna Facebook. foros. durante cierto tiempo. por bases de datos del futuro”. las empresas están inundadas de datos datos en el mundo está aumentando a un ritmo casi [13]. analizar 500 millones de registros de lla- madas al día en tiempo real para predecir la pérdida Según el estudio de Worldwide Big DataTechnology de clientes. archivos de búsquedas. En el Existen algunos beneficios del análisis de Big Data año 2000 se generaron 800. eso indica que el volumen de año. estos últimos son los que de la información en la mayoría de las empresas” [11].000 petabytes (PB). “La tecnología y servicios de Big Data crecerá con una tasa anual de C. El 61% respondió generan terabytes de datos cada hora de cada día del que influye de manera social. los datos generados por Existen tres características o dimensiones: Volumen. Enero-Abril 2015. cuando también generan datos. datos B. de para las organizaciones.identificación por radiofrecuencia) 1) Volumen: Cada día. en [11]. las empresas registran un au. rastros de clics. tales como la Web. Además. es el caso de Twitter. RSS). se necesitarán entre 140 mil y 3) Velocidad: Se refiere a la velocidad con que se 190 mil nuevos expertos en métodos estadísticos crean los datos. que construyó las bases de datos del pasado no son necesariamente las personas que van a construir las Las tres características tienen coherencia entre sí.Conociendo Big Data un terabyte de datos. entre otros). es el caso de datos estruc- almacenamiento y la arquitectura de administración turados y no estructurados. archivos de búsquedas. petabytes y exabytes). pues de acuerdo con éste y con grandes volúmenes de datos. correos Señala Williams de Catalina. el 37% se inclinó por las decisiones automatizadas en los procesos en tiempo real. [15]. unas seis veces la El Big Data crece diariamente. Ing. es decir. bases de datos. 2) Variedad: Se puede mencionar que va muy de la Señala Beyer de Gartner y otros expertos que: “los mano con el volumen. tal como se observó en el área datos almacenados y se espera que esta cifra alcance de marketing. que habrá más puntos de vista de negocio. requieren el desarrollo de la tecnología. creados por personas y máquinas. McKinsey dice que es necesario prepararse de sensores en diferentes actividades de las personas. mento significativo de sus datos (terabytes. las RFID (Radio Frequency Identification . redes sociales. que es la medida en que aumentan los y tecnologías de análisis de datos. para contratar o reciclar personal. Algunas empresas forma de análisis de Big Data?”. que “La gente electrónicos. datos semiestructurados (XML.

diario. lo que III. 38 67 . Hadoop es ahora una de de análisis de Big Data (33%). Para el manejo de datos no distribuido. Lucene. es decir.  Hadoop está argumento empresarial convincente (28%). que se entendería A. el de máquinas. 4%.0”. 5%. es decir. Lo anterior fue el resultado de 96 entrevistados [16]. El análisis de datos se realiza con tecnologías de bases • Es robusto. Nutch es un proyecto más ambicioso que Apache Lucene. semanal. en comparación con otras de su clase. se encontraron ciertos de código abierto para aplicaciones intensivas de datos inconvenientes del análisis del Big Data. el 15%. es aquí donde aparecen nuevas Hadoop tiene sus inicios como un subproyecto de técnicas y tecnologías. 24%. por ejemplo. cantidades de datos con una variedad de clases.Luis Joyanes-Aguilar planificación y la previsión. Vol. lo que se busca es diseñar un motor de búsqueda para la web. permite agregar más nodos con software. por lo que permite a los usuarios Masivo (MPP). bibliográfica. y el 27%. permite realizar búsquedas dentro de documentos. estructurados o semiestructurados es necesario acudir a otras tecnologías. datos a través de grupos de ordenadores que utilizan modelos sencillos de programación. Ing. • Tiene la ventaja de poder ser escalable. Según [20]. tanto el hardware como el redes sociales. entre ellos: la distribuidos originalmente creado por Doug Cutting falta de personal y de habilidades del recurso humano para apoyar su trabajo en Nutch. la falta de los datos estructurados.Jonathan Felipe Camargo-Ortega . entre otros [16]. Apache Hadoop el comportamiento del consumidor [16]. las del hardware puede superar tales situaciones sin cuales soportan el procesamiento del Big Data. rapidez en las Según [19]. mayor inconveniente. con el Tiene algunas características importantes: fin de descubrir información que sea relevante y útil para la empresa. el 14%.“Apache Hadoop es un marco de software Según la misma encuesta. “es una biblioteca de software que permite consultas (22%) y dificultad para cargar los datos lo el procesamiento distribuido de grandes conjuntos de suficientemente rápido (21%). Está diseñado Ante la pregunta sobre cada cuánto realizan análisis de para pasar de los servidores individuales a miles Big Data. el cual permite escribir y ejecutar aplicaciones El objetivo del análisis de datos es examinar grandes distribuidas que procesan grandes cantidades de datos. Hadoop es un framework de código abierto. almacenamiento”. problemas con el Big las tecnologías más populares para el almacenamiento Data utilizable para los usuarios finales (22%). la carencia disponible bajo la licencia Apache 2. Enero-Abril 2015. Para el manejo de datos es necesario tener dos ante la forma vertiginosa como crecen las componentes básicos. Tecnologías de big data indica que permite crecer o agregar nodos al clúster con relativa facilidad. que era a su vez un subproyecto de Apache diseñado para el manejo de información estructurada. cada oferta local de computación y 35%. en tiempo real. respecto al primero. que ayudan de forma rápida a escribir código con eficiencia. se halló que anualmente. Hadoop y MapReduce. la dificultad en la arquitectura de un sistema abierto motor de búsqueda. Nutch. cada pocas horas. semi-estructurados y no de patrocinio empresarial (38%) y la deficiencia de un estructurados que forman Big Data. pues ante un mal funcionamiento de datos como NoSQL. 4%. clúster robustos. problemas de escalabilidad de Big Data (23%). como MapReduce o Hadoop. Juan José Camargo-Vega . el cual Revista Facultad de Ingeniería (Fac. cada hora. de análisis de bases de datos (32%). es una indexación de texto y de búsqueda no estructurada o semiestructurada. de manera que le permita tomar las • Fue diseñado para ejecutarse en grupos mejores decisiones y obtener ventajas competitivas en relativamente grandes de hardware.). tales como arquitecturas de Procesamiento Paralelo • Es simple. para software su procesamiento. 24. Según [18]. una Web de código (46%). No. mensual. se tienen tecnologías facilidad.

adicionales necesarios. como documentos de • Capacidad para ser ejecutado en una máquina. representan los esclavos de la arquitectura HDFS. brinda la archivos de los usuarios. Ing. en lugar de uso interactivo por basado en hilados para el procesamiento paralelo de los usuarios. archivos de registro. El nodo principal es el servidor maestro. aplicaciones que puedan procesar grandes cantidades pacidad de descomponer los archivos en varias partes de datos de forma paralela. y realizar la replicación apariencia de estar trabajando en un solo archivo. pero realmente se diseñó para resolver grandes conjuntos de datos”. Hadoop MapReduce dos problemas importantes que se presentan en el pro. cerrar. realizar el procesamiento de datos distribuidos. Hadoop es un framework usado para gestionar las operaciones de abrir. que se pueda presentar sin afectar demasiado el proce- una base de datos de link-gráfica y otros componentes so [20.Conociendo Big Data contiene analizador para HTML. dedicado casi cualquier cosa que se pueda imaginar. como su nombre File System (HDFS). imágenes y archivos XML. archivos de audio. el nodo maestro se encarga de Según [20]. Cuando se creó HDFS se propusieron tres objetivos Hoy en día. La arquitectura de HDFS está compuesta por un “Hadoop puede manejar todos los tipos de datos de nodo principal (NameNode) y varios nodos esclavos sistemas dispares: estructurado. los (DataNodes). mover. en uno solo. MapReduce está compuesto de un maes- como de forma general del software. tanto en el nivel de procesamiento de archivos que exista. pues fue diseñado para información no estructurada o semiestructurada. lo que por cada nodo.21]. un rastreador web. de manera distribuida en diferente hardware fallos. las comunicaciones…. Además. donde los datos gigabytes (GB) hasta petabytes (PB). archivos de correo electrónico. Hadoop muestra ventajas significativas [21]: frente a bases de datos SQL (Structured Query Language). texto. y controlar el acceso de los diferentes archivos de usuarios. no estructurado. Cuando los datos entran para ser procesados se divi- y al final consolidar todas las divisiones del archivo den de manera independiente. sin importar a gestionar el espacio del nombre de los archivos su formato nativo” [21]. residen en tablas relacionales que tienen una estructura • Poder leer datos a grandes velocidades. Hadoop está compuesto por dos módulos [19]: Hadoop Distributed Los nodos esclavos (DataNodes). y procesar cada una independientemente de las demás. el segundo problema era la tolerancia a es decir. para su procesamiento. que se presentan como un diseño para el • Permitir procesar archivos con tamaños de manejo de información estructurada. Vol. imágenes. 24.“Es un sistema cesamiento por lotes. escribir y ejecutar aplicaciones distribuidas que permite nombrar y renombrar archivos y directorios. Lam menciona [20] que HDFS se diseñó para el pro. 38 . procesar grandes cantidades de datos. esto se debe a que cada nodo esclavo puede archivos altamente tolerante a fallos. En un HDFS pueden existir miles de nodos 1) Hadoop Distributed File System (HDFS: Sistema esclavos y decenas de miles de clientes HDFS por de archivos distribuido Hadoop): Es un sistema de clúster. 2) Hadoop MapReduce: Según [19]. lo cual no es tan fácil en gestionar tanto la lectura como la escritura de los otros tipos de sistemas de archivos. varias máquinas para su procesamiento. y HadoopMapReduce. llamado JobTracker. al momento de tro. es un marco de software creado con el fin de hacer cesamiento de datos a gran escala: el primero es la ca. en un mismo hardware.). Enero-Abril 2015. lo indica. TaskTracker. escalable y con ejecutar múltiples tareas de aplicaciones de forma una arquitectura distribuida. además. No. puede llegar a almacenar simultánea. pero de acuerdo a como lo indique el nodo maestro realmente lo que se tiene es que están distribuidos en (NameNode) [21]. y un esclavo. El primero se encarga de programar las se busca es que el sistema pueda recuperarse de la falla 68 Revista Facultad de Ingeniería (Fac. sin solicitar hardware especial. definida. La función del nodo esclavo es la de 100 TB en un solo archivo.

DynamoDB DynamoDB fue desarrollada y probada de En 1998 aparece el término NoSQL. Los datos son almacenados en unidades de estado Las NoSQL no presentan el modelo de las bases de sólido SSD (Solid State Drive). estas no tienen esquemas. Apellidos: Ríos. MapReduce Nacionalidad: colombiana. Se puede decir que después de con modelo relacional. para que 3 Nombre: Petra. Nacionalidad: italiana se pudiera realizar procesamiento de datos de gran tamaño. además. Las bases de datos NoSQL permiten Proyecto iniciado por Facebook. su labor usan la memoria principal del computador. operaciones map () y reduce (). de la misma forma. NoSQL: IV. 24. hoy en día es usada en la red social Twitter. no usan mayor velocidad a la hora de encontrar la información. Revista Facultad de Ingeniería (Fac. 24. Ruby. Bases de datos NoSQL A. Ejemplo de Base de Datos NoSQL MapReduce es usado en soluciones donde se pueda Clave-Valor procesar de forma paralela y. no almacenan pues estas unidades funcionan de manera diferente a datos en tablas de filas y columnas de manera unifor. A programación. Edad: 30 se diseñó como un modelo de programación. para el uso de SSD se tiene un excelente rendimiento. Con me. con las características distribuida. con volúmenes Clave Valor de petabytes. y. la implementación de Cassandra. Ing. guarda muy fácil y solo SQL. su mayor fiabilidad y un alto grado de seguridad de los objetivo es gestionar grandes volúmenes de informa. que significa no manera interna en Amazon. las cuales permiten datos relacionales. Juan José Camargo-Vega . los datos se hallan distribuidos en varias máqui- nas [21. las cuales se definen en función de datos estructurados [19]. un modelo de programación para el procesamiento tales como: almacenamiento Clave-Valor. No. ción. 38 69 . Vol. Apellidos: Gutiérrez Castro. datos.). para denominar su base de datos que no ofrecía SQL. para que resolviera el Existen varias clases de bases de datos NoSQL.Jonathan Felipe Camargo-Ortega . y éste Tabla 1 ejecuta las tareas según las indicaciones del maestro. problema existente de escalabilidad. es decir. es del tipo código obtener los datos con mayor velocidad que en otras abierto (Open Source). los componentes que manejan el esclavo. presentan escalabilidad de forma horizontal. and C++ continuación se presentan algunas Bases de Datos [22]. SQL. El nombre fue creado por Carlo Strozzi. Otra condición es que se puede usar española MapReduce en procesos que se puedan disgregar en 2 Nombre: María. con grandes cantidades de información. como Java. económicamente cualquier cantidad de información. Nacionalidad: adecuada. tampoco permiten joins (unión). y almacena los datos en forma de clave- mencionadas anteriormente. Enero-Abril 2015. Puede ser ejecutado en varios lenguajes de a columnas y las orientadas a documentos. de lo contrario no sería una solución 1 Nombre: Julio.Luis Joyanes-Aguilar tareas. 25]. MapReduce “es dependiendo de su forma de almacenar los datos. es B. como lo hace el disco duro del computador [40]. Python. valor. Cassandra decir. fue desarrollada en java. las redes sociales se En la Tabla 1 se presenta un ejemplo de una clase dispararon en popularidad [41]. Es una base de datos de bases de datos NoSQL. además. orientadas de datos”. Las bases de datos NoSQL tienen como carac- terística principal que su estructura es distribuida.

que es un formato para el intercambio de datos. En el 2011 se hace de tipo distribuido. lo que significa que cada nodo es de igual forma. con el fin de F. y. en un MacBook o en un datacenter. donde cada nodo es independiente lo que indica que puede eliminar errores y sus efectos de los demás. El sistema divide la información en columnas. 38 . Utiliza JSON datos.1. que al momento de escribir celular. semiestructurados y estructurados. permite con cierta facilidad la expansión antes de que ocurra una falla. también. sin necesidad de reequilibrar todos los maximizar la fiabilidad del sistema. nodos o servidores. Ing. por eso. 27]. lo que quiere valor. del mismo propietario Google. además. CouchDB eficiente. es de ambiente distribuido. Enero-Abril 2015. lo que indica que su rendimiento. Vol. Google BigTable de trabajar en la Web. uso de JavaScript. está diseñada para usuarios sin que se note algún tipo de degradación en ejecutarse en un clúster de equipos. sino que la base de datos está Maneja dos servidores diferentes: uno llamado Master. Además. usado cuando los datos donde almacena los datos. medida en las peticiones de muchos BigTable fue creado por Google en el año 2004. de JavaScript). y para almacenarla utiliza tablas multidimensionales CouchDB es el acrónimo en inglés de Clusterof compuestas por celdas [25]. de fallo.Conociendo Big Data Otras características importantes de Cassandra es que los datos lo hace a su manera. Voldemort Voldemort fue creada por LinkedIn. Trabaja con los tres tipos de datos: idéntico. y. que es para el intercambio de datos. y al leerlos funciona es descentralizada.Notación de Objetos Apache 2. que no existe ningún punto único no estructurados. no puede trabajar en un solo servidor. En la medida que puede reemplazar nodos que fallen en el clúster que se aumenten más servidores. que a su vez trabajan que se encarga de guardar la dirección donde se alojan como objetos. por lo que necesitaban que fuese altamente G. también almacena y recupera los datos de decir que se pueden almacenar datos pequeños en un forma aleatoria. debido a lo anterior. El sistema de archivos UnreliableCommodity Hardware. C. además. 30]. los datos se replican automáticamente en los diferentes presenta la característica de que es tolerante a fallos. E. es muy usado funciona en cualquier plataforma. datos documental. que es escalable. es decir. Se desarrolló con el objetivo de almacenar información en considera que CouchDB es un servidor de base de sistemas de archivos distribuidos con cierta velocidad. con usuarios simultáneamente [28. es decir. HBase CouchDB presenta una característica importante: se puede instalar desde un datacenter hasta un HBase es una base de datos de tipo código abierto Smartphone. inconvenientes en ese sentido. y otro llamado Chunk Server. Riak solucionar los problemas de escalabilidad que tenían las bases de datos relacionales. lo cual indica que los datos no los Puede almacenar hasta tres copias de la información. 29]. GFS no son de gran volumen. compuesta por documentos. El código fuente está disponible bajo la licencia (JavaScript Object Notation . la idea inicial de que fuera distribuido para varias máquinas. por empresas como Yahoo y Google [28. como también grandes volúmenes de datos en 70 Revista Facultad de Ingeniería (Fac. es decir. para las consultas hace depende de un sistema operativo específico. y que es tolerante a fallos. almacena en tablas. Para terminar. HBase no presenta sin perder tiempo. Hace uso de JSON. HBase no puede atender un número mayor de solicitudes de los permite consultas SQL y. (Open Source).). No. almacena los datos de forma clave. 24. que es un formato los archivos. es decir. en forma de clave-valor y es de ambiente distribuido. buscando de esta manera del clúster. y se puede ejecutar en un celular Android. y se el lanzamiento al público de la versión 1.1.0 [42]. fue creado en usado por BigTable es GFS (Google File System) es el año 2005. en la familia de bases de datos de su especie. que el software siempre y cuando no sean tan grandes. los datos los almacena Riak es una base de datos que almacena la información en forma de clave-valor. por Damien Katz. Riak tiene mayor ventaja a la hora D. cuando uno de ellos presenta algún tipo de inconveniente se puede sustituir por otro sin mayor problema [26.

pequeños volúmenes de datos. Es una base de datos de tipo documental. datos. pero utiliza Estos datos no tienen un formato definido. Aislamiento ejemplo. pues tienen una estructura bien versatilidad. que pueden no tener un esquema en particular. y distribuir datos. primero crea un índice con todos los nombres de JSON y formatos binarios. que no tiene concepto de tablas. 32. 38 71 . se crea Los datos se clasifican en estructurados. es decir. permitiendo realizar lecturas y escrituras de datos de manera simultánea. Soporta grandes documentos en XML. archivos). MongoDB permite las operaciones CRUD. cadena de caracteres y registros) y dinámicos (listas.Jonathan Felipe Camargo-Ortega . al igual especificada [31. Un dato de estos se lee con un conjunto de reglas BSON es más eficiente y rápida para convertir a un de cierto nivel de complejidad [36]. Vol. MM. Un array es una colección finita que en su capacidad para manejar tanto grandes como de elementos en formatos definidos del mismo tipo. Update and Delete B. También es muy flexible para estructurar característica importante que permite escalar y. Otra característica importante es la que es de alto rendimiento. ejemplo de ellos. 31]. Modelo de datos maneja CouchDB es que cada vez que un documento se almacena nunca se sobrescribe el original. además. árboles. que es el acrónimo de Create. 24. el cual tienen son etiquetas que facilitan separar un dato de ocupa menos espacio al almacenar los datos. su potencia y su facilidad de uso. no uno nuevo con las modificaciones sucedidas de los estructurados y semiestructurados. Una desventaja consiste en que no permite consultas ACID (acrónimo de Atomicity. otro. Isolation dinámicas. La importancia de MongoDBradica en su facilidad para acceder. bajo la filosofía de código que los datos estructurados son aquellos de mayor abierto. Es una base de datos es decir. MongoDB se desarrolló en C++ [28. No. Datos semiestructurados (Crear. Juan José Camargo-Vega . es el caso del ejemplo que se I. Otra característica de MongoDB es que realiza Los datos semiestructurados presentan las siguientes consultas dinámicas. MongoDB es una base de datos con el perfil NoSQL pilas. que es el acrónimo de Atomicity. Actualizar y Borrar). que puede ser Aislamiento y Durabilidad. • Son datos irregulares. fecha DD. MongoDB Este tipo de datos se dividen en estáticos (array. formato con la dirección de la persona. la cual permite almacenar. SQL. bajo Java y XQuery [35].). AA. lo que BSON. para buscar un libro por el nombre de autor. esquemas. con tamaño de 40 caracteres. Se puede definir orientada a documentos. Además. por and Durability-Atomicidad. que es una forma binaria de JSON. y Durabilidad). 3. puede realizar consultas características [23]: sin demasiada planificación. No cumple con las características datos. o un Isolation and Durability (Atomicidad. un campo que contiene una ACID. recuperar y gestionar datos de documentos. Cumple con el estándar. Read. para almacenar y recuperar los datos hace uso de JSON. A. Consistency. pues las realiza de manera estática. en español). BaseX presenta en las Tablas 2. colas. lo anterior indica que CouchDB guarda una copia de seguridad de los documentos viejos [28. Su arquitectura es cliente/ facilidad con la que permite hacer replicaciones. formato de datos de un lenguaje de programación. 34]. y 4. Ing. Consistencia. tiene como Revista Facultad de Ingeniería (Fac. Enero-Abril 2015. alfanumérico.Luis Joyanes-Aguilar un servidor. Una ventaja desde el punto de vista de seguridad que V. con estos formatos se facilita la administración de los columnas o filas. y ordenados por un índice. BaseX está desarrollado autores para todos los documentos. Datos estructurados H. Obtener. Consistency. Consistencia. que contiene seis caracteres. 33. es de la clase de bases de datos NoSQL. son homogéneos. servidor. 36].

Vol. Tabla 5 Datos semiestructurados Nombre Teléfono Sexo Correo Martínez 2127409 pedroperez@gmail. No. seis.com Tabla 3 Datos semiestructurados Nombre Apellido Teléfono Correo Mario Rodríguez 0987526221 mario@gmail Tabla 4 Datos semiestructurados Primer apellido Segundo apellido Nombres Correo Teléfono Martínez Arévalo Julio aremar@gmail. Tabla 7 Datos semiestructurados Primer apellido Segundo apellido Nombres Correo Teléfono Martínez Arévalo Julio aremar@gmail. existente. 24. pueden cambiar de tipo (ver Tabla 7). y los dos registros dentro nuevos cuya estructura nada tiene que ver con la ya del mismo archivo de datos. Ing. 38 . y la segunda. se puede 72 Revista Facultad de Ingeniería (Fac. es el caso del ejemplo que se observa en las Tablas 5 y 6.com 24356712 • Otra característica de los datos observar las Tablas 7 y 8: la primera presenta cinco semiestructurados es que pueden aparecer datos campos.Conociendo Big Data Tabla 2 Datos semiestructurados Nombre Teléfono Sexo Correo Pedro Pérez 2127409 M pedroperez@gmail.com 24356712 • En este tipo de datos semiestructurados se pueden presentar datos incompletos. Enero-Abril 2015.com Tabla 6 Datos semiestructurados Nombre Apellido Teléfono Correo Mario Rodríguez 0987526221 mario@gmail • Los componentes de este tipo de datos. para seguir el ejemplo. es decir.).

A. no estructurada. que permite septiembre se graduó Julio en la universidad”. al observar cualquier que puedan describir otros datos. es decir. B. pues el primer motivo es la diferencia de tamaño en los campos de cada registro. debido a que que presta Google con el fin de almacenar y consultar no son un tipo de dato predefinido. ThinkUp se desarrolló bajo licencia GPL y su gran potencial es la extracción de datos. Por ejemplo. 24.Luis Joyanes-Aguilar Tabla 8 Datos semiestructurados Primer Segundo Primer Segundo Teléfono Correo apellido apellido nombre nombre Vargas Castro Néstor Julio 25678349 neva@gmail. Datos no estructurados hacer un análisis interactivo de enormes conjuntos de datos hasta miles de millones de filas. BigQuery “Google BigQuery es un servicio web que permite C. Enero-Abril 2015. 38 73 . esta Es de aclarar que los ejemplos anteriores. Como el análisis de datos en milisegundos [44]. o con base jerárquica de datos. imagen. en página web se puede visualizar tal situación.  un formato normalizado determinado. Escalable y Son aquellos que no pueden ser normalizados. puede almacenar un identificador definido. entre otros. de código abierto. Para la instalación es necesario de correo de voz. BigQuery es un servicio relacional. donde sería difícil realizar VI. 37].). los datos deben poder ser organizados. título. Infosphere Streams una página web. Web y archivos de video. ThinkUp Estos datos se pueden observar a diario en correos electrónicos. no fácil de usar. entre otros [31. su tipo o clase. en las Tablas 2 a 8. No. no como sucede con otras aplicaciones. ISBN y tema. editorial. Se puede tener el siguiente ejemplo: “Pedro nació el día 24 de noviembre de 1978. permite a los desarrolladores BigQuery y tienen tipos definidos ni están organizados bajo las empresas aprovechar los análisis de datos de gran algún patrón. es una aplicación En este caso de datos no estructurados. “ThinkUp es un potente motor de análisis algún procesador de palabra. una de datos que permite extraer información de Twitter. archivos de texto. no es tan fácil la administración de analiza y transforma datos en memoria y en tiempo este tipo de información. usar datos y esto se presenta en internet. buscados de alguna forma. hojas electrónicas. no tienen web gratuita. son parte de un archivo con datos semiestructurados. no tienen grandes datos no estructurados. mensajes instantáneos. real. es decir.com Algunas de las anteriores características se presentan Lo que sí se puede respecto a los datos no estructurados debido a que cada quien publica sus datos a su manera. no existe un formato o estructura definida para información datos de los libros como: autor. Lo anterior con el fin de hallar con facilidad un determinado libro. Ing. eliminados. es hacer uso de los metadatos. blogs. archivos de audio. es el caso de los datos contenidos en C. expuestos es la forma como los metadatos ayudan a buscar datos. un documento de Según [39]. un objeto. Streams se puede observar. presentar los datos. mensajes Facebook y Google+”.Jonathan Felipe Camargo-Ortega . Tecnologías de análisis de datos cualquier gestión o procesamiento con este tipo de datos. Vol. Juan José Camargo-Vega . es una biblioteca se tiene en fichas o en un sistema de decir. no se puede reconocer su actividades sociales en una base de datos con el control estado físico ni lógico. clasificados. contenidos un servidor con PHP y una base de datos en MySQL. tampoco son almacenados de manera alcance en la demanda” [38]. almacenados. tampoco se puede identificar de cada persona [43]. su tamaño no se puede encajar en una tabla predefinida. que Revista Facultad de Ingeniería (Fac. y el 20 de Es una plataforma desarrollada por IBM. Sin embargo.

cada servidor tiene dos CPU. permite realizar tareas 74 Revista Facultad de Ingeniería (Fac. Biginsights Infosphere procesamiento de grandes cantidades de datos en la Es una plataforma desarrollada por IBM para Hadoop. Ing. cada servidor tiene 64 GB de memoria. Infosphere Information Server Es un producto Microsoft. Enero-Abril 2015. Dichos datos se transforman en modelos estructurados para poder ser procesados y gestionados con facilidad. de manera que proporciona J. que se pueden llegar a combinar datos. la velocidad de ofreciendo una solución completa y fácil de lectura de datos promedia los 128 gigabytes por implementar para la organización de Big Data. de software como Office y SharePoint [24]. consultas son tres veces más rápidas que la versión es decir. Un Performance Analytic Appliance) es una herramienta Stream es una secuencia continua de elementos. Además. permite manejar altas tasas de hardware y software. la cual se compone para este caso son datos. los analistas de sistemas. que otras herramientas de análisis. permite de memoria. 47. está compuesto por un rack de 18 consultas simultáneamente. lo cual trae consigo buscando suplir las necesidades de las empresas [45. Vol. el análisis de datos tanto estructurados como no y cada uno con ocho núcleos. los datos se analizan directamente. Textalytics información a otras aplicaciones y a procesos de negocios. en tiempo real. 38 . I. terabytes en una hora [47]. ofrecer resultados con mayor prontitud. análisis de texto. System PureData H. HDinsight F. se puede decir que las servidores. 24. facilitando la mejor toma de los servicios a usuarios y público en general con ayuda decisiones. Otra forma es entre diez y veinte veces más veloz que los modelos facilitar la consulta de los datos almacenados. cuando de consultas se trata. es decir. memoria principal del servidor. es decir. permite realizar análisis de Big Data en menos tiempo que combina hardware con software optimizado.). extrae con facilidad significado de lo escrito en medios sociales y todo tipo de documentos. Textalytics.152 GB de capacidad total anterior de InfoSphereWarehouse software. fortaleciendo de esta forma inteligencia de negocios. Sap Hana los datos.). SystemPureData permite cargar cinco totalidad posee 288 núcleos el rack [50]. fue diseñado para manejar más de 1000 parte de hardware. lo cual se puede lograr facilitando el trabajo de con datos almacenados en el disco del servidor. Esta herramienta permite trabajar Negocios de Microsoft. Esta tecnología permite realizar D. producto gestionar datos estructurados y no estructurados de desarrollado por IBM. 49]. lo que sucede es una (Data Decisions and Language S. es decir. almacenan y por último analizan G. lo anterior debido a que para el procesamiento de datos usa tecnología in-memory [6]. Con Streams. comparados 53]. 45]. reduce costos de operación. el rack tiene 1. lo cual permite Sap Hana (System Applications Products High- obtener resultados más rápidamente [45. Es un software desarrollado por la empresa Oracle. al permitir fácilmente la relación entre los sistemas. lo cual trae consigo mayor agilidad en el Textalytics es un software desarrollado por Daedalus negocio de la empresa. ayuda en el almacenamiento de los datos.Conociendo Big Data primero gestionan. A. E. basado en Hadoop. No. tradicionales basados en disco [48. permite limpiar y transformar cualquier tamaño. permite Es una plataforma de integración de datos. 53]. que para el análisis de Big Data. En la segundo. sin volverlos programadores La tecnología in-memory promete un desempeño en una herramienta de difícil manejo. dedicado al transformación del negocio en la empresa [46. para luego entregar información confiable a la perfectamente con herramientas de Inteligencia de empresa o negocio. Oracle Big Data Appliance El sistema PureData es una herramienta de IBM. con gran velocidad de de transferencia de datos hasta millones de eventos o procesamiento de datos y en los tiempos de respuesta mensajes por segundo. que en su estructurados.

por no tener una Dentro del estado del arte se encuentran desde diversas herramienta tecnológica que permitiera procesarla. que. manejan por los usuarios.). es decir. corrección de estilo. ayudando de si al implementar la solución de un problema esta forma a los tomadores de decisiones. y hoy está funcionando. paso pide un análisis detallado con las personas que hoy laboran y entienden los procesos y los Se pudieron identificar las características más datos que la empresa maneja. con el gran volumen de datos o VIII. observar empresas desarrolladoras de software que presentan herramientas para enfrentar proyectos de • Entender el negocio y los datos. que inicialmente no se les dio la suficiente importancia. Vol. Juan José Camargo-Vega . se transforman en ramo productivo. 24. y la idea es que se mantenga en Las empresas que saben sacar provecho del Big Data mente la meta final del proyecto sin desanimarse pueden mejorar su estrategia y así permanecer en pronto. definiciones del término Big Data por parte de varios Con la tecnología de Big Data. en mente. pues hará uso de nuevos conocimientos. Conclusiones información que maneja a diario. además. pues acepta contenidos en español. Beneficios del Big Data para el análisis de datos aún pueden presentar problemas. gramatical. y porque no es tedioso. Este primer Big Data. Es así como se pudieron [52]. algunas en ambiente de la nube. esto se debe a que las dos También se pudo conocer una metodología para anteriores son recientes y pueden llegar a implementar un proyecto de Big Data. más ágiles y competitivas [17]. relación entre se puede solucionar realizando investigación e conceptos.Jonathan Felipe Camargo-Ortega . como se menciona en un proyecto de Big Data. de forma que presentar problemas al implementarlas. comercial o educativo. permite convertir datos definir metas alcanzables. Enero-Abril 2015. 38 75 . Dicha herramienta para tal labor es Hadoop. esto se puede lograr poco útiles en información estructurada. necesario trabajar en paralelo con el sistema que algunas en ambiente web y otras para escritorio. Se nota el esfuerzo que han realizado varias empresas desarrolladoras de • Al tratar de implementar un proyecto de Big software. desde los • El segundo paso consiste en determinar los diferentes formatos de datos que hoy existen o se problemas y cómo los datos pueden ayudar. corrección ortográfica. máxime cuando los métodos y herramientas que usan Big Data VII. esto porque el proceso es pesado inglés. Esto pueda servir de guía a quienes deseen sacarle un mayor Revista Facultad de Ingeniería (Fac. al servicio de los usuarios. y es que sinnúmero de herramientas tecnológicas para realizar cuando se inicia un proyecto de Big Data es análisis de datos. Ing. el mercado posicionadas. las empresas pueden investigadores hasta las tecnologías existentes para ofrecer mejores productos. Parte de la investigación arrojó que hoy existe un • Existe una recomendación especial. No. y se debe buscar otra solución. desarrollar excelentes iniciar un proyecto en una institución de cualquier relaciones con sus clientes. se mencionó anteriormente. Se estudiaron y analizaron las herramientas Es importante tener en cuenta algunos pasos para la tecnológicas que se pueden usar a la hora de desarrollar implementación de Big Data. como • Establecer expectativas razonables. éste no presenta alguna mejora.Luis Joyanes-Aguilar tales como extracción de conceptos. importantes en la gestión de Big Data. personas como a empresas en la toma de decisiones. • Es importante mantener el objetivo de Big Data es Multiidioma. entre otras funciones. con sus características. corrección inversión en este tipo de tecnología. hasta conocer las tecnologías Al momento de conocer los procesos es muy necesarias para convertir datos no estructurados en posible que se encuentren los problemas de la información y conocimiento que beneficie tanto a empresa o del negocio. la gran mayoría basadas en Hadoop. francés y otros idiomas [51]. Data se debe ser flexible con la metodología y las herramientas.

Oracle apuesta por Big Data Docente de Computación. com/video/Examining-HDFS-and-NameNode- [27] textalytics.net/que-es-big-data/. 2010. [6] Business Software. Hopkins.ve/~ruckhaus/materias/ci7453/clase3. Dimiduk.. c o m / a r t i c l e / 7 0 0 8 0 4 / B i g _ introduccion. Disponible en: http://www. Inc. [16] E.com/. 2010. Examining distribuido-no-relacional.ibm. Disponible en: https:// [12] computerworld.ibm. Wilson.p e q u e n a - w w w. C.com. Laboratorio [8] M.com/ [17] Emc. Deutsch.. oracle-apuesta-por-big-data-con-tecnologia-y- [24] Microsoft. Definitive Guide to MongoDB: The NoSQL [19] hadoop.org. platform. Inc. Eaton.com/inicio. 2013. Vol. Disponible en: http://lapastillaroja. Stamford.html. T. Data_Causes_Concern_and_Big_ [4] E. Server and Cloud Platform. SharePoint. 2012.enriquedans. [14] ibm.basho.com. LLC. [22] P. D. http://www. Big Data Causes Concern [3] E.com/ [21] Cloudera. 76 Revista Facultad de Ingeniería (Fac. topic-big-data/. [18] T.com/developerworks/ssa/local/ buscando mayor beneficio en estrategias empresariales. 2013.cloudera.asp. TDWI (The informacion-general-de-sharepoint-2013- Data Warehousing Institute).cio. Hawkins. P. thinkupapp. Hadoop in Action. www. [29] Basho Technologies. Big Data transforms Business. [26] N. [1] ZDNet.com/es-es/sharepoint/ [9] P. [15] es. 2012.(2012). c i o . Redmond. 2012. No. HDFS and NameNode in Hadoop architecture. Big Data Analytics. 2012.Conociendo Big Data usufructo a los datos y convertirlos en conocimiento. Cloudera. Disponible en: ldc. RFID. Published Apress Media LLC.apache. im/que-es-big-data/index.). El motor de análisis de texto in-Hadoop-architecture..es/sociedad-de-la-informacion/ [28] C.es/big-data/ pdf. Data. 2012.html.Disponible en: http://www-01. [20] Chuck Lam. 2011.wikipedia.u n a . 2012. Beyond the Hype of Big Manning Publications Co.wikipedia. textalytics. Seven Databases in Seven Weeks.d a t a . Salgado. 2011-2014. nosql-for-non-programmers/.com/microsites/ [2] thinkupapp. 1366B171EE72EDB474F/1?accountid=43790. IBM Big Data and analytics 2011.com. hadoop. Russom.com. computerworld. Disponible en: http:// Database for Cloud and Desktop Computing. Disponible en: http:// proyectos. versioncero. 2013. HBase in Action. Understanding Big Data. 2012. Disponible en: http:// Referencias es. and Big Confusion. 24.com. docs. 2013. ¿Qué es Big Data? Disponible en: que les sea útil a las empresas u organizaciones.2012.techtarget. & A. Inc.microsoft. DeRoos. Disponible en: http:// McGraw-Hill Books. Disponible en:http:// ebook/index. 2009. FX103789323. Enero-Abril 2015. Olavsrud. 38 . Disponible en: http://www.html. 2014.techtarget. 2010. Dans.zdnet. Disponible en: http://www. USA: Manning Publications Co. Lapis. CBS Interactive.net/2012/02/ [25] S. Montoro.ibm.htm#/slide-intro. Disponible en:http://www. Membrey & T.com/articulo/596/almacenamiento- [11] searchstorage. [13] -01.emc. Big Data. office. Disponible en: http://www. Montoro.usb.proquest. Disponible en: http://www.zdnet. más fácil de usar. 2013. http://www. 2012.com. 2011. 2011.es.com/view/885430073/ 32400-millones-de-dolares-en-2017. & J.com/riak/latest/. 2012. Disponible en: http://searchstorage.computerworld. Disponible en: http://www. USA: [7] Zdnet.Disponiblen: http:// el-mercado-del-big-data-crecera-hasta-los- search. 2013. Preimesberger. The Confusion?page=2&taxonomyId=3002. businessoftware. why-cloudera/hadoop-and-big-data.com/content/cloudera/en/ Data.What is “Big Pragmatic Programmers. caracteristicas-del-software-de-colaboracion- [10] S. Plugge. eWeek. New York. Disponible en: http:// con tecnología y proyectos.com. USA: O’Reilly Media.com.Disponible en:http:// c o m / 2 0 11 / 1 0 / b i g .org/.apache.com. [23] Universidad Simón Bolívar. 2013. 2014. Data?”.com/search?q=big+data.org. Disponible en: article/692724/Beyond_the_Hype_of_Big_ http://www. Khurana. &G. Ing. Publisher: [5] B. Zikopoulos.org/wiki/RFID. Disponible en: http:// com/software/data/bigdata.

Big Data: Análisis de grandes [45] project-voldemort. Disponible en: http:// [34] S. USA:O’Reilly public.Jonathan Felipe Camargo-Ortega . Parasuraman. ApacheHBase. un motor de Enterprise.cio.dhe.es/14878. com.. McGraw-Hill Companies. deRoos. debe seguir para confiar en Big Data.google.2012. Juan José Camargo-Vega .org/ [48] Mariño E. 2012.oracle. Inc. [43] The Apache Software Foundation. CouchDB and PHP Web [44] -03. 2005. 2011.ThinkUp. Disponible Development Beginner’s Guide. Disponible en: http:// Alfaomega. Joyanes. Ing. 2013. Disponible en: http://www. P. Somers. 2012. 2012. Analytics.com. pdf?ssSourceSiteId=ocomes. InfoSphere Streams. T. Disponible en: http://www-01.com. USA: O’Reilly Media. SAP In-Memory Computing. NY 10589.ibm. Amazon lanza DynamoDB. 2012. [33] K.PDF.com/voldemort/. USA: [51] StackpoleBeth. & Abai Majid. Disponible en: http://www. organizacion-debe-seguir-para-confiar-en-big- desarrollada-integramente-por-ellos.org/. Rodríguez.itelligence. Power of Big Data. &J. Giles. Disponible en: http://www. 2012. Inc. [49] itelligence AG.com/common/ssi/ecm/en/ Media. Oracle: Big Data for the [39] effectandaffect.. Voldemort is a distributed volúmenes de datos en organizaciones. Disponible en: http://hbase. White. Welcome [53] P. [38] Developers. 2013.Luis Joyanes-Aguilar [30] T. 2013. 2013.ibm. Editorial key-value storage system. 2012. Disponible en: http://www. Inc.apache. IBM InfoSphere Information www. Data Strategy. en/infosphere-streams.apache..com/ 2012.google.es/blog/thinkup-motor-analisis. [40] T. Dijcks. Moss Larissa T. D. análisis de datos. No. Disponible en: http:// Corporation. to Apache Cassandra. 2013. Google BigQuery. Revista Facultad de Ingeniería (Fac. Vol. en-tiempo-real. Disponible en: http://www. Media. América Latina. Carrasco.. 2014. Harness the cassandra. 2014. 38 77 .project-voldemort.com/2013/07/31/los-6-pasos-que-su- lanza-dynamodb-una-base-de-datos-nosql. USA: Elsevier.org/. data/.com/slideshow/51090/. [50] J.). Disponible en: http:// Deutsch.ibm. wad12351usen/WAD12351USEN. Applications &Workflows for Video and Media americaeconomia. 9 Open Source Big Data [46] IBM International Business Machines Technologies to Watch. O’Reilly. Birmingham – en: http://www-03.Disponible en:http://www. bigquery/. 2009. 2009.com/ php. 2011. Juravich. USA: Prentice Hall. edificación de una empresa que opera en [36] P. Business Software. datos/. Disponible en: https://developers.networkworld. 2013. una [52] F. Inc.. Chodorow. [35] BaseXTeam. Enero-Abril 2015. [47] IBM Corporation Software Group Route 100 Second Edition. D. In-Memory: products/download/all-downloads/.com. Karl. [41] T.mx/Articulo. software/data/integration/info_server/. cioal.es. [32] networkworld. Corrigan. memory-edificacion-de-una-empresa-que-opera- [37] Adelman Sid. 2011. Disponible en: http://www. Server. Moving Media Storage Technologies: tiempo real.aspx?id=13527. 2013. Zikopoulos.ibm.com/analisis-opinion/ Server Platforms. [31] L. Disponible en: http://basex. [42] The Apache Software Foundation. MongoDB and PHP. MongoDB: The Definitive Guide. 24. IBM PureData System for Operational 2013. www. com/technetwork/database/bigdata-appliance/ effectandaffect. K.genbetadev. Francia. Hadoop: The Definitive Guide. overview/wp-bigdatawithoracle-1453236. com/programacion-en-la-nube/amazon. Los 6 pasos que su organización base de datos NoSQL desarrollada internamente.com/software/products/ Mumbai: Packt Publishing Ltd.