EVIDENCIA AA1 - Big Data

DATA PIPELINE
UNIDAD DIDÁCTICA : Big Data para los Negocios
GRUPO : 7
INTEGRANTES:
● Cardenas Bautista , Jenifer Lizeth

● Gomez Benites , Alejandra Cecilia del Pilar
● Gonzales Fasabi , Glinda Veronica
● Ocupa Herrera , Keyla Paola
● Roque Limaylla, Darlyn Saskia
● Tafur Robles , Dominik Aldair
PROFESOR:
Wilmer Abdel Ponce de León Florindez

2022
ÍNDICE
1. Introducción…………………………………………………..……………….. …3
2. Marco Teórico….………………………………………………….…….………...4
2.1 Pasos de la metodología de procesamiento de datos……………………4
2.1.1 Recopilación de datos…………………………………..........……..4
2.1.2 Preparación de datos……………………………………………...…6
2.1.3 Procesamiento y limpieza de datos…………………….…………..7
2.1.4 Interpretación de datos ………………………………………………9
2.2. Herramientas o tecnologías analíticas de Big Data……….……………..10
3. Descripción de herramientas…………………………………….………………11
4. Usos de las herramientas de Big Data………………………….……..……….26
5. Comparación de las herramientas de Big Data ……………….……..……….29
6. Ventajas de las herramientas de Big Data……………………….……..……...34
7. Beneficios de las herramientas de Big Data………………………….….…….38
8. Conclusiones………………………………………………………………………42
9. Referencias bibliográficas …………………………………………………..…..44
2
1. INTRODUCCIÓN:
El Big Data juega un papel muy importante en la interpretación de información ya

que ayuda a las organizaciones a aprovechar sus datos quienes lo utilizan de
manera estratégica para fortalecer decisiones para direccionarse a nuevas
oportunidades.
El presente trabajo de investigación de "Data Pipeline" tiene como objetivo

desarrollar los pasos, fases en tecnologías del procesamiento de los datos en el
Big Data desde un enfoque de entendimiento e interpretación del negocio; además
profundizaremos en las herramientas PYTHON ,LENGUAJE R ,MONGODB y
ELASTICSEARCH como cuáles son sus beneficios, ventajas , qué empresas lo
emplean y cómo han ido mejorando a raíz de su programación,entre otras.
3
2. MARCO TEÓRICO:
2.1 PASOS DE LA METODOLOGÍA DE PROCESAMIENTO DE DATOS :
El procesamiento de datos se ejecuta por medio de uso de aplicaciones
creadas en un software traductor , que facilita los programas para realizar
operaciones principales para procesar los datos con el propósito de
simbolizar los mismos y hacer un esquema que pueda identificar las
entradas, procesos y salidas del procedimiento.
2.1.1 RECOPILACIÓN DE DATOS:
El objetivo de esta actividad es obtener información que establezca
resultados en determinado tema de estudio ya sea en ciencias sociales,
informática, económica , etc.
Los elementos implementados en esta proceso de la investigación son
sumamente importante debido a que deben aportar seguridad y confiabilidad
;para realizar una recopilación de datos utilizamos la siguientes técnicas:
● Las entrevistas: Es una de las principales herramientas para la
recolección de datos debido a su flexibilidad , el entrevistador deberá
contar con la precisión adecuada para garantizar que se
recolecte ,transcriban ,detallen y validen la información de manera
eficaz.
4
● Las encuestas: Abarca preguntas
específicas que se dirigen a un
porcentaje en particular de la población
que se desea estudiar y al igual que
las entrevistas busca obtener
respuestas que genere información de
calidad.
● Focus groups: Es un
método cualitativo de
recolección de datos que
permite explorar y estimular
diferentes puntos de vista,
gracias al encuentro de
diversas personalidades
que favorecen la expresión
y el debate de opiniones.
● Las observaciones:
Es una de las técnicas empleadas en las metodologías para la

recolección de datos cualitativos. En donde se observa el objeto que
será estudiado con el fin de que se determinen sus características.
5
Para ello, se deben analizar las particularidades de la situación por
medio de observación.
2.1.2 PREPARACIÓN DE DATOS
Es una actividad que consiste en limpiar y
consolidar los datos; transcribir información en
un medio electrónico tal como una
computadora u otro dispositivo electrónico
para realizar un análisis e impulsar el nivel
más profundo de análisis se debe implementar
las siguientes pasos :
● Adquisición de datos: consiste en adquirir muestras del mundo real
para luego ser transformado digitalmente, los datos los podemos
adquirir de
● Exploración de datos:Este paso nos ayudará a tomar mejores
decisiones debido a que nos permite tener una mejor
visualización ,evaluar la calidad de los datos e identificar determinados
patrones para tener una mejor comprensión del tema .
● Limpieza de datos: Durante este proceso analizaremos la calidad de
los datos en el cual se reorganizaran , se eliminarán los datos
redundantes y errores cometidos que se hallan identificamos durante
6
la exploración de datos .La limpieza de datos incluye los siguientes
elementos:
-Corrección de errores de entrada.
-Eliminación de duplicados o valores atípicos .
-Ocultación de información confidencial.
● Transformación de datos :Transformar los datos para garantizar que
se encuentren en un formato o una estructura que pueda responder a
las preguntas planteadas respecto a estos es un paso fundamental
para obtener resultados significativos. Esto variará en función del
software o el lenguaje que un analista utilice para realizar su análisis
de datos. (Preparación de datos , 2022)
2.1.3 PROCESAMIENTO Y LIMPIEZA DE DATOS
El procesamiento de datos es, "la acumulación y manipulación de elementos

de datos para producir información significativa." Es decir el proceso que se
sigue desde la recolección de datos, hasta la presentación de los mismos es
en forma resumida.
El procesamiento de datos puede involucrar diversas funciones, entre ellas:
● VALIDACIÓN : Asegurar que los datos suministrados son "limpios,

correctos y útiles".
● CLASIFICACIÓN : "Ordena elementos de cierta secuencia y / o en
diferentes conjuntos".
● RECAPITULACIÓN : Reducir los detalles de los datos a sus principales
puntos.
● AGREGACIÓN : Combinación de múltiples piezas de datos.
● ANÁLISIS: La "colección, organización, análisis, interpretación y
presentación de datos".
7
● INFORMACIÓN : Lista detallada o resumen de los datos de información
computarizada. (Procesamiento De Datos, n.d.)
ETAPAS:
● Recopilación de datos
● Preparación de datos
● Entrada de datos
● Procesamiento
● Interpretación de los datos
● Almacenamiento de datos
(Procesamiento De Datos: Definición, Elementos Y Procesos, n.d.)
Y respecto a la limpieza de datos es el proceso básico y necesario de corregir

o eliminar datos incorrectos, corruptos, formateados incorrectamente,
duplicados o incompletos dentro de un gran conjunto de datos, llamado big
data.
¿Y qué pasa si no se realizó una limpieza de datos? Es muy probable que el
proceso de análisis de la big data no sea claro ni preciso, ya que la
información en el conjunto de datos, está desorganizada y dispersa.
¿Cuáles son los beneficios?
● La limpieza de datos en la big data aplicada a los negocios, elimina los
principales errores e inconsistencias que aparecen cuando se incorporan
múltiples fuentes de datos en un solo conjunto de datos.
● El uso de herramientas para la limpieza de datos, hará que todos los
miembros de tu equipo sean más eficientes al momento de obtener
rápidamente los datos que realmente necesitan.
8
● Los métodos de limpieza de datos te brindan menos errores, y eso
significa, clientes más felices y trabajadores menos frustrados.
● Las diferentes funciones de la limpieza de datos te permiten comprender
mejor qué se pretende hacer con los datos y saber de dónde provienen.
● Una mejor toma de decisiones. Las etapas de limpieza de datos te
permiten mejorar la calidad de los datos.
● La utilización de la tecnología de limpieza de datos te otorga una mejor
eficiencia y productividad interna. Cuando la información se limpia
adecuadamente, revela información valiosa sobre las necesidades y los
procesos.
¿Cómo hacerlo en simples pasos?
1. Eliminar los datos duplicados o

irrelevantes.
2. Corregir los errores estructurales.
3. Filtrar valores atípicos no deseados.
4. Manejar los datos faltantes.
5. Validar y controlar la calidad (Mujica,
2021)
2.1.4 INTERPRETACIÓN DE DATOS:
Se realizará un proceso consistente en la inspección, limpieza y

transformación de datos de la actividad, mediante los cuales es posible
proceder a la revisión de los mismos con el fin de poder extraer información
de utilidad con el objetivo de alcanzar conclusiones concretas sobre las
diferentes herramientas.
Y tendremos que seguir el proceso de Análisis de datos, compuesto por las
siguientes fases:
1. Requisitos de datos
9
2. Obtención de datos: partiendo de las fuentes de datos y tipos de datos
(estructurados, no estructurados, etc.)
3. Procesado de datos: separación, agrupación, filtrado.
4. Limpieza de datos: eliminar duplicados, errores.
5. Análisis exploratorio de datos: tendencias, histogramas para detectar grupos,
gráficos
6. Modelado y algoritmos: datos estadísticos (medias, modas, desviaciones,
máximos, mínimos), regresión, pruebas-t y pruebas-z.
7. Producto de datos: aplicación a medida, documento Excel, PowerBI,
Reporting Services, informe QlikView, Periscope Data, etc.
8. Comunicación / visualización de datos: informes por audiencia (comerciales,
marketing, estrategia, dirección, técnicos, etc).
Por la que se procederá en el análisis e interpretación de la información y ahora

recopilados los datos, es porque:
● Dicha información permitirá la indagación en hipótesis
● Se adquirió información útil y utilizable
● Se tomaron decisiones las más informadas posibles.
(CAÑIZARES, n.d.)
Si tener buenas fuentes de datos empresariales es importante (ERP, bases de
datos, repositorios, documentación, etc.) también lo es realizar un buen análisis de
datos sabiendo qué respuestas queremos obtener.
Todas las empresas tienen fuentes de datos empresariales, pero no todas son
capaces de analizar todos esos datos para mejorar su negocio. Hoy en día, una
empresa que no haga una buena interpretación de datos está condenada a
desconocer su futuro o a tomar decisiones que permitan amortiguar una posible
caída en las ventas, la satisfacción de los clientes o los productos y servicios que
ofrece a sus clientes. (Rayo, 2016)
2.2. HERRAMIENTAS O TECNOLOGÍAS ANALÍTICAS DE BIG DATA
10
- Python
- MongoDB
- Lenguaje R
- Elasticsearch
3. DESCRIPCIÓN DE HERRAMIENTAS
1. PYTHON
Es un lenguaje de programación,
multiparadigma y multinivel, con soporte en
programación orientada a objetos, imperativa
y funcional. Con este tipo de lenguaje se
pueden crear aplicaciones nativas e híbridas,
y cuenta con una sintaxis accesible para las
personas con un nivel de 'alfabetización'
básico en lenguajes de programación. De acuerdo con una encuesta realizada por
los programadores que están dentro de la comunidad del portal web Stack Overflow,
el 73% de los desarrolladores considera que Python es el lenguaje más requerido
por encima de las alternativas que existen en el mercado actualmente.
Este es un lenguaje de programación de código

abierto, de propósitos generales y es gratuito,
por lo que no tendrás que pagar una licencia
para utilizarlo. Es interpretado, es decir que no
se compila, lo que implica un tiempo mayor de
ejecución frente a programas desarrollados con
lenguajes compilados. Sin embargo, algunos
especialistas aseguran que el problema de
velocidad no es una desventaja porque la franja
diferencial es mínima y los proyectos de desarrollo de software que se están
11
realizando en la actualidad se orientan a la nube, otorgándole gran capacidad de
cómputo distribuido a un menor costo.
Python es una tecnología imprescindible en

plataformas de entretenimiento y social media ,
destinado al
aprendizaje
automático y a
la construcción
de algoritmos de
recomendación,
por eso aplicaciones como Instagram, Pinterest,
Dropbox, Facebook, Spotify y Netflix tienen este
lenguaje en su desarrollo porque permite programar tareas con el objetivo de
procesar grandes cantidades datos y obtener información de valor.
Además, es posible abordar los siguientes tipos de proyectos con el lenguaje:
● Aplicaciones web.
● Ciencia de datos.
● Aprendizaje automático.
● Análisis y automatización de datos.
● Inteligencia artificial.
Características de Python :
1. Resulta un buen lenguaje para aquellos que deseen iniciarse en el mundo de
la programación, principalmente por sus múltiples campos de aplicación.
2. Frameworks y entornos integrados para el desarrollo ágil y eficiente de
aplicaciones web.
3. Uno de los lenguajes de programación más usados en el ámbito académico y
científico.
12
4. Es interpretado y no compilado, siendo el debugging (la depuración) más
veloz.
5. Puede utilizarse programación orientada a objetos, estructural o funcional.
6. Empaqueta el código fuente, lo que permite crear aplicaciones de gran
tamaño.
7. Brinda estructuras de datos dinámicas.
8. Cuenta con una implementación de recolección automática de basura para
una mejor gestión de memoria.
9. Se puede integrar con los lenguajes C, C ++, COM, ActiveX, CORBA y Java.
¿Dónde podemos encontrar Python? :
Al ser un lenguaje multiplataforma es posible desarrollar aplicaciones en diversos

sistemas operativos. La sencillez y potencia del lenguaje para gestionar
arquitecturas y tecnologías variadas, sumada a la eficacia en el tratamiento de
datos, hace que Python sea solicitado por empresas en todo el mundo. A
continuación especificaremos sus principales campos de aplicación:
1. Data Analytics y Big data :
Una de las razones por la que este lenguaje interpretado de alto nivel está
presente en esta área es porque tiene una codificación simple; es decir
implica menos líneas de códigos en comparación a otros lenguajes para
construir programas complejos. Al ser Python un modelo de código abierto
admite múltiples plataformas y con diversas librerías que lo convierten en un
lenguaje de programación famoso en áreas como la computación científica.
Estas librerías tienen paquetes que permiten simplificar tareas como:
computación numérica, análisis estadístico, visualización gráfica de
resultados y métricas, agrupación y cotejación de datos.
2. Data mining :
Es un proceso que se encarga de estructurar, analizar y formular cantidades
masivas de datos, con el objetivo de encontrar patrones, falencias y/o errores
a través de un algoritmo. Python juega un papel fundamental en esta área
13
porque es capaz de proveer mantenimiento y organización sobre los registros
procesados.
3. Inteligencia artificial (IA):
Los avances que hoy conocemos en IA pueden implementarse con Python

usando bibliotecas como Numpy, Scipy y Pybrain las cuales se utilizan en la
computación científica y el aprendizaje automático . Además, para el
desarrollo de IA se requiere optar por un enfoque flexible, escalable y
modular características fundamentales de este lenguaje de programación.
4. Data Science :
El Data Science se encarga de analizar, transformar datos y extraer

información para la toma de decisiones y el uso de Python ofrece la
posibilidad de realizar ciertas tareas sin la necesidad de contar con
conocimientos profundos de programación,simplificando el proceso de
visualización de los resultados obtenidos.
Para detallar más el trabajo de un Data Science, su desarrollo implica
completar cuatro importantes bloques:
● Extracción de datos.
● Procesamiento de los datos.
● Aplicación de algoritmos.
● Evaluación de resultados.
5. Blockchain:
Python brinda a los programadores la posibilidad de crear implementaciones

blockchain con menos de 50 líneas de código, lo que otorga sencillez para
operar con plataformas que emplean estas estructuras de datos. Como por
ejemplo:Es posible desarrollar un software que se puede usar para gastos
relacionados al rendimiento de la empresa.
El blockchain es una base de distribución donde se realizan transacciones
con criptomonedas u otro tipo de certificación digital.
14
6. Juegos y gráficos 3D :
Python no es solo para aplicaciones de propósito general, en este mundo

también entran los videojuegos y gráficos por computadora. Pygame, uno de
los framework más populares en Python, el cual permite el diseño de
prototipos rápidos y juegos sencillos. Ren'Py es un motor de videojuegos libre
que permite crear novelas visuales, títulos como Battlefield 2 , Mount & Blade
y The Sims 4, usan Python. ( No journaltitle-Jorurnalarticle . 2022 )
2. MONGODB
MongoDB (del inglés humongous, "enorme") es

un sistema de base de datos NoSQL orientado a
documentos de código abierto y escrito en C++,
que en lugar de guardar los datos en tablas lo
hace en estructuras de datos BSON (similar a JSON) con un esquema dinámico. Al
ser un proyecto de código abierto, sus binarios están disponibles para los sistemas
operativos Windows, GNU/Linux, OS X y Solaris y es usado en múltiples proyectos
o implementaciones en empresas como MTV Network, Craigslist, BCI o Foursquare.
La razón de esto es que MongoDB, al estar escrito en C++, cuenta con una más que
notoria capacidad para aprovechar los recursos de la máquina y, al estar licenciado
bajo una licencia GNU AGPL 3.0, es posible adaptarlo a nuestras necesidades.
Si no conoces MongoDB, al principio puede que te sientas un poco perdido. Al no

tener tablas ni nada que se parezca a SQL como referencia, tendremos que estudiar
un poco su filosofía y características para entender cómo manejar los datos. Aun
así, MongoDB es una seria candidata para almacenar los datos de nuestras
aplicaciones.
15
Características de MongoDB :
La principal característica a destacar de MongoDB, sin duda esta sería la velocidad,

que alcanza un balance perfecto entre rendimiento y funcionalidad gracias a su
sistema de consulta de contenidos. Pero sus características principales no se limitan
solo a esto, MongoDB cuenta, además, con otras que lo posicionan como el
preferido de muchos desarrolladores.
1. Consultas ad hoc :
Con MongoDb podemos realizar todo tipo de consultas. Podemos hacer

búsqueda por campos, consultas de rangos y expresiones regulares.
Además, estas consultas pueden devolver un campo específico del
documento, pero también puede ser una función JavaScript definida por el
usuario.
2. Indexación :
El concepto de índices en MongoDB es similar al empleado en bases de

datos relacionales, con la diferencia de que cualquier campo documentado
puede ser indexado y añadir múltiples índices secundarios.
3. Replicación :
16
Del mismo modo, la replicación es un proceso básico en la gestión de bases
de datos. MongoDB soporta el tipo de replicación primario-secundario. De
este modo, mientras podemos realizar consultas con el primario, el
secundario actúa como réplica de datos en solo lectura a modo copia de
seguridad con la particularidad de que los nodos secundarios tienen la
habilidad de poder elegir un nuevo primario en caso de que el primario actual
deje de responder.
4. Balanceo de carga :
Resulta muy interesante cómo MongoDB puede escalar la carga de trabajo.

MongoDB tiene la capacidad de ejecutarse de manera simultánea en
múltiples servidores, ofreciendo un balance de carga o servicio de replicación
de datos, de modo que podemos mantener el sistema funcionando en caso
de un fallo del hardware.
5. Almacenamiento de archivos :
Aprovechando la capacidad de MongoDB para el balanceo de carga y la

replicación de datos, Mongo puede ser utilizado también como un sistema de
archivos. Esta funcionalidad, llamada GridFS e incluida en la distribución
oficial, permite manipular archivos y contenido.
6. Ejecución de JavaScript del lado del servidor :
MongoDB tiene la capacidad de realizar consultas utilizando JavaScript,

haciendo que estas sean enviadas directamente a la base de datos para ser
ejecutadas.
¿ Cómo funciona MongoDB ?
17
MongoDB es una base de datos orientada a documentos. Esto quiere decir que en
lugar de guardar los datos en registros, guarda los datos en documentos. Estos
documentos son almacenados en BSON, que es una representación binaria de
JSON.
Esto representa una de las diferencias más importantes con respecto a las bases de
datos relacionales. Y resulta que no es necesario seguir un esquema. Los
documentos de una misma colección - concepto similar a una tabla de una base de
datos relacional -, pueden tener esquemas diferentes.
¿ Por qué usar MongoDB ?
MongoDB es un proyecto en constante evolución, por lo que cada versión ofrece

nuevas e interesantes mejoras. Como desarrollador, la principal razón para usar
MongoDB reside en su velocidad y su capacidad para añadir en una misma
colección registros con diferentes campos de manera mucho más flexible que una
base de datos basada en un modelo relacional.
Al estar escrito en C++ es multiplataforma e instalarlo en Ubuntu o Windows es

relativamente fácil. De hecho, cómo instalar MongoDB en Ubuntu es tan fácil como
correr la instrucción sudo apt install -y mongodb desde el terminal, por lo que no hay
excusa posible para no darle una oportunidad.
¿Cómo se instala MongoDB?
La instalación de una instancia del servidor es un juego de niños. Simplemente

tenemos que bajar los binarios para nuestro sistema operativo. Hay versiones par
Windows, Linux y MacOs. Una vez bajados podremos arrancar el servicio de
MongoDB con un solo comando .Con este comando arrancamos el servicio
mongod, que empezará a escuchar peticiones por el puerto 27017. Es importante
indicar el parámetro --dbpath, con la ruta dónde se almacenarán los ficheros de
nuestra base de datos. OpenWebinars.net. , 2019 - website
18
3. LENGUAJE R
Es un lenguaje de programación diseñado para

realizar análisis estadísticos y crear gráficos a partir
de datos, proporcionando un amplio abanico de
herramientas estadísticas (modelos lineales y no
lineales, tests estadísticos, análisis de series
temporales, algoritmos de clasificación y
agrupamiento, etc..) y gráficas.
Algunas de las ventajas de R son:
● Enorme potencial para el análisis de datos.
● Es software libre.
● Es multiplataforma.
El R es un lenguaje que se aplica en UNIX, Windows, MacOS, FreeBSD y Linux. No
ofrece simplemente una serie de herramientas que se aplican con un objetivo
específico en cada caso. Por el contrario, es un sistema planificado que resulta muy
funcional en el abordaje global de un análisis de datos. Además, este lenguaje se
19
destaca entre otras opciones parecidas por ejecutar las instrucciones que se le
solicitan directamente sin necesitar de una compilación previa. En consecuencia, te
permite ejecutar las tareas ganando eficiencia y tiempo. Uno de sus principales
inconvenientes es su curva de aprendizaje (algo lenta) pero, en parte, solventada
por las numerosas interfaces gráficas existentes y que permiten realizar las
operaciones más frecuentes mediante una serie de menús.
Características de R :
1. Extensible:
Los usuarios lo pueden extender definiendo sus propias funciones, aparte de

las de las numerosas bibliotecas preconstruidas que tiene. La mayor parte de
ellas están escritas en R, aunque para algoritmos computacionalmente
exigentes es posible desarrollarlas en C, C++ o Fortran. Como es un proyecto
colaborativo y abierto, los propios usuarios pueden publicar paquetes que
extienden su configuración básica.
2. Funcional :
Las funciones en R se pueden manipular igual que los vectores. Además

puedes asignar las funciones a variables, almacenarlas en listas, devolverlas
como resultados de otras funciones o incluso pasarlas como argumentos de
otras funciones.
3. Orientado a objetos:
Además de funcional, es orientado a objetos, una mezcla de ambos

paradigmas. En el segundo caso, R nos permite modelar conceptos del
mundo real relevantes a nuestro problema, representándolos como clases y
objetos que podemos hacer que interactúen entre sí.
20
4. Integrable :
Ofrece múltiples posibilidades para atacar a datos almacenados en distintos

tipos de bases de datos. También presenta múltiples bindings y paquetes que
permiten a R interactuar con otros lenguajes (como Perl, Ruby o Python) e
intercambiar objetos con ellos.
5. Gráficos avanzados:
Existen librerías para R que permiten generar una extensa variedad de

gráficos, desde la completísima ggplot2 hasta otras más simples pero
también potentes como corrplot.
6. Diferentes interfaces gráficos :
R se puede utilizar a través de línea de comandos, existen varios editores

gráficos muy interesantes capaces de correr en Windows, Linux y MacOS.
Destacamos especialmente R Studio y R Commander.
7. Interpretado y no compilado :
A diferencia de C, C++ ó Java, no tenemos que compilar nuestro código, sino

que el intérprete de R lo ejecuta directamente. Lo curioso de esto es que,
puesto que muchas de sus rutinas computacionalmente más exigentes están
escritas en C ó C++, muchas veces sin que nos demos cuenta, se estará
ejecutando código compilado en esos lenguajes.
8. Basado en memoria :
21
R mantiene todos los objetos que definimos en nuestro programa en la
memoria de nuestra máquina. Por ello, es importante entender cómo gestiona
la memoria, para poder optimizar nuestro código. Así evitamos, por ejemplo,
copias innecesarias de objetos que pueden ralentizar y hacer llegar a un
límite nuestra máquina.
Estos elementos hacen que el tratamiento de los datos y su almacenamiento

sea altamente efectivo. Además, puedes usarlo tanto en la computación
estadística como en la gráfica, gracias a la gran variedad de herramientas
con las que cuenta.
Uso de R en Big Data :
En el ámbito del Big Data se utiliza para la manipulación, procesamiento y

visualización gráfica de los datos. R nos permite:
● Establecer visualizaciones de datos de alta calidad.

● Crear dashboards para visualizar y analizar datos.
● Generar informes automáticos.
● Disponer de herramientas de análisis estadístico para ahondar en el
conocimiento de los datos.
Ecosistema de usuarios :
Una de las mayores virtudes de R es su ecosistema de usuarios y desarrolladores.

La comunidad de R se estima por encima de los dos millones de usuarios y, según
una encuesta de KDnuggets.com, sigue siendo el lenguaje más popular cuando se
trata de trabajar con Data Science, siendo usado por un 49% del total de
encuestados, aunque Python le sigue de cerca tras experimentar un incremento de
usuarios cercano al 51%. ( León, E. (2021, 16 de febrero).
22
4. ELASTICSEARCH
Elasticsearch es un motor de
analítica y análisis distribuido,
gratuito y abierto para todos los
tipos de datos, incluidos textuales,
numéricos, geoespaciales,
estructurados y no estructurados. Elasticsearch está desarrollado a partir de Apache
Lucene y fue presentado por primera vez en 2010 por Elasticsearch N.V. (ahora
conocido como Elastic). Conocido por sus API REST simples, naturaleza distribuida,
velocidad y escalabilidad, Elasticsearch es el componente principal del Elastic
Stack, un conjunto de herramientas gratuitas y abiertas para la ingesta, el
enriquecimiento, el almacenamiento, el análisis y la visualización de datos.
Comúnmente denominado el ELK Stack (por Elasticsearch, Logstash y Kibana), el
Elastic Stack ahora incluye una gran colección de agentes ligeros conocidos como
Beats para enviar los datos a Elasticsearch.
¿Para qué se usa Elasticsearch?
23
La velocidad y escalabilidad de Elasticsearch y su capacidad de indexar muchos
tipos de contenido significan que puede usarse para una variedad de casos de uso:
● Búsqueda de aplicaciones
● Búsqueda de sitio web
● Búsqueda Empresarial
● Logging y analíticas de log
● Métricas de infraestructura y monitoreo de contenedores
● Monitoreo de rendimiento de aplicaciones
● Análisis y visualización de datos geoespaciales
● Analítica de Seguridad
● Analítica de Negocios
¿Cómo funciona Elasticsearch?
Los datos sin procesar fluyen hacia Elasticsearch desde una variedad de fuentes,
incluidos logs, métricas de sistema y aplicaciones web. La ingesta de datos es el
proceso mediante el cual estos datos son procesados, normalizados y enriquecidos
antes de su indexación en Elasticsearch. Una vez indexados en Elasticsearch, los
usuarios pueden ejecutar consultas complejas sobre sus datos y usar agregaciones
para recuperar resúmenes complejos de sus datos. Desde Kibana, los usuarios
crean visualizaciones poderosas de sus datos, comparten dashboards y gestionan
el Elastic Stack.
¿Por qué usar Elasticsearch?
● Elasticsearch es rápido :
Elasticsearch también es una plataforma de búsqueda en casi tiempo real, lo

que implica que la latencia entre el momento en que se indexa un documento
hasta el momento en que se puede buscar en él es muy breve: típicamente,
un segundo. Como resultado, Elasticsearch está bien preparado para casos
24
de uso con restricciones de tiempo como analítica de seguridad y monitoreo
de infraestructura.
● Elasticsearch es distribuido por naturaleza :
Los documentos almacenados en Elasticsearch se distribuyen en distintos

contenedores conocidos como shards, que están duplicados para brindar
copias redundantes de los datos en caso de que falle el hardware. La
naturaleza distribuida de Elasticsearch le permite escalar horizontalmente a
cientos (o incluso miles) de servidores y gestionar petabytes de datos.
● Elasticsearch viene con un amplio conjunto de características :
Además de su velocidad, la escalabilidad y la resistencia, Elasticsearch tiene

una cantidad de características integradas poderosas que contribuyen a que
el almacenamiento y la búsqueda de datos sean incluso más eficientes, como
data rollup y gestión de ciclo de vida del índice.
● El Elastic Stack simplifica la ingesta de datos, la visualización y el

reporte :
La integración con Beats y Logstash facilita el proceso de datos antes de

indexarlos en Elasticsearch. Y Kibana provee visualización en tiempo real de
los datos de Elasticsearch así como UI para acceder rápidamente al
monitoreo de rendimiento de aplicaciones (APM), los logs y los datos de
métricas de infraestructura.
¿Qué lenguajes de programación soporta Elasticsearch?
25
Elasticsearch soporta una variedad de lenguajes y hay clientes oficiales para los
siguientes:
● Java
● JavaScript (Node.js)
● Go
● .NET (C#)
● PHP
● Perl
● Python
● Ruby
( Elástico. Recuperado el 12 de abril de 2022 )
4. USO DE LAS HERRAMIENTAS DE BIG DATA
ORGANIZACIONES QUE USAN ESTAS TECNOLOGÍAS
TESLA:
Compañía dedicada a la venta de vehículos

eléctricos, por cada automóvil vendido esta
compañía cuenta con sensores externos y
internos que se encargan de recopilar todo
tipo de información (del conductor, del auto y
de la ruta)
APPLE:
Emplea el Big Data para analizar las

conductas de compra de sus usuarios con
el fin de fidelizarlos y construir su identidad
26
de marca. plantean sus estrategias de venta y de construcción de
precios a partir de una idea de producto que conocen por el análisis de
datos que realizan habitualmente con los compradores.
AMAZON:
Se vale de herramientas del Big
Data para analizar y utilizar todo
lo que procede de los historiales
de búsqueda, de las compras,
reseñas, suscripciones y
muchos otros servicios que
ayudan a optimizar la cadena de suministro y los precios. (AMAZON,

2022)
COCA COLA:
La compañía de bebidas más grande del

mundo, el 33% de la población mundial
consume productos de coca cola en un día.
El análisis de datos lo aplica en áreas como
desarrollo de producto,Por ejemplo, el
lanzamiento del sabor “Cherry Sprite” en 2017
nació en los datos recolectados de las
máquinas dispensadoras de gaseosa que
permiten que los consumidores mezclen sus
propias bebidas. Así, Coca-Cola pudo
identificar la mezcla más popular y convertirla
en una bebida lista para ser consumida. (Puro
marketing, 2017)
NETFLIX:
27
Los analistas de datos de Netflix recolectan y analizan enormes cantidades de datos
relacionados al comportamiento del usuario:
Los géneros que busca, el número de capítulos
que ve seguidos, el tiempo que se demora
escogiendo algo que ver, etc.
Después del lanzamiento de su plataforma de

“online streaming” en 2007, les tomó 6 años
recolectar los datos necesarios para producir
su propia serie que tenía éxito asegurado:
House of cards. Para esto no solo tuvieron en
cuenta el comportamiento del consumidor sino
el movimiento de los sitios de películas
piratas. (DATACENTRIC, 2018)
STARBUCKS:
Esta compañía cafetera utiliza el Big Data para

determinar el éxito potencial de cada tienda nueva
que piensan abrir. Recogen información sobre la
ubicación, tráfico, área demográfica y
comportamientos del consumidor.
Starbucks puede hacer una estimación bastante

precisa de cuál será la tasa de éxito y elegir
ubicaciones en función de la inclinación al
crecimiento de los ingresos. (GRUPO BIT, 2018)
PEPSICO :
28
La plataforma de big data y análisis en la nube empleada por PepsiCo, Pep Worx,
ayuda a la empresa a aconsejar a las tiendas sobre qué productos comprar, dónde
colocarlos y qué promociones lanzar.
En preparación para el lanzamiento de Quaker Overnight Oats, PepsiCo fue capaz

de identificar 24 millones de hogares a los que dirigir su producto. Después,
identificaron los lugares de compra que esos hogares tenían más probabilidades de
usar y crearon promociones específicas para estas audiencias. Gracias a este uso
de los datos para centrarse en un mercado muy específico, consiguieron un 80% de
crecimiento de ventas del producto en los primeros 12 meses tras el lanzamiento.
(SANTIAGO SAAVEDRA, n.d.)
5. COMPARACIÓN DE LAS HERRAMIENTAS DE BIG DATA
COMPARACIÓN DE LAS HERRAMIENTAS
PYTHON MONGO DB LENGUAJE R ELASTICSEARCH
Lenguaje de Base de datos NoSQL Entorno de software libre Es un motor de analítica y

Programación orientada a documentos y lenguaje de análisis distribuido, gratuito
para análisis de datos. para aplicaciones programación y abierto para todos los
actuales. interpretado. tipos de datos.
Las funciones en Python MongoDB tiene la La mayor parte de la En el caso de que haya
se crean usando la capacidad de soportar funcionalidad de R algún problema,
palabra clave def, algunas funcionalidades proviene de sus paquetes Elasticsearch puede
seguida de un nombre geométricas por lo que contribuidos, y se pueden detectar si hay algún nodo
de función y parámetros es una buena opción instalar nuevos paquetes que está fallando. De esta
de función entre para gestionar datos usando install.packages y manera es capaz de
paréntesis (). Una geográficos sencillos. cargarlos usando library. reorganizar la información y
función siempre conseguir que los datos
devuelve un valor. estén siempre accesibles.
29
Es sencillo, ya que utiliza La intersección de índice En su forma más simple, Elasticsearch se organiza
una sintaxis más cercana permite a MongoDB R puede ser utilizado mediante nodos, los cuales
al inglés escrito para usar más de un índice como una calculadora. son alojados dentro de un
ejecutar los comandos. para optimizar una clúster. Permite añadir
consulta ad-hoc en nuevos nodos al cluster
tiempo de ejecución. para poder acometer
nuevas cargas.
Python proporciona MongoDB destaca en la RStudio es un entorno de Se puede utilizar para

muchas funciones gestión de datos desarrollo integrado (IDE) unificar un único sitio
integradas como print() y geoespaciales de gran para R. Incluye una dónde guardar, analizar y
len(), además permite volumen (big data) consola, edición y monitorizar toda la
definir tus propias ejecución directa de información de sistemas y
funciones para usar en código, así como aplicaciones. Dependiendo
proyectos. herramientas para del sistema se tendrá
gráficos, historial, información: el uso de la
depuración y gestión del CPU o memoria, los
espacio de trabajo. tiempos de respuesta, etc.
En MongoDB podemos Contiene varios tipos de Permite indexar grandes

En Python todo es de utilizar los tipos de datos datos, entre los básicos volúmenes de datos, para
tipo objeto. Los 4 tipos de de JSON (cadena de están, (Numeric, Integer, poder consultarlos
datos que encontramos texto, número, booleano, Character, Complex, posteriormente.
en Python y en general null, array y documento, Logical y factor), este Elasticsearch se basa en
en otros lenguajes de es decir un objeto JSON último no es un tipo de los documentos JSON
programación son: puede contener otro dato, pero los vectores de para poder realizar esta
Integer (Números documento JSON, sin caracteres a menudo se indexación. El proceso de
enteros); Float (Números límite de recursividad), almacenan como factores añadir información a
decimales); String más los que proporciona para explotar funciones Elasticsearch se llama
(Cadena de caracteres BSON (ObjectId, String, para tratar datos “indexación”, ya que
que especifican BinData, numericos, categóricos. cuando se inserta datos
mensajes a las personas Timestamp, UTC en Elasticsearch lo que
que visualizan la Datatime); además si se está haciendo es
información) y Boolean queremos guardar insertar en los índices de
(Tipo de dato que indica ficheros de más de 16 Apache Lucene.
dos valores: Verdadero o MB (documento BSON, o
Falso). videos por ejemplo)
necesitaremos utilizar
GridFS, que
básicamente lo que hace
es dividir los
documentos en trozos
iguales, y guardar cada
30
uno de estos trozos en
un documento.
En su conjunto de Para la creación de Elasticsearch permite

Para la creación de un funciones integradas, vectores se hace el uso acceder a los datos en
vector o vectores en están la visualización de la función c() que tiempo real. Para ello
Python, se utiliza la analítica y de datos, la significa ¨concatenar¨ o dispone el acceso a todas
función array() de la búsqueda de texto y ¨combinar¨, varios sus capacidades
biblioteca numpy. geoespacial, el elementos del mismo mediante un API
procesamiento de tipo. RESTful.
gráficos, las
canalizaciones de datos
de transmisión
controladas por eventos,
el rendimiento en
memoria y la replicación
global, que le permiten
ofrecer una amplia
variedad de aplicaciones
en tiempo real.
La estructura de datos Con MongoDB, las En particular, muchas Podemos utilizar a

más común en Python organizaciones pueden estructuras de datos Elasticsearch como
son las listas, las tablas y abordar diversas tienen elementos con gestor de los logs que
los diccionarios. Aunque necesidades de nombre a los que se generan los diferentes
tienen otro nombre, en aplicaciones, recursos de puede acceder utilizando sistemas en una
otros lugares, son los hardware y diseños de los operadores $ o @. compañía: bases de
arreglos o vectores, las implementación con una datos, sistemas
matrices y los arreglos sola tecnología de base operativos, servidores,…
indexados, de datos. así como las
respectivamente. aplicaciones.
Conjuntamente con la
suite ELK permitirá
realizar la recuperación
de estos datos y la
monitorización mediante
Kibana.
En Python se puede MongoDB proporciona Se puede importar Elasticsearch al basarse en

importar archivos desde controladores nativos para archivos (conjunto de modelos NoSQL, almacena
Excel, a través de la todos los lenguajes y datos) desde CSV, la información de forma
biblioteca Pandas, se usa marcos de programación SAS, SPSS y Excel, desnormalizada. Es por ello
la función populares para que el con el asistente de que no se permiten hacer
pandas.read_excel(), desarrollo sea natural. importación, en caso joins o subqueries.
también otra forma, es con Los controladores sean varios archivos
la función compatibles incluyen Java, se usa un
importlib.import_module() Javascript, .NET, Python, código.
se puede utilizar Perl, PHP, Scala y otros,
31
para importar archivos además de más de 30
dentro de nuestro código, controladores desarrollados
y la cláusula from se por la comunidad.
puede agregar a la
declaración import
convencional para
importar sólo un
subconjunto del archivo en
Python.
En Python la Data frame MongoDB almacena datos Las matrices y la Data Es una base de datos
es una estructura de datos en una representación Frames, ambos NoSQL orientada a
con dos dimensiones en la binaria llamada BSON representan tipos de documentos JSON, al estilo
cual se puede guardar (Binary JSON). La datos “rectangulares”, de MongoDB. Por lo cual
datos de distintos tipos codificación BSON extiende lo que significa que se no necesita que se definan
como (caracteres enteros, la popular representación usan para almacenar esquemas a la hora de
valores de punto flotante, JSON (JavaScript Object datos tabulares, con insertar los datos.
factores y más) en Notation) para incluir tipos filas y columnas.
columnas,. adicionales como int, long,
date, coma flotante y
decimal128.
Elasticsearch tiene su
Los documentos propio Query Domain
MongoDB BSON están Es posible leer datos en Specific Language (DSL)
En Python para leer datos estrechamente la forma .xls o .xlsx. mediante el cual permite
se utiliza la función print(), alineados con la Existen distintos paquetes realizar consultas mediante
y para leer números se estructura de los objetos que permiten hacerlo: JSON. De esta forma se
hace usando input(), int() y en el lenguaje de ● El paquete readxl puede buscar sobre
float(). programación. Esto contiene la función campos, aplicar filtros, y
hace que sea más read_excel. así poder construir
simple y rápido para los ● El paquete xlsx y consultas complejas. Se
desarrolladores. la función basa sobre las operaciones
read.xlsx. que define Lucene.
Python cuenta con MongoDB proporciona En R, se visualizan los Aunque el API que nos
funciones específicas, y propiedades ACID a datos, a través de ofrece es muy completo,
estas son algunas: Función nivel de documento. Se gráficas de todo tipo, Elasticsearch también
max(), Función min(), pueden escribir uno o entre ellos están, cuenta con librerías
Función divmod(), Función más campos en una Graficas base con f=plot integradas para diferentes
Hex(x), Función len(), sola operación, incluidas (Histogramas con f=hist; lenguajes de
Función Ord, Funciones las actualizaciones de diagrama de caja y bigote programación: Java, C#,
input() y Función chr, etc. múltiples con f=boxplot), librería Python, Javascript, PHP,
subdocumentos y ggplot2 con f=qplot Ruby, etc.
elementos de una (Argumento bins para
matriz. Cualquier error indicar el número de
32
hace que la operación clases del histograma;
retroceda para que los parámetro geom
clientes reciban una indica el tipo de gráfico;
vista coherente del diagrama de dispersión),
documento. y Ploty un paquete para
crear gráficos interactivos
con calidad de
publicación.
Python: (El Tutorial De Python — Documentación De Python - 3.10.4, n.d.)
MongoDB: (MongoDB Arquitectura Y Modelo De Datos, 2017)
Lenguaje R: (Wickham, n.d.)
Elasticsearch: (Cuervo, 2019)
6. VENTAJAS DE LAS HERRAMIENTAS DE BIG DATA
PYTHON:
Python está en el top 5 de los lenguajes más usados para programar y cada
vez aumenta más su demanda laboral. Por esto proporcionan a Python varias
ventajas competitivas, entre ellos destacan las siguientes ventajas:
Está desarrollado Este lenguaje de

bajo una licencia programación
de código abierto, permite una
por lo que es de diversidad de
libre uso y desarrollos de
distribución, manera fácil y
incluso para uso rápida.
Gratis y de
comercial. Lenguaje
código
de alto
abierto
nivel
VENTA
JAS
33
Comunida
Portabilida
popularidad, cuenta
multiplataforma
con una amplia
permite que este pueda
comunidad que
ser usado en diferentes
organiza eventos,
sistemas operativos,
conferencias y
como Linux,
colabora en materia de
Windows, UNIC, Mac
códigos e información.
OS, etc.
(Machado, 2020)
MONGO DB:
Esta herramienta, hasta la actualidad está entre las mejores herramientas

que desarrollan soluciones de datos a medida del tipo de negocio. Tanto se
trate de ampliar los límites de la experiencia del cliente como de crear
aplicaciones, MongoDB es la base de datos para cualquier sector. Por ello se
presentan las siguientes ventajas que lo hacen más competitivo.
Fácil de
Posee una instalar, usar y
documentación debido a la
buena, amplia y Gr
an capacidad de
detallada en do y
cum uso una base de
comparación con ent ci l
otras bases de a ció Fá nejo datos sin
n ma esquema, el
datos NoSQL.
VENTAJA código que
creamos define
S el esquema.
M
ie n rec enor
m
a o up tiem
era
Los datos se cen grad po Admite la
m ea fal ción de
almacenan en Al o int los ant
e
replicación34si el
formato JSON t servidor primario
binario, que es se cae durante la
un par clave- transacción, el
necesita secundario
complejidad de maneja la
combinaciones. transacción sin
interacción
humana.
(Ventajas De MongoDB | Guía Completa De Los Usos De MongoDB, n.d.)
LENGUAJE R:
Actualmente es una herramienta en constante crecimiento, siendo R una

potente herramienta para la manipulación, procesamiento y visualización de
objetos (datos). A continuación, se muestran las ventajas al hacer uso del
Lenguaje R.
VENTAJAS
Automatización y lectura de datos: El lenguaje de script que usa R

1 en lugar de una interfaz gráfica de usuario aporta mayor facilidad en
la automatización de tareas. También es capaz de leer prácticamente
cualquier tipo de datos (.txt, .dat, .cvs, etc).
Trabaja con grandes volúmenes de datos: R absorbe

2 grandes volúmenes de datos de fuentes como Hadoop.
Tratamiento de datos: R permite el tratamiento y manipulación

3 de datos con gran velocidad, por ello R es mucho más
resolutivo y eficaz en la preparación de datos.
35
Corrección de errores mucho más sencilla: R utiliza
secuencias de comandos, permitiendo comentarios y control de
4
acciones”. Esto agrega mayor facilidad de enmendar errores.
Inclusión de gráficos: R es también famoso por sus increíbles
5 paquetes de gráficos, gráficos tridimensionales, de tallo,

Boxplot, de puntos, circulares, histogramas, de dispersión, de
independencia, y otros.
(Arlés & Mallada, 2021)
ELASTICSEARCH:
Esta herramienta, es un motor de búsqueda que se basa en Lucene el cual nos

permite realizar búsquedas por una gran cantidad de datos de un texto específico.
Está escrito en Java y se basa sobre una licencia Apache; según lo indica (Cuervo,
2019). Por el cual, hasta el día de hoy Elasticsearch sigue ayudando a las personas
a explorar y analizar sus datos de forma diferente, usando el poder de la búsqueda.
A continuación, se presentan las siguientes ventajas que lo hacen destacar más.
VENTAJAS
Registro de datos Velocidad
Elasticsearch Elasticsearch puede

registra cualquier ejecutar consultas
cambio realizado en complejas rápidamente.
registros de También almacena casi
transacciones en todas las consultas
múltiples nodos en estructuradas
el clúster para comúnmente utilizadas
minimizar la como filtro para el
posibilidad de conjunto de resultados
Búsqueda de Orientado a
pérdida de datos. y las ejecuta solo una Escalabilidad
texto completo documentos
vez.
Los equipos de
Usar Elasticsearch Elasticsearch está
desarrollo de software
hace que orientado a 36 usar
prefieren
implementen una documentos.
Elasticsearch porque
gran cantidad de También almacena
es un sistema
funciones, tales documentos JSON
naturaleza y puede
personalizada de indexa todos los
escalar
texto en palabras, campos de forma
horizontalmente, lo
búsqueda predeterminada,
que permite extender
personalizada, etc. con un resultado de
los recursos y
rendimiento
equilibrar la carga
superior.
entre los nodos de un
clúster.
(Novoseltseva, 2020)
7. BENEFICIOS DE LAS HERRAMIENTAS DE BIG DATA
Es muy importante saber que tipo de lenguaje escoger según el proyecto que
se desea realizar. Un informe de IDC (International data corporation), indicó
“para el año 2025 habrá más de 175 zettabytes de datos circulando por la
nube”.
PYTHON:
Python para el big data, la forma más común de usar Python para el análisis
de datos es para crear y gestionar rápidamente varias estructuras de datos.
Por ejemplo, la biblioteca Panda ofrece una gran cantidad de herramientas
para analizar, manipular e incluso representar las estructuras de datos y
conjuntos de datos complejos.
Por otro lado, Scikit-Learn es perfecta para el análisis de los datos de redes
sociales o campañas de marketing. Con ella tendremos a disposición
herramientas avanzadas para hacer analíticas y darle sentido a esos datos.
Por ejemplo, para tomar decisiones según el éxito de las campañas o para
ver el tipo de usuarios que interactúa con tus redes.
37
Finalmente, con Python, tú mismo podrás escribir tus propios algoritmos para
el análisis de datos e integrarlos en tus herramientas.
● Código en constante evolución
● Su código es sencillo de entender
● Posee gran cantidad de bibliotecas
● Resulta muy fácil de aprender
● Con unas pocas líneas de código, puedes ejecutar programas sin más
complicaciones
● Comunidad de gran alcance, por lo que es fácil conseguir ayuda
● Para empezar es de mucha utilidad, ya que es un código abierto (osea
gratuito)
● Gran velocidad de procesamiento
● Simplificar las operaciones y hacer que sean mucho más rápidas
MONGODB:
El Big Data se busca la transformación de los datos en conocimiento útil para

una organización, pero para lograr esto es necesario contar con un motor de
base de datos que permita analizar, procesar y almacenar los datos
recogidos, las bases de datos estructuradas limitan el potencial de
almacenamiento de los datos por estar ligados a una estructura, MongoDB al
ser un motor de bases no estructuradas y estar pensado para trabajar en la
nube permite una escalabilidad mucho más fácil sin necesidad de estar
ligadas a una estructura.
● Ofrece mejores resultados en el momento de manejar grandes

cantidades de documentos o bases de datos en modo lectura.
● El coste es muy bajo en comparación a sus competidores, ya que

puede tener un desarrollo espectacular, sobre todo en equipos de bajo
rendimiento.
38
● Permite editar y agregar cualquier información nueva a los
documentos por separado.
● Realiza muchas operaciones por segundo, reduciendo así los tiempos

para el usuario.
● Puede ser escalable y permite, mediante el sistema de sharding,

distribuir información por diferentes clúster de máquinas.
● Facilidad en la instalación e implementación hace a esta herramienta

sea ideal para un proyecto big data
LENGUAJE R
R es un lenguaje que fue diseñado para el análisis de datos, debido a que sus
características hacen que resulte sumamente eficaz al momento de procesarlos y
llegar a presentarlos de forma gráfica.
Por este motivo, es una herramienta muy útil y usada en Big Data, debido a que
brinda la posibilidad de sacar realmente provecho a la información que se recopila
por parte de las empresas.
Adicionalmente, este lenguaje puede aplicarse en las distintas fases de análisis de

datos de Big Data que son realizados en cualquier entorno empresarial. Estas son
las siguientes:
● Extracción de los datos

● Preparación de datos
● Análisis de datos: Mediante modelos previamente establecidos
39
● Realización de informes, en donde se especifican los resultados para que
luego se apliquen para predecir distintos elementos.
Todo esto hace que el lenguaje R tenga una vinculación directa con Big Data y
todas sus aplicaciones, en el área empresarial.
Incluso, muchos especialistas en Data Scientist aplican este lenguaje como una
herramienta para sus tareas de investigación, debido a que logra que puedan
agrupar los datos según las características más significativas que poseen, con la
finalidad de ejecutar análisis complicados y buscar hallazgos.
ELASTICSEARCH
Dentro de las herramientas de Big Data encontramos las soluciones Elasticsearch,

una base de datos NoSQL de código abierto. Al emplear una base de datos NoSQL,
las soluciones Elasticsearch soportan datos sin formato o esquema definido, lo que
lo convierte en una de las mejores opciones para el procesamiento de Big Data. Las
soluciones Elasticsearch ofrecen un motor de búsqueda y analítica de datos con
arquitectura distribuida, escalable y de alta disponibilidad.
Elasticsearch permite procesar grandes volúmenes de datos ya sean textuales,

numéricos, estructurados y no estructurados. Gracias a esto, las soluciones
Elasticsearch pueden emplearse para realizar búsquedas en aplicaciones o webs,
analíticas de logs, rendimiento de aplicaciones, entre otras, siendo así una
herramienta de gran impacto para las empresas.
● Consulta de datos en tiempo real
● Gran escalabilidad del sistema
● Emplea estructura de datos Inverted Index lo que ofrece mayor rapidez en las
consultas
● Ofrece distribución de los datos en diferentes servidores
40
● No requiere un esquema predefinido de datos
41
8. CONCLUSIONES
● Python ofrece muchas ventajas a todos sus usuarios, entre ellas: su

gran simplicidad, flexibilidad y facilidad de aprendizaje ya que es un
lenguaje de programación fácil de aprender e ideal incluso para
aquellos programadores que todavía se están iniciando. Teniendo una
gran variedad y un sin fin de usos, cuenta con una comunidad muy
activa, que garantiza que la herramienta se mantendrá actualizada con
el paso del tiempo, y que surgirán nuevas librerías que nos permitirán
ahorrar tiempo y trabajo.
● Python es un lenguaje de programación fácil y eficiente a la hora de

emplearla ,además se adapta a cualquier dispositivo ya sea desde
computadoras ,laptops hasta celulares lo cual lo hace mas comercial
ademas que nos ofrece librerías expansivas ,nos permite
analizar,procesar y/o representar datos con credibilidad.
● De esta manera concluimos que, MongoDB es una herramienta

gratuita, que puedes incorporar en tus proyectos de manera comercial
sin tener que pagar el uso de licencias, también MongoDB es una muy
buena opción como base de datos, ya que es muy amplia, de alto
rendimiento y complemento perfecto para proyectos Big Data, además
podemos confirmar que es un software que está siendo evolucionado
continuamente por una gran comunidad, incorporando nuevas mejoras
que pueden impactar directamente en tus proyectos.
● Usar bases de datos MongoDB es arriesgado , porque esta tecnología

no solo es bastante novedosa y a desarrolladores más
experimentados les aporta muchos beneficios (sobre todo, en
lenguajes web) . MongoDB está diseñado para satisfacer las
demandas de las aplicaciones modernas con una base tecnológica.
42
● El lenguaje R resulta de mucha utilidad en el ámbito del Big Data al
momento de manipular, procesar y visualizar los datos para luego
realizar un análisis.
● El lenguaje R también proporciona herramientas estadísticas y gráficas

que facilita el análisis en una base de datos por su simplicidad,
elegancia y compacidad del código que se genera y por la gran
cantidad de bibliotecas especializadas lo cual resulta muy eficaz en
una empresa u negocio.
● Con Elasticsearch, comprendimos que es una herramienta gratuita y

abierta, que nos ofrece soluciones de búsqueda empresarial,
observabilidad y seguridad, además que ayudarán a sus usuarios a
explorar y analizar datos de forma diferente usando el poder de la
búsqueda a partir de una sola plataforma de tecnología como esta.
● Y concluimos, que con Elasticsearch se tiene todo a nuestra

disposición para implementar la búsqueda de texto completo ya sea
para algún proyecto. Además, de ofrecernos la posibilidad de hacer
búsquedas de texto tan complicadas como sean nuestras
necesidades, visualizar el estado de nuestros nodos, y escalar sin
demasiadas necesidades si se diera el caso de que necesitáramos
más potencia.
43
9. REFERENCIAS BIBLIOGRÁFICAS
● Bienvenido a (Dakota del Norte). Python.Org. Recuperado el 6 de abril de

2022 de https://www.python.org/
● Programación para todos (empezando con Python) . (Dakota del Norte). EdX.
Recuperado el 6 de abril de 2022, de
https://www.edx.org/es/course/programacion-para-todos-empezando-con-
python
● Platziteam (2021, 18 de marzo). Qué es Python y por qué empezar a

programar con este lenguaje . Platzi. https://platzi.com/blog/python/?
gclid=CjwKCAjw9LSSBhBsEiwAKtf0nwWz6DuH7tVhqWEDEc80hCjYGPvjzbx
_T8aCulNGWPl3LsLDaH2qhBoCwy8QAvD_BwE&gclsrc=aw.ds
● ¿Qué es MongoDB? (Dakota del Norte). Mongo DB. Recuperado el 6 de abril

de 2022, de https://www.mongodb.com/es/what-is-mongodb
● Rubenfa. (2014, 3 de febrero). MongoDB: qué es, cómo funciona y cuándo

podemos usar (o no) . Genbeta.com; Genbeta.
https://www.genbeta.com/desarrollo/mongodb-que-es-como-funciona-y-
cuando-podemos-usarlo-o-no
● MongoDB Atlas . (Dakota del Norte). Nube de Google. Recuperado el 6 de

abril de 2022, de https://cloud.google.com/mongodb?hl=es-419
● Lenguaje R, ¿qué es y por qué es tan usado en Big Data? (2019, 29 de

noviembre). UNIR. https://www.unir.net/ingenieria/revista/lenguaje-r-big-data/
● Rdu, E. (2 de mayo de 2019). ¿Qué puede hacer el software R para resolver

tus problemas? RDUUNAM. https://www.revista.unam.mx/2019v20n3/que-
puede-hacer-el-software-r-para-resolver-tus-problemas/
● León, E. (2021, 16 de febrero). Te contamos qué es el Lenguaje R . BAOSS.

https://www.baoss.es/te-contamos-que-es-el-lenguaje-r/
●
● CAÑIZARES, A. (n.d.). QUé ES LA INTERPRETACIóN DE DATOS | Web

Oficial EUROINNOVA. Euroinnova. Retrieved April 7, 2022, from
https://www.euroinnova.do/blog/que-es-la-interpretacion-de-datos
● Mujica, A. (2021, Agosto 13). Data cleansing: ¿cómo limpiar la base de datos
de forma inteligente? Crehana.com. https://www.crehana.com/pe/blog/data-
analitica/data-cleansing/
44
● Procesamiento de datos. (n.d.). Wikipedia. Retrieved April 15, 2022, from
https://es.wikipedia.org/wiki/Procesamiento_de_datos
● Rayo, Á. M. (2016, June 8). Análisis de Datos en Big Data: tipos y fases del
análisis. Netmind. Retrieved April 7, 2022, from
https://netmind.net/es/analisis-de-datos-en-big-data/
● Alteryx. (2022). Obtenido de Preparación de datos:

https://www.alteryx.com/es-419/glossary/data-preparation
● Tecnología Información. (2018). Obtenido de https://www.tecnologias-

informacion.com/procesamientodatos.html
● Procesamiento de Datos: Definición, elementos y procesos. (n.d.).

Tecnologías de Información: Sistemas de Gestión y Administración. Retrieved
April 7, 2022, from
https://www.tecnologias-informacion.com/procesamientodatos.html
● Machado, A. M. (2020, December 22). Descubre por qué aprender Phyton y

cuáles son sus ventajas. Pragma. Retrieved April 8, 2022, from
https://www.pragma.com.co/academia/lecciones/descubre-por-que-aprender-
phyton-y-cuales-son-sus-ventajas
● Ventajas de MongoDB | Guía completa de los usos de MongoDB. (n.d.).

Gráficos, Diseño, Cálculo, La Teoría Y La Práctica De La Programación, El
Crecimiento Personal Y Profesional. Retrieved April 8, 2022, from
https://es.education-wiki.com/5891922-advantages-of-mongodb
● Arlés, G., & Mallada, A. (2021, September 16). La Innovación

NecesariaLenguaje de programación R vs. Excel: Ventajas y desventajas | La
Innovación Necesaria. Integra - Estrategia y Tecnología. Retrieved April 8,
2022, from
https://www.integratecnologia.es/la-innovacion-necesaria/lenguaje-de-
programacion-r-vs-excel-ventajas-y-desventajas/
● Wickham, H. (n.d.). 2 Tipos y estructuras de datos en R | Introducción a R y

SIG. Bookdown. Retrieved April 9, 2022, from
https://bookdown.org/chescosalgado/intro_r/tipos-y-estructuras-de-datos-en-
r.html
45
● ¿Qué tipos de datos podemos utilizar en MongoDB? (2017, February 27).
Aula301.com. Retrieved April 9, 2022, from https://aula301.com/tipos-datos-
podemos-utilizar-mongodb/
● MongoDB Arquitectura y modelo de datos. (2017, December 27).
sitiobigdata.com. Retrieved April 9, 2022, from
https://sitiobigdata.com/2017/12/27/mongodb-arquitectura-y-modelo-de-
datos/#
● Alvarez, E. (2021, October 8). Tipos de datos en Python. Escuela wow.

Retrieved April 9, 2022, from https://escuelawow.com/tipos-de-datos-python/
● Bustamante, S. J. (2021, February 21). Guía de funciones de Python con

ejemplos. freeCodeCamp. Retrieved April 9, 2022, from
https://www.freecodecamp.org/espanol/news/guia-de-funciones-de-python-
con-ejemplos/
● Novoseltseva, E. (2020, May 16). Usar Elasticsearch; ventajas, casos

prácticos y libros. Apiumhub. Retrieved April 12, 2022, from
https://apiumhub.com/es/tech-blog-barcelona/usar-elasticsearch-ventajas-libros/
46

EVIDENCIA AA1 - Big Data

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

EVIDENCIA AA1 - Big Data

Uploaded by

Copyright:

Available Formats

DATA PIPELINE

UNIDAD DIDÁCTICA : Big Data para los Negocios

● Cardenas Bautista , Jenifer Lizeth

Wilmer Abdel Ponce de León Florindez

2.1 Pasos de la metodología de procesamiento de datos……………………4

2.1.1 Recopilación de datos…………………………………..........……..4

2.1.2 Preparación de datos……………………………………………...…6

2.1.3 Procesamiento y limpieza de datos…………………….…………..7

2.1.4 Interpretación de datos ………………………………………………9

2.2. Herramientas o tecnologías analíticas de Big Data……….……………..10

4. Usos de las herramientas de Big Data………………………….……..……….26

5. Comparación de las herramientas de Big Data ……………….……..……….29

6. Ventajas de las herramientas de Big Data……………………….……..……...34

7. Beneficios de las herramientas de Big Data………………………….….…….38

9. Referencias bibliográficas …………………………………………………..…..44

El Big Data juega un papel muy importante en la interpretación de información ya

El presente trabajo de investigación de "Data Pipeline" tiene como objetivo

2.1 PASOS DE LA METODOLOGÍA DE PROCESAMIENTO DE DATOS :

El procesamiento de datos se ejecuta por medio de uso de aplicaciones

creadas en un software traductor , que facilita los programas para realizar

operaciones principales para procesar los datos con el propósito de

simbolizar los mismos y hacer un esquema que pueda identificar las

entradas, procesos y salidas del procedimiento.

2.1.1 RECOPILACIÓN DE DATOS:

El objetivo de esta actividad es obtener información que establezca

resultados en determinado tema de estudio ya sea en ciencias sociales,

informática, económica , etc.

Los elementos implementados en esta proceso de la investigación son

sumamente importante debido a que deben aportar seguridad y confiabilidad

;para realizar una recopilación de datos utilizamos la siguientes técnicas:

● Las entrevistas: Es una de las principales herramientas para la

recolección de datos debido a su flexibilidad , el entrevistador deberá

contar con la precisión adecuada para garantizar que se

recolecte ,transcriban ,detallen y validen la información de manera

específicas que se dirigen a un

porcentaje en particular de la población

que se desea estudiar y al igual que

las entrevistas busca obtener

respuestas que genere información de

recolección de datos que

permite explorar y estimular

diferentes puntos de vista,

que favorecen la expresión

Es una de las técnicas empleadas en las metodologías para la

2.1.2 PREPARACIÓN DE DATOS

Es una actividad que consiste en limpiar y

consolidar los datos; transcribir información en

un medio electrónico tal como una

computadora u otro dispositivo electrónico

para realizar un análisis e impulsar el nivel

más profundo de análisis se debe implementar

las siguientes pasos :

● Adquisición de datos: consiste en adquirir muestras del mundo real

para luego ser transformado digitalmente, los datos los podemos

● Exploración de datos:Este paso nos ayudará a tomar mejores

decisiones debido a que nos permite tener una mejor

visualización ,evaluar la calidad de los datos e identificar determinados

patrones para tener una mejor comprensión del tema .

● Limpieza de datos: Durante este proceso analizaremos la calidad de

los datos en el cual se reorganizaran , se eliminarán los datos

redundantes y errores cometidos que se hallan identificamos durante

-Corrección de errores de entrada.

-Eliminación de duplicados o valores atípicos .

-Ocultación de información confidencial.