Professional Documents
Culture Documents
EVIDENCIA AA1 - Big Data
EVIDENCIA AA1 - Big Data
GRUPO : 7
INTEGRANTES:
PROFESOR:
1. Introducción…………………………………………………..……………….. …3
2. Marco Teórico….………………………………………………….…….………...4
3. Descripción de herramientas…………………………………….………………11
8. Conclusiones………………………………………………………………………42
2
1. INTRODUCCIÓN:
3
2. MARCO TEÓRICO:
eficaz.
4
● Las encuestas: Abarca preguntas
calidad.
● Focus groups: Es un
método cualitativo de
gracias al encuentro de
diversas personalidades
y el debate de opiniones.
● Las observaciones:
5
Para ello, se deben analizar las particularidades de la situación por
medio de observación.
adquirir de
6
la exploración de datos .La limpieza de datos incluye los siguientes
elementos:
7
● INFORMACIÓN : Lista detallada o resumen de los datos de información
computarizada. (Procesamiento De Datos, n.d.)
ETAPAS:
● Recopilación de datos
● Preparación de datos
● Entrada de datos
● Procesamiento
● Almacenamiento de datos
8
● Los métodos de limpieza de datos te brindan menos errores, y eso
mejor qué se pretende hacer con los datos y saber de dónde provienen.
procesos.
9
2. Obtención de datos: partiendo de las fuentes de datos y tipos de datos
(estructurados, no estructurados, etc.)
3. Procesado de datos: separación, agrupación, filtrado.
4. Limpieza de datos: eliminar duplicados, errores.
5. Análisis exploratorio de datos: tendencias, histogramas para detectar grupos,
gráficos
6. Modelado y algoritmos: datos estadísticos (medias, modas, desviaciones,
máximos, mínimos), regresión, pruebas-t y pruebas-z.
7. Producto de datos: aplicación a medida, documento Excel, PowerBI,
Reporting Services, informe QlikView, Periscope Data, etc.
8. Comunicación / visualización de datos: informes por audiencia (comerciales,
marketing, estrategia, dirección, técnicos, etc).
Todas las empresas tienen fuentes de datos empresariales, pero no todas son
capaces de analizar todos esos datos para mejorar su negocio. Hoy en día, una
empresa que no haga una buena interpretación de datos está condenada a
desconocer su futuro o a tomar decisiones que permitan amortiguar una posible
caída en las ventas, la satisfacción de los clientes o los productos y servicios que
ofrece a sus clientes. (Rayo, 2016)
10
- Python
- MongoDB
- Lenguaje R
- Elasticsearch
3. DESCRIPCIÓN DE HERRAMIENTAS
1. PYTHON
Es un lenguaje de programación,
multiparadigma y multinivel, con soporte en
programación orientada a objetos, imperativa
y funcional. Con este tipo de lenguaje se
pueden crear aplicaciones nativas e híbridas,
y cuenta con una sintaxis accesible para las
personas con un nivel de 'alfabetización'
básico en lenguajes de programación. De acuerdo con una encuesta realizada por
los programadores que están dentro de la comunidad del portal web Stack Overflow,
el 73% de los desarrolladores considera que Python es el lenguaje más requerido
por encima de las alternativas que existen en el mercado actualmente.
11
realizando en la actualidad se orientan a la nube, otorgándole gran capacidad de
cómputo distribuido a un menor costo.
● Aplicaciones web.
● Ciencia de datos.
● Aprendizaje automático.
● Análisis y automatización de datos.
● Inteligencia artificial.
Características de Python :
1. Resulta un buen lenguaje para aquellos que deseen iniciarse en el mundo de
la programación, principalmente por sus múltiples campos de aplicación.
2. Frameworks y entornos integrados para el desarrollo ágil y eficiente de
aplicaciones web.
3. Uno de los lenguajes de programación más usados en el ámbito académico y
científico.
12
4. Es interpretado y no compilado, siendo el debugging (la depuración) más
veloz.
5. Puede utilizarse programación orientada a objetos, estructural o funcional.
6. Empaqueta el código fuente, lo que permite crear aplicaciones de gran
tamaño.
7. Brinda estructuras de datos dinámicas.
8. Cuenta con una implementación de recolección automática de basura para
una mejor gestión de memoria.
9. Se puede integrar con los lenguajes C, C ++, COM, ActiveX, CORBA y Java.
¿Dónde podemos encontrar Python? :
Una de las razones por la que este lenguaje interpretado de alto nivel está
presente en esta área es porque tiene una codificación simple; es decir
implica menos líneas de códigos en comparación a otros lenguajes para
construir programas complejos. Al ser Python un modelo de código abierto
admite múltiples plataformas y con diversas librerías que lo convierten en un
lenguaje de programación famoso en áreas como la computación científica.
Estas librerías tienen paquetes que permiten simplificar tareas como:
computación numérica, análisis estadístico, visualización gráfica de
resultados y métricas, agrupación y cotejación de datos.
2. Data mining :
Es un proceso que se encarga de estructurar, analizar y formular cantidades
masivas de datos, con el objetivo de encontrar patrones, falencias y/o errores
a través de un algoritmo. Python juega un papel fundamental en esta área
13
porque es capaz de proveer mantenimiento y organización sobre los registros
procesados.
● Extracción de datos.
● Procesamiento de los datos.
● Aplicación de algoritmos.
● Evaluación de resultados.
5. Blockchain:
14
6. Juegos y gráficos 3D :
2. MONGODB
La razón de esto es que MongoDB, al estar escrito en C++, cuenta con una más que
notoria capacidad para aprovechar los recursos de la máquina y, al estar licenciado
bajo una licencia GNU AGPL 3.0, es posible adaptarlo a nuestras necesidades.
15
Características de MongoDB :
1. Consultas ad hoc :
2. Indexación :
3. Replicación :
16
Del mismo modo, la replicación es un proceso básico en la gestión de bases
de datos. MongoDB soporta el tipo de replicación primario-secundario. De
este modo, mientras podemos realizar consultas con el primario, el
secundario actúa como réplica de datos en solo lectura a modo copia de
seguridad con la particularidad de que los nodos secundarios tienen la
habilidad de poder elegir un nuevo primario en caso de que el primario actual
deje de responder.
4. Balanceo de carga :
5. Almacenamiento de archivos :
17
MongoDB es una base de datos orientada a documentos. Esto quiere decir que en
lugar de guardar los datos en registros, guarda los datos en documentos. Estos
documentos son almacenados en BSON, que es una representación binaria de
JSON.
Esto representa una de las diferencias más importantes con respecto a las bases de
datos relacionales. Y resulta que no es necesario seguir un esquema. Los
documentos de una misma colección - concepto similar a una tabla de una base de
datos relacional -, pueden tener esquemas diferentes.
18
3. LENGUAJE R
● Es software libre.
● Es multiplataforma.
específico en cada caso. Por el contrario, es un sistema planificado que resulta muy
19
destaca entre otras opciones parecidas por ejecutar las instrucciones que se le
permite ejecutar las tareas ganando eficiencia y tiempo. Uno de sus principales
por las numerosas interfaces gráficas existentes y que permiten realizar las
Características de R :
1. Extensible:
2. Funcional :
3. Orientado a objetos:
20
4. Integrable :
5. Gráficos avanzados:
7. Interpretado y no compilado :
8. Basado en memoria :
21
R mantiene todos los objetos que definimos en nuestro programa en la
memoria de nuestra máquina. Por ello, es importante entender cómo gestiona
la memoria, para poder optimizar nuestro código. Así evitamos, por ejemplo,
copias innecesarias de objetos que pueden ralentizar y hacer llegar a un
límite nuestra máquina.
Ecosistema de usuarios :
22
4. ELASTICSEARCH
Elasticsearch es un motor de
analítica y análisis distribuido,
gratuito y abierto para todos los
tipos de datos, incluidos textuales,
numéricos, geoespaciales,
estructurados y no estructurados. Elasticsearch está desarrollado a partir de Apache
Lucene y fue presentado por primera vez en 2010 por Elasticsearch N.V. (ahora
conocido como Elastic). Conocido por sus API REST simples, naturaleza distribuida,
velocidad y escalabilidad, Elasticsearch es el componente principal del Elastic
Stack, un conjunto de herramientas gratuitas y abiertas para la ingesta, el
enriquecimiento, el almacenamiento, el análisis y la visualización de datos.
Comúnmente denominado el ELK Stack (por Elasticsearch, Logstash y Kibana), el
Elastic Stack ahora incluye una gran colección de agentes ligeros conocidos como
Beats para enviar los datos a Elasticsearch.
23
La velocidad y escalabilidad de Elasticsearch y su capacidad de indexar muchos
tipos de contenido significan que puede usarse para una variedad de casos de uso:
● Búsqueda de aplicaciones
● Búsqueda de sitio web
● Búsqueda Empresarial
● Logging y analíticas de log
● Métricas de infraestructura y monitoreo de contenedores
● Monitoreo de rendimiento de aplicaciones
● Análisis y visualización de datos geoespaciales
● Analítica de Seguridad
● Analítica de Negocios
Los datos sin procesar fluyen hacia Elasticsearch desde una variedad de fuentes,
incluidos logs, métricas de sistema y aplicaciones web. La ingesta de datos es el
proceso mediante el cual estos datos son procesados, normalizados y enriquecidos
antes de su indexación en Elasticsearch. Una vez indexados en Elasticsearch, los
usuarios pueden ejecutar consultas complejas sobre sus datos y usar agregaciones
para recuperar resúmenes complejos de sus datos. Desde Kibana, los usuarios
crean visualizaciones poderosas de sus datos, comparten dashboards y gestionan
el Elastic Stack.
● Elasticsearch es rápido :
24
de uso con restricciones de tiempo como analítica de seguridad y monitoreo
de infraestructura.
25
Elasticsearch soporta una variedad de lenguajes y hay clientes oficiales para los
siguientes:
● Java
● JavaScript (Node.js)
● Go
● .NET (C#)
● PHP
● Perl
● Python
● Ruby
TESLA:
APPLE:
26
de marca. plantean sus estrategias de venta y de construcción de
precios a partir de una idea de producto que conocen por el análisis de
datos que realizan habitualmente con los compradores.
AMAZON:
Se vale de herramientas del Big
Data para analizar y utilizar todo
lo que procede de los historiales
de búsqueda, de las compras,
reseñas, suscripciones y
muchos otros servicios que
COCA COLA:
NETFLIX:
27
Los analistas de datos de Netflix recolectan y analizan enormes cantidades de datos
relacionados al comportamiento del usuario:
Los géneros que busca, el número de capítulos
que ve seguidos, el tiempo que se demora
escogiendo algo que ver, etc.
STARBUCKS:
PEPSICO :
28
La plataforma de big data y análisis en la nube empleada por PepsiCo, Pep Worx,
ayuda a la empresa a aconsejar a las tiendas sobre qué productos comprar, dónde
colocarlos y qué promociones lanzar.
Las funciones en Python MongoDB tiene la La mayor parte de la En el caso de que haya
se crean usando la capacidad de soportar funcionalidad de R algún problema,
palabra clave def, algunas funcionalidades proviene de sus paquetes Elasticsearch puede
seguida de un nombre geométricas por lo que contribuidos, y se pueden detectar si hay algún nodo
de función y parámetros es una buena opción instalar nuevos paquetes que está fallando. De esta
de función entre para gestionar datos usando install.packages y manera es capaz de
paréntesis (). Una geográficos sencillos. cargarlos usando library. reorganizar la información y
función siempre conseguir que los datos
devuelve un valor. estén siempre accesibles.
29
Es sencillo, ya que utiliza La intersección de índice En su forma más simple, Elasticsearch se organiza
una sintaxis más cercana permite a MongoDB R puede ser utilizado mediante nodos, los cuales
al inglés escrito para usar más de un índice como una calculadora. son alojados dentro de un
ejecutar los comandos. para optimizar una clúster. Permite añadir
consulta ad-hoc en nuevos nodos al cluster
tiempo de ejecución. para poder acometer
nuevas cargas.
30
uno de estos trozos en
un documento.
31
para importar archivos además de más de 30
dentro de nuestro código, controladores desarrollados
y la cláusula from se por la comunidad.
puede agregar a la
declaración import
convencional para
importar sólo un
subconjunto del archivo en
Python.
En Python la Data frame MongoDB almacena datos Las matrices y la Data Es una base de datos
es una estructura de datos en una representación Frames, ambos NoSQL orientada a
con dos dimensiones en la binaria llamada BSON representan tipos de documentos JSON, al estilo
cual se puede guardar (Binary JSON). La datos “rectangulares”, de MongoDB. Por lo cual
datos de distintos tipos codificación BSON extiende lo que significa que se no necesita que se definan
como (caracteres enteros, la popular representación usan para almacenar esquemas a la hora de
valores de punto flotante, JSON (JavaScript Object datos tabulares, con insertar los datos.
factores y más) en Notation) para incluir tipos filas y columnas.
columnas,. adicionales como int, long,
date, coma flotante y
decimal128.
Elasticsearch tiene su
Los documentos propio Query Domain
MongoDB BSON están Es posible leer datos en Specific Language (DSL)
En Python para leer datos estrechamente la forma .xls o .xlsx. mediante el cual permite
se utiliza la función print(), alineados con la Existen distintos paquetes realizar consultas mediante
y para leer números se estructura de los objetos que permiten hacerlo: JSON. De esta forma se
hace usando input(), int() y en el lenguaje de ● El paquete readxl puede buscar sobre
float(). programación. Esto contiene la función campos, aplicar filtros, y
hace que sea más read_excel. así poder construir
simple y rápido para los ● El paquete xlsx y consultas complejas. Se
desarrolladores. la función basa sobre las operaciones
read.xlsx. que define Lucene.
Python cuenta con MongoDB proporciona En R, se visualizan los Aunque el API que nos
funciones específicas, y propiedades ACID a datos, a través de ofrece es muy completo,
estas son algunas: Función nivel de documento. Se gráficas de todo tipo, Elasticsearch también
max(), Función min(), pueden escribir uno o entre ellos están, cuenta con librerías
Función divmod(), Función más campos en una Graficas base con f=plot integradas para diferentes
Hex(x), Función len(), sola operación, incluidas (Histogramas con f=hist; lenguajes de
Función Ord, Funciones las actualizaciones de diagrama de caja y bigote programación: Java, C#,
input() y Función chr, etc. múltiples con f=boxplot), librería Python, Javascript, PHP,
subdocumentos y ggplot2 con f=qplot Ruby, etc.
elementos de una (Argumento bins para
matriz. Cualquier error indicar el número de
32
hace que la operación clases del histograma;
retroceda para que los parámetro geom
clientes reciban una indica el tipo de gráfico;
vista coherente del diagrama de dispersión),
documento. y Ploty un paquete para
crear gráficos interactivos
con calidad de
publicación.
PYTHON:
Python está en el top 5 de los lenguajes más usados para programar y cada
vez aumenta más su demanda laboral. Por esto proporcionan a Python varias
ventajas competitivas, entre ellos destacan las siguientes ventajas:
VENTA
JAS
33
Comunida
Portabilida
popularidad, cuenta
multiplataforma
con una amplia
permite que este pueda
comunidad que
ser usado en diferentes
organiza eventos,
sistemas operativos,
conferencias y
como Linux,
colabora en materia de
Windows, UNIC, Mac
códigos e información.
OS, etc.
(Machado, 2020)
MONGO DB:
Fácil de
Posee una instalar, usar y
documentación debido a la
buena, amplia y Gr
an capacidad de
detallada en do y
cum uso una base de
comparación con ent ci l
otras bases de a ció Fá nejo datos sin
n ma esquema, el
datos NoSQL.
VENTAJA código que
creamos define
S el esquema.
M
ie n rec enor
m
a o up tiem
era
Los datos se cen grad po Admite la
m ea fal ción de
almacenan en Al o int los ant
e
replicación34si el
formato JSON t servidor primario
binario, que es se cae durante la
un par clave- transacción, el
necesita secundario
complejidad de maneja la
combinaciones. transacción sin
interacción
humana.
LENGUAJE R:
VENTAJAS
35
Corrección de errores mucho más sencilla: R utiliza
secuencias de comandos, permitiendo comentarios y control de
4
acciones”. Esto agrega mayor facilidad de enmendar errores.
ELASTICSEARCH:
VENTAJAS
(Novoseltseva, 2020)
Es muy importante saber que tipo de lenguaje escoger según el proyecto que
se desea realizar. Un informe de IDC (International data corporation), indicó
“para el año 2025 habrá más de 175 zettabytes de datos circulando por la
nube”.
PYTHON:
Python para el big data, la forma más común de usar Python para el análisis
de datos es para crear y gestionar rápidamente varias estructuras de datos.
Por ejemplo, la biblioteca Panda ofrece una gran cantidad de herramientas
para analizar, manipular e incluso representar las estructuras de datos y
conjuntos de datos complejos.
Por otro lado, Scikit-Learn es perfecta para el análisis de los datos de redes
sociales o campañas de marketing. Con ella tendremos a disposición
herramientas avanzadas para hacer analíticas y darle sentido a esos datos.
Por ejemplo, para tomar decisiones según el éxito de las campañas o para
ver el tipo de usuarios que interactúa con tus redes.
37
Finalmente, con Python, tú mismo podrás escribir tus propios algoritmos para
el análisis de datos e integrarlos en tus herramientas.
● Código en constante evolución
● Su código es sencillo de entender
● Posee gran cantidad de bibliotecas
● Resulta muy fácil de aprender
● Con unas pocas líneas de código, puedes ejecutar programas sin más
complicaciones
● Comunidad de gran alcance, por lo que es fácil conseguir ayuda
● Para empezar es de mucha utilidad, ya que es un código abierto (osea
gratuito)
● Gran velocidad de procesamiento
● Simplificar las operaciones y hacer que sean mucho más rápidas
MONGODB:
38
● Permite editar y agregar cualquier información nueva a los
documentos por separado.
LENGUAJE R
R es un lenguaje que fue diseñado para el análisis de datos, debido a que sus
características hacen que resulte sumamente eficaz al momento de procesarlos y
llegar a presentarlos de forma gráfica.
Por este motivo, es una herramienta muy útil y usada en Big Data, debido a que
brinda la posibilidad de sacar realmente provecho a la información que se recopila
por parte de las empresas.
39
● Realización de informes, en donde se especifican los resultados para que
luego se apliquen para predecir distintos elementos.
Todo esto hace que el lenguaje R tenga una vinculación directa con Big Data y
todas sus aplicaciones, en el área empresarial.
Incluso, muchos especialistas en Data Scientist aplican este lenguaje como una
herramienta para sus tareas de investigación, debido a que logra que puedan
agrupar los datos según las características más significativas que poseen, con la
finalidad de ejecutar análisis complicados y buscar hallazgos.
ELASTICSEARCH
● Emplea estructura de datos Inverted Index lo que ofrece mayor rapidez en las
consultas
40
● No requiere un esquema predefinido de datos
41
8. CONCLUSIONES
42
● El lenguaje R resulta de mucha utilidad en el ámbito del Big Data al
momento de manipular, procesar y visualizar los datos para luego
realizar un análisis.
43
9. REFERENCIAS BIBLIOGRÁFICAS
● Programación para todos (empezando con Python) . (Dakota del Norte). EdX.
Recuperado el 6 de abril de 2022, de
https://www.edx.org/es/course/programacion-para-todos-empezando-con-
python
44
● Procesamiento de datos. (n.d.). Wikipedia. Retrieved April 15, 2022, from
https://es.wikipedia.org/wiki/Procesamiento_de_datos
● Rayo, Á. M. (2016, June 8). Análisis de Datos en Big Data: tipos y fases del
análisis. Netmind. Retrieved April 7, 2022, from
https://netmind.net/es/analisis-de-datos-en-big-data/
45
● ¿Qué tipos de datos podemos utilizar en MongoDB? (2017, February 27).
Aula301.com. Retrieved April 9, 2022, from https://aula301.com/tipos-datos-
podemos-utilizar-mongodb/
● MongoDB Arquitectura y modelo de datos. (2017, December 27).
sitiobigdata.com. Retrieved April 9, 2022, from
https://sitiobigdata.com/2017/12/27/mongodb-arquitectura-y-modelo-de-
datos/#
46