You are on page 1of 4

Introducció:

Fundamentos del big data: técnicas y conceptos

Hola, soy Bart Poulson. Bienvenido a este curso sobre técnicas y conceptos del
big data. El big data se refiere a los datos que por su tamaño o volumen,  su
velocidad, o su formato o variedad no se pueden almacenar, manipular o
analizar con métodos tradicionales como hojas de cálculo o bases de datos
relacionales. Vamos a ver la definición práctica del big data, cómo se relaciona
con campos como la ciencia de datos, la estadística y la programación, y a qué
empleados y qué habilidades implica. También hablaremos de cómo se ha
aplicado en ámbitos como el marketing y la investigación científica, cómo
influye en los servicios a clientes como los motores de recomendaciones, y los
problemas éticos que suscita. Por último, veremos los métodos típicos para
generar y capturar big data o macrodatos, almacenarlos y manipularlos, y cómo
visualizarlos; por ejemplo, mediante la minería de datos y los análisis
predictivos. Las aplicaciones del big data son extraordinarias, y sus posibilidades
son inmensas. Con esta perspectiva general te puedes hacer una idea de todo lo
que te puede aportar el big data. Con esto en mente, empecemos.

1. ¿Qué es big data?

Las tres V del big data

Big data es un término ambiguo y relativo. 


Empecemos definiendo lo que no es:
-  No son datos comunes. 
- No es más de lo mismo. 
- No es algo con lo que cualquier analista de datos experimentado puede
lidiar. 
- Los datos masivos son datos que no encajan bien con el paradigma
analítico conocido, como las filas y columnas de una hoja de cálculo de
Excel. 
- No se pueden analizar con una regresión múltiple convencional, y el
disco rígido de tu computadora no alcanza. 
- Por otro lado, una forma de describir el big data es fijándonos en las tres
V de volumen, velocidad y variedad, que surgen de un artículo
que escribió Doug Laney en 2001. Son las características más comunes
del big data, aunque no son las únicas. 

En este curso, hablaremos de otras características posibles más


adelante. Primero, hablaremos del volumen.
El volumen en el big data

La definición más simple del big data, los macrodatos o los datos masivos es
que son datos demasiado grandes como para trabajar con ellos en una
computadora personal. Sin embargo, esta es una definición relativa, ya que lo
que ahora puede ser demasiado grande para un sistema posiblemente en otro
sea la norma. Este es el punto de partida de la ley de Moore, un principio
conocido de la informática: la capacidad física y el rendimiento de las
computadoras se duplican cada dos años. Por ejemplo, el Mac Classic II que
tuve durante los años de universidad tenía dos megabytes de RAM y 80
megabytes de disco duro, así que, para esos estándares, hubiese sido big data
algo que ahora cabe en una memoria USB de un dólar. Por otro lado, el máximo
de filas que se puede tener en una hoja de cálculo de Excel ha ido cambiando
con el tiempo. Anteriormente eran 65 000. Ahora es más de un millón, lo que
parece mucho, pero si estás registrando una actividad en internet, que puede
ocurrir cientos o miles de veces por segundo, alcanzarás tu millón de filas muy
rápidamente. 
Por otro lado, si hablamos de fotos o video, hace falta que toda la
información ocupe la memoria a la vez; tienes un problema totalmente
distinto. Hasta mi iPhone toma fotos con dos o tres megabytes por foto, y video
con 18 megabytes por minuto, o un gigabyte por hora. Esto en el iPhone. Si
tienes una cámara de video Red Epic, podría aumentar hasta 18 gigabytes por
minuto. Instantáneamente estás obteniendo big data. 
Para muchos, estos datos son del mismo tipo a los que ya estamos
acostumbrados, pero en mayor cantidad. Y entramos en el problema de la
velocidad y la variedad.

La velocidad en el big data

Una característica del big data es la velocidad, porque los datos entran muy rápido. 

En la investigación científica convencional, recopilar datos de 100 casos podría tomar


meses, analizarlos tomaría semanas, y para publicarlos harían falta años. 

Recopilar estos datos no solo consume tiempo, sino que una vez que los hemos
registrado, son estáticos, es decir, no cambian. Como ejemplo, quizás el conjunto de
datos más familiar para enseñar el procedimiento estadístico, el análisis clúster, es el
conjunto de datos «Iris», recopilado por Edgar Anderson y analizado por Ronald Fisher,
que publicaron sus estudios en 1936. Este conjunto de datos contiene cuatro
medidas: el ancho y el largo de los pétalos y de los sépalos de tres especies de
iris. Abarca alrededor de 150 casos, y estos datos se utilizan todos los días. Es uno de
los conjuntos de datos del lenguaje de programación estadística R, y en casi 80 años no
ha cambiado. 
En otro extremo, si te interesa utilizar datos de Twitter, por ejemplo, tendrás que lidiar
con lo que recibe el nombre de la manguera de incendios de Twitter, De hecho, Twitter
procesa alrededor de 6000 tuits por segundo a nivel mundial. Esto supone 500 millones
de tuits al día y unos 200 000 millones de tuits por año. De hecho, una forma de
visualizar esto es mediante un contador web a tiempo real. 

La página Internet Live Stats nos muestra que hoy se han enviado alrededor de 341
millones de tuits, y la cifra se va actualizando de manera extremadamente rápida. 

Hasta un simple sensor de temperatura conectado a un microprocesador


Arduino mediante una conexión en serie y que envíe solo un bit de datos por
vez puede abrumar a una computadora, si se deja funcionando demasiado tiempo. Esta
afluencia constante, más conocida como transmisión de datos, presenta
problemas especiales para el análisis, porque el conjunto de datos es un objetivo
móvil. 

Si estás acostumbrado a trabajar con datos estáticos, en un programa como SPSS o R,


las demandas y complejidad de las transmisiones de datos pueden ser abrumadoras.

La variedad en el big data

La tercera característica del big data es la variedad. Quiere decir que no tenemos los
datos dispuestos de manera ordenada en las filas y columnas de una hoja de
cálculo, por ejemplo. En cambio, puedes tener muchas hojas de datos en formatos
diferentes. Puedes tener texto no estructurado, como libros, artículos de
blogs, comentarios en noticias y tuits. 

Un investigador calculó que el 80 por ciento de los datos de una empresa pueden ser
no estructurados, es el caso más común. Esto puede incluir fotos, videos y audio. Del
mismo modo, los conjuntos de datos incluyen los datos de gráficos en red, es decir,
datos de conexiones sociales. 

O si estás tratando con conjuntos de datos en lo que se llama bases de datos no SQL,
puede que tengas gráficos de conexiones sociales, y estructuras y documentos
jerárquicos. Con cualquier número de formatos de datos que no encaje en las filas y
columnas de una base de datos relacional o una hoja de cálculo, puedes tener
problemas analíticos graves. 

De hecho, un estudio reciente de Forrester Research muestra que la variedad es el


factor más potente detrás de la búsqueda de soluciones con big data de las
empresas. De hecho, la variedad se mencionaba cuatro veces más que el volumen.

Consideramos si el big data necesita las tres V

«¿Debes cumplir con las V de volumen, velocidad y variedad al mismo tiempo, o


alcanza con una sola, para decir que trabajas con big data?» Si tienes las tres V, tienes
big data, pero con un exceso de una sola de estas cualidades, ya superas la capacidad
del enfoque estándar para analizar los datos. Lo que el big data señala es que no se
puede usar el enfoque estándar cuando tienes este tipo de datos. Como resultado, el
big data se enfrenta a una cantidad de problemas específicos. Los veremos más
adelante. 

Primero, vamos a ver cómo se utiliza el big data y algunos de los logros que se están
alcanzando al aplicarlo para la investigación, los negocios e incluso para el consumidor
ocasional.

You might also like