Professional Documents
Culture Documents
1
En la lectura Minería en las Big Datas, inicia explicando de donde nació el término Big Data,
primero salió un libro en 1998 donde su título tenía el nombre “Big Data and the Next
Wave of InfraStress”. Big data se debe al hecho que estamos creando una gran cantidad de
datos todos los días, nos dan el ejemplo que empresas importante como google tienen
más de 1 Billón de consultas y Youtube. tiene más de 4 billones de vistas al día, y estas
cifras seguirán creciendo cada año un 40%, estos datos que se están produciendo al día
esta por el orden de zettabyte, en un punto las grandes compañías iniciaron a observar con
cuidado en esos datos producidos para encontrar patrones útiles para ir mejorando la
experiencia del usuario, cuando empezaron a hacer los análisis se dieron cuenta que
necesitábamos nuevos algoritmos y herramientas, pero para eso tenemos que hablar
sobre las 5 V para la administración de las Big Datas:
1. Volumen: cada momento aumenta de tamaño, pero nuestras herramientas de
procesamiento de datos no lo están.
2. Variedad: Hay diversidad de datos.
3. Velocidad: Necesitamos y estamos interesados en obtener información útil de ella en
tiempo real.
4. Variabilidad: hay cambios en la estructura de los datos y como usuarios queremos
interpretar los datos.
5. Valor: El valor comercial que esos datos puedan tener, y debido a la capacidad de tomar
decisiones basado en responder preguntas que antes fueron consideradas.
Con la minería de Big datas se ayudará a que las personas tengan un mejor servicios,
mejores experiencia de clientes, y también ser más saludables, ya siendo más personal los
datos también ayudarán a prevenir y detectar enfermedades mucho antes.
Las Big Datas están siendo de gran valor para ayudar a los países en desarrollo, como nos
presenta el artículo las Naciones Unidas desde el año 2009 realizan análisis de una Big
Data, en la cual se le está realizando minería. Para lograr sacar el mejor provecho a los
grandes almacenamientos de Datos tenemos que investigar los métodos y técnicas
innovadoras, y análisis en tiempo real, en algunos países será una gran ventaja ya que
tendrán:
1) Alertas tempranas
2) Conciencia en tiempo real
3) Retroalimentación
En la lectura nos recomiendan cuatro contribuciones que juntas nos muestras una gran
investigación a esta casi nueva ciencia, lo cual nos ayuda a tener una visión para el futuro.
la primera que nos presentan que debido al estado actual de las herramientas de minería
de datos, no es sencillo realizar análisis, en el segundo consideramos que hay datos
2
interconectados y de varios tipos, estos modelos de red aprovechan la rica unión intrínseca
que nos dará un enriquecedora información, en el tercero nos muestran que el futuro
será muy importante minar grandes gráficos, ya por último miramos cómo se harán la
extracción de grandes flujos de datos de los usuarios, para lo cual necesitamos mejorar la
metodología de aprendizaje según los datos.
Al ser una ciencia nueva siempre existirá controversia sobre ella misma y sus alcances en
torno a sus usos, los autores nos muestran algunas de esos problemas:
1) Análisis de los datos en tiempo real
2) La declaraciones de precisión son engañosas, cuanto más crecen los datos, la cantidad
de correlaciones igualmente.
3) Preocupación ética sobre la accesibilidad
4) Acceso limitado a Big Datas creando así divisiones digitales.
esta fueron algunas de las controversias que que generan el uso de ellas.
Al realizar minería de Big data serán necesarias herramientas, en la lectura nos muestran
algunas herramientas de código abierto, las cuales tienen utilizan machine learning,
minería de datos, análisis estadístico, clasificación, regresión, agrupación, minería de
conjunto frecuentes, minería de gráficos, entre otras funcionalidades más.
Los desafíos para el futuro de esta ciencia son la arquitectura analitica, la cual resuelve los
problemas en tres capas: procesos por lotes, capa de servicio, capa de velocidad, algunas
característica de este es que es muy robusto, tolerante a fallas, escalable, general,
extendible, mantenimiento mínimo y depuración. Estadística significativa, es importante
lograr resultado estadística significativa y no dejarse engañar por la ranciedad de los datos.
Minería distribuida, hacer muchos análisis practicos y teoricos para proporcionar nuevos
metodos de mineria, los datos evolucionan en el tiempo, tendremos que buscar nuevas
técnicas de minería de flujo de datos, para así podernos adaptarse y detectar con
antelación los cambios. compresión de los datos al utilizar esta técnica estaremos
gastando más tiempo pero eso hace que no tengamos pérdida de datos. Visualización de
los resultados, necesitaremos nuevas técnicas, marcos para contar y mostrar historias, por
último nos hablan sobre los datos ocultos, los cuales son los datos nuevos que están sin
etiquetar y no estructurados, haciendo que no se tenga un análisis correcto de esos datos.
Conclusiones
1) Las big datas son una realidad y tenemos que aprender a aprovechar todas las
características que poseen ellas.
2) Las big datas nos permitirán ayudar a mejorar la calidad de las personas, ayudando
para su salud, servicios, y demás necesidades.
3) La minería de Big Datas está apenas empezando su largo camino, por lo cual
tenemos que buscar nuevas técnicas para la extracción de información de ellas.
3