Professional Documents
Culture Documents
Tema 2. Sessió 1. Introducció Al Big Data
Tema 2. Sessió 1. Introducció Al Big Data
Professor:
Lluís Echeverria Rovira
Data:
21/03/2023
V. Arquitectures
Què és?
V. Arquitectures
q Problemes?
q Molt lent
q Espai
q Problemes?
CPU1: llegeix POI 1: 10
q Concurrència CPU2: llegeix POI 1: 10 q Segueix sent lent
CPU1: suma 1: 11
q Consistència q Espai
CPU2: suma 1: 11
q Problemes?
q Problemes?
q Escalabilitat
q Elasticitat
q Tolerant a errors
q Alta disponibilitat
V. Arquitectures
La presa de decisions basada en les dades no es res nou, simplement ara és més fàcil.
Analítica descriptiva: realitza un resum de dades històriques per proporcionar informació útil. És una mirada retrospectiva
que ens permet entendre el que ha passat.
Anàlisi diagnòstica: ens permet respondre a la pregunta per què ha passat aquest fet? De vegades ens referim a aquesta
anàlisi com a anàlisi de causa arrel.
Anàlisi predictiva: Sovint utilitzeu mètodes ML per
generar models que, basats en dades històriques, trobin
tendències i patrons. A partir d'aquests models, i la
situació actual (o una finestra de temps recent) es pot
arribar a predir fets rellevants.
Analítica prescriptiva: saber què ha passat, per què ha
passat i què és probable que passi, poder decidir què hem
de fer en forma d'accions seguides al llarg del temps per
gestionar la situació de la manera més eficient i sostenible
possible.
La digitalització és el procés de conversió d’analògic a digital, gràcies al qual tots els processos de fabricació
generen dades (IIoT, etc.) que permeten el seu tractament electrònic. Això esdevé una nova fase en l’extensió de
les tecnologies de la informació i de la comunicació (TICs) en les empreses.
Els objectius de la digitalització en la indústria, es centren en obtenir avantatges competitives, algunes de les
més representatives són:
• Aprofitar la informació per al seu anàlisi des de múltiples canals on ser capaços d’analitzar-la per prendre
decisions en temps real.
• Millores en eficiència.
• Ciberseguretat
V. Arquitectures
Quant és un zettabyte?
1,000,000,000,000,000,000,000 bytes
Una fila de 1TB hard disks de 25,400 km llarg
Big Data és el terme que s'utilitza per definir els processos i les tecnologies que permeten
emmagatzemar un gran volum de dades digitals, d'origen molt variat (text, vídeo, àudio, etc.), i
processar i identificar a través d'una sèrie de tècniques i mecanismes, com la Intel·ligència Artificial o la
visualització de dades massives, patrons de relació entre variables de valor, per exemple, per poder
predir anomalies, optimitzar sistemes, controlar processos, etc i així poder prendre decisions adequades i
acurades i donar resposta de forma ràpida i òptima al nostre problema en particular.
Big Data’s 42 V
Source:- AI and Big Data’s Potential for Disruptive Innovation by Moses Strydom and Sheryl Buckley.
La mineria de dades és un procés d’identificació de contingut de valor mitjançant l’extracció, no trivial, d’informació implícita,
prèviament desconeguda, y potencialment útil a partir de l’exploració y l’anàlisi, per mitjans automàtics o semi-automàtics, de
grans quantitats de dades.
V. Arquitectures
Una Arquitectura de dades inclou especificacions utilitzades per descriure l’estat existent
de la informació, definir els seus requisits, i guiar la integració i control de les dades.
Knight, 2018
sentit i valor.
Talend, 2020
Una plataforma de dades és una solució completa per ingerir, processar, analitzar i
presentar dades, tant històriques com noves dades, dels sistemes, processos i
Splunk, 2020
gestionen un o més aspectes del cicle de vida de les dades de manera efectiva, una
• Repositori únic
• Integrant diverses fonts de dades
• De forma estructurada
• Mitjançant processos ETL
• Per finalment oferir dades
preparades per la seva consulta
• Problemàtiques:
• Integració complexa
• Gran model de dades
• Dificultat gestió dades no
estructurades
• Dades transformades
UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 41
Arquitectures: Data Lake Tema 2: Introducció al Big Data
• Repositori únic
• Integrant diverses fonts de dades
• En format origen
• No hi ha model de dades
• Problemàtiques:
• És necessari conèixer el model
de dades origen per fer consultes
• Una mala gestió implica grans
quantitats de dades fora de
control
https://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html
Esquema lògic en plataformes Big Data, implementat mitjançant Software, pel processat i anàlisi de grans volums de
dades, tant per lots com en temps real, amb l’objectiu de preprocessar les dades i precalcular resultats, en base a un
model de dades fix (corresponent al que l’usuari final necessita veure), per reduir el temps de consulta i accés a les
dades. Tres capes:
- Batch: processa les dades de la bases de dades històrica i precalcula els resultats a partir del model de dades establert
- Streaming: processa les dades que entren en temps real. Per minimitzar el temps de procés, pot utilitzar algoritmes
aproximats per realitzar els càlculs
- Serving: capa de servei que uneix els resultats
precalculats per les capes batch i streaming i els
emmagatzema per facilitar-los a l’usuari quan
aquest els requereix.
L’arquitectura Kappa simplifica l’esquema Lambda, entenent el concepte de lot/batch com un stream de dades amb un
inici i fi fix. D’aquesta manera, s’elimina totalment una capa de processat, la seva lògica i manteniment, i tota la
responsabilitat recau en un única capa d’stream, reduint tota la complexitat de gestionar dues infraestructures separades
i operant així mitjançant una única tecnologia.
q Capturar (tot tipus) dades utilitzant sensors ciber-físics i enviar-les al núvol o als servidors
d'emmagatzematge i processament de dades corresponents.
Requisits?
El concepte Edge Computing parteix de la capacitat dels propis dispositius IoT per dur a terme tasques,
processament de dades o extracció de coneixement directament in situ abans d'enviar les dades al núvol.
Això permet, per exemple:
Federated Learning
Una arquitectura distribuïda es basa en una col·lecció de components independents ubicats en diferents
màquines, i possiblement en diferents localitzacions geogràfiques, que comparteixen missatges entre si per
assolir objectius comuns.
Aquest tipus de disseny d'arquitectures és habitual en les plataformes de dades modernes, i es basa en la
implementació del patró de desenvolupament Software Publish & Subscrive (Publicació i Subscripció).