You are on page 1of 54

Tema 2:

INTRODUCCIÓ AL BIG DATA

Professor:
Lluís Echeverria Rovira
Data:
21/03/2023

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software


Índex Tema 2: Introducció al Big Data

I. Que és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

V. Arquitectures

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 2


Big Data Tema 2: Introducció al Big Data

Què és?

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 3


Índex Tema 2: Introducció al Big Data

I. Què és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

V. Arquitectures

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 4


Problema Big Data Tema 2: Introducció al Big Data

q Problema: Optimització de rutes

q Tasca: Contar quantes vegades s’ha passat per cada POI

q Material: Fitxer de mida 10PB amb format: Origen, Destí

q Com podem fer-ho?

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 5


Problema Big Data Tema 2: Introducció al Big Data

q Solució tradicional (no bigdata):

q Llegir el fitxer de forma seqüencial

q Mantenir i actualitzar una taula amb les


visites als POIs

q Problemes?

q Molt lent

q Espai

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 6


Problema Big Data Tema 2: Introducció al Big Data

q Primera millora, paral·lelització de tasques:

q Dividir el fitxer en parts

q Utilitzar les diferents CPUs d’una màquina

q Llegir els fitxers de forma seqüencial

q Mantenir i actualitzar una taula amb les


visites als POIs

q Millora de la velocitat de processat

q Problemes?
CPU1: llegeix POI 1: 10
q Concurrència CPU2: llegeix POI 1: 10 q Segueix sent lent
CPU1: suma 1: 11
q Consistència q Espai
CPU2: suma 1: 11

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 7


Problema Big Data Tema 2: Introducció al Big Data

q Segona millora, paral·lelització de tasques i agregat:

q Dividir el fitxer en parts

q Utilitzar les diferents CPUs d’una màquina

q Llegir els fitxers de forma seqüencial

q Mantenir i actualitzar una taula per fitxer


amb les visites als POIs

q Agregar les taules separades en una

q Millora de la velocitat de processat i consistència

q Problemes?

q Segueix sent lent q Espai

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 8


Problema Big Data Tema 2: Introducció al Big Data

q Tercera millora, distribució de tasques i agregat:

q Dividir el fitxer en parts

q Utilitzar les diferents CPUs de múltiples màquines

q Llegir els fitxers de forma seqüencial

q Mantenir i actualitzar una taula per fitxer


amb les visites als POIs

q Agregar les taules separades en una

q Millora de la velocitat de processat i consistència

q Problemes?

q Necessitat de recursos HW q Complexitat en els sistemes a utilitzar

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 9


Requeriments Big Data Tema 2: Introducció al Big Data

q Escalabilitat

És la capacitat d’un sistema per gestionar una


quantitat creixent, o decreixent, de treball afegint
(o eliminant) recursos hardware a la
infraestructura.

q Elasticitat

És la capacitat d’afegir o reduir dinàmicament els


recursos hardware d’infraestructura segons sigui
necessari per adaptar-se als canvis de càrrega de
treball de manera autònoma i maximitzant l’ús
dels recursos.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 10


Requeriments Big Data Tema 2: Introducció al Big Data

q Tolerant a errors

És la propietat que permet que un sistema continuï


treballant de forma correcta en cas de fallada
d'alguns dels seus components (o un o més
components).

q Alta disponibilitat

És una característica d’un sistema que té com a


objectiu assegurar un cert grau absolut de
continuïtat operacional durant un període donat (el
que es mesura).

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 11


Índex Tema 2: Introducció al Big Data

I. Que és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

V. Arquitectures

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 12


El valor de les dades Tema 2: Introducció al Big Data

Perquè capturem, emmagatzemem i processem dades?

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 13


El valor de les dades Tema 2: Introducció al Big Data

La presa de decisions basada en les dades no es res nou, simplement ara és més fàcil.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 14


El valor de les dades Tema 2: Introducció al Big Data

Analítica descriptiva: realitza un resum de dades històriques per proporcionar informació útil. És una mirada retrospectiva
que ens permet entendre el que ha passat.

Anàlisi diagnòstica: ens permet respondre a la pregunta per què ha passat aquest fet? De vegades ens referim a aquesta
anàlisi com a anàlisi de causa arrel.
Anàlisi predictiva: Sovint utilitzeu mètodes ML per
generar models que, basats en dades històriques, trobin
tendències i patrons. A partir d'aquests models, i la
situació actual (o una finestra de temps recent) es pot
arribar a predir fets rellevants.
Analítica prescriptiva: saber què ha passat, per què ha
passat i què és probable que passi, poder decidir què hem
de fer en forma d'accions seguides al llarg del temps per
gestionar la situació de la manera més eficient i sostenible
possible.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 15


D’on venim i on estem Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 16


4a revolució Industrial Tema 2: Introducció al Big Data

Esdeveniment principal: La digitalització

La digitalització és el procés de conversió d’analògic a digital, gràcies al qual tots els processos de fabricació
generen dades (IIoT, etc.) que permeten el seu tractament electrònic. Això esdevé una nova fase en l’extensió de
les tecnologies de la informació i de la comunicació (TICs) en les empreses.

El concepte de digitalització en la Indústria 4.0 està


relacionat en com aquesta digitalització es du a terme en
empreses industrials per a que aquestes es tornin més
competitives en el seu marc d’actuació.

En definitiva, l’ús intel·ligent de la informació de forma


conjunta permet incrementar els marges operatius, la
productivitat, a més d’una millor adequació a la demanda.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 17


La digitalització Tema 2: Introducció al Big Data

Els objectius de la digitalització en la indústria, es centren en obtenir avantatges competitives, algunes de les
més representatives són:

• Disposar d’una capacitat d’adaptació constant a la demanda.

• Aprofitar la informació per al seu anàlisi des de múltiples canals on ser capaços d’analitzar-la per prendre
decisions en temps real.

• Servir als clients de forma més personalitzada.

• Dissenyar, produir, i vendre productes en menor temps.


• Afegir serveis als productes físics.

• Crear series de producció més curtes i rendibles.

• Millores en eficiència.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 18


La digitalització Tema 2: Introducció al Big Data

Els components clau de la digitalització en la Indústria 4.0 són:

• Sistemes Ciberfísics (CPS) :Fusionen el físic amb el món virtual

• Internet de les coses (IoT): Xarxa de CPSs, identificats de forma


única, que poden interactuar per assolir objectius comuns.

• Serveis d'Internet: Oferim serveis mitjançant Internet, de manera


que poden ser combinats per oferir serveis de valor afegit a partir de
diversos proveïdors.

• Indústria intel·ligent: La informació que ve des del món físic i virtual


emprada per proveir assistència contextual a les persones i les
màquines per executar les tasques de millor forma.

• IA & Big/Small Data Analytics

• Ciberseguretat

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 19


Entorns intel·ligents Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 20


Entorns intel·ligents Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 21


Entorns intel·ligents Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 22


Impacte Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 23


Índex Tema 2: Introducció al Big Data

I. Que és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

V. Arquitectures

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 24


Big Data: Algunes xifres Tema 2: Introducció al Big Data

Quant és un zettabyte?
1,000,000,000,000,000,000,000 bytes
Una fila de 1TB hard disks de 25,400 km llarg

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 25


Big Data: Algunes xifres Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 26


Big Data: Algunes xifres Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 27


Llei de Moore Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 28


Big Data Tema 2: Introducció al Big Data

Big Data és el terme que s'utilitza per definir els processos i les tecnologies que permeten
emmagatzemar un gran volum de dades digitals, d'origen molt variat (text, vídeo, àudio, etc.), i
processar i identificar a través d'una sèrie de tècniques i mecanismes, com la Intel·ligència Artificial o la
visualització de dades massives, patrons de relació entre variables de valor, per exemple, per poder
predir anomalies, optimitzar sistemes, controlar processos, etc i així poder prendre decisions adequades i
acurades i donar resposta de forma ràpida i òptima al nostre problema en particular.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 29


Big Data Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 30


Big Data Tema 2: Introducció al Big Data

Big Data’s 42 V

Source:- AI and Big Data’s Potential for Disruptive Innovation by Moses Strydom and Sheryl Buckley.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 31


Big Data Tema 2: Introducció al Big Data

Source: Conceptual flow of data through different stages. https://towardsdatascience.com/modern-unified-data-architecture-38182304afcc


UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 32
Big Data + IA + Data Science Tema 2: Introducció al Big Data

La Intel·ligència Artificial és la intel·ligència realitzada per màquines.

L'aprenentatge automàtic (ML) és una branca de la intel·ligència artificial


on un conjunt d'algoritmes, basats en dades (data-driven), permet
desenvolupar models intel·ligents altament precisos en la predicció de
resultats sense necessitat de programació explícita.

ML és una part essencial de la IA, però la IA és més àmplia que aquest,


ja que també cobreix la capacitat d’un sistema per percebre dades (per
exemple, processament de llenguatge natural o reconeixement de
veu/imatge) o per controlar, moure i manipular objectes basant-se en
informació apresa, ja sigui un robot o un altre dispositiu connectat.

La mineria de dades és un procés d’identificació de contingut de valor mitjançant l’extracció, no trivial, d’informació implícita,
prèviament desconeguda, y potencialment útil a partir de l’exploració y l’anàlisi, per mitjans automàtics o semi-automàtics, de
grans quantitats de dades.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 33


Big Data + IA + Data Science Tema 2: Introducció al Big Data

El data science, d'altra banda, és un concepte més general que utilitza


disciplines com les matemàtiques i l'estadística i incorpora tècniques com la
mineria de dades, l'anàlisi de clústers, la visualització o l'aprenentatge
automàtic per solucionar diferents problemes o tasques.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 34


Big Data + IA + Data Science Tema 2: Introducció al Big Data

El Data Science enfronta el repte/problema.

La Intel·ligència Artificial proporciona el mecanismes.

El Big Data facilita la tecnologia i les capacitats.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 35


Big Data: Nous professionals Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 36


Big Data: Nous professionals Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 37


Índex Tema 2: Introducció al Big Data

I. Que és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

V. Arquitectures

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 38


Arquitectures de dades Tema 2: Introducció al Big Data

Una Arquitectura de dades inclou especificacions utilitzades per descriure l’estat existent

de la informació, definir els seus requisits, i guiar la integració i control de les dades.

Knight, 2018

L'Arquitectura de dades és el procés d’estandardització de la forma en que les

organitzacions transformen, distribueixen i utilitzen les dades. L’objectiu es entregar dades

rellevants a les persones que ho necessitin, quan ho necessitin, ajudant-les a donar-lis

sentit i valor.
Talend, 2020

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 39


Plataforma de dades Tema 2: Introducció al Big Data

Una plataforma de dades és una solució completa per ingerir, processar, analitzar i

presentar dades, tant històriques com noves dades, dels sistemes, processos i

infraestructures d’una organització.

Splunk, 2020

Tot i que hi ha moltes solucions puntuals i aplicacions dissenyades específicament que

gestionen un o més aspectes del cicle de vida de les dades de manera efectiva, una

veritable plataforma de dades proporciona una gestió de dades d'extrem a extrem.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 40


Arquitectures: Data Warehouse Tema 2: Introducció al Big Data

• Repositori únic
• Integrant diverses fonts de dades
• De forma estructurada
• Mitjançant processos ETL
• Per finalment oferir dades
preparades per la seva consulta

• Problemàtiques:
• Integració complexa
• Gran model de dades
• Dificultat gestió dades no
estructurades
• Dades transformades
UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 41
Arquitectures: Data Lake Tema 2: Introducció al Big Data

• Repositori únic
• Integrant diverses fonts de dades
• En format origen
• No hi ha model de dades

• Problemàtiques:
• És necessari conèixer el model
de dades origen per fer consultes
• Una mala gestió implica grans
quantitats de dades fora de
control

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 42


Arquitectures: Data Warehouse vs Data Lake Tema 2: Introducció al Big Data

https://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 43


Arquitectures: Lambda Tema 2: Introducció al Big Data

Esquema lògic en plataformes Big Data, implementat mitjançant Software, pel processat i anàlisi de grans volums de
dades, tant per lots com en temps real, amb l’objectiu de preprocessar les dades i precalcular resultats, en base a un
model de dades fix (corresponent al que l’usuari final necessita veure), per reduir el temps de consulta i accés a les
dades. Tres capes:
- Batch: processa les dades de la bases de dades històrica i precalcula els resultats a partir del model de dades establert
- Streaming: processa les dades que entren en temps real. Per minimitzar el temps de procés, pot utilitzar algoritmes
aproximats per realitzar els càlculs
- Serving: capa de servei que uneix els resultats
precalculats per les capes batch i streaming i els
emmagatzema per facilitar-los a l’usuari quan
aquest els requereix.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 44


Arquitectures: Kappa Tema 2: Introducció al Big Data

L’arquitectura Kappa simplifica l’esquema Lambda, entenent el concepte de lot/batch com un stream de dades amb un
inici i fi fix. D’aquesta manera, s’elimina totalment una capa de processat, la seva lògica i manteniment, i tota la
responsabilitat recau en un única capa d’stream, reduint tota la complexitat de gestionar dues infraestructures separades
i operant així mitjançant una única tecnologia.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 45


Arquitectures: Edge Computing Tema 2: Introducció al Big Data

Quina és la funcionalitat principal d'un dispositiu d'IoT?

q Capturar (tot tipus) dades utilitzant sensors ciber-físics i enviar-les al núvol o als servidors
d'emmagatzematge i processament de dades corresponents.

Requisits?

q Necessitat de comunicació entre sensors i núvol.

q Temps de viatge de dades

q Les dades potencialment sensibles, privades o personals viatgen per la xarxa.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 46


Arquitectures: Edge Computing Tema 2: Introducció al Big Data

El concepte Edge Computing parteix de la capacitat dels propis dispositius IoT per dur a terme tasques,
processament de dades o extracció de coneixement directament in situ abans d'enviar les dades al núvol.
Això permet, per exemple:

- Extracció immediata del coneixement: Com que les dades es


processen en el moment que son generades, s'eviten els
temps de comunicació d'anada i tornada entre el dispositiu i
el núvol.

- Filtratge de dades: si les dades no són bones no s'envien.

- Neteja de dades: Es pot duu a terme tasques de neteja de


dades, reduint el volum de dades a enviar.
- Execució de regles o models intel·ligents: a partir de les
dades capturades per a la generació d’accions immediates.
- No hi ha necessitat d'enviar dades personals.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 47


Arquitectures: Fog Computing Tema 2: Introducció al Big Data

La idea principal d'aquest concepte és estendre el núvol de


manera que estigui més a prop dels elements que
produeixen i treballen amb dades de dispositius d'IoT.

q Qualsevol dispositiu amb connectivitat de xarxa,


capacitat de càlcul i emmagatzematge pot ser un node
d'aquesta "boira".

q Permet als grans centres de dades en el núvol delegar


algunes de les seves responsabilitats als dispositius
Edge.

q I fer-ho a través d'aquesta Fog Computing que defineix


requisits o necessitats en aquest extrem de tot aquest
ecosistema.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 48


Arquitectures: Federated Learning Tema 2: Introducció al Big Data

Transporta el concepte Edge Computing al camp de la IA i al entrenament de models intel·ligents. D’aquesta


manera, els models predictius s'entrenen localment amb les dades captades pels propis dispositius, evitant
així l'enviament massiu d'aquests al núvol.

Simplement s'estableix comunicació (de


forma periòdica) per enviar els propis
paràmetres dels models (pesos de
variables en una regressió simple, o els
pesos assignats a les neurones en una
xarxa neuronal). Que són agregats en el
núvol i retornats per a un millor ajust
local d'aquests, millorant així les
capacitats de generalització dels models
locals.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 49


Arquitectures: Federated Learning Tema 2: Introducció al Big Data

Federated Learning

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 50


Arquitectures: Distribuïda Tema 2: Introducció al Big Data

Una arquitectura distribuïda es basa en una col·lecció de components independents ubicats en diferents
màquines, i possiblement en diferents localitzacions geogràfiques, que comparteixen missatges entre si per
assolir objectius comuns.

Un sistema distribuït apareixerà com si fos una única


interfície o computadora per a l'usuari final. L'objectiu
d'aquesta arquitectura és que, en conjunt, el sistema
pugui maximitzar els recursos i la informació al mateix
temps que evita falles, ja que si un sistema (o
subsistema) falla, no afectarà la disponibilitat del
servei global.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 51


Arquitectures: Publish & Subscribe Tema 2: Introducció al Big Data

Aquest tipus de disseny d'arquitectures és habitual en les plataformes de dades modernes, i es basa en la
implementació del patró de desenvolupament Software Publish & Subscrive (Publicació i Subscripció).

La principal característica d' aquests dissenys rau en el


fet que defineixen un motor d' enviament de missatges
únic i centralitzat, a nivell d' arquitectura lògica de
plataforma, i no de serveis físics, atès que aquest
servei de comunicacions també pot implementar una
arquitectura distribuïda, per gestionar les
comunicacions de sistema global.

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 52


Big Data Tema 2: Introducció al Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 53


Tema 2:
INTRODUCCIÓ AL BIG DATA

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software

You might also like