Tema 2. Sessió 1. Introducció Al Big Data

Tema 2:
INTRODUCCIÓ AL BIG DATA
Professor:
Lluís Echeverria Rovira
Data:
21/03/2023
UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software

Índex Tema 2: Introducció al Big Data
I. Que és el Big Data?
II. Problema Big Data
III. D’on venim i on estem
IV. Big Data
V. Arquitectures
UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 2

Big Data Tema 2: Introducció al Big Data
Què és?

I. Què és el Big Data?
IV. Big Data
V. Arquitectures

Problema Big Data Tema 2: Introducció al Big Data
q Problema: Optimització de rutes
q Tasca: Contar quantes vegades s’ha passat per cada POI
q Material: Fitxer de mida 10PB amb format: Origen, Destí
q Com podem fer-ho?

q Solució tradicional (no bigdata):
q Llegir el fitxer de forma seqüencial
q Mantenir i actualitzar una taula amb les

visites als POIs
q Problemes?
q Molt lent
q Espai

q Primera millora, paral·lelització de tasques:
q Dividir el fitxer en parts
q Utilitzar les diferents CPUs d’una màquina
q Llegir els fitxers de forma seqüencial
q Mantenir i actualitzar una taula amb les

visites als POIs
q Millora de la velocitat de processat
q Problemes?
CPU1: llegeix POI 1: 10
q Concurrència CPU2: llegeix POI 1: 10 q Segueix sent lent
CPU1: suma 1: 11
q Consistència q Espai
CPU2: suma 1: 11

q Segona millora, paral·lelització de tasques i agregat:
q Utilitzar les diferents CPUs d’una màquina
q Mantenir i actualitzar una taula per fitxer

amb les visites als POIs
q Agregar les taules separades en una
q Millora de la velocitat de processat i consistència
q Problemes?
q Segueix sent lent q Espai

q Tercera millora, distribució de tasques i agregat:
q Utilitzar les diferents CPUs de múltiples màquines
q Mantenir i actualitzar una taula per fitxer

amb les visites als POIs
q Agregar les taules separades en una
q Millora de la velocitat de processat i consistència
q Problemes?
q Necessitat de recursos HW q Complexitat en els sistemes a utilitzar

Requeriments Big Data Tema 2: Introducció al Big Data
q Escalabilitat
És la capacitat d’un sistema per gestionar una

quantitat creixent, o decreixent, de treball afegint
(o eliminant) recursos hardware a la
infraestructura.
q Elasticitat
És la capacitat d’afegir o reduir dinàmicament els

recursos hardware d’infraestructura segons sigui
necessari per adaptar-se als canvis de càrrega de
treball de manera autònoma i maximitzant l’ús
dels recursos.

Requeriments Big Data Tema 2: Introducció al Big Data
q Tolerant a errors
És la propietat que permet que un sistema continuï

treballant de forma correcta en cas de fallada
d'alguns dels seus components (o un o més
components).
q Alta disponibilitat
És una característica d’un sistema que té com a

objectiu assegurar un cert grau absolut de
continuïtat operacional durant un període donat (el
que es mesura).

IV. Big Data
V. Arquitectures

El valor de les dades Tema 2: Introducció al Big Data
Perquè capturem, emmagatzemem i processem dades?

La presa de decisions basada en les dades no es res nou, simplement ara és més fàcil.

Analítica descriptiva: realitza un resum de dades històriques per proporcionar informació útil. És una mirada retrospectiva
que ens permet entendre el que ha passat.
Anàlisi diagnòstica: ens permet respondre a la pregunta per què ha passat aquest fet? De vegades ens referim a aquesta
anàlisi com a anàlisi de causa arrel.
Anàlisi predictiva: Sovint utilitzeu mètodes ML per
generar models que, basats en dades històriques, trobin
tendències i patrons. A partir d'aquests models, i la
situació actual (o una finestra de temps recent) es pot
arribar a predir fets rellevants.
Analítica prescriptiva: saber què ha passat, per què ha
passat i què és probable que passi, poder decidir què hem
de fer en forma d'accions seguides al llarg del temps per
gestionar la situació de la manera més eficient i sostenible
possible.

D’on venim i on estem Tema 2: Introducció al Big Data

4a revolució Industrial Tema 2: Introducció al Big Data
Esdeveniment principal: La digitalització
La digitalització és el procés de conversió d’analògic a digital, gràcies al qual tots els processos de fabricació
generen dades (IIoT, etc.) que permeten el seu tractament electrònic. Això esdevé una nova fase en l’extensió de
les tecnologies de la informació i de la comunicació (TICs) en les empreses.
El concepte de digitalització en la Indústria 4.0 està

relacionat en com aquesta digitalització es du a terme en
empreses industrials per a que aquestes es tornin més
competitives en el seu marc d’actuació.
En definitiva, l’ús intel·ligent de la informació de forma

conjunta permet incrementar els marges operatius, la
productivitat, a més d’una millor adequació a la demanda.

La digitalització Tema 2: Introducció al Big Data
Els objectius de la digitalització en la indústria, es centren en obtenir avantatges competitives, algunes de les
més representatives són:
• Disposar d’una capacitat d’adaptació constant a la demanda.
• Aprofitar la informació per al seu anàlisi des de múltiples canals on ser capaços d’analitzar-la per prendre
decisions en temps real.
• Servir als clients de forma més personalitzada.
• Dissenyar, produir, i vendre productes en menor temps.

• Afegir serveis als productes físics.
• Crear series de producció més curtes i rendibles.
• Millores en eficiència.

La digitalització Tema 2: Introducció al Big Data
Els components clau de la digitalització en la Indústria 4.0 són:
• Sistemes Ciberfísics (CPS) :Fusionen el físic amb el món virtual
• Internet de les coses (IoT): Xarxa de CPSs, identificats de forma

única, que poden interactuar per assolir objectius comuns.
• Serveis d'Internet: Oferim serveis mitjançant Internet, de manera

que poden ser combinats per oferir serveis de valor afegit a partir de
diversos proveïdors.
• Indústria intel·ligent: La informació que ve des del món físic i virtual

emprada per proveir assistència contextual a les persones i les
màquines per executar les tasques de millor forma.
• IA & Big/Small Data Analytics
• Ciberseguretat

Entorns intel·ligents Tema 2: Introducció al Big Data



Impacte Tema 2: Introducció al Big Data

IV. Big Data
V. Arquitectures

Big Data: Algunes xifres Tema 2: Introducció al Big Data
Quant és un zettabyte?
1,000,000,000,000,000,000,000 bytes
Una fila de 1TB hard disks de 25,400 km llarg



Llei de Moore Tema 2: Introducció al Big Data

Big Data és el terme que s'utilitza per definir els processos i les tecnologies que permeten
emmagatzemar un gran volum de dades digitals, d'origen molt variat (text, vídeo, àudio, etc.), i
processar i identificar a través d'una sèrie de tècniques i mecanismes, com la Intel·ligència Artificial o la
visualització de dades massives, patrons de relació entre variables de valor, per exemple, per poder
predir anomalies, optimitzar sistemes, controlar processos, etc i així poder prendre decisions adequades i
acurades i donar resposta de forma ràpida i òptima al nostre problema en particular.


Big Data’s 42 V
Source:- AI and Big Data’s Potential for Disruptive Innovation by Moses Strydom and Sheryl Buckley.

Source: Conceptual flow of data through different stages. https://towardsdatascience.com/modern-unified-data-architecture-38182304afcc

Big Data + IA + Data Science Tema 2: Introducció al Big Data
La Intel·ligència Artificial és la intel·ligència realitzada per màquines.
L'aprenentatge automàtic (ML) és una branca de la intel·ligència artificial

on un conjunt d'algoritmes, basats en dades (data-driven), permet
desenvolupar models intel·ligents altament precisos en la predicció de
resultats sense necessitat de programació explícita.
ML és una part essencial de la IA, però la IA és més àmplia que aquest,

ja que també cobreix la capacitat d’un sistema per percebre dades (per
exemple, processament de llenguatge natural o reconeixement de
veu/imatge) o per controlar, moure i manipular objectes basant-se en
informació apresa, ja sigui un robot o un altre dispositiu connectat.
La mineria de dades és un procés d’identificació de contingut de valor mitjançant l’extracció, no trivial, d’informació implícita,
prèviament desconeguda, y potencialment útil a partir de l’exploració y l’anàlisi, per mitjans automàtics o semi-automàtics, de
grans quantitats de dades.

El data science, d'altra banda, és un concepte més general que utilitza

disciplines com les matemàtiques i l'estadística i incorpora tècniques com la
mineria de dades, l'anàlisi de clústers, la visualització o l'aprenentatge
automàtic per solucionar diferents problemes o tasques.

El Data Science enfronta el repte/problema.
La Intel·ligència Artificial proporciona el mecanismes.
El Big Data facilita la tecnologia i les capacitats.

Big Data: Nous professionals Tema 2: Introducció al Big Data

Big Data: Nous professionals Tema 2: Introducció al Big Data

IV. Big Data
V. Arquitectures

Arquitectures de dades Tema 2: Introducció al Big Data
Una Arquitectura de dades inclou especificacions utilitzades per descriure l’estat existent
de la informació, definir els seus requisits, i guiar la integració i control de les dades.
Knight, 2018
L'Arquitectura de dades és el procés d’estandardització de la forma en que les
organitzacions transformen, distribueixen i utilitzen les dades. L’objectiu es entregar dades
rellevants a les persones que ho necessitin, quan ho necessitin, ajudant-les a donar-lis
sentit i valor.
Talend, 2020

Plataforma de dades Tema 2: Introducció al Big Data
Una plataforma de dades és una solució completa per ingerir, processar, analitzar i
presentar dades, tant històriques com noves dades, dels sistemes, processos i
infraestructures d’una organització.
Splunk, 2020
Tot i que hi ha moltes solucions puntuals i aplicacions dissenyades específicament que
gestionen un o més aspectes del cicle de vida de les dades de manera efectiva, una
veritable plataforma de dades proporciona una gestió de dades d'extrem a extrem.

Arquitectures: Data Warehouse Tema 2: Introducció al Big Data
• Repositori únic
• Integrant diverses fonts de dades
• De forma estructurada
• Mitjançant processos ETL
• Per finalment oferir dades
preparades per la seva consulta
• Problemàtiques:
• Integració complexa
• Gran model de dades
• Dificultat gestió dades no
estructurades
• Dades transformades
Arquitectures: Data Lake Tema 2: Introducció al Big Data
• Repositori únic
• Integrant diverses fonts de dades
• En format origen
• No hi ha model de dades
• Problemàtiques:
• És necessari conèixer el model
de dades origen per fer consultes
• Una mala gestió implica grans
quantitats de dades fora de
control

Arquitectures: Data Warehouse vs Data Lake Tema 2: Introducció al Big Data
https://www.kdnuggets.com/2015/09/data-lake-vs-data-warehouse-key-differences.html

Arquitectures: Lambda Tema 2: Introducció al Big Data
Esquema lògic en plataformes Big Data, implementat mitjançant Software, pel processat i anàlisi de grans volums de
dades, tant per lots com en temps real, amb l’objectiu de preprocessar les dades i precalcular resultats, en base a un
model de dades fix (corresponent al que l’usuari final necessita veure), per reduir el temps de consulta i accés a les
dades. Tres capes:
- Batch: processa les dades de la bases de dades històrica i precalcula els resultats a partir del model de dades establert
- Streaming: processa les dades que entren en temps real. Per minimitzar el temps de procés, pot utilitzar algoritmes
aproximats per realitzar els càlculs
- Serving: capa de servei que uneix els resultats
precalculats per les capes batch i streaming i els
emmagatzema per facilitar-los a l’usuari quan
aquest els requereix.

Arquitectures: Kappa Tema 2: Introducció al Big Data
L’arquitectura Kappa simplifica l’esquema Lambda, entenent el concepte de lot/batch com un stream de dades amb un
inici i fi fix. D’aquesta manera, s’elimina totalment una capa de processat, la seva lògica i manteniment, i tota la
responsabilitat recau en un única capa d’stream, reduint tota la complexitat de gestionar dues infraestructures separades
i operant així mitjançant una única tecnologia.

Arquitectures: Edge Computing Tema 2: Introducció al Big Data
Quina és la funcionalitat principal d'un dispositiu d'IoT?
q Capturar (tot tipus) dades utilitzant sensors ciber-físics i enviar-les al núvol o als servidors
d'emmagatzematge i processament de dades corresponents.
Requisits?
q Necessitat de comunicació entre sensors i núvol.
q Temps de viatge de dades
q Les dades potencialment sensibles, privades o personals viatgen per la xarxa.

Arquitectures: Edge Computing Tema 2: Introducció al Big Data
El concepte Edge Computing parteix de la capacitat dels propis dispositius IoT per dur a terme tasques,
processament de dades o extracció de coneixement directament in situ abans d'enviar les dades al núvol.
Això permet, per exemple:
- Extracció immediata del coneixement: Com que les dades es

processen en el moment que son generades, s'eviten els
temps de comunicació d'anada i tornada entre el dispositiu i
el núvol.
- Filtratge de dades: si les dades no són bones no s'envien.
- Neteja de dades: Es pot duu a terme tasques de neteja de

dades, reduint el volum de dades a enviar.
- Execució de regles o models intel·ligents: a partir de les
dades capturades per a la generació d’accions immediates.
- No hi ha necessitat d'enviar dades personals.

Arquitectures: Fog Computing Tema 2: Introducció al Big Data
La idea principal d'aquest concepte és estendre el núvol de

manera que estigui més a prop dels elements que
produeixen i treballen amb dades de dispositius d'IoT.
q Qualsevol dispositiu amb connectivitat de xarxa,

capacitat de càlcul i emmagatzematge pot ser un node
d'aquesta "boira".
q Permet als grans centres de dades en el núvol delegar

algunes de les seves responsabilitats als dispositius
Edge.
q I fer-ho a través d'aquesta Fog Computing que defineix

requisits o necessitats en aquest extrem de tot aquest
ecosistema.

Arquitectures: Federated Learning Tema 2: Introducció al Big Data
Transporta el concepte Edge Computing al camp de la IA i al entrenament de models intel·ligents. D’aquesta

manera, els models predictius s'entrenen localment amb les dades captades pels propis dispositius, evitant
així l'enviament massiu d'aquests al núvol.
Simplement s'estableix comunicació (de

forma periòdica) per enviar els propis
paràmetres dels models (pesos de
variables en una regressió simple, o els
pesos assignats a les neurones en una
xarxa neuronal). Que són agregats en el
núvol i retornats per a un millor ajust
local d'aquests, millorant així les
capacitats de generalització dels models
locals.

Arquitectures: Federated Learning Tema 2: Introducció al Big Data
Federated Learning

Arquitectures: Distribuïda Tema 2: Introducció al Big Data
Una arquitectura distribuïda es basa en una col·lecció de components independents ubicats en diferents
màquines, i possiblement en diferents localitzacions geogràfiques, que comparteixen missatges entre si per
assolir objectius comuns.
Un sistema distribuït apareixerà com si fos una única

interfície o computadora per a l'usuari final. L'objectiu
d'aquesta arquitectura és que, en conjunt, el sistema
pugui maximitzar els recursos i la informació al mateix
temps que evita falles, ja que si un sistema (o
subsistema) falla, no afectarà la disponibilitat del
servei global.

Arquitectures: Publish & Subscribe Tema 2: Introducció al Big Data
Aquest tipus de disseny d'arquitectures és habitual en les plataformes de dades modernes, i es basa en la
implementació del patró de desenvolupament Software Publish & Subscrive (Publicació i Subscripció).
La principal característica d' aquests dissenys rau en el

fet que defineixen un motor d' enviament de missatges
únic i centralitzat, a nivell d' arquitectura lògica de
plataforma, i no de serveis físics, atès que aquest
servei de comunicacions també pot implementar una
arquitectura distribuïda, per gestionar les
comunicacions de sistema global.


Tema 2:
INTRODUCCIÓ AL BIG DATA
UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software

Tema 2. Sessió 1. Introducció Al Big Data

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tema 2. Sessió 1. Introducció Al Big Data

Uploaded by

Copyright:

Available Formats

Tema 2:

INTRODUCCIÓ AL BIG DATA

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software

I. Que és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 2

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 3

I. Què és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 4

q Problema: Optimització de rutes

q Tasca: Contar quantes vegades s’ha passat per cada POI

q Material: Fitxer de mida 10PB amb format: Origen, Destí

q Com podem fer-ho?

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 5

q Solució tradicional (no bigdata):

q Llegir el fitxer de forma seqüencial

q Mantenir i actualitzar una taula amb les

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 6

q Primera millora, paral·lelització de tasques:

q Dividir el fitxer en parts

q Utilitzar les diferents CPUs d’una màquina

q Llegir els fitxers de forma seqüencial

q Mantenir i actualitzar una taula amb les

q Millora de la velocitat de processat

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 7

q Segona millora, paral·lelització de tasques i agregat:

q Dividir el fitxer en parts

q Utilitzar les diferents CPUs d’una màquina

q Llegir els fitxers de forma seqüencial

q Mantenir i actualitzar una taula per fitxer

q Agregar les taules separades en una

q Millora de la velocitat de processat i consistència

q Segueix sent lent q Espai

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 8

q Tercera millora, distribució de tasques i agregat:

q Dividir el fitxer en parts

q Utilitzar les diferents CPUs de múltiples màquines

q Llegir els fitxers de forma seqüencial

q Mantenir i actualitzar una taula per fitxer

q Agregar les taules separades en una

q Millora de la velocitat de processat i consistència

q Necessitat de recursos HW q Complexitat en els sistemes a utilitzar

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 9

És la capacitat d’un sistema per gestionar una

És la capacitat d’afegir o reduir dinàmicament els

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 10

És la propietat que permet que un sistema continuï

És una característica d’un sistema que té com a

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 11

I. Que és el Big Data?

II. Problema Big Data

III. D’on venim i on estem

IV. Big Data

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 12

Perquè capturem, emmagatzemem i processem dades?

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 13

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 14

UAB, Grau d’Enginyeria. Arquitectura i Tecnologies Software 15