You are on page 1of 12

InfraApuntsT1.

pdf

Aridevi

Gestió d’Infraestructures per al Processament de Dades

3º Grado en Ingeniería de Datos

Escuela de Ingeniería
Universidad Autónoma de Barcelona

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
INDEX

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
✓ Canvi de paradigma (de dg a bd)
✓ On utilitzem una infraestructura
✓ Com s’emmagatzema
✓ Les eines necessàries d’un programari
✓ Estratègies pel processament de dades

1. CANVI DE PARADIGMA DG A BD
CANVI DE DADES GRANS (dg) A BIG DATA (bd)

• Big Data: Es refereix a conjunts de dades que creixen tant que és difícil capturar-los, emmagatzemar-

Reservados todos los derechos.


los, processar-los, compartir-los, analitzar-los o visualitzar-los amb infraestructures (HW/SW)
habituals.

Aquest canvi de paradigma neix degut a que el Big Data no només se centra en un terme que descriu un gran
volum de dades, sinó que es basa en l’anàlisi i tractament d’aquestes dades.

Dades tradicionals (dg) Big Data (bd)


Són dades estructurades i relacionals que les Big data pot fer referència tant a un conjunt de
organitzacions han emmagatzemat i processat per dades grans com complexes, així com els mètodes
dècades. Representen la major part de dades del usats per processar aquest tipus de dades.
món.
Big data té quatre característiques principals,
En general són més fàcils de manipular i es poden generalment conegudes com “les quatre V”:
administrar amb un programari de processament
de dades convencional. Ofereixen informació
menys sofisticada.

És molt gran. No només és distingible per la seva mida, també té un gran


volum per naturalesa.
Volum
Empreses amb 100 TB, 6.000M persones amb TE, 10.000 sensors en l’ala
d’A380.
Un conjunt de Big Data generalment conté dades estructurades,
Varietat semiestructurades i no estructurades.
Social media, open data, sensors, IoT. Estructurats, SemiE i NoE.

Els Big data es generen ràpidament i en general es processen en temps real.


Velocitat 1TB de operacions de borsa en un dia, 1,3M cotxes entren/surten al dia a
BCN i cadascun porta 100 sensors que generen dades cada 0,1 seg.
Veracitat La seva veracitat (precisió) és extremadament important. Les anomalies i
els sorolls poden impactar de manera significativa en la qualitat.
1 de cada 3 CEOs prenen decisions sobre informació no exacta o antiga.

Ariadna De Vicente Viladesau

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
CONCEPTES GENERALS:

De fet, abans que apareixes el Big Data, l’anàlisi de dades es feia tan sol d’un conjunt d’aquestes dades, però
amb els anys es fa l’anàlisi amb totes les dades per tal que els estudis i resultats siguin més concrets.

Big Data: Anàlisis


Anàlisis amb un amb totes les dades
conjunt de dades

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Aquesta disciplina s'ocupa de totes les activitats relacionades amb els sistemes que gestionen grans conjunts
de dades. Se centren en la captura, l'emmagatzematge, la cerca, la compartició, l'anàlisi, i la seva isualització.

Es considera Big Data quan no es tracta d’un nombre únic sinó d’un conjunt de paràmetres.

La disciplina dedicada a les dades massives s'emmarca dins de les tecnologies de la informació i la
comunicació.

• L’economia del coneixement: Es refereix a la utilització de les tecnologies del coneixement (com ara
coneixements d'enginyeria i la gestió del coneixement) per produir beneficis econòmics. Es basa en

Reservados todos los derechos.


l’ús de dades (des d'astronomia fins atenció mèdica) com element essencial de la planificació i el
rendiment.

Per tal de dur això a terme, es van promoure noves estratègies de programació, emmagatzemament,
comunicació i processament.

• National Science Foundation (NFS): És una agència independent del govern dels
Estats Units que impulsa investigació i educació fonamental en tots els camps no
mèdics de la Ciència i l'Enginyeria. Està enfocat en camps com Matemàtiques,
Informàtica, Econòmiques i les Ciències Socials.

NFS es refereix a tot això com "computació intensiva en dades" i pel que fa al camp de la indústria,
s’emmarca en el big-data i cloud computing.

Degut a que des de la Revolució Industrial fins a finals del segle XX, el principal avantatge econòmic
era la capacitat de produir i distribuir bens o productes físics.

No obstant, en les dècades que ens precedeixen s’ha produït un fenomen de transformació dels béns
físics (àtoms) en informació (bits).

• Cloud computing (Informàtica al núvol): Arquitectura bassada en la virtualització en el qual els clients
(guests) s’executen sobre una màquina host (pot ser amb altres sistemes operatius) de forma
concurrent.
És una tecnologia que permet accés remot a programaris, emmagatzematge d'arxius i processament
de dades per mitjà d'Internet, i així és una alternativa a l'execució en un ordinador personal o servidor
local.
En definitiva, és un paradigma que permet oferir serveis de computació a través d'una xarxa, que
normalment és internet.

Ariadna De Vicente Viladesau

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
VOLUM DE DADES:

Se sap que la unitat de mesura informàtica és:

I pel que fa al volum de dades al


llarg del temps veiem que:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ORGANITZACIÓ INFRAESTRUCTURA:

Una de les coses que realitza el Big Data és dividir i paralitzar. Per tal de fer això, la infraestructura s’organitza
en nodes i clústers.

• Node: És un ordinador individual que té els seus processadors, disc dur i memòria RAM.

• Clúster: És un conjunt de nodes que treballen de forma coordinada per emmagatzemar la informació
per tal de realitzar el processament. Utilitza un hardware comú i es comporten com si fossin una

Reservados todos los derechos.


única computadora.

ARQUITECTURA:

Les dades tradicionals en general s'administren usant una arquitectura centralitzada, que pot ser més
rendible i segura per a conjunts de dades més petites i estructurades.

• Sistema centralitzat: Consisteix en un o més nodes de clients (per exemple, ordinadors o dispositius
mòbils) connectats a un node central (per exemple, un servidor). El servidor central controla la xarxa
i en monitora la seguretat.

A causa de la seva escala i complexitat, no és possible administrar Big Data de manera centralitzada. El BiG
Data requereix una arquitectura distribuïda.

• Sistemes distribuïts: El que fan és vincular diversos servidors o ordinadors a través d'una xarxa, i
funcionen com a nodes coiguals. L'arquitectura es pot escalar horitzontalment (escalabilitat
horitzontal) i continuarà funcionant fins i tot si fallés un node individual. Els sistemes distribuïts
poden aprofitar la computació de productes bàsics per reduir costos.

Sistema centralitzat Sistema distribuït

Ariadna De Vicente Viladesau

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
EL QUE HA COMPORTAT EL BIG DATA:

✓ Impossible analitzar/emmagatzemar amb tècniques i BBDD tradicionals.


✓ Anàlisis de dades: saber què està passant.
✓ Descobrir nova informació que no es ‘visible’.
✓ Anàlisis global en lloc de local.
✓ Ja no hi ha mostreig, tot el conjunt és vàlid.
✓ La inexactitud de les dades ja no és un problema.

DIFERÈNCIES ENTRE BIG DATA I DADES TRADICIONALS:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
✓ La mida de les dades:
- Dades tradicionals solen mesurar-se en gigabytes i terabytes.
- Big Data es distingeix no només per la mida sinó pel volum. Big data generalment es mesura
en petabytes, zettabytes o exabytes.
✓ Com s'organitzen les dades:
- Dades tradicionals són dades estructurades que s’organitzen en registres, arxius i taules.
- Big Data utilitza un esquema dinàmic. En emmagatzematge, big data està sense processar ni
estructurar. Quan s'accedeix a la big data, l'esquema dinàmic s'aplica a les dades sense
processar.
✓ L’arquitectura requerida per administrar les dades:

Reservados todos los derechos.


- Dades tradicionals: compartida
- Big Data: distribuïda
✓ Les fonts des de les quals deriven les dades.
✓ Els mètodes utilitzats per analitzar les dades.

ON ES FA SERVIR EL BIG DATA:

CONCEPTES CLAU DEL BIG DATA:

✓ Decidir en temps real sobre Big Data.


✓ Adquirir tots les dades disponibles.
✓ Analitzar tots les seves dades ràpidament.
✓ Organitzar i separar el Big Data fent servir paral·lelisme massiu.

Aplicar aquests conceptes en el Big Data, permet prendre millors decisions.

Ariadna De Vicente Viladesau

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
AVANTATGES I INCONVENIENTS:

AVANTATGES INCONVENIENTS

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
➢ Respondre a preguntes que abans no ➢ Big data: aquí i ara. Les dades s’actualitzen
tenien resposta constantment
➢ Formular noves preguntes i que sigui molt ➢ Mal ús de les dades. Amb les dades es pot
més àgil arribar a fer mal a altres empreses
➢ Prendre decisions bassades en evidències ➢ Intrusió en la privacitat
➢ Democratitzar les dades ➢ Ús no just de les dades
➢ Visualitzar el coneixement invisible

2. ON UTILITZEM UNA INFRAESTRUCTURA

Reservados todos los derechos.


ON ES POCESSEN LES DADES:

• Mainframe: és un ordinador gran, potent i costós utilitzat principalment per una


gran companyia pel processament d'una gran quantitat de dades; per exemple,
pel processament de transaccions bancàries.
• Clúster i Cloud computing: Definit anteriorment.
• Servidors: És un conjunt d'ordinadors capaç d'atendre les peticions d'un client i tornar-vos una
resposta en concordança.

Model de Còmput i
Característiques Costs
Emmagatzemament
Aprofitar al màxim els Inversió i manteniment
Mainframe Centralitzat
recursos (cost alt) HW/SW
PC i servidors distribuïts
Inversió i manteniment
Clúster Distribuït connectats per xarxes(primer
HW/SW
local després Internet)
Grans CPD amb recursos de Models de pagament
Cloud Centralitzat
baix cost (economia d’escala) per ús
Servidors Local/Remot Propis o llogats (baix cost) Inversió, reposició

COMPARATIVA ENTRE MODEL CLÀSSIC I CLOUD COMPUTING:

MODEL CLÀSSIC CLOUD COMPUTING


- Comparar & Propietat - Subscriure i contractar
Cada 18 mesos

- Instal·lar (SLA)
- Configurar - Fer servi
- Verificar i avaluar - Pagar per ús i en base a
- Administrar una QoS
- Finalment fer servi

En comparativa, processar les dades amb cloud computing és més pràctic i té moltes avantatges.

Ariadna De Vicente Viladesau

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
COM FUNCIONEN ELS SERVEIS AL NÚVOL:

• Cloud Computing: Arquitectura bassada en la virtualització en el qual els clients (guests) s’executen
sobre una màquina host (pot ser amb altres sistemes operatius) de forma concurrent.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
• SLA (Service Level Agreement): És un contracte que descriu el nivell de servei que un client espera
del seu proveïdor.

Reservados todos los derechos.


• QoS: Es tracta de la qualitat de servei.

Web d’ajuda Cloud Computing: https://iciredimpagados.com/blog/cloud-computing/

3. COM S’EMMAGATZEMA
LOCAL VS AL NÚVOL:

1. LOCAL: De forma local, podem tenir una computadora que estigui formada pel seu Hardware i un
Software amb un sistema operatiu, aplicacions i aplicacions externes. El qual també contingui les
dades amb les que volem treballar de forma local sense necessitat d’internet per a accedir a aquestes
dades.

Ariadna De Vicente Viladesau

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
2. AL NÚVOL: D’altra banda, existeix la possibilitat de tenir les dades tant de forma local com a un
servidor. Aquest servidor es trobaria situat en un CPD (Centre de processament de dades) i per
accedir a aquestes dades, s’hauria d’utilitzar una xarxa d’internet.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
MODELS DE SERVEI:

El cloud computing proporciona serveis al núvol tant per les empreses com per l’ús particular:

Reservados todos los derechos.


SaaS PaaS IaaS

1. SaaS (Software com servei): Fer servir les aplicacions del proveïdor que s’executen en una
infraestructura cloud on es troben també les dades. Proporciona als usuaris una aplicació per a un
funcionament complet, tant de la plataforma com de la infraestructura. Es realitza amb una connexió
a la xarxa.
2. PaaS (Plataforma com servei): L’usuari disposa de tota la infraestructures per desenvolupar les seves
aplicacions (p. ex. Eines, BD, llibreries, entorns, etc). Amb aquest sistema és molt més fàcil la
construcció de les aplicacions a través de les eines i utilitats que proporciona el sistema. NO es
preocupa per la Infraestructura.
3. IaaS (Infraestructura com servei): L’usuari demana i desplega capacitat de processament,
emmagatzemament, xarxes i altres recursos que pot incloure sistemes operatius i aplicacions.

BENEFICIS DEL BD / CLOUD:

Només es paga per ús. No hi inversions d’infraestructura tant hardware com (en
COST
alguns casos) software (llicencies software).
RAPIDESA Accessibilitat i entorns connectats a alta velocitat, disponibilitat per regions.
Personal d'IT especialitzat mínim (versions, actualitzacions, problemes de
EFICIÈNCIA
seguretat...).
La configuració està adaptada a les necessitats de cada client, escalabilitat sota
PERSONALITZACIÓ
demanda, elasticitat.
Accés a la informació des de diferents dispositius des de qualsevol lloc amb accés a
ACCESSIBILITAT
internet.
Protocols de seguretat predefinits, garanties de QoS i serveis de còpies de seguretat
SEGURETAT
adequades a les necessitats. Alta disponibilitat.

Ariadna De Vicente Viladesau

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
ACTORS EN BD / CLOUD:

• AWS (Amazon Web Services): És la plataforma al núvol més adaptada i completa del món que ofereix
més de 200 serveis de centres de dades a nivell global. Milions de clients i companyies molt grans
utilitzen AWS ja que és un entorn d’informàtica al núvol molt flexible i segur.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
AWS té l’objectiu de centralitzar tota la informació de la teva empresa en un llac de dades per a poder ser
analitzada i obtenir respostes. És indiferent el format d’aquesta informació, amb les eines que proporciona
es podran transformar per obtenir fonts de dades preparades per l’exploració i l’anàlisi. L’estratègia enfocada
a centralitzar tota la informació és la següent:

Reservados todos los derechos.


Consta de:

✓ Data lake: Emmagatzema qualsevol tipus de dades de forma segura.


✓ Analítica: Analitza les dades amb una selecció molt amplia de serveis.
✓ Machine Learning: Prediu els resultats futurs per aconseguir respostes.

4. LES EINES NECESSÀRIES D’UN PROGRAMARI


QUÈ S’EXECUTARÀ SOBRE AQUESTA INFRAESTRUCTURA?

• Apache Hadoop: És un entorn de programari emprat per a l'emmagatzemament i processat distribuït


de dades usant el model de programació MapReduce. És un entorn d'eines per al processament de
BD sobre clústers d'ordinadors o cloud. La idea fonamental de l'arquitectura Hadoop és reparar a
través d’aquest programari les fallides del maquinari.

La seva computació és fiable, distribuïda i escalable

Ariadna De Vicente Viladesau

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
Hadoop Common: Base i elements
comuns que dona suport a la resta
dels mòduls.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Hadoop DFS (HDFS): Sistema
d'arxius distribuïts.

Hadoop YARN: Gestió i planificació


de treballs distribuïts en el clúster.

Hadoop Map-Reduce: Entorn de


processament paral·lel que aplica
algoritmes de Map-Reduce a grans
volums de dades.

• Spark: És un motor informàtic de propòsit general que realitza el processament per lots. Sens dubte,
per utilitzant Spark Streaming, també es pot fer microbatching.

Reservados todos los derechos.


• Spark Streaming: És una abstracció Spark per realitzar un processament de flux amb estat.

Batch: Processament de Streaming: Flux de dades. Molt ràpid en memòria. En funció


dades emmagatzemades com es van generant Java, Clojure, Scala Storm és molt
complex i té un cost elevat per desenvolupar aplicacions.

Basat en la idea: De moure la


computació abans que les dades

Ariadna De Vicente Viladesau

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
5. ESTRATÈGIES PEL PROCESSAMENT DE DADES
SOBRE LES BASES DE DADES:

✓ Bases de Dades relacionals: Fàcils de fer servir, coneixement, suport, atomicitat de les operacions,
integritat de dades (tipus i compatibilitat).
• Desavantatges: Atomicitat afecta el rendiment, escalabilitat sol ser inferior a NoSQL.

✓ Bases de dades NoSQL: escalabilitat i el seu caràcter descentralitzat (estructures distribuïdes),


obertes i flexibles. Major adaptabilitat, canvis dels esquemes sense haver de parar les bases de dades,
Escalabilitat horitzontal: execució amb pocs recursos. Optimització de consultes per a grans

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
quantitats de dades.
• Desavantatges: No totes contemplen la atomicitat de les instruccions i la integritat de les
dades. Problemes de compatibilitat SQL. Linux si, però altres SO no tant. Eines
d'administració no molt desenvolupades.

Tendències actuals: BD no relacional, distribuïda, open-source, horitzontalment scalable

TEXT ANALYTICS

Reservados todos los derechos.


• Text analítics o Text mining: Fa referència al procés d'analitzar i derivar informació nova de textos.
• Google Ngram Viewer: És un cercador en línia que mostra un gràfic de la freqüència de qualsevol
grup de cerques amb format de text delimitat per comes, trobat en recursos impresos entre l'any
1500 i el 2000. Analitza text de Google (95 B de línies) en anglès, xinès, francès, alemany, hebreu,
italià, rus o espanyol.

Ariadna De Vicente Viladesau

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990

You might also like