Professional Documents
Culture Documents
Aridevi
Escuela de Ingeniería
Universidad Autónoma de Barcelona
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
✓ Canvi de paradigma (de dg a bd)
✓ On utilitzem una infraestructura
✓ Com s’emmagatzema
✓ Les eines necessàries d’un programari
✓ Estratègies pel processament de dades
1. CANVI DE PARADIGMA DG A BD
CANVI DE DADES GRANS (dg) A BIG DATA (bd)
• Big Data: Es refereix a conjunts de dades que creixen tant que és difícil capturar-los, emmagatzemar-
Aquest canvi de paradigma neix degut a que el Big Data no només se centra en un terme que descriu un gran
volum de dades, sinó que es basa en l’anàlisi i tractament d’aquestes dades.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
CONCEPTES GENERALS:
De fet, abans que apareixes el Big Data, l’anàlisi de dades es feia tan sol d’un conjunt d’aquestes dades, però
amb els anys es fa l’anàlisi amb totes les dades per tal que els estudis i resultats siguin més concrets.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Aquesta disciplina s'ocupa de totes les activitats relacionades amb els sistemes que gestionen grans conjunts
de dades. Se centren en la captura, l'emmagatzematge, la cerca, la compartició, l'anàlisi, i la seva isualització.
Es considera Big Data quan no es tracta d’un nombre únic sinó d’un conjunt de paràmetres.
La disciplina dedicada a les dades massives s'emmarca dins de les tecnologies de la informació i la
comunicació.
• L’economia del coneixement: Es refereix a la utilització de les tecnologies del coneixement (com ara
coneixements d'enginyeria i la gestió del coneixement) per produir beneficis econòmics. Es basa en
Per tal de dur això a terme, es van promoure noves estratègies de programació, emmagatzemament,
comunicació i processament.
• National Science Foundation (NFS): És una agència independent del govern dels
Estats Units que impulsa investigació i educació fonamental en tots els camps no
mèdics de la Ciència i l'Enginyeria. Està enfocat en camps com Matemàtiques,
Informàtica, Econòmiques i les Ciències Socials.
NFS es refereix a tot això com "computació intensiva en dades" i pel que fa al camp de la indústria,
s’emmarca en el big-data i cloud computing.
Degut a que des de la Revolució Industrial fins a finals del segle XX, el principal avantatge econòmic
era la capacitat de produir i distribuir bens o productes físics.
No obstant, en les dècades que ens precedeixen s’ha produït un fenomen de transformació dels béns
físics (àtoms) en informació (bits).
• Cloud computing (Informàtica al núvol): Arquitectura bassada en la virtualització en el qual els clients
(guests) s’executen sobre una màquina host (pot ser amb altres sistemes operatius) de forma
concurrent.
És una tecnologia que permet accés remot a programaris, emmagatzematge d'arxius i processament
de dades per mitjà d'Internet, i així és una alternativa a l'execució en un ordinador personal o servidor
local.
En definitiva, és un paradigma que permet oferir serveis de computació a través d'una xarxa, que
normalment és internet.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ORGANITZACIÓ INFRAESTRUCTURA:
Una de les coses que realitza el Big Data és dividir i paralitzar. Per tal de fer això, la infraestructura s’organitza
en nodes i clústers.
• Node: És un ordinador individual que té els seus processadors, disc dur i memòria RAM.
• Clúster: És un conjunt de nodes que treballen de forma coordinada per emmagatzemar la informació
per tal de realitzar el processament. Utilitza un hardware comú i es comporten com si fossin una
ARQUITECTURA:
Les dades tradicionals en general s'administren usant una arquitectura centralitzada, que pot ser més
rendible i segura per a conjunts de dades més petites i estructurades.
• Sistema centralitzat: Consisteix en un o més nodes de clients (per exemple, ordinadors o dispositius
mòbils) connectats a un node central (per exemple, un servidor). El servidor central controla la xarxa
i en monitora la seguretat.
A causa de la seva escala i complexitat, no és possible administrar Big Data de manera centralitzada. El BiG
Data requereix una arquitectura distribuïda.
• Sistemes distribuïts: El que fan és vincular diversos servidors o ordinadors a través d'una xarxa, i
funcionen com a nodes coiguals. L'arquitectura es pot escalar horitzontalment (escalabilitat
horitzontal) i continuarà funcionant fins i tot si fallés un node individual. Els sistemes distribuïts
poden aprofitar la computació de productes bàsics per reduir costos.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
✓ La mida de les dades:
- Dades tradicionals solen mesurar-se en gigabytes i terabytes.
- Big Data es distingeix no només per la mida sinó pel volum. Big data generalment es mesura
en petabytes, zettabytes o exabytes.
✓ Com s'organitzen les dades:
- Dades tradicionals són dades estructurades que s’organitzen en registres, arxius i taules.
- Big Data utilitza un esquema dinàmic. En emmagatzematge, big data està sense processar ni
estructurar. Quan s'accedeix a la big data, l'esquema dinàmic s'aplica a les dades sense
processar.
✓ L’arquitectura requerida per administrar les dades:
AVANTATGES INCONVENIENTS
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
➢ Respondre a preguntes que abans no ➢ Big data: aquí i ara. Les dades s’actualitzen
tenien resposta constantment
➢ Formular noves preguntes i que sigui molt ➢ Mal ús de les dades. Amb les dades es pot
més àgil arribar a fer mal a altres empreses
➢ Prendre decisions bassades en evidències ➢ Intrusió en la privacitat
➢ Democratitzar les dades ➢ Ús no just de les dades
➢ Visualitzar el coneixement invisible
Model de Còmput i
Característiques Costs
Emmagatzemament
Aprofitar al màxim els Inversió i manteniment
Mainframe Centralitzat
recursos (cost alt) HW/SW
PC i servidors distribuïts
Inversió i manteniment
Clúster Distribuït connectats per xarxes(primer
HW/SW
local després Internet)
Grans CPD amb recursos de Models de pagament
Cloud Centralitzat
baix cost (economia d’escala) per ús
Servidors Local/Remot Propis o llogats (baix cost) Inversió, reposició
- Instal·lar (SLA)
- Configurar - Fer servi
- Verificar i avaluar - Pagar per ús i en base a
- Administrar una QoS
- Finalment fer servi
En comparativa, processar les dades amb cloud computing és més pràctic i té moltes avantatges.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
COM FUNCIONEN ELS SERVEIS AL NÚVOL:
• Cloud Computing: Arquitectura bassada en la virtualització en el qual els clients (guests) s’executen
sobre una màquina host (pot ser amb altres sistemes operatius) de forma concurrent.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
• SLA (Service Level Agreement): És un contracte que descriu el nivell de servei que un client espera
del seu proveïdor.
3. COM S’EMMAGATZEMA
LOCAL VS AL NÚVOL:
1. LOCAL: De forma local, podem tenir una computadora que estigui formada pel seu Hardware i un
Software amb un sistema operatiu, aplicacions i aplicacions externes. El qual també contingui les
dades amb les que volem treballar de forma local sense necessitat d’internet per a accedir a aquestes
dades.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
MODELS DE SERVEI:
El cloud computing proporciona serveis al núvol tant per les empreses com per l’ús particular:
1. SaaS (Software com servei): Fer servir les aplicacions del proveïdor que s’executen en una
infraestructura cloud on es troben també les dades. Proporciona als usuaris una aplicació per a un
funcionament complet, tant de la plataforma com de la infraestructura. Es realitza amb una connexió
a la xarxa.
2. PaaS (Plataforma com servei): L’usuari disposa de tota la infraestructures per desenvolupar les seves
aplicacions (p. ex. Eines, BD, llibreries, entorns, etc). Amb aquest sistema és molt més fàcil la
construcció de les aplicacions a través de les eines i utilitats que proporciona el sistema. NO es
preocupa per la Infraestructura.
3. IaaS (Infraestructura com servei): L’usuari demana i desplega capacitat de processament,
emmagatzemament, xarxes i altres recursos que pot incloure sistemes operatius i aplicacions.
Només es paga per ús. No hi inversions d’infraestructura tant hardware com (en
COST
alguns casos) software (llicencies software).
RAPIDESA Accessibilitat i entorns connectats a alta velocitat, disponibilitat per regions.
Personal d'IT especialitzat mínim (versions, actualitzacions, problemes de
EFICIÈNCIA
seguretat...).
La configuració està adaptada a les necessitats de cada client, escalabilitat sota
PERSONALITZACIÓ
demanda, elasticitat.
Accés a la informació des de diferents dispositius des de qualsevol lloc amb accés a
ACCESSIBILITAT
internet.
Protocols de seguretat predefinits, garanties de QoS i serveis de còpies de seguretat
SEGURETAT
adequades a les necessitats. Alta disponibilitat.
• AWS (Amazon Web Services): És la plataforma al núvol més adaptada i completa del món que ofereix
més de 200 serveis de centres de dades a nivell global. Milions de clients i companyies molt grans
utilitzen AWS ja que és un entorn d’informàtica al núvol molt flexible i segur.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
AWS té l’objectiu de centralitzar tota la informació de la teva empresa en un llac de dades per a poder ser
analitzada i obtenir respostes. És indiferent el format d’aquesta informació, amb les eines que proporciona
es podran transformar per obtenir fonts de dades preparades per l’exploració i l’anàlisi. L’estratègia enfocada
a centralitzar tota la informació és la següent:
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Hadoop DFS (HDFS): Sistema
d'arxius distribuïts.
• Spark: És un motor informàtic de propòsit general que realitza el processament per lots. Sens dubte,
per utilitzant Spark Streaming, també es pot fer microbatching.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-5656990
5. ESTRATÈGIES PEL PROCESSAMENT DE DADES
SOBRE LES BASES DE DADES:
✓ Bases de Dades relacionals: Fàcils de fer servir, coneixement, suport, atomicitat de les operacions,
integritat de dades (tipus i compatibilitat).
• Desavantatges: Atomicitat afecta el rendiment, escalabilitat sol ser inferior a NoSQL.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
quantitats de dades.
• Desavantatges: No totes contemplen la atomicitat de les instruccions i la integritat de les
dades. Problemes de compatibilitat SQL. Linux si, però altres SO no tant. Eines
d'administració no molt desenvolupades.
TEXT ANALYTICS