Professional Documents
Culture Documents
Datawarehouse: enmagatzemes les dades de manera organitzada, separant per tipus de dades,
havent filtrat abans d'emmagatzemar que et farà servei i que no.
Avantatge: només tens el que necessites i has fet una classificació i ordenació de les coses per
tant és més fàcil després trobar patrons, tendències... Té un inconvenient: ordenar i tractar la
informació t'ha costat.
Datalake: donat que a dia d'avui disposar d'espai no és problema, tot el que t'arriba el deixes a un
magatzem, sense ordre, sense classificar, és com tenir un traster ple de caixes sense ordenar, tens
espai i emmagatzemes.
Avantatge: no has de tractar la informació prèviament, per tant el cost és molt inferior, a més
potser havies descartat alguna cosa que amb el temps et dones compte que no t'hauria anat
malament tenir- la. Inconvenient, que et costarà més trobar el que necessites perquè no has fet res
abans 'enmagatzemar SUPERIOR DE LA GENERALITATEA 3: DADES - 8
L'objectiu estratègic de dades obertes que als apunts es parla que pretén impulsar la generació de
valor social a través de l'ús de les dades obertes. Parlem de valor social com a valor per a la societat
en general, empreses, ciutadans…
Per exemple:si tinc una oficina tècnica que desenvolupa projectes on és necessària la cartografia,
l’IGCC posa a disposició de tothom de manera lliure i gratuïta cartografia de Catalunya. Això estalvia
costos per aquests tipus de negocis i a més dinamitza el mercat.
Les dades obertes es poden utilitzar per a realitzar estudis estadístics socioeconòmics, que a
posteriori seran utilitzats per moltes empreses amb propòsits d’anàlisi de mercats i avaluació de risc
comercial, màrqueting i vendes.
Combinar les dades pròpies amb les dades obertes públiques constitueix un actiu estratègic molt
valuós per a qualsevol empresa, tenint en compte que les dades públiques contenen en la majoria
dels casos georeferenciació i, en alguns, informació de gènere, que ens permet conèixer l’entorn i les
preferències dels nostres clients potencials.
Molt interessant també és la possibilitat de detectar nous mercats, nous productes o serveis, i al
mateix temps noves ocupacions i nous perfils laborals, sobretot perfils especialitzats que sàpiguen
quines dades calen, on es poden trobar o demanar i analitzar i combinar per convertir-les en
coneixement, cosa que, revertirà en un augment d’eficiència i de rendibilitat.
1/9
Tema 3
Un altre exemple, el fet que totes les dades relacionades amb la contractació pública siguin
accessibles en format obert, mitjançant el Registre públic de contractes, permet a les petites
empreses conèixer la demanda de les administracions públiques i, per tant, quins productes i serveis
són objecte de licitació, de manera que poden adaptar millor la seva producció a aquestes
necessitats. També aquest Registre permet conèixer quines empreses està contractant
l’administració, quines característiques tenen i quins criteris de valoració es tenen en compte.
2. METADADES
COS SUPERIOR DE LA GENERALITAT
Les metadades es poden definir com dades sobre les dades. Les funcions bàsiques de les
metadades són la identificació, la descripció i la descoberta o recuperació de recursos.
Les metadades són, doncs, dades sobre altres dades. Són la versió Internet de la informació que els
bibliotecaris han posat tradicionalment als catàlegs, i l'aplicació més comuna és la informació
descriptiva de recursos Web.
A diferència de les fitxes dels catàlegs bibliotecaris, amb un marcat caràcter estàtic, les metadades en
suports digitals són continguts amb capacitats dinàmiques, susceptibles d'enriquir-se contínuament.
Per exemple enregistrant les interaccions dels usuaris amb els recursos: el nombre de vegades que
es visualitza o descarrega un contingut, les anotacions i comentaris dels usuaris sobre un recurs o
l'evolució de les diferents versions d'un document.
Les metadades ja són presents en un nombre important de continguts digitals. Per exemple les
trobem en la informació que mostren molts fitxers, quan passen el ratolí per sobre des de l'explorador.
Tipologies de metadades
• Descriptives: Què és, qui, quan, com, on, perquè s'ha fet, a qui va adreçat, nivell(s)
d'accessibilitat, quins elements en formen part, ...
• Educatives: Objectius a assolir, coneixements previs necessaris, complexitat cognitiva, durada i
tipus d'interacció, com s'ha utilitzat...
• Administratives (meta-metadades): identificador, catalogació;
• Tècniques: versió, mida, requeriments per funcionar;
• Drets: De qui és, en quines condicions es pot utilitzar ;
• Gestió: circuit de validació, àmbit de difusió, com s'ha d'arxivar;
Cal recordar que les metadades no sols s'assignen en el moment de la creació d'un objecte sinó que
poden anar enriquint-se al llarg del cicle de vida del contingut.
TEMA 3: DADES - 16
Aplicacions de les metadades
Les metadades permeten automatitzar processos i desplegar noves aplicacions com ara:
2/9
Tema 3
• generar canals d'informació que permeten informar de forma automàtica de les novetats
(Canals RSS).
COS SUPERIOR DE LA GENERALITAT
3. BIG DATA-Mineria de dades (data Mining)
COS SUPERIOR DE LA GENERALITATMA 3: DADES - 18
BIG DATA
Big Data (dades massives, encara que s'utilitza poc la traducció) és el procés de recollida de grans
quantitats de dades i el seu immediat anàlisi per trobar informació oculta, patrons recurrents,
noves correlacions, etc .; el conjunt de dades és tan gran i complex que els mitjans tradicionals de
processament són ineficaços.
Per resumir, es pot utilitzar 5 V 's com a definició de Big Data, que és el que caracteritza al sistema
i al mateix temps explica els seus avantatges:
1. Volum: La més evident i la de fer honor al nom; captar i organitzar absolutament tota la informació
que ens arriba és essencial per tenir registres complets i sense biaix, i que les conclusions que
obtinguem serveixin eficientment a l'hora de la presa de decisions. És el Business Intelligence que tots
coneixem, però per la porta gran; tot i que la diferència amb la clàssica intel·ligència de negoci ve
marcada per la resta de V ‘s.
5. Valor: Treballar amb Big Data ha de servir per aportar valor a la societat, les empreses, els
governs, en definitiva, a les persones; tot el procés ha d'ajudar a impulsar el desenvolupament, la
innovació i la competitivitat, però també millorar la qualitat de vida de les persones.
OS SUPERIOR DE LA GENERALITAT
Tipus dades BIG DATA
OS SUPERIOR DE LA GENERALITATTEA 3: DADES - 24
3/9
Tema 3
• Dades estructurades. Aquelles que tenen longitud i format (per exemple dates) i que poden ser
emmagatzemats en taules (com les bases de dades relacionals). En aquesta categoria entren
les que es compilen en els censos de població, els diferents tipus d'enquestes, les dades de
transaccions bancàries, les compres en botigues online, etc.
• Dades no estructurades. Són les que no tenen un format determinat i no poden ser
emmagatzemats en una taula. Poden ser de tipus text (els que generen els usuaris de fòrums,
xarxes socials, documents de Word), i els de tipus no-text (qualsevol fitxer d'imatge, àudio,
vídeo). Dins d'aquesta categoria, podem afegir les Dades semiestructurats, que són els que no
pertanyen a bases de dades relacionals ja que no es limiten a camps determinats, encara que
posseeixen organització interna o marcadors que facilita el tractament dels seus elements;
estaríem parlant de documents XML, HTML o les dades emmagatzemades en bases de dades
NoSQL.
ES - 25
Big data a l’administració
COS SUPERIOR DE LA GENERALITAT
Quan parlem de l'ús de Big Data en el sector públic, hem de tenir prèviament en compte una sèrie
d'aspectes que defineixen aquest sector:
• Àmbit competencial: cadascun d'aquests ens té delegades una part de les funcions a realitzar,
però no sempre el límit és prou clar.
TEMA 3
• Concepte de servei públic: a diferència del sector privat, on prima l'objectiu de negoci, les
administracions públiques tenen com a finalitat el servei públic.
• Continuïtat temporal: les Institucions i Organismes tenen una durada al llarg del temps,
independentment del partit polític que governi. Aquesta continuïtat temporal els ha permès, acumular
grans quantitats d'informació que, tot i no estar digitalitzades, són susceptibles de ser-ho i aportar
dades per futurs anàlisis.
Tots aquests factors donen al sector públic un gran potencial d'aprofitament del Big Data en el si de
les seves organitzacions, ja que com a ens de servei públic generen i són dipositàries de grans
quantitats d'informació que d'una altra forma no es generarien o no es mantindrien.
A l’Administració les dades ofereixen una enorme oportunitat per entendre per què passen les coses,
explicar-les bé i prendre les oportunes decisions de millora i canvi.
4/9
Tema 3
És aleshores quan podem referir-nos a la valorització de les dades, és a dir, com podem servir per
aportar valor a un procés o a una acció.
• Recollida
• Emmagatzematge
• Estructuració
• Avaluació de les dades
Abans de la irrupció Big Data, ja existien algoritmes matemàtics que ens facilitaven descobrir
informació oculta en les dades, com tots els que engloben el Data Mining (mineria de dades): K-
mitjanes, arbres de decisió, xarxes neuronals, etc., que amb l'arribada de la potència de càlcul
dels ordinadors van permetre escurçar el temps que es trigava a obtenir resultats.
El Data Mining és un procés que intenta descobrir patrons en grans volums de conjunts de dades.
El seu objectiu general és extreure informació d’un conjunt de dades i transformar-la en una
estructura comprensible pel seu ús posterior. Un procés típic d’extracció de dades seria:
5/9
Tema 3
Un exemple d’utilització de la tècnica d’extracció de dades orientada a la genètica, per exemple, seria
detectar com els canvis a la seqüència de l’ADN d’un individu afecten el risc de desenvolupar
malalties comunes com el càncer. La tècnica d’extracció de dades ajudaria a millorar el diagnòstic,
prevenció i tractament de les malalties.
PREGUNTES TEST
5. Metadada és:
A. Tota aquella informació descriptiva sobre el context, qualitat, condició o característiques
d’un recurs, dada o objecte amb la finalitat de facilitar la seva recuperació, autentificació,
avaluació, preservació i/o interoperabilitat.
B. Tota aquella informació descriptiva sobre el context, qualitat, condició o característiques d’un
recurs, dada o objecte amb la finalitat de dificultar la seva recuperació, autentificació, avaluació,
preservació i/o interoperabilitat.
C. Tota aquella informació descriptiva sobre el context, qualitat, condició o característiques d’un
recurs, dada o objecte amb la finalitat de que el seu destinatari la pugui identificar i no hi pugui accedir
la resta.
6/9
Tema 3
D. Una metadada és una dada que, degut al seu contingut, fa impossible el seu accés per part de la
ciutadania.
7/9
Tema 3
15. Un procés típic de mineria de dades consta dels següents passos generals:
A. Selecció del conjunt de dades.
B. Anàlisi de les propietats de les dades.
C. Transformació del conjunt de dades d’entrada.
D. Consta de tots aquests passos entre d’altres.
17.A què respon la següent definició: sistema d’interconnexió de neurones en una xarxa que
col·labora per produir un estímul de sortida
A. Regressió lineal.
B. Arbre de decisió.
C. Xarxes neuronals.
D. Model estadístic.
18.A què respon la següent definició: model de predicció utilitzat en l’àmbit de la intel·ligència
artificial, donada una base de dades es construeixen aquests diagrames de construccions
lògiques, molt similars als sistemes de predicció basats en regles, que serveixen per
representar i categoritzar una sèrie de condicions que succeeixen de manera successiva, per a
la resolució d’un problema:
A. Registre lineal.
B. Arbre de decisió.
C. Xarxes neuronals.
D. Model estadístic.
19. què respon la següent definició: expressió simbòlica en forma d’igualtat o equació que es
fa servir en tots els dissenys experimentals i en la regressió, per indicar els diferents factors
que modifiquen la variable de resposta:
A. Regressió lineal.
B. Arbre de decisió.
C. Xarxes neuronals.
D. Model estadístic.
8/9
Tema 3
24.La mineria de dades produeix cinc tipus d’informació. Quina de les següents no ho és?
A. Pronòstics
B. Associacions
C. Seqüències
D. Vitalicis.
9/9