You are on page 1of 9

Tema 3

TEMA 3: GOVERNANÇA DE LES DADES A L’ADMINISTRACIÓ DIGITAL. CARACTERÍSTIQUES


DE LES DADES. CLASSIFICACIÓ DE LES DADES ORIENTADES AL SEU ÚS. RELACIÓ ENTRE
DADES. METADADES DICCIONARI DE DADES. DADES ESPECÍFIQUES DE NEGOCI I DADES
DE TRAMITACIÓ. CICLE DE VIDA DE LES DADES. DADES MASSIVES (BIG DATA). MINERIA DE
DADES (DATA MINING)
COS SUPERIOR DE LA GENERALITATDADES
1. GOVERNANÇA DE LES DADES A L’ADMINISTRACIÓ DIGITAL. CARACTERÍSTIQUES DE
LES DADES. CLASSIFICACIÓ DE LES DADES ORIENTADES AL SEU ÚS.
COS SUPERIOR DE LA GENERALITAT
Classificació de les dades orientada al seu ús.

Datawarehouse: enmagatzemes les dades de manera organitzada, separant per tipus de dades,
havent filtrat abans d'emmagatzemar que et farà servei i que no.
Avantatge: només tens el que necessites i has fet una classificació i ordenació de les coses per
tant és més fàcil després trobar patrons, tendències... Té un inconvenient: ordenar i tractar la
informació t'ha costat.

Datalake: donat que a dia d'avui disposar d'espai no és problema, tot el que t'arriba el deixes a un
magatzem, sense ordre, sense classificar, és com tenir un traster ple de caixes sense ordenar, tens
espai i emmagatzemes.
Avantatge: no has de tractar la informació prèviament, per tant el cost és molt inferior, a més
potser havies descartat alguna cosa que amb el temps et dones compte que no t'hauria anat
malament tenir- la. Inconvenient, que et costarà més trobar el que necessites perquè no has fet res
abans 'enmagatzemar SUPERIOR DE LA GENERALITATEA 3: DADES - 8

L'objectiu estratègic de dades obertes que als apunts es parla que pretén impulsar la generació de
valor social a través de l'ús de les dades obertes. Parlem de valor social com a valor per a la societat
en general, empreses, ciutadans…

Per exemple:si tinc una oficina tècnica que desenvolupa projectes on és necessària la cartografia,
l’IGCC posa a disposició de tothom de manera lliure i gratuïta cartografia de Catalunya. Això estalvia
costos per aquests tipus de negocis i a més dinamitza el mercat.

Les dades obertes es poden utilitzar per a realitzar estudis estadístics socioeconòmics, que a
posteriori seran utilitzats per moltes empreses amb propòsits d’anàlisi de mercats i avaluació de risc
comercial, màrqueting i vendes.

Combinar les dades pròpies amb les dades obertes públiques constitueix un actiu estratègic molt
valuós per a qualsevol empresa, tenint en compte que les dades públiques contenen en la majoria
dels casos georeferenciació i, en alguns, informació de gènere, que ens permet conèixer l’entorn i les
preferències dels nostres clients potencials.

Molt interessant també és la possibilitat de detectar nous mercats, nous productes o serveis, i al
mateix temps noves ocupacions i nous perfils laborals, sobretot perfils especialitzats que sàpiguen
quines dades calen, on es poden trobar o demanar i analitzar i combinar per convertir-les en
coneixement, cosa que, revertirà en un augment d’eficiència i de rendibilitat.

1/9
Tema 3

Un altre exemple, el fet que totes les dades relacionades amb la contractació pública siguin
accessibles en format obert, mitjançant el Registre públic de contractes, permet a les petites
empreses conèixer la demanda de les administracions públiques i, per tant, quins productes i serveis
són objecte de licitació, de manera que poden adaptar millor la seva producció a aquestes
necessitats. També aquest Registre permet conèixer quines empreses està contractant
l’administració, quines característiques tenen i quins criteris de valoració es tenen en compte.

2. METADADES
COS SUPERIOR DE LA GENERALITAT
Les metadades es poden definir com dades sobre les dades. Les funcions bàsiques de les
metadades són la identificació, la descripció i la descoberta o recuperació de recursos.

Les metadades són, doncs, dades sobre altres dades. Són la versió Internet de la informació que els
bibliotecaris han posat tradicionalment als catàlegs, i l'aplicació més comuna és la informació
descriptiva de recursos Web.

A diferència de les fitxes dels catàlegs bibliotecaris, amb un marcat caràcter estàtic, les metadades en
suports digitals són continguts amb capacitats dinàmiques, susceptibles d'enriquir-se contínuament.
Per exemple enregistrant les interaccions dels usuaris amb els recursos: el nombre de vegades que
es visualitza o descarrega un contingut, les anotacions i comentaris dels usuaris sobre un recurs o
l'evolució de les diferents versions d'un document.

Les metadades ja són presents en un nombre important de continguts digitals. Per exemple les
trobem en la informació que mostren molts fitxers, quan passen el ratolí per sobre des de l'explorador.

Tipologies de metadades

• Descriptives: Què és, qui, quan, com, on, perquè s'ha fet, a qui va adreçat, nivell(s)
d'accessibilitat, quins elements en formen part, ...
• Educatives: Objectius a assolir, coneixements previs necessaris, complexitat cognitiva, durada i
tipus d'interacció, com s'ha utilitzat...
• Administratives (meta-metadades): identificador, catalogació;
• Tècniques: versió, mida, requeriments per funcionar;
• Drets: De qui és, en quines condicions es pot utilitzar ;
• Gestió: circuit de validació, àmbit de difusió, com s'ha d'arxivar;

Cal recordar que les metadades no sols s'assignen en el moment de la creació d'un objecte sinó que
poden anar enriquint-se al llarg del cicle de vida del contingut.
TEMA 3: DADES - 16
Aplicacions de les metadades

Les metadades permeten automatitzar processos i desplegar noves aplicacions com ara:

• gestionar els drets d'ús dels continguts web;


• relacionar un document amb els altres integrants d'una sèrie;
• formular cerques més precises i disminuir el soroll en els resultats (les cerques avançades són
un exemple);
• localitzar, indexar i integrar automàticament documents a les col·leccions;

2/9
Tema 3

• generar canals d'informació que permeten informar de forma automàtica de les novetats
(Canals RSS).
COS SUPERIOR DE LA GENERALITAT
3. BIG DATA-Mineria de dades (data Mining)
COS SUPERIOR DE LA GENERALITATMA 3: DADES - 18
BIG DATA

Big Data (dades massives, encara que s'utilitza poc la traducció) és el procés de recollida de grans
quantitats de dades i el seu immediat anàlisi per trobar informació oculta, patrons recurrents,
noves correlacions, etc .; el conjunt de dades és tan gran i complex que els mitjans tradicionals de
processament són ineficaços.

Estem parlant de desafiaments com analitzar, capturar, recol·lectar, buscar, compartir,


emmagatzemar, transferir, visualitzar, etc., ingents quantitats d'informació, obtenir coneixement en
temps real i posar tots els sentits en la protecció de dades personals. La mida per albergar tot el
procés ha anat augmentant constantment per poder recopilar i integrar tota la informació.

Per resumir, es pot utilitzar 5 V 's com a definició de Big Data, que és el que caracteritza al sistema
i al mateix temps explica els seus avantatges:

1. Volum: La més evident i la de fer honor al nom; captar i organitzar absolutament tota la informació
que ens arriba és essencial per tenir registres complets i sense biaix, i que les conclusions que
obtinguem serveixin eficientment a l'hora de la presa de decisions. És el Business Intelligence que tots
coneixem, però per la porta gran; tot i que la diferència amb la clàssica intel·ligència de negoci ve
marcada per la resta de V ‘s.

2. Velocitat: Sempre és important el temps si afrontem tant la necessitat de generar informació (i


recordem que estem parlant de moltes dades) com d'analitzar-la, però ho és més si necessitem
reaccionar immediatament; tot el procés demana agilitat per extreure valor de negoci a la informació
que s'estudia i que no es perdi l'oportunitat.
TEA 3: DADES - 21
3. Varietat: Cal donar uniformitat a tota la informació, que tindrà el seu origen en dades d'allò més
heterogenis, Les dades procedeixen de tot tipus de formats. Des de dades estructurades presents en
bases de dades, dades numèriques tradicionals, dades de documents de text no estructurades,
correus electrònics, vídeos, àudio, sistemes GPS, transaccions financeres o sensors digitals d'equips
industrials. Una de les fortaleses del Big Data resideix en poder conjugar i combinar cada tipus
d'informació i el seu tractament específic per a aconseguir un tot homogeni.

4. Veracitat: Es refereix a la qualitat de la dada i la seva disponibilitat; en un entorn descrit per


l'anterior V, Varietat, cal trobar eines per comprovar la informació rebuda; les tecnologies creades al
servei del Big Data es mostren imprescindibles i eficients per afrontar els reptes.

5. Valor: Treballar amb Big Data ha de servir per aportar valor a la societat, les empreses, els
governs, en definitiva, a les persones; tot el procés ha d'ajudar a impulsar el desenvolupament, la
innovació i la competitivitat, però també millorar la qualitat de vida de les persones.
OS SUPERIOR DE LA GENERALITAT
Tipus dades BIG DATA
OS SUPERIOR DE LA GENERALITATTEA 3: DADES - 24

3/9
Tema 3

• Dades estructurades. Aquelles que tenen longitud i format (per exemple dates) i que poden ser
emmagatzemats en taules (com les bases de dades relacionals). En aquesta categoria entren
les que es compilen en els censos de població, els diferents tipus d'enquestes, les dades de
transaccions bancàries, les compres en botigues online, etc.

• Dades no estructurades. Són les que no tenen un format determinat i no poden ser
emmagatzemats en una taula. Poden ser de tipus text (els que generen els usuaris de fòrums,
xarxes socials, documents de Word), i els de tipus no-text (qualsevol fitxer d'imatge, àudio,
vídeo). Dins d'aquesta categoria, podem afegir les Dades semiestructurats, que són els que no
pertanyen a bases de dades relacionals ja que no es limiten a camps determinats, encara que
posseeixen organització interna o marcadors que facilita el tractament dels seus elements;
estaríem parlant de documents XML, HTML o les dades emmagatzemades en bases de dades
NoSQL.
ES - 25
Big data a l’administració
COS SUPERIOR DE LA GENERALITAT
Quan parlem de l'ús de Big Data en el sector públic, hem de tenir prèviament en compte una sèrie
d'aspectes que defineixen aquest sector:

• Multiplicitat d'actors: existeixen diferents tipus d'administracions:

• Territorials, com l'Administració General de l'Estat, l'autonòmica, i la local (que engloba


províncies, comarques, mancomunitats, àrees metropolitanes i municipis).
• No territorials, que distingeixen entre corporatives (col·legis professionals i cambres
oficials) i no corporatives, que són creades amb una finalitat concreta (Centre
d'Investigacions Sociològiques, Institut Nacional d'Estadística).
• Administracions independents, com l'Administració Electoral, la de Justícia o les
Universitats.
• Administracions supraterritorials, com la UE.

• Àmbit competencial: cadascun d'aquests ens té delegades una part de les funcions a realitzar,
però no sempre el límit és prou clar.
TEMA 3
• Concepte de servei públic: a diferència del sector privat, on prima l'objectiu de negoci, les
administracions públiques tenen com a finalitat el servei públic.

• Continuïtat temporal: les Institucions i Organismes tenen una durada al llarg del temps,
independentment del partit polític que governi. Aquesta continuïtat temporal els ha permès, acumular
grans quantitats d'informació que, tot i no estar digitalitzades, són susceptibles de ser-ho i aportar
dades per futurs anàlisis.

Tots aquests factors donen al sector públic un gran potencial d'aprofitament del Big Data en el si de
les seves organitzacions, ja que com a ens de servei públic generen i són dipositàries de grans
quantitats d'informació que d'una altra forma no es generarien o no es mantindrien.

A l’Administració les dades ofereixen una enorme oportunitat per entendre per què passen les coses,
explicar-les bé i prendre les oportunes decisions de millora i canvi.

4/9
Tema 3

És aleshores quan podem referir-nos a la valorització de les dades, és a dir, com podem servir per
aportar valor a un procés o a una acció.

Vist en més perspectiva, de tot el cicle de vida de les dades:

• Recollida
• Emmagatzematge
• Estructuració
• Avaluació de les dades

La clau és saber si comuniquen alguna cosa per al conjunt de les persones.

L’ús de l’anàlisi de dades-data mining


COS SUPERIOR DE LA GENERALITATMA 3: DADES - 36
Per poder analitzar tot això, es precisa de tècniques potents i avançades; les clàssiques mitjanes o
variàncies no són per si soles suficients per extreure tota aquesta quantitat d'informació, ni per
entendre els diferents tipus de dades que hem descrit.

Abans de la irrupció Big Data, ja existien algoritmes matemàtics que ens facilitaven descobrir
informació oculta en les dades, com tots els que engloben el Data Mining (mineria de dades): K-
mitjanes, arbres de decisió, xarxes neuronals, etc., que amb l'arribada de la potència de càlcul
dels ordinadors van permetre escurçar el temps que es trigava a obtenir resultats.

El Data Mining és un procés que intenta descobrir patrons en grans volums de conjunts de dades.
El seu objectiu general és extreure informació d’un conjunt de dades i transformar-la en una
estructura comprensible pel seu ús posterior. Un procés típic d’extracció de dades seria:

1. Selecció del conjunt de dades.


2. Anàlisi de les propietats de les dades mitjançant histogrames, diagrames, valors atípics o
absència de dades.
3. Pre-processament de les dades.
4. Seleccionar i aplicar la tècnica d’extracció de dades: classificació o segmentació.
5. Extracció de coneixement que representa patrons de comportament observats.
6. Interpretació i avaluació de les dades comprovant que les conclusions que demostra són vàlides
i satisfactòries.

Tècniques d’extracció de dades:

• Xarxes neuronals: inspirada en la forma en que funciona el sistema nerviós.


• Regressió lineal: utilitzada només per relacionar 2 variables.
• Arbres de decisió: serveixen per representar i categoritzar una sèrie de condicions que succeeixen
de manera successiva.
• Models estadístics: s’utilitza en forma d’equació.
• Agrupament o Clustering: és l’agrupació de vectors segons criteris de distància.
• Regles d’associació: tracten de descobrir fets que passen en comú dins d’un determinat conjunt
de dades.

5/9
Tema 3

Un exemple d’utilització de la tècnica d’extracció de dades orientada a la genètica, per exemple, seria
detectar com els canvis a la seqüència de l’ADN d’un individu afecten el risc de desenvolupar
malalties comunes com el càncer. La tècnica d’extracció de dades ajudaria a millorar el diagnòstic,
prevenció i tractament de les malalties.

PREGUNTES TEST

1.Què és un format reutilitzable?


A. Un format reutilitzable és un format dissenyat perquè d’altres programes o aplicacions en
puguin fer ús.
B. Un format reutilitzable és un format dissenyat per a la consulta de dades i informació, però que no
en permeten la reutilització de manera senzilla.
C. Un format reutilitzable és un format dissenyat perquè no es pugui accedir ni per consultar ni molt
menys per fer-ne ús.
D. Un format reutilitzable és un format dissenyat per ser consultat però no per fer-ne ús.

2. Quin dels següents és un exemple de format reutilitzable?


A. CSV.
B. XML.
C. PDF.
D. Les respostes a i b són correctes.

3. El format de dades com el PDF:


A. Està dissenyat perquè d’altres programes o aplicacions en puguin fer ús.
B. Està dissenyat per a la consulta de dades i informació, però que no en permeten la
reutilització de manera senzilla
C. Està dissenyat perquè no es pugui accedir ni per consultar ni molt menys per fer-ne ús.
D. És igual al format CSV.

4. La llei 19/2014, del 29 de Desembre, de transparència, accés a la informació pública i bon


govern, estableix que tota la informació del sector públic s’ha de lliurar d’una manera clara,
estructurada i ...
A. En format secret.
B. En format reutilitzable.
C. En format PDF.
D. La llei 19/2014 estableix que tota la informació del sector públic no es pot lliurar de cap manera.

5. Metadada és:
A. Tota aquella informació descriptiva sobre el context, qualitat, condició o característiques
d’un recurs, dada o objecte amb la finalitat de facilitar la seva recuperació, autentificació,
avaluació, preservació i/o interoperabilitat.
B. Tota aquella informació descriptiva sobre el context, qualitat, condició o característiques d’un
recurs, dada o objecte amb la finalitat de dificultar la seva recuperació, autentificació, avaluació,
preservació i/o interoperabilitat.
C. Tota aquella informació descriptiva sobre el context, qualitat, condició o característiques d’un
recurs, dada o objecte amb la finalitat de que el seu destinatari la pugui identificar i no hi pugui accedir
la resta.

6/9
Tema 3

D. Una metadada és una dada que, degut al seu contingut, fa impossible el seu accés per part de la
ciutadania.

6. Quin dels següents no és un exemple de metadada?


A. L’encapçalament d’un fitxer multimèdia.
B. El resum d’un document.
C. Un informe.
D. Les paraules extretes d’un text.

7.Un diccionari de dades:


A. Fa referència a informació de les dades com ara el significat, relacions amb altres dades,
origen, ús i format.
B. Fa referència a un Protocol sobre dades elaborat pel Departament de Polítiques Digitals.
C. Fa referència als informes elaborats anualment per la Secretaria d’Accions Digitals.
D. Fa referència a una base de dades on s’explica el funcionament del programari.

8. Quin és el cicle de vida de les dades?


A. Creació o recopilació, processament, emmagatzematge, publicació i reutilització.
B. Processament, emmagatzematge, creació o recopilació, publicació i reutilització.
C. Reutilització, publicació, emmagatzematge, processament, creació o recopilació.
D. Processament, creació o recopilació, emmagatzematge, reutilització i publicació.

9. Què es el Big Data?


A. El diccionari de dades.
B. Les bases de dades.
C. Les dades en format reutilitzables.
D. Les dades massives.

10. Les dades massives....


A. Ajuden a gestionar les bases de dades.
B. Ultrapassen la capacitat dels sistemes informàtics habituals.
C. No existeixen.
D. Ajuden a concretar el tipus de dades.

11.El processament de dades massives:


A. No és útil ja que és massa abstracte.
B. S’utilitza per detectar patrons podent fer prediccions vàlides per a la presa de decisions.
C. Fa inviable, per la seva extensió, poder detectar cap tipus de patrons, i per tant, les prediccions que
es puguin fer no són vàlides per a la presa de decisions.
D. Les dades massives, per la seva pròpia naturalesa, no es processen.

12.Quina de les següents no és una característica de les Big Data:


A. Volum
B. Varietat
C. Velocitat.
D. Totes en són característiques.

13. La mineria de dades:

7/9
Tema 3

A. Engloba tot un conjunt de tècniques encaminades a l’extracció de coneixement processable.


B. Implica un recull de dades sense tècniques de processament.
C. No s’utilitza actualment.
D. És l’equivalent a les bases de dades.

14. El processament de les dades consisteix en:


A. La selecció del conjunt de dades.
B. L’anàlisi de les propietats de les dades.
C. La transformació del conjunt de dades d’entrada.
D. La selecció i aplicació de la tècnica de mineria de dades.

15. Un procés típic de mineria de dades consta dels següents passos generals:
A. Selecció del conjunt de dades.
B. Anàlisi de les propietats de les dades.
C. Transformació del conjunt de dades d’entrada.
D. Consta de tots aquests passos entre d’altres.

16.El procés de mineria de dades passa per les següents fases:


A. Filtrar de dades, selecció de variables, extracció de coneixement i interpretació i avaluació.
B. Selecció de variables, extracció de coneixement, filtrat de dades i interpretació i avaluació.
C. Extracció de coneixement, filtrat de dades, selecció de variables, i interpretació i avaluació.
D. Interpretació i avaluació, selecció de variables, extracció de coneixement i filtrat de dades.

17.A què respon la següent definició: sistema d’interconnexió de neurones en una xarxa que
col·labora per produir un estímul de sortida
A. Regressió lineal.
B. Arbre de decisió.
C. Xarxes neuronals.
D. Model estadístic.

18.A què respon la següent definició: model de predicció utilitzat en l’àmbit de la intel·ligència
artificial, donada una base de dades es construeixen aquests diagrames de construccions
lògiques, molt similars als sistemes de predicció basats en regles, que serveixen per
representar i categoritzar una sèrie de condicions que succeeixen de manera successiva, per a
la resolució d’un problema:
A. Registre lineal.
B. Arbre de decisió.
C. Xarxes neuronals.
D. Model estadístic.

19. què respon la següent definició: expressió simbòlica en forma d’igualtat o equació que es
fa servir en tots els dissenys experimentals i en la regressió, per indicar els diferents factors
que modifiquen la variable de resposta:
A. Regressió lineal.
B. Arbre de decisió.
C. Xarxes neuronals.
D. Model estadístic.

8/9
Tema 3

20. Quina de les següents és una tècnica de mineria de dades:


A. Regressió lineal.
B. Arbre de decisió.
C. Xarxa neuronal.
D. Totes ho són.

21.Existeixen moltes eines de software pel desenvolupament de models de mineria de dades,


tant lliures com comercials, per exemple:
A. SGBDA
B. T-gisa.
C. Kníme.
D. BCdades.

22.Quina de les següents és un tipus d’informació que produeix la mineria de dades?


A. Associacions.
B. Fundacions
C. Grups d’interès.
D. Informes.

23.Quina de les següents no és un tipus d’informació que produeix la mineria de dades?


A. Associacions.
B. Seqüències
C. Agrupaments.
D. Fundacions.

24.La mineria de dades produeix cinc tipus d’informació. Quina de les següents no ho és?
A. Pronòstics
B. Associacions
C. Seqüències
D. Vitalicis.

25.El data mining:


A. Té la seva base en la intel·ligència artificial i en l’anàlisi estadística.
B. Implica un recull de dades que no s’utilitza actualment.
C. Té la seva base en la SGBD.
D. És molt útil, però no es pot aplicar en la intel·ligència artificial per la poca fiabilitat dels seus
resultats.

9/9

You might also like