Professional Documents
Culture Documents
DATAWAREHOUSE I DATAMART
- Datawarehouse:
Magatzem de dades, amb l’objectiu de desenvolupar un sistema d’emmagatzematge de
dades que garanteixi la fluïdesa, l’ordre i fàcil maneig dels mateixos, que alhora, suposés
un estalvi en temps i pressupost per les empreses enfront sistemes utilitzats anteriorment.
Amb aquest sistema, les companyies aconsegueixen tenir integrats en un únic contenidor
totes les dades de les seves diferents processos de negoci, a punt per ser analitzats
mitjançant les eines d'explotació i reporting
- DataMart:
Mentre un DataWarehouse conté totes les dades d'una organització, un DataMart només
recull un subconjunt d'aquests, centrant-se en una àrea específica dins el negoci. El seu
objectiu és cobrir les necessitats d'un determinat departament dins de l'organització, de
manera que podria definir-se com un magatzem de dades departamental.
MODEL DIMENSIONAL
Tècnica de modelatge que facilita la compressió de la base de dades, fent-la intuïtiva per a usuaris
no experts, i és comunament utilitzada per implementar els DWH o DM.
- Alt rendiment en les recerques des de la capa de reporting
- Data Vault: Basada en els fonaments del model normalitzat i el dimensional, els aglutina
prenent el millor d'ambdós enfocaments i solucionant les seves mancances.
- Data Lake: Un data lake no és altra cosa que un repositori central en què s'emmagatzema
tota la informació de l'organització sense importar el seu format o origen.
CLASSE 3. NORMALITZACIÓ
● Avantatges ETL:
○ Entorn visual i intuïtiu: a diferència de llenguatges tradicionals són les interficies
gràfiques.
○ Agilitat en la depuració d’errors de desenvolupament
○ Manteniment: interfície gràfica facilita manteniment per menys experimentats.
○ Operacions i capacitats d’administració: Admn. d’errors per logs i estadístiques
d’execució.
○ Connectivitat
○ Maneig de models i metadades
○ Planificació global de conjunt de processos
No obstant això, amb l'augment de les necessitats de les dades a temps real i l'aparició dels
sistemes 'Big Data', s'està començant a posar en dubte el futur de l'ETL tradicional.
CLASSE 4. MODERN DATA MANAGEMENT
Com les eines de dades de nova generació eliminen (part) del manteniment de dades.
2. L’anàlisi requereix temps, però no tot aquest temps està ben aprofitat
3. Una infraestructura de dades deficient és una barrera per a l’èxit
L’augment de la informàtica en núvol ha desplaçat la càrrega de la configuració i
manteniment de servidor, fora dels equips interns i cap a plataformes en núvol com
Amazon Web Services (AWS) (més barates i fiables) però amb marge de millora.
4. Visió general del “data stack”
En el seu nucli, una pila de dades “eficaç” permet realitzar 6 operacions bàsiques:
- Recollida
- Normalització
- Emmagatzematge
- Transformació
- Optimització
RECOLLIDA I TRANSFORMACIÓ
Tradicionalment, la transformació de dades es combinava estretament amb la transferència de
dades, ja que l’optimització de les dades es feia abans d’introduir-les al DataWarehouse (tenia
sentit optimitzar abans quan l’emmagatzematge suposava un cost molt important)
Avui en dia, l’emmagatzematge és significativament més econòmic, cosa que fa que sigui possible
—i sens dubte més intel·ligent— emmagatzemar dades en brut i aplicar transformacions després.
Aquest canvi ha donat lloc a dues maneres d’abordar el procès:
● ETL (extreure, transformar, carregar):
○ Gestiona l’extracció de dades estructurades i no estructurades de diverses fonts.
○ Dades s’extreuen de font, netegen/transformen i es carreguen a l’emmagatzematge.
● ELT (extreure, carregar, transformar):
○ Redueix temps desde l’extracció fins a la comprensió
○ L’anàlisi es més flexible, ja que les les transformacions noves o millorades es poden
aplicar instantàniament a les dades emmagatzemades.
EMMAGATZEMATGE
Tot i que l’emmagatzematge ad hoc pot funcionar durant un temps, les empreses finalment han
d’invertir en un data stack.
Les organitzacions solen arribar al punt d'inflexió quan s'adonen que necessiten emmagatzematge
de dades reals en forma de base de dades. Les bases de dades tenen molts gustos, però les bases de
dades relacionals basades en SQL han dominat durant molt de temps el camp, i per una bona raó:
la base per a construcció de codi / programari (codebase) és sòlida i les bases de dades resultants
són robustes i són relativament fàcils de configurar.
En el seu nucli principal, les bases de dades i els DatawareHouse s’assemblen en què tots dos
emmagatzemen dades. Però un DataWarehouse és un tipus d’emmagatzematge especialitzat
dissenyat per donar suport a les operacions d’anàlisi i que, mitjançant l’ús de la modelització i
transformació de dades, es converteix en un SSOT (Single Source of Truth) que proporciona un
accés fàcil a les dades i informes consistents a tota una organització
DATA STACK
Un Data Stack fa que les dades siguin comestibles. Un data stack és com una guia per obtenir
dades. Càrrega, Emmagatzematge, Transformació, Anàlisi i BI.
ERRORS D’ESTRATEGIA BI
- Pensar que l’analítica és una eina plug-play que portarà retorn de la inversió a curt termini
- Resol problemes que no mereixen ser resolts
- Confiar únicament en proveïdors o consultors per a l’anàlisi, especialment en la creació de
models. Treballar amb proveïdors i consultors pot funcionar, però cal pensar bé la
governança.
- No elaborar llista de prioritats
ERRORS DE GENT
- Organitzar l'anàlisi sota àrees que no impulsen el negoci diàriament, com ara la TI o
l'estratègia.
- Permetre que múltiples equips d'anàlisi floreixin amb sitges organitzacionals entre si.
- Atreure el talent només a través de la compensació base.
- Contractar un grup de doctors que s'esforcen per desenvolupar models altament
complexos en lloc de solucions rudimentàries direccionalment correctes.
- Contractació d’un director tècnic d’anàlisi de dades no tècnica.
ERRORS D’EXECUCIÓ
- No integrar l’analítica als models operatius i als fluxos de treball diaris.
- No es tracta d’ajuntar per ajuntar els científics de dades amb els equips de negocis.
- Gestió de projectes analítics en cascada.
ERRORS DE TECNOLOGIA
- Intentar crear models de ciència de dades sense refinar-ne la infraestructura d'enginyeria
de dades
- No utilitzar cap de les tecnologies bàsiques següents: Hadoop, Spark, R, Python
- Disposar de sitges tecnològics entre els repositoris de dades, cosa que dificulta la
integració de diferents tipus de dades en un model. El poder de l’analítica augmenta
exponencialment amb la diversitat de les dades.
ERRORS DE FINANCES
- No assignar suficient pressupost a les plataformes d’anàlisi
- No mesurar el ROI de les iniciatives d’anàlisi.
BAD DATA
Com ho reconeixem?
1. Et falten dades. No hi ha informació, on hauria d'haver-la
2. Les dades són incorrectes ('no quadra', segur que us sona)
3. Les dades no estan ben ubicades. De vegades, tenim les dades correctes en origen, però no
les ubiquem correctament
4. Errors d'entrada de dades: caràcters erronis, abreviatures, traduccions, etc...
5. Dades duplicades. No sempre ha de ser un error, de vegades és tan trivial com una
empresa que canvia de CIF i no actualitzes
6. Dades no revisades o aprovades. Molta informació requereix de la revisió i aprovació per
part dels responsables
7. Excés de dades. Sí, encara que no ho considereu, si teniu excés de dades, es converteixen
en 'Bad Data'. Voler analitzar canvis d'estat d'un moviment comptable realitzat en un dia
concret... no sol proporcionar 'decisions estratègiques'
Sovint les empreses tenen gran quantitat de dades al seu abast, però no són capaces de posar
ordre entre tants caos i com a conseqüència, no tenen una visió clara de la situació.
- El soroll: El volum de dades i la velocitat amb què es generen, provoquen més soroll que
senyal. Les dades arriben de diferents fonts, en diferents formats, des de diferents eines...
- Tàctica vs. estratègia: Tenir moltes dades no sempre vol dir tenir millor visió sobre la
situació. Les empreses prenen decisions sobre la base de dades cada dia, el problema és
que aquestes decisions són tàctiques ja que es prenen tipus 'silo' (per àrees).
Jerarquies
NOTES: Per recuperar dades d’un magatzem, ajuda a conèixer els components d’una pregunta.
Normalment, els usuaris demanen veure "alguna cosa" (vendes, despeses, nombre d'unitats, etc.)
segmentat "per" determinades coses (hora, ubicació, venedor, etc.).
El que la gent vol veure sol ser numèric i s’anomenen mesures. Les mesures són la base dels KPI.
La forma de segmentar les dades s’anomena dimensions.
Aquestes mesures i dimensions s’emmagatzemen en cubs.
CUBS:
- Els cubs són les estructures en què s’emmagatzemen les dades
- Els usuaris accedeixen a les dades dels cubs navegant per diverses dimensions
NOTES: Un cub és el bloc bàsic d’un data warehouse. Un data warehouse pot contenir un o més
cubs. Un cub és una estructura multidimensional que conté dades basades en dimensions.
Penseu en un exemple de magatzem de dades per a una empresa o organització de transport
marítim com FedEx, UPS o SEUR. En aquest diagrama, es mostren tres dimensions: Temps,
Origen i Ruta. A cada intersecció de Temps, Origen i Ruta hi ha una cel·la. Dins d’aquesta cel·la hi
ha dues mesures: el nombre de paquets i la data d’enviament. Això és molt diferent d'una
configuració relacional: les bases de dades relacionals són bidimensionals (files i columnes) i cada
cel·la només pot tenir un valor únic.
MESURES:
- Les mesures són el que volem veure
- Gairebé sempre són numèriques
- Sovint són additives → Vendes en euros, vendes per unitats, beneficis, despeses i molt més
- Algunes mesures no són additives
→ Data de l'últim enviament
→ Recompte d’inventari i nombre de clients únics
NOTES: Les mesures són el "que" vol veure la gent. Gairebé sempre són numèriques. Sovint són
additius, però no sempre. Les mesures poden ser KPI o servir de base per a KPI. A diferència d'un
esquema relacional, en un cub normalment voleu emmagatzemar valors calculats per tal de fer la
recuperació més ràpida i la majoria de cubs inclouen el concepte de mesures calculades.
DIMENSIONS:
- Les dimensions són com volem veure les dades
- Normalment volem veure dades per temps, geografia, producte, compte, empleat, …
- Les dimensions es componen d'atributs i poden incloure o no jerarquies
→ Any - Semestre - Trimestre - Mes – Dia
→ Categoria de productes - Subcategoria de productes – Producte
NOTES: Les dimensions són com ens agrada a la gent segmentar o dividir les dades. Gairebé
sempre que algú fa una pregunta, descriu com vol veure-la. Per exemple, vendes per botiga per
mes. Els cubs poden contenir moltes dimensions, però com més dimensions estiguin disponibles,
més difícil serà explorar pels usuaris no tècnics.
ATRIBUTS:
- Els atributs són valors individuals que componen les dimensions
→ Una dimensió de temps pot tenir un atribut Mes, un atribut Any, etc.
→ Una dimensió de geografia pot tenir un atribut de país, un de regió, un de ciutat, etc.
→ Una dimensió de producte pot tenir un atribut de número de peça, un de mida, un de
color, un de fabricant i molt més
NOTES: Els atributs representen diferents maneres de veure alguna cosa en una dimensió. Per
exemple, en una dimensió de producte, és possible que l'usuari vulgui comparar les vendes d'un
producte per colors; el producte vermell es ven millor que el blau? Depèn de quina zona del país
s’examini?
Moltes de les columnes d’una taula relacional poden convertir-se en atributs d’un magatzem.
Quan analitzem els empleats, atributs com l’edat, el sexe, la raça, el codi postal i molt més, tenen
sentit per realitzar anàlisis.
JERARQUIES:
- Podem posar atributs en una estructura jeràrquica per ajudar a l'anàlisi de l'usuari
- Una de les funcions més comunes a BI és "aprofundir“ (drill down) fins a un nivell més
detallat
→ Per exemple, la jerarquia de temps pot ser anar d'un any a un trimestre a un mes a un
dia
→ Una altra jerarquia de temps pot anar d'un any a un mes a una setmana a un dia , fins a
l'hora
NOTES: La majoria de les dimensions contenen jerarquies que permeten als usuaris aprofundir
en les dades.
Per exemple, una dimensió de Temps sovint té un nivell d'Any que després es pot desglossar en
trimestres. Els trimestres es poden dividir en mesos i finalment en dies.
Els valors del cub s’emmagatzemen físicament al nivell de granularitat més baix, però els valors
resumits s’emmagatzemen a cada nivell superior de la dimensió, de manera que quan un usuari
demana veure dades trimestrals, el valor ja està emmagatzema i la recuperació és gairebé
instantània.
RESUM:
- El procés ETL extreu dades de sistemes d'origen, els transforma i els carrega a un data
warehouse o a un data mart.
- Mitjançant informes (reports) i taulers (dashboards), La BI considera les dades com una
col·lecció de mesures i KPI visualitzats per dimensions.
NOTES: Quan un estudiant està a l’escola, probablement els seus pares no tenen l’oportunitat
d’examinar tots els treballs i totes les tasques que rebin una nota. En lloc d’això, els pares reben
informes periòdics sobre l’evolució del seu fill a través d’una butlleta d’informe. Aquesta butlleta
mostra un resum d’alt nivell de totes les tasques i proves realitzades durant un període de temps;
és un valor únic acumulat de totes les notes individuals.
De la mateixa manera, els executius empresarials no tenen temps de mirar tots els detalls;
necessiten una targeta d’informe que resumeixi la salut de l’empresa.
Això no vol dir que no necessitin conèixer els detalls a un nivell més granular si les coses estan
malament, però el propòsit del quadre de comandament és mostrar aquest resum ràpid i d’alt
nivell.
Generalment, els quadres de comandament s’actualitzen cada nit o setmanalment perquè estiguin
el més actualitzats possibles. Això vol dir que qualsevol indicador amb tendència a la baixa o que
passa a categories grogues o vermelles es pot veure ràpidament i actuar-hi.
AVANTATGES PER A L’EXECUTIU:
- En un sol cop d’ull, l’executiu pot veure una àmplia franja de negoci (finances, fabricació,
vendes, màrqueting i molt més)
- Es guanya valor immediat sense la necessitat que l’executiu realitzi anàlisis
- Els executius no només veuen valors reals, sinó comparacions amb plans o resultats
anteriors
NOTES: Els executius empresarials són persones ocupades i els quadres de comandaments els
proporcionen una única visió que mostra la salut general de tota l’empresa.
Els executius no tenen temps de recórrer un informe de 100 pàgines per decidir si les taxes de
defectes milloren o empitjoren. En lloc d'això, els quadres de comandament proporcionen a
l'executiu comentaris (feedback) immediats sense que primer hagi de realitzar anàlisis complexes.
Ara els executius poden identificar punts de problemes molt més ràpidament i treballar per actuar
en aquestes àrees.
NOTES: Els quadres de comandament generalment informen dels indicadors clau de rendiment
(KPI) de l’empresa. Sovint es considera que els indicadors bàsics són indicadors financers com ara
vendes, despeses, marge de benefici, etc. Tanmateix, els KPI poden provenir d'altres àrees del
negoci, com ara taxes de defectes, rotació d'empleats, percentatge d'empleats amb una certificació
determinada, etc.
Els indicadors de qualitat gairebé sempre es comparen amb els números “previstos” o
“pressupostaris”, de manera que es pot determinar la salut de l’indicador. El grau d’aproximació
d’un número al pla indica la força i se sol utilitzar per determinar l’indicador que es mostrarà per
a aquest KPI.
Sovint es comparen els KPI amb els valors històrics perquè es puguin generar tendències. La
manera com es determina la tendència depèn de l'empresa, però un indicador "verd" que tendeix a
la baixa pot fer que un executiu investigui aquest valor particular.
EL PROPÒSIT D’UN TAULER DE CONTROL (DASHBOARD):
- Un tauler està dissenyat per permetre als responsables de la presa de decisions veure
diverses dades que afecten les seves divisions o departaments
- Aquestes dades poden tenir la forma de quadres de comandament, gràfics, taules, etc.
- Generalment, el tauler es personalitza per a cada Usuari
- Més orientat i detallat que un quadre de comandament
NOTES: Un tauler de control és una ubicació central que pot contenir més que només dades de
BI. Per exemple, pot incloure correu electrònic, notícies, cotitzacions de valors i molt més.
D’aquesta manera, els responsables de la presa de decisions poden veure dades d’una varietat de
fonts en una sola pantalla. Un dels punts forts d’un tauler és que es pot personalitzar per a cada
persona perquè només vegin les dades que els pertanyen.
Un tauler de control sol dirigir-se més a persones concretes. Si el responsable de la fabricació de
decisions empresarials és el cap de fabricació, els KPIs mostrats se centraran en la fabricació i no
inclouran els KPIs de vendes i màrqueting.
NOTES: Els taulers de control (dashboards) sovint contenen informació dirigida a una àrea
funcional. Això vol dir que el tauler conté KPIs, gràfics i taules centrades en una àrea funcional.
Sovint hi ha informació històrica perquè l’executiu pugui conèixer el que realment ha passat al
llarg del temps. Els taulers de control (dashboards) també poden incorporar informació que no és
de BI, que conté enllaços al calendari d’una persona, al correu electrònic, a les fonts de notícies i
molt més.
EL PROPÒSIT DELS INFORMES (REPORTS):
- Els informes permeten a un públic molt més ampli beneficiar-se de les dades d’una
solució de BI
- Els informes poden ser estàtics i no requereixen formació
- Els informes també poden permetre una quantitat limitada d’interactivitat
- Els informes es poden presentar en diversos formats, cosa que permet una distribució més
fàcil
NOTES: Els informes solen ser el vehicle més fàcil de distribuir a un públic ampli. Els informes es
poden lliurar a tota l'organització i fins i tot a clients externs. Tot i que els informes solen ser
estàtics, poden permetre algunes capacitats analítiques limitades. Els informes tenen l’avantatge
d’estar disponibles en diversos formats. Tot i que el valor per defecte és sovint HTML, moltes
eines d'informes poden produir fitxers PDF Adobe Acrobat, fulls de càlcul del Microsoft Office
Excel, fitxers de text, etc.
Les eines d'informes varien àmpliament en la forma en què es concedeixen llicències. Alguns
requereixen una llicència per servidor o per visualització, mentre que d'altres no requereixen cap
cost addicional de llicència.
NOTES: Les aplicacions personalitzades solen utilitzar la sortida d’algoritmes de mineria de dades
per fer anàlisis predictives: predir quins altres productes pot agradar comprar a un client, predir la
seva probabilitat de pagar un préstec i molt més. Tanmateix, BI també es pot utilitzar per mostrar
tendències al llarg del temps per a un client de manera que un representant de vendes tingui una
imatge clara de les vendes, el marge i molt més per al client al qual està trucant.
TENDÈNCIES QUE AVALEN LES CUSTOM APPLICATION INTEGRATION:
EL PROPÒSIT DE LES APLICACIONS ANALÍTIQUES (ANALYTIC APPLICATIONS):
- Les aplicacions analítiques alliberen els analistes de crear models complexos i escriure
consultes complexes
- Els analistes poden centrar-se lliurement en les dades i descobrir relacions i causes
(drivers) darrere dels números
- Les visualitzacions riques permeten comprendre molt més fàcilment les tendències i les
relacions
NOTES: Els analistes de negocis solen realitzar anàlisis de dades complexes. Gran part d’aquesta
anàlisi és ad hoc i s’inclou en grans fulls de càlcul. Les aplicacions analítiques faciliten la
recuperació i l’anàlisi de dades i moltes aplicacions analítiques inclouen potents eines de
visualització per facilitar la comprensió de les dades. Les aplicacions analítiques permeten a un
analista construir models complexos segons sigui necessari. Aquestes aplicacions proporcionen
habilitats bàsicament il·limitades per aprofundir en les dades, seccionar-les i tallar-les a daus de
qualsevol manera.
NOTES: No hi ha res que no es pugui posar en les aplicacions analítiques més potents; van ser
dissenyats per utilitzar totes les funcions de la solució de BI creada per una organització. Això pot
incloure KPI o mesures més bàsiques. Molts poden crear les seves pròpies mesures calculades o
KPI. Per molt poderoses que siguin aquestes aplicacions, sovint hi ha associada una corba
d’aprenentatge; l'augment de potència també condueix a un augment de la complexitat.
RESUM:
- Business Intelligence és el procés de consolidació de dades dispars
- La informació de BI hauria de ser fàcilment accessible i hauria d’admetre diverses opcions
de visualització
- BI hauria d’admetre una àmplia varietat d’usuaris
- BI permet als usuaris explorar les dades, examinar relacions i molt més
- BI pot donar suport a operacions de mineria de dades
CLASSE 6: AUDIÈNCIES EN BI
Quins rols són els destinataris d’un projecte / servei de Business Intelligence en una empresa?
ESPAI TI-BI
AUDIÈNCIA DE BI
PROPOSTA DE VALOR DE BI
BI - MODELS TRADICIONALS
BI - PERSPECTIVA DE L’USUARI
● Informes: Difusió regular d'informació massiva en un format estàndard
● Analítica
○ Talls i tallat amb retroalimentació visual i interactivitat.
○ Principalment per a la Direcció Mitjana: per a decisions tàctiques i per orientar les
decisions estratègiques
● Taulers de control
○ Instantànies de destil·lació ràpida, que ressalten els índexs clau, per a la presa de
decisions instantània
● D.A.R. - Combinació perfecta de distribució de dades i comprensió de la Informació
○ D – Dashboard tells you what is good or bad
○ A – Analysis tells you how or why
○ R – Report tells you the actionable items
REPORTING - CONSIDERACIONS
- Tecnologies d'informes: Dissenyat per a la distribució d'Informació
- Ad-Hoc o predefinit?
- Durant el fet (en temps real) o després del fet : Dades transaccionals (o) anteriors
- Presentació: Gràfics o tabulars / textuals
- Navegabilitat als informes: Drill Through, Drill Across
BI - FLUX DE NOVA GENERACIÓ DE BI
REPORTS NAVEGABLES
- Interactius
- Slice (tallar data) & Dice (tallar en segments la data)
L'anàlisi ha de facilitar:
- Inspecció
- Exploració
- Sondeig de preguntes / respostes que coincideixen amb el procés humà d'assimilació de
dades.
Exploreu lliurement
- Observar - Identificar noves relacions / dependències / patrons
- - Nova comprensió - Noves decisions / accions
Nadeu lliurement a l’espai de dades multidimensional:
- Client -> Productes -> Persona comercial -> Altres productes -> Altres clients -> Geografia
-> Producte més venut -> …
ANALÍTIQUES AVANÇADES - MINING AND MODELS
● Modelatge
○ Models descriptius i predictius
● Exemples famosos
○ Cervesa i bolquers: anàlisi de cistelles de mercat
○ Chrysler: identificació de nous patrons (CRISP-DM)
● Requisits típics
○ Model per predir el desgast
○ Model per decidir els límits de crèdit per a un sol·licitant de targeta de crèdit
● Necessari per a un petit percentatge d’usuaris de la investigació
● Els models desenvolupats aquí s’utilitzen en Control d’Operacions
○ Models de risc, Models de fluxos de caixa, Models de cua, Models estocàstics ... etc.
CRISP-DM
El procés estàndard de la indústria CRoss per a la mineria de dades (CRISP-DM) és un model de
procés amb sis fases que descriu de manera natural el cicle de vida de la ciència de dades. És com
un conjunt de baranes que us ajudaran a planificar, organitzar i implementar el vostre projecte de
ciència de dades (o aprenentatge automàtic).
Però acumular grans volums de dades no és equivalent a reunir coneixements valuosos. És només
quan les dades s'ordenen i s'avaluen que n'aprenem alguna cosa.Així, l'Institut SAS va
desenvolupar SEMMA com el procés de mineria de dades.
Té cinc passos:
● Mostrar (Sample): L'objectiu d'aquesta etapa inicial del procés és identificar variables o
factors (tant dependents com independents) que influeixen en el procés. A continuació, la
informació recollida s'ordena en categories de preparació i validació.
● Explorar (Explore): Durant aquest pas, es realitza una anàlisi univariant i multivariant per
estudiar les relacions interconnectades entre els elements de dades i identificar els buits
en les dades. Mentre que l'anàlisi multivariant estudia la relació entre variables, la
univariada mira cada factor individualment per entendre la seva part en l'esquema global.
S'analitzen tots els factors d'influència que poden influir en el resultat de l'estudi, amb una
gran confiança en la visualització de dades.
● Modificar (Modify): En aquest pas, les dades s'analitzen i es netegen, després es passen a
l'etapa de modelatge i s'exploren si les dades requereixen perfeccionament i transformació.
● Modelar (Model): Amb les variables refinades i netejades, el pas de modelització aplica
una varietat de tècniques de mineria de dades per tal de produir un model projectat de
com aquestes dades aconsegueixen el resultat final desitjat del procés.
● Avaluar (Assess): en aquesta etapa final del SEMMA, s'avalua el model de la utilitat i
fiabilitat que és per al tema estudiat. Les dades ara es poden provar i utilitzar per estimar
l'eficàcia del seu rendiment.
QUÈ ÉS UN BUSINESS INTELLIGENCE?
- Inclou de tot:
→ Informes visuals i interactius, Ad hoc
→ Anàlisi interactiu
→ Anàlisi “Què passa si “ (What-if)
→ Modelització descriptiva i predictiva
- Cal definir maneres d’introduir BI
- Totes les empreses necessiten un enfocament personalitzat
NOTES: Amb les dades i la informació com l'actiu més estratègic d'una empresa, el repte
subjacent que les organitzacions tenen avui dia és entendre i fer servir les dades per afectar de
manera positiva el canvi dins de l'empresa. Però les empreses continuen intentant fer servir les
seves dades de manera significativa i productiva, cosa que afecta la seva capacitat d'actuació. Una
empresa detallista ha de ser capaç d'usar les enormes quantitats de dades i informació d'una
manera que afecti el negoci, per exemple per al següent:
- Seguiment de l'inventari Identificació d’hàbits de compra
- Detecció de tendències i patrons d’usuaris
- Recomanació de compres
- Definició d'optimitzacions de preus
- Identificació i detenció del frau
A més, podeu cercar patrons de venda diaris o mensuals. Altres segments de dades comunes que
potser voleu examinar són dia a dia, setmana a setmana i mes a mes, perquè pugueu comparar les
vendes d'una setmana amb les de la mateixa setmana de l'any anterior, per exemple.
El procés d'explicar una història mitjançant dades també es vincula a la creació d'aquesta cultura
de dades dins de l'organització. Encara que la història és important, on s'explica també és
fonamental per garantir que es transmet a les persones adequades. A més, assegureu-vos que els
usuaris puguin detectar la història, que saben on trobar-la i integrar-la en les interaccions
habituals. L'anàlisi de dades existeix per facilitar la superació d'aquests desafiaments i obstacles,
cosa que en última instància ajuda les empreses a obtenir conclusions i revelar el valor ocult entre
la multitud de dades a través de la narrativa. A mesura que llegiu, obtindreu informació sobre com
utilitzar i aplicar aptituds analítiques per anar més enllà d'un únic informe i influir en
l'organització explicant històries amb les dades i impulsant aquesta cultura de dades.
ANÀLISIS DE DADES: CATEGORIES:
Encara que el procés d’anàlisi de dades se centra en les tasques de neteja, modelatge i visualització
de dades, el concepte d’anàlisi de dades i la seva importància per a les empreses no‘’sha de
subestimar. Per analitzar les dades, els components principals de l'anàlisi es divideixen en les
categories següents:
Anàlisi descriptiva → L'anàlisi descriptiva ajuda a respondre preguntes sobre què ha passat, en
funció de dades històriques. Mitjançant el desenvolupament d’indicadors clau de rendiment
(KPI), aquestes estratègies poden facilitar el seguiment de l’èxit o el fracàs dels objectius clau. Un
exemple d’anàlisi descriptiva és la generació d’informes per proporcionar una visió de les dades
financeres i de vendes d’una organització.
Anàlisi de diagnòstic → L'anàlisi de diagnòstic ajuda a respondre preguntes sobre per què hi ha
hagut un esdeveniment. Les tècniques d'anàlisi de diagnòstic complementen l'anàlisi descriptiva
bàsica i fan servir els resultats de l'anàlisi descriptiva per identificar la causa d'aquests
esdeveniments. Després, els indicadors de rendiment s'investiguen encara més per descobrir
perquè aquests esdeveniments han millorat o empitjorat. Aquest procés se sol fer en tres passos:
1.- Identificació d'anomalies a les dades: Aquestes anomalies poden ser canvis inesperats en una
mètrica o un mercat determinat.
2.- Recull de dades relacionades amb aquestes anomalies.
3.- Ús de tècniques estadístiques per detectar relacions i tendències que expliquin aquestes
anomalies.
Anàlisi predictiva → L'anàlisi predictiva ajuda a respondre preguntes sobre el que passarà en el
futur. Les tècniques d'anàlisi predictiva usen dades històriques per identificar tendències i
determinar la probabilitat que es repeteixin. Les eines d'anàlisi predictiva proporcionen valuoses
conclusions sobre el que podria passar en el futur.
Anàlisi prescriptiva → L'anàlisi prescriptiva ajuda a respondre preguntes sobre les accions que cal
dur a terme per assolir un objectiu. Mitjançant les conclusions de l'anàlisi predictiva, les
organitzacions poden prendre decisions basades en dades. Aquesta tècnica permet que, en cas
d'incertesa, les empreses prenguin decisions fonamentades. Les tècniques d'anàlisi prescriptiva
depenen d'estratègies d'aprenentatge automàtic per cercar patrons en conjunts de grans dades.
Mitjançant l’anàlisi d’esdeveniments i decisions anteriors, les organitzacions poden calcular la
probabilitat d’altres resultats.
Anàlisi cognitiva → L'anàlisi cognitiva ajuda a saber què podria passar si canviessin les
circumstàncies i a determinar com es podrien controlar aquestes situacions. Les inferències no són
consultes estructurades basades en una base de dades de regles, sinó supòsits no estructurats que
es recopilen de diversos orígens i s'expressen amb diferents graus de confiança. L'anàlisi cognitiva
eficaç depèn d'algorismes d'aprenentatge automàtic i utilitza diversos conceptes del processament
de llenguatge natural per entendre orígens de dades desaprofitades anteriorment, com ara els
registres de converses de centres de trucades i revisions de productes.
+
ANÀLISIS DE DADES: ROLS
Fa poc temps, els rols com els d'analistes de negocis i desenvolupadors d'intel·ligència empresarial
eren els habituals per al processament i la comprensió de les dades. Però l'augment excessiu de la
mida de les dades i els diferents tipus ha provocat que aquests rols evolucionin cap a conjunts
d'aptituds més especialitzades que modernitzen i simplifiquen els processos d'enginyeria i anàlisi
de dades.
Rols a les dades i la seva responsabilitat específica en tot l'espectre de la detecció i comprensió de
les dades:
1. Analista de negocis → Encara que hi ha algunes similituds entre un analista de dades i un
analista de negocis, el diferenciador clau entre tots dos és el que fan amb les dades. Un
analista de negocis és més a prop de l'empresa i és un especialista en la interpretació de les
dades que procedeixen de la visualització. Sovint, les tasques de l'analista de dades i
l'analista de negoci poden ser responsabilitat d'una mateixa persona.
2. Analista de dades → Un analista de dades permet a les empreses maximitzar el valor dels
seus recursos de dades mitjançant eines de visualització i creació d'informes com
Microsoft Power BI. L'analista de dades és responsable de la generació de perfils, la neteja i
la transformació de les dades. Les seves responsabilitats també inclouen el disseny i la
creació de models de dades escalables i eficaces, i l'habilitació i la implementació de les
funcions d'anàlisi avançat en informes per a la seva anàlisi. Un analista de dades treballa
amb les parts interessades pertinents per identificar els requisits de dades i de creació
d’informes necessaris i, després, s’encarrega de convertir les dades sense processar en
conclusions rellevants i significatives. A més, també és responsable d'administrar els
recursos de Power BI, inclosos els informes, panells, àrees de treball i els conjunts de dades
subjacents que es fan servir als informes. Se us encomana la implementació i configuració
dels procediments de seguretat adequats, juntament amb els requisits de les parts
interessades, per garantir la seguretat de tots els recursos de Power BI i les seves dades. Un
analista de dades treballa amb enginyers de dades per determinar i localitzar els orígens
de dades adequades que satisfan els requisits de les parts interessades. A més, treballa amb
enginyers de dades i administradors de bases de dades per assegurar-se de tenir l’accés
adequat als orígens de dades que necessita. L'analista de dades també treballa amb
enginyers de dades per identificar nous processos o millorar els ja existents per tal de
recopilar dades per analitzar-les.
3. Enginyer de dades → Els enginyers de dades aprovisionen i configuren les tecnologies de
plataforma de dades locals i al núvol. Administren i protegeixen el flux de dades
estructurades i no estructurades procedents de múltiples orígens. Entre les plataformes de
dades que usen hi ha les bases de dades relacionals, les bases de dades no relacionals, els
fluxos de dades i els magatzems de fitxers. Els enginyers de dades també s'asseguren que
els serveis de dades s'integrin de manera segura i sense problemes als serveis de dades.
Entre les seves principals responsabilitats s'inclou l'ús de serveis dades locals i al núvol, i
eines per a la ingesta, la sortida i la transformació de dades procedents de múltiples
orígens. Els enginyers de dades col·laboren amb les parts interessades de ‘lempresa per
identificar i complir els requisits de les dades. A més, dissenyen i implementen solucions.
Tot i que hi podria haver certa semblança entre les tasques i les responsabilitats d'un
enginyer de dades i un administrador de bases de dades, l'àmbit de treball d'un enginyer
de dades va més enllà del manteniment d'una base de dades i del servidor on s'allotja , i és
probable que no inclogui l'administració general de les dades operatives. L'enginyer de
dades afegeix un valor enorme als projectes de ciència de dades i intel·ligència
empresarial. Quan l'enginyer de dades aglutina les dades, cosa que se sol descriure com a
neteja i transformació de les dades, els projectes es mouen més ràpidament perquè els
científics de dades poden centrar-se en les seves àrees de treball específiques. Com a
analista de dades, treballareu juntament amb un enginyer de dades per assegurar-vos que
podeu accedir als diferents orígens de dades estructurades i no estructurades, ja que us
ajudaran a optimitzar els models de dades que normalment se serveixen des d'un
magatzem de dades o llac de dades modern. Tant els administradors de base de dades com
els professionals d'intel·ligència empresarial poden adoptar un rol d'enginyer de dades si es
familiaritzen amb les eines i les tecnologies usades per processar grans quantitats de
dades.
4. Científic de dades → Els científics de dades fan una anàlisi avançada per extreure valor de
les dades. El vostre treball pot variar de l'anàlisi descriptiva a l'anàlisi predictiva. L'anàlisi
descriptiva avalua les dades a través d'un procés conegut com a anàlisi de dades
exploratòria (EDA). L'anàlisi predictiva es fa servir en l'aprenentatge automàtic per aplicar
tècniques de modelatge que poden detectar anomalies o patrons. Aquestes anàlisis són
una part important dels models de previsió. L'anàlisi descriptiva i la predictiva només
representen aspectes parcials del treball dels científics de dades. Alguns científics de dades
poden endinsar-se en l'aprenentatge profund, fent experiments iteratius per resoldre un
problema de dades complicat mitjançant l'ús d'algoritmes personalitzats complexos. Les
proves anecdòtiques suggereixen que la major part del treball d'un projecte de ciència de
dades s'inverteix en la neteja i la transformació de dades i en l'enginyeria de
característiques. Els científics de dades poden accelerar el procés d’experimentació quan
els enginyers de dades usen els seus coneixements per netejar i transformar correctament
les dades. A simple vista, és possible que sembli que el treball d’un científic de dades i un
analista de dades són diferents, però no és així. Un científic de dades examina les dades
per determinar les preguntes que necessiten respostes i, sovint, dissenyarà una hipòtesi o
un experiment, i després recorrerà a l'analista de dades perquè us ajudi amb la
visualització de dades i la creació d'informes.
5. Administrador de base de dades → Un administrador de bases de dades implementa i
administra els aspectes operatius de les solucions de plataforma de dades híbrides i
natives del núvol que es basen en serveis de dades de Microsoft Azure i Microsoft SQL
Server. També és responsable de la disponibilitat general i de les optimitzacions i
rendiment coherents de les solucions de base de dades. Treballa amb les parts interessades
per identificar i implementar les directives, les eines i els processos per als plans de còpia
de seguretat i recuperació de dades. El rol d'un administrador de la base de dades és
diferent del d'un enginyer de dades. Un administrador de bases de dades supervisa i
administra l'estat general d'una base de dades i el maquinari on es troba, mentre que un
enginyer de dades està implicat en el procés de neteja i transformació de dades, és a dir, la
ingesta, transformació, validació i neteja de les dades per satisfer les necessitats i els
requisits empresarials. L'administrador de bases de dades també és responsable
d'administrar la seguretat general de les dades, i de concedir i restringir l'accés i els
privilegis dels usuaris a les dades segons les necessitats i els requisits empresarials.