Professional Documents
Culture Documents
L’objectiu d’aquest treball és realitzar una regionalització dels temporals marítims a la costa
catalana mitjançant una sèrie d’anàlisis al voltant de l’alçada de l’onatge registrada amb
boies.
Per a portar-lo a terme, s’ha decidit utilitzar les dades de la xarxa SIMAR, aquestes dades
s’han obtingut de la web de “Puertos del Estado”. S’empraran un conjunt de 8 boies d’una
zona propera al port de Barcelona, de les quals aconseguim l’alçada d’ona registrada cada
hora des del 1970 fins al 2023 (cinquanta-tres anys).
Un cop dut a terme el pretractament de les dades durem a terme una sèrie d’ajustos amb
diferents models per poder trobar el que millor ajusti els períodes de retorn. Per això
començarem fent servir dos models GEVD pel mètode de màxima versemblança (ML), un
estacionari i un altre no estacionari. Dins de cadascun farem una sèrie de models (en total
cinc) on anirem analitzant cadascun i fent una sèrie de seleccions. Cal destacar, que en els
models pertanyents al no estacionari s’utilitzaran una sèrie de covariables com el temps.
Seguit farem ús del model GPD pel mètode de màxima versemblança fent servir el paquet
extRemes de R, per poder realitzar l’ajust triarem primer un llindar de referència, un cop
ajustat valorem la bondat d’ajust, calculem els períodes de retorn i la probabilitat de superar
un valor d’interès en aquest cas el valor màxim registrat.
Per finalitzar, es farà una anàlisi clúster, procés que serveix per comparar grups de dades que
comparteixen la mateixa informació o tenen informació similar entre ells. Per aquest procés
s’utilitzaran les dades de les sigmes extretes de l'arxiu6-treball1-BayesianGPDStan-ACESI.
1
TRACTAMENT DE DADES
A causa de la zona que hem escollit, les dades agafades de les nostres vuit boies no tenen
grans diferències entre si.
El primer que veiem en analitzar la màxima alçada d’ona entre aquestes vuit boies, és que la
seva mitjana és de 7,56 metres, variant entre mesures des de 6,09 m a 8,09 m
(figura.1_anexos. Comparació de dades).
Pel tractament de dades hem aconseguit vuit taules, una per cada node on teníem 12 variables
i 55 observacions. Per arribar fins aquí, hem carregat la informació de cada boia i hem
realitzat una primera representació de 20 variables i 469961 observacions. Després de
diverses interaccions, com per exemple, la selecció dels màxims anuals (alçada màxima
d’onatge de cada any), hem obtingut una taula reduïda de 55 observacions i 12 variables, on
tenim dades tan importants com l’alçada significativa de l’onatge i el logaritme d’aquesta.
En la següent figura (figura.2) podem observar les alçades d’onatge d’aquests 53 anys
seleccionats.
2
MODEL GEVD ESTACIONARI PEL MÈTODE ML
Hem ajustat el model GEVD estacionari a les dades de les boies utilitzant el mètode de
Màxima Versemblança (ML). Avaluant la bondat de l’ajust fent ús de diversos criteris, com
per exemple, l'AIC i el BIC. A més s’ha calculat els valors de probabilitat per a períodes de
retorn de 2, 20 i 100 anys.
En aquest cas hem emprat dos models. El model 1 corresponent al fit 1 ajustat amb “fevd”
utilitzant el mètode ML. Els paràmetres a estimar han sigut “location”, “shape” i “scale”, els
criteris de bondat d’ajust fets servir han sigut “AIC” i “BIC”. Per altra banda, el model 2 és el
corresponent al fit 0, també ajustat amb “fevd”, però utilitzant el tipus de distribució Gumbel
(‘type=”Gumbel”) i, a més, els paràmetres estimats han sigut “location” i “scale”.
Per comparar aquests dos models hem fet servir els valors de bondat d’ajust d’AIC i BIC.
AIC és el criteri d’informació d'Akaike i BIC correspon al criteri d’informació bayesià, un
menor valor en aquests dos criteris indica un millor ajust, en aquest cas si veiem la
figura.3_anexos. Informació GEVD basic podem observar com els valors del fit0 són
inferiors als del fit1, afirmant d’aquesta manera que el fit 0 s’ajusta millor.
Per una altra banda, també hem avaluat quin model era millor amb la prova de significança
estadística feta amb “lr.test (fit0, fit1)”. Aquesta prova compara la bondat d’ajust i determina
quin és significativament millor.
3
MODEL GEVD NO ESTACIONARI PEL MÈTODE ML
En aquest cas hem ajustat els tres models (fit 2, fit3 i fit 4) amb el model GEVD no
estacionari als màxims utilitzant el mètode de Màxima Versemblança.
Per fer-ho hem incorporat dos covariables, temps (anomenat “temps0_new” de 55 valors) i
l’alçada significativa de l’onatge (anomenada com “Altura. Signif..del.Oleaje.m. de 55 valors
també).
En el fit 2 (figura.5_anexos. Taula resum de les dades per analitzar el fit 2), hem calculat els
criteris de bondat d'AIC i BIC, log likelihood, el shape, el scale i dues variables noves amb el
nom de ‘mu0’ i ‘mu1’ (μ) . Aquests dos paràmetres els trobem de la funció de densitat de
probabilitat (figura 6) on les mu corresponen al paràmetre de la ubicació. En aquest cas es fan
servir per caracteritzar la ubicació de la distribució en cada ajust del model GEVD.
En el cas del fit 3 (figura.7_anexos. Taula resum de les dades per analitzar el fit 3), hem
calculat el mateix que en el fit 2, però en aquest cas, a més d’utilitzar les mu hem utilitzat
“sigma” la qual correspon al paràmetre d’escala (σ) (figura 6). En aquest cas s’utilitzen per
caracteritzar l’escala de la distribució en cada ajust del model GEVD.
En el cas del fit 4 (figura.8_anexos; Taula resum de les dades per analitzar el fit 4), hem
calculat el mateix que en el fit 3, però en aquest cas, a més de fer servir sigma (σ) i mu (μ)
s’ha emprat phi (ξ), corresponent a la inversa del paràmetre de forma. Aquests paràmetres
afecten la forma de la cola de distribució. Un valor més baix de ‘phi1’ o més alt de ‘phi0’
indica coles més pesades i la probabilitat d’observar esdeveniments extrems relativament alts.
En resum, ‘phi1’ i ‘phi0’ són paràmetres que caracteritzen la forma de la distribució en cada
ajust del model GEVD.
Si comparem aquests tres models no estacionaris (fit2, fit3 i fit 4) entre ells en surt que l’ordre
de preferència és el següent: fit 4-fit 3-fit 2 sent el fit 4 preferible al fit 3 i el fit 3 al fit 2. Això,
ho hem calculat amb la prova de significança estadística juntament amb els valors d'AIC,
BIC i el likelihood comparant-los entre si (en totes les 8 boies (figures. 5-7-8_anexos. Taules
comparatives de resum).
4
COMPARACIÓ MODEL NO ESTACIONARI AMB L'ESTACIONARI
Si comparem els cinc models que tenim (fit 1, fit 0, fit 2, fit 3 i fit 4) mitjançant la prova de
significancia estadística juntament amb l'AIC, el BIC i el likelihood. L’ordre de preferència
seria el següent: fit 4 - fit 0 - fit 3 - fit 2 - fit 1 (sent el fit4, fit3 i fit 2 corresponents al fit no
estacionari i el fit 1 i fit 0 a l'estacionari). (figures. 5-7-8_anexos. Taules comparatives de
resum).
Si comparem el fit 4 (no estacionari) amb el fit 0 (estacionari) de la mateixa manera surt que
el fit 4 és preferible al fit 0. Llavors, el millor segon els criteris estàndard és el fit 4 (no
estacionari).
Com s’ha comentat anteriorment, segons els criteris estàndard, el millor model és el fit 4
(corresponen al model GEVD no estacionari).
Per aquest model hem calculat els valors de retorn per als períodes de 2, 20 i 100 anys per les
vuit boies i ens han donat els segons resultats: (figura.9. Taula períodes de retorn 8 boies).
Totes aquestes dades són l’alçada estimada de l’onatge per cadascun dels períodes de retorn,
en la figura 9 podem observar com varia l’alçada estimada pels diferents períodes en
cadascuna de les boies. Com observem no hi ha gran variació entre boies, ja que, les trobem
en una àrea propera.
Per fer això hem escollit 3 màxims per boia, les tres mesures més elevades i d’aquestes hem
calculat la probabilitat que hi ha que en un futur quedin superades. Com podem veure a la
figura 10, les probabilitats són mínimes, moltes no arribant ni a l'1%.
5
MODEL GPD ESTACIONARI, MÈTODE ML
En aquesta part s’ha tractat d’ajustar el model GPD estacionari, pel mètode de màxima
versemblança de les dades d’alçada significativa d’onatge. Per aquesta part del projecte, s’ha
decidit utilitzar les dades de l’alçada de les onades en comptes del seu logaritme, ja que els
resultats amb el logaritme no eren molt raonables. Mentre que de l’altra forma s’obtenien
resultats més correctes, a més que realitzar aquest canvi no influeix ni en els resultats ni en la
seva interpretació.
L’objectiu principal quan s’usa un model de GPD és modelitzar els conjunts d’extrems com
els que tenim en les nostres dades. Per fer-ho seleccionarem un llindar per tal que la
modelització sigui la més adient possible respecte al model que volem ajustar (GPD). Per
aquest exercici seguirem l’exemple de la boia 10 per poder explicar-ho millor, encara que s'ha
dut a terme el model per totes les boies.
Amb les dades d’altura significant d’aquesta boia observem el següent “threshold” general
acotat entre 0 i 5, decidim escollir els valors que són més rectes o paral·lels, d’aquesta
manera escollim el nostre rang per avaluar entre els valors d'1 a 3,5.
6
Observant aquest rang de dades, es busca el
llindar on la línia sigui més recta d’aquesta.
D’aquesta forma seleccionem el valor de 2,3,
ja que després de fer diferents proves és el que
demostra un millor ajust del model GPD.
7
CLÚSTER
L'anàlisi clúster, és una tècnica estadística que s’utilitza per agrupar un conjunt de casos o
individus en conglomerats. L’objectiu principal tracta d’aconseguir que les dades de cada
grup siguin tan precisos com sigui possible entre ells i els més diferents que es puguin
diferenciar en relació amb els altres grups. En aquesta part final del treball analitzarem alguns
dels gràfics més significatius que ens proporciona aquest mètode.
Per poder realitzar aquest mètode, la pauta que s’ha seguit ha estat, seleccionar la columna de
sigmes dels arxius csv, proporcionats per l’arxiu 6-treball1-BayesianGPDStan-ACESI, amb
l’objectiu de generar una taula amb totes les sigmes de totes les bolles.
8
Primerament, trobem aquests dos gràfics, els quals ens mostren els números òptims de
clústers per a les nostres dades, com es pot observar les nostres dades tenen un total de 4
clústers òptims és a dir que la manera més eficient d’agrupar les nostres dades és en 4
aglomeracions.
Per finalitzar, trobem aquest dendrograma, en el que s’ha utilitzat una distància de
“clustering” euclidiana i el mètode de ward.D. Es representen els diferents elements
classificats en forma d’arbre, l’altura de cada node és una indicació de les similituds i
diferències entre els clústers que s’uneixen. Els elements etiquetats són les sigmes de les
diferents boies que registren l’altura d’onatge. Com observem estan indicats els valors p
indicats a les connexions entre els clústers. Aquests valors representen la significança
estadística de l’agrupació. Valors p del 100% indiquen que l’agrupació és altament
significativa, mentre que valors més baixos indiquen menys certesa en les agrupacions. En el
cas de la nostra selecció generalment els nostres valors p tenen una valoració bastant
significativa, ja que el número més baix és un 52.
9
Finalitzant amb l'anàlisi del gràfic anterior podem veure les agrupacions de les dades de les
diferents boies. Es mostren dues grans agrupacions, on en la part esquerra tenim dos subgrups
de sigma36 i sigma35 en un grup, per altra banda, sigma05 i sigma03. Això ens indica que les
dades de les quatre boies mencionades anteriorment comparteixen algunes similituds. Mentre
que les altres quatre restants mostren una similitud entre elles, però es diferencien de les
altres respectivament.
Per tant, podem concloure que a pesar de tindre diferents dades obtingudes de boies diferents,
les dades tenen una certa semblança entre elles. Fet que podria tenir sentit a causa de la
proximitat de les boies.
Després d’haver fet diversos models en aquest projecte hem obtingut les següents
conclusions:
- Dins del model GEVD estacionari ens quedem amb el fit 0 per davant del fit 1.
- Pel model GEVD no estacionari el que millor s’ajusta és el fit 4.
- Si comparem els models no estacionaris i estacionaris el GEVD no estacionari és
preferible.
Totes aquestes comparatives han sortit de l’ajust de bondat i de test d'hipòtesis que hem anat
fent en cadascuna de les informacions que ens donaven les vuit boies. Cal destacar que totes
coincidien en els resultats.
Per altra banda, també hem calculat el model GPD estacionari. Aquest model ha sigut una
mica més embolicat, ja que per la interpretació i continuació dels resultats era necessari
l'anàlisi de moltes gràfiques diferents com per exemple la del llindar de confiança (figures
11,12,13).
Si haguéssim de comparar els dos models (GPD estacionari i GEVD no estacionari), ens
quedaríem amb el model GPD, ja que a l’hora d’ajustar té més precisió i detall, fent d’aquesta
manera una reducció de possibles errors futurs. Però, cal destacar que ambdós models són
perfectament vàlids i donen molta informació.
Finalment, l’anàlisi del clúster presenta una interpretació per agrupacions de totes les dades,
on podem concloure que les boies 10, 16, 42, 24, tenen dades molt semblants, mentre que les
35, 36, 05 i 03 es diferencien de les quatre primeres, però entre elles observem resultats
lleugerament similars.
10
ANEXOS
Figura.1:
Recopilació de les
dades màximes i
mínimes de les 8
bolles
Figura.3: Informació
GEVD basic Fit 1 i
Fit 0
Figura.5: Taula
resum de les dades
per analitzar el fit 2.
Figura.7: Taula
resum de les dades
per analitzar el fit 3.
Figura.8: Taula
resum de les dades
per analitzar el fit 4
Figura.15:
Histograma bayesian
gpd del paràmetre k
(exemple boia 10)
11
Figura.16:
Histograma bayesian
gpd del paràmetre
sigma (exemple boia
10)
Figura.17: Serie
posteriror del
paràmetre sigma
provinent de l’escript
6-treball1-BayesianG
PDStan-ACESI.
(exemple boia 10)
Figura.18: Serie
posteriror del
paràmetre k
provinent de l’script
6-treball1-BayesianG
PDStan-ACESI.
(exemple boia 10)
12
Figura.19: Traceplot
provinent de l’script
6-treball1-BayesianG
PDStan-ACESI.
(exemple boia 10)
13