You are on page 1of 11

● text (etiquetes)

● números (constants)
● fórmules (equacions matemàtiques que fan tota la feina)

● Promedio​: mitjana
● Mediana​: impar(50% por arriba y por abajo), par(sumar los dos del medio y div entre 2)
○ asim derecha​: media>mediana
○ asim izq​: media<mediana
● Moda:​ valor que más se repite
○ bimodal​: dos modas
○ multimodal​: diversas modas
● Cuartiles:​ valores que dividen un conjunto de datos
● Max​: troba valor més gran
● Min​: troba valor més petit
● Contar​: conta les cel.les amb números
○ NO entrades en blanc
○ NO entrades amb text
● ContarA​: conta les cel.les amb números o text
○ NO entrades en blanc
● SI​: verifica la condició lògica d’una expressió lògica i retorna un valor si és veritat i un valor diferent si és
falsa
=SI(condició; valor si és veritat; valor si és falsa)
● el valor retornat pot ser tant un número o text
● si el valor retornat és text, s’haurà de posar entre cometes

A B

1 Preu Sobre un Euro?


2 0,95 € No
3 1,37 € Sí
4 Valor que es compara Valor que es retorna
5 14000
0,08

6 8453 0,05

emple de SI comparació Resposta


e s’entra a la columna B
(A2>1;"Si";"No") ( 0,95 > 1) No
(A3>1; "Si"; "No") (1,37 > 1) Sí
(A5>10000; 0,08; 0,05) (14000 > 10000) 0,08
(A6>10000; 0,08; 0,05) (8453 > 10000) 0,05
● PAGO / PMT​(per calcular préstecs): retorna el pagament periòdic (en aquest cas mensual) per una anualitat
(en aquest cas un préstec). Per calcular el préstec hem de saber una combinació dels següents punts:
○ Tipus d’interès per període (interès)
○ (NPER) nombre de períodes fins que es retorni l’anualitat
○ (PV) valor present del préstec (quantitat que estem demanant prestada)
○ (FV) valor futur del diner (per estalviar o invertir)
○ (tipus) entra 0 o 1 per indicar quan s’han de fer els pagaments.
=PAGO(interès, NPER, PV, FV, tipus)

=PAGO(D4/12;D5;-D3)
● D4 és l’interès anual i com es fa un pagament mensual es divideix per 12
● D5 és el nombre de mesos (nombre de pagaments)
● - D3 és la quantitat de diners que tenim (ens presten – negatiu)

● SENO,COS,TAN
○ Fórmula en ​graus​ = seno(angle*pi()/180) l’argument de l’angle és en graus.
○ Fórmula en ​radians​ = seno(angle) l’argument és en radians.

- Per calcular funcions trigonomètriques en graus hauràs de convertir-los, sinó Excel calcularà les funcions
en radians.

- Es pot entrar un valor concret per la REF o es pot entrar una referència a un cel·la (com per exemple A2).

nom_base$nom_columna

min(dona esquerra$expedient)

1. ​Tendencia Central
● Dades​: dades són valors de variable qualitatives o quantitatives, que pertanyen a un conjunt
d'elements(població).
● Inferència​: analitzar una mostra per extraure conclusions sobre la població de la qual la mostra ha estat
extreta. L’inferència és l'objectiu principal de l’​estadística inferencial.
● Per fer inferències sobre la població, primer hem de descriure la mostra. Aquest és l'objectiu principal de
l'​estadística descriptiva. 
- Tendència central:​ trobar el centre, la meitat, o l'element més comú de les nostres dades per a descriure la
mostra usant un número.
● Mitjana​: sumar todo i dividir entre el número total de conceptos.​ mean(variable)
● Mediana​: poner todos los números ordenados y tambieén los que se repiten tantas veces como se repitan.
median(variable)
○ Impar (50% por arriba y por abajo)
○ Par (sumar los dos del medio y dividir entre 2)
● Moda​: valor que más se repite ​table(variable)
○ bimodal: dos modas
○ multimodal: diversas modas
!!! Emmagatzemeu ara els continguts de «cars$mpg_city» en una nova variable anomenada «myMPG».
myMPG=(cars$mpg_city)

2. ​Dispersió​ (variabilitat o volatilitat): les mesures de dispersió són importants per descriure la variació al voltant del
mig de les dades.
● Rang:​ diferència entre els valor màxim i el mínim d'un conjunt de dades. ​range(cars$price) -
range(conjuntdades$variable)
● Variància:​ mitjana de les diferències al quadrat de cada cas respecte a la mitjana. Més simplement, la
variància representa la distància total de les dades respecte a la mitjana. ​var(data)
○ Desviació estàndard:​ és calcula agafant l’arrel quadrada de la variància i la variància és calcula
elevant el quadrat a la desviació estàndard.
Una desviació estàndard ​petita​ indica que els valors dels diferents casos de les dades estan
localitzats a prop del valor mitjà, mentre que una desviació estàndard ​gran​ indica que estan
disperses al voltant de la mitjana. ​sd(data​)
Diagrama de Caixa: ​s’utilitza per resumir els principals estadístics descriptius d'un conjunt particular de dades i
aquest tipus de gràfica serveix per il·lustrar el concepte de variabilitat. Un diagrama de caixa representa visualment
el Mínim, Primer quartil (Q1), Mediana, Tercer quartil(Q3) i Màxim d'un conjunt
de dades.
● Rang interquartílic (RIQ):​ alçada caixa
● Bigotis:​ representen aprox. el 25% superior i l’inferior

1r quartil (Q1): línia blava


2n quartil (Q2): línia verda
Ran interquartílic: rang entre les dues línies
Valor atípic​: observació que és inusual o extrema en relació als altres casos del
conjunt de dades. Els valors atípics són útils per identificar una asimetria important a
la distribució, i pot significar un error en la recollida o entrada de les dades per a un
científic

3. ​Visualització de dades:
Estadística descriptiva:​ disciplina que descriu quantitativament les propietats principals d'un conjunt de dades.
● Diagrama de punts: ​només hi ha un eix x horitzontal i els valors del conjunt de dades es representen amb
punts a sobre d’aquest eix.
● Histograma: ​divideix els valors de les dades en diversos intervals o classes, proveint una representació més
condensada de les dades. L’histograma ens permet visualitzar la ​densitat de les dades.
○ Asimètric esquerra: ​part esquerra del diagrama més llarga. El
valor de la mitjana és més petit que el de la mediana i per tant
la mitjana està més cap a l’esquerra.
○ Asimètric dreta: ​part dreta del diagrama més llarga. El valor de la mitjana és més gran que el de la
mediana i per tant la mitjana està més cap a la dreta.
○ Simètric:​ mitjana i mediana aprox. iguals. La línea verda
representa la mediana i la blava la mitjana. Només veiem la
verda perquè la mitjana i la mediana són molt properes.
● Diagrama de troncs i fulles:​ La columna de l'esquerra del diagrama
conté els troncs, o el valor numèrica de les desenes per a cada valors,
organitzats verticalment en ordre creixent. Les fulles es localitzen a la
columna de la dreta del diagrama i són els valors unitaris per a
cada cas amb el mateix tronc, organitzats horitzontalment
en ordre creixent. El nombre de fulles és igual al nombre de casos
del conjunt de dades.

summary(cars$price): ​Aquesta funció ens dóna els 4 números resum i la mitjana


de totes les variables contingudes en el marc de dades «segur». Dona
els valor de mínim, Q1, mediana, Q· i màxim

fivenum(segur$Dies)

4. ​Dades agrupades:
Usar actuar a l’ anàlisi:​ install.packages("actuar")​ i després ​library("actuar")​.
Objecte de dades agrupades: ​ taula on la primera columna conté les classes o intervals de la taula de
freqüències, la segona columna conté la freqüència i cada fila un interval o classe diferent.
● Per comprovar quants casos hi ha al conjunt de dades complet, sumem les
freqüències. Cal sumar la variable «nj» a l'objecte dades agrupades «gdental».
“​sum(gdental$nj)”
● Com que no tenim el valor exacte de cada pagament per a cada cas, podem calcular
els resums numèrics bàsics directament des de la taula de freqüències,i també
representar un histograma i un diagrama de caixa.
● Per representar l’ histograma usem la funció “​hist(gdental)”
● Per representar el diagrama de caixa necessitem els 5 núm. resum amb la funció
“​quantile(gdental)”
● Per representar ara el diagrama de caixa hem de proveir el resultat de la funció
quantile() a la funció boxplot(), i l'ordre és “​boxplot(quantile(gdental),range=0)”​.
● Afegim l'argument «range=0» perquè els bigotis arribin al màxim i al mínim.
● A part dels cinc números resum, també podem obtenir la mitjana i la desviació estàndard.
● Per obtenir la mitjana del valor dels pagament a la taula de freqüència, l'ordre és “​mean(gdental)”.
● Per obtenir la desviació estàndard​ “sqrt(emm(gdental,order=2) - mean(gdental)^2)”.

Ara tenim una taula de freqüències de les notes de 55 estudiants.


Hem d'entrar els límits dels intervals icles freqüències. Per als límits dels interval, hem d'entrar també el límit
inferior. Podem entrar aquests límits amb​ “cj <- c(0,20,40,60,80,100)”.
Després entrem les freqüències​ “nj <- c(5,10,25,10,5)”.
Finalment crearem un objecte dades agrupades per obtenir els resums gràfics i numèrics per a la taula de
freqüències. Si anomenem l’objecte «x», el creem amb​ “x <- grouped.data(Group=cj, Frequency=nj)”.
Ara que tenim totes les dades, ja podem utilitzar tote sles funcions anteriors.
Si volem histograma​ “hist(x)”​ on «objecte_dades_agrupades» ess el nom de l’objecte que acabem de crear.

5. ​Transformació de dades
El marc de dades només té una variable numèrica, «euros»,i és la quantitat d'efectiu en euros que 20 estudiants
francesos van preparar per portar a un viatge a Londres.
El marc de dades es diu «viatge»​. head(viatge)
● Per obtenir els resums numèrics per a variables numèriques​ “describe(viatge$euros)”.
● Una transformació lineal és una transformació que apliquem a una variable x, per obtenir una nova variable
y, definida com y = (x - a)/b, on a i b són constant (i b>0). La constant «a» l'anomenem un canvi d'origen, i la
constant «b» un canvi d'escala.
● Anem a obtenir ara un nou conjunt de dades (un nou marc de dades) després que els estudiants han pagat
l'assegurança de 50 euros i han canviat el que els queda a lliures (és a dir, han aplicat una transformació
lineal). Entreu una ordre per convertir la variable «euros» i anomeneu la nova variable «lliures».​ “lliures <-
(viatge$euros - 50)/1.12”.
● Ara crearem un nou marc de dades amb la variable transformada a partir de «euros», és a dir amb la
variable «lliures». Useu per a això la funció data.frame(). Anomeneu el nou marc de dades «viatge_nou»​.
“viatge_nou <- data.frame(lliures)”
● Per a comprovar els casos del nou marc de dades «viatge_nou» posem​ “head(viatge_nou)”.
● Com podeu veure, els valors de «lliures» mostra fins a 4 posicions decimals. Ens agradaria reduir-ho a dos
posicions decimals, atès que estem treballant amb lliures mesurades fins als penics​. “viatge_nou$lliures
<-round(viatge_nou$lliures,2)”
● Podem obtenir ara els resums numèrics per a la variable «lliures», usant la funció describe() del paquet
psych. Apliqueu aquesta funció per obtenir els principals resums numèrics de la variable «lliures».
“describe(viatge_nou$lliures)”
● Podem calcular ara els resums numèrics per a la variable «lliures» usant els resums numèrics de la variable
«euros». Per exemple, d'acord amb el que havíem dit abans, sabem que mitjana_lliures = (mitjana_euros -
50)/1.12, mediana_lliures = (mediana_euros - 50)/1.12, mentre que desv_estand_lliures =
desv_estand_euros/1.12 (les mesures de dispersió no es veuen afectades pel canvi d'origen), i per últim les
mesures de forma no canvien quan s'apliquen transformacions lineals.
● Confirmeu ara com la transformació lineal afecta la mitjana usant la mitjana de «euros» que havíem anotat
abans i aplicant-li la transformació lineal que hem estat fent servir. ​“(313.93 - 50)/1.12”
● Ara podeu comparar els resultats del càlcul de la pregunta anterioramb la mitjan per a la variable «lliures»
que havíeu anotat prèviament. Haurien de ser iguals.
● Confirmeu ara com afecten les transformacions lineals a la desviació estàndard, agafant la desviació
estàndard de la variable «euros» que havíeu anotat abans, i aplicant-li la transformació lineal que hem estat
usant.​ “157.25/1.12”
● Els resultats que acabem de descriure per a la mitjana i la desviació típica, que són els mateixos per a totes
les mesures de posició i dispersió, així com el resultat que la forma no canvia, són sols vàlid per a
transformacions lineals. Per a transformacions no-lineals no és veritat que podem predir els valors de la
nova mitjana, de la desviació estàndard d'altres resums numèrics, i que la forma no canviï. En realitat, s'usen
algunes transformacions no-lineals per canviar la forma de la distribució. Per exemple la transformació
logarítmica, que consisteix en prendre logaritme natural per a tots els valors del conjunt de dades,
noves_dades = log(dades_originals), s'usa a vegades per reduir l'asimetria d'una distribució, és a dir per
canviar la forma de la distribució.
● Ara creem un histograma de la variable euros. ​“hist(viatge$euros)”.
● Tenim una distribució asimètrica a la dreta i intentarem utilitzar la transformació logarítmica per veure si
podem obtenir una distribució més simètrica. Apliqueu la funció log() a la variable «euros» i assigneu el
resultat a una nova variable anomenant-la «log_euros».​ “log_euros <- log(viatge$euros)”.
● Obteniu ara l'histograma de la transformació logarítmica de la variable «euros», és a dir per a la variable
«log_euros». ​“hist(log_euros)”.
● Com podeu veure, si transformem la variable euros, que havíem vist que era asimètrica cap a la dreta, usant
la transformació logarítmica, obtenim una distribució més simètrica.

*************
Transformació dades amb Stata
1. ​Transformació lineal
Per transformar les dades linealment al Stata, usarem l'ordre «generate», que es pot abreujar a «gen». Suposeu
que els estudiants han de pagar 50 euros com assegurança abans d'embarcar l'avió, i quan arriben a Londres
canvien els seus euros per lliures al tipus de canvi de 1 lliura = 1.12 euros. Un cop que estem a Londres i volem
analitzar el seu conjunt de dades d'efectiu, tenim un nou conjunt dades, transformat a partir de l'anterior. La
transformació lineal apropiada per passar de la variable euros a la nova variable lliures és:
pounds=euros-50/1.12
Al Stata podeu realitzar aquesta transformació amb la següent ordre a la finestra d'ordres:
gen pounds = (euros - 50)/1.12
Això significa: ​genera una nova variable anomenada pounds basada en l'expressió entrada a la variable
euros.​ Ara teniu dues variables al vostre conjunt de dades: euros i pounds. Quins són els ​principals resums
numèrics per a la variable euros​? Ho podem obtenir mitjançant:
summarize euros, detail

The results are:


euros
-------------------------------------------------------------
Percentiles Smallest
1% 109.35 109.35
5% 129.925 150.5
10% 154.61 158.72 Obs 20
25% 205.03 189.72 Sum of Wgt. 20

50% 280.115 Mean 313.925


Largest Std. Dev. 157.2515
75% 382.78 432.33
90% 567.735 523.14 Variance 24728.02
95% 661.63 612.33 Skewness 1.084892
99% 710.93 710.93 Kurtosis 3.503999

Si obtenim els resums numèrics per a la variable pounds usant la mateixa ordre, obtenim:
pounds
-------------------------------------------------------------
Percentiles Smallest
1% 52.99107 52.99107
5% 71.3616 89.73214
10% 93.40178 97.07143 Obs 20
25% 138.4196 124.75 Sum of Wgt. 20

50% 205.4598 Mean 235.6473


Largest Std. Dev. 140.4031
75% 297.125 341.3661
90% 462.2634 422.4464 Variance 19713.03
95% 546.0982 502.0804 Skewness 1.084892
99% 590.1161 590.1161 Kurtosis 3.503999

Com han canviat els resums numèrics? Noteu que el coeficient d'asimetria (Skewness) i la curtosi (Kurtosis) no han
canviat, atès que la transformació lineal no té cap efecte sobre la forma de la distribució. Les mesures de posició es
veuen afectades pel canvi d'origen i el canvi d'escala, i així la mitjana canvia de la següent manera:
Mitjana​pounds​= Mitjana​euros​− 50

1.12

El mateix és veritat per a les altres mesures de posició (mediana, quartils, ...). En canvi les mesures de dispersió es
veuen sols afectades pel canvi d'escala:

Dev.Est.​pounds​= Dev.Est​euros

1.12

Altres mesures de dispersió com el rang interquartílic també varien d'aquesta manera.
Podeu comprovar aquests canvis als resums numèrics de les dues taules de dalt.

2. Transformació logarítmica
Anem a obtenir un histograma per a la variable euros amb:
histogram euros

Obtenim el següent histograma:

Com es pot apreciar, la distribució de la variable euro és clarament asimètrica cap a la dreta.
Una​ transformació no lineal​ que a vegades és​ útil per reduir l'asimetria ​és la ​transformació logarítmica.
Consisteix en prendre els logaritmes naturals a cada cas del conjunt de dades, és a dir generar un nova variable
que és el logaritme natural de la variable original.
gen log_euros = log(euros)

Hem creat una nova variable anomenada log_euros. Ara si fem un histograma d'aquesta variable, obtenim:

Com es pot apreciar, ara la forma ha canviat, i l'histograma és més simètric.


Si voleu mirar un vídeo i aprendre més sobre com crear noves variables al Stata, aquí teniu un enllaç:
Video sobre generación de variables en Stata
*************
6. ​Normalitat i distribució normal
● Provar si la distribució de punts és semblant a la distribució normal gràficament.
● Per fer-ho creem un histograma.
● La distribució normal té forma de muntanya.
● També podem posar a sobre una distribució normal per comparar la nostra distribució.
● Necessitem la mitjana i la desviació típica de la variable ​punts​per a les gràfiques.
● 1r calculem la mitjana de la variable ​punts​amb la funció mean() i la desem amb una variable anomenada
«m»​.
“m <- mean(punts)”
● 2n calculem la desviació estàndard de ​punts​amb la funció sd i deseu-la a una
variable anomenada «s»​. “s <- sd(punts)”
● Ara dibuixem un histograma amb​ “hist(punts,prob=TRUE)”, ​que ens donarà les
freqüències relatives a l'eix vertical.
● Ara posem sobre l’histograma una corba normal per a comparar.
“curve(dnorm(x,mean=m,sd=s),add=TRUE)”.
● Veiem que tot i que la distribució de punts no és exactament igual a la distribució normal, no està massa
lluny, de manera que la distribució de ​punts​podria ser semblant a la distribució normal.
● Per verificar la normalitat, calcularem resums numèrics per veure si la distribució de ​punts​marcats pel Pau
Gasol durant l’any és semblant a la distribució normal.
● Per això, és útil comprovar l'asimetria de la distribució, ja que hauria de ser més o menys simètrica (la
distribució normal és perfectament simètrica) i la curtosi, que
és una mesura de la relació entre la cima i les cues de la distribució.
● Per obtenir les mesures d'asimetria i de la curtosis usarem la funció describe() del paquet psych.
“describe(punts)”
● Veiem que el coeficient d'asimetria és de 0.09, de manera que podem dir que la distribució és força
simètrica, mentre que la curtosi és igual a -0.11, força baixa, així que la distribució té una curtosi semblant a
la distribució normal (la fórmula al paquet psych implica que la distribució normal té una curtosi igual a 0, en
alguns altres paquets i al Stata la kurtosis és 3 per a la distribució normal).
● O sigui que pel que fa a aquests resums la distribució és propera a la distribució normal.
● La tasca final per verificar la normalitat de la distribució és comparar àrees específiques de la distribució per
comprovar si la freqüència que trobem a aquestes àrees s'ajusta a les freqüències que tenim a la distribució
normal. Per exemple, d'acord amb la regla 68-95-99.7%, a l'interval (m - s, m + s) tenim 68% de la
freqüència, o sigui que a l'interval (m - s, m) tenim 34% de la freqüència.
● Ara obtenim una taula amb la freqüència aproximada que esperem tenir a la distribució normal d'acord amb
la regla 68-95-99.7%.
● Comprovarem quina freqüència relativa observem a la nostra distribució a aquests mateixos intervals basats
en múltiples exactes de desviació estàndard a sobre i a sota de la mitjana. Per comprovar la freqüència
relativa per a punts a sota de m - 3*s, entrem​ “sum(punts < m - 3*s) / length(punts)”​.
● Això ens diu que per a l'interval «m - 3*s» hi ha una freqüència relativa observada de 0%.
● La freqüència relativa esperada era de 0.00135, o sigui 0.135%, així que és semblant.
● Podem comprovar ara altres intervals. Per exemple anem a comprovar ara la freqüència relativa observada
de l'interval «(m, m+s)» amb l'ordre​ “sum(punts > m & punts < m + s) / length(punts)”.
● Comparant la freqüència esperada de l'interval (m, m+s) que és igual a 0.34134 amb la freqüència relativa
observada igual a 0.2941176, veiem que no estem massa lluny un altre cop.
● Entrem l'ordre per comprovar la freqüència relativa observada de l'interval (m - 2*s, m - s)​. “sum(punts > m -
2*s & punts < m - s) / length(punts)”
● La freqüència relativa observada és 0.1323529 mentre que l'esperada és 0.1391, estem força a prop, en
conclusió la distribució punts no és massa diferent a la normal en aquest interval.
● Hauríem de completar la taula completa de freqüències relatives esperades i observades, per poder valorar
si la distribució punts és semblant a la normal o no.
● ara observarem una nova taula anomenada​ “taula_dist”.
● Podem comprovar ara les columnes «esperat» i «observat».
● Podem veure que els % no són massa diferents. Junt amb les altres comprovacions que hem fet,
gràficament i amb els resums numèrics, podem concloure que la distribució dels punts marcats pel Gasol a
la seva primera temporada a la NBA segueix aproximadament una distribució normal.
● També podem realitzar càlculs amb la distribució normal sense la necessitat de la taula de la distribució
normal estàndard. Per exemple, per obtenir el percentatge de casos que cauen a la dreta de z = 2, on z és
un valor estandaritzat, usem l'ordre​ “pnorm(2,lower.tail= FALSE)”.
● Per comprovar un valor a l'esquerra hem d'establir​ “lower.tail=TRUE”​.
● Per exemple per comprovar el percentatge de casos a l'esquerra de z = 0, podeu entrar
“pnorm(0,lower.tail=TRUE)”.
● Hem obtingut 0.5 exactament perquè z=0 és la mediana de la distribució normal estàndard.
● Podeu també comprovar els percentatges directament amb qualsevol distribució normal, no cal que sigui
l'estàndard.
● Per exemple per obtenir el percentatge de casos a sobre de x=7 a una distribució normal amb mitjana igual
a 6 i desviació estàndard igual a 1.5, l'ordre és​ “pnorm(7,mean=6,sd=1.5,lower.tail=FALSE)”.
● També podem esbrinar un valor associat amb un percentatge.
● Per això farem servir la funció qnorm() en comptes de la funció pnorm().
● Per esbrinar quin és el valor que deixa un 25% de la freqüència relativa a l'esquerra de la distribució normal
amb mitjana igual a 3 i desviació estàndard igual a 2. L'ordre és
“qnorm(0.25,mean=3,sd=2,lower.tail=TRUE)”.
● Doneu l'ordre per obtenir la proporció de freqüències a la dreta de 6 en una distribució normal amb mitjana
igual a 5 i desviació estàndard igual a 1.5.​ “pnorm(6,mean=5,sd=1.5,lower.tail=FALSE)”
● I ara donem l'ordre per obtenir el valor a aquesta mateixa distribució normal (mitjana = 5, desviació
estàndard = 1.5) que deixa 35% de la freqüència a l'esquerra​.
“qnorm(0.35,mean=5,sd=1.5,lower.tail=TRUE)”
7. ​2 variables numeriques
● La primera comprovació per a la relació entre dues variables numèriques és comprovar el diagrama de
dispersió entre elles. Per obtenir un ​diagrama de dispersió​ entre la variable Y a l'eix vertical, i la variable X
a l'eix horitzontal, l'ordre apropiada és​ “plot(final~parcial)”​ (​ “plot(Y~X)”)
● El diagrama de dispersió ens permet identificar valors atípics (casos amb una diferència gran respecte de la
mitjana de qualsevol de les dues variables o d'ambdues.)
● Una mesura de la possible relació lineal entre les dues variables és el ​coeficient de correlació​. Per obtenir
la correlació entre les variables X i Y al R, l'ordre és ​“cor(X,Y)”, “cor(final,parcial)”
● L'altra eina principal per descriure la relació entre dues variables és la ​línia de regressió​. Podem demanar
al R que calculi la constant i el pendent de la línia de regressió entre la variable dependent Y i la variable
explicativa X amb​ “lm(Y~X)”​ i asigenu fit al resultat. ​“fit <- lm(final~parcial)
● Per dibuixar la línia de regressió al diagrama de dispersió dibuixem un altre cop el diagrama de
dispersió amb l'ordre «plot(Y~X)».
● Per obtenir la línia de regressió al diagrama de dispersió, usem l'ordre “​abline(fit)​”.
● Un dels objectius principals de l'anàlisi de regressió és predir el valor de la variable dependent donats valors
de la variable explicativa.
● Quina és la predicció de la nota a l'examen final per a un estudiant que va obtindre un 70 al parcial? Podem
calcular la predicció directament usant la constant estimada (-4.953) i el pendent (1.127). ​“-4.953+70*1.127”
o “predict(fit,data.frame(parcial=70))”
● Per obtenir més resultats insertem​ “summary(fit)”
● Una altra part important del diagnòstic de a línia de regressió és el diagrama de residus.
● Permet identificar anomalies en la relació entre les dues variables, com ara la no-linealitat o una dispersió
creixent o decreixent. Per posar els residus a una gràfica, primer els hem de calcular. Ho podem fer amb la
funció resid() del R i assignem el resultat a fit.res. ​“fit.res <- resid(fit)”
● Podem ara fer el diagrama dels residus. També afegirem una etiqueta a l'eix vertical amb «ylab» i un títol al
diagrama amb «main». L'ordre és​ “plot(fit.res~parcial, ylab="Residus", main="Diagrama de residus")”
● També és convenient afegir una línia horitzontal a 0, atès que hi ha residus positius i negatius, i perquè
l'anàlisi dels residus sigui apropiat, els residus haurien d'estar distribuïts a sobre i a sota de la ​línia de
regressió​ sense cap patró específic. Dibuixarem doncs una línia horitzontal am​b “abline(0,0)”.
● Una altra eina per comprovar els residus és l'histograma.
● L'histograma dels residus hauria de mostrar una distribució semblant a la distribució normal.​ “hist(fit.res)”
● Encara un altre element de diagnòstic de l'anàlisi de regressió és la ​identificació d'observacions influents​.
● Són observacions que tenen una influència anormal sobre els resultats que observem, és a dir, sense
aquests casos l'efecte de la variable explicativa sobre la variable dependent canvia significativament.
● Les observacions que poden ser influents tenen un valor amb una diferència gran respecte a la mitjana de la
variable explicativa.
● Per analitzar els valors influents els hem d'identificar esbrinant el seu ​número d'observació​, els hem
d'eliminar, i hem de veure si el pendent canvia o no.
● Una funció útil per identificar valors atípics és la funció identify() del R. Entrant identify(Y~X) obteniu un
diagrama de dispersió entre Y i X.
● Podeu clicar sobre els diferents casos que voleu identificar ii un cop que premeu «Esc», el R us mostrarà el
número de cas(número d'observació) dels casos en la mateixa gràfica, és a dir la fila al marc de dades on
podeu trobar aquests casos.
● Prement Esc un altre cop el R imprimirà els números dels casos i us retornarà a tutorial.
● Una altra eina útil és obtenir un diagrama de dispersió amb etiquetes mostrant el número de cas.
● Per fer això, primer obtenim el diagrama de dispersió amb amb cercles en color blau clar, de manera que
podem imprimir després el número de cas a sobre, amb ​“plot(final~parcial, col="lightblue")”

● Imprimim les etiquetes amb el número de cas amb​ “text(final~parcial, labels=rownames(exam))”​.


● Per eliminar aquests casos, ho podem fer entrant l'ordre “exam[-c(2,18),]” i assignant el resultat a un nou
marc de dades anomenat exam_nou.
● Això diu a l'R que no tingui en compte els casos 2 i 18 (per això tenim el signe menys davant el primer
argument), però deixar les columnes (variables) sense tocar (per això tenim la coma i res després de la
coma). Proveu doncs ​“exam_nou <-exam[-c(2,18),]​” per eliminar els casos 2 i 18 i obtenir un nou marc de
dades anomenat exam_nou sense aquests casos.
● Ara podeu obtenir els resultats de la regressió un altre cop i veure si els resultats han canviat
significativament.
● Feu-lo amb l'ordre​ “lm(final~parcial, data=exam_nou​)”, noteu que heu d'especificar el nou marc de dades,
sinó el R continuaria usant encara les variables originals amb els casos 2 i 18.
● Com podeu veure, ara el pendent de la regressió s'ha reduït a 0.087. Era 1.127 abans, així que és un 13%
més petit. Podem dir que aquests casos són influent, sense els, l'efecte de la nota del parcial sobre la nota
del final és més reduït.
● A vegades la dispersió de les dades és tan gran que no podem esbrinar cap relació lineal entre les variables.
● Hi ha algunes tècniques basades en la «suavització» de la variació de la variable dependent, i que intenten
inferir la relació entre les dues variables un cop aquesta dispersió ha estat eliminada.
● Una d'aquestes tècniques s'anomena la traça mitjana o mediana, depenent de quina sigui la mesura de
centre utilitzada per suavitzar la variació de la variable dependent.
● El R té un conjunt d'eines que usen tècniques de suavització, que poden ser útils quan hi ha molta variació
en la variable dependent però encara creiem que hauria d'haver-hi una relació entre les variables.

● Tenim noves dades anomendaes tasca


● Prepareu un diagrama de dispersió de Y (temps a finalitzar una tasca) contra X (nombre de membres de
l'equip), usant la funció plot()., ​“plot(Y~X)”
● Ara usarem el paquet «plotluck» al R per suavitzar la variació de la variable dependent i obtenir una idea
sobre una possible relació no lineal entre Y i X.
● Per fer això, l'ordre és ​“plotluck(tasca,Y~X)​”, recordant que el nom del marc de dades és tasca, Y és el
temps a realitzar una tasca, i X és el nombre de membres de l'equip que realitza la tasca.
● L'anàlisi de regressió lineal, com mostra el seu nom, és apropiat per a la descripció de la relació lineal entre
dues variables.
● En altres paraules, quan a un diagrama de dispersió veiem que la relació s'ajusta bé a una relació lineal,
podem aplicar l'anàlisi de regressió lineal, sempre tenint en compte de definir una variable dependent i una
variable explicativa per descriure aquesta relació. En alguns casos, però, el diagrama de dispersió mostra
una relació que no s'ajusta bé al que suggeriria una línia.
● una manera senzilla de treballar amb no linealitats d'aquest tipus és usar el model log-log.
● Al model log-log, prenem logaritmes naturals de la variable dependent i la variable explicativa, i calculem la
regressió amb les variables transformades. Anem a convertir primr la variable dependent amb​ “lvendes <-
● | log(vendes)”

You might also like