Professional Documents
Culture Documents
● números (constants)
● fórmules (equacions matemàtiques que fan tota la feina)
● Promedio: mitjana
● Mediana: impar(50% por arriba y por abajo), par(sumar los dos del medio y div entre 2)
○ asim derecha: media>mediana
○ asim izq: media<mediana
● Moda: valor que más se repite
○ bimodal: dos modas
○ multimodal: diversas modas
● Cuartiles: valores que dividen un conjunto de datos
● Max: troba valor més gran
● Min: troba valor més petit
● Contar: conta les cel.les amb números
○ NO entrades en blanc
○ NO entrades amb text
● ContarA: conta les cel.les amb números o text
○ NO entrades en blanc
● SI: verifica la condició lògica d’una expressió lògica i retorna un valor si és veritat i un valor diferent si és
falsa
=SI(condició; valor si és veritat; valor si és falsa)
● el valor retornat pot ser tant un número o text
● si el valor retornat és text, s’haurà de posar entre cometes
A B
6 8453 0,05
=PAGO(D4/12;D5;-D3)
● D4 és l’interès anual i com es fa un pagament mensual es divideix per 12
● D5 és el nombre de mesos (nombre de pagaments)
● - D3 és la quantitat de diners que tenim (ens presten – negatiu)
● SENO,COS,TAN
○ Fórmula en graus = seno(angle*pi()/180) l’argument de l’angle és en graus.
○ Fórmula en radians = seno(angle) l’argument és en radians.
- Per calcular funcions trigonomètriques en graus hauràs de convertir-los, sinó Excel calcularà les funcions
en radians.
- Es pot entrar un valor concret per la REF o es pot entrar una referència a un cel·la (com per exemple A2).
nom_base$nom_columna
min(dona esquerra$expedient)
1. Tendencia Central
● Dades: dades són valors de variable qualitatives o quantitatives, que pertanyen a un conjunt
d'elements(població).
● Inferència: analitzar una mostra per extraure conclusions sobre la població de la qual la mostra ha estat
extreta. L’inferència és l'objectiu principal de l’estadística inferencial.
● Per fer inferències sobre la població, primer hem de descriure la mostra. Aquest és l'objectiu principal de
l'estadística descriptiva.
- Tendència central: trobar el centre, la meitat, o l'element més comú de les nostres dades per a descriure la
mostra usant un número.
● Mitjana: sumar todo i dividir entre el número total de conceptos. mean(variable)
● Mediana: poner todos los números ordenados y tambieén los que se repiten tantas veces como se repitan.
median(variable)
○ Impar (50% por arriba y por abajo)
○ Par (sumar los dos del medio y dividir entre 2)
● Moda: valor que más se repite table(variable)
○ bimodal: dos modas
○ multimodal: diversas modas
!!! Emmagatzemeu ara els continguts de «cars$mpg_city» en una nova variable anomenada «myMPG».
myMPG=(cars$mpg_city)
2. Dispersió (variabilitat o volatilitat): les mesures de dispersió són importants per descriure la variació al voltant del
mig de les dades.
● Rang: diferència entre els valor màxim i el mínim d'un conjunt de dades. range(cars$price) -
range(conjuntdades$variable)
● Variància: mitjana de les diferències al quadrat de cada cas respecte a la mitjana. Més simplement, la
variància representa la distància total de les dades respecte a la mitjana. var(data)
○ Desviació estàndard: és calcula agafant l’arrel quadrada de la variància i la variància és calcula
elevant el quadrat a la desviació estàndard.
Una desviació estàndard petita indica que els valors dels diferents casos de les dades estan
localitzats a prop del valor mitjà, mentre que una desviació estàndard gran indica que estan
disperses al voltant de la mitjana. sd(data)
Diagrama de Caixa: s’utilitza per resumir els principals estadístics descriptius d'un conjunt particular de dades i
aquest tipus de gràfica serveix per il·lustrar el concepte de variabilitat. Un diagrama de caixa representa visualment
el Mínim, Primer quartil (Q1), Mediana, Tercer quartil(Q3) i Màxim d'un conjunt
de dades.
● Rang interquartílic (RIQ): alçada caixa
● Bigotis: representen aprox. el 25% superior i l’inferior
3. Visualització de dades:
Estadística descriptiva: disciplina que descriu quantitativament les propietats principals d'un conjunt de dades.
● Diagrama de punts: només hi ha un eix x horitzontal i els valors del conjunt de dades es representen amb
punts a sobre d’aquest eix.
● Histograma: divideix els valors de les dades en diversos intervals o classes, proveint una representació més
condensada de les dades. L’histograma ens permet visualitzar la densitat de les dades.
○ Asimètric esquerra: part esquerra del diagrama més llarga. El
valor de la mitjana és més petit que el de la mediana i per tant
la mitjana està més cap a l’esquerra.
○ Asimètric dreta: part dreta del diagrama més llarga. El valor de la mitjana és més gran que el de la
mediana i per tant la mitjana està més cap a la dreta.
○ Simètric: mitjana i mediana aprox. iguals. La línea verda
representa la mediana i la blava la mitjana. Només veiem la
verda perquè la mitjana i la mediana són molt properes.
● Diagrama de troncs i fulles: La columna de l'esquerra del diagrama
conté els troncs, o el valor numèrica de les desenes per a cada valors,
organitzats verticalment en ordre creixent. Les fulles es localitzen a la
columna de la dreta del diagrama i són els valors unitaris per a
cada cas amb el mateix tronc, organitzats horitzontalment
en ordre creixent. El nombre de fulles és igual al nombre de casos
del conjunt de dades.
fivenum(segur$Dies)
4. Dades agrupades:
Usar actuar a l’ anàlisi: install.packages("actuar") i després library("actuar").
Objecte de dades agrupades: taula on la primera columna conté les classes o intervals de la taula de
freqüències, la segona columna conté la freqüència i cada fila un interval o classe diferent.
● Per comprovar quants casos hi ha al conjunt de dades complet, sumem les
freqüències. Cal sumar la variable «nj» a l'objecte dades agrupades «gdental».
“sum(gdental$nj)”
● Com que no tenim el valor exacte de cada pagament per a cada cas, podem calcular
els resums numèrics bàsics directament des de la taula de freqüències,i també
representar un histograma i un diagrama de caixa.
● Per representar l’ histograma usem la funció “hist(gdental)”
● Per representar el diagrama de caixa necessitem els 5 núm. resum amb la funció
“quantile(gdental)”
● Per representar ara el diagrama de caixa hem de proveir el resultat de la funció
quantile() a la funció boxplot(), i l'ordre és “boxplot(quantile(gdental),range=0)”.
● Afegim l'argument «range=0» perquè els bigotis arribin al màxim i al mínim.
● A part dels cinc números resum, també podem obtenir la mitjana i la desviació estàndard.
● Per obtenir la mitjana del valor dels pagament a la taula de freqüència, l'ordre és “mean(gdental)”.
● Per obtenir la desviació estàndard “sqrt(emm(gdental,order=2) - mean(gdental)^2)”.
5. Transformació de dades
El marc de dades només té una variable numèrica, «euros»,i és la quantitat d'efectiu en euros que 20 estudiants
francesos van preparar per portar a un viatge a Londres.
El marc de dades es diu «viatge». head(viatge)
● Per obtenir els resums numèrics per a variables numèriques “describe(viatge$euros)”.
● Una transformació lineal és una transformació que apliquem a una variable x, per obtenir una nova variable
y, definida com y = (x - a)/b, on a i b són constant (i b>0). La constant «a» l'anomenem un canvi d'origen, i la
constant «b» un canvi d'escala.
● Anem a obtenir ara un nou conjunt de dades (un nou marc de dades) després que els estudiants han pagat
l'assegurança de 50 euros i han canviat el que els queda a lliures (és a dir, han aplicat una transformació
lineal). Entreu una ordre per convertir la variable «euros» i anomeneu la nova variable «lliures». “lliures <-
(viatge$euros - 50)/1.12”.
● Ara crearem un nou marc de dades amb la variable transformada a partir de «euros», és a dir amb la
variable «lliures». Useu per a això la funció data.frame(). Anomeneu el nou marc de dades «viatge_nou».
“viatge_nou <- data.frame(lliures)”
● Per a comprovar els casos del nou marc de dades «viatge_nou» posem “head(viatge_nou)”.
● Com podeu veure, els valors de «lliures» mostra fins a 4 posicions decimals. Ens agradaria reduir-ho a dos
posicions decimals, atès que estem treballant amb lliures mesurades fins als penics. “viatge_nou$lliures
<-round(viatge_nou$lliures,2)”
● Podem obtenir ara els resums numèrics per a la variable «lliures», usant la funció describe() del paquet
psych. Apliqueu aquesta funció per obtenir els principals resums numèrics de la variable «lliures».
“describe(viatge_nou$lliures)”
● Podem calcular ara els resums numèrics per a la variable «lliures» usant els resums numèrics de la variable
«euros». Per exemple, d'acord amb el que havíem dit abans, sabem que mitjana_lliures = (mitjana_euros -
50)/1.12, mediana_lliures = (mediana_euros - 50)/1.12, mentre que desv_estand_lliures =
desv_estand_euros/1.12 (les mesures de dispersió no es veuen afectades pel canvi d'origen), i per últim les
mesures de forma no canvien quan s'apliquen transformacions lineals.
● Confirmeu ara com la transformació lineal afecta la mitjana usant la mitjana de «euros» que havíem anotat
abans i aplicant-li la transformació lineal que hem estat fent servir. “(313.93 - 50)/1.12”
● Ara podeu comparar els resultats del càlcul de la pregunta anterioramb la mitjan per a la variable «lliures»
que havíeu anotat prèviament. Haurien de ser iguals.
● Confirmeu ara com afecten les transformacions lineals a la desviació estàndard, agafant la desviació
estàndard de la variable «euros» que havíeu anotat abans, i aplicant-li la transformació lineal que hem estat
usant. “157.25/1.12”
● Els resultats que acabem de descriure per a la mitjana i la desviació típica, que són els mateixos per a totes
les mesures de posició i dispersió, així com el resultat que la forma no canvia, són sols vàlid per a
transformacions lineals. Per a transformacions no-lineals no és veritat que podem predir els valors de la
nova mitjana, de la desviació estàndard d'altres resums numèrics, i que la forma no canviï. En realitat, s'usen
algunes transformacions no-lineals per canviar la forma de la distribució. Per exemple la transformació
logarítmica, que consisteix en prendre logaritme natural per a tots els valors del conjunt de dades,
noves_dades = log(dades_originals), s'usa a vegades per reduir l'asimetria d'una distribució, és a dir per
canviar la forma de la distribució.
● Ara creem un histograma de la variable euros. “hist(viatge$euros)”.
● Tenim una distribució asimètrica a la dreta i intentarem utilitzar la transformació logarítmica per veure si
podem obtenir una distribució més simètrica. Apliqueu la funció log() a la variable «euros» i assigneu el
resultat a una nova variable anomenant-la «log_euros». “log_euros <- log(viatge$euros)”.
● Obteniu ara l'histograma de la transformació logarítmica de la variable «euros», és a dir per a la variable
«log_euros». “hist(log_euros)”.
● Com podeu veure, si transformem la variable euros, que havíem vist que era asimètrica cap a la dreta, usant
la transformació logarítmica, obtenim una distribució més simètrica.
*************
Transformació dades amb Stata
1. Transformació lineal
Per transformar les dades linealment al Stata, usarem l'ordre «generate», que es pot abreujar a «gen». Suposeu
que els estudiants han de pagar 50 euros com assegurança abans d'embarcar l'avió, i quan arriben a Londres
canvien els seus euros per lliures al tipus de canvi de 1 lliura = 1.12 euros. Un cop que estem a Londres i volem
analitzar el seu conjunt de dades d'efectiu, tenim un nou conjunt dades, transformat a partir de l'anterior. La
transformació lineal apropiada per passar de la variable euros a la nova variable lliures és:
pounds=euros-50/1.12
Al Stata podeu realitzar aquesta transformació amb la següent ordre a la finestra d'ordres:
gen pounds = (euros - 50)/1.12
Això significa: genera una nova variable anomenada pounds basada en l'expressió entrada a la variable
euros. Ara teniu dues variables al vostre conjunt de dades: euros i pounds. Quins són els principals resums
numèrics per a la variable euros? Ho podem obtenir mitjançant:
summarize euros, detail
Si obtenim els resums numèrics per a la variable pounds usant la mateixa ordre, obtenim:
pounds
-------------------------------------------------------------
Percentiles Smallest
1% 52.99107 52.99107
5% 71.3616 89.73214
10% 93.40178 97.07143 Obs 20
25% 138.4196 124.75 Sum of Wgt. 20
Com han canviat els resums numèrics? Noteu que el coeficient d'asimetria (Skewness) i la curtosi (Kurtosis) no han
canviat, atès que la transformació lineal no té cap efecte sobre la forma de la distribució. Les mesures de posició es
veuen afectades pel canvi d'origen i el canvi d'escala, i així la mitjana canvia de la següent manera:
Mitjanapounds= Mitjanaeuros− 50
1.12
El mateix és veritat per a les altres mesures de posició (mediana, quartils, ...). En canvi les mesures de dispersió es
veuen sols afectades pel canvi d'escala:
Dev.Est.pounds= Dev.Esteuros
1.12
Altres mesures de dispersió com el rang interquartílic també varien d'aquesta manera.
Podeu comprovar aquests canvis als resums numèrics de les dues taules de dalt.
2. Transformació logarítmica
Anem a obtenir un histograma per a la variable euros amb:
histogram euros
Com es pot apreciar, la distribució de la variable euro és clarament asimètrica cap a la dreta.
Una transformació no lineal que a vegades és útil per reduir l'asimetria és la transformació logarítmica.
Consisteix en prendre els logaritmes naturals a cada cas del conjunt de dades, és a dir generar un nova variable
que és el logaritme natural de la variable original.
gen log_euros = log(euros)
Hem creat una nova variable anomenada log_euros. Ara si fem un histograma d'aquesta variable, obtenim: