You are on page 1of 158
(© 2001, Gius, Laverza& Fight ‘ 5 a Corrado Caudek Riccardo Luccio Prim edixione 2001, Statistica per psicologi Q)Eiitori Laterza ropriet leeceraria riservata Gis, Laterca & Figli Spa, Roma-Bari Fino di sampate nel setembre 2001 Poligtafico Dehoniano ~ Seablimento di Bai per conto della Gis. Lavecea& Fig Spa €L20.6419-7 ISBN 88420-6419. B viet I riprtuone, anche parzale, con qualsasi mezzo effectuata, ‘compre la forocopi, anche ac uso interno o didatico, Perla legge italiana la fcocopia ® leciea solo per uso personae puehé om danni Pastore. Quin ogc forocopia che evti Facquisto 4 un libro &ilecia erinaccia la sopeavivenca di un modo di essmertere la concscenzs, hi fococopia un libro, chi mete | dsposizione i mezzi pet forocopi chi comungue fvorisce questa pratca ‘commerce un furco e opera ‘i danni della culo Prefazione IL presente volume nasce dalla convinzione che la statisti€'rappre- senti una diseiplina costitutiva delle psicologia scientifica (anche al- la luce del fatto che la staistica moderna é stat, in parte, frutto del fondamentale lavoro di psicologi, da Galton a Spearman a Stevens a Thurstone) e che il suo ruolo formativo nei corsi di laurea sia deter- minante, Questo libro si rivolge ag: studenti universitari di psicolo- gia con un duplice obiettivo: fornire una descrizione dei fondamen# tidella teoria statistica e chiarre il ruolo dei principi della teoria sta- Aiética nell analisi dei dati psicologici. Data limportanza dell’inferenza statistica nella ricerca psicologi- @@Juna grande enfasi& stata data alla discussione dei modell lineari. Tali modelli rappresentano infatti uno degli strumenti pit utili e pit usatinel’analisi dei dati psicologici. Accade talvolta che i modell lis {neati vengano presentati come astratti formalismi, oppure come al- ‘goritmi da applicare ciecamente nell’ analisi dei dati. Gli autor riten- ‘gono invece che un uso appropriato dei modell linear richieda una comprensione non superficiale della teoria statistica. Per questa ra- gione, nel presente volume a teora statistica dei modell linea &sta- ta sviluppata (seguendo la trattazione proposta da Fox 1984) di pari passo con la discussione delle sue applicazioni libro assume una eonoscenza elementare dell'algebra matricia- ‘te: Lutilizzo dell algebra lineare per la trattazione del modello stati- stico lineare, infati, oltre a consentire una trattazione piti economi- cea di questo argomento, costituisce il necessario punto di partenza pet un successivo approfondimento delle tecniche disanalisi multi- swariata'a cui gli psicologi fanno sempre pit spesso ricorso. Vase t pee Wart nf os I prone ASpare 98 clhmed ds Pe wnaline, Aaproiatnsess TAM sm me. k [O aabiy (1.40) Questa operazione potrebbe essere descritta come il prodottoin- terno trai vettoridiriga della prima matrice e i vettori dicolonna del- 1, Aleune premesse matematiche necesarie 2 laseconda;si otterrcosi una matrice conil numero dirighe della pri- maeil numero di colonne della seconda, L’operazione, come sié det- to, &evidentemente possibile solo se il numero di colonne della p ma matrice & uguale al numero di righe della seconda. Per esempi 5 2][ 83 |_| (40+22) (15+4) -[g | 6 0}{ 11 2] | (48+0) (18+0) J [48 18, Una matrice pud sempre essere moltiplicata pet la sua trasposta. Il prodotto che si ottiene & una matrice simmetrica, che viene detta prodotto-momento. Se la matrice non 2 quadrata, quando la matrice che premoltiplica ha un numero di righe minore del numero delle colonne, sipatla di prodotto interno: oaeye S| ayy ay 431024 + Byada> + yyy Gita tay 4 Git an + ay | (141) 42104) + Bay + Axis Si noti che nella diagonale della matrice si hanno le sommatorie degli clementi della matrice al quadrato. : ‘Se invece il numero delle righe della matrice che premoltiplica & maggiore di quello delle colonne, si parla di prodotto esterno: aay [o ce ay a2 =| dab + daabo darbi2 + daabaa (142) asibiy + dsabey abo + dsaboa [zs tanba dubat “a Abbiamo visto che premoltiplicando a un vettore un vettore tra- sposto si ottiene uno scalare (prodotto interno o scalare). Si dira in- a Statistica per psicologi Yess Pradotto externa il prodotto ab’, che seguia invece la regola dei prodotti tra due matrici, dove la prima ha una sola colonna’. Ia Seconda una sola riga. Ne isultera una matrice quadrata, con un au. mero di tighe e di colonne pari al numero dei componenti di ogni vettore: a, ab, aby B, br b=] ab, ay, arb, (1.43) 4 ab, abr aby 14.14. Determinante di una matrice M termine determinante 2 di fatto ambiguo. Un determinante in fatti un assetto di numeri disposti come una matrice quadrata, che uo essere valutato con un valore numerico definito, Un determi, nante viene scritto come una matrice tra linee verticali, anziché tra Parentesi quadre; per esempio, un determinante di terzo ordine ¢ an a2 ay IAI “|e: a3 “| (1.44) 4 ass ay Peraltro, si parla di determinante di una matrice quadkata inten- glendo da un lato Vassetto quadrato dei numeri della matrice dal, altro la valutazione numerica del determinante. Il calcolo del alo, renumerico di un determinante relaivamente semplice per matte i piccole, sempre pitt complesso con I'aumentare dellowline della ‘matrice. Come principio generale possiamo dire che esso si otiens con una somma algebrica di prodotti ottenuti moltiplicnde clemento.con ogni alto elemento appartenente acolonnee righe i, erse. Cid equivale a dire che i prodotti sono ugual alle permuta, ioni dell ordine della matrice, e cio’ a n!. Cosi, una matiice di so, condo ordine avri due prodotti, una di tee’ordine si una di ques 10 24, € cosi via, Per esempio, il valore del determinante di una, trice 3 x 3 @ dato da VAl= artsy dusdadye + d2dryty,~ ayp0>,05) + 1 ai32032 — dyydz20y, (1.45) 1. Aleume premesse matematiche necessarie 29 Il determinante di una matrice 2 x 2 @ invece dato da: [e el aay dyq| = 4122 ~ dinter (1.46) 14.15. Inverso di una matrice Consideriamo ora le matrici inverse. Detta A una matrice quadrata, si definisce come sua inversa la matrice A“! che moltiplicata per la prima da la matrice identita I (che, ricordiamo, lascia identica ogni matrice moltiplicata per essa): ATA=AA1=1 (147) Se non esiste nessuna matrice che moltiplicata per la matrice A produce Ia matrice identit, allora la matrice A si dice singolare. Quando invece la matric inversaesist,allora essa & unica. La ma. tree inversa cos per la matrce originale una sorta di equivalente del reciproco di un numero, che moltiplicato peril numero origina. Je da come risultato 1. La matrice inversa consente di eseguire calcoli che possono esse- re di grande utilita, Per esempio, AB=C=A=CB (1.48) U calcolo delle matric! inverse & abbastanca indaginoso ¢ viene convenientemente svolto per mezzo di un computer. Limitiamoci qui al seguente esempio numerico. Sia 231 A=/314 213 Linverso della matrice A sara 025 2 -2,75 At=! 025-1 125 025-1 1,75 30 Statistica per pscologi 231)[ 025 2-275] [i100 314]] 025-1 125|/=|010 213),-025 1 175} Loo1 1.4.16. Autovalori e autovettori Pus accad rodotto tra una matrice e un vettore sia ugua- leat prodotto del vettore per uno-scalare; Weal prodotto del vettore per uno. ] ax-m ) (1.49) In questo caso, lo scalare A. detto autovalore,o valore carateri iho ceae igevoelae (Sor afc belle eaoclanae wa inglese e tede- sco, che sta prendendo piede, grazie all'uso che se ne fa nelle anali- si multidimensionali, anche da noi), e x autovettore, o vettore carat- teristico, 0 eigenvector. in quanto Lautovalone dana. matrce gode dla seguente propre se_ \Oltiplicato per la matrice identita, il determinante della matrice -TeMUCr Per sotralone data matce eu autovlare ela at (@identits per eso motriplicata, € uguale |A-al]=0 (1.50) Questa relazione ci consente di calcolare l'autovalore di una ma- trice. Supponiamo che A sia una matrice 2x2. II suo determinante sicalcolera in base alla 1.46, e quindi: Jay-2 a 4x1, (dg al™? (ay — Mazz - A) = yada, = BP (ayy —aan)A+ ay 022 ~ aay, = 0 (si) I valori caratterstci si trovano dungue risolvendo Vequazione precedente e diventano: 1 Alcune premesse matematiche necestaie 31 font ene Vien tan At ~aaa] 2 Bayram Visi aal Anais) (152) ay Questo ci consente di rilevare che ogni matrice pud avere pit di valote caratteristico. Gliautovalori c gli autovettori ortanaa straordinaria per lapplicazione dell algebra lineare ai pro- (arena cee Avs F A. vem e! Sener AR 0 A-41|s 0 | Oy47 A bye ; 42% X= A-aifee Capitolo secondo I livelli di misura 2.1, Misurazione e significanza I valori che sossiamo attribuire agli eventi del mondo, ¢ in partico- Iare a quegli eventi del mondo che possiamo chiamare “entita psi cologiche”, eche sono oggetto del nostro studio, non sono necessa- siamente “quanttativi”, nel senso usuale del termine, o quanto me- ‘no nell'uso che se ne fa quotidianamente. Pit precisamente, possia. imo dire che ogni operazione di misurazione corrisponde a mettere in telaione cee propre del event che oserviano con pro ieta dei numeri quindi operare su i stessimo operando sui primi Ps name Vediamo questo cosa significa dal punto di vista dello psicologo che raccoglie dati per la sua ricerca. Formalmente, noi possiamo as- sumere che kentita psicologiche di cui ci stiamo occupando cost tuiscono un insieme al cui interno esistono delle classi di equivalen- 2a tali che l'nsieme quoziente sia in corrispondenza biunivoca con Pinsieme degli eventi psicologici osservati da noi come distinti tra di Joro. In altri termini, noi assumiamo che per esempio esistano delle entita psicologiche che si chiamano quozienti intlletivi (Q0). Esk. stono al loro interno delle clasi diequivalenza, rappresentate dai di versivaloridiQlI, propri ognuno diunao i persone. Linsieme quo- ziente di queste classi (insieme rappresentato dalle lassi QI — 85. QI = 97, QI= 112, ecc.) @in corrispondenza biunivoca con i nostri strumenti che ci consentono di misurarli come classi distinte: nel no- stro esempio,con le possibilirspostedistinte aun test diinelligenza. __Aquesto aunto dobbiamo fare due ulteriori assunzioni: la prima 2 che tra le classi di equivalenza delle entita psicologiche esistano 2M ivellé dé misura aa delle relazioni r), 135.» fy La seconda é che anche tra le rilevazioni corrispondenti alle diverse classi di equivalenza esistano delle rela- ‘ioni Py, Pay» Py COFispondenti alle prime. Possiamo a questo punto definire cosa intendiamo per misura- zione: misurare significa definire sull'insieme dei numeri reali del- le relazioni m, 11, 1», corrispondenti all'insieme delle relazioni p,, oy Py Linsieme delle rilevazioni sara allora isomorfo all'insieme jumeri reali, A questo punto, noi potremo compiere tutte le ope- wzioni che vorremo sulle nostre rilevazioni, come se fossero opera- zioni che compiamo sui numeri reali. Esistono cosi diversi ivell di misurazione, corrispondenti a qua- li proprieta dei numeri reali vogliamo utilizzare, E questo il proble- ma della significanza della misurazione (da non confondere con la si- nificativita), e cio’ del senso che ha utilizzare relazioni e operazio- ni tra numeri, una volta che si sia scelto un certo livello di misura- zione (cfr. Burigana e Lucca, 1975, capitolo 15). Noi possiamo dire che se venisse scelto ’intero insieme dei numeri reali, con tutte le sue relazioni e tutte le operazioni, allora saremmo di fronte a un sistema numerico completo, Ma le relazioni tra le nostre rilevazioni non ne- cessariamente corrispondono a tutte le relazioni presenti tra i nu- meri reali. Se noi utilizzassimo solo ad esempio la proprieta corr spondente alla cardinalita,e cio® a quella proprieta dei numeri reali che fa si che siano uno diverso dall'altro, senza perd nessuna defi zione di una relazione d’ordine tra di loro, evidentemente le opera- zioni che potrebbero essere svolte sarebbero assai imitate. Ma que- sto, come vedremo, @ appunto il caso che si verifica quando abbia- mo a che fare con entita psicologiche che si distinguono tra di loro solo per essere diverse le une dalle altre. ‘Quando i dati vengono raccolti, occorre quindi che si abbia pie- na chiarezza su quale ¢ il ivello di misurazione in cui ci muoviamo, perché evidentemente, se a cert livelli non tutte le operazioni defi nite sui numeri reali sono lecite (sono significant), a maggior ragio- ne non tutti i test statistici possono essere utilizzati indifferentemen- te a qualsiasilivello di scala. Per quelli che vedremo ~ sono i primi due livelli, nominale e ordinale la statstica appropriata viene det- ta non parametrica: tra le statistiche non paramettiche di pid fre- quente uso possiamo ricordare il test binomiale, il test dei segni, il test della probabilita esatta di Fisher, il 7°, ecc. La statistica parame- trica si applica invece ai due liveli pit alti, e saranno allora impiega- 34 Statistica per psicologi te come statistiche il di Student, V'analisi della varianza, ece. Evi dentemente, ognuno di questi test richiede un’accurata analisi delle condizioni che ne consentono l'applicabilita, anche al correttolivel- lo di misurazione. Tutti questi aspetti verranno comunque meglio precisati in seguito. SS, Stevens (1951), il grande teorico della misurazione in psico: logia, propone di utilizzare quattro liveli di misurazione: nominale, ordinale, di intervallo, di rapporto. Poiché lo scopo di questo libro non éevidentemente quello di entrare in sofisticate discussioni di or dine da un lato epistemologico, dallalto algebrico astratto, sui pro- blemi della misurazione, accettiamo senz’altro la suddivisione pro- posta da Stevens, ci rieriremo nel corso del volume a questi quat- tro liveli, che vedremo articolatamente nei prossimi paragrali. 2.2. Le scale nominali Ilivello delle scale nominal viene anche detto delle categorie nom or- dinate (cfr. Faverge, 1962). Una prima proprieta dei numeri reali & quella della cardinalita, che fa si che ogni numero sia differente da ali altri, ed & questa proprieta che viene qui utilizeata. Le classi di equivalenza delle entta psicologiche, di conseguenza, sono assunte esclusivamente come differenti le une dalle altre. Le rilevazioni so- no assunte come distinte per le diverse classi di equivalenza, Al di a di questo, nessuna relazione viene presupposta tra gli clementi del- Finsieme delle enti psicologiche. Se vogliamo formalizzare in modo piit preciso quanto sopra det to, la nostra scala di misura pud essere cosi definita (eft. Burigana ¢ Lucca, 1975). Da un lato c'éPinsieme ® dei numeri reali, dall' altro Tinsieme delle entita psicologiche ¥ — & opportuno precisare che @ non vuoto. In R noi scegliamo un’unica relazione, quella di iden- £1 =, Definiamo cost il nostro sistema relazionale nominale N come. N= (=) (2.1) In ¥, a sua volta, noi scegliamo una relazione binaria —, per cui costruiamo un sistema empirico come (B) (2.2) | livell di meisura 35 Per passare dal nostro sistema empitico al sistema relazionale nu- \nerico occorre anche definire una funzione ¢, tale per cui, date due ita psicologiche appartenenti a Y, per esempio £ € 1, se £5, allora ple) = gn) 23) Abbiamo cosi trovato due relazioni, — € =, cotrispondent in Ye nv, per mezzo della funzione g, che ci permette di stabilire quello jie viene chiamato un omomorfismo tra i due sistem. Ma facciamo «wn altro passo in avanti. La relazione —, assunta come rifles inetrica ¢ transitiva, é una funzione classificatoria, che ci conse ‘lettuare una partizione in W in classi di equivalenza, In altri ten hi, noi attraverso — sudividiamo le entita psicologiche dividendole in classi (operazione di classificazione), al cui interno le entita stesse ‘ono nella relazione ~* sono equivalenti. numero di classi di equi: valenza cosi formate @ la carclinalita di. E quindi evidente che pos- jamo assegnare a ogni classe come etichetta un numero, ma tra que- sti numeri non @ definita nessuna operazione, al dla di =. 2.2.1, La rappresentazione dei dati a livello nominale Gili esempi che possiamo fornize di entita psicologiche classificabili livello di scala nominale possono essere moltiplicati pressoché al- Vinfinito, Possiamo parlare di sesso o di professioni. Possiamo par- lare di fecondita, con due valori (0 livelli):fertilita contrapposta a sterilita; di appartenenza a scuole diverse: studenti di liceo classico, i liceo scientifico, di istituto tecnico, ece.; di appartenenza a grup: pi etnici: italiani, sloveni, ladini, ecc.; e cosi via. In cutti questi Punica cosa che conta é la differenza, ma non viene determinata nes- suna relazione asimmettica, del tipo maggiore-minore, che consenta di mettere su una scala ordinale i valori. Essi sono solo differenti, ma nessuno pud dire che femmina @ pido meno di maschio, che slove- no pitio meno di italiano, Ese attribuiamo dei numeri ai valori che osserviamo, questi valgono solo in quanto diversi gli uni dagli altri. Cosi, possiamo dire che femmina = 1 e maschio = 2, ma cid non ci autotizza a dire che due femmine equivalgono a un maschio. O pos- siamo dire che ingegnere= 1, idraulico =7,talassografo = 13, ma cid non significa che per fare un talassografo occorre sottrarre un inge- ‘gnere da due idraulici. I numeri vengono scelti solo in quanto diversi 36 ‘Statistica per psicologi uno dall’altro, la scelta & del resto assolutamente arbitraria, purché si rispettila differenza, In tutti questi casi, si tratta di classi mutuamente esclusive. Un maschio non pud appartenere anche alla classe delle femmine, un ta- lassografo non pud essere contemporaneamente un idraulico. Di fat- to, spesso in psicologia é questa una condizione che non si avvera. I professori fanno come secondo lavoro i meccanici, nessuno total- mente estroverso o introverso, € cosi via. Esiste una branca della teo- ria degli insiemi, la cosiddetta teoria degli “insiemi sfuocati” di Za deh, che in questi ultimi anni ha cercato di tisolvere questi proble- mi definendo una funzione di appartenenza di un membro a un in- sieme dato, con valore compreso tra 0 (nessuna appartenenza) ¢ 1 (otale appartenenza). Non sono mancati i tentativi di applicare la teoria degli insiemi sfuocati ai problemi della misurazione in psico- Jogia (in Italia, per esempio, con Sambin), con risultati perd solo par- ialmente soddisfacenti, Al nostro livello,& sufficiente limitarci a se gnalare lesistenza anche di questa prospettiva. ‘Come trattare i dati che vengono cosi raccolti? L’unica operazio: ne matematica che ci @ consentita @ quella del conteggio dei casi ap- partenenti alle categorie che osserviamo, Come vedremo meglio nel capitolo 5, uno dei compiti fondamentali della statistica descrittiva consiste nel trovare degli indici riassuntivi che permettano di de- scrivere complessivamente un campione o un universo, senza dover elencare tutti casi che lo costituiscono. Si tratta delle cosiddette mi- sure di tendenza centrale e di variabilita, o dispersione, che permet: tono di individuare qual il valore centrale di un gruppo di osser- vazioni, attorno a cui tutte le altre si distribuiscono, e quanto sono disperse queste osservazioni attorno a tale valore centtale. Per quel che riguarda il ivello nominale, Punica misura di ten- denza centrale utilizzabile é la moda, dato che essa dipende soltanto dalla frequenza delle osservazioni. La moda di una distribuzione di frequenze @ il punto centrale della classe di misure pit frequente. Negli istogrammi, la moda coincide con il punto centrale della base del rettangolo con altezza maggiore. Affinché una distribuzione sia bimodale é sufficiente che visiano due massimi; non 2 necessario che entrambi abbiano lo stesso valor. uso della moda quale misura di tendenza centrale é limitato a causa dei imiti che caratterizzano la moda; (a) un campione pud ave- re pitt di una moda; (b) la moda @ molto sensibile alla grandezza e al 2 Vive di misura 37 ‘numero degli intervalli di classe e pud cambiare in maniera conside- revole cambiando gli intervalli delle clasi; (c) la moda di un cam- pione non fornisce una buona stima della moda della popolazione ‘da cui il campione & stato tratto. Se ad esempio abbiamo un campione di persone di cui ci inte- ressa conoscere la professione, assunto che le diverse professioni de- terminano classi mutuamente esclusive, potremmo alla fine rilevare i dati della seguente tabella: Tabelle 2.1. Ripartzione di un sistema empiicocostituito da un campione di 86 in- livid’ in 7 class di equivalenca. Ciascuna classe corisponde «wna professione. Profasione Ing Mek Prose Cas Imp, Pens 3 6 2 7 Frequenza 1224 Una tabella di questo tipo viene indicata con il numero delle ri- she re delle colonne ¢ in cui sono presenti le frequenze. In questo caso la nostra tabella, avendo una sola riga e sette colonne con fre- ‘quenze, viene detta 1 x7. Per quel che riguarda la moda, questa co risponde alla categoria dei medici; peraltro potremmo anche dite che ci troviamo di fronte a una distribuzione bimodale, essendo le frequenze della categoria dei medici e della categoria dei pensionati pi elevate (anche se non uguali)rispetto alle atre. Questi dati possono poi essere rappresentati graficamente in va~ timodi. Uno molto usato @ istogramma (vedi figura2.1).Su un dia- Freguenst Tee Mel Pek Gm Ig Penn Profesione Figura 2.1. Istogramma per i dati della tabella 2.1 38 Statistica per psicologi bs @ Mea. BH Pe O Gs Ip. Pans. Figura 2.2. Diagramma centrale com gli stessi dat della figura 2.1 gramma cartesiano vengono riportati dei rettangoli, uno per catego- Fi, di base uguale e di altezza proporzionae alla requertarilevata, Negli istogrammi, la moda coincide con il punto centrale della base del rettangolo con altezza maggiore. Un altro metodo & quello dei diagrammi centrali, detti comune mente “torte” (in inglese, pic). Viene disegnato un cerchio suddlivi so in settori circolari, uno per ogni categoria, il cui angolo al centro & proporzionale alla frequenza di tale categoria, Non ci soffermiamo su altri modi con cui si possono rappresen tare graficamente questo tipo di dati: diagrammi a barre, simili agli istogrammi, ma spesso con barre disposte orizzontalmente; ideo- grammi, in cui le frequenze sono rappresentate da figure come omi- ni, alberi ecc., ognuno dei quali rappresenta un certo numero di ca- si, poniamo 10 0 100 0 1000; nel caso si voglia rappresentare una frazione di questo numero, csi diverte a compiere crudeli (ma di so lito approssimative) amputazioni degli ometti. E. la. i sembra pit utile dare indicazioni piuttosto su come costruire le tabelle. La tabella 2.1 era unidimensionale, nel senso che le pro- fessioni indicate appartenevano a un’ uni anche si dice in statis dimensione (erano, come ica, sette diversi livelli dell’unica vatial “professione"). Anche in questa, che é la situazione pitt semplice, possiamo pero complicarci abbondantemente la vita, ageiungendo nella tabella altri dati che aiutano meglio a capire quelli presentati, | lve di misura 39 Ad esempio, & sempre utile mettere in una cella il totale delle osser- vwioni, abitualmente indicato con , E ancora utile mettere la per- centuale corrispondente a ogni osservazione ~ ma attenzione!, la jpereentuale non va mai messa se il numero totale & troppo piccolo, » comunque inferiore a 50. L.a nostra tabella 2.1 sitrasforma cosi nella tabella 2.2, certamen- ‘e molto pit informativa. Si osservi che rimane comunque sempre ‘na tabella 1 x 7, poiché le frequenze sono sempre sulle sette celle \vuna sola riga 2. Una nuova versione della tabella 2.1 Vroieskone Tag Mesh Prot Me Can tp. Pens Tore [er a 7) ca Percentwale 139 279-58 186 23 BBS 100 2.2.2. Pitt di un eriterio di classificazione. Tabelle di contingenza ¢ frequenze teoriche ¢ osservate Noi abbiamo detto che le categorie (le classi di equivalenza) del no- stro insieme ¥ sono mutuamente esclusive. Peraltro, gli stessi dati possono essere soggetti a piit di un criterio di classificazione. In altri termini, nello stesso sistema empirico possono essere individuate pitt relazioni che, analogament +, consentono lo stesso omomorfi- smo tra Y eR. Nell’esempio sopra fatto, — consentiva di mettere nella stessa categoria le persone che svolgevano la stessa professio- ne, Ma le persone si differenziano tra di loro anche per numerose al- ire caratteristiche, che a loro volta costituiscono delle classi di equi- vvalenza mutuamente esclusive, e che sono indipendenti dalle prime, Cosi, solo per fare un esempio, le persone si distinguono per sesso. Possiamo cosi immaginare che nel nostro dominio empirico delle en tita psicologiche vi sia un’altra relazione,[, indipendente da >, ma in base a cui sia possibile costruire un omomortismo con % e delle classi di equivalenza in V. Come potremo allora rappresentare con- temporancamente questi due eriteri di classificazione? ‘Torniamo alla nostra tabella 2.1. In essa, i valori di ogni cella pos- sono essere ripartiti in due, tra maschi ¢ femmine. Cosi, dei 12 inge- neti nel nostro campione ve ne saranno 8 maschi e 4 femmine, dei 24 medici ve ne saranno 15 maschi ¢ 9 femmine, e cosi via, Potremo 40 Statistica per pscologi allora costruire una tabella cosiddetta a “doppia entrata”, in cui le righe rappresenteranno un criterio di classificazione, per esempio il sesso, e le colonne I'alto criterio, nel nostro caso la professione, ¢ verremo ad avere la tabella 23. Sidice che i due crteri di classifica. zione, o le due variabili, una con 7 livelli, Paltra con 2, sono “orto- gonali” tra di loro. Questa tabella viene detta 2 x 7. Una tabella in cui due o pili variabili si incrociano ortogonalmente tra di loro vie- ne poi detta “tabella di contingenza”. Tabella 23. Tabella a doppia entrata che reppresenta la distribucione di frequense isultante da una ripartzione di 86 individ in 14 classi di equivalenca Ing Med Prof. Ide Gan_Imp, Pens Toke Maschi sb 1 6 0 35 0 Feramine ee eth a0 fen eae 1033) Toule Bw 5 6 2 7 2 & _ A ee et Evidentemente, anche a questa tabella possiamo aggiungere le percentuali, come abbiamo fatto per la 2.2. Pit interessante & piut- tosto inserirenella tabella 2.3, a fianco delle frequenze osservate (in- dividuate empiricamente), anche le cosiddette “frequenze teoriche”. I concetto difrequenza teorica é di grande rilievo per la statistica, ¢ lo riprendereno soprattutto nel capitolo 16, parlando in particolare dell’analisi delle tabelle di contingenza, ma vale la pena di introdur- lo subito. Per farlo, perd, ci serviremo di un esempio pit semplice di quello sin qui considerato, e cio’ di un doppio criterio di classifica- ione con due classi per criterio (0 altrimenti detto, due variabili or- togonali,ciascuna a due livell), rappresentata in una tabella 2x2. Im- maginiamo che i due criteri siano uno il sesso (maschio v. femmina) ¢ Valero lo stato civle (coniugato v. libero), e che le nostre frequen- ze siano come nella seguente tabella 2.4. ‘Tabella 2.4, Distribuaione di frequenze rsultante da una ripartzione di 6 indivi dud in 4 classi diequivalenza, sh wart th gn Coniugt bed Tole eee ee Maschi 2 16 38 Femine 2 16 2 Toule 4 32 6 i ee nine ares on le BY cone aie Flees 2 I livellé dé misuera 4 Per capire bene cosa si intende per frequenze teoriche, facciamo attenzione aitotali marginal, e cio ai total di rga ea total di co- lonna. Qui abbiamo dei datiimmodificabili, rappresentati da un lato numero dei maschi e delle femmine, dallaltro da quello dei co- tugatie beri. Come vedremo meglio nel capitolo 16, se noi assu- iamo che il sesso non influisca sullo stato civil, € reciprocamente ‘hel sto cle no infuse sul eso fil che non ¢ pera diff cile da immaginare, ma non in tutii casi le cose sono cosi ovvie), do- ces ieret iis ches para di numero dimacchie d femmine, arita di numero di conjugate liberi (rimanendo quindi immu- {ati i totali marginali), maschi e femmine si ripartiscano nella stessa proporzione tra coniugati ¢ liberi (e reciprocamente coniugati € bet si ripartiscano nella stessa proporzione tra maschi e femmine). ‘Vediamo dunque come calcolare queste nuove frequenze che si dovrebbero rilevare nelle celle centrali della nostra tabella, rispet- tando queste proporzioni I allo & semplic, ed & dato pe ogni cella dal prodotto del totale della riga cortispondente per il tot della colonna corrispondente, diviso per 1, il numero complessivo dei casi osservati. Cosi, dettiA e Bi due criteri di clasificazione, con livelirispettivi A, e A., By e B,,e dando delle letere alle frequenze, noi avremo la seguente tabella bella 2.5. Una generica tabellea doppia entrta com due clasi per criterio di clas- sificazione. EO AL a C Se Totale ae eet eed Tonle A ees eee Ti calcolo delle frequenze teoriche a,, b,, ¢,, d, sara il seguente: a+r Vediamo allora di applicare le 2.4 ai dati della nostra tabella 2.4, dove a, @ rappresentato dai maschi coniugati, b, dai maschi liberi, ¢ cosi via. Avremo: b= Gt b+) occ, (2.4) 42 Statistica per psivologi Riportiamo allora i valori di queste frequenze teoriche in gras- setto, sotto a quelli delle frequenze empiriche osservate, nella tabel- 122.6, e verifichiamo che i total di rigae di colonna sono identici per frequenze teoriche e frequenze empitiche. Tabella 2.6. Una nuove versione della tabella 24 con U'indicazione delle frequenze teoriche (in nero). seapicbe in mera Conn Liber Tonle Marchi 2 16 38 19,58 1842 38 Femmine 2 16 2% 1442 B38 2 Totale 4 2 % au 32 oe eeEeeversvV' C'_ Om— Se quindi i totali marginali sono rimastiidentici, qualcosa perd & cambiato in questa tabella, Calcoliamo allinterno di ogni livello di tn ctiterio di classificazione il rapporto tra le frequenze dei due li- Velli dellaltro criterio di classificazione, e otteniamo quello che vie- te chiamato il rapporto di probabilita, su cui dovremo diffonde: Tango in seguito (capitolo 16). In altri termini, il rapporto di proba- bilita 24, per i maschi, relativo a coniugati Be liberi B,, & dato da (25) Questo valore & ben diverso dal rapporto di probabilta che pos- siamo calcolare per le femmine, Qy3: (2.6) 2 ell di misura a Se ora perd sostituiamo ai valori delle frequenze osservate quelli dlelle frequenze teoriche, ottenendo quelli che potremmo chiamare ‘lei rapporti di probabilita reorici, {2’, vedremmo che questi sono turtti assolutamente uguali: =H = 1958 = Ab RARE 14,42 Dig == NR A 1, 2 B38 062 (2.7) Ello stesso identico discorso possiamo fare per i rapporti di pro- babilita Q,, per coniugati (rapporto tra coniugati maschi ¢ coniuga- ti femmine) € Qy» per liberi (rapporto tra liberi maschi e liberi fem- mine). Tn pratica, cosa abbiamo fatto? Abbiamo determinato i valori di frequenza che si avrebbero se una variabile (per esempio, il sesso) non influisse sullaltra variabile (per esempio, lo stato civile). Il no- ‘tro problema diventa allora quello di stabilire se la differenza tra frequenze osservate e frequenze teoriche é tale da ritenere che evi- dentemente questa influenza (o non indipendenza) tra le due vatia- bili sussiste. Come si procede in questa verifica sara oggetto dei ca- pitoli 8 ¢ 16. 2.2.3. Significanza delle statistiche a livello nominale [Abbiamo gia posto nel § 2.1 il problema della significanza delle Statistiche che si impiegano ai diversi livelli delle scale di misura. ‘Oa questo concetto sari probabilmente pit chiaro. Vi sono ope- tazioni che si possono compiere solo utilizzando determinate pro- prieta e relazioni dei numeri reali, ma, come abbiamo visto, l'uni- bb relazione qui definita & quella di =. Questo perd ci consente di Costruire delle tabelle di frequenza che, quando comprendono pit di un criterio di classificazione, sono appunto le tabelle di contin- senza. Peraltro, sono mole le statistiche che possono essere utili: Yate avendo come base di partenza le frequenze. Poiché quelle di to pit frequente verranno riprese per esteso in altre parti del pre- Sente volume, ci limiteremo qui ad elencarle, con l'indicazione del- Te condizioni di utilizzo. “4 Statistica per pscologi Unico crterio di clasifcazione. 1 nostri dati a livello nominale ven: ono ripartti in classi di equivalenza in base aun unico criteria di classificazione: per esempio, per professione; 0 per sesso; 0 per ma- lattia; o per stato civile; e cosi via. Se le classi sono esclusivumente due, la staistica significante di maggior uso @ il test della binomiale (wedi il capitolo 4). Sele classi sono piti di due, la statistica d'elezio. ne il 7? di Pearson (vedi il capitolo 16). Doppio criterio di classificazione. Se vi sono due criteti di classifica zione, ortogonali tra di loro, come nell’esempio sopra riportato del sesso e dello stato civile, occorre prendere in considerazione le fre- quenze, il numero dei livelli per criterio di classificazione (o variabi. le) eVindipendenza o meno dei campioni. 1. Due livelli di classficazione per variabile (tabelle 2X2); fre- quenze basse, con pitt di una frequenza teorica inferiore a5 e/o an. che una sola frequenza teotica inferiore a 1. La statistica di elezione il test della probabiliti esatta di Fisher, derivante dalla distribuzio ne ipergeomettica (vedi § 4.2). 2. Dus livelli di clasificazione per variabile; frequenze pit alte, con non pit di una frequenza teorica infetiore a 5, e nessuna infe, tiore a 1; campioni dipendenti (cfr. capitolo 10). Ancora una volta, il test di elezione & il test della probabilita esatta di Fisher, 3. Come sopra, ma con campioni indipendenti, Si pud usare la Statistica X? di Pearson in luogo del test di Fisher (cfr. capitolo 16). 4. Due variabili, ma con pit di due livell di dassficazione per al. meno una variabile (tabelle rx c,con r22.€c2 2). Ses tratta di cam. pioni dipendenti @ un guaio, ma si pud comunque usare un'esten, sione del test di Fisher. idem, se non ricotrono le condizioni di fre. uen2a del punto 2. Se sono campioni indipendenti, si pud usare la statistica X? di Pearson, >. Pit di due variabil:ortogonali (per esempio, sesso, stato civile € professione): si usano i modellilog-lineari (cfr. capitolo 16). 23. Le scale ordinali livello delle scale ordinali viene anche detto delle categorie ordina- 4e (cht. Faverge, 1962). Una seconda proprieta dei numeri reali é in. fatti quella della ordinalita: a lvello ordinale, oltre alla differenza tra valori, definiamo anche una telazione asimmetrica d'ordine, o in altri 2M Uivell di misura 4% ‘crmini una relazione maggiore/uguale (2). In questo caso, dati due venti, possiamo dire se il valore dell'uno & maggiore o minore (0 \wauale) di quello dell altro: cid che non possiamo dire & di quanto & !maggiore o minore~e, si badi bene, non perché non lo sappiamo, ma herché la grandezza degli intervalli non é definita. Parliamo peraltro «ti “ordine debole”, proprio perché non sono definiti gli interval tra ‘un valore e altro della scala, ma solo la relazione asimmettica, Anche in questo caso, se vogliamo formalizzare in modo pia pre- iso quanto sopra detto, la nostra scala di misura pud essere cosi de. {inita. Da un lato c'é sempre I'insieme % dei numeri reali, dallaltro Vinsieme non vuoto delle entta psicologiche . In % noi scegliamo un’unica relazione, quella di maggiore/uguale >. Definiamo cosi il nostro sistema relazionale ordinale O come: O=(%2) (28) In ¥, a sua volta, noi scegliamo una relazione binaria 0, per cui costruiamo un sistema empirico come C=(¥0) 2.9) Per passare dal nostro sistema empirico al sistema relazionale nu- ‘metico occorre anche definire una funzione &, tale per cui, date due ‘entita psicologiche appartenenti a Y, Per esempio €¢ 7, se €0n, allora &(e) > €(n) (2.10) Abbiamo cosi trovato due relazioni, 0 ¢ >, corrispondenti in Y ¢ i ®, per mezzo della funzione &, che ci permettono di stabilize quel. lo che viene chiamato un omomortismo tra i due sistemi. Ma qui la similitudine con le scale nominali cessa. La relazione 0 (assunta co- me antisimmetrica, transitiva ¢ fortemente connessa) @ una. funzione debolmente ordinatoria, e non classificatoria, che quindi non ci con. sente di effettuare tna partizione di ¥ in classi di equivalenza, Dovremo quindi individuare una funzione classificatoria —, ana- loga a quella vista sopra, derivata da 0, La derivazione & peraltro semplice: enn seedn ene (2.11) 46 Statistica per psicologi Ricordiamo che salendo di livello nelle scale di misurazione, ven: gono conservate tutte le relazioni dei livelli inferiori. E allora possi- bile applicare la 2.3 sulla base della 2.11, e in questo modo anche a questo livello attraverso — suddividiamo le entita psicologiche divi- dendole in classi, al cui interno le entita stesse sono equivalenti 2.3.1. La rappresentazione dei dati a livello ordinale ~ La mediana Un esempio assolutamente classic di scala ordinale @ in mineralo sia la scala di Moss delle durezze, una scala a diecilivelli, che vanno dal taleo (il meno duro) al diamante (il pia duro), dove ilcriterio per collocare una certa sostanza a un determinato gradino della scala & dato dal fatto che la superficie di tale sostanza viene graffiata da quella posta al gradino superiore, e graffia quella della sostanza po- sta al gradino inferiore. Owviamente, sarebbe del tutto insensato pensare che questi gradini siano distanziati tra loro con intervalli uuguali, come gli intervalli di una seala di lunghezze, 0 di pesi,ece. E ‘ognuno si rende conto del fatto che dieci pezzi di talco non hanno, messi insieme, la durezza di un diamante. Un’altsa scala ordinale & Ja scala Mercalli (non Richter!) dei terremoti:é chiaro a tutti che non basterebbero 100 terremoti di ivello I (che restano pressoch¢ total: ‘mente inavvertiti, se non a livello strumentale) a fate un tertemoto di intensita 10, che non lascia pietra su pietra. ale ordinali sono di uso frequentissimo in tutte le scienze so- . Definiamo cosi il nostro sistema relazionale di interval come: T=(Ri-2) (2.12) In ¥, a sua volta, noi scegliamo una relazione quaternaria V, pet ‘cui costruiamo un sistema empirico come C=(#9) (2.13) I significato di V @ il seguente. Poniamo che €€ 17 € rispettiva- mente te U siano due copie di entita psicologiche appartenenti a Y. A queste coppie di entita sono associate delle distanze (degli in tervalli), rispettivamente x, x,, x, ex, Noi diremo che enViuv (2.14) sela distanza tra €€ 1 & maggiore o uguale alla distanza tra te v. Pet passare dal nostro sistema empirico al sistema relazionale numerico definiamo la funzione & e poniamo la seguente condizione: see, V1, v, allora & (x,) ~§ (x3) 2 E(x) E(x) (2.15) 52 ‘Statistica per psicologi Abbiamo cosi trovato delle relazioni, V, ~ ¢ 2, cortispondenti in We in %, per mezzo della funzione &, che ci permette ancora una volta di stabilire quello che viene chiamato un omomorfismo tra i due sistemi. Atrestiamo qui l’analisi, perché la complessita degli svi luppi che quisi aprono vanno ben al dila degli scopi di questo libro. Mlettore pud comunque intuire come da questo punto si pud passa re alla costruzione di classi di equivalenza in ¥. 2.4.1. La rappresentazione dei dati a livello di interval Tendenza centrale e variabilita Le misure a livello di scale di intervalli presentano numerose carat- teristiche positive. Forse la pit: importante & quella per cui ogni tra- sformazione lineare dei dati mantiene la caratteristica della seala. Cosi se i dati vengono sommati o moltiplicati per una costante, inuo- vi dati rimangono su una scala di intervall 1 dati che si raccolgono negli esperimenti di psicologia sono mol to spesso collocati su una scala di intervalli. Per fare un esempio, si pensi a un esperimento di psicofisica in cui si richiede ai soggetti un compito di magnitude estimation. In un compito di questo tipo, vie ne prima presentato a un soggetto uno stimolo di intensita bassa, ¢ ali si dice che questa intensita vale I su una qualche scala arbitrari Successivamente gli viene presentato uno stimolo di intensith eleva ta, e gli si dice che questo stimolo vale 10 sulla stessa scala arbitra ria, Si dice poi al soggetto che tutti gli stimoli che verranno presen: tati dora in avanti avranno un’intensita compresa tra quelle che gli somo state presenta ¢ che quindia ogo stimlo dove asegnare un valore compreso tra 1 ¢ 10. Eevidente che qui lo 0 @arbitrario (non ha senso dire che @ un’unita sotto il valore 1), anche se esiste uno 0 non arbitrario dal punto di vista psicofisico per quegli stimoli che hanno un’intensita tale per cui non vengono percepiti affatto; sono, come si dice, sotto il valore di soglia assoluta, Nello stesso tempo, la scala @ costruita in modo tale che é vero che la differenza di intensita percepita tra uno stimolo a cui viene assegnato il valore, poniamo, 2, uno stimolo a cui viene assegnato il valore 3 & uguale alla differen- za di intensita percepita tra gli stimoli corrispondenti a 6 € a7. Tutte le operazioni che abbiamo visto sinora per la rappresenta zione dei valori a livello nominale e ordinale sono possibili anche 2 I ivellidi misura 3B «iui, livello di intervali, Evidentemente, @ perd possibile anche fa- re qualcosa di pit uzitutto, & possibile qui calcolare degli indici di tendenza centrale che vanno al di la della mediana e della moda, e ci riferiamo alla media, che verra peraltro affrontata in dettaglio nel capitolo 5. Anticipiamo il fatto che la media aritmetica X (ma esistono come ve- alti tipi di media) data dalla somma di tutti valori (i pun- \eggi) dei casi che osserviamo, X,, divisa per il numero » di casi os- servati: xe 2.16) Peraltro, anche per quel che riguarda la mediana & possibile fare llle stime pitt precise. Supponiamo di avere questa serie di valor: 3467891011 Quale sara la mediana? Ora, la mediana, come abbiamo detto, & il valore che divide esattamente a meta i valori osservati. In altri ter mini, deve esserci lo stesso numero di valori pitt piccoli e lo stesso numero di valori pid grandi di quello seelto come mediana. Dob- Diamo allora distinguere due casi il caso in cui i valori osservati sia no in numero dispari e il caso in cui siano in numero pari. Nel pri mo caso é facile trovare il valore la cui posizione @ centrale. Nel no- stro caso, numeri pari, un tale valore tra i dati osservati non esiste, perché quattro sono i punteggi che vanno da 3 a7, e quattro quelli che vanno da 8 a 11. Se allora chiamiamo a indice del valore che ha posizione /2 (¢ cig, essendo m uguale a8, il quarto valore,il7) eb Findice del valore che ha posizione n/2 + 1 (c coe il quinto valore, 8), la mediana Me sara uguale a: X,+Xy 2 Nel nostro caso avremo (7+8)/2 = 7,5. Questo caleolo sarebbe stato privo di senso nelle scale ordinali, perché non esistono valori intermedi tra due posizioni della scala Particolare rilievo, come vedremo soprattutto nel capitolo 5, ha 4 questo livello di misurazione 'individuazione di un qualche indice Me = (2.17) 34 Statistica per psicologi cche consenta di misurare quanto i dati sono dispersi, 0 non piutto- sto si addensano attorno allindice di tendenza centrale. Un primo indice, detto “gamma”, @ dato semplicemente dal valore della diffe- renza trail punteggio pi alto cil punteggio pit basso osservati. Nel nostro caso, 11 — 3 = 8. E chiaramente un indice poco significativo, pperché lo stesso valore lo si avrebbe anche con questa distribuzione, palesemente molto diversa: 377777711 Una misura pitt precisa @ il cosiddetto scarto interquartile, e ciot la differenza tra primo ¢ terzo quartile, che individua la gamma di variazione della meta centrale dei punteggi, con esclusione quindi dei piit alti e dei pit bassi. Se per si considera la media il centro di sgravita della distribuzione, a variabilita pud essere misurata in ter mini di moment, e cioe di oscillazioni della costellazione dei pun teggi attorno a tale baricentro, Il primo momento @ allora la media semplice degli scart dalla media di ogni punteggio, ma (cfr. capito- Jo 5) tale momento, come si dimostza facilmente, & sempre uguale a 2zer0, pertanto il primo momento non é utilizzabile. E allora di uso frequente il secondo momento, la media degli scart elevata al qua drato, detta varianza (S*; 0 la sua radice quadrata, detta deviazione standard): s.f (2.18) La rappresentazione dei dati @ analoga a quanto visto sopra, con Ja differenza che & qui possibile, come per la mediana, avere valoti intermedi anche per i quantil 25. Le scale di rapporti,o scale rapporto E giungiamo cosi al livello piit alto di misurazione, quello in cui, muovendoci su una scala la cui origine non & arbitraria, tutte le ope. razioni definite sui numeri reali, compresa quella di rapporto, pos- sono essere eseguite tranquillamente sui valori che rileviamo. Un esempio immediato di scala di rapporti& dato dalle lunghezze: evi dentemente, origine della scala @ data da uno zero non anbitrario. 2 I ivelli di misera 55 Ma esempi ben chiati sono quelli, sopra citati, delle scale assolute delle temperature, la scala Kelvin ¢ la scala Rankin. Come per gli altri livelli di misurazione, definiamo ora formal- tnente anche una scala rapporto. Di nuovo, da un lato c'é sempre Vinsieme % de: numer reali, dallaltro V'insieme non vuoto delle en- icologiche ¥. Nelle scale intervallo i numeri che venivano at- ‘ribuiti alle entita psicologiche riflettevano un ordine stretta di sue- cessione lungo la scala: di fatto, questo ordine veniva determinato base della possibilita di operare differenze tra le distanze, e va- lutare se coppie di queste differenze sono uguali, o in rapporto di ‘naggiore/minore. Anche qui facciamo un passo ulteriore: la possi- bilita che ci forniscono le scale rapporto & quella di costituire nuovi ‘lementi sommando elementi presenti, e valutando questi nuovi ele- enti secondo una relazione d’ordine stretto analoga a quella vista per le scale intervallo. Per tale motivo queste scale vengono da qual: preferibilmente dette additive (¢ le scale intervallo “scale dif. jerenza”). In ® noi scegliamo due relazioni, quella di somma + ¢ quella di maggiore/uguale 2. Definiamo cosi il nostro sistema relazionale di intervalli R come: R= (2) (219) In ¥, a sua volta, noi scegliamo due relazioni 7 e ., per cui co- struiamo un sistema empirico come C=) (220) I significato di queste due relazioni @ il seguente. Poniamo che € © msiano una coppia di entit’ psicologiche appartenenti a, a cui sono associate delle distanze sulla scala, rispettivamente x, € x. T & la relazione d’ocdine gia vista per le scale intervallo,.& invece la re- lazione che ci permette di unire le due entita in un'unita sola. Per ppassare dal nosiro sistema empirico al sistema relazionale numerico clefiniamo la funzione & e poniamo le seguenti condizioni: { nT ese &(x)2E (x) (xy » 2) = E (x) + & (x2) (221) 36 ‘Statistica per psicologi ‘Abbiamo cosi trovato delle relazioni, Te ., + €2, corrispondenti in Y ein ®, per mezzo della funzione &, che ci permette ancora una volta di stabilire quello che viene chiamato un omomorfismo tra i ue sistemi, Va osservato che a questo livello nel passare da una a tualtra scala che misuti lo stesso sistema empirico si avr una pro~ potzionalita diretta per cui ogni elemento y di una scala sara pact a ‘’nell'altra scala, con cmaggiore di 0. ‘Ancora una volta ci fermiamo qui, per la complessita degli svi luppi ulteriori. Speriamo comunque che il lettore abbia afferrato il senso del problema. La rappresentazione dei dati livello di rapporti 3 del tutto analoga a quella vista a livello di intervallo. 25.1. Significance delle statstiche a livello di intervallo e rapporto Con lescale di intervallo rapporto siamo giunti a livelli pit alti del- Ja misurazione. Le statistiche che qui si usano vengono dette para retriche, mentee quelle ai livelli nominale e ordinale vengono dette von parametriche. Ai fini pratic, i dati raccoki con questi due tipt di Seale possono essere trattati in larga misura allo stesso modo, ¢ non entreremo quindi nel complesso dibattto delle differenze di signif canza ai due liveli. Qui i dati possono essere sommati, moltiplicati, Sottrati,e si mantiene un'invarianza nella scala. A livello di rappor fi rimane invariante anche il rapporto trai diversi valori. Di fatto, a {questo livello sui dati possono essere utilizaate tuttele procedure sta tistiche. ‘Ai fini pratici, peraltro, un certo fondamentalismo misuratorio che ha imperato particolarmente tra gli psicologi negli anni '50 ¢ 60 $i andato attenuando. In particolare, sei dati disponibili sono rac- tolti su campioni molto ampi, se la loro distribuzione @ ragione Volmente assimilabile alla normale (vedi in particolare il capitolo 7), E possibile tratare anche dati ordinali come se fossero su scale in- tervallo. Ad esempio, questo é tipicamente quanto: si verifica in ri- ‘cerche in cui si usano metodi del tipo delle scale Likert, come ab- ‘biamo visto sopra. Quanto detto non autorizza pero a considerare i problema della signficanza un flso problema. Se eccezioni posso- ino essere fatte, queste devono essere compiute solo in casi eccezi hall, ein presenza di condizioni ben precise, la cui trattazione esula perd dagli scopi di questo libro, Capitolo terz0 Variabili aleatorie 1.1, Variabilialeatorie discrete 1. Esperiment aleatori Por definite la nozione di variabile aleatoria dobbiamo innanzitutto jprecisare che cosa si intende con “esperimento aleatorio”. Descrive- Mino poi che eos un modello probabilistico di un esperimento itorio e come si assegnano i valori di probabilita agli esiti possi- ddiun esperimento aleatorio. Solo a quel punto sara possibile for cla definizione di variabile aleatoria. Tniziamo col definire la nozione di esperimento: un esperimento & i! processo attraverso il quale un'osservazione viene comptuta. Ese- suiiamo un espetimento, ad esempio, quando lanciamo una moneta rosserviamo l’esito che produce (testa 0 croce), oppure quando la- ‘\ciamo cadere un oggetto ¢ misuriamo il tempo che impiega a rag- piungere il suolo, In taluni cas, gli esiti di un esperimento sono com- pletamente predicibili. Se T'esperimento consiste nella misurazione thei tempo impiegato da un oggetto a raggiungere il suolo, ad esem- pio, essendo note le condizioni iniziali del sistema, ¢ risolvendo le Rguazioni del moto, & possibile predire con esattezza in ogni istante Jorstato del sistema. Esperimenti di questo tipo si dicono determini- «tie In altti casi, invece, i singoli esiti di un esperimento non sono predicibili con esattezza. Se Pesperimento consiste nel Iancio di una fhoneta, ad esempio, non é possibile stabilire con certezza se l'esito sara testa 0 croce. Esperimenti di questo tipo si dicono aleatori. ‘Un esperimento aleatorio pud produrre uno o pit esiti, detti eventi, Nel caso del lancio di un dado, ad esempio, possono essere sservat i seguenti eventi, A: “si osserva un numero dispari"; B: “si 58 Statistica per psicologi osserva un numero minore di 3”; E; “si osserva il numero i, con i = 1, 2, ... 6°. Gli eventi appena elencati possono essere divisi in due classi, Se viene osservato levento A, allo stesso tempo verti osser- vato l'evento E,, E, 0 E,.Levento A pud quindi essere decomposto nei termini di altri tre eventi ed & chiamato composto. Gili eventi E,, E,, E,, Ey Es) Es, invece, non possono essere decomposti e sono det. ti semplici. Gli eventi semplici verranno denotati dalla lettera E Liinsieme costituito da tuti gli eventi semplici & detto spazio ca pone e ciascun evento semplice & anche detto punto campione. Lo spazio campione associato ad un esperimento verra denotato dalla lettera S. Nel caso del lancio del dado, lo spazio campione 5 @ Pin sieme dei punti campione associati ai sei evemti semplici E,, con 2, a 6: |E,, E>, Ey, Ey, Ey, E,). Nel caso dell'esperimento consi- stente nel misurare (con uno strumento infinitamente preciso) illic vello di piovosita in una certa area geografica,invece, lo spazio cam pione@5=(E;, E, .), perché, all’interno di tna certa gamma di va Jori, nessun numero reale pud essere escluso come risultato possibi- le dell'esperimento. In questo secondo caso, lo spazio S contiene un insieme infinito e non numerabile di punti eampione, ossia @ un con tinuo. Questi due esempi suggeriscono quindi la distinzione tra due tipologie di spazi campione. Lo spazio campione associato ad un cesperimento si dice discreto se contiene un numero finito di elemen. ti, o se @ un insieme infinito numerabile. Lo spazio campione si dice continuo, invece, se contiene un’infinita non numerabile di elementi, Ogni qualvolta un esperimento viene eseguito, uno e un solo evento semplice pud essere osservato. Se il lancio del dado produce Vesito 5, ad esempio, non é possibile osservare allo stesso tempo l’e- sito 6. Glieventi E, ¢ E,, quindi, sono mutuamente esclusivi, cost ‘me tutti gli altri eventi semplici. Gli eventi compos ‘no di necessita mutuamente esclusivi, in quanto qualsiasisottoinsie. me dello spazio campione pud costituire un evento composto. Le vento A, ad esempio, ha luogo se si osserva E, 0 E, 0 Ey; Pevento B ha luogo se si osserva E, 0 E,. Gli eventi Ae B, quindi, non sono mu- tuamente esclusiv, 3.1.2. Modello probabilistico di un esperimento aleatorio Anche se il singolo esto di un esperimento aleatorio non pud essere predetto con certezzaé possibile dire che alcuni eventi sono pid pro- | Varibil aleatorie 59 \wbili di alte. E dunque possibile costruire un modello proba «litun esperimento aleatorio, Nel caso di uno spazio campione di- «10, un modello probabilistic di un esperimento aleatorio viene sto assegnando un valore di probabilitia ciascun sottoinsieme A ‘lllo spazio campione S tale da rispettare le seguenti condizioni: 1 MA)20, 2 Se Aj, Aa, -.y Aw formano una sequenza di eventi mutuamente csclusivi alfinterno di, allora P(A, UA, U ... UA,,) = PUA). 5 Selo spazio campione é costituito da » eventi semplici, allora P(S) PE, UE, U.. UE) = 1 | vincoli precedenti specificano le condizioni che devono essere woldisfatte affinché sia possibile assegnare un valore di probabilita uli eventi di uno spazio campione. Non dicono perd quali specifici valori di probabilita debbano essere prescelti. Supponiamo di sceglierei valori di probabilita in base ad un cri- terio di frequenza relativa, ovvero, stabilendo la proporzione di casi in cui un dato evento verrebbe osservato se I'esperimento venisse ri- petuto un grande numero divolte. In base a questo criterio, il primo «lei vincoli precedenti pud essere riformulato dicendo che la fre- «quenza relativa deve essere maggiore o uguale a zero —frequenze re- lative negative, infatt, non kanno senso. Il secondo vincolo pud es- sere riformulato dicendo che la frequenza telativa dell'unione di due © piiteventi mutuamente esclusivi & uguale alla somma delle rispet- tive frequenze relative. In base al terzo vincolo,infine, la somma del- le frequenze relative di tuti gli eventi semplici dello spazio campio- ine deve essere uguale a 1 Detto questo, resta da aguiungere che sarebbe legittimo sceglic- reun criterio diverso da quello della frequenza relativa per assegna- re le probabil agli eventi semplici,rispettando i tre vincoli enun- 0 ¢ EP(E) = 1 4) Definire evento di interesse, A, come uno specifico insieme di punti campione. Controllare tutti i punti campione di S per stabi- lire quali di essi stanno in A. 5) Determinare P(A) sommando i valori di probabilita associati agli eventi semplici che costituiscono Pinsieme A. Questa procedura, chiamata metodo del punto campione, viene chiarita nell’esempio seguente. Esempio 3.1. Due soggetti vengono scelti in maniera casuale da un gruppo di cinque per prendere parte a un esperimento psicologico, La capaciti dei soggetti di eseguire il compito sperimentale varia bile e pud essere descritta assegnando il valore 1 al soggetto pit ca- pace, 2 al secondo pitt capace e cosi via, Si definiscano due eventi A e Buali per cui Az vengono sceltil soggetto migliore ¢ uno dei due peggiori (ov- vero, i soggetti 1 e 4.05); B: viene scelto almeno uno dei due soggetti migliori. Si trovino le probabilita P(A) e P(B), Le probabilita degli eventi A e B possono essere trovate utiliz- zando il metodo del punto campione. 1) Lesperimento consiste nella selezione casuale di 2 soggetti su 5. | Variabil aleatorie 61 2) Ciascun evento semplice di questo esperimento pud essere de- swotato con (,), laddove Ze jindicano i due soggetti prescelti. I dieci «venti semplici di questo esperimento sono E, : (1,2), Ey : (1,3), Ey: WA, Ey: 115), By (2,31, Be: (2,4), E, 1125), Ey: Bl), Eo: 89), Ho AS). 5) Sela selezione di due soggetti su cinque avviene in maniera ca- wale, allora tutti gli eventi semplici dello spazio campione avranno vyxuale probabilita. A ciascun punto campione viene quindi asse- hata una probabilita uguale a 1/10: PE) = 1/10, con i= 4) Lesame di ciascuno degli eventi semplici di S rivela che l'e- \ento B si verifica quando si osservano gli eventi semplici Ey, Es, Ey, 1, Bs, Eco E;- Questi punti campione vengono dunque inclus! in B. 5) La probabilita dell'evento composto B si calcola sommando le probabilita che sono associate a tutti i punti campione in B: PB)=S AE)=S += (8) = > PE) > 10" 70 In maniera simile si pud stabilire che Tevento A corrisponde al Vunione degli event Ee Ey. Quindi P(A) = 3.14. Variabile aleatoria Gili eventi di maggiore interesse per la teora statistca sono quelli nu- ‘meric. Supponiamo di disporre di una procedura che consente di assegnare uno ¢ un solo numero reale a ciascuno dei punti di uno spazio campione S. Avremo cosi definito una variabile, detta varia- File aleatoria, che assumera valori diversi a seconda degli esiti che vengono osservati quando un esperimento é eseguito. Possiamo 4quindi dire che una variabile aleatoria @ una funzione avente come dominio lo spazio campione associato ad un esperimento e come co «dominio l'insieme dei numeri reali. Una variabile aleatoria si dice di- soreta se pus assumere solo un numero discreto di valori; si dice con- ‘inua se pud assumere tutti gli infiniti valori di ®, o di un suo inter- vallo [a,b]. Nel caso di una variabile aleatoria discreta l'insieme im- magine & dunque un insieme finito (0 infinito numerabile); nel caso 2 Statistica per psicologi di una variabile aleatoria continua, invece, l'insieme immagine & un continuo. Esempio 3.2. Un esperimento consiste nel lancio di due monete. Sia Yil numero di volte in cui ’esito “testa” viene osservato in ciascuna prova dell'esperimento. Si identifichino i punti campione di S, sias- segni un valore y a ciascun punto campione e si identifichino i pun: ti campione associati a ciascuno dei valori che Y pud assumere. Ciascuna prova dellesperimento pud essere denotata da una coppia ordinata di simboli che identificano Vesito del lancio della prima e della seconda moneta. Ad esempio, TC indichera lesito “te- sta” per il lancio della prima moneta e Fesito “croce” per il ancio della seconda moneta. I quattro punti campione in S sono: E, : (TT), E>: E, : (CC). I valore da assegnare a Y punto campione dipende dal numero di volte in cui viene osscrvato Fesito “testa”. Nel caso dell'evento E : (TTI, Pesito “testa” viene os servato due volte e quindi a Y viene assegnato il valore 2. Y sara uuguale a 1 in corrispondenza degli eventi E,€ E, dato che, in quest casi, Pesito “testa” viene osservato una sola volta. Quando esperi mento di luogo allevento E,, infine, ¥ sari uguale a 0. In conclu- sione, la variabile Y pud assumere tre valori (¥ = 0, 1,2) e ciascuno di essi pud essere considerato un evento composto definito dal se- _guente insieme di punti campione: TC), Ey:(CT), corrispondenza di ciaseun (Y=0=(E) (Y=1)=1E,B) — (¥=2)=1E)) 3.1.5. Distribuzione di probabilita per una variabile aleatoria discreta Solitamente le variabilialeatorie sono indicate con le lettere maiu- scole, mentre gli specific valori che assumono vengono indicati dal le lettere minuscole. Nel caso dell’esperimento costituito dal lancio ddiun dado, ad esempio, Y indica uno qualunque dei 6 valor nume rici che possono essere prodotti, mentze y denota lo specifico valo- re che viene osservato quando il dado @ stato trato. La probabilta che la variable Y assuma il valore y, PCY = 9), @ definita come la somma delle probabilia di tutti punti campione in | Variabitialeatorie @ \ « cui viene assegnato il valore y. Generalmente, si denota PLY = y) ny). Notate che p(y) non é altro che una funzione che assegna una pro- \vubilitd a ciascun valore y ed & chiamata funzione (0 distribuzione) (: probabilita di ¥. La funaione di probabilita di una variabile aleato- ‘in discreta Y' pud essere rappresentata con una formula, una tabel- |i. un diagramma che associa la probabilita p() a ciascun valore y. Una funzione di probabilita ply) deve rispettare le seguenti con- Uizioni: O yp) 63) Se p(y) fornisce un’accurata rappresentazione della distribuzione «li frequenze di una popolazione di dati empirici, allora il valore at- ‘cso diventa uguae alla media 4 della popolazione, E(Y) = y. IL lore atteso ha quindi lo stesso significato della media aritmetica, I sca differenza essendo il fatto che il valore atteso sirferisce ad una \istribuzione teorica di probabilita mentre la media aritmetica si ti- levisce a una distribuzione empirica di dati. Esempio 3.5. Un esperimento consiste nel lancio di un dado non truceato. Sia Yil numero di punti osservati sulla faccia superiore do- ‘po che il dado & stato tratto, Si calcoi il valore atteso di ¥. Dato che il dado non & truccato, la distribuzione di probabilita di Ye uniforme: P(Y = y,) = $ con i= 1, .., 6. Quindi, il valore atteso di diventa: 1 1 1 1 1 1 LY) = Yop) (8) +2() +3(2) +4(2)+ (z) +8) 33 Supponiamo di ripetere lesperimento 6 milioni di volte e di re- jistrareivalori che Y assume in ciascuno di questi lanci. Quale sara lumedia dei valor ¥ cos osservati? Dato che la distribuzione di pro- bubilita di ¥ & uniforme, possiamo aspettare di osservare appross- civamente 1 milione di volte ciascuno dei valori che Y pug assu- -. Facendo la media, otteniamo 68 Statistica per psicologt 3Y, = {= (0.000,000)(1)+4,000.000)2)+.H 1.000.000) 5 5 a 6.000.000 il che conferma che il valore atteso & equivalente alla media aritme- tica, 3.1.8, Proprieta del valore atteso Ivalore atteso di una variabile aleatoria discreta &caratterizzato dal- Je seguenti proprieta, che vengono fornite qui senza dimostrazione, 1 Tlvalore atteso di una costante c& uguale ac EO 64) 2 Il valore atteso di una variable aleatoria discreta Y moltiplicata pet una costante c® uguale al valore della costante moltiplicato per il valore atteso della variabile aleatoria: E(cY) = cE(Y) 63) 3 Lvalore atteso della somma di due vatiabili aleatorie discrete X € Y@ uguale alla somma dei rispettivi valoriattesi: E(X + Y) = E(X) + EY) 6.6) In maniera equivalente, il valore atteso della differenza di due va- riabili aleatorie discrete @ uguale alla differenza dei rispettivi valoti attesi: E(X- Y) = E(X)- EY) Esempio 3.6. Consideriamo nuovamente V'esperimento descritto nell’esempio 3:3. Sia X Pesito prodotto dal lancio del primo dado e W Yesito prodotto dal lancio del secondo dado. Sia Y = X + W. Si trovi il valore atteso di Y. Il valore atteso di X @ stato trovato nell'esempio 3.5 ed é uguale a E(X) =3,5. Allo stesso modo, E(W) = 3,5. In base al teorema pre. | Variaili aleatorie 0 vedente, dunque, E(Y) = E(X) + E(W) = 3,5 +3,5 =7. Possiamo ve- ‘ificate questo risultato servendoci della distribuzione di probabilita iY =X+ W calcolata nellesercizio 3.3: = Sy) =z) + (5a) + 43) tect 19(5) + uz) + 1). + 25) =7 4 Se due variabili aleatorie discrete X e Y sono indipendenti, allora E(X+ Y) = EE) 67) Esempio 3.7. Una moneta é lanciata due volte. La variabile aleatoria W, assume valore 1 se lesito del primo lancio & “testa” e zero altri- nti, La variabile W assume valore 1 se 'esito del secondo lancio testa” € zero altrimenti, Si trovi il valore atteso del prodotto. Le variabili W, e W, sono indipendenti ¢ hanno entrambe valo- re atteso uguale a 1/2, Di conseguenza, E(W,- W,) = E(W,) - E(W,) 2-1/2 = 1/4, Exempio 3.8, Si consideri l’esperimento consistente nel singolo lan- cio di una moneta. Sia X = 1 se viene osservato ’esito “testa” eX = 0 se viene osservato Tesito “croce”. Sia Y = 1 - X. Per entrambe que- ste variabil, il valore atteso sara E(X) = E(Y) = 1/2. Il prodotto XY, jper®, & uguale a zero per entrambi gli esiti che il lancio della moneta pud produrre, Quindi, EX Y) # ECQE(Y) se le variabilialeatorie non sono indipendenti, 3.1.9. Varianza di una variabile aleatoria discreta Nel capitolo 5 la varianza di una distribuzione di misure verti defi- nita come la media degli scostamenti al quadrato di ciascuna misura dalla media. In maniera analoga, la varianza di una variabile aleato- ria ¥ @ definita come il valore atteso di (Y — 4)*: VY) = EL(Y - wy? G8) 70 ‘Statistica per psicologi VY) =D - MP ply) i G9) La radice quadrata della varianza viene chiamata errore standard. Esempio 3.9. Sia ¥ il numero di punti prodotti dal lancio di un da- do. Sitrovi la varianza di Y. Ivalore atteso di ¥, E(Y) =3,5,2stato calcolato nell'esempio 3.6. La varianza di ¥ diventa quindi WY) = D-H? po) 20-35? 142-3 5~ 146-3514 4-35p) =A -3SP + 2-35P 2+ O-35¥ 2+ 4-35P 7 35 1, (6-35pi=38 +6-35R 2416-350 2= 7 La formula VY) = 5'(y — 4)? ply) pu essere riscritta come: VY) = ECY?) — 6.10) Dimostrazione. VY) = 0-H? 20) = D0? -2uy +42) py) —G.11) = Lv po) - 24 Dy) +4? Ye) 6.12) dato che 'yp(y) = E(Y) = te che D’p(y) = 1,0, allora = Dy ply) 22 + we = Dy? 9) - 2 = EO) - pF B.13) Esempio 3.10. Usando il teorema precedente, la varianza del lancio diun dado pus essere calcolata nel modo seguente. 3. Variabilialeatorie a =ar+ arts opleapts opts ott BO) = 5+ OP E+ OP E+ UF E+ OP E+ OP ZH von = By) - ye = 2-2) In accordo con il valore trovato usando direttamente la defini- zione di VY). 3.1.10, Proprieta della varianza La varianza di una variabile aleatoria discreta & caratterizzata dalle seguenti proprieta, 1 La varianza di una variabile aleatoria discreta Y moltiplicata per ‘una costante ¢é uguale alla varianza della variabile aleatoria molt- plicata per la costante innalzata al quadrato: We¥) = eV(y) 6.14) 2. Lavarianza di una variabile aleatoria discreta Y non muta se a cia- scun valore y viene sommata una costante ¢ Vy+q=Vy) 6.15) 3 Se due variabili aleatorie discrete X e Y sono indipendenti,allora la varianza della loro somma é uguale alla somma delle rispettive va- ViX+ Y) = VIX) + VOY) 6.16) In maniera analoga, la varianza della differenza di due variabili aleatorie indipendenti é uguale alla somma delle rispettive varianze: VWx-Y=VH+Vy) Esempio 3.11. Si calcol la varianza della variabile Y = X + W defi- nita nell'esempio 3.6. La varianza di X, VOX) = 22 2 sata tovatanell'esempio 39. In R Statistica per psicologi manieraequivalene, la varanza di W VOW) = 23. In base al teo- rema precedente, quindi, BoE, 398435) =v = oor ate ae VY) = VIX+W) = VX) + VOW) = 4 = 2 Possiamo verificare questo risultato calcolando la varianza di Y utilizzando la distribuzione di probabilita definita nell’esempio 3.3: 35 +(12-7 = =2-7 146-72 VN = 2-9 +G-7F 5 36 3.2. Variabili aleatorie continue In precedenza abbiame osservato che la distribuzione di probabilita diuna variabile aleatoria discreta Y pud essere generata assegnando tuna probabilita p(y) maggiore 0 uguale a zero a ciascuno dei valoti che ¥ pud assumere, i modo tale che S’ p(y) = 1. La distribuzione di probabilita di una veriabile aleatoria continua, perd, non pud es- sere specificata nello stesso modo. Non é possibile, infatti assegna- re un valore non nullo a ciascuno degli infiniti valori che tna varia. bile aleatoria continua pu6 assumere, ¢ allo stesso tempo, rispettare il vincolo secondo cui la somma di tali probabilita deve essere ugua- ead 1. Per assegnate i valori di probabilita ad una variable aleato- tia continua dobbiamo dunque procedere in un altro modo. E in- nanzitutto necessario definire la nozione di funzione ripartizione (0 funzione di distribuzione cumulativa). 3.2.1. Funzione ripartizione Se Y & una variabile aleatoria (discreta oppure continua), allora la funzione ripartizione Fly) & definita dalla relazione Fy) = PUY Sy), per—eo

You might also like