You are on page 1of 47

Duomenys ir duomenų aibės

• Duomenys – surinkti faktai ir skaičiai, naudojami apibūdinti, analizuoti ir interpretuoti procesus

• Duomenų aibė (data set) – duomenys surinkti tam tikram tikslui: objektai su požymiais

Elementai, kintamieji, stebėjimai


• Elementai – pagal ką renkami duomenys

• Kintamieji – elementų savybės

• Stebėjimai – duomenų aibės reikšmės

Duomenų tipai

Kokybiniai duomenys
• Kategorijų pavadinimai, intervalai, santykiai ir pan.
• Gali būti tiek skaitiniai, tiek neskaitiniai
• Statistinė analizė tokių duomenų gan ribota

Kiekybiniai duomenys - skaitiniai


• Skerspjūvio duomenys (Cross-sectional data): duomenys
surinkti tam pačiam laiko momentui
• Laiko eilutės: duomenys surinkti skirtingais laiko momentais

Statistiniai metodai
Statistinių išvadų (inferential) – pvz.
• Matavimas, regresinė analizė, hipotezių tikrinimas, išvados ir kt.

• Populiacija, imtis -> statistinė analizė: procesas, kurio metu naudojama imtis ir daromos išvados apie
populiaciją

Statisitinio tyrimo eiga


Populiacija ir imtis

Atsitikinė imtis
• Bet kuris individas turi vienodus šansus patekti į imtį

• Imtys sudarytos iš atsitiktinių skaičių arba naudojant atsitiktinių dydžių generatorių.

• Klaidinga praktika. Surinkti duomenis, kurie neatspindi populiacijos įvairovės – padarysime


klaidingas išvadas apie populiaciją.

• Gera praktika. Duomenys apimantys populiacijos įvairovę – išvados apie populiaciją su maža
paklaida.
Imties paklaida
• Naudodamiesi imties duomenų aibe matuojame nežinomą populiacijos parametą

• Imties paklaida: skirtumas tarp tikrosios parametro reikšmės ir išmatuotos

• Ši paklaida – taip pat atsitiktinė, nes naudodami skirtingas atsitikitines imtis, gausime skirtingas
paklaidos reikšmes

• Labai priklauso nuo imties dydžio

• Didelę dalį statistikos (statistinių išvadų metode) sudaro galimos paklaidos apibrėžimas ir matavimas.

Žymėjimai!
• Duomenys apie individą, surinkti/naudojami tyrimui žymimi X (arba X ir Y ir t.t., jeigu yra daug rodiklių)
• Rodiklių skaičius populiacijos atveju žymimas N, imties atveju – n.

• Sumavimas žymimas Σ, t.y. ΣX žymės rodiklių sumą

Duomenų vaizdavimas
• Lentelės ir diagramos
• Kryžminės lentelės (cross tables)
• Apskritimo diagramos (pie charts)
• Laiko eilutes vaizduojantys grafikai
• Dažnių pasiskirstymas (frequency distribution)
• Histogramos
• Taškinės diagramos

Skirstiniai
• Histograma
• Tikimybinio skirstinio kreivė

Statistinė analizė naudojant Excel


----------------------------------------------------------------------------------------------------------------------------------------

Pirminė duomenų analizė


Duomenų grupavimas • Variacinė eilutė • Dažnių lentelės •
Histograma

Žymėjimai
• Duomenys apie individą/objektą, surinkti/naudojami tyrimui
žymimi X (arba X ir Y ir t.t., jeigu yra daug kintamųjų)
• Kintamojo reikšmės: 𝑥1, … , 𝑥𝑛 - duomenų aibė
• Stebėjimų skaičius populiacijos atveju žymimas N, imties
atveju – n.
Variacinė eilutė
• Didėjančia tvarka išrikiuoti duomenys 𝑥 ( 1 ) ≤ 𝑥 ( 2 ) ≤ 𝑥 ( 3 ) …
≤𝑥(𝑛)

Dažnių lentelės
• Kintamojo X reikšmės gali kartotis. • 𝑥1, … , 𝑥𝑘

• Jeigu stebima reikšmė 𝑥𝑗 pasikartojo 𝑓𝑗 kartų, tuomet 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘 = 𝑛, o 𝑥𝑗 statistinėje eilutėje


sudaro 𝑓𝑗/𝑛 dalį visų stebėjimų
Iš viso reikšmių 75

Diskretus kintamasis – pvz.


Diskrečiųjų kintamųjų pavyzdžiai:
-Moters turimų vaikų skaičius
-Žmonių skaičius kambaryje
-Automobilių skaičius kelyje
-Už tam tikrą kandidatą atiduotų balsų skaičius

Diskretusis kintamasis yra kintamasis, kuris gali įgyti baigtinį arba suskaičiuojamą
reikšmių rinkinį. Skirtingai nei tolydusis kintamasis, diskretusis kintamasis negali
įgyti bet kokios reikšmės tarp nustatytų reikšmių. Kitaip tariant, diskretusis
kintamasis yra toks, kuris gali įgyti tik tam tikrą skaičių reikšmių, kurios paprastai
yra sveikieji skaičiai.

Tolydūs duomenys
• Kai turime daug tolydžiojo kintamojo stebėjimų, dažnių lentelė tampa
nebeinformatyvi
• Kai kurie stebėjimai gali labai mažai skirtis tarpusavyje
• Dažnių lentelė nebeturi pranašumo, nes informacija nebekoncentruojama
• Tokius duomenis grupuojame į intervalus
tolydusis kintamasis yra toks, kuris gali įgyti bet kokią reikšmę tam tikrame intervale.
Diskretieji kintamieji dažnai yra suskaičiuojami, pavyzdžiui, mokinių skaičius klasėje, o
tolydieji kintamieji dažnai yra išmatuojami, pavyzdžiui, ūgis arba svoris.

Ar amžius yra diskretus, ar tolydus?


Amžius gali būti ir diskretus, ir tolydus. Kai amžius vaizduojamas sveikuoju skaičiumi, jis yra
diskretus. Kai amžius pateikiamas dešimtaine forma, jis yra tolydus.

Reikia nustatyti:
intervalų sk, jų plotį ir intervalų kraštines reikšmes
• k = 1 + 3,222 * lg n, k - intervalų skaičius, n – imties dydis
• Grupavimo intervalų ilgiai yra vienodi, intervalai nesikerta, kiekviena kintamojo reikšmė
patenka tik į vieną intervalą.
• Kuo grupavimo intervalų skaičius didesnis, tuo mažiau informacijos prarandame.

Empirinės grupuotų duomenų tankio funkcijos grafikas vadinamas histograma.

Duomenų charakteristikos
• Duomenų padėtį nusakantys rodikliai: vidurkis, mediana...
• Duomenų sklaidą nusakantys rodikliai: dispersija, standartinis nuokrypis
• Duomenų skirstinio formą nusakantys rodikliai: eksesas, asimetrij
Aritmetinis vidurkis
• Vidurkis – dažniausias vidutinį dydį nusakantis matas

• Imties dydžiui n:

• Grupuotų duomenų:

Vidurkis veikiamas išskirčių (outliers)

Mediana
• Išrikiavus stebėjimus pagal dydį, mediana – vidurinė reikšmė (50% reikšmių virš ir 50% reikšmių
žemiau)

• Mediana neveikiama išskirčių

Kaip rasti?
• Medianos pozicija, kai stebėjimų reikšmės išrikiuotos nuo mažiausios iki didžiausios:

• Jeigu reikšmių skaičius nelyginis, mediana yra vidurinė reikšmė

• Jeigu reikšmių skaičius lyginis, mediana – dviejų vidurinių reikšmių vidurkis

Moda
• Stebėjimų reikšmė, kuri pasireiškia dažniausiai

• Nėra veikiama išskirčių

• Naudojama ne tik skaitiniams duomenims, bet ir kategoriniams (nominali skalė)


• Modų gali būti kelios, taip pat ir nei vienos

Pavyzdys: vidutiniai stebėjimų matai

Kurį rodiklį naudoti?

 Dažniausia naudojamas vidurkis, nebent yra išskirčių

 Mediana taip pat dažnai naudojama, nes nejautri išskirtims.

 Kai kada aktualu turėti abu rodiklius

Kvartiliai(per excel quartile( …)

• Pirmiausiai randamos kvartilių pozicijos išrikiuotuose duomenyse

• Q1 pozicija: Q1 = (n+1)/4

• Q2 pozicija : Q2 = (n+1)/2

• Q3 pozicija : Q3 = 3(n+1)/4

n – imties dydis

Kaip skaičiuojame kvartilius –

pvz.

(n = 9)

Q1 yra (9+1)/4 = 2.5 pozicijoje, tai Q1 = (12+13)/2 = 12.5

Q2 yra (9+1)/2 = 5 pozicijoje, tai Q2 = mediana = 16

Q3 yra 3(9+1)/4 = 7.5 pozicijoje, tai Q3 = (18+21)/2 = 19.5


Duomenų sklaida, kintamumo rodikliai

Sklaida ir skirstinių forma

Maža sklaida: daugiau reikšmių arčiau vidurkio

Didelė sklaida: daugiau reikšmių toliau nuo vidurkio

Matuoti atstumą..

Duomenų aibės plotis (range)


• Paprasčiausias duomenų sklaidos rodiklis

• Skirtumas tarp didžiausios ir mažiausios reikšmės


Kodėl DAP gali klaidinti

Imties dispersija
• Vidutinė kvadratinių nuokrypių nuo vidurkio reikšmė
Imties standartinis nuokrypis
• Dažniausiai naudojamas duomenų pasiskirstymo rodiklis

• Gaunamas ištraukus kvadratinę šaknį iš dispersijos

• Matuojamas tais pačiais vienetais kaip ir duomenų stebėjimai

Variacijos koeficientas
• Jis naudojamas lyginant skirtingų duomenų aibių sklaidas:

• naudojamas matuoti santykinį duomenų sekos kintamumą aplink vidurkį arba palyginti santykinį vieno
duomenų kintamumą su kitų duomenų kintamumu
Variacijos koeficientas skaičiuojamas tik kintamiesiems, turintiems teigiamus vidurkius.

Kvartilių skirtumas (IQR)


• IQR = Q3 – Q1 : matuoja sklaidą vidurinėse 50% reikšmių

• Aprėpia 50% vidurinių duomenų reikšmių

• IQR nėra veikiamas išskirčių (outliers)

5 rodikliai
Padeda nusakyti duomenų centrą (vidurį, vidutinę reikšmę), duomenų pasiskirstymą ir skirstinio formą:

 Xmin

 Q1

 Mediana (Q2 )
 Q3

 Xmax

Stačiakampė diagrama (boxplot): grafinis atvaizdavimas naudojant 5 rodiklius

Skirstinio forma ir stačiakampė diagrama

Asimetrija (skewness)
Formos charakteristikos matuojamos tik turint grupuotus tolydžiojo kitamojo duomenis • Asimetrijos
koeficientas:
kur 𝑚𝑗 yra centrinis empirinis j-osios eilės momentas:

Histogramos simetrijos matas

Ekscesas (kurtosis)
• Eksceso koeficientas yra histogramos lėkštumo matas (palyginti su normaliu skirstiniu):
Varpas

Normalioji kreivė

• Asimetrijos ir eksceso koeficientai yra panašumo į normaliąją kreivę matai

• Funkcijos grafikas vadinamas normaliąja (arba Gauso) kreive

Savybės:
• grafikas varpo formos ir visas plotas po juo = 1

• grafikas simetriškas

• apibrėžta −∞ < 𝑥 < ∞

• intervale 𝑥 − 𝑘𝑠, 𝑥 + 𝑘𝑠 plotas po grafiku priklauso nuo 𝑘, bet ne nuo 𝑥 ar 𝑠.

Normalieji skirstiniai pasižymi šiomis savybėmis:

 vidurkio modos ir medianos reikšmės sutampa,


 skirstinio tikimybių pasiskirstymo kreivė yra dvipusiai simetriška, o simetrijos ašis yra ties
vidurkiu,
 skirstinio kreivės padėtis priklauso nuo vidurkio vietos skaičių ašyje,
 skirstinio tikimybių pasiskirstymo kreivės plotis ir amplitudė priklauso nuo standartinio
nuokrypio

Empirinė taisyklė

• Jeigu duomenų histograma varpo formos:

Standartizuotosios reikšmės ir išskirtys Z-score: parodo išskirtis

• Standartizuotos reikšmės:

Turint normalų (varpo formos) skirstinį,

|Z| < 1 68% duomenų

|Z| < 2 95% duomenų

|Z| < 3 99.7% duomenų


Kintamojo reikšmės su dideliu |Z| gali būti įtariamos kaip išskirtys (outliers)

Čebyšovo taisyklė

Populiaciją nusakantys rodikliai


 Iki dabar kalbėjome apie aprašomąją statistiką, kuri apibūdina imtį, ne populiaciją.

 Rodikliai apibūdinantys populiaciją yra vadinami parametrais (žymimi graikiškomis raidėmis).

 Populiacijos vidurkis, variacija ir standartinis nuokrypis yra svarbūs populiacijos parametrai.

Populiacijos vidurkis µ
• Lygus populiacijos reikšmių sumai padalintai iš populiacijos dydžio
Populiacijos dispersija σ^2
• Vidutinė kvadratinių nuokrypių nuo populiacijos vidurkio reikšmė

Populiacijos standartinis nuokrypis σ


• Dažniausiai naudojamas pasiskirstymo rodiklis

• Rodo duomenų „išsimėtymą“ apie vidurkį

• Skaičiuojamas ištraukus kvadratinę šaknį iš populiacijos dispersijos

• Matuojamas tais pačiais vienetais kaip ir duomenys


Imties statistika vs populiacijos parametrai

------------------------------------------------------------------------------------------------------------------------------------------

Atsitiktinis įvykis ir tikimybė


Tikimybė
Klasikinė tikimybė, kai A yra atsitiktinis įvykis, lygi
Įvykiai

Nesutaikomi įvykiai
Veiksmai su tikimybėmis
Sąlyginė tikimybė
Nepriklausomi įvykiai
Bajeso teorema
Atsitiktinis dydis apibrėžiamas pagal funkciją
Atsitiktinis dydis - tam tikra funkcija (taisyklė), pagal kurią kiekvienam
atsitiktiniam įvykiui priskiriama viena iš anksto nežinoma skaitinė
reikšmė.
Atsitiktinio dydžio žymėjimas yra X – tai lyg kiekybinio kintamojo
pavadinimas.
Ats.d. realizacija yra x, tai konkretus skaičius (ne atsitiktinis dydis).

Atsitiktiniai dydžiai gali būti dviejų rūšių:


1. Diskretieji - kai įgyja tik baigtinę arba skaičių reikšmių aibę
2. Tolydieji – kai gali įgyti bet kurią reikšmę iš kurio nors skaičių
intervalo
Binominis standarinis

Diskretaus atsitiktinio dydžio tikimybinis skirstinys X

Didžiųjų skaičių dėsnis


Diskretaus kintamojo tikėtina (expected) reikšmė

Tolydaus kintamojo tikėtina (expected) reikšmė


Diskretaus ir tolydaus kintamųjų reikšmių radimas

Diskretaus kintamojo dispersija ir standartinis nuokrypis


Pasiskirstymo funkcija įprastai žymima F(x) = P(X ≤ x), kur x yra kvantilis.

Tikimybių skirstiniai, tikimybiniai skirstiniai


Atsitiktiniai dydžiai įprastai gali būti aprašyti vienu iš kelių žinomų teorinių skirstinių, kurie modeliuoja
tam tikrus procesus.

Bernulio (Bernoulli) bandymai


Binominis skirstinys

Binominio skirstinio formulė


Binominio skirstinio požymiai

Centrinė ribinė teorema


• Empirinė taisyklė faktiškai ji teigia, kad daugelis atsitiktinių dydžių turi skirstinius, panašius į normalųjį.
• Taigi didinant sumuojamų atsitiktinių dydžių skaičių, jų sumų skirstiniai supanašėja su normaliuoju
skirstiniu.
Pasibraižom imčių vidurkių pasiskirstymą

Gaunam, kad imčių vidurkių vidurkis artėja prie tikrojo vidurkio, kai imčių kiekis ir
stebinių kiekis imtyje artėja į ∞.
Kuo daugiau imčių k -> ∞
Kuo didesnės imtys n -> ∞
Tuo labiau, nepriklausomai nuo realių duomenų skirstinio, rezultatai artėja link
normaliojo skirstinio ir tikrojo vidurkio

Diskretus ir tolydus skirstiniai

Normalusis skirstinys
Normalaus skirstinio tankio funkcija

Vidurkio ir standartinio nuokrypio žymėjimas


Reikšmių sklaidą nusakantis parametras – standartinis nuokrypis, σ

Standartizuotas normalus skirstinys


Bet kuris normalus skirstinys gali būti transformuotas į standartizuotą normalų skirstinį (Z) pagal
formulę:
Ką mums duoda standartizuotas normalusis skirstinys?
Standartizuoti duomenys, leidžia nepalyginamus duomenis įvertintus pagal skirtingas skales palyginti ir
daryti išvadas.
Standartizuoto normalaus skirstinio lentelė

Rodo tikimybę reikšmėms mažesnėms nei norima Z (t.y. nuo −∞ iki Z). Z reikšmė rodo standartinių
nuokrypių skaičių nuo vidurkio.

LENTELĖ
Standartizuoto skirstinio lentelė

Kaip bendrai randame tikimybes iš normalaus skirstinio?


PVZ tikimybė ir normalusis skirstinys
Empirinė taisyklė

Bet kuriame normaliame skirstinyje reikšmės išsidėsčiusios aplink vidurkį.


Atvirkštinė (inverse) problema: kaip rasti X reikšmę, kai žinoma
tikimybė
Randame Z reikšmę pateiktai tikimybei Perverčiame Z reikšmę į X reikšmę naudodami šią formulę:

You might also like