Professional Documents
Culture Documents
Statistikos Pagrindai
Statistikos Pagrindai
• Duomenų aibė (data set) – duomenys surinkti tam tikram tikslui: objektai su požymiais
Duomenų tipai
Kokybiniai duomenys
• Kategorijų pavadinimai, intervalai, santykiai ir pan.
• Gali būti tiek skaitiniai, tiek neskaitiniai
• Statistinė analizė tokių duomenų gan ribota
Statistiniai metodai
Statistinių išvadų (inferential) – pvz.
• Matavimas, regresinė analizė, hipotezių tikrinimas, išvados ir kt.
• Populiacija, imtis -> statistinė analizė: procesas, kurio metu naudojama imtis ir daromos išvados apie
populiaciją
Atsitikinė imtis
• Bet kuris individas turi vienodus šansus patekti į imtį
• Gera praktika. Duomenys apimantys populiacijos įvairovę – išvados apie populiaciją su maža
paklaida.
Imties paklaida
• Naudodamiesi imties duomenų aibe matuojame nežinomą populiacijos parametą
• Ši paklaida – taip pat atsitiktinė, nes naudodami skirtingas atsitikitines imtis, gausime skirtingas
paklaidos reikšmes
• Didelę dalį statistikos (statistinių išvadų metode) sudaro galimos paklaidos apibrėžimas ir matavimas.
Žymėjimai!
• Duomenys apie individą, surinkti/naudojami tyrimui žymimi X (arba X ir Y ir t.t., jeigu yra daug rodiklių)
• Rodiklių skaičius populiacijos atveju žymimas N, imties atveju – n.
Duomenų vaizdavimas
• Lentelės ir diagramos
• Kryžminės lentelės (cross tables)
• Apskritimo diagramos (pie charts)
• Laiko eilutes vaizduojantys grafikai
• Dažnių pasiskirstymas (frequency distribution)
• Histogramos
• Taškinės diagramos
Skirstiniai
• Histograma
• Tikimybinio skirstinio kreivė
Žymėjimai
• Duomenys apie individą/objektą, surinkti/naudojami tyrimui
žymimi X (arba X ir Y ir t.t., jeigu yra daug kintamųjų)
• Kintamojo reikšmės: 𝑥1, … , 𝑥𝑛 - duomenų aibė
• Stebėjimų skaičius populiacijos atveju žymimas N, imties
atveju – n.
Variacinė eilutė
• Didėjančia tvarka išrikiuoti duomenys 𝑥 ( 1 ) ≤ 𝑥 ( 2 ) ≤ 𝑥 ( 3 ) …
≤𝑥(𝑛)
Dažnių lentelės
• Kintamojo X reikšmės gali kartotis. • 𝑥1, … , 𝑥𝑘
Diskretusis kintamasis yra kintamasis, kuris gali įgyti baigtinį arba suskaičiuojamą
reikšmių rinkinį. Skirtingai nei tolydusis kintamasis, diskretusis kintamasis negali
įgyti bet kokios reikšmės tarp nustatytų reikšmių. Kitaip tariant, diskretusis
kintamasis yra toks, kuris gali įgyti tik tam tikrą skaičių reikšmių, kurios paprastai
yra sveikieji skaičiai.
Tolydūs duomenys
• Kai turime daug tolydžiojo kintamojo stebėjimų, dažnių lentelė tampa
nebeinformatyvi
• Kai kurie stebėjimai gali labai mažai skirtis tarpusavyje
• Dažnių lentelė nebeturi pranašumo, nes informacija nebekoncentruojama
• Tokius duomenis grupuojame į intervalus
tolydusis kintamasis yra toks, kuris gali įgyti bet kokią reikšmę tam tikrame intervale.
Diskretieji kintamieji dažnai yra suskaičiuojami, pavyzdžiui, mokinių skaičius klasėje, o
tolydieji kintamieji dažnai yra išmatuojami, pavyzdžiui, ūgis arba svoris.
Reikia nustatyti:
intervalų sk, jų plotį ir intervalų kraštines reikšmes
• k = 1 + 3,222 * lg n, k - intervalų skaičius, n – imties dydis
• Grupavimo intervalų ilgiai yra vienodi, intervalai nesikerta, kiekviena kintamojo reikšmė
patenka tik į vieną intervalą.
• Kuo grupavimo intervalų skaičius didesnis, tuo mažiau informacijos prarandame.
Duomenų charakteristikos
• Duomenų padėtį nusakantys rodikliai: vidurkis, mediana...
• Duomenų sklaidą nusakantys rodikliai: dispersija, standartinis nuokrypis
• Duomenų skirstinio formą nusakantys rodikliai: eksesas, asimetrij
Aritmetinis vidurkis
• Vidurkis – dažniausias vidutinį dydį nusakantis matas
• Imties dydžiui n:
• Grupuotų duomenų:
Mediana
• Išrikiavus stebėjimus pagal dydį, mediana – vidurinė reikšmė (50% reikšmių virš ir 50% reikšmių
žemiau)
Kaip rasti?
• Medianos pozicija, kai stebėjimų reikšmės išrikiuotos nuo mažiausios iki didžiausios:
Moda
• Stebėjimų reikšmė, kuri pasireiškia dažniausiai
• Q1 pozicija: Q1 = (n+1)/4
• Q2 pozicija : Q2 = (n+1)/2
• Q3 pozicija : Q3 = 3(n+1)/4
n – imties dydis
pvz.
(n = 9)
Matuoti atstumą..
Imties dispersija
• Vidutinė kvadratinių nuokrypių nuo vidurkio reikšmė
Imties standartinis nuokrypis
• Dažniausiai naudojamas duomenų pasiskirstymo rodiklis
Variacijos koeficientas
• Jis naudojamas lyginant skirtingų duomenų aibių sklaidas:
• naudojamas matuoti santykinį duomenų sekos kintamumą aplink vidurkį arba palyginti santykinį vieno
duomenų kintamumą su kitų duomenų kintamumu
Variacijos koeficientas skaičiuojamas tik kintamiesiems, turintiems teigiamus vidurkius.
5 rodikliai
Padeda nusakyti duomenų centrą (vidurį, vidutinę reikšmę), duomenų pasiskirstymą ir skirstinio formą:
Xmin
Q1
Mediana (Q2 )
Q3
Xmax
Asimetrija (skewness)
Formos charakteristikos matuojamos tik turint grupuotus tolydžiojo kitamojo duomenis • Asimetrijos
koeficientas:
kur 𝑚𝑗 yra centrinis empirinis j-osios eilės momentas:
Ekscesas (kurtosis)
• Eksceso koeficientas yra histogramos lėkštumo matas (palyginti su normaliu skirstiniu):
Varpas
Normalioji kreivė
Savybės:
• grafikas varpo formos ir visas plotas po juo = 1
• grafikas simetriškas
Empirinė taisyklė
• Standartizuotos reikšmės:
Čebyšovo taisyklė
Populiacijos vidurkis µ
• Lygus populiacijos reikšmių sumai padalintai iš populiacijos dydžio
Populiacijos dispersija σ^2
• Vidutinė kvadratinių nuokrypių nuo populiacijos vidurkio reikšmė
------------------------------------------------------------------------------------------------------------------------------------------
Nesutaikomi įvykiai
Veiksmai su tikimybėmis
Sąlyginė tikimybė
Nepriklausomi įvykiai
Bajeso teorema
Atsitiktinis dydis apibrėžiamas pagal funkciją
Atsitiktinis dydis - tam tikra funkcija (taisyklė), pagal kurią kiekvienam
atsitiktiniam įvykiui priskiriama viena iš anksto nežinoma skaitinė
reikšmė.
Atsitiktinio dydžio žymėjimas yra X – tai lyg kiekybinio kintamojo
pavadinimas.
Ats.d. realizacija yra x, tai konkretus skaičius (ne atsitiktinis dydis).
Gaunam, kad imčių vidurkių vidurkis artėja prie tikrojo vidurkio, kai imčių kiekis ir
stebinių kiekis imtyje artėja į ∞.
Kuo daugiau imčių k -> ∞
Kuo didesnės imtys n -> ∞
Tuo labiau, nepriklausomai nuo realių duomenų skirstinio, rezultatai artėja link
normaliojo skirstinio ir tikrojo vidurkio
Normalusis skirstinys
Normalaus skirstinio tankio funkcija
Rodo tikimybę reikšmėms mažesnėms nei norima Z (t.y. nuo −∞ iki Z). Z reikšmė rodo standartinių
nuokrypių skaičių nuo vidurkio.
LENTELĖ
Standartizuoto skirstinio lentelė