You are on page 1of 13

თავი 1

1)Variable (ცვლადი)-პოპულაციაში შემავალი ცოცხალი ან არაცოცხალი ობიექტის


დამახასიათებელი ნიშანი.(ასაკი,სქესი...)
Data (მონაცემები)
Population- ცოცხალი თუ არაცოცხალი ობიექტების ერთობლიობა, რომლის შესახებ
ვატარებთ კვლევას.
Sample (შერჩევა)- პოპულაციის ნაწილი.
პარამეტრი- რიცხვი, რომელიც აღწერს პოპულაციას.
სტატისტიკა-რიცხვი, რომელიც აღწერს პოპულაციის ნაწილს.
ცვლადების ტიპები: რაოდენობრივი და თვისობრივი
1) რაოდენობრივი- რიცხვითი მნიშვნელობის მქონე.

 უწყვეტი- გაზომვის შედეგად მიღებული. ისეთები რომლებიც უწყვეტ


შკალაზე იზომება, ანუ შეიძლება იყოს დისკრეტულისგან განსხვავებით
შეიძლება იყოს რაციონალური რიცხვი. წონა, სიმაღლე.
 დისკრეტული- დათვლის შედეგად მიღებული რაოდენობა, რომელიც
მხოლოდ მთელი რიცხვი შეიძლება იყოს.
2) თვისობრივი- რაღაც თვისების მქონე, რომელიც რიცხვით არ გამოისახება,
მაგალითად, სქესი, ფერი.

 Nominal( სახელდებითი)- აქ არ არის მონაცამების სიდიდე, დალაგება


სხვადასხვა დონის ან რიგის მიხედვით.(yes-no, X-other)
 Ordinal(შეფასება) -მონაცემების კლასიფიცირება დონეების მიხედვით.
(დიდი-პატარა, კარგი-ცუდი)

Page 1 of 13
რიცხვითი მნიშვნელობები ასევე არის ფარდობითი ან ინტერვალური.

 ინტერვალური-არის რიგი და განსხვავება თითეულ კატეგორიას შორის


არის ზუსტად იდენტური. აქ არ არის რეალური ნულოვანი წერტილი, არამედ
ის არის არჩევითი. მაგალითად, ტემპერატურა, რომელიც იზომება
ფარენჰეიტებში და ცელსიუსებში, ნულოვანი წერტილი ორივეს
განსხვავებული აქვს.
 ფარდობითი- ინტერვალის მსგავსი, მაგრამ მისგან განსხვავებით აქვს
ნულოვანი წერტილი. მაგალითად, წონა და ასაკი.

თავი 2
1) მონაცემთა პირველადი წყარო-შენს მიერ მოგროვებული მონაცემები.
მონაცემთა მეორადი წყარო- სხვისი შეგროვილი მონაცემები.
2) Summary table- აჩვენებს ცვლადის მნიშვნელობების სიხშირეს. მაგალითად,
პასუხების რამდენი პროცენტია კონკრეტული პასუხი.
Form of payment Percentage
cash 15
check 54
online 28
other 3

Contingency table - აჩვენებს 2 ან მეტი თვისობრივი ცვლადის თანაკვეთით მიღებულ


შედეგებს. მაგალითად, რამდენი ადამიანია 30-40 წლის ასაკში და ასევე თუ
ურჩევნია მერსო BMW-ს.
3) Stacked Data- ყველა მონაცემის გასწვრივ სხვა სვეტში მისი შესაბამისი მეორე
ცვლადის მონაცემი წერია.
Cost ID Cost Name Cost Type Cost Value Cost Date
1 Rent fixed 1100 2/2/2009
2 Electricity variable 200 2/14/2009
3 Taxes variable 650 2/27/2009
4 Salary fixed 500 7/19/2010

Unstacked Data- ყოველი სვეტი წარმოადგნეს ერთი ჯგუფის ცვლადს, რომლის


სახელიც მის თავში წერია და ქვემოთ შესაბამისი რიცხვებია მოცემული.

Female Male

Page 2 of 13
1902 652
652 531
4) Ordered Array- როცა მონაცემები ზრდადობის მიხედვითაა დალაგებული.
5) Frequency Distribution - ეს ათავსენს რიცხობრივ მნიშვნელობებს რიგობრივად
დალაგებულ კლასებში.
მთლიანი მონაცამები იყოფა კლასებად, მეტი თვალსაჩინოებისთვის. მაგალითად,
მონაკვეთზე რო იყოს რაღაც მონაცემები/რიცხები, რომლებიც უნდა მოვათავსოთ
ჯგუფებში, ეს ჯგუფებია სწორედ კლასები. კლასის სიგანე არის თუ რა სიგრძის
თანაბარ ნაწილებად უნდა დაიყოს ეს მთლიანი მონაკვეთი. ეს კი პირდაპირ
დაკავშირებულია კლასების რაოდენობასთან.
სხვა სიტყვებით, კლასის სიგანე არის ინტერვალი. კლასებიში შემავალი
მნიშვნელობები ჩამოწერილია სვეტებში. 1 სვეტი 1 კლასის ტოლია.
კლასების სიგანეს, როგორც წესი ამრგვალებენ, რათა უფრო გამარტივდეს
მონაკვეთის დაყოფის პროცესი.
კლასის სიგანე= უდიდეს მონაცემს-უმცირესი მონაცემი
კლასების რაოდენობა

რადგან ყოველი მნიშვნელობა მხოლოდ ერთ კლასში ხდება, ამიტომ უნდა


განისაზღვროს კლასის საზღვრები.
მაგალითად, მენის ფასები 21-დან 79 ლარამდე მერყეობს. ინტერვალად დაადგინე
10, ამიტომ საზღვარი იქნება 20-დან 80 ლარამდე, რაც ნიშნავს, რომ მაგალითად
პირველ კლასში იქნება ის, რისი ღირებულებაც 20-ზე მეტია და ნაკლებია 30-ზე.
Class Limits- ის წერტილები, რომლებიც დაყოფის შედეგად კლასების თავსა და
ბოლოშია. მათ გამოვიყენებთ ცხრილში, ზევით მოყვანილ მაგალითს, რომ
მივუბრუნდეთ ცხრილში კლასის ლიმიტი იქნება 20-30, და 20-დან 30 ლარამდე
ღირებულების საკვების რაოდენობას მივუწერთ მარჯვნივ. ამ რაოდენობას
ეწოდება სიხშირე.

კლასის სიხშირე
ლიმიტი
20-30 15
30-40 12
50-60 8

Page 3 of 13
კლასის შუა წერტილი/Class Midpoint- სიტყვიდან გამომდინარე, მაგალითად ზედა
ცხრილის მიხედვით პირველი Class Midpoint არის 25.

პროპორცია=ფარდობითი სიხშირე = კლასის მონაცემების რაოდენობა


მთლიანი რაოდენობა
ამას ვიყენებთ ჯგუფის თითოეული მნიშვნელობის შესაბამისი პროცენტული
მნიშვნელობის დასადგენად. ის მრავლდება 100-ზე. ამიტომ, კლასების
ფარდობითი სიხშირეების ჯამი უნდა იყოს 1, მისი შესაბამისი პროცენტების კი 100.
ამ ცხრილში მხოლოდ ნაწილია მოცემული. სიხშირეების ქვევით იწერება ჯამური
სიხშირე 1, და პროცენტების შემთხვევაშიც შესაბამისად.
percentag
Cost frequency e
20-30 0.12 12
30-40 0.14 14
40-50 0.38 38

Relative frequency distribution- ამ ცხრილის სახელი.

Cumulative Distribution- ცხრილი, რომელიც აჩვენებს თუ რამდენი მონაცემია


მოცემულ მონაცემზე ნაკლები. ამ ცხრილის მიხედვით, ყველა რესტორანში ფასები
იწყება 20 ლარის ზემოთ. რესტორანთა 12 პროცენტში ფასი არის 30 ლარზე
ნაკლები.

Cost Number in perc.


20 0
30 12
40 26

Page 4 of 13
ლექცია 3, თავი 2

თვისობრივი ცვლადებისთვის
Bar Chart გვეხმარება სხვადასხვცა კატეგორიების შედარებაში. მაგალითად,
ფულის გადახდის რომელ საშუალებებს რა სიხშირით იყენებენ. აქ იქნებოდა: Cash,
online,check.
Pie Chart- წრე. გვიჩვენებს თითოეული კატეგორიის წილს პროცენტებში.
Pareto chart -ვერტიკალურად გამოვსახავთ მონაცემებს, მაგრამ კლების მიხედვით.
პარეტოს ჩარტზე ასევე მოცემულია კუმულაციური სტატისტიკაც,ხაზოვანი
დიაგრამა, ანუ მაჩვენებს მთლიანისკენ როგორ მივდივარ ყოველი მონაცემის
გავლის შემდეგ. ყველა მონაცემი წარმოადგენს წინა მონაცემებისა და მისი თავის
ჯამს.
მაგალითად, პირველი მონაცემის პროცენტული სიდიდეა 40, ხაზოვანი დიაგრამის
საწყისი წერტილიც მის თავზე იქნება, რადგან მის წინ მონაცემი არა, მაგრამ თუ
მეორე მონაცემის პროც. სიდიდეა 20, მაშინ ხაზოვანი დიაგრამის შესაბამისი
წერტილი იქნება 40+20=60 პროცენტზე.
პარეტოს პრინციპი-მონაცემთა უმრავლესობა ერთ ინტერვალში კონცენტრირდება
და დანარჩენი გაფანტულია.
Side-by-side-bar chart- 2 მონაცემის შედარებისას სხვადასხვა კრიტერიუმებით.
მაგალითად რამდენად ხშირია შეცდომები, და პირიქით. კრიტერიუმები იქნება:
მცირე, პატარა, დიდი.

რაოდენობრივი ცვლადებისთვის
Stem-and-Leaf Display-გამოიყენება როცა მონაცემები ზრდადობის მიხედვითაა
დალაგებული. შედგება 2 ნაწილისგან, მარცენა stem, სადაც იწერება ათეულები ან
მეტი, მეორე leaf, იწერება უფრო დაბალი რანგის რიცხვები, ერთეულები,თუ
მაჯრვენაში ათეულია. მარცხენას ემატება მარჯვენა. მარცხნივ ჩამოწერილი
თითოეული რიცხვი არის ტოტი, და მარჯვნივ თითოეულ ტოტს შეესაბამება
რიცხვები, ანუ ფოთლები.
ფოთლები უნდა იყოს დალაგებული ზრდადობის მიხედვით. მაგ: 0,0,1,2,2...

Page 5 of 13
ჰისტოგრამა- მონაცემები დაჯგუფებულია კლასებად, და აჩვენებს თითეულ
კლასში შემავალი მონაცემები მთლიანი რაოდენობის რამდენი პროცენტია.
ჰისტოგრამის მარცხენა წრფეზე მოცემულია პროცენტი, ან სიხშირე. აგების დროს
Bin-ები ჩამოწერილი უდნა იყოს, ბინი კლასის მარჯვენა საზღვრებია. მაგალითად,
10 სიგრძის კლასები თუა, მაშინ 0,10,20...

ჰისტოგრამაზე მითითებულია შუა წერტილები.

Percentage Polygon – გრაფიკი, რომელზეც ჰისტოგრამას შუა წერტილები


ერთმანეთთან მონაკვეთებითაა დაკავშირებული. ეს გვეხმარება შუალედებში
მოხვედრილი მონაცემთა წილის ცვლილების ტენდენციის გასაგებად.
Cumulative Percentage Polygon - კუმულაციურად ითვლი კლასების მარჯვენა
საზღვარზე ნაკლები მონაცემთა რა წილია. Cumulative Distribution-ის პრინციპია
ზუსტად ოღონდ გრაფიკზეა გადატანილი.
Scatter Plot – გვეხმარება ორ ცვლადს შორის არსებული კავშირის დანახვაში. ერთ ღერძზე
ერთი ცვლადი, მეორეზე მეორე, და გრაფიკზე მოვნიშნავთ ყველა შესაბამის წერტილს.
ექსელი დახაზავს წრფეს. თუ წრფე აღმავალია დამოკიდებულება პროგრესულია , თუ არა
რეგრესული.

Page 6 of 13
თავი 3

1) საშუალო=ჯამი/რაოდენობა x̄
2) შერჩევის საშუალო= მიღებული მონაცემების ჯამი
მონაცემთა რაოდენობა
3) მედიანა- ზრდადობით დალაგებული მონაცამებიდან ცენტრში განთავსებული
მონაცემი. თუ რაოდენობა ლუწია, მაშინ შუა 2 მონაცემის საშუალო არითმეტიკული.
4) მოდა-ყველაზე ხშირად გამეორებული მონაცემი. მოდა შეიძლება
ერთდროულად რამდენიმე მონაცემიც იყოს, თუ მათ გამეორების სიხშირე
თანაბარია.
5) გაბნევის დიაპაზონი-ყველაზე დიდს გამოკლებული ყველაზე პატარა.
6) გეომეტრიული საშუალო- მე-n ხარისხის ფესვი n ცალი რიცხვის ნამრავლიდან.
7) ვარიაცია- გვეხმარება განვსაზღვროთ თუ რამდენად გადახრილია მონაცემები
საშუალოდან, ანუ გვაჩვენებეს გაფანტულობას.

8) საშუალო კვადრატული გადახრა- ფესვი ვარიაციიდან. გვიჩვენებს მონაცემის


ენაზე რამდენია გაფანტულობა. თუ მაგალითად მონაცემები მეტრებშია
მოცემული, მაშინ მისი ვარიაცია იქნება მეტრ კვადრატებში, ამ და სხვა მიზეზის
გამო ვიღებთ ფესვს ვარიაციიდან. ექსელში STEDV.

Page 7 of 13
9) ვარიაციის კოეფიციენტი- პროცენტებში გვიჩვენებს გაფანტულობას და
ანგარიშობს საშუალოდან გადახრა თვითნ საშუალოსთან მიმართებაში რამდენად
დიდია. რა უფრო დიდი რიცხვია, მით უფრო გამორჩეულია მონაცემი.
CV= (S/X) x 100%
X- საშუალო. S-სტ.გად.

Z Score- გვიჩვენებს თვითნ მონაცემი რამდენად (სტანდარტული გადახრით)


დაშორებულია საშუალოს მონაცემი. რაც უფრო დიდია რიცხვი, მით უფრო
უჩვეულოა ის.

1) გრაფიკის ფორმა- თუ საშუალო ნაკლებია მედიანაზე მაშინ ნეგატიურია


გრაფიკი და მარცხნიდან იწყება გრძელა აღმასვლა, მარჯვნივ უფრო მკვეთრია.
როცა ტოლია, სიმეტრიულია. როცა მეტია მარჯვნიდან იწყება მკვეთრი აღმასვლა,
და მერე ნელი(გრძელი) დაღმასვლა მიდის.
2) კვარტილები- მონაცემები იყოფა 4 თანაბარ ნაწილად, მონაცემთა პირველი 25 %
მოთავსდეს პირველ კვარდალში და ა.შ.
რიგით მერამდენე იქნება კვარტილის საზღვარი- Q1=(n+1)/4 , Q2=(n+1)/2,
Q3=3(n+1)/4

თუ არამთელი რიცხვია, მაგ, 2.5 მაშინ კვარტილის საზღვარი იქნება 2-სა და 3-ს
შორის.
თუ არც მთლიანი რიცხვია და არც fractional half, მაშინ მრგვალდება.
3) შუაკვარტილური გაბნევა- ითვლის გაბნევას მესამე და პირველ კვარტალს
შორის, ეს არის მესამე კვარტლის ზედა და პირველის ქვედა ზღვარი. Q3-Q1
4) 5 რიცხვის შეჯამება- X smallest, Q1, median, Q3, X largest.
5) BoxPlot -გრაფიკულად აჩვენებს 5 შემაჯამებელი რიცხვის მონაცემს და მისი
ფორმულით განისაზღვრება განაწილების ფორმაც.

Page 8 of 13
პოპულაციის საშუალო- ყველა მონაცემის ჯამი გაყოფილი რაოდენობაზე.

პოპულაციის ვარიაცია და სტანდარტული გადახრა იგივეა რაც აქამდე იყო,


მაგრამ გამოთვლისას მნიშვნელში n-1 ს ნაცვლად n იქნება.

ემპირიული წესები:

 მონაცემთა 68 % საშუალოს +- 1 გადახრაში ხვდება


 მონაცემთა 95 % საშუალოს +- 2 გადახრაში ხვდება
 მონაცემთა 99.7 % საშუალოს +- 3 გადახრაში ხვდება

ჩებინევის წესი- საშუალოს +- k გადახრაში ხვდება მონაცემთა (1-1/k^2)*100%


ნაწილი.
Page 9 of 13
კოვარიცია- აჩვენებს რამდენად ძლიერია წრფივი დამოკიდებულება ორ ცვლადს
შორის. მაგალითად, წონასა და სიმაღლეს შორის.

კორელაციის კოეფიციენტი r- ზომავს ფარდობით სიძლიერეს წრფივი ღერძით


ორ რიცხობრივ ცვლადს შორის. კოეფიციენტის მნიშვნელობა მოთავსებულია (-1:
1) შუალედში. მხოლოდ ამ შუალედში იქნება წერტილები განლაგებული წრფეზე.
პოპულაციის კორელაციის კოეფიციენტი-p
შერჩევის კორელაციის კოეფიციენტი-r

cov ( X ; Y )
r=
SxSy
….

Page 10 of 13
თავი 4, ალბათობა
ალბათობის სახეები:
1) აპრიორი- რაღაცის მოხდენის ალბათობა არის P.
P=ხელსაყრელი შემთხვევა/შემთხვევათა რაოდენობაზე.
2) ემპირიული- დაკვირვებებსა და ცდებზე დაყრდნობით გამოტანილი დასკვნა.
მაგ, 100 ადამიანიდან 40 ქალი იყო, შესაბამისად ქალის ალბათობა არის 40 % სხვა
შემთხვევებშიც.
3) სუბიექტური- პირადი მოსაზრებების საფუძველზე გამოთქმული ვარაუდი.

ხდომილება
1) მარტივი ხდომილება-მხოლოდ ერთი ხდომილება მიიღება შედეგად.
მაგალითად, მონეტის აგდებისას 2 შესაძლებელი შედეგი არსებობს- საფასური და
გერბი, მაგრამ შედეგად მხოლოდ ერთ-ერთი მათგანი დარჩება. თითეული
მათგანი წარმოადგენს მარტივ ხდომილებას,კამათლის გაგორებისას კი არის 6
მარტივი ხდომილება.
2) შერეული ხდომილება-ორი ან მეტი ხდომილება ხდება ერთდროულად.
მაგალითად, როცა ორი მონეტის აგდებისას შედეგი იქნება ერთნარი.
ელემენტარულ ხდომილობათა სივრცე- სიმრავლე, რომელიც შეიცავს ყველა
ელემენტარულ ხდომილობას. სიმბოლო- Ω
ხდომილობათა სივრცის წარმოსაჩენად იყენებენ ვენის დიაგრამასა და Contingency
Table.
კომპლემენტი- A-ს კომპლემენტი არის A’, ანუ ყველაფერი ის, რაც A არ არის.

Page 11 of 13
ალბათობის ტიპები:
მარტივი ალბათობა- P=X/T (ხელსაყრელი შემთხვევა/შემთხვევათა რაოდენობაზე.)
Joint probability -2 ან მეტი ხდომილების ერთდროულად მოხდენის ალბათობა. A და
B ხდება ერთდროულად. p(A ∩ B).

marginal probability-შერეული ალბათობების ერთობლიობა.

P(A) = P(A and B1) + P(A and B2) …. + P(A and Bk)
მაგალითი:
P(Planned to purchase) = P(Planned to purchase and purchased)+ P(Planned to purchase and
did not purchase)

შეკრების მთავარი წესი- ალბათობა, რომ მოხდება A ან B, რაც ნიშნავს, რომ


მინიმუმ ერთი უნდა მოხდეს, თუმცა ასევე შესაძლებელია ორივეც.

P(A or B) = P(A) + P(B) - P(A and B)


მაგალითი:
P(Planned to purchase or actually purchased) = P(Planned to purchase) + P(Actually purchased)
- P(Planned to purchase and actually purchased).

პირობითი ალბათობა- A ალბათობა სრულდება იმ პირობით, რომ სრულდება B


პირობა. სხვა სიტყვებით, B შესრულდება მხოლოდ იმ შემთხვევაში თუ უკვე
შესრულდა A.

P(A|B)= P(A and B)/ P(B)


P(A and B) = joint probability of A and B, P(A) = marginal probability of A, P(B) = marginal
probability of B.

Page 12 of 13
მაგალითად, A არის ადამიანები, რომლებსაც პროდუქტის შეძენა უნდოდა და B
ადამიანები, რომლებმაც მართლა შეიძინა ის.

დამოუკიდებელი ხდომილება- თუ A-ს მოხდენა არ არის დამოკიდებული B-ს


მოხდენაზე.

A-ს ალბათობა არ შეიცვლება B პირობის გაჩენის შემთხვევაში. P(A|B) = P(A)

გამრავლების წესი
გამრავლების ზოგადი წესი- P(A and B2) = P(A|B)P(B)

გამრავლების წესი დამოუკიდებელი ხდომილების დროს- P(A and B) = P(A)P(B)

აქ ორივე დამოუკიდებელი ხდომილებაა.


მარგინალური ალბათობის დროს-P(A) = P(A|B1)P(B1) + P(A|B2)P(B2) ... + P(A|Bk)P(Bk)

ბაიესის თეორემა
ბაიესის თეორემა-შეგვიძლია გავიგოთ A-ს ალბათობა B პირობით, თუ ვიცით, რომ
B-ს ალბათობა A პირობით.
მაგალითად თუ ვიცი იმის ალბათობა, რომ კარგად სწავლობს თუ გოგოა,
შემიძლია
გავიგო იმის ალბათობა, რომ გოგოა თუ კარგად სწავლობს.

Page 13 of 13

You might also like