Professional Documents
Culture Documents
Introduction To Statistics - UA - 01
Introduction To Statistics - UA - 01
Statistics 1: Вступ до
ANOVA-аналізу,
Регресійного-аналізу та
Логістичної регресії
Statistics 1: Introduction to ANOVA, Regression, and Logistic
Regression Course Notes. 2012 SAS Institute Inc. Cary, NC, USA
Book code E2095, course code LWST193/ST192,
prepared date 21Mar2012.
LWST193_001
ISBN 978-1-61290-125-1
2
Розділ 1: Введення у статистику
3
Цілі
◼ Задачі аналізу
◼ Застосування процедури MEANS для вирішення
задач описової статистики
4
4
Постановка завдання
Ціль. За кожен іспит з Математики та Читання учень
може отримати максимум 800 балів.Для складання
випускного SAT іспиту (Scholastic Aptitude Test)
необхідно набрати 1200 балів.Для аналізу обрано
групу з 80 студентів.
5
5
Типи змінних та рівні вимирів
VARIABLE
AGREE
NO OPINION
DISAGREE
6
6
Continuous variables можуть приймати будь-яке значення серед
нескінченного числа значень, що знаходяться між двома значеннями
змінної.
Приклад, температура напою, ця змінна має нескінченну кількість
значень на відрізку між значеннями 22 і 23 градуси, так як може бути
температура 22,45 і 22,98 градусів.
Зауваження. Змінна може бути безперервною навіть у тому
випадку, коли кількість інтервалів обмежена.
Деякі змінні числового типу не є інтервальними.
Наприклад, у тих випадках, коли змінна може набувати лише
заданих значень, кількість яких обмежена.
Categorical variables можуть бути як числовими, так і не
числовими. Це той випадок, коли у змінної обмежена кількість рівнів.
Наприклад, змінна Gender (стать) приймає два значення Male і
Female або Size зі значеннями Small, Medium, Large.
7
7
Безперервні та категоріальні змінні
Variable: Температура напою
Змінна: Gender
8
Рівень виміру: Номінальний
Змінна: Тип напою
- напій 1, .., напій 3
1 2 3
или
Номінальні змінні не мають
логічного впорядкування,
наприклад, тип напою – сік,
молоко, чай. 1 2 3
9
9
Рівень виміру: Ординарний
Змінна: Розмір напою
Маленька кола, середня, велика (до речі,
велика кола в Нью-Йорку заборонена через
ожиріння населення)
10
10
Інтервальні змінні можуть бути впорядковані, як і прості. Але
при цьому потрібно розуміти, що є різниця між виміром
(measurements) змінною та її уявленням (meaningful, мається
на увазі що для змінної задається інтервал між значеннями).
Наприклад, змінна температура пацієнта. Для неї можна
знайти різницю між стандартною та поточною.
11
11
За шкалою Фаренгейта, точка таянія льоду дорівнює +32 °F, а
точка кепечіння води +212 °F.
12
12
Інший приклад, pH value – інтервальна змінна – водневий
показник.
13
13
14
14
Ratio scale (Коефіцієнт масштабу) на відміну від
інтервальних та ординарних змінних можуть бути не тільки
відсортовані (причому для інтервальної з урахуванням заданого
інтервалу значень між мітками на шкалі), але також мають і
“правдивий нуль” (true zero point). Наявність правдивого нуля
дозволяє відкласти відстань між двома вимірами на шкалі
(лінійці). Наприклад, для температури в Кельвіна правдивий
нуль присутній, тому 50 градусів Кельвіна це половина від 100
градусів Кельвіна.
Кельвін (позначення: K) - одиниця термодинамічної
температури. Запропоновано у 1848 року. Початок шкали (0 К)
збігається з абсолютним нулем. Перерахунок у градуси Цельсія:
°С = K−273,15.
Інший приклад ratio scale – гроші. Якщо клієнт має 0 у. то це
має на увазі відсутність у нього грошей. Клієнт №1 може мати
вдвічі більше грошей, ніж Клієнт №2.
15
15
Огляд статистичних моделей
Type of
Predictors Continuous and
Categorical Continuous
Type of Categorical
Response
Continuous Analysis of Ordinary Least Analysis of
Variance Squares (OLS) Covariance
(ANOVA) Regression (ANCOVA)
Categorical Contingency Logistic Logistic
Table Analysis Regression Regression
or Logistic
Regression
16
16
Популяція та вибірка
Популяція – це набір Вибірка – це підмножина
елементів обраних за популяції.
певним принципом.
Population Sample
Parameters Statistics
Mean x
Variance 2
s2
Standard s
Deviation
18
18
Математичне сподівання
1
x = xi
n
Дисперсія
(xi − x )
1
s =
2 2
n −1
Стандартне відхилення
s=
1
n −1
(
xi − x )
2
19
19
Опис даних
При описі даних намагаються вияснити:
❑ Характеристики основних середніх значень
статистик змінної
❑ Розкид значень та форма неперервних змінних
❑ Виявлення аномалій
20
20
21
1.01 Оберіть вірну відповідь
Вибірка, сформована на основі популяції, повинна
мати наступну властивість?
a. Random
b. Representative
c. Normal
22
22
1.01 Оберіть вірну відповідь
Вибірка, сформована на основі популяції, повинна
мати наступну властивість?
a. Random
b. Representative
c. Normal
23
23
Для роботи будуть використовуватися стандартні
дані, що йдуть у постачанні з навчальними
матеріалами.
TestScores – набір даних для роботи.
IDNumber – ідентифікатор студента.
24
24
Набір даних для роботи
Gender SATScore IDNumber
Male 1170 61469897
Female 1090 33081197
Male 1240 68137597
Female 1000 37070397
Male 1210 64608797
Female 970 60714297
Male 1020 16907997
Female 1490 9589297
Male 1200 93891897
Female 1260 5859397
… … …
25
25
Розподіл
При дослідженні значень змінної SATScore, необхідно
звернути увагу на такі характеристики як:
26
26
Запитання
27
27
Центральні значення розподілів – Mean,
Median, and Mode
1 2 3 10
n
29
29
Розкид значень змінної: Дисперсія
Measure Definition
Range Різниця між максимальним та
мінімальним значенням
30
30
Для обчислення дисперсії для вибірки,
використовується формула:
( xi − x )
1
s =
2 2
n −1
Іншою, більш робастною оцінкою міри розкиду
дисперсії є коефіцієнт варіації (CV - coefficient of
variation).
s
CV = 100
x
31
31
Процедура MEANS
Синтаксис процедури MEANS:
32
32
Описові статистики
Практичне завдання 1
http://support.sas.com/documentation/cdl/en/proc/66663/HTML/
default/viewer.htm#n1qnc9bddfvhzqn105kqitnf29cp.htm
33
33
34
Вправа
Самостійне завдання - 2.
(Самостійно)
35
35
Розділ 1: Введення у статистику
36
Цілі
◼ Аналіз розподілу неперервної змінної.
◼ Опис нормального розподілу.
◼ Використання UNIVARIATE процедури для
побудови гістограм та графіків нормального
розподілу, а також виведення описових статистик
◼ Використання SGPLOT процедури для створення
скринькових графіків (box-plot).
37
37
Відображення розподілу: Гістограмма
◼ Кожен інтервал
гістограми відображає
групу значень (bin).
PERCENT
◼ Висота стовпця
гістограми показує
частоту появи або
відсоток значень
інтервалу
◼ У SAS ширина та
кількість інтервалів
задані за
замовчуванням, але
можуть бути задані
Bins користувачем
38
38
Нормальний розподіл
Перцентилі, що часто використовуються для
Useful Probabilities
Нормального for Normal Distributions
розподілу.
68%
95%
99%
39
39
Щільність нормального розподілу
(ймовірність)
f ( x) =
1
exp −
( x − )
2
2
2 2
x − ; +
40
40
Щільність ймовірності нормального
розподілу
41
41
42
42
Нормальний розподіл
Нормальний розподіл
◼ Симетричний. Якщо намалювати лінію через центр
та поверхні (форму функції) збігатимуться.
◼ Повністю описується математичним очікуванням та
дисперсією.
◼ Дзвоноподібне.
◼ mean=median=mode.
43
43
Розподіл даних у порівнянні із нормальний
розподілом
44
44
Нормальний розподіл
45
45
Коефіцієнт асиметрії:
Коефіцієнт ексцесу:
46
46
Skewness (Асиметрія)
47
47
Kurtosis (Ексцес)
48
48
Дослідження розподілу за графіком
Для дослідження розподілу використовуються такі
типи графіків:
❑ Гістограми
❑ Графіки нормального розподілу
❑ Ящики з вусами
49
49
Дослідження розподілу за допомогою
гістограм
Створення гістограм з можливістю накладання кривих
функцій щільності теоретичного розподілу, а також
функцій щільності функціоналу ядра.
50
50
Графіки нормального розподілу
1. 2. . 3. .......
. .
. ..
...
. .
.
. . .. .... ....
.
... . ....
... ... .
..
.
. .. .
.... . . ...
.
... ... ...
.
.. .. .
.... .................. ....
.. . . . 5. .
4. ..
..... ......
.
... .....
... ..........
. .
..
... .
... .
....
. .
...
... .
.
.......... .
По вертикальній осі відкладаються реальні значення, а горизонтальної
очікувані перцентилі стандартного нормального розподілу.
1. Нормальний розподіл (дані відкладені вздовж лінії).
2. Правостороння асиметрія.
3. Лівостороння асиметрія.
4. Легкі хвости розподілу.
5. Тяжкі хвости розподілу.
51
51
P-P графік та Q-Q графік
52
52
53
53
54
54
55
55
Ящик з вусами
Викиди > 1.5 IQR
Великі значення >= 1.5 IQR
1.5* IQR
75й перцентиль
57
57
Рекомендовані стилі в ODS
Стиль Описание
HTMLBLUE Світлі тона в форматі HTML
STATISTICAL Рекомендується для звітів, що
використовуються в WEB або кольорових
медіа.
ANALYSIS Схожий на попередній стиль STATISTICAL.
JOURNAL and Сірий відтінок і чорно-білий стиль.
JOURNAL2 Рекомендуються для графіків або чорно-білих
статей.
RTF Використовується для створення графіків,
вставлених у документи Microsoft Word або
слайди PowerPoint.
ODS стилі задаються за допомогою послідовності дій:
Tools Options Preferences Results
58
58
Процедури для побудови статистичних
графіків
◼ PROC SGSCATTER створює creates single-cell та
multi-cell діаграми розсіювання, а також матриці
розсіювання
◼ PROC SGPLOT створює single-cell графіки
довільних типів
◼ PROC SGPANEL створює односторінкові та
багатосторінкові панелі графіків та гістограм з
використанням умовних або класифікуючих змінних
◼ PROC SGRENDER дозволяє створювати власні
попередньо налаштовані шаблони.
59
59
Процедура UNIVARIATE
Синтаксис:
60
60
Процедура SGPLOT
Синтаксис:
61
61
Дослідження розподілу
Практичне завдання - 3.
/*st101d02.sas*/ /*Part A*/
Практичне завдання - 4.
/*st101d02.sas*/ /*Part B*/
62
62
63
Вправа
Практичне завдання – 5
(Самостійно)
64
64
65
1.02 Завдання
У наборі даних NormTemp, розподілу змінної
BodyTemp є?
A. Близьким до нормального
B. Асиметричним ліворуч
C. Асиметричним праворуч
D. Велике позитивне значення коефіцієнта ексцесу
E. Велике негативне значення коефіцієнта ексцесу
66
66
1.02 Відповідь
У наборі даних NormTemp, розподілу змінної
BodyTemp є?
A. Близьким до нормального
B. Асиметричним ліворуч
C. Асиметричним праворуч
D. Велике позитивне значення коефіцієнта ексцесу
E. Велике негативне значення коефіцієнта ексцесу
67
67