You are on page 1of 67

Матеріали стандартного курсу від компанії SAS

Statistics 1: Вступ до
ANOVA-аналізу,
Регресійного-аналізу та
Логістичної регресії
Statistics 1: Introduction to ANOVA, Regression, and Logistic
Regression Course Notes. 2012 SAS Institute Inc. Cary, NC, USA
Book code E2095, course code LWST193/ST192,
prepared date 21Mar2012.
LWST193_001
ISBN 978-1-61290-125-1

Укладач: д.т.н. Терентьєв Олександр Миколайович

Copyright © 2010, SAS Institute Inc. All rights reserved.


Розділ 1: Введення у статистику

1.1 Фундаментальні концепції статистики

1.2 Візуальний аналіз графіків

1.3 Довірчі інтервали для математичного очікування

1.4 Тестування гіпотез

2
Розділ 1: Введення у статистику

1.1 Фундаментальні концепції статистики

1.2 Візуальний аналіз графіків

1.3 Довірчі інтервали для математичного очікування

1.4 Тестування гіпотез

3
Цілі
◼ Задачі аналізу
◼ Застосування процедури MEANS для вирішення
задач описової статистики

4
4
Постановка завдання
Ціль. За кожен іспит з Математики та Читання учень
може отримати максимум 800 балів.Для складання
випускного SAT іспиту (Scholastic Aptitude Test)
необхідно набрати 1200 балів.Для аналізу обрано
групу з 80 студентів.

5
5
Типи змінних та рівні вимирів

VARIABLE
AGREE

NO OPINION

DISAGREE

По-перше, потрібно визначитися з типами змінних:


безперервні (continuous) або категоріальні
(categorical).По-друге з рівнем виміру: номінальні чи
ординарні.

6
6
Continuous variables можуть приймати будь-яке значення серед
нескінченного числа значень, що знаходяться між двома значеннями
змінної.
Приклад, температура напою, ця змінна має нескінченну кількість
значень на відрізку між значеннями 22 і 23 градуси, так як може бути
температура 22,45 і 22,98 градусів.
Зауваження. Змінна може бути безперервною навіть у тому
випадку, коли кількість інтервалів обмежена.
Деякі змінні числового типу не є інтервальними.
Наприклад, у тих випадках, коли змінна може набувати лише
заданих значень, кількість яких обмежена.
Categorical variables можуть бути як числовими, так і не
числовими. Це той випадок, коли у змінної обмежена кількість рівнів.
Наприклад, змінна Gender (стать) приймає два значення Male і
Female або Size зі значеннями Small, Medium, Large.

7
7
Безперервні та категоріальні змінні
Variable: Температура напою

Змінна: Gender

8
Рівень виміру: Номінальний
Змінна: Тип напою
- напій 1, .., напій 3

1 2 3

или
Номінальні змінні не мають
логічного впорядкування,
наприклад, тип напою – сік,
молоко, чай. 1 2 3

9
9
Рівень виміру: Ординарний
Змінна: Розмір напою
Маленька кола, середня, велика (до речі,
велика кола в Нью-Йорку заборонена через
ожиріння населення)

Small Medium Large

Розмір стаканчика може бути логічно впорядкований, у цьому


випадку змінна має ординарний тип.

10
10
Інтервальні змінні можуть бути впорядковані, як і прості. Але
при цьому потрібно розуміти, що є різниця між виміром
(measurements) змінною та її уявленням (meaningful, мається
на увазі що для змінної задається інтервал між значеннями).
Наприклад, змінна температура пацієнта. Для неї можна
знайти різницю між стандартною та поточною.

Стандартна температура дорівнює 98.6° F, а


спостерігається у пацієнта 98.2. Можна обчислити різницю, але
для цього виміру змінної відсутнє поняття "правдивого нуля"
(true zero point).
Нуль градусів за Фаренгейтом у пацієнта, значить
відсутність у нього температури.

11
11
За шкалою Фаренгейта, точка таянія льоду дорівнює +32 °F, а
точка кепечіння води +212 °F.

12
12
Інший приклад, pH value – інтервальна змінна – водневий
показник.

pH негативний логарифм концентрації водневих іонів


(спосіб вираження кислотності або лужності середовища за
шкалою від 0 до 14).

Морська вода має pH = 8, але це значення не вдвічі більше


містить луги (alkaline) порівняно з томатним соком, для якого pH
= 4.
Третій приклад, децибел – логарифмічна одиниця рівнів,
згасань та посилень.

13
13
14
14
Ratio scale (Коефіцієнт масштабу) на відміну від
інтервальних та ординарних змінних можуть бути не тільки
відсортовані (причому для інтервальної з урахуванням заданого
інтервалу значень між мітками на шкалі), але також мають і
“правдивий нуль” (true zero point). Наявність правдивого нуля
дозволяє відкласти відстань між двома вимірами на шкалі
(лінійці). Наприклад, для температури в Кельвіна правдивий
нуль присутній, тому 50 градусів Кельвіна це половина від 100
градусів Кельвіна.
Кельвін (позначення: K) - одиниця термодинамічної
температури. Запропоновано у 1848 року. Початок шкали (0 К)
збігається з абсолютним нулем. Перерахунок у градуси Цельсія:
°С = K−273,15.
Інший приклад ratio scale – гроші. Якщо клієнт має 0 у. то це
має на увазі відсутність у нього грошей. Клієнт №1 може мати
вдвічі більше грошей, ніж Клієнт №2.

15
15
Огляд статистичних моделей
Type of
Predictors Continuous and
Categorical Continuous
Type of Categorical
Response
Continuous Analysis of Ordinary Least Analysis of
Variance Squares (OLS) Covariance
(ANOVA) Regression (ANCOVA)
Categorical Contingency Logistic Logistic
Table Analysis Regression Regression
or Logistic
Regression

16
16
Популяція та вибірка
Популяція – це набір Вибірка – це підмножина
елементів обраних за популяції.
певним принципом.

 В рамках поточного курсу, вважається, що вибірка є


репрезентативною.
17
17
Параметри та Статистики
Статистики використовуються для оцінювання
параметрів популяції

Population Sample
Parameters Statistics
Mean  x
Variance  2
s2
Standard  s
Deviation

18
18
Математичне сподівання
1
x =  xi
n

Дисперсія

(xi − x )
1
s =
2 2

n −1

Стандартне відхилення

s=
1
n −1
(
 xi − x )
2

19
19
Опис даних
При описі даних намагаються вияснити:
❑ Характеристики основних середніх значень
статистик змінної
❑ Розкид значень та форма неперервних змінних

❑ Виявлення аномалій

20
20
21
1.01 Оберіть вірну відповідь
Вибірка, сформована на основі популяції, повинна
мати наступну властивість?
a. Random
b. Representative
c. Normal

22
22
1.01 Оберіть вірну відповідь
Вибірка, сформована на основі популяції, повинна
мати наступну властивість?
a. Random
b. Representative
c. Normal

23
23
Для роботи будуть використовуватися стандартні
дані, що йдуть у постачанні з навчальними
матеріалами.
TestScores – набір даних для роботи.
IDNumber – ідентифікатор студента.

Запустіть систему SAS та перегляньте дані файлу


TestScores.

Аналізуючи дані, виникає питання-гіпотеза: "Чи є


відмінність за успішністю за статевою приналежністю?"

24
24
Набір даних для роботи
Gender SATScore IDNumber
Male 1170 61469897
Female 1090 33081197
Male 1240 68137597
Female 1000 37070397
Male 1210 64608797
Female 970 60714297
Male 1020 16907997
Female 1490 9589297
Male 1200 93891897
Female 1260 5859397
… … …

25
25
Розподіл
При дослідженні значень змінної SATScore, необхідно
звернути увагу на такі характеристики як:

❑ Область допустимих значень


❑ Частота появи значень
❑ Де розташовані значення по середині області
допустимих значень або ближче до країв

Відповіді ці питання дозволяють зрозуміти


симетричність, розкид значень, форму розподілу.

26
26
Запитання

1. Яку величину можна використовувати для аналізу


середнього значення?

2. Як оцінити розкид значення змінної?

27
27
Центральні значення розподілів – Mean,
Median, and Mode

1 2 3 10
n

the sum of all the values in the data


 x
i =1
i
Mean=3
set divided by the number of values n
Median=1.5 the middle value (also known as the 50th percentile)

Mode=1 the most common or frequent data value


28
28
Процентілі
98
95 Третій квартіль
92 75th Percentile=91
90
85
81 50th Percentile=80
79
70
63 25th Percentile=59
55 Перший квартіль
47
42

29
29
Розкид значень змінної: Дисперсія
Measure Definition
Range Різниця між максимальним та
мінімальним значенням

Interquartile Різниця між 25м та 75м


Range перцентилями

Variance Міра розкиду даних навколо


середнього

Standard Корінь квадратний з дисперсії


Deviation

30
30
Для обчислення дисперсії для вибірки,
використовується формула:

( xi − x )
1
s =
2 2

n −1
Іншою, більш робастною оцінкою міри розкиду
дисперсії є коефіцієнт варіації (CV - coefficient of
variation).

s
CV =  100
x
31
31
Процедура MEANS
Синтаксис процедури MEANS:

PROC MEANS DATA=SAS-data-set <options>;


CLASS variables;
VAR variables;
RUN;

32
32
Описові статистики
Практичне завдання 1

/*st101d01.sas*/ /*Part A*/


/*st101d01.sas*/ /*Part B*/
/*st101d01.sas*/ /*Part C*/

http://support.sas.com/documentation/cdl/en/proc/66663/HTML/
default/viewer.htm#n1qnc9bddfvhzqn105kqitnf29cp.htm

33
33
34
Вправа

Самостійне завдання - 2.
(Самостійно)

35
35
Розділ 1: Введення у статистику

1.1 Фундаментальні концепції статистики

1.2 Візуальний аналіз графіків

1.3 Довірчі інтервали для математичного очікування

1.4 Тестування гіпотез

36
Цілі
◼ Аналіз розподілу неперервної змінної.
◼ Опис нормального розподілу.
◼ Використання UNIVARIATE процедури для
побудови гістограм та графіків нормального
розподілу, а також виведення описових статистик
◼ Використання SGPLOT процедури для створення
скринькових графіків (box-plot).

37
37
Відображення розподілу: Гістограмма
◼ Кожен інтервал
гістограми відображає
групу значень (bin).
PERCENT

◼ Висота стовпця
гістограми показує
частоту появи або
відсоток значень
інтервалу
◼ У SAS ширина та
кількість інтервалів
задані за
замовчуванням, але
можуть бути задані
Bins користувачем
38
38
Нормальний розподіл
Перцентилі, що часто використовуються для
Useful Probabilities
Нормального for Normal Distributions
розподілу.
68%
95%
99%

− − −  + + +

39
39
Щільність нормального розподілу
(ймовірність)

f ( x) =
1 
 exp  −
( x − ) 
2

2 
  2   2  
x  − ; + 

− коефіцієнт зсуву (математичне очікування).

− коефіцієнт масштабу (середньоквадратичне

 0 відхилення, корінь квадратний із дисперсії).

40
40
Щільність ймовірності нормального
розподілу

S =0 коефіцієнт асиметрії (skewness).


Міра асиметрії розподілу випадкової величини.
Коефіцієнт асиметрії позитивний, якщо правий хвіст
розподілу довше лівого, і негативний інакше.

K =0 Коефіцієнт ексцесу (kurtosis).


Міра гостроти піку розподілу випадкової величини.
Негативне значення ексцесу означає, що пік
гладкий.

41
41
42
42
Нормальний розподіл
Нормальний розподіл
◼ Симетричний. Якщо намалювати лінію через центр
та поверхні (форму функції) збігатимуться.
◼ Повністю описується математичним очікуванням та
дисперсією.
◼ Дзвоноподібне.

◼ mean=median=mode.

На наступному слайді червона лінія – нормальний


розподіл, накладений різні ситуації.

43
43
Розподіл даних у порівнянні із нормальний
розподілом

44
44
Нормальний розподіл

45
45
Коефіцієнт асиметрії:

Коефіцієнт ексцесу:

zi – централізація, що обчислюється за формулою:

46
46
Skewness (Асиметрія)

47
47
Kurtosis (Ексцес)

48
48
Дослідження розподілу за графіком
Для дослідження розподілу використовуються такі
типи графіків:

❑ Гістограми
❑ Графіки нормального розподілу
❑ Ящики з вусами

49
49
Дослідження розподілу за допомогою
гістограм
Створення гістограм з можливістю накладання кривих
функцій щільності теоретичного розподілу, а також
функцій щільності функціоналу ядра.

50
50
Графіки нормального розподілу
1. 2. . 3. .......
. .
. ..
...
. .
.
. . .. .... ....
.
... . ....
... ... .
..
.
. .. .
.... . . ...
.
... ... ...
.
.. .. .
.... .................. ....
.. . . . 5. .
4. ..
..... ......
.
... .....
... ..........
. .
..
... .
... .
....
. .
...
... .
.
.......... .
По вертикальній осі відкладаються реальні значення, а горизонтальної
очікувані перцентилі стандартного нормального розподілу.
1. Нормальний розподіл (дані відкладені вздовж лінії).
2. Правостороння асиметрія.
3. Лівостороння асиметрія.
4. Легкі хвости розподілу.
5. Тяжкі хвости розподілу.

51
51
P-P графік та Q-Q графік

52
52
53
53
54
54
55
55
Ящик з вусами
Викиди > 1.5 IQR
Великі значення >= 1.5 IQR
1.5* IQR

75й перцентиль

50й перцентиль (медіана)


25й перцентиль

Малі значення <= 1.5 IQR

Математичне очікування позначається як ◊.


56
56
Вивід графіків в ODS
◼ Деякі графіки створюються за замовчуванням.
◼ Спеціальні процедури для побудови графіків (такі
як PLOTS=) використовуються для зміни
стандартних налаштувань.
◼ Користувач за допомогою використання ODS
самостійно може вибирати вихідний потік
(наприклад, LISTING, HTML, RTF).
◼ ODS SELECT та ODS EXCLUDE оператори можуть
використовуватись для вибору або виключення
інформації, яка буде виводитися у звіт.

57
57
Рекомендовані стилі в ODS
Стиль Описание
HTMLBLUE Світлі тона в форматі HTML
STATISTICAL Рекомендується для звітів, що
використовуються в WEB або кольорових
медіа.
ANALYSIS Схожий на попередній стиль STATISTICAL.
JOURNAL and Сірий відтінок і чорно-білий стиль.
JOURNAL2 Рекомендуються для графіків або чорно-білих
статей.
RTF Використовується для створення графіків,
вставлених у документи Microsoft Word або
слайди PowerPoint.
ODS стилі задаються за допомогою послідовності дій:
Tools  Options  Preferences  Results
58
58
Процедури для побудови статистичних
графіків
◼ PROC SGSCATTER створює creates single-cell та
multi-cell діаграми розсіювання, а також матриці
розсіювання
◼ PROC SGPLOT створює single-cell графіки
довільних типів
◼ PROC SGPANEL створює односторінкові та
багатосторінкові панелі графіків та гістограм з
використанням умовних або класифікуючих змінних
◼ PROC SGRENDER дозволяє створювати власні
попередньо налаштовані шаблони.

59
59
Процедура UNIVARIATE
Синтаксис:

PROC UNIVARIATE DATA=SAS-data-set <options>;


VAR variables;
ID variable;
HISTOGRAM variables </ options>;
PROBPLOT variables </ options>;
INSET keywords </ options>;
RUN;

60
60
Процедура SGPLOT
Синтаксис:

PROC SGPLOT <option(s)>;


DOT category-variable </option(s)>;
HBAR category-variable < /option(s) >;
HBOX response-variable </option(s)>;
HISTOGRAM response-variable < /option(s)>;
NEEDLE X= variable Y= numeric-variable </option(s)>;
REG X= numeric-variable Y= numeric-variable
</option(s)>;
SCATTER X= variable Y= variable </option(s)>;
VBAR category-variable < /option(s)>;
VBOX response-variable </option(s)>;
RUN;

61
61
Дослідження розподілу

Практичне завдання - 3.
/*st101d02.sas*/ /*Part A*/

Практичне завдання - 4.
/*st101d02.sas*/ /*Part B*/

62
62
63
Вправа

Практичне завдання – 5
(Самостійно)

64
64
65
1.02 Завдання
У наборі даних NormTemp, розподілу змінної
BodyTemp є?
A. Близьким до нормального
B. Асиметричним ліворуч
C. Асиметричним праворуч
D. Велике позитивне значення коефіцієнта ексцесу
E. Велике негативне значення коефіцієнта ексцесу

66
66
1.02 Відповідь
У наборі даних NormTemp, розподілу змінної
BodyTemp є?
A. Близьким до нормального
B. Асиметричним ліворуч
C. Асиметричним праворуч
D. Велике позитивне значення коефіцієнта ексцесу
E. Велике негативне значення коефіцієнта ексцесу

67
67

You might also like