You are on page 1of 25

ПРАКТИЧЕСКАЯ РАБОТА № 3

МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

План работы:
2.1. Основные положения теории;
2.2. Подготовка данных для моделирования;
2.3. Загрузка данных в пакет Gretl;
2.4. Предварительный графический анализ данных;
2.5. Проверка на мультиколлинеарность;
2.6. Построение модели множественной линейной регрессии в Gretl;
2.7. Проверка на гетероскедастичность;
2.8. Анализ значимости коэффициентов и качества модели в целом;
2.9. Экономическая интерпретация параметров модели;
2.10. Задание по практической работе № 2;
2.11. Содержание отчета по практической работе № 2;
2.12. Вопросы для самоконтроля.

2.1. Основные положения теории


На практике, для построения более точных выводов и прогнозов стре-
мятся учесть все стороны явления, поэтому исследуется влияние несколь-
ких факторов на результат.
2.1.1. Множественная линейная регрессия представляет собой ли-
нейную зависимость между переменной yt и факторами x1t, x2t, …, xkt:
yt  0  1 x1t  ...  i xit  ...   k xkt   t , t  1,2,..., n , (2.1)
где yt – значение зависимой (эндогенной) переменной для наблюдения t;
xit – значение независимой (экзогенной) переменной с номером i для
наблюдения t;
0, 1, …βk – коэффициенты (параметры) модели регрессии;
εt – значение случайной компоненты для наблюдения t;
k – количество независимых переменных (регрессоров) в модели;
n – число наблюдений.
̂ 0 – константа уравнения, часто не имеет экономического смысла; ма-
тематический смысл – значение зависимой переменной yt при x1t = x2t =
= ... = xkt = 0;
Задача построения модели состоит в нахождении значений коэффици-
ентов ˆ0 , ˆ1, ˆ2 ,...,ˆk на основе собранных наблюдений (представленных
в таблице).
Метод наименьших квадратов (МНК) позволяет получить оценки ко-
эффициентов, для которых сумма квадратов отклонений реальных значе-
ний зависимой переменной yt от расчётных значений ŷt минимальна.

3
  
n n 2


t 1
t
2

t 1
yt  ˆ0  ˆ1 x1t  ˆ 2 x2t  ...  ˆ k xkt
(2.2)
 min
 0 , 1 ,..., k
.
Оптимальные значения параметров ˆ0 , ˆ1, ˆ2 ,...,ˆk являются оценка-
ми, приближенными значениями истинных (неизвестных нам) параметров
0, 1, …βk.
Решение этой системы (оценки параметров ˆ0 , ˆ1, ˆ2 ,...,ˆk ) в матрич-
ном виде получается по формуле:
ˆ  ( X T X ) 1 X T y , (2.3)

 1 x11 x21 ... xk1   y1   0   1 


       
1 x x22 ... xk 2   y2     1      2 
X   12 y     ... 
... ... ... ... ...  ...  
       
1 x  y   
 1n x 2n ... x kn 
,  n,  k ,  n ,
где X – матрица объясняющих (экзогенных) переменных (она получена пу-
тем выписывания значений всех переменных для имеющихся наблюдений
и добавлением слева единичного столбца;
X T – транспонированная матрица объясняющих переменных.
y – вектор значений зависимой (эндогенной) переменной;
β – вектор параметров (коэффициентов) модели;
ε – вектор ошибок регрессии (случайных компонент).
На практике лучше пользоваться программными средствами MS Excel,
Statistica, EViews, Gretl и т. п.
Замечание. При построении модели множественной регрессии необхо-
димо помнить, что количество наблюдений должно не меньше, чем в 10
раз превышать количества переменных.
Переменные, включаемые в модель, должны быть количественно изме-
римы, качественным факторам придают количественную определенность
(например, в виде бинарных переменных или баллов).
2.1.2. Предпосылки МНК, для получения достоверных результатов
прогноза по построенному уравнению регрессии.
1). Модель линейна по параметрам и правильно специфицирована.
2) x1t, x2t, …, хkt – детерминированные, линейно независимые перемен-
ные, т. е. отсутствует мультиколлинеарность.
3). M ( t )  0, t  1, n – математическое ожидание (средняя величина)
случайной компоненты равно нулю.
4). Остатки гомоскедастичны: D( t )    const , t  1, n – дисперсия
2

случайной компоненты постоянна и не зависит от номера наблюдения i.

4
5). cov( t ,  s )  0, t  s, t , s  1, n – нет автокорреляции в остатках,
случайные компоненты распределены независимо друг от друга, т. е. не
коррелированы.
6)*. Случайные компоненты имеют нормальный закон распределения с
нулевым математическим ожиданием и дисперсией  2 :  t  N (0,  2 ) (что
позволяет проводить проверку значимости коэффициентов регрессии с
помощью t-статистики и F-критерия).
Теорема Гаусса-Маркова. При выполнении предпосылок 1 – 5, оценки
коэффициентов регрессии ˆ0 , ˆ1, ˆ2 ,...,ˆk , полученные МНК, являются
эффективными оценками в классе линейных несмещенных оценок или
BLUE-оценками (Best Linear Unbiased Estimator).
– Несмещенные – математическое ожидание оценок ˆi равно истинным
значениям коэффициентов регрессии  i , т. е. при расчете оценок не полу-
чим систематической ошибки (выполняется предпосылка 3);
– Эффективные – дисперсия (разброс) оценок ˆi относительно истин-
ных значений  i является минимальной (выполняются предпосылки 4, 5);
– Состоятельные – при увеличении числа наблюдений n оценки ˆi
приближаются к истинным значениям  i (выполняются предпосылки 4, 5).
Далее показаны последствия нарушения предпосылок теоремы Гаусса-
Маркова и способы корректировки модели.
2.1.3. Проверка на мультиколлинеарность
(нарушение предпосылки 2)
Специфика метода множественной регрессии состоит в исследовании
комплексного воздействия факторов при условии их независимости друг
от друга. Независимые переменные модели x1t, x2t, …, хkt, t  1, n не должны
тесно коррелировать между собой (иметь тесную линейную связь, т. е.
дублировать друг друга). В противном случае имеет место явление муль-
тиколлинеарности и оценки коэффициентов по МНК будут некорректны-
ми:
1. Затрудняется интерпретация, оценки коэффициентов могут иметь
неверный знак и неоправданно большое значение с экономической точки
зрения (здравого смысла);
2. Ненадёжность, добавление или исключение нескольких наблюде-
ний приводит к значительному изменению оценок коэффициентов и зна-
ков.
Использование такой модели для анализа и прогнозирования невоз-
можно, точность прогноза мала.
Признаки мультиколлинеарности:
5
1. Большинство оценок коэффициентов модели незначимы (величины
t-статистик занижены из-за больших стандартных ошибок);
2. R 2 близок к 1;
3. Значение F-статистики высокое;
4. Высокие парные коэффициенты корреляции между независимыми
переменными x1, x2, …, хk.
5. значения коэффициента VIF > 10. Коэффициент VIF (variance
inflation factor) характеризует силу мультиколлинеарности. Вычисляется
на основе значений R2 во вспомогательных регрессиях одного регрессора
на другие:
xi( k )  1  2 xi( 2)  ...  k 1xi( k 1)  ui ,
1
VIF  . (2.4)
1  R2
Для устранения мультиколлинеарности, надо провести дополнительный
анализ независимых переменных. Строится матрица корреляции:
у x1 x2 xk
y  1 
 
x1  ryx1 1 
x2  ryx 2 rx1 x2 1 
 . (2.5)
x3  ryx 3 rx1 x3 rx2 x3 1 
 ... ... 
...  ... ... ...

xk  ryx k rx1 xk rx2 xk ... 1 
Каждый элемент матрицы – это коэффициент парной линейной корре-
ляции, который показывает тесноту и направление связи между перемен-
ными, и рассчитывается по формуле:
n
 ( xt  x )  ( yt  y )
t 1
rxy  , (2.6)
n n
 ( xt  x )  ( yt  y )
2 2
t 1 t 1
где x, y – средние; в качестве xt, yt можно подставлять любые переменные
из уравнения (2.1).
Коэффициент корреляции изменяется в интервале  1  rxy  1 , причем
это симметричная форма связи rxy  ryx , а корреляция переменной с собой
всегда равна единице ryy  1 . Чем ближе | rxy | к единице, тем теснее связь
между переменными, чем ближе rxy к нулю, тем слабее связь. Рассмотрим
значения коэффициента корреляции rxy более подробно:
6
rxy  0 – линейной связи между переменными нет, переменные не кор-
релируют;
rxy  1 – есть линейная функциональная связь, причем прямая (с увели-
чением хt увеличивается yt);
rxy  1 – есть линейная функциональная связь, причем обратная
(с увеличением хt уменьшается yt);
0,7  rxy  1 – связь сильная (тесная) прямая;
0,3  rxy  0,7 – связь умеренная прямая;
 0,3  rxy  0,3 – связь слабая или отсутствует;
 0,7  rxy  0,3 – связь умеренная обратная;
 1  rxy  0,7 – связь сильная (тесная) обратная.
Если в матрице корреляции (2.5) (в столбцах с заголовками x1t, x2t, … xkt)
наблюдается тесная связь между независимыми переменными
0,7 | rxy | 1 , то можно сказать, что независимые переменные дублируют
друг друга. Одну из них необходимо исключить из уравнения регрессии
(2.1). В уравнении остается наиболее значимая по экономическому, здра-
вому смыслу переменная. Либо остается переменная, которая линейно
сильнее связана с зависимой переменной yt. Для выяснения тесноты связи с
зависимой переменной yt, необходимо проанализировать первый столбец y
матрицы корреляции (2.5).
Одним из способов устранения эффекта мультиколлинеарности являет-
ся метод включения-исключения переменных. При этом выполняются
следующие действия:
1. Строится регрессионная модель методом наименьших квадратов.
2. Оценивается значимость параметров регрессии.
3. Выявляется наличие зависимости между факторными признаками
путем анализа матрицы парных коэффициентов корреляции и коэффици-
ента VIF.
4. Строится новое уравнение регрессии с исключением незначимых и
части взаимно коррелирующих переменных. При этом из числа коррели-
рующих переменных в модели оставляют те, которые более соответствуют
ее экономическому содержанию, либо те, которые имеют наибольшее зна-
чение частной корреляции с зависимой переменной. При необходимости
включаются уже исключенные переменные, если этого требует экономиче-
ский смысл.
Повторяются 3-й и 4-й шаги до тех пор, пока мультиколлинеарность не
будет исключена.

7
2.1.4. Проверка на гетероскедастичность
(нарушение предпосылки 4)
Гетероскедастичность (непостоянство дисперсии ошибок) не приводит
к смещению оценок параметров модели, т. е. оценки остаются несмещен-
ными, но они будут не эффективными. Гетероскедастичность может при-
вести к заниженным значениям стандартных ошибок, получаемых обыч-
ным МНК, вследствие чего завышаются t-статистики и дается непра-
вильное (более оптимистичное) представление о точности оценок.
Гетероскедастичность остатков может быть вызвана неправильным вы-
бором модели (например, рассмотрением линейной модели в случае, когда
истинная связь между переменными носит нелинейный характер).
Для проверки модели на гетероскедастичность чаще всего используется
тест Вайта, который основан на следующем предположении: если в мо-
дели присутствует гетероскедастичность, то это может быть связано с тем,
что дисперсии ошибок зависят от регрессоров, а гетероскедастичность
должна отражаться в остатках обычной регрессии исходной модели. Не
делается предположений относительно структуры гетероскедастичности.
Для проведения теста необходимо:
– Построить обычную регрессию и получить вектор остатков
e  (e1 , e2 ,..., en ) , где et  yˆ t  yt , представляющий отклонение расчетных (про-
гнозных) значений зависимой переменной от фактических значений;
– Построить регрессию et2 на все независимые переменные, их квадра-
ты, попарные произведения и свободный член;
– рассчитать статистику nR2.
Если верна гипотеза Н0:  12   22  ...   n2 (отсутствие гетероскедастично-
сти), то величина имеет распределение 2(N – 1), где N – количество ре-
грессоров во второй модели.
При наличии гетероскедастичности рассчитываются состоятельные
(робастные к гетероскедастичности) стандартные ошибки в форме
Вайта, которые не устраняют гетероскедастичность, но корректируют
значения стандартных ошибок оценок коэффициентов. В результате мож-
но сформулировать правильные выводы о значимости оценок коэффици-
ентов.

При оценке качества множественной линейной регрессии необхо-


димо обратить внимание на следующие моменты.
2.1.5. Оценка значимости коэффициентов регрессии
Необходимо для каждого коэффициента провести проверку.
Шаг 1. Выдвинуть две гипотезы:
H0:  i  0 , незначимый;
H1: βi ≠ 0, значимый.

8
Шаг 2. Задать уровень значимости   (0,1) .
Шаг 3. Рассчитать стандартные ошибки оценок коэффициентов S ̂ i
.
Шаг 4. Рассчитать величину t-статистику Стьюдента из предположения,
что выполняется гипотеза H0.
Шаг 5. По таблице распределения Стьюдента определить критическое
значение t-статистики (tкр) для заданного уровня значимости  и числа сте-
пеней свободы (n – k – 1).
Шаг 6. Сравнить расчетное t  1 и критическое tкр значения t-статистики.
Если | t  1 | t кр , то гипотеза H0 принимается, делается вывод, что с веро-
ятностью q=1–α коэффициент βi = 0, т. е. является незначимым. Необхо-
димо перестроить модель без переменной с незначимым коэффициентом,
так как нет связи между y и xi.
Если | t  1 | t кр , то гипотеза H0 отвергается, принимается гипотеза H1,
делается вывод, что с вероятностью q=1–α коэффициент βi ≠ 0, т. е. явля-
ется значимым. Можно оставлять в модели переменную хi, так как суще-
ствует связь между yt и xi.
2.1.6. Доверительные интервалы коэффициентов показывают, что
истинное значение параметра с вероятностью (1 –  ) находится в преде-
лах:
 
 i  ˆi  t кр    i ; ˆi  t кр    i . (2.7)
Чем меньше доверительный интервал относительно коэффициента, тем
точнее полученная оценка коэффициента.
2.1.7. Коэффициент детерминации R 2 (формула (1.10)) показывает,
насколько близко построенная модель описывает реальные данные (каче-
ство подгонки модели). Чем ближе R 2 к единице, тем в большей степени
изменения переменной уt объясняются построенным уравнением. Тогда
(1  R 2 ) – это изменения yt, вызванные неучтенными в модели факторами.
Недостаток. Значение коэффициента детерминации R повышается, ес-
2

ли число независимых переменных возрастает, независимо от «ценности»


вклада дополнительной переменной.
2.1.8. Скорректированный коэффициент детерминации (adjusted
2
R ) исключает влияние количества переменных на величину R 2 :
n
 ( yt  yˆt )
2
n  1 t 1
2
Radj 1  , (2.8)
n  k  1 n ( y  y )2
 t t
t 1

9
Добавление новой независимой переменной в модель множественной
2
регрессии (2.1) приведет к увеличению Radj , только если переменная зна-
чимо улучшает уравнение.
2
Свойства Radj :
– Radj  R ;
2 2

n 1
– Radj  1   (1  R 2 ) ;
2
n  k 1
– Radj  1 , может быть меньше нуля;
2

– Можно использовать для сравнения моделей с разным числом незави-


симых переменных.
На практике, даже модель плохого качества может дать высокое значе-
2
ние Radj . Поэтому необходимо проверять и другие показатели.
2.1.9. Средняя абсолютная процентная ошибка (ошибка аппрокси-
мации) показывает на сколько процентов в среднем отличаются фактиче-

ские значения уt от расчетных yt , формула (1.11). Если MAPE ≤ 10 %, то
качество подгонки модели к данным считается хорошим.
2.1.10. Стандартная ошибка модели регрессии показывает, на сколь-

ко в среднем отличаются фактические значения уt от расчетных yt :
n
  yt  yˆ t 2
  t 1 . (2.9)
n  k 1
Замечание. Значения в однотипных моделях с разным числом наблюде-
ний и (или) переменных сравнимы.
2.1.11. Значимость модели регрессии в целом оценивается с помо-
щью F-критерия Фишера (формула (1.13)). Проверяется гипотеза о том, что
все коэффициенты модели при независимых переменных равны нулю:
H 0 : 1   2  ...   k  0 , следовательно, переменные модели не оказыва-
ют никакого влияния на зависимую переменную. В этом случае модель не
имеет смысла.
Альтернативная гипотеза состоит в том, что существует хотя бы один
коэффициент, отличный от нуля:
H1:  βi ≠ 0, т. е. модель в целом значима.
Если F  Fкр , то гипотеза H0 принимается, делается вывод, что с веро-
ятностью q = 1 – α, уравнение модели в целом незначимо.
Если F  Fкр , то гипотеза H0 отвергается, принимается гипотеза H1 и
делается вывод, что уравнение модели в целом значимо.
10
2.1.12. Экономическая интерпретация параметров модели множе-
ственной линейной регрессии после построения модели со значимыми
коэффициентами:
̂ i – коэффициент регрессии, который показывает абсолютную силу
связи yt с i-ой независимой переменной xit: на сколько единиц в среднем
изменится зависимая переменная yt при изменении независимой перемен-
ной xit на 1 единицу.
При анализе выявленной линейной зависимости рассчитывают также
коэффициенты эластичности, которые показывают относительную силу
связи: на сколько процентов в среднем изменится зависимая переменная yt
при изменении независимой переменной xit, t  1, n на 1 процент:
x
Э x  ˆi  i , i  1, k . (2.10)
i y

2.2. Подготовка данных для моделирования


Необходимо сформировать вертикальную таблицу на отдельном листе
Excel, в первой строке указать названия переменных на английском
языке, ниже – числовые данные. В первом столбце, при необходимости,
можно указать названия наблюдений на русском или английском языке.
Дать листу имя ЛАТИНСКИМИ БУКВАМИ (рис. 2.1).

Рис. 2.1. Данные для анализа и моделирования

На данном листе НЕ должно быть посторонних объектов (графиков,


рисунков, формул и т. п.), только таблица! Сохранить файл под именем
Практика2_ФИО студента.xls.
Необходимо проверить, что данные имеют одинаковые единицы изме-
рения, методики сбора и расчета. Не допустимы пропуски в наблюдениях и
символы.
На рис. 2.1 показан пример данных о производительности труда по ре-
гионам PФ в 2017 г. и факторов, влияющих на производительность. В таб-
лице 2.1. представлены пояснения переменных.
11
Таблица 2.1
Переменные модели множественной линейной регрессии
Название Обозна- Единица
Пояснение
переменной чение измерения
Reg – Название региона –
тыс. руб. /
Pr17 y Производительность региона в 2017 г.
чел.
PLifeQlty x1 Качество жизни населения %
Характер экономической деятельности регио-
EcnAct x2 –
нов: 1 – промышленный, 0 – нет
EmplAll x3 Среднегодовая численность занятых в регионе
чел. на
AblAll x4 Население в трудоспособном возрасте
10 000 все-
Численность работников органов исполнитель-
го населе-
ExAll x5 ной власти субъектов РФ и органов местного
ния
самоуправления
Среднемесячная номинальная начисленная за-
AvWage17 x6 работная плата работников организаций руб.
в 2017 г.
Выбросы загрязняющих веществ в атмосферный
AEm x7 тыс. тонн
воздух, отходящих от стационарных источников
Сброс загрязненных сточных вод в поверхност-
WEm x8 млн. куб. м
ные водные объекты

2.3. Загрузка данных в пакет Gretl


Запуск приложения осуществляется двойным щелчком мыши по иконке
Gretl на рабочем столе, либо через главное меню Пуск / Gretl.
Файл / Открыть / Пользовательские (рис. 1.3). Далее найти папку,
задать расширение файла *.xls справа внизу, выделить файл с данными,
нажать Открыть.
Выделить имя листа с данными, задать ячейку (обычно А1), с которой
вниз и вправо расположены данные для анализа и нажать ОК (рис. 1.4).
Далее Gretl запросит тип данных для загрузки соответствующих мето-
дов и функций. Можно сразу при открытии данных нажать Нет, чтобы со-
хранить пространственную структуру (рис. 1.5а, 2.2) ИЛИ в окне «Струк-
тура данных» (рис. 1.5б) выбрать пространственный (перекрестный) тип
данных. Это совокупность характеристик объектов, полученных на опре-
деленный период (момент) времени.
Загруженные переменные будет видно списком в главном окне
(рис. 2.2). Для просмотра содержимого надо щелкнуть правой кнопкой
мыши по имени переменной и выбрать «Показать значения».

12
Рис. 2.2. Главное окно Gretl

Для сохранения загруженных данных в рабочем файле Gretl (*.gdt)


Выбрать Файл/Сохранить как и в своей рабочей папке задать имя как
Данные_Пр2_ФИО.gdt.

2.4. Предварительный графический анализ данных


До моделирования необходимо проанализировать собранные данные –
построить поле корреляции уt от каждой переменной xt, выбрав в меню
Вид / График / Разброс XY. В появившемся окне задать переменные для
осей (зависимая переменная – ось yt, одна из независимых переменных хit–
ось x), как на рис. 1.9.
Далее показаны зависимости производительности региона от
среднегодовой численности занятых в регионе (рис. 2.3а) и от качества
жизни населения (рис. 2.3б). Выбросами можно считать верхние точки для
Мурманской и Ленинградской областей, координаты которых можно
узнать, если подвести к точкам мышку. Часто выбросы на разных графиках
соответствуют одинаковым наблюдениям из таблицы.
При обнаружении очень больших или очень маленьких значений на
графике, надо:
– способ 1 – вернуться в таблицу Excel и удалить наблюдения,
соответствующие выбросам (всю строку), сохранить файл Excel и
загрузить в пакет Gretl еще раз.
– способ 2 – ограничить выборку в пакете Gretl, выбрав в меню
Выборка / Изменить на основе критерия и в появившемся окне задать
ограничение на переменную формулой, например: Pr17 < 1150.

13
а) б)
Рис. 2.3. Поле корреляции

2.5. Проверка на мультиколлинеарность


(нарушение предпосылки 2 теоремы Гаусса-Маркова)
Для проверки тесноты линейной связи между переменными надо вы-
брать в меню Вид /
Корреляционная мат-
рица, далее в открыв-
шемся окне «Корреля-
ция» добавить две или
более переменных, для
которых ведется анализ,
и нажать ОК (рис. 2.4).
Первой желательно по-
ставить зависимую пе-
ременную (yt).
В результате появит-
ся окно с матрицей кор-
реляции, состоящей из
коэффициентов корре-
ляции для каждой пары
переменных (рис. 2.5).

Рис. 2.4. Окно для построения матрицы корреляции


14
Рис. 2.5. Матрица корреляции

Корреляционный анализ матрицы на рис. 2.5 показывает, что


наблюдаеся тесная прямая зависимость между вбросами загрязняющих
веществ в атмосферу (AEm) и в воду (WEm), так как коэффициент
корреляции для данных переменных r(AEm; WEm) = 0,7682 > 0,7. В
модель множественной регресси можно включать только одну из
указанных переменных, чтобы избежать явление мультиколлинеарности.
Для выбора, какую переменную включить, в первую очередь
основываются на важности переменной для исследования и для
формулирования выводов.
Во вторую очередь обращают внимание на степень связи между
зависимой переменной (Pr17) и анализируемыми переменными (AEm;
WEm). На рис. 2.5 коэффициенты корреляции с зависимой переменной
равны соотвественно r(Pr17; AEm) = 0,5757 и r(Pr17; WEm) = 0,5062.
Сильнее с производительностью связаны выбросы в атмосферу (AEm),
следовательно данную перемнную надо включить в модель, а выбросы в
воду (WEm) не включать в модель.

2.6. Построение модели множественной линейной регрессии в Gretl


Для построения модели множественной линейной регрессии
необходимо иметь три или больше рядов выборочных данных,
характеризующих значения зависимой и независимой переменных.
Выбрать в меню Модель / Метод наименьших квадратов… В по-
явившемся окне «Спецификация модели» в поля «Зависимая переменная»
и «Регрессоры» переносятся соответствующие переменные. На рис. 2.6
приведен пример построения модели зависимости Pr17 (зависимая пере-
менная) от PLifeQlty, EcnAct, EmplAll, AblAll, ExAll, AvWage17, AEm
15
(независимые переменные). Обратите внимание, что переменная AEm
включена в список регрессоров, а переменная WEm нет.
В результате оценки появится окно Модель (рис. 2.7).

Рис. 2.6. Окно спецификации модели для оценки параметров


множественной линейной регрессии

Рис. 2.7. Окно модели множественной линейной регрессии

16
Дополнительно на мультиколлинеарность можно проверить методом
инфляционных факторов. Для этого в окне Модель необходимо выбрать
Тесты / Мультиколлинеарность (см. верхнюю строку меню рис. 2.7). В
появившемся окне Мультиколлинеарность будет рассчитан коэффициент
VIF (рис. 2.8), характеризующий силу мультиколлинераности. Все значе-
ния коэффициента VIF < 10, что говорит об отсутствии мультиколлинеар-
ности.

Рис. 2.8. Расчет коэффициента VIF для каждой независимой переменной

По столбцу P-значения (см. рис. 2.7) можно сделать вывод о том, что
константа и коэффициенты при перемнных EcnAct, EmplAll, AblAll, ExAll
не значимы c вероятностью 90 %. Так как P-значения в соответствующих
переменным строкам > 0,1 (PEcnAct = 0,67; PEmplAll = 0,75; PAblAll = 0,12; PExAll
= 0,16). Необходима корректировка модели.
Однако, в первую очередь надо проверить модель на наличие
гетоскедастичности в остатках, что может искажать выводы о значимости
коэффциентов.

2.7. Проверка на гетероскедастичность


(нарушение предпосылки 4 теоремы Гаусса-Маркова)
В окне Модель (см. рис. 2.7) выбрать Тесты / Гетероскедастичность /
Тест Вайта (или другой тест). Появившееся окно LM-теста можно за-
крыть, а внизу окна с моделью появятся результаты (рис. 2.9)

Рис. 2.9. Результаты теста Вайта для модели на рис. 2.7.

Для примера на рис. 2.9 P-значение = 0,6989, что больше 0,05,


17
следовательно, гипотеза H0 принимается, гетероскедастичность
отсутствует. Значения в столбцах Ст. ошибка, t-статистика и P-значение
можно использовать для выводов о значимости коэффициентов.
В противном случае, если P-значение = P (Хи-квадрат) теста будет
меньше 0,05, то гипотеза о гомоскедастичности отвергается (принимается
гетероскедастичность) на уровне значимости 5 %.
В окне модели (на рис. 2.7) надо выбрать Правка / Изменить модель и
поставить галочку напротив «Робастные стандартные ошибки». Далее
появится новое окно Модель, где коэффициенты будут такие же, а значе-
ния в столбцах Ст. ошибка, t-статистика и P-значение будут
скорректированы и их можно использовать для выводов о значимости
коэффициентов.
Замечание. При анализе реальных данных гетероскедастичность
присутсвует практически всегда, поэтому галочку напротив фразы
«Робастные стандартные ошибки» можно ставить сразу. Робастные
стандартные ошибки не устраняяют гетероскедастичность, но позволяют
исправить ее негативные последсвия – правиль рассчитать t-статистики.

2.8. Анализ значимости коэффициентов и качества модели в целом


По данным рис. 2.7 подставим значения из столбца Коэффициент в
формулу множественной линейной регрессии (2.1), модель регрессии бу-
дет выглядеть следующим образом:

Pr17 = 490,673 + 8,600·PLifeQlty + 15,884·EcnAct – 0,015·EmplAct –


– 0,177·AblAll +1,761·ExAll + 0,026·AvWage + 0,190 AEm.

Для сохранения результатов оценки в текущей сессии выберите в окне


Модель меню Файл / Сохранить в текущей сессии. Потом сессию тоже
надо сохранить.
2.8.1. Проанализируем значимость коэффициента β2 при переменной
«Экономическая активность региона» (EcnAct) на рис. 2.7 с помощью t-
статистики Стьюдента
Шаг 1. Выдвигаем две гипотезы:
H0: истинный коэффициент β2 = 0, т. е. незначимый;
H1: предполагает, что истинный коэффициент β2 ≠ 0, т. е. значимый.
Шаг 2. Уровень значимости принимаем 0,05 (уровень доверия
q=1   = 95 %);
Шаг 3. t-статистика Стьюдента из предположения, что выполняется ги-
потеза H0 равна (см. рис. 2.7, столбец t-статистика, строка 3):
t β2 = 0,423;
Шаг 4. Критическое значение t-статистики можно определить по таб-
лице Стьюдента (приложение 4) для уровня значимости =0,05 и числа
18
степеней свободы (n – k – 1=56 наблюдений – 7 независимых переменных–
1= 48). На пересечении строки с номером 48 и столбца =0,05 получаем,
что tкр≈2.
Точное критическое значение t-статистки можно найти, выбрав в
ГЛАВНОМ меню Gretl Инструменты / Критические значения. В по-
явившемся окне открыть вкладку Стьюдента. Далее задать (рис. 2.10а):
– Степени свободы: 48;
– Правосторонняя вероятность: 0,025 (половина от величины α = 5 %,
представленной в долях единицы).
В результате tкр(5 %; 48) = 2,01063 (рис. 2.10б).

а)

б)
Рис. 2.10. Выбор критического значения t-статистики

Шаг 5.
tβ2 < tкр (0,423 < 2,01063), следовательно, гипотеза H0 принимается, с ве-
роятностью q = 1 – α = 95 % истинный коэффициент β2 = 0, т. е. является
незначимым. Переменную EcnAct при этом коэффициенте надо удалять из
модели, так как Экономическая активность региона не оказывает значи-
мого влияния на производительность (Pr17).
Аналогичным образом проверяется значимость остальных коэффици-
ентов и принимается решение о ПОШАГОВОМ удалении незначимых пе-
ременных из модели.
2.8.2. В первую очередь удаляются переменные с самым большим P-
значением. Это переменные Среднегодовая численность занятых в реги-
оне (EmplAll) и Экономическая активность региона (EcnAct), так как зна-
чения PEmplAll = 0,754 и PEcnAct = 0,674 (см. рис. 2.7).
19
В окне модели выбрать Правка / Изменить модель и убрать из списка
регрессоров EmplAll и EcnAct (рис. 2.11). Тест Вайта выбран в меню новой
модели еще раз (Тесты / Гетероскедастичность / Тест Вайта), результаты
теста подтверждают отсутствие гетероскедастичности (P-значение теста =
0,7626, что больше 0,05).

Рис. 2.11. Окно скорректированной модели


множественной линейной регрессии

2.8.3. Сравним модели на рис. 2.7 и 2.11. Значения коэффициентов из-


менились. Обратите внимание, что после удаления двух переменных с
большими P-значениями для коэффициентов, переменная Население в
трудоспособном возрасте (AblAll) стала значимой с вероятностью 90 %
(PAblAll = 0,096, что меньше 0,1).
2.8.4. Значение скорректированного (исправленного) R2 после удале-
ния незначимых переменных выросло и составило R2adj = 0,784, что под-
тверждает правильность корректировки модели.
2.8.5. На рис. 2.11 только одна незначимая переменная Численность
работников органов исполнительной власти (ExAll), которую надо уда-
лить из модели. Итоговая модель со значимыми коэффициентами при не-
зависимых переменных представлена на рис. 2.12.

20
Рис. 2.12. Итоговая модель множественной линейной регрессии

Запишем итоговую модель (рис. 2.12):


Pr17 = 822,760 + 7,260·PLifeQlty – 0,226·AblAll +
+ 0,027·AvWage + 0,174·AEm.
2.8.6. Модель описывает 80,3 % изменений производительности регио-
на (R2 = 0,803). Оставшиеся 19,7 % – это не учтенные в модели факторы.
Качество модели хорошее.
Значение скорректированного (исправленного) R2 после удаления
незначимых переменных выросло и составило R2adj = 0,788 по сравнению с
моделью на рис. 2.11, что подтверждает правильность корректировки. Од-
нако несколько снизилось после удаления из модели переменной ExAll,
которая объясняла часть изменений Pr17.
2.8.7. В поле F(k, n-k-1) указывается значение F-критерия Фишера
для уравнения регрессии. Значимость уравнения регрессии определяется
путем сравнения с табличным (критическим) значением F-критерия Фише-
ра для выбранного уровня значимости.
Например, на рис. 2.12 расчетное значение равно: F(4;51)=52.
По таблице Фишера (приложение 5) критическое значение равно
Fкр(4;51)≈3.
Точное критическое значение F-критерия Фишера можно найти, выбрав
в ГЛАВНОМ меню Gretl Инструменты / Критические значения. В по-
21
явившемся окне открыть вкладку Фишера. Далее задать (рис. 2.13а):
– Степени свободы: k=4 независимые переменные в модели
n – k – 1 = 56 – 4 – 1 = 51;
– Правосторонняя вероятность: 0,025.
В результате Fкр(5 %; 4; 51) = 3,049 (рис. 2.13б)

а)

б)
Рис. 2.13. Критические значения F-критерия Фишера

F  Fкр , следовательно, гипотеза H0 отвергается, принимается гипотеза


H1 и делается вывод, что с вероятностью q хотя бы один коэффициент в
модели значим (отличен от нуля), следовательно, уравнение в целом значи-
мо.
В поле Р-значение (F) приводится вероятность того, что гипотеза о не-
значимости уравнения верна (рис. 2.12). При проверке значимости уравне-
ния регрессии Р-значение (F) сравнивается с уровнем значимости  :
Р-значение (F) < 0,01, уравнение значимо на уровне значимости
 = 0,01 (на уровне доверия 99 %).
2.8.8. Стандартная ошибка регрессии σ (поле Ст. ошибка модели) может
сравниваться со средним значением зависимой переменной в поле Среднее
зав. перемен. Чем меньше σ по отношению к среднему значению зависи-
мой переменной, тем лучше качество модели.
8.9. Для определения средней абсолютной процентной ошибки необ-
ходимо в окне Модель (рис. 2.12) выбрать в меню Анализ / Наблюдаемые
и расчетные значения, в появившемся окне под наблюдаемыми и расчет-
ными данными приведена статистика для оценки качества прогноза
(рис. 2.14) с рассчитанным значением средней абсолютной процентной
ошибки. MAPE = 10,591 %, что незначительно превышает 10 % и говорит
об приемлемом качестве подгонки уравнения к выборочным данным.
22
Рис. 2.14. Расчет средней абсолютной процентной ошибки

2.8.10. Чтобы проверить качество построенного уравнения регрессии,


можно также провести анализ фактических, теоретических значений зави-
симой переменной и остатков регрессии. Для этого в окне Модель (рис.
2.12) необходимо выбрать в меню:
Графики / График наблюдаемых и расчетных значений / По номеру
наблюдения (рис. 2.15), либо
Графики / График остатков / По номеру наблюдения.
Качество уравнения считается хорошим, если графики фактических и
прогнозных значений (рис. 2.15) близки, а значения на графике остатков
невелики относительно значений зависимой переменной.

Рис. 2.15. График фактических и прогнозных значений

23
2.9. Экономическая интерпретация построенной модели множе-
ственной линейной регрессии
Pr17 = 822,760 + 7,260·PLifeQlty – 0,226·AblAll +
+ 0,027·AvWage + 0,174·AEm.
На производительность оказывают значимое влияние следующие пока-
затели:
– AblAll, при увеличении Численности населения в трудоспособном
возрасте на 10 человек, Производительность региона в среднем снизится
на 2,226 тыс. руб. / чел;
– AvWage17, при увеличении Среднемесячной номинальная начислен-
ная заработной платы работников организаций на 100 руб. Производи-
тельность региона в среднем увеличится на 2,70 тыс. руб. / чел.;
– AEm, при увеличении Выбросов загрязняющих веществ в атмосфер-
ный воздух на 10 000 тонн, Производительность региона в среднем увели-
чится на 1740 руб. / чел.
– PLifeQlty, при увеличении Качества жизни на 1 % Производитель-
ность региона в среднем увеличится на 7,260 тыс. руб. / чел.;
Выводы по коэффициентам дополняются следующими показателями:
– Коэффициенты эластичности;
– Доверительные интервалы коэффициентов на 95% уровне доверия
строятся с помощью меню Анализ / Доверительные интервалы для ко-
эффициентов.
Все создаваемые модели надо сохранять в текущей сессии и затем

просматривать и / или редактировать в окне «Значки» ,


расположенного внизу главного окна Gretl.
Для сохранения результатов анализа и моделирования, выбрать Файл /
Сессии / Сохранить сессии, выбрать рабочую папку, задать имя
Сессия_Пр2_ФИО.

2.10. Задание по практической работе № 2


Исследовать влияние факторов на зависимую переменную путем по-
строения модели множественной линейной регрессии. Исходные данные
соответствуют Вашему варианту и выдаются преподавателем.
1. Проведите анализ данных и подготовьте выборку к эконометриче-
скому моделированию.
2. Постройте матрицу корреляции и проверьте на мультиколлинеар-
ность. Обоснуйте, какие переменные не будут включены в модель.
3. Выполните следующие действия для построения модели множе-
ственной линейной регрессии:
1) по исходным данным найдите оценки коэффициентов модели ре-
грессии, используя МНК;

24
2) оцените качество построенной модели (значимы ли параметры ре-
грессии, значимо ли уравнение в целом, оцените качество подгонки к вы-
борочным данным по коэффициенту детерминации и средней абсолютной
процентной ошибке);
3) найдите значение коэффициента VIF, сделайте выводы о мульти-
коллинеарности;
4) проведите тест на гетероскедастичность и при необходимости скор-
ректируйте, введите робастные стандартные ошибки;
5) скорректируйте модель, удаляя по одной незначимые переменные и
каждый раз анализируя значимость коэффициентов и другие параметры;
6) запишите итоговое уравнение модели множественной регрессии;
7) дайте экономическую интерпретацию коэффициентов;
8) постройте доверительные интервалы для коэффициентов на уровне
значимости 5%;
9) найдите коэффициенты эластичности для каждой переменной.
4. Сохраните модели в сессии, далее сохраните сессию и рабочий файл
в вашем разделе под именем Пр2_ФИО.gdt.
5. Оформите основные шаги в отчете о проделанной работе.

2.11. Содержание отчета по практической работе № 2


Тема практической работы: МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ
РЕГРЕССИЯ.
Цель работы: построить модель множественной линейной регрессии,
оценить качество.
Для модели подробно описать следующие шаги с выводами и поясне-
ниями, основные итоги занести в таблицу 2.2, выбрать, какая модель луч-
ше: парная линейная (работа 1) или множественная линейная (работа 2).
1. Проверка на мультиколлинеарность:
1.1. Матрица корреляции, корреляционный анализ (пояснение умерен-
ных и тесных связей):
1.2. Вывод, какие переменные можно включать в модель.
2. Первое уравнение множественной линейной регрессии, возможно с
незначимыми коэффициентами:
yˆt  ˆ0  ˆ1x1t  ˆ2 x2t  ...  ˆk xkt .
3. Тест на мультиколлинеарность с записью всех VIF-коэффициентов.
Вывод о наличии или отсутствии мультиколлинераности.
4. Тест Вайта на гетероскедастичность. Вывод о наличии или отсут-
ствии гетероскедастичности. Включение робастных стандартных ошибок
при необходимости.
5. Анализ значимости коэффициентов 0 , 1,  2 , ...,  k :
5.1. t-статистки Стьюдента с выдвижением гипотез;
5.2. Р-значения коэффициентов (***, **, *);
25
6. Исключение регрессоров с незначимыми коэффициентами по одно-
му, посторенние итоговой модели множественной линейной регрессии
со значимыми коэффициентами при переменных xit:
yˆt  ˆ0  ˆ1x1t  ˆ2 x2t  ....
7. Тест Вайта на гетероскедастичность. Вывод о наличии или отсут-
ствии гетероскедастичности в итоговом уравнении. Включение робастных
стандартных ошибок при необходимости.
8. Анализ значимости коэффициентов 0 , 1,  2 , ...,  k :
8.1. t-статистки Стьюдента с выдвижением гипотез;
8.2. Р-значения коэффициентов (***, **, *);
8.3. Доверительные интервалы.
9. Качество уравнения:
9.1. Сравнение по скорректированному коэффициенту детерминации
2
Radj первой и итоговой моделей.
9.2. Вывод по коэффициент детерминации, R 2 ;
9.3. F-критерий Фишера;
9.4. Средняя абсолютная процентная ошибка, MAPE.
10. График фактических и расчетных значений.
11. Интерпретация коэффициентов линейного уравнения.
12. Интерпретация коэффициентов эластичности.
Таблица 2.2
Сравнение парной и множественной линейных регрессионных моделей

Модель Парная линейная Множественная линейная


Линейное итоговое уравнение
Интерпретация коэффициентов
линейного уравнения
Интерпретация коэффициентов
эластичности
Значимость коэффициентов
по t-статистике и по P-значению
Коэффициент детерминации, R2
Скорректированный коэффициент
2
детерминации Radj
Средняя абсолютная процентная
ошибка, MAPE
График фактических и расчетных
значений

26
2.12. Вопросы для самоконтроля
1. Чем отличается модель множественной линейной регрессии от пар-
ной линейной регрессии?
2. Запишите модель множественной линейно регрессии в матричном
виде.
3. Каковы основные предположения относительно модели множе-
ственной линейной регрессии?
4. Что утверждает теорема Гаусса-Маркова?
5. Каковы свойства оценок множественной линейной регрессии при
выполнении условий теоремы Гаусса-Маркова?
6. Как проверяется значимость параметров регрессии?
7. Как построить доверительный интервал для параметра регрессии?
8. Что показывает коэффициент детерминации для множественной ли-
нейной регрессии?
9. Как рассчитывается скорректированный коэффициент детермина-
ции?
10.Каковы свойства скорректированного коэффициента детерминации?
11.Как можно использовать скорректированный коэффициент детерми-
нации (наряду с обычным коэффициентом детерминации) при выполнении
регрессионного анализа?
12.Как проверяется значимость уравнения регрессии в целом?
13.Как рассчитать эластичность для факторов линейной модели регрес-
сии?
14.Что такое мультиколлинеарность? Каковы ее последствия?
15.Как избавиться от мультиколлинеарности?
16.Что такое гетероскедастичность? Каковы ее последствия?
17.Что изменится в модели при коррекции на гетероскедастичность?
18.Какие переменные называются фиктивными? Какие значения они
принимают?
19.Как интерпретируются параметры при фиктивных переменных?

27

You might also like