Professional Documents
Culture Documents
МУ к практике 3 Множественная регрессия Gretl
МУ к практике 3 Множественная регрессия Gretl
План работы:
2.1. Основные положения теории;
2.2. Подготовка данных для моделирования;
2.3. Загрузка данных в пакет Gretl;
2.4. Предварительный графический анализ данных;
2.5. Проверка на мультиколлинеарность;
2.6. Построение модели множественной линейной регрессии в Gretl;
2.7. Проверка на гетероскедастичность;
2.8. Анализ значимости коэффициентов и качества модели в целом;
2.9. Экономическая интерпретация параметров модели;
2.10. Задание по практической работе № 2;
2.11. Содержание отчета по практической работе № 2;
2.12. Вопросы для самоконтроля.
3
n n 2
t 1
t
2
t 1
yt ˆ0 ˆ1 x1t ˆ 2 x2t ... ˆ k xkt
(2.2)
min
0 , 1 ,..., k
.
Оптимальные значения параметров ˆ0 , ˆ1, ˆ2 ,...,ˆk являются оценка-
ми, приближенными значениями истинных (неизвестных нам) параметров
0, 1, …βk.
Решение этой системы (оценки параметров ˆ0 , ˆ1, ˆ2 ,...,ˆk ) в матрич-
ном виде получается по формуле:
ˆ ( X T X ) 1 X T y , (2.3)
4
5). cov( t , s ) 0, t s, t , s 1, n – нет автокорреляции в остатках,
случайные компоненты распределены независимо друг от друга, т. е. не
коррелированы.
6)*. Случайные компоненты имеют нормальный закон распределения с
нулевым математическим ожиданием и дисперсией 2 : t N (0, 2 ) (что
позволяет проводить проверку значимости коэффициентов регрессии с
помощью t-статистики и F-критерия).
Теорема Гаусса-Маркова. При выполнении предпосылок 1 – 5, оценки
коэффициентов регрессии ˆ0 , ˆ1, ˆ2 ,...,ˆk , полученные МНК, являются
эффективными оценками в классе линейных несмещенных оценок или
BLUE-оценками (Best Linear Unbiased Estimator).
– Несмещенные – математическое ожидание оценок ˆi равно истинным
значениям коэффициентов регрессии i , т. е. при расчете оценок не полу-
чим систематической ошибки (выполняется предпосылка 3);
– Эффективные – дисперсия (разброс) оценок ˆi относительно истин-
ных значений i является минимальной (выполняются предпосылки 4, 5);
– Состоятельные – при увеличении числа наблюдений n оценки ˆi
приближаются к истинным значениям i (выполняются предпосылки 4, 5).
Далее показаны последствия нарушения предпосылок теоремы Гаусса-
Маркова и способы корректировки модели.
2.1.3. Проверка на мультиколлинеарность
(нарушение предпосылки 2)
Специфика метода множественной регрессии состоит в исследовании
комплексного воздействия факторов при условии их независимости друг
от друга. Независимые переменные модели x1t, x2t, …, хkt, t 1, n не должны
тесно коррелировать между собой (иметь тесную линейную связь, т. е.
дублировать друг друга). В противном случае имеет место явление муль-
тиколлинеарности и оценки коэффициентов по МНК будут некорректны-
ми:
1. Затрудняется интерпретация, оценки коэффициентов могут иметь
неверный знак и неоправданно большое значение с экономической точки
зрения (здравого смысла);
2. Ненадёжность, добавление или исключение нескольких наблюде-
ний приводит к значительному изменению оценок коэффициентов и зна-
ков.
Использование такой модели для анализа и прогнозирования невоз-
можно, точность прогноза мала.
Признаки мультиколлинеарности:
5
1. Большинство оценок коэффициентов модели незначимы (величины
t-статистик занижены из-за больших стандартных ошибок);
2. R 2 близок к 1;
3. Значение F-статистики высокое;
4. Высокие парные коэффициенты корреляции между независимыми
переменными x1, x2, …, хk.
5. значения коэффициента VIF > 10. Коэффициент VIF (variance
inflation factor) характеризует силу мультиколлинеарности. Вычисляется
на основе значений R2 во вспомогательных регрессиях одного регрессора
на другие:
xi( k ) 1 2 xi( 2) ... k 1xi( k 1) ui ,
1
VIF . (2.4)
1 R2
Для устранения мультиколлинеарности, надо провести дополнительный
анализ независимых переменных. Строится матрица корреляции:
у x1 x2 xk
y 1
x1 ryx1 1
x2 ryx 2 rx1 x2 1
. (2.5)
x3 ryx 3 rx1 x3 rx2 x3 1
... ...
... ... ... ...
xk ryx k rx1 xk rx2 xk ... 1
Каждый элемент матрицы – это коэффициент парной линейной корре-
ляции, который показывает тесноту и направление связи между перемен-
ными, и рассчитывается по формуле:
n
( xt x ) ( yt y )
t 1
rxy , (2.6)
n n
( xt x ) ( yt y )
2 2
t 1 t 1
где x, y – средние; в качестве xt, yt можно подставлять любые переменные
из уравнения (2.1).
Коэффициент корреляции изменяется в интервале 1 rxy 1 , причем
это симметричная форма связи rxy ryx , а корреляция переменной с собой
всегда равна единице ryy 1 . Чем ближе | rxy | к единице, тем теснее связь
между переменными, чем ближе rxy к нулю, тем слабее связь. Рассмотрим
значения коэффициента корреляции rxy более подробно:
6
rxy 0 – линейной связи между переменными нет, переменные не кор-
релируют;
rxy 1 – есть линейная функциональная связь, причем прямая (с увели-
чением хt увеличивается yt);
rxy 1 – есть линейная функциональная связь, причем обратная
(с увеличением хt уменьшается yt);
0,7 rxy 1 – связь сильная (тесная) прямая;
0,3 rxy 0,7 – связь умеренная прямая;
0,3 rxy 0,3 – связь слабая или отсутствует;
0,7 rxy 0,3 – связь умеренная обратная;
1 rxy 0,7 – связь сильная (тесная) обратная.
Если в матрице корреляции (2.5) (в столбцах с заголовками x1t, x2t, … xkt)
наблюдается тесная связь между независимыми переменными
0,7 | rxy | 1 , то можно сказать, что независимые переменные дублируют
друг друга. Одну из них необходимо исключить из уравнения регрессии
(2.1). В уравнении остается наиболее значимая по экономическому, здра-
вому смыслу переменная. Либо остается переменная, которая линейно
сильнее связана с зависимой переменной yt. Для выяснения тесноты связи с
зависимой переменной yt, необходимо проанализировать первый столбец y
матрицы корреляции (2.5).
Одним из способов устранения эффекта мультиколлинеарности являет-
ся метод включения-исключения переменных. При этом выполняются
следующие действия:
1. Строится регрессионная модель методом наименьших квадратов.
2. Оценивается значимость параметров регрессии.
3. Выявляется наличие зависимости между факторными признаками
путем анализа матрицы парных коэффициентов корреляции и коэффици-
ента VIF.
4. Строится новое уравнение регрессии с исключением незначимых и
части взаимно коррелирующих переменных. При этом из числа коррели-
рующих переменных в модели оставляют те, которые более соответствуют
ее экономическому содержанию, либо те, которые имеют наибольшее зна-
чение частной корреляции с зависимой переменной. При необходимости
включаются уже исключенные переменные, если этого требует экономиче-
ский смысл.
Повторяются 3-й и 4-й шаги до тех пор, пока мультиколлинеарность не
будет исключена.
7
2.1.4. Проверка на гетероскедастичность
(нарушение предпосылки 4)
Гетероскедастичность (непостоянство дисперсии ошибок) не приводит
к смещению оценок параметров модели, т. е. оценки остаются несмещен-
ными, но они будут не эффективными. Гетероскедастичность может при-
вести к заниженным значениям стандартных ошибок, получаемых обыч-
ным МНК, вследствие чего завышаются t-статистики и дается непра-
вильное (более оптимистичное) представление о точности оценок.
Гетероскедастичность остатков может быть вызвана неправильным вы-
бором модели (например, рассмотрением линейной модели в случае, когда
истинная связь между переменными носит нелинейный характер).
Для проверки модели на гетероскедастичность чаще всего используется
тест Вайта, который основан на следующем предположении: если в мо-
дели присутствует гетероскедастичность, то это может быть связано с тем,
что дисперсии ошибок зависят от регрессоров, а гетероскедастичность
должна отражаться в остатках обычной регрессии исходной модели. Не
делается предположений относительно структуры гетероскедастичности.
Для проведения теста необходимо:
– Построить обычную регрессию и получить вектор остатков
e (e1 , e2 ,..., en ) , где et yˆ t yt , представляющий отклонение расчетных (про-
гнозных) значений зависимой переменной от фактических значений;
– Построить регрессию et2 на все независимые переменные, их квадра-
ты, попарные произведения и свободный член;
– рассчитать статистику nR2.
Если верна гипотеза Н0: 12 22 ... n2 (отсутствие гетероскедастично-
сти), то величина имеет распределение 2(N – 1), где N – количество ре-
грессоров во второй модели.
При наличии гетероскедастичности рассчитываются состоятельные
(робастные к гетероскедастичности) стандартные ошибки в форме
Вайта, которые не устраняют гетероскедастичность, но корректируют
значения стандартных ошибок оценок коэффициентов. В результате мож-
но сформулировать правильные выводы о значимости оценок коэффици-
ентов.
8
Шаг 2. Задать уровень значимости (0,1) .
Шаг 3. Рассчитать стандартные ошибки оценок коэффициентов S ̂ i
.
Шаг 4. Рассчитать величину t-статистику Стьюдента из предположения,
что выполняется гипотеза H0.
Шаг 5. По таблице распределения Стьюдента определить критическое
значение t-статистики (tкр) для заданного уровня значимости и числа сте-
пеней свободы (n – k – 1).
Шаг 6. Сравнить расчетное t 1 и критическое tкр значения t-статистики.
Если | t 1 | t кр , то гипотеза H0 принимается, делается вывод, что с веро-
ятностью q=1–α коэффициент βi = 0, т. е. является незначимым. Необхо-
димо перестроить модель без переменной с незначимым коэффициентом,
так как нет связи между y и xi.
Если | t 1 | t кр , то гипотеза H0 отвергается, принимается гипотеза H1,
делается вывод, что с вероятностью q=1–α коэффициент βi ≠ 0, т. е. явля-
ется значимым. Можно оставлять в модели переменную хi, так как суще-
ствует связь между yt и xi.
2.1.6. Доверительные интервалы коэффициентов показывают, что
истинное значение параметра с вероятностью (1 – ) находится в преде-
лах:
i ˆi t кр i ; ˆi t кр i . (2.7)
Чем меньше доверительный интервал относительно коэффициента, тем
точнее полученная оценка коэффициента.
2.1.7. Коэффициент детерминации R 2 (формула (1.10)) показывает,
насколько близко построенная модель описывает реальные данные (каче-
ство подгонки модели). Чем ближе R 2 к единице, тем в большей степени
изменения переменной уt объясняются построенным уравнением. Тогда
(1 R 2 ) – это изменения yt, вызванные неучтенными в модели факторами.
Недостаток. Значение коэффициента детерминации R повышается, ес-
2
9
Добавление новой независимой переменной в модель множественной
2
регрессии (2.1) приведет к увеличению Radj , только если переменная зна-
чимо улучшает уравнение.
2
Свойства Radj :
– Radj R ;
2 2
n 1
– Radj 1 (1 R 2 ) ;
2
n k 1
– Radj 1 , может быть меньше нуля;
2
12
Рис. 2.2. Главное окно Gretl
13
а) б)
Рис. 2.3. Поле корреляции
16
Дополнительно на мультиколлинеарность можно проверить методом
инфляционных факторов. Для этого в окне Модель необходимо выбрать
Тесты / Мультиколлинеарность (см. верхнюю строку меню рис. 2.7). В
появившемся окне Мультиколлинеарность будет рассчитан коэффициент
VIF (рис. 2.8), характеризующий силу мультиколлинераности. Все значе-
ния коэффициента VIF < 10, что говорит об отсутствии мультиколлинеар-
ности.
По столбцу P-значения (см. рис. 2.7) можно сделать вывод о том, что
константа и коэффициенты при перемнных EcnAct, EmplAll, AblAll, ExAll
не значимы c вероятностью 90 %. Так как P-значения в соответствующих
переменным строкам > 0,1 (PEcnAct = 0,67; PEmplAll = 0,75; PAblAll = 0,12; PExAll
= 0,16). Необходима корректировка модели.
Однако, в первую очередь надо проверить модель на наличие
гетоскедастичности в остатках, что может искажать выводы о значимости
коэффциентов.
а)
б)
Рис. 2.10. Выбор критического значения t-статистики
Шаг 5.
tβ2 < tкр (0,423 < 2,01063), следовательно, гипотеза H0 принимается, с ве-
роятностью q = 1 – α = 95 % истинный коэффициент β2 = 0, т. е. является
незначимым. Переменную EcnAct при этом коэффициенте надо удалять из
модели, так как Экономическая активность региона не оказывает значи-
мого влияния на производительность (Pr17).
Аналогичным образом проверяется значимость остальных коэффици-
ентов и принимается решение о ПОШАГОВОМ удалении незначимых пе-
ременных из модели.
2.8.2. В первую очередь удаляются переменные с самым большим P-
значением. Это переменные Среднегодовая численность занятых в реги-
оне (EmplAll) и Экономическая активность региона (EcnAct), так как зна-
чения PEmplAll = 0,754 и PEcnAct = 0,674 (см. рис. 2.7).
19
В окне модели выбрать Правка / Изменить модель и убрать из списка
регрессоров EmplAll и EcnAct (рис. 2.11). Тест Вайта выбран в меню новой
модели еще раз (Тесты / Гетероскедастичность / Тест Вайта), результаты
теста подтверждают отсутствие гетероскедастичности (P-значение теста =
0,7626, что больше 0,05).
20
Рис. 2.12. Итоговая модель множественной линейной регрессии
а)
б)
Рис. 2.13. Критические значения F-критерия Фишера
23
2.9. Экономическая интерпретация построенной модели множе-
ственной линейной регрессии
Pr17 = 822,760 + 7,260·PLifeQlty – 0,226·AblAll +
+ 0,027·AvWage + 0,174·AEm.
На производительность оказывают значимое влияние следующие пока-
затели:
– AblAll, при увеличении Численности населения в трудоспособном
возрасте на 10 человек, Производительность региона в среднем снизится
на 2,226 тыс. руб. / чел;
– AvWage17, при увеличении Среднемесячной номинальная начислен-
ная заработной платы работников организаций на 100 руб. Производи-
тельность региона в среднем увеличится на 2,70 тыс. руб. / чел.;
– AEm, при увеличении Выбросов загрязняющих веществ в атмосфер-
ный воздух на 10 000 тонн, Производительность региона в среднем увели-
чится на 1740 руб. / чел.
– PLifeQlty, при увеличении Качества жизни на 1 % Производитель-
ность региона в среднем увеличится на 7,260 тыс. руб. / чел.;
Выводы по коэффициентам дополняются следующими показателями:
– Коэффициенты эластичности;
– Доверительные интервалы коэффициентов на 95% уровне доверия
строятся с помощью меню Анализ / Доверительные интервалы для ко-
эффициентов.
Все создаваемые модели надо сохранять в текущей сессии и затем
24
2) оцените качество построенной модели (значимы ли параметры ре-
грессии, значимо ли уравнение в целом, оцените качество подгонки к вы-
борочным данным по коэффициенту детерминации и средней абсолютной
процентной ошибке);
3) найдите значение коэффициента VIF, сделайте выводы о мульти-
коллинеарности;
4) проведите тест на гетероскедастичность и при необходимости скор-
ректируйте, введите робастные стандартные ошибки;
5) скорректируйте модель, удаляя по одной незначимые переменные и
каждый раз анализируя значимость коэффициентов и другие параметры;
6) запишите итоговое уравнение модели множественной регрессии;
7) дайте экономическую интерпретацию коэффициентов;
8) постройте доверительные интервалы для коэффициентов на уровне
значимости 5%;
9) найдите коэффициенты эластичности для каждой переменной.
4. Сохраните модели в сессии, далее сохраните сессию и рабочий файл
в вашем разделе под именем Пр2_ФИО.gdt.
5. Оформите основные шаги в отчете о проделанной работе.
26
2.12. Вопросы для самоконтроля
1. Чем отличается модель множественной линейной регрессии от пар-
ной линейной регрессии?
2. Запишите модель множественной линейно регрессии в матричном
виде.
3. Каковы основные предположения относительно модели множе-
ственной линейной регрессии?
4. Что утверждает теорема Гаусса-Маркова?
5. Каковы свойства оценок множественной линейной регрессии при
выполнении условий теоремы Гаусса-Маркова?
6. Как проверяется значимость параметров регрессии?
7. Как построить доверительный интервал для параметра регрессии?
8. Что показывает коэффициент детерминации для множественной ли-
нейной регрессии?
9. Как рассчитывается скорректированный коэффициент детермина-
ции?
10.Каковы свойства скорректированного коэффициента детерминации?
11.Как можно использовать скорректированный коэффициент детерми-
нации (наряду с обычным коэффициентом детерминации) при выполнении
регрессионного анализа?
12.Как проверяется значимость уравнения регрессии в целом?
13.Как рассчитать эластичность для факторов линейной модели регрес-
сии?
14.Что такое мультиколлинеарность? Каковы ее последствия?
15.Как избавиться от мультиколлинеарности?
16.Что такое гетероскедастичность? Каковы ее последствия?
17.Что изменится в модели при коррекции на гетероскедастичность?
18.Какие переменные называются фиктивными? Какие значения они
принимают?
19.Как интерпретируются параметры при фиктивных переменных?
27