You are on page 1of 3

Частина 1.

Лабораторнi роботи до курсу Регресiйний аналiз


1. Загальнi вiдомостi
Даний документ мiстить iнформацiю щодо лабораторної роботи №1 з алгоритмiв
машинного навчання. Всього передбачено 12 варiантiв. Ваш варiант вiдповiдає Ва-
шому номеру у списку з журналу (якщо Ваш номер бiльше 12, то вiднiмiть вiд
Вашого номера 12).
Разом з цим документом надiслано архiв що мiстить .csv, файли з даними, якi
слiд аналiзувати, кожному варiанту вiдповiдає один файл. У кожному варiантi бу-
де вказана змiнна - вiдгук, а також змiннi - регресори. Пояснення до даних можна
знайти у файлi DataDescriptions.pdf. Самi данi взятi з сайту
http://instruction.bus.wisc.edu/jfrees/jfreesbooks/Regression%20Modeling/BookWebDec2010/data.html,
що вiдповiдає книзi: Edward W.: Regression Modeling with Actuarial and Financial
Applications.
Для проведення регресiйного аналiзу потрбiно зробити наступне:
1) Побудувати ОНК, зробити висновки, щодо якостi моделi та ОНК.
2) Спробувати покращити оцiнку, шляхом використання гребеневої регресiї.
3) Спробуйте покращити оцiнку додавши у модель нелiнiйнiсть.
4) З’ясуйте чи можна зменшити кiлькiсть регресорiв без суттєвої шкоди для мо-
делi.
Також пропонується додаткове завдання 5. Завдання 5 є опцiональним i викону-
ється за бажанням студента.
5) Напишiть функцiю, що примає число N , а також величини βi , i = 0 : 3 як
параметри. Функцiя повинна згенерувати три регресора Xi , i = 1, 3 зi стандартним
нормальним розподiлом, а також похибку з розподiлом N(0, 0.1) розмiрностi N . Фун-
кцiя повинна повернути дата фрейм з колонкою Y = β0 + β1 X1 + β2 X2 + β3 X3 + ε,
а також колонками X1 , X2 , X3 . Пiсля цього обчислiть ОНК використовуючи без-
посереднью формулу, бiблiотечну функцiю або за допомогою власної iмплементацiї
методу градiєнтного спуску (теж оформленого в окрему функцiю). Для рiзних зна-
чень параметра N занотуйте час який потрiбен для обчислення ОНК кожним iз
трьох методiв. Знайдiть таке N при якому один iз методiв буде працювати вiдчутно
повiльнiше. Для чистоти експерименту проведiть його 10 разiв для кожного N .

2. Вимоги до виконання, оформлення та здачi


Роботу можна виконувати в R або Python. Вибiрку слiд розбити на тестову та
тренувальну у пропорцiх 20% та 80%.
Робота має бути оформлена у виглядi .pdf (можливо .doc/.docx) файлу який мi-
стить всю необхiдну iнформацiю. Роботи потрiбно здавати на парах або надсилати
на email.
Робота повинна мiстити код, та його iнтерпритацiю. Обов’язково має бути вказа-
но:
1. ОНК, наявнiсть кореляцiй мiж регресорами, якiсть ОНК (її дисперсiя, якiсть
прогнозування, наведена дiаграма залишкiв, коефiцiєнт детермiнацiї та результати
тесту Фiшера).
2. Пiдбiр параметра λ, покращення (чи вiдсутнiсть покращення) якостi прогнозу,
зменшення дисперсiї.
3. Висновок щодо ефективностi нелiнiйної моделi.
4. Метод що використовувася для оптимального вiдбору, та досягнутi результати.

1
2

Кожна робота буде розглядатися на вiдповiднiсть критерiям описаним вище, та на


обгрунтованiсть прийнятих рiшень. Кожен студент, повинен виконати свою роботу
самостiйно. Iдентичнi, або майже iдентичнi роботи прийматися до уваги не будуть.

3. Варiанти
Варiант 1
Файл з даними: Chicago.csv
Вiдгук: theft
Регресори: Всi окрiм zipcode

Варiант 2
Файл з даними: CeoCompensation.csv
Вiдгук: COMP
Регресори: TENURE, EXPER, SALES, VAL, PCNTOWN, PROF

Варiант 3
Файл з даними: HealthExpend.csv
Вiдгук: EXPENDOP
Регресори: AGE,famsize,COUNTIP,COUNTOP,EXPENDIP

Варiант 4
Файл з даними: NAICExpense.csv
Вiдгук: EXPENSES
Регресори: RBC, STAFFWAGE, AGENTWAGE, LONGLOSS, SHORTLOSS

Варiант 5
Файл з даними: NAICExpense.csv
Вiдгук: EXPENSES
Регресори: GPWPERSONAL, GPWCOMM, ASSETS, CASH, LIQUIDRATIO

Варiант 6
Файл з даними: HospitalCosts.csv
Вiдгук: TOTCHG
Регресори: AGE, LOS, APRDRG

Варiант 7
Файл з даними: RiskSurvey.csv
Вiдгук: FIRMCOST
Регресори: ASSUME, SIZELOG, INDCOST, CENTRAL, SOPH

Варiант 8
Файл з даними: UNLifeExpectancy.csv
Вiдгук: LIFEEXP
Регресори: ILLITERATE POP FERTILITY PRIVATEHEALTH HEALTHEXPEND BIRTHATTEND
PHYSICIAN GDP
Коментар: В даному файлi деякi данi пропущенi. Запропонуйте варiант розв’язання
цiєї проблеми.

Варiант 9
Файл з даними: WiscHospCosts.csv
Вiдгук: TOT_CHG
3

Регресори: NO_DSCHG POPLN NUM_BEDS INCOME CHG_NUM

Варiант 10
Файл з даними: WiscLottery.csv
Вiдгук: SALES
Регресори: PERPERHH MEDSCHYR MEDHVL PRCRENT PRC55P HHMEDAGE MEDINC POP

Варiант 11
Файл з даними: Medicare.csv
Вiдгук: COV_CHG
Регресори: TOT_CHG MED_REIB TOT_D NUM_DCHG AVE_T_D

Варiант 12
Файл з даними: MedCPISmooth.csv
Вiдгук: value
Регресори: PerMEDCPI YEAR MCPISM4 MCPISM8 MCPISMw_2 MCPISMw_8

You might also like