You are on page 1of 9

ECONOMETRIE

Seminar 11
SPECIALITATE_GRUPA_NUME_PRENUME

LUCRU INDIVIDUAL

▪ Meta Instrucțiuni:
▪ La sfârșitul seminarului, folosind platforma Moodle, rezultatele obținute vor fi încărcate,
respectându-se termenul limită de timp (3h).
▪ Rezultatele obținute vor fi încărcate sub forma unui fișier MSWord cu extensia .doc (.docx),
numele fișierului având următorul format:
AA/MK_II_T1_<grupa201/2/3/4/5/6>_<nume>_<prenume>.doc (exemplu:
AA_II_T1_grupa201_Popescu_IonAlexandru.doc sau
MK_II_T1_grupa201_Popescu_IonAlexandru.doc), care să conțină output-ul (acolo unde este
solicitat) şi răspunsurile pentru fiecare cerinţă.
▪ Termen limită de trimitere a fişierului de lucru este: interval orar sfârşitul seminarului la care aţi
participat (conform listei de prezenţă) + 1h (exemplu: dacă seminarul se încheie la ora 18,
termenul limită este ora 19) .
* Pentru cei care nu participă la seminar sau din varii motive nu pot respecta acest termen, au
posibilitatea de a încărca fişierului de lucru pe Moodle, respectând cerinţele de mai sus până la
data 09.01.2022 orele 20:00 pentru a obține maximum jumătate din punctajul acordat inițial.
Tot ce depășește această dată (09.01.2022 orele 20:00) nu va fi luat în considerare.

▪ Punctaj:
1 p din nota finală
Fiecare întrebare este punctata cu 0.1 puncte..
Bază calcul punctaj final: 10 întrebări (Q) x 0.1 puncte.
Diferența de 0.5p se acorda prin: test grila seminar pe moodle (10 întrebări personalizate,
contra-timp).
Testul grila se da doar in timpul seminarului. Timp maxim 20 min, o singura incercare.
Adica 0.05p x 10 = 0.5 p din nota finala.
Punctaj seminar: T1 (1,5 p) + T2 (1p) + Grila T2 (0,5 p).
Atenție! Pentru nota finală se va lua în calcul și implicarea la seminar, iar unde este cazul, și
tema rezolvată pentru puncte extra.

Succes!

Prezentul sablon se completeaza de student conform rezultatelor din codul R.


Prezentul sablon se completeaza de student conform rezultatelor din codul R.

ATENTIE!!!!! Inlocuiti ori in de cate ori este cazul, in functia (set.seed), codul de student personal in locul
anului 2021.
set.seed(2021) <- COD STUDENT

EXERCITIUL 1:
Departamentul de resurse umane are un nou manager. Managerul doreste sa vada ce anume a
influentat politica de salarizare a companiei. Managerul dispune de urmatorul set de date despre 100 de
angajati din companie:
"feedback_manager" - numarul de feedback-uri per salariat din partea managerului de cand s-a
angajat in companie
"numar_luni" - numarul de luni vechime in companie
"scor_abil_person" - scor obtinut de salariati la testul de dezvoltarea personala (exprimate in puncte)
"scor_abil_profes" - scor obtinut de salariati la testul de dezvoltarea profesionala (exprimate in puncte)
"Venit" - venitul sub forma de salariu, exprimat in LEI
"zile_concediu" - numarul de zile de concediu in ultimul an calendaristic
"Zile_MD" - numarul de zile in Munca la Domiciliu in ultimul an calendaristic

!!! TRECETI OUTPUT-ul aferent "summary(model_initial)" DIN CONSOLA IN TEMPLATE-ul WORD


> # Modelul initial de regresie multipla
> model_initial <- lm(Venit ~ ., data=ex1)
> summary(model_initial)

Call:
lm(formula = Venit ~ ., data = ex1)

Residuals:
Min 1Q Median 3Q Max
-231.947 -97.292 7.976 102.422 226.898

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 160.70876 146.95561 1.094 0.2770
feedback_manager -0.02467 0.42120 -0.059 0.9534
numar_luni 6.61113 2.84527 2.324 0.0223 *
scor_abil_person 21.67747 0.16193 133.868 <2e-16 ***
scor_abil_profes 30.59672 0.16243 188.371 <2e-16 ***
zile_concediu 7.36152 3.87109 1.902 0.0603 .
Zile_MD 3.58066 5.27726 0.679 0.4991
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 122.1 on 93 degrees of freedom


Multiple R-squared: 0.9985, Adjusted R-squared: 0.9984
F-statistic: 1.051e+04 on 6 and 93 DF, p-value: < 2.2e-16

Q1: Analizand rezultatul regresiei "model_initial" ce variabile considerati ca trebuie eliminate pentru a
imbunatatii modelul. Justificati!
Variabilele pe care trebuie sa le eliminam conform outputului regresei sunt: feedback_manager,
Zile_MD si zile_concediu. Deoarece nu influenteaza statistic semnificativ variabila dependenta.
Variabila zile_concediu are valoarea aferenta testului statistic t aproape de 0.05 si este posibil ca la
eliminare celorlate variabilele nesemnificative statistic sa devina statistic semnificativa.

Q2: Analizand rezultatul matricei de corelatie "cor_matrix_ex1", care sunt variabilele independente intre
care exista un grad de corelatie ridicat? Exemplificati perechile de variabile si justificati raspunsul!
> cor_matrix_ex1
feedback_manager numar_luni scor_abil_person
feedback_manager 1.0000 0.0136 0.0286
numar_luni 0.0136 1.0000 -0.0499
scor_abil_person 0.0286 -0.0499 1.0000
scor_abil_profes -0.0084 0.0716 0.1140
Venit 0.0093 0.0699 0.6283
zile_concediu 0.0205 0.7328 -0.1038
Zile_MD 0.0051 0.9210 -0.0891

scor_abil_profes Venit zile_concediu Zile_MD


feedback_manager -0.0084 0.0093 0.0205 0.0051
numar_luni 0.0716 0.0699 0.7328 0.9210
scor_abil_person 0.1140 0.6283 -0.1038 -0.0891
scor_abil_profes 1.0000 0.8425 -0.1152 0.0722
Venit 0.8425 1.0000 -0.1107 0.0468
zile_concediu -0.1152 -0.1107 1.0000 0.6677
Zile_MD 0.0722 0.0468 0.6677 1.0000

RASPUNS:
Un grad ridicat de corelatie intre variabilele independente (adica, mai mare de 0.7) se afla intre:
numar_luni
zile_concediu 0.7328
Zile_MD 0.9210

Q3: a. In baza raspunsului de la Q1 si Q2, care ar fi prima variabila independenta care ar trebui exclusa
din modelul initial de regresie? De ce?
b. Daca ar trebui sa eliminati o a doua variabila din modelul initial de regresie, care ar fi aceea si de
ce?
a. Prima variabila independenta care ar trebui exclusa din modelul de regresie este: „Zile_MD”
deoarece este foarte corelata cu variablia numar_luni (este prezenta multicolinearitatea).

b. Cea de-a doua variabila ce ar trebui exclusa din modelul de regresie este: „zile_concediu” deoarece
este foarte corelata cu variablia numar_luni (este prezenta multicolinearitatea).

Variabilele independente: „Zile_MD” si „zile_concediu” par puternic corelate si intre ele, aproximativ
0.7.

!!! TRECETI OUTPUT-ul aferent "summary(model_nou)" DIN CONSOLA IN TEMPLATE-ul WORD


> # Modelul nou de regresie multipla
> ex1_model <- ex1[, c(1:5)]
> model_nou <- lm(Venit ~ ., data=ex1_model)
> summary(model_nou)

Call:
lm(formula = Venit ~ ., data = ex1_model)

Residuals:
Min 1Q Median 3Q Max
-224.51 -111.36 13.16 105.50 193.29

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 343.88819 56.37691 6.100 2.28e-08 ***
feedback_manager -0.01635 0.42550 -0.038 0.969
numar_luni 10.37007 1.01542 10.213 < 2e-16 ***
scor_abil_person 21.64279 0.16211 133.509 < 2e-16 ***
scor_abil_profes 30.52631 0.15937 191.540 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 123.4 on 95 degrees of freedom


Multiple R-squared: 0.9985, Adjusted R-squared: 0.9984
F-statistic: 1.543e+04 on 4 and 95 DF, p-value: < 2.2e-16

Q4: Comparand cele doua regresii ("summary(model_initial)" vs. "summary(model_nou)"), ce puteti


spune despre coeficientul de regresie si p value a testului t pentru variabilele "feedback_manager" si
"numar_luni". Cum justificati diferentele?
Comparatie:
summary(model_initial)
Estimate Pr(>|t|)
feedback_manager -0.02467 0.9534
numar_luni 6.61113 0.0223 *

summary(model_nou)
Estimate Pr(>|t|)
feedback_manager -0.01635 0.969
numar_luni 10.37007 < 2e-16 ***

Prima variabila independenta („feedback_manager”), in noul model b1 creste cu aproximativ 0.01,


dar ramane nesemnificativ statistic. Aceasta variabila ar trebui exclusa din modelul de regresie
deoarece, raportandu-ne la testul t valoarea lui p_value(feedback_manager) este foarte mare, deci nu
influenteaza statistic reprezentativ variabila dependenta „venit”.

A doua variabila independenta („numar_luni”), in noul model b2 creste cu aproximativ 4 unitati si


totodata creste semnificatia statistica. Acest lucru se datoreaza eliminarii multicolinearitatii, adica a
variabilelor cu corelatie puternica.

Q5: Alegeti una din modalitatile de vizualizare a corelatiilor aferente noului model de regresie si
discutati pe baza graficului ales intensitatea relatiilor de corelatie dintre variabilele independente in
baza legendei graficului.
# INTRODUCETI IMAGINEA CU GRAFICUL ALES IN TEMPLATE-ul WORD
# Indicatii: cadran dreapta jos (PLOTS) - "Export" - "Save as Image" - Apoi, in fereastra nou aparuta,
alegeti directorul "Directory" in care sa salvati poza si atriguiti un nume acesteia

Model vizualizare 1 SAU 2 SAU 3 SAU 4 si raspuns la Q5.

Model vizualizare 1

Raspuns:
Corelatiile sunt mai puternice daca cercul si intensitatea culorii este mai mare. Culoarea albastru este
pentru corelatii pozitive, iar rosu pentru corelatii negative.
Intre variabilele independente nu exista corelatii mare (maimari decat 0.7).

EXERCITIUL 2:
Un numar de 50 de clinici au strans datele despre pacientii care au scazut in greutate urmand
tratamentul lunar de alimentatie standard, complet, in anul calendaristic precedent. Se doreste sa vada
ce anume a influentat performanta clonicilor in lupta cu kg a pacientilor.
"pacienti_fitness" - numarul de pacienti care au facut exercitii fizice sub indrumarea unui antrenor
"gluten_intol" - indicator privind intoleranta la gluten a pacientilor (exprimat in punte procentuale)
"nr_kg" - numarul de kg pierdute, de toti pacientii fiecarei clinici, la finalul dietei (exprimat in kg)
"nefumator" - nefumator = 0 si fumator = 1

!!! TRECETI OUTPUT-ul aferent "summary(model_calitativ)" DIN CONSOLA IN TEMPLATE-ul WORD

> # Modelul de regresie


> model_calitativ <- lm(nr_kg ~ ., data=dataf_cal)
> summary(model_calitativ)

Call:
lm(formula = nr_kg ~ ., data = dataf_cal)

Residuals:
Min 1Q Median 3Q Max
-12.440 -3.408 -1.284 3.274 15.531

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 41.97721 3.67152 11.433 4.86e-15 ***
pacienti_fitness -1.95854 0.06348 -30.854 < 2e-16 ***
gluten_intol 5.07185 0.04373 115.979 < 2e-16 ***
nefumator1 18.00819 1.93902 9.287 4.05e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 6.726 on 46 degrees of freedom


Multiple R-squared: 0.9968, Adjusted R-squared: 0.9965
F-statistic: 4710 on 3 and 46 DF, p-value: < 2.2e-16

Q6: Interpretati coeficientii de regresie aferenti exercitiului 2 ("summary(model_calitativ)") si


argumentati daca infulenteaza semnificativ scaderea in greutate?

b1=-1.95854
Atunci cand numarul de pacienti care au facut exercitii fizice sub indrumarea unui antrenor creste cu o
persoana, si restul variabilelor raman constante, numarul de kg pierdute de pacientii per clinica scade cu
1.9 kg.

b2=5.07185
Atunci cand intoleranta la gluten a pacientilor crestecu 1 punct procentual, si restul variabilelor raman
constante, numarul de kg pierdute de pacientii per clinica creste cu 5.07 kg.

b3=18.00819

Fata de clinicile de nefumatori, clinicile de fumatori au in medie cu 18 kg mai multe kg pierdute, celelalte
variabile ramanand constante.

Q7: Interpretati coeficientul de determinare aferent exercitiului 2.

Multiple R-squared: 0.9968


99.68 din variabilitatea lui y (numarului de kg pierdute) se datoreaza variabilelor ecuatiei de regresiei.
Diferenta (100-99.68) se datoreaza altor elemente.

EXERCITIUL 3:

Un patron de curierat doreste sa vada ce anume influenteaza consumul anual de combustibil.


In acest sens, strange date de la 100 din masinile de curierat:
"consum_combustibil_anual" = consumul de combustibil per masina (litri)
"distanta_medie_lunar" = distanta medie lunara parcursa de masini (km)
"tip_motor" = tipul de motor al maisinii (tip motor 1, tip motor 2, tip motor 3, tip motor 4)

!!! TRECETI OUTPUT-ul aferent "summary(model_trei)" DIN CONSOLA IN TEMPLATE-ul WORD

> # Modelul de regresie


> model_trei <- lm(consum_combustibil_anual ~ distanta_medie_lunar + tip_moto
r, data=exercitiul_trei)
> summary(model_trei)

Call:
lm(formula = consum_combustibil_anual ~ distanta_medie_lunar +
tip_motor, data = exercitiul_trei)
Residuals:
Min 1Q Median 3Q Max
-94.705 -25.957 -2.245 26.568 85.320

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.423e+02 1.869e+01 12.96 <2e-16 ***
distanta_medie_lunar 5.000e+00 5.126e-03 975.40 <2e-16 ***
tip_motor2 1.475e+02 1.113e+01 13.26 <2e-16 ***
tip_motor3 2.916e+02 1.184e+01 24.64 <2e-16 ***
tip_motor4 3.446e+02 1.579e+01 21.82 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

# Amintim interpretarea notatiei exponentiala (e+ si e-), exemple:


# 1.234e+02 = 123.4
# 1.234e-02 = 0.01234
Q8: Interpretati coeficientii de regresie aferenti exercitiului 3 ("summary(model_trei)").

"consum_combustibil_anual" = consumul de combustibil per masina (litri)


"distanta_medie_lunar" = distanta medie lunara parcursa de masini (km)
"tip_motor" = tipul de motor al maisinii (tip motor 1, tip motor 2, tip motor 3, tip motor 4)

b1=5
Atunci cand distanta medie lunara parcursa de masina creste cu 1 km, si restul variabilelor raman
constante, consumul de combustibil creste cu 5 litri.

b2=1.475e+02 =147,5
Fata de masinile cu tip de motor 1, masinile cu tip de motor 2 consuma in medie cu 147,5 litri mai mult
combustibil, celelalte variabile ramanand constante.

b3=2.916e+02=291,6
Fata de masinile cu tip de motor 1, masinile cu tip de motor 3 consuma in medie cu 291,6 litri mai mult
combustibil, celelalte variabile ramanand constante.

b4=3.446e+02=344,6
Fata de masinile cu tip de motor 1, masinile cu tip de motor 4 consuma in medie cu 344,6 litri mai mult
combustibil, celelalte variabile ramanand constante.

Q9: Fata de primul tip de motor, care tip de motor are in medie probabilitatea mai mare sa consume
mai mult combustibil? Justificati raspunsul.

Masinile cu tip de motor 4 deoarece prin comparatie cu clasa de referinta (motor tip 1) coeficientul de
regresie este cel mai mare.

!!! TRECETI OUTPUT-ul aferent "summary(model_trei_edt)" DIN CONSOLA IN TEMPLATE-ul WORD

> # Modelul de regresie


> model_trei_edt <- lm(consum_combustibil_anual ~ distanta_medie_lunar + tip_
motor_edt, data=exercitiul_trei_edt)
> summary(model_trei_edt)

Call:
lm(formula = consum_combustibil_anual ~ distanta_medie_lunar +
tip_motor_edt, data = exercitiul_trei_edt)

Residuals:
Min 1Q Median 3Q Max
-94.705 -25.957 -2.245 26.568 85.320

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.340e+02 1.837e+01 29.063 < 2e-16 ***
distanta_medie_lunar 5.000e+00 5.126e-03 975.398 < 2e-16 ***
tip_motor_edt1 -2.916e+02 1.184e+01 -24.639 < 2e-16 ***
tip_motor_edt2 -1.441e+02 9.880e+00 -14.588 < 2e-16 ***
tip_motor_edt4 5.291e+01 1.493e+01 3.543 0.000615 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 40.7 on 95 degrees of freedom


Multiple R-squared: 0.9999, Adjusted R-squared: 0.9999
F-statistic: 2.399e+05 on 4 and 95 DF, p-value: < 2.2e-16

Q10: Interpretati coeficientii de regresie aferenti variabilei "tip_motor" din noua regresie
("summary(model_trei_edt)").
Indiciu: nu uitati sa mentionati care este tipul de motor de referinta.

b2=-2.916e+02
Fata de masinile cu tip de motor 3, masinile cu tip de motor 1 consuma in medie cu 2.916e+02 litri mai
putin combustibil, celelalte variabile ramanand constante.

b3=-1.441e+02
Fata de masinile cu tip de motor 3, masinile cu tip de motor 2 consuma in medie cu 1.441e+02 litri mai
putin combustibil, celelalte variabile ramanand constante.

b4=5.291e+01
Fata de masinile cu tip de motor 3, masinile cu tip de motor 4 consuma in medie cu 5.291e+01 litri mai
mult combustibil, celelalte variabile ramanand constante.

You might also like