Professional Documents
Culture Documents
Seminar 11
SPECIALITATE_GRUPA_NUME_PRENUME
LUCRU INDIVIDUAL
▪ Meta Instrucțiuni:
▪ La sfârșitul seminarului, folosind platforma Moodle, rezultatele obținute vor fi încărcate,
respectându-se termenul limită de timp (3h).
▪ Rezultatele obținute vor fi încărcate sub forma unui fișier MSWord cu extensia .doc (.docx),
numele fișierului având următorul format:
AA/MK_II_T1_<grupa201/2/3/4/5/6>_<nume>_<prenume>.doc (exemplu:
AA_II_T1_grupa201_Popescu_IonAlexandru.doc sau
MK_II_T1_grupa201_Popescu_IonAlexandru.doc), care să conțină output-ul (acolo unde este
solicitat) şi răspunsurile pentru fiecare cerinţă.
▪ Termen limită de trimitere a fişierului de lucru este: interval orar sfârşitul seminarului la care aţi
participat (conform listei de prezenţă) + 1h (exemplu: dacă seminarul se încheie la ora 18,
termenul limită este ora 19) .
* Pentru cei care nu participă la seminar sau din varii motive nu pot respecta acest termen, au
posibilitatea de a încărca fişierului de lucru pe Moodle, respectând cerinţele de mai sus până la
data 09.01.2022 orele 20:00 pentru a obține maximum jumătate din punctajul acordat inițial.
Tot ce depășește această dată (09.01.2022 orele 20:00) nu va fi luat în considerare.
▪ Punctaj:
1 p din nota finală
Fiecare întrebare este punctata cu 0.1 puncte..
Bază calcul punctaj final: 10 întrebări (Q) x 0.1 puncte.
Diferența de 0.5p se acorda prin: test grila seminar pe moodle (10 întrebări personalizate,
contra-timp).
Testul grila se da doar in timpul seminarului. Timp maxim 20 min, o singura incercare.
Adica 0.05p x 10 = 0.5 p din nota finala.
Punctaj seminar: T1 (1,5 p) + T2 (1p) + Grila T2 (0,5 p).
Atenție! Pentru nota finală se va lua în calcul și implicarea la seminar, iar unde este cazul, și
tema rezolvată pentru puncte extra.
Succes!
ATENTIE!!!!! Inlocuiti ori in de cate ori este cazul, in functia (set.seed), codul de student personal in locul
anului 2021.
set.seed(2021) <- COD STUDENT
EXERCITIUL 1:
Departamentul de resurse umane are un nou manager. Managerul doreste sa vada ce anume a
influentat politica de salarizare a companiei. Managerul dispune de urmatorul set de date despre 100 de
angajati din companie:
"feedback_manager" - numarul de feedback-uri per salariat din partea managerului de cand s-a
angajat in companie
"numar_luni" - numarul de luni vechime in companie
"scor_abil_person" - scor obtinut de salariati la testul de dezvoltarea personala (exprimate in puncte)
"scor_abil_profes" - scor obtinut de salariati la testul de dezvoltarea profesionala (exprimate in puncte)
"Venit" - venitul sub forma de salariu, exprimat in LEI
"zile_concediu" - numarul de zile de concediu in ultimul an calendaristic
"Zile_MD" - numarul de zile in Munca la Domiciliu in ultimul an calendaristic
Call:
lm(formula = Venit ~ ., data = ex1)
Residuals:
Min 1Q Median 3Q Max
-231.947 -97.292 7.976 102.422 226.898
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 160.70876 146.95561 1.094 0.2770
feedback_manager -0.02467 0.42120 -0.059 0.9534
numar_luni 6.61113 2.84527 2.324 0.0223 *
scor_abil_person 21.67747 0.16193 133.868 <2e-16 ***
scor_abil_profes 30.59672 0.16243 188.371 <2e-16 ***
zile_concediu 7.36152 3.87109 1.902 0.0603 .
Zile_MD 3.58066 5.27726 0.679 0.4991
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Q1: Analizand rezultatul regresiei "model_initial" ce variabile considerati ca trebuie eliminate pentru a
imbunatatii modelul. Justificati!
Variabilele pe care trebuie sa le eliminam conform outputului regresei sunt: feedback_manager,
Zile_MD si zile_concediu. Deoarece nu influenteaza statistic semnificativ variabila dependenta.
Variabila zile_concediu are valoarea aferenta testului statistic t aproape de 0.05 si este posibil ca la
eliminare celorlate variabilele nesemnificative statistic sa devina statistic semnificativa.
Q2: Analizand rezultatul matricei de corelatie "cor_matrix_ex1", care sunt variabilele independente intre
care exista un grad de corelatie ridicat? Exemplificati perechile de variabile si justificati raspunsul!
> cor_matrix_ex1
feedback_manager numar_luni scor_abil_person
feedback_manager 1.0000 0.0136 0.0286
numar_luni 0.0136 1.0000 -0.0499
scor_abil_person 0.0286 -0.0499 1.0000
scor_abil_profes -0.0084 0.0716 0.1140
Venit 0.0093 0.0699 0.6283
zile_concediu 0.0205 0.7328 -0.1038
Zile_MD 0.0051 0.9210 -0.0891
RASPUNS:
Un grad ridicat de corelatie intre variabilele independente (adica, mai mare de 0.7) se afla intre:
numar_luni
zile_concediu 0.7328
Zile_MD 0.9210
Q3: a. In baza raspunsului de la Q1 si Q2, care ar fi prima variabila independenta care ar trebui exclusa
din modelul initial de regresie? De ce?
b. Daca ar trebui sa eliminati o a doua variabila din modelul initial de regresie, care ar fi aceea si de
ce?
a. Prima variabila independenta care ar trebui exclusa din modelul de regresie este: „Zile_MD”
deoarece este foarte corelata cu variablia numar_luni (este prezenta multicolinearitatea).
b. Cea de-a doua variabila ce ar trebui exclusa din modelul de regresie este: „zile_concediu” deoarece
este foarte corelata cu variablia numar_luni (este prezenta multicolinearitatea).
Variabilele independente: „Zile_MD” si „zile_concediu” par puternic corelate si intre ele, aproximativ
0.7.
Call:
lm(formula = Venit ~ ., data = ex1_model)
Residuals:
Min 1Q Median 3Q Max
-224.51 -111.36 13.16 105.50 193.29
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 343.88819 56.37691 6.100 2.28e-08 ***
feedback_manager -0.01635 0.42550 -0.038 0.969
numar_luni 10.37007 1.01542 10.213 < 2e-16 ***
scor_abil_person 21.64279 0.16211 133.509 < 2e-16 ***
scor_abil_profes 30.52631 0.15937 191.540 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary(model_nou)
Estimate Pr(>|t|)
feedback_manager -0.01635 0.969
numar_luni 10.37007 < 2e-16 ***
Q5: Alegeti una din modalitatile de vizualizare a corelatiilor aferente noului model de regresie si
discutati pe baza graficului ales intensitatea relatiilor de corelatie dintre variabilele independente in
baza legendei graficului.
# INTRODUCETI IMAGINEA CU GRAFICUL ALES IN TEMPLATE-ul WORD
# Indicatii: cadran dreapta jos (PLOTS) - "Export" - "Save as Image" - Apoi, in fereastra nou aparuta,
alegeti directorul "Directory" in care sa salvati poza si atriguiti un nume acesteia
Model vizualizare 1
Raspuns:
Corelatiile sunt mai puternice daca cercul si intensitatea culorii este mai mare. Culoarea albastru este
pentru corelatii pozitive, iar rosu pentru corelatii negative.
Intre variabilele independente nu exista corelatii mare (maimari decat 0.7).
EXERCITIUL 2:
Un numar de 50 de clinici au strans datele despre pacientii care au scazut in greutate urmand
tratamentul lunar de alimentatie standard, complet, in anul calendaristic precedent. Se doreste sa vada
ce anume a influentat performanta clonicilor in lupta cu kg a pacientilor.
"pacienti_fitness" - numarul de pacienti care au facut exercitii fizice sub indrumarea unui antrenor
"gluten_intol" - indicator privind intoleranta la gluten a pacientilor (exprimat in punte procentuale)
"nr_kg" - numarul de kg pierdute, de toti pacientii fiecarei clinici, la finalul dietei (exprimat in kg)
"nefumator" - nefumator = 0 si fumator = 1
Call:
lm(formula = nr_kg ~ ., data = dataf_cal)
Residuals:
Min 1Q Median 3Q Max
-12.440 -3.408 -1.284 3.274 15.531
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 41.97721 3.67152 11.433 4.86e-15 ***
pacienti_fitness -1.95854 0.06348 -30.854 < 2e-16 ***
gluten_intol 5.07185 0.04373 115.979 < 2e-16 ***
nefumator1 18.00819 1.93902 9.287 4.05e-12 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
b1=-1.95854
Atunci cand numarul de pacienti care au facut exercitii fizice sub indrumarea unui antrenor creste cu o
persoana, si restul variabilelor raman constante, numarul de kg pierdute de pacientii per clinica scade cu
1.9 kg.
b2=5.07185
Atunci cand intoleranta la gluten a pacientilor crestecu 1 punct procentual, si restul variabilelor raman
constante, numarul de kg pierdute de pacientii per clinica creste cu 5.07 kg.
b3=18.00819
Fata de clinicile de nefumatori, clinicile de fumatori au in medie cu 18 kg mai multe kg pierdute, celelalte
variabile ramanand constante.
EXERCITIUL 3:
Call:
lm(formula = consum_combustibil_anual ~ distanta_medie_lunar +
tip_motor, data = exercitiul_trei)
Residuals:
Min 1Q Median 3Q Max
-94.705 -25.957 -2.245 26.568 85.320
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.423e+02 1.869e+01 12.96 <2e-16 ***
distanta_medie_lunar 5.000e+00 5.126e-03 975.40 <2e-16 ***
tip_motor2 1.475e+02 1.113e+01 13.26 <2e-16 ***
tip_motor3 2.916e+02 1.184e+01 24.64 <2e-16 ***
tip_motor4 3.446e+02 1.579e+01 21.82 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
b1=5
Atunci cand distanta medie lunara parcursa de masina creste cu 1 km, si restul variabilelor raman
constante, consumul de combustibil creste cu 5 litri.
b2=1.475e+02 =147,5
Fata de masinile cu tip de motor 1, masinile cu tip de motor 2 consuma in medie cu 147,5 litri mai mult
combustibil, celelalte variabile ramanand constante.
b3=2.916e+02=291,6
Fata de masinile cu tip de motor 1, masinile cu tip de motor 3 consuma in medie cu 291,6 litri mai mult
combustibil, celelalte variabile ramanand constante.
b4=3.446e+02=344,6
Fata de masinile cu tip de motor 1, masinile cu tip de motor 4 consuma in medie cu 344,6 litri mai mult
combustibil, celelalte variabile ramanand constante.
Q9: Fata de primul tip de motor, care tip de motor are in medie probabilitatea mai mare sa consume
mai mult combustibil? Justificati raspunsul.
Masinile cu tip de motor 4 deoarece prin comparatie cu clasa de referinta (motor tip 1) coeficientul de
regresie este cel mai mare.
Call:
lm(formula = consum_combustibil_anual ~ distanta_medie_lunar +
tip_motor_edt, data = exercitiul_trei_edt)
Residuals:
Min 1Q Median 3Q Max
-94.705 -25.957 -2.245 26.568 85.320
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.340e+02 1.837e+01 29.063 < 2e-16 ***
distanta_medie_lunar 5.000e+00 5.126e-03 975.398 < 2e-16 ***
tip_motor_edt1 -2.916e+02 1.184e+01 -24.639 < 2e-16 ***
tip_motor_edt2 -1.441e+02 9.880e+00 -14.588 < 2e-16 ***
tip_motor_edt4 5.291e+01 1.493e+01 3.543 0.000615 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Q10: Interpretati coeficientii de regresie aferenti variabilei "tip_motor" din noua regresie
("summary(model_trei_edt)").
Indiciu: nu uitati sa mentionati care este tipul de motor de referinta.
b2=-2.916e+02
Fata de masinile cu tip de motor 3, masinile cu tip de motor 1 consuma in medie cu 2.916e+02 litri mai
putin combustibil, celelalte variabile ramanand constante.
b3=-1.441e+02
Fata de masinile cu tip de motor 3, masinile cu tip de motor 2 consuma in medie cu 1.441e+02 litri mai
putin combustibil, celelalte variabile ramanand constante.
b4=5.291e+01
Fata de masinile cu tip de motor 3, masinile cu tip de motor 4 consuma in medie cu 5.291e+01 litri mai
mult combustibil, celelalte variabile ramanand constante.