Data Mining Rezolvate

True/False
Indicate whether the sentence or statement is true or false.
_F__ 1. Tehnicile traditionale de analiza datelor sunt orientate in principal pe extragerea datelor pe baza unor
caracteristici cantitative si statistice si astfel au un grad mic de limitare.
_T__ 2. Prin data mining se doreste să se extragă din datele existente acele componente inplicite,
necunoscute anterior si care sa fie potential utile.
_F__ 3. Analiza statistica poate da o caracterizare a dependentelor abstracte si conceptuale pentru un nivel sau o
procedura a datelor.
_F__ 4. Sectionarea numerica pote crea o clasificare a entitatilor si sa specifice o similaritate numerica intre entitati
reunite in acelasi cluster sau in clustere diferite.
_T__ 5. EsenŃa cercetarilor din invatarea automata este de a dezvolta metode de calcul pentru a ajunge la cunostiinte
pornind de la fapte si de la cunostiinte anterioare.
_F__ 6. Extragerea regularitatilor datelor nu se poate face direct sub forma de cunostiinte care sa caracterizeze relatiile
dintre variabilele care interesează
_F__ 7. Extragerea regularitatilor datelor nu se poate face indirect, ca functii care sa permita predictia, clasificarea sau
reprezentarea regularitatilor din distributia datelor.
_F__ 8. Metadatele sunt reprezentarea oricarui fapt, si date despre datele insele, cum ar fi constructia logică a bazelor
de date sau definitiile dictionarului de date.
_T__ 9. InformaŃiile pot fi transformate în cunoştiinŃe asupra tiparelor istorice şi a tendinŃelor viitoare.
_T__ 10. Data mining este descoperirea eficientă a informaŃiilor evaluabile şi neevidente dintr-o colecŃie mare de date.
_T__ 11. Rezolvarea unui model de regresie liniara conduce la solutia
 n   n  n 
n  ∑ X iYi  −  ∑ X i  ∑ Yi 
βˆ1 =  i =1   i =1  i =1 
2
 n
2 
n

n ∑ Xi  −  ∑ Xi 
 i =1   i =1 
n
_F__ 12. Pentru un model de regresie liniara valoarea ∑Y

i =1
i
2 poarta numele de suma pătratelor total corectată a lui Yi
n
_T__ 13. In modelul de regresie liniara in locul formulei S 2( model) = ∑ Yî 2 se foloseste si
i =1
n
S 2 ( model ) = nY 2 + βˆ12 ∑ ( X i − X )
2
i =1
_F__ 14. In modelul de regresie liniara coeficientul de determinare este dat prin formula
n
∑y i
2
R2 = i =1
S 2 ( regr )
n n
_T__ 15. Pentru un model unual de regresie avem ∑∑ a b Cov Y( , Y =) 0
i = 1j = 1
i j i j
j ≠i
n
_F__ 16. Fie U = ∑ a Y . Daca toate variabilele aleatoare
i =1
i i Yi are dispersia comună şi egală cu σ 2 , atunci
Var (U ) = σ 2 .
n n
_T__ 17. Fie U = ∑aY
i =1
i i şi V = ∑ b Y . Daca toate variabilele aleatoare Y
i =1
i i i are dispersia comună şi egală cu σ 2 ,
n
atunci Cov (U , V ) = σ 2 ∑ab .
i =1
i i
_F__ 18. Un model de regresie multipla care in scrierea matriciala are forma Y = X β + ε si in care matricea x are
rangul egal cu numarul parametrilor se numeste midel cu rang incomplete
_T__ 19. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci funcŃia ( )
densitate de probabilitate reunită pentru vectorul ε este dată prin relaŃia
n
n
− ∑εi2
 2π  i =1
fε ( ε1 , ε 2 ,..., ε n ) =   e
2σ 2
.
 σ 
_T__ 20. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci funcŃia ( )
densitate de probabilitate reunită pentru Y este
n 2
n
− ∑  yi −( β0 + β1X i1 +...+ β p X ip )
 2π  i =1
fY ( y1 , y2 ,..., yn ) =   e 2σ 2
.
 σ 
_F__ 21. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci ( )
Y ~ N ( β ,σ 2 I )
_T__ 22. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N ( 0, σ 2 ) , atunci
(
βˆ ~ N β , ( X ′X ) σ 2
−1
)
_T__ 23. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci ( )
Yˆ ~ N ( X β , Pσ 2 ) .
_F__ 24. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci ( )
e ~ N ( β , ( I − P )σ 2 ) .
_T__ 25. O modelare a datelor prin care ele sunt puse într-o perspectivă istorică pe baze matematice, în
special statistice este o impartire in clustere.
_T__ 26. Cea mai simplă submulŃime dintr-un spaŃiu de atribute este un produs cartezian direct al subdomeniilor, adică
d
C = ∏ Ci ⊂ A , Ci ⊂ Ai , numit celula
i =1
_T__ 27. Scopul împărŃirii în clustere este de a asocia punctele de date la un sistem finit format din k submulŃimi care
sa formeze o partitie.
_T__ 28. În împărŃirea în clustere prin ierarhizare se consideră adesea că reprezentarea normală a datelor sub forma
punct-atribut nu este primordială şi poate fi înlocuită cu succes de o matrice de dimensiune n × n (matrice
pătrată de ordin n ) care indică distanŃele (lipsa de similaritate) sau similaritatea dintre puncte, numită matrice
de conectivitate.
_F__ 29. Graful ponderat asociat unei metrici de conectivitate are un arc ( i, j ) daca si numai daca aij = 0
_T__ 30. În împărŃirea în clustere bazată pe învăŃarea conceptuală fiecare cluster este considerat ca un model
ce poate fi descris în mod intrinsec şi nu ca o colecŃie de puncte associate
_F__ 31. La impartirea in clustere bazata pe invatarea conceptuala funcŃia de utilitate a categoriei penalizeaza
clusterele C j la creşterea predictibilităŃii valorii uip de atribut al categoriei.
_T__ 32. La impartirea in clustere probabilistice verosimilitatea globală a unor date urmărite este
probabilitatea lor de a fi construite într-un model mixt dat, deci
n k
L ( X C ) = ∏ ∑ τ j P ( xi C j ) .
i =1 j =1
Multiple Choice
Identify the letter of the choice that best completes the statement or answers the question.
____ 33. Fie un model de regresie liniara pentru care datele sunt date de tabelul
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Atunci ecuatia de regresie este

a. 5
Yî = + 2 ( X i − 12 )
2
b. 1
Yî = 5 + ( X i − 12 )
2
c. 2 1
Yî = + ( X i − 12 )
5 2
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Se consideră următoarele tabele

a.
Xi 11 13 12 10 14
Yî 4,5 5,5 5 4 6
b.
Xi 11 13 12 10 14
Yî 4 5,5 5 4,5 6
c.
Xi 11 13 12 10 14
Yî 4,5 5 5,5 4 6
Tabelul de valori estinate pentru media variabilei dependente este
a. a
b. b
c. c
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Se consideră următoarele tabele

a.
i 1 2 3 4 5
ei 0 1,5 -2 1 -0,5
b.
i 1 2 3 4 5
ei -0,5 1 -2 1,5 0
c.
i 1 2 3 4 5
ei -0,5 1,5 -2 1 0
Tabelul reziduurilor calculate este
a. a
b. b
c. c
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Suma pătratelor total necorectată a lui Yi este:

a. 135
b. 125
c. 145
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Suma pătratelor contabilizabile este S 2 ( model ) =

a. 127
b. 127,5
c. 128
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Suma pătratelor total corectate se obŃine ca S 2 ( total ) =

a. 9
b. 9,5
c. 10
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Coeficientul de determinare este R 2 =

a. 0,25
b. 0,30
c. 0,35
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Si considerăm că σ = 7, 5 . Atunci Var βˆ1 =

2
( )
a. 0,65
b. 0,75
c. 0,85
Xi 11 13 12 10 14
Yi 4 7 3 5 6
( )
Si considerăm că σ 2 = 7, 5 . Atunci Var βˆ0 =
a. 104,5
b. 107,5
c. 109,5
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Si considerăm că σ = 7, 5 . Atunci Var Yî =

2
( )
a.
(
0, 45 2 + ( X i − 10 ) ) 2
b.
0, 75 ( 2 + ( X − 12 ) )
2
i
c.
0, 6 ( 2 + ( X − 11) )
2
i
____ 43. Fie datele observate din următorul tabel:

n A1 A2 A3
1 A 12,5 14
2 B 11,2 11
3 A 10,3 16
4 C 11,8 12
5 B 12,2 14
6 A 11,5 13
7 C 10,7 12
8 D 11,4 15
9 A 12,2 14
10 D 11,5 16
La o impartire in clustere pe valori ehgale ale primului atribut se obtin
a. C = {1, 6, 9} , C = {2,5} , C = {4, 7} şi C = {3,8,10}
A B C D
b. C A = {1,3,9} , C B = {2, 5, 6} , CC = {4, 7} şi C D = {8,10}

c. C A = {1, 3, 6,9} , C B = {2,5} , CC = {4, 7} şi C D = {8,10}
d. C A = {1,3, 6} , C B = {2,5} , CC = {4, 7, 9} şi C D = {8,10}
____ 44. La o impartire in clustere ierarhice s-a ajuns prin divizare la solutia din urmatorul tabel
Cluster A1 n A2 A3
nivel 1
A 1 12,5 14
A 3 10,3 16
CA
A 6 11,5 13
A 9 12,2 14
B 2 11,2 11
CB
B 5 12,2 14
C 4 11,8 12
CC
C 7 10,7 12
D 8 11,4 15
CD
D 10 11,5 16
Pentru continuarea impartirii inclusterii se foloseste caracteristica a treia facând o noua divizare pe
cbte doua valori consecutive. Rezultatul divizarii propuse este
a. C = {1,9} , C = {2} , C = {3, 6} , C = {4, 7} , C = {5} si C = {8,10}
1 2 3 4 5 6
b. C1 = {1, 6, 9} , C2 = {2} , C3 = {3} , C4 = {4, 7} , C5 = {5} si C6 = {8,10}

c. C1 = {1, 6} , C2 = {2} , C3 = {3,9} , C4 = {4, 7} , C5 = {5} si C6 = {8,10}
d. C1 = {1,3} , C2 = {2} , C3 = {4, 7} , C4 = {5} , C5 = {6,9} si C6 = {8,10}
____ 45. Fie datele observate din următorul tabel:
n A1 A2 A3
1 A 12,5 14
2 B 11,2 11
3 A 10,3 16
4 C 11,8 12
5 B 12,2 14
6 A 11,5 13
7 C 10,7 12
8 D 11,4 15
9 A 12,2 14
10 D 11,5 16
La impartiera in clustere prin aglomerare folosind pentru grupare valorile identice pe al treilea
atribut se ajunge la clusterele
a. D = {2} , D = {4, 7} , D = {6,9} , D = {1,5} , D = {8} , D = {3,10}
1 2 3 4 5 6
b. D1 = {2} , D2 = {4, 7} , D3 = {5, 6} , D4 = {1,9} , D5 = {8} , D6 = {3,10}

c. D1 = {1, 2} , D2 = {4, 7} , D3 = {6} , D4 = {5,9} , D5 = {8} , D6 = {3,10}
d. D1 = {2} , D2 = {4, 7} , D3 = {6} , D4 = {1,5,9} , D5 = {8} , D6 = {3,10}
____ 46. Pornind de la tabel de date observate
n A1 A2 A3
1 A 12,5 14
2 B 11,2 11
3 A 10,3 16
4 C 11,8 12
5 B 12,2 14
6 A 11,5 13
7 C 10,7 12
8 D 11,4 15
9 A 12,2 14
10 D 11,5 16
cu distanta definite prin d ij = A2 ( i ) − A2 ( j ) şi sistemul de clustere C1 = {1, 6, 9} , C2 = {3} , C3 = {2} ,
C4 = {5} , C5 = {4, 7} şi C6 = {8,10} , se obtine urmatoarea matrice de distante intre clustere prin legatura
simpla
a.  0 1, 2 0,3 0,1 0,3 0 
 
 1, 2 0 0, 9 1, 9 0, 4 1,1 
 0,3 0,9 0 1, 0 0, 5 0, 2 
Ds =  
 0,1 1,9 1, 0 0 0, 4 0, 7 
 0,3 0, 4 0,5 0, 4 0 0,3 
 
 0 1,1 0, 2 0, 7 0,3 0 
b.  0 1, 2 0,3 0 0,3 0 
 
 1, 2 0 0, 9 1, 9 0, 4 1,1 
 0,3 0,9 0 1, 0 0, 5 0, 2 
Ds =  
 0 1,9 1, 0 0 0, 4 0, 7 
 0,3 0, 4 0,5 0, 4 0 0,3 
 
 0 1,1 0, 2 0, 7 0,3 0 
c.  0 1, 2 0,3 0 0, 3 0, 4 
 
 1, 2 0 0, 9 1,9 0, 4 1,1 
 0,3 0,9 0 1, 0 0, 5 0, 2 
Ds =  
 0 1, 9 1, 0 0 0, 4 0, 7 
 0,3 0, 4 0, 5 0, 4 0 0,3 
 
 0, 4 1,1 0, 2 0, 7 0, 3 0 
n A1 A2 A3
1 A 12,5 14
2 B 11,2 11
3 A 10,3 16
4 C 11,8 12
5 B 12,2 14
6 A 11,5 13
7 C 10,7 12
8 D 11,4 15
9 A 12,2 14
10 D 11,5 16
completa
a.  0 2, 2 1,3 0, 7 1,8 1,1 
 
 2, 2 0 0,9 1,9 1,5 1, 2 
 1,3 0, 9 0 1, 0 0, 6 0,3 
Dc =  
 0, 7 1,9 1, 0 0 1,5 0,5 
 1,8 1, 5 0, 6 1,5 0 0,8 
 
 1,1 1, 2 0, 3 0, 5 0,8 0 
b.  0 2,1 1,3 0, 7 1,8 1,1 
 
 2,1 0 0,9 1,9 1,5 1, 2 
 1,3 0, 9 0 1, 0 0, 6 0, 3 
Dc =  
 0, 7 1,9 1, 0 0 1,5 0,8 
 1,8 1, 5 0, 6 1, 5 0 0,8 
 
 1,1 1, 2 0,3 0,8 0,8 0 
c.  0 2, 2 1,3 0, 7 1,8 1,1 
 
 2, 2 0 0,9 1,9 1,5 1, 2 
 1,3 0, 9 0 1, 0 0, 6 0,3 
Dc =  
 0, 7 1,9 1, 0 0 1,5 0,8 
 1,8 1, 5 0, 6 1,5 0 0,8 
 
 1,1 1, 2 0, 3 0,8 0,8 0 
n A1 A2 A3
1 A 12,5 14
2 B 11,2 11
3 A 10,3 16
4 C 11,8 12
5 B 12,2 14
6 A 11,5 13
7 C 10,7 12
8 D 11,4 15
9 A 12,2 14
10 D 11,5 16
medie
a.  0 1, 7666 0,8666 0,3333 1,8333 1, 2333 
 
 1, 7666 0 0,9000 1,9000 0,9500 1,1500 
 0,8666 0,9000 0 1, 0000 0,5500 0, 2500 
Dm ≅  
 0,3333 1, 9000 1, 0000 0 0,9500 0, 7500 
 1,8333 0,9500 0,5500 0, 9500 0 0,5500 
 
 1, 2333 1,1500 0, 2500 0, 7500 0,5500 0 
b.  0 1, 7666 0,8500 0,3333 1,8333 1, 2333 
 
 1, 7666 0 0,9000 1,9000 0,9500 1,1500 
 0,8500 0,9000 0 1, 0000 0,5500 0, 2500 
Dm ≅  
 0,3333 1, 9000 1, 0000 0 0,9500 0, 7500 
 1,8333 0,9500 0,5500 0, 9500 0 0,5500 
 
 1, 2333 1,1500 0, 2500 0, 7500 0,5500 0 
c.  0 1, 7666 0,8666 0,3333 1,8333 1, 2333 
 
 1, 7666 0 0,9000 1,9000 0,9500 1,1500 
 0,8666 0,9000 0 1, 0000 0,5500 0, 2500 
Dm ≅  
 0,3333 1, 9000 1, 0000 0 0,9666 0, 7500 
 1,8333 0,9500 0,5500 0, 9666 0 0,5500 
 
 1, 2333 1,1500 0, 2500 0, 7500 0,5500 0 
____ 49. Considerăm datele din tabelul
n A1 A2 A3
1 A 12,5 14
2 B 11,2 11
3 A 10,3 16
4 C 11,8 12
5 B 12,2 14
6 A 11,5 13
7 C 10,7 12
8 D 11,4 15
9 A 12,2 14
10 D 11,5 16
pentru care vom considera că am ghicit împărŃirea iniŃială în clustere date de dendograma de mai jus,
având clusterele definite prin C1 = {1, 6, 9} , C2 = {3} , C3 = {2} , C4 = {5} , C5 = {4, 7} şi
C6 = {8,10} . Considerăm că atributul pentru care se face împărŃirea în clustere este atributul A2 .
k
Pentru fiecare centroid se foloseşte funcŃia obiectiv dată de relaŃia E ( C ) = ∑∑
2
xi − c j .
j =1 xi ∈C j
Mediile pe fiecare cluster sunt date în tabelul

Cluster C1 C2 C3 C4 C5 C6
medie 12,066 10,3 11,2 12,2 11,25 11,45
Presupunem că intervine o observaŃie nouă care trebuie introdusă în unul din clusterele existente şi care are
valoarea atributului de lucru egală cu 11,6..
Atunci observatia cu numărul 11 va fi plasata cel mai bine, folosind metoda k − medie, in clusterul
a. 2
b. 4
c. 6
____ 50. Care din urmatoarele nu face parte din tehnicile traditionale de analiza datelor
a. analiza regresiei
b. analiza clusterelor
c. analiza multidimensionala
d. invatarea automata
____ 51. Care din urmatoarele nu face parte din tehnicile traditionale de analiza datelor
a. modelarea stochastica
b. clasificarea fuzzy
c. analiza seriilor de timp
d. estimarea neliniara
____ 52. Care din urmatoarele nu face parte din tehnicile moderne de analiza datelor
a. analiza clusterelor
b. recunoasterea formelor
c. logica fuzzy
d. algoritmii genetici
____ 53. Se considera urmatoarele metode de analiza a datelor
1. retelele neuronale
2. invatarea automata
3. analiza multidimensionala
4. clasificarea fuzzy
Dintre acestea formează tehnici moderne de analiză
a. 1+3+4
b. 2+3+4
c. 1+2+3
d. 1+2+4
____ 54. Un proces de descoperire a corelaŃiilor, tiparului şi tendinŃelor, săparea (mining) într-un spaŃiu mare de date
memorate folosind tehnici statistice, de învăŃare automată, de inteligenŃă artificială şi de vizualizare a datelor
se numeşte
a. data learning
b. data mining
c. descoperirea cunostiintelor
____ 55. Care dintre urmatoarele elemente raportate la toate datele nu pote oferi informatii
a. tiparele
b. atributele
c. asocierile
d. relatiile
____ 56. Se considera urmatoarele tehnici
1. invatarea automata,
2. recunoasterea formelor,
3. statistica matematica,
4. bazele de date,
5. vizualizarea
6. reŃelele neuronale.
Data mining este un domeniu interdisciplinar care grupează tehnicile
a. 1+2+3+6
b. 1+3+4+6
c. 1+2+5+6
d. toate tehnicile enumerate
____ 57. Se considera urmatoarele tehnici
1. arbori de decizie,
2. retele neuronale,
3. impartirea după cel mai apropiat vecin,
4. logica fuzzy
5. algoritmii genetici.
Tehnicile specifice pentru data mining implica
a. 1+2+4+5
b. 1+3+4+5
c. 1+2+3+5
d. toate tehnicile enumerate
____ 58. Modelele neliniare predictive care invata prin antrenament si reasambleaza in structuri retelele neuronale
biologice se numesc
a. retele neuronale fuzzy

b. retele neuronale artificale
c. regula inducerii logice
____ 59. Extragerea de reguli utile dacă-atunci din bazele de date fundamentate de semnificatia statistica poarta numele
de
a. tabele fuzzy
b. regula inducerii
c. arbori de decizie
____ 60. Tehnica de clasificare are imparte fiecare inregistrare in functie de inregistrarile cu similaritatea cea mai mare
cu cea curenta dintr-o baza de date istorica se numeste
a. impartirea după cel mai apropiat vecin

b. impartirea in clustere
c. algoritm genetic
____ 61. Rezolvarea unui model de regresie liniara Yî = βˆ0 + βˆ1 X i se realizează prin
a. Metoda derivatelor partiale
b. Metoda biectiei
c. Metoda celor mai mici patrate
d. Metoda celor mai mari patrate
____ 62. În rezolvarea unui model de regresie liniara Yî = βˆ0 + βˆ1 X i sistemul de ecuatii
 ˆ  n  ˆ
( )
n
 n β 0 +  ∑ i  1 ∑ Yi
X β =
  i =1  i =1
 n
 X  βˆ +  X 2  βˆ =
n n
 ∑
i =1
i  0

 ∑ i  1 ∑ X iYi
 i =1  i =1
Se numeste
a. ecuatiile naturale
b. ecuatiile normale
c. ecuatiile tangente
d. ecuatiile planare
____ 63. Rezolvarea unui model de regresie liniara conduce la soluŃia
a.  n
 ∑ ( X i − X )(Yi − Y )
 β1 = ˆ i =1
n

∑ ( Xi − X )
2
 i =1

 βˆ0 = Y − βˆ1 X
b.  n
 ∑ ( X i − X )(Yi − Y )
 β 0 = ˆ i =1
n

∑ ( Xi − X )
2
 i =1

 βˆ1 = Y − βˆ1 X
c.  n
 ∑ ( X i − X )(Yi − Y )
 β1 =ˆ i =1
n

∑ ( Xi − X )
2
 i =1

 βˆ0 = X − βˆ1Y
d.  n
 ∑ ( X i − X )(Yi − Y )
 β 0 =
ˆ i =1
n

∑ ( Xi − X )
2
 i =1

 βˆ1 = X − βˆ1Y
____ 64. In regresia liniara fiecare valoare observată pentru variabila dependentă Yi se poate scrie ca sumă între media
populaŃiei estimate pentru Y pentru o valoare dată a lui X şi reziduul corespunzător, deci
Yi = Yî + ei
Yˆ este partea …………….. prin model a observaŃiei Yi
a. calculabilă
b. contabilizata
c. derivabila
d. reductibila
____ 65. In regresia liniara fiecare valoare observată pentru variabila dependentă Yi se poate scrie ca sumă între media
populaŃiei estimate pentru Y pentru o valoare dată a lui X şi reziduul corespunzător, deci
Yi = Yî + ei
ei reflectă partea
a. necontabilizată
b. necalculabila
c. nederivabila
d. nereductibila
____ 66. Intr-un model de regresie liniara folosind sumele de patrate putem scrie relatia
n
∑Y
i =1
i
2
= S 2 ( model ) + S 2 ( rez )
componenta S 2 ( model ) reprezintă suma pătratelor

a. contabilizate
b. calculabile
c. reductibile
d. derivabile
____ 67. Intr-un model de regresie liniara folosind sumele de patrate putem scrie relatia
n
∑Y
i =1
i
2
= S 2 ( model ) + S 2 ( rez )
S 2 ( rez ) este termenul ………………….. al sumei pătratelor.

a. nederivabil
b. necalculabil
c. necontabilizat
d. nereductibil
n
____ 68. Fie U = ∑aY
i =1
i i o funŃie liniară arbitrară de variabilele aleatoare Yi , i = 1, 2,..., n , unde ai sunt constante.
Formula generală a dispersiei funcŃiei U este ……………………,

a. n n n
∑
Var (U ) = ai2Var ( Yi ) + ∑∑ ( )
ai a j Cov Yi , Y j , unde Cov ( a, b ) desemnează
i =1 i =1 j =1
j ≠i
covarianŃa dintre variabilele aleatoare a şi b .

b. n n
Var (U ) = ∑∑ ai a j Cov (Yi , Y j ) , unde Cov ( a, b ) desemnează covarianŃa dintre
i =1 j =1
j ≠i
variabilele aleatoare a şi b .
c. n
Var (U ) = ∑ ai2Var (Yi )
i =1
n n
____ 69. Fie U = ∑ aiYi şi V = ∑ biYi două funcŃii liniare în variabilele aleatoare Yi , i = 1, 2,..., n , unde ai şi bi
i =1 i =1
sunt coeficienŃi constanŃi. Formula generală a covarianŃei funcŃiilor liniare U şi V este
a. n n
Cov (U ,V ) = ∑∑ ai b j Cov (Yi , Y j )
i =1 j =1
j ≠i
b. n n n
Cov (U ,V ) = ∑ ai bVar
i (Yi ) + ∑∑ aib j Cov (Yi , Y j )
i =1 i =1 j =1
j ≠i
c. n
Cov (U , V ) = ∑ ai bVar
i (Yi )
i =1
____ 70. In modelul regresiei liniare avem

a. σ2 n 2
( )
Var βˆ1 =
n
∑x
i =1
i
b. σ2
( )
Var βˆ1 = n
n∑ xi2
i =1
c. σ2
( )
Var βˆ1 = n
∑ xi2
i =1
____ 71. In modelul regresiei liniare avem

a.  
1 ( Xi − X ) 
2
( )
Var Yî =  +
n
n
σ 2

 ∑
i =1
xi2

b.  
1 1  2
( )
Var Yî =  + n
n 2
σ
 ∑i =1
xi

c.
(X −X)
2
( )
Var Yî =
i
n
σ2
n∑ xi2
i =1
____ 72. Din perspective ……………………….. clusterele corespund surselor ascunse, fiecare cluster este o
învăŃare nesupervizată, iar sistemul rezultat este un concent al datelor
a. recunosterii formelor
b. invatarii automate
c. retelelor neurofuzzy
____ 73. Impartirea inclustere trebuie să facă fata la o serie de necesitati printer care nu se afla si
a. imprastierea mare a datelor
b. volum foarte mare de date
c. obiecte cu număr mare de atribute
d. atribute de tipuri diferite
____ 74. O unitate nu este un ……………. elementar care are subdomeniile constând dintr-o valoare simplă de
categorie sau un interval numeric unitar
a. segment
b. cub
c. concept
____ 75. ÎmpărŃirea în clustere ierarhizate combină obiectivele datelor în clustere, acestea în clustere mai mari, şi aşa
mai departe, stabilind o ierarhie. Arborele care reprezintă această ierarhie poarta numele de
a. decigrama
b. dendograma
c. dedograma
____ 76. Printre metodele de abordare a impartirii in clustere nu se numara si
a. aglomerarea
b. nivelarea
c. divizarea
____ 77. Se consideră următoarele enunŃuri:
1. flexibilitate în ce priveşte nivelul de detaliere,
2. uşurinŃa în manipularea oricărei forme de similaritate sau distanŃă,
3. aplicabilitate la orice tip de atribut
4. cei mai mulŃi algoritmi bazaŃi pe clustere ierarhizate nu mai revizuiesc clusterele intermediare deja
construite
ÎmpărŃirea în clustere ierarhizate include următoarele aventaje:
a. 1=2+4
b. 1+3+4
c. 2+3+4
d. 1+2+3
____ 78. Se considera urmatoarele enunturi
1. ne-aplicabilitate la orice tip de atribut
2. cei mai mulŃi algoritmi bazaŃi pe clustere ierarhizate nu mai revizuiesc clusterele intermediare deja
construite
3. dificultatea alegerii unui criteriu corect de oprire,
4. inflexibilitate în ce priveşte nivelul de detaliere,
Dezavantajele ale împărŃirii în clustere ierarhizate sunt
a. 1+4
b. 2+3
c. 1+3
d. 2+4
____ 79. Dacă C1 şi C2 sunt două clustere, definim mulŃimea D12 = {d ( x, y ) x ∈ C1 , y ∈ C2 } , iar distanŃa
dintre cele două clustere este dată prin definiŃie, pentru legatura simpla prin relatia
a. 1
d s ( C1 , C2 ) = min D12
2
b. d ( C , C ) = min D
s 1 2 12
c. d s ( C1 , C2 ) = min D12
dintre cele două clustere este dată prin definiŃie, pentru legatura completa prin relatia
a. d ( C , C ) = max D
c 1 2 12
b. dc ( C1 , C2 ) = max D12
c. 1
d c ( C1 , C2 ) = max D12
2
dintre cele două clustere este dată prin definiŃie, pentru legatura medie prin relatia
a. 1
d m ( C1 , C2 ) = ∑a
n a∈D12
b. 1
d m ( C1 , C2 ) =
n2
∑a
a∈D12
c. 1
d m ( C1 , C2 ) =
D12
∑a
a∈D12
____ 82. La impartirea in clustere bazata pe invatarea conceptuala deciziile se bazează pe funcŃia de utilitate a
categoriei dată prin relaŃia:
1 k
f CU ( C1 , C2 ,..., Ck ) = ∑ fCU ( C j )
k j =1
unde
a. Ai
( ( )) ( ( )) 
d
f CU ( C j ) = ∑∑  P xi = uip C j
2 2
− P xi = uip C p
i =1 p =1 
b. Ai
( ( )) − ( P ( x = u )) 
d
f CU ( C j ) = ∑∑  P xi = uip C j
2 2
i ip
i =1 p =1 
c. Ai
( ) ( )
d
f CU ( C j ) = ∑∑  P ( xi = u jp ) − P ( xi = uip ) 
2 2

i =1 p =1 

1. procesul poate fi modificat pentru a manipula puncte care sunt înregistrate în structuri
complexe;
2. procesul poate fi oprit şi reluat cu şiruri consecutive de date deoarece clusterele au
reprezentările în totală independenŃă faŃă de mulŃimile de puncte;
3. în orice etapă a procesului iterativ se poate folosi modelul mixt intermediar pentri asocieera
punctelor la clustere;
4. procesul are ca erzultat un sistem de clustere uşor de interpretat.
Impartirea in clustere probabilistice are urmatoarele facilitati
a. 1+2+3
b. 1+3+4
c. 2+3+4
d. toare cele 4 variantele indicate
____ 84. La impartirea in clustere k − medie funcŃia obiectiv bazată pe norma euclidiană, suma erorilor dintre puncte
şi centroizii corespunzători este egală cu variaŃia totală dintre clustere:
a. k
E (C ) = ∑ ∑
2
xi − c j
j =1 xi ∈C j
b. k
E (C ) = ∑ ∑ min xi − c j
j =1 xi ∈C j
c. k
E (C ) = ∑ ∑ max xi − c j
j =1 xi ∈C j

1. rezultatele depind în mare măsura de ghicirea iniŃială a centroizilor;
2. optimul local calculat poate fi mult diferit de cel global;
3. nu este clar modul de alegere a unei bune valori pentru nuărul de clustere k ;
4. se poate utiliza doar pentru atribute numerice;
5. clusterele obŃinute pot fi nebalansate, unele chiar vide în anumite condiŃii speciale.
ÎmpărŃirea în clustere prin metoda k − medie are ca dezavantaje
a. 1+3+5
b. 2+3+4
c. 1+2+4
d. 1+4+5
e. toate cele 5 variante enuntate

Data Mining Rezolvate

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining Rezolvate

Uploaded by

Copyright:

Available Formats

True/False

Indicate whether the sentence or statement is true or false.

_F__ 12. Pentru un model de regresie liniara valoarea ∑Y

Atunci ecuatia de regresie este

Se consideră următoarele tabele

Se consideră următoarele tabele

Suma pătratelor total necorectată a lui Yi este:

Suma pătratelor contabilizabile este S 2 ( model ) =

Suma pătratelor total corectate se obŃine ca S 2 ( total ) =

Coeficientul de determinare este R 2 =

Si considerăm că σ = 7, 5 . Atunci Var βˆ1 =

Si considerăm că σ = 7, 5 . Atunci Var Yˆi =

____ 43. Fie datele observate din următorul tabel:

b. C A = {1,3,9} , C B = {2, 5, 6} , CC = {4, 7} şi C D = {8,10}

b. C1 = {1, 6, 9} , C2 = {2} , C3 = {3} , C4 = {4, 7} , C5 = {5} si C6 = {8,10}

b. D1 = {2} , D2 = {4, 7} , D3 = {5, 6} , D4 = {1,9} , D5 = {8} , D6 = {3,10}

Mediile pe fiecare cluster sunt date în tabelul

a. retele neuronale fuzzy

a. impartirea după cel mai apropiat vecin

componenta S 2 ( model ) reprezintă suma pătratelor

S 2 ( rez ) este termenul ………………….. al sumei pătratelor.

Formula generală a dispersiei funcŃiei U este ……………………,

covarianŃa dintre variabilele aleatoare a şi b .

____ 70. In modelul regresiei liniare avem

____ 71. In modelul regresiei liniare avem

____ 85. Se considera urmatoarele enunturi

You might also like