Professional Documents
Culture Documents
_F__ 1. Tehnicile traditionale de analiza datelor sunt orientate in principal pe extragerea datelor pe baza unor
caracteristici cantitative si statistice si astfel au un grad mic de limitare.
_T__ 2. Prin data mining se doreste să se extragă din datele existente acele componente inplicite,
necunoscute anterior si care sa fie potential utile.
_F__ 3. Analiza statistica poate da o caracterizare a dependentelor abstracte si conceptuale pentru un nivel sau o
procedura a datelor.
_F__ 4. Sectionarea numerica pote crea o clasificare a entitatilor si sa specifice o similaritate numerica intre entitati
reunite in acelasi cluster sau in clustere diferite.
_T__ 5. EsenŃa cercetarilor din invatarea automata este de a dezvolta metode de calcul pentru a ajunge la cunostiinte
pornind de la fapte si de la cunostiinte anterioare.
_F__ 6. Extragerea regularitatilor datelor nu se poate face direct sub forma de cunostiinte care sa caracterizeze relatiile
dintre variabilele care interesează
_F__ 7. Extragerea regularitatilor datelor nu se poate face indirect, ca functii care sa permita predictia, clasificarea sau
reprezentarea regularitatilor din distributia datelor.
_F__ 8. Metadatele sunt reprezentarea oricarui fapt, si date despre datele insele, cum ar fi constructia logică a bazelor
de date sau definitiile dictionarului de date.
_T__ 9. InformaŃiile pot fi transformate în cunoştiinŃe asupra tiparelor istorice şi a tendinŃelor viitoare.
_T__ 10. Data mining este descoperirea eficientă a informaŃiilor evaluabile şi neevidente dintr-o colecŃie mare de date.
_T__ 11. Rezolvarea unui model de regresie liniara conduce la solutia
n n n
n ∑ X iYi − ∑ X i ∑ Yi
βˆ1 = i =1 i =1 i =1
2
n
2
n
n ∑ Xi − ∑ Xi
i =1 i =1
n
n
_T__ 13. In modelul de regresie liniara in locul formulei S 2( model) = ∑ Yˆi 2 se foloseste si
i =1
n
S 2 ( model ) = nY 2 + βˆ12 ∑ ( X i − X )
2
i =1
_F__ 14. In modelul de regresie liniara coeficientul de determinare este dat prin formula
n
∑y i
2
R2 = i =1
S 2 ( regr )
n n
_T__ 15. Pentru un model unual de regresie avem ∑∑ a b Cov Y( , Y =) 0
i = 1j = 1
i j i j
j ≠i
n
_F__ 16. Fie U = ∑ a Y . Daca toate variabilele aleatoare
i =1
i i Yi are dispersia comună şi egală cu σ 2 , atunci
Var (U ) = σ 2 .
n n
_T__ 17. Fie U = ∑aY
i =1
i i şi V = ∑ b Y . Daca toate variabilele aleatoare Y
i =1
i i i are dispersia comună şi egală cu σ 2 ,
n
atunci Cov (U , V ) = σ 2 ∑ab .
i =1
i i
_F__ 18. Un model de regresie multipla care in scrierea matriciala are forma Y = X β + ε si in care matricea x are
rangul egal cu numarul parametrilor se numeste midel cu rang incomplete
_T__ 19. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci funcŃia ( )
densitate de probabilitate reunită pentru vectorul ε este dată prin relaŃia
n
n
− ∑εi2
2π i =1
fε ( ε1 , ε 2 ,..., ε n ) = e
2σ 2
.
σ
_T__ 20. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci funcŃia ( )
densitate de probabilitate reunită pentru Y este
n 2
n
− ∑ yi −( β0 + β1X i1 +...+ β p X ip )
2π i =1
fY ( y1 , y2 ,..., yn ) = e 2σ 2
.
σ
_F__ 21. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci ( )
Y ~ N ( β ,σ 2 I )
_T__ 22. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N ( 0, σ 2 ) , atunci
(
βˆ ~ N β , ( X ′X ) σ 2
−1
)
_T__ 23. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci ( )
Yˆ ~ N ( X β , Pσ 2 ) .
_F__ 24. In regresia multipla, presupunand ca fiacare eroare este o variabila aleatoare ε i ~ N 0, σ 2 , atunci ( )
e ~ N ( β , ( I − P )σ 2 ) .
_T__ 25. O modelare a datelor prin care ele sunt puse într-o perspectivă istorică pe baze matematice, în
special statistice este o impartire in clustere.
_T__ 26. Cea mai simplă submulŃime dintr-un spaŃiu de atribute este un produs cartezian direct al subdomeniilor, adică
d
C = ∏ Ci ⊂ A , Ci ⊂ Ai , numit celula
i =1
_T__ 27. Scopul împărŃirii în clustere este de a asocia punctele de date la un sistem finit format din k submulŃimi care
sa formeze o partitie.
_T__ 28. În împărŃirea în clustere prin ierarhizare se consideră adesea că reprezentarea normală a datelor sub forma
punct-atribut nu este primordială şi poate fi înlocuită cu succes de o matrice de dimensiune n × n (matrice
pătrată de ordin n ) care indică distanŃele (lipsa de similaritate) sau similaritatea dintre puncte, numită matrice
de conectivitate.
_F__ 29. Graful ponderat asociat unei metrici de conectivitate are un arc ( i, j ) daca si numai daca aij = 0
_T__ 30. În împărŃirea în clustere bazată pe învăŃarea conceptuală fiecare cluster este considerat ca un model
ce poate fi descris în mod intrinsec şi nu ca o colecŃie de puncte associate
_F__ 31. La impartirea in clustere bazata pe invatarea conceptuala funcŃia de utilitate a categoriei penalizeaza
clusterele C j la creşterea predictibilităŃii valorii uip de atribut al categoriei.
_T__ 32. La impartirea in clustere probabilistice verosimilitatea globală a unor date urmărite este
probabilitatea lor de a fi construite într-un model mixt dat, deci
n k
L ( X C ) = ∏ ∑ τ j P ( xi C j ) .
i =1 j =1
Multiple Choice
Identify the letter of the choice that best completes the statement or answers the question.
____ 33. Fie un model de regresie liniara pentru care datele sunt date de tabelul
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Xi 11 13 12 10 14
Yi 4 7 3 5 6
a. a
b. b
c. c
____ 35. Fie un model de regresie liniara pentru care datele sunt date de tabelul
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Xi 11 13 12 10 14
Yi 4 7 3 5 6
Xi 11 13 12 10 14
Yi 4 7 3 5 6
( )
Si considerăm că σ 2 = 7, 5 . Atunci Var βˆ0 =
a. 104,5
b. 107,5
c. 109,5
____ 42. Fie un model de regresie liniara pentru care datele sunt date de tabelul
Xi 11 13 12 10 14
Yi 4 7 3 5 6
b.
0, 75 ( 2 + ( X − 12 ) )
2
i
c.
0, 6 ( 2 + ( X − 11) )
2
i
a. analiza regresiei
b. analiza clusterelor
c. analiza multidimensionala
d. invatarea automata
____ 51. Care din urmatoarele nu face parte din tehnicile traditionale de analiza datelor
a. modelarea stochastica
b. clasificarea fuzzy
c. analiza seriilor de timp
d. estimarea neliniara
____ 52. Care din urmatoarele nu face parte din tehnicile moderne de analiza datelor
a. analiza clusterelor
b. recunoasterea formelor
c. logica fuzzy
d. algoritmii genetici
____ 53. Se considera urmatoarele metode de analiza a datelor
1. retelele neuronale
2. invatarea automata
3. analiza multidimensionala
4. clasificarea fuzzy
Dintre acestea formează tehnici moderne de analiză
a. 1+3+4
b. 2+3+4
c. 1+2+3
d. 1+2+4
____ 54. Un proces de descoperire a corelaŃiilor, tiparului şi tendinŃelor, săparea (mining) într-un spaŃiu mare de date
memorate folosind tehnici statistice, de învăŃare automată, de inteligenŃă artificială şi de vizualizare a datelor
se numeşte
a. data learning
b. data mining
c. descoperirea cunostiintelor
____ 55. Care dintre urmatoarele elemente raportate la toate datele nu pote oferi informatii
a. tiparele
b. atributele
c. asocierile
d. relatiile
____ 56. Se considera urmatoarele tehnici
1. invatarea automata,
2. recunoasterea formelor,
3. statistica matematica,
4. bazele de date,
5. vizualizarea
6. reŃelele neuronale.
Data mining este un domeniu interdisciplinar care grupează tehnicile
a. 1+2+3+6
b. 1+3+4+6
c. 1+2+5+6
d. toate tehnicile enumerate
____ 57. Se considera urmatoarele tehnici
1. arbori de decizie,
2. retele neuronale,
3. impartirea după cel mai apropiat vecin,
4. logica fuzzy
5. algoritmii genetici.
Tehnicile specifice pentru data mining implica
a. 1+2+4+5
b. 1+3+4+5
c. 1+2+3+5
d. toate tehnicile enumerate
____ 58. Modelele neliniare predictive care invata prin antrenament si reasambleaza in structuri retelele neuronale
biologice se numesc
n β 0 + ∑ i 1 ∑ Yi
X β =
i =1 i =1
n
X βˆ + X 2 βˆ =
n n
∑
i =1
i 0
∑ i 1 ∑ X iYi
i =1 i =1
Se numeste
a. ecuatiile naturale
b. ecuatiile normale
c. ecuatiile tangente
d. ecuatiile planare
____ 63. Rezolvarea unui model de regresie liniara conduce la soluŃia
a. n
∑ ( X i − X )(Yi − Y )
β1 = ˆ i =1
n
∑ ( Xi − X )
2
i =1
βˆ0 = Y − βˆ1 X
b. n
∑ ( X i − X )(Yi − Y )
β 0 = ˆ i =1
n
∑ ( Xi − X )
2
i =1
βˆ1 = Y − βˆ1 X
c. n
∑ ( X i − X )(Yi − Y )
β1 =ˆ i =1
n
∑ ( Xi − X )
2
i =1
βˆ0 = X − βˆ1Y
d. n
∑ ( X i − X )(Yi − Y )
β 0 =
ˆ i =1
n
∑ ( Xi − X )
2
i =1
βˆ1 = X − βˆ1Y
____ 64. In regresia liniara fiecare valoare observată pentru variabila dependentă Yi se poate scrie ca sumă între media
populaŃiei estimate pentru Y pentru o valoare dată a lui X şi reziduul corespunzător, deci
Yi = Yˆi + ei
Yˆ este partea …………….. prin model a observaŃiei Yi
a. calculabilă
b. contabilizata
c. derivabila
d. reductibila
____ 65. In regresia liniara fiecare valoare observată pentru variabila dependentă Yi se poate scrie ca sumă între media
populaŃiei estimate pentru Y pentru o valoare dată a lui X şi reziduul corespunzător, deci
Yi = Yˆi + ei
ei reflectă partea
a. necontabilizată
b. necalculabila
c. nederivabila
d. nereductibila
____ 66. Intr-un model de regresie liniara folosind sumele de patrate putem scrie relatia
n
∑Y
i =1
i
2
= S 2 ( model ) + S 2 ( rez )
∑Y
i =1
i
2
= S 2 ( model ) + S 2 ( rez )
∑
Var (U ) = ai2Var ( Yi ) + ∑∑ ( )
ai a j Cov Yi , Y j , unde Cov ( a, b ) desemnează
i =1 i =1 j =1
j ≠i
variabilele aleatoare a şi b .
c. n
Var (U ) = ∑ ai2Var (Yi )
i =1
n n
____ 69. Fie U = ∑ aiYi şi V = ∑ biYi două funcŃii liniare în variabilele aleatoare Yi , i = 1, 2,..., n , unde ai şi bi
i =1 i =1
sunt coeficienŃi constanŃi. Formula generală a covarianŃei funcŃiilor liniare U şi V este
a. n n
Cov (U ,V ) = ∑∑ ai b j Cov (Yi , Y j )
i =1 j =1
j ≠i
b. n n n
Cov (U ,V ) = ∑ ai bVar
i (Yi ) + ∑∑ aib j Cov (Yi , Y j )
i =1 i =1 j =1
j ≠i
c. n
Cov (U , V ) = ∑ ai bVar
i (Yi )
i =1
b. σ2
( )
Var βˆ1 = n
n∑ xi2
i =1
c. σ2
( )
Var βˆ1 = n
∑ xi2
i =1
( )
Var Yˆi = +
n
n
σ 2
∑
i =1
xi2
b.
1 1 2
( )
Var Yˆi = + n
n 2
σ
∑i =1
xi
c.
(X −X)
2
( )
Var Yˆi =
i
n
σ2
n∑ xi2
i =1
____ 72. Din perspective ……………………….. clusterele corespund surselor ascunse, fiecare cluster este o
învăŃare nesupervizată, iar sistemul rezultat este un concent al datelor
a. recunosterii formelor
b. invatarii automate
c. retelelor neurofuzzy
____ 73. Impartirea inclustere trebuie să facă fata la o serie de necesitati printer care nu se afla si
a. imprastierea mare a datelor
b. volum foarte mare de date
c. obiecte cu număr mare de atribute
d. atribute de tipuri diferite
____ 74. O unitate nu este un ……………. elementar care are subdomeniile constând dintr-o valoare simplă de
categorie sau un interval numeric unitar
a. segment
b. cub
c. concept
____ 75. ÎmpărŃirea în clustere ierarhizate combină obiectivele datelor în clustere, acestea în clustere mai mari, şi aşa
mai departe, stabilind o ierarhie. Arborele care reprezintă această ierarhie poarta numele de
a. decigrama
b. dendograma
c. dedograma
____ 76. Printre metodele de abordare a impartirii in clustere nu se numara si
a. aglomerarea
b. nivelarea
c. divizarea
____ 77. Se consideră următoarele enunŃuri:
1. flexibilitate în ce priveşte nivelul de detaliere,
2. uşurinŃa în manipularea oricărei forme de similaritate sau distanŃă,
3. aplicabilitate la orice tip de atribut
4. cei mai mulŃi algoritmi bazaŃi pe clustere ierarhizate nu mai revizuiesc clusterele intermediare deja
construite
ÎmpărŃirea în clustere ierarhizate include următoarele aventaje:
a. 1=2+4
b. 1+3+4
c. 2+3+4
d. 1+2+3
____ 78. Se considera urmatoarele enunturi
1. ne-aplicabilitate la orice tip de atribut
2. cei mai mulŃi algoritmi bazaŃi pe clustere ierarhizate nu mai revizuiesc clusterele intermediare deja
construite
3. dificultatea alegerii unui criteriu corect de oprire,
4. inflexibilitate în ce priveşte nivelul de detaliere,
Dezavantajele ale împărŃirii în clustere ierarhizate sunt
a. 1+4
b. 2+3
c. 1+3
d. 2+4
____ 79. Dacă C1 şi C2 sunt două clustere, definim mulŃimea D12 = {d ( x, y ) x ∈ C1 , y ∈ C2 } , iar distanŃa
dintre cele două clustere este dată prin definiŃie, pentru legatura simpla prin relatia
a. 1
d s ( C1 , C2 ) = min D12
2
b. d ( C , C ) = min D
s 1 2 12
c. d s ( C1 , C2 ) = min D12
____ 80. Dacă C1 şi C2 sunt două clustere, definim mulŃimea D12 = {d ( x, y ) x ∈ C1 , y ∈ C2 } , iar distanŃa
dintre cele două clustere este dată prin definiŃie, pentru legatura completa prin relatia
a. d ( C , C ) = max D
c 1 2 12
b. dc ( C1 , C2 ) = max D12
c. 1
d c ( C1 , C2 ) = max D12
2
____ 81. Dacă C1 şi C2 sunt două clustere, definim mulŃimea D12 = {d ( x, y ) x ∈ C1 , y ∈ C2 } , iar distanŃa
dintre cele două clustere este dată prin definiŃie, pentru legatura medie prin relatia
a. 1
d m ( C1 , C2 ) = ∑a
n a∈D12
b. 1
d m ( C1 , C2 ) =
n2
∑a
a∈D12
c. 1
d m ( C1 , C2 ) =
D12
∑a
a∈D12
____ 82. La impartirea in clustere bazata pe invatarea conceptuala deciziile se bazează pe funcŃia de utilitate a
categoriei dată prin relaŃia:
1 k
f CU ( C1 , C2 ,..., Ck ) = ∑ fCU ( C j )
k j =1
unde
a. Ai
( ( )) ( ( ))
d
f CU ( C j ) = ∑∑ P xi = uip C j
2 2
− P xi = uip C p
i =1 p =1
b. Ai
( ( )) − ( P ( x = u ))
d
f CU ( C j ) = ∑∑ P xi = uip C j
2 2
i ip
i =1 p =1
c. Ai
( ) ( )
d
f CU ( C j ) = ∑∑ P ( xi = u jp ) − P ( xi = uip )
2 2
i =1 p =1
____ 83. Se considera urmatoarele enunturi
1. procesul poate fi modificat pentru a manipula puncte care sunt înregistrate în structuri
complexe;
2. procesul poate fi oprit şi reluat cu şiruri consecutive de date deoarece clusterele au
reprezentările în totală independenŃă faŃă de mulŃimile de puncte;
3. în orice etapă a procesului iterativ se poate folosi modelul mixt intermediar pentri asocieera
punctelor la clustere;
4. procesul are ca erzultat un sistem de clustere uşor de interpretat.
Impartirea in clustere probabilistice are urmatoarele facilitati
a. 1+2+3
b. 1+3+4
c. 2+3+4
d. toare cele 4 variantele indicate
____ 84. La impartirea in clustere k − medie funcŃia obiectiv bazată pe norma euclidiană, suma erorilor dintre puncte
şi centroizii corespunzători este egală cu variaŃia totală dintre clustere:
a. k
E (C ) = ∑ ∑
2
xi − c j
j =1 xi ∈C j
b. k
E (C ) = ∑ ∑ min xi − c j
j =1 xi ∈C j
c. k
E (C ) = ∑ ∑ max xi − c j
j =1 xi ∈C j