You are on page 1of 75

Spolehlivost (Confidence) = a/a+b

Podpora (Support) = a/(a+b+c+d)


Lift = (a/(a+b))/((a+c)/(a+b+c+d)

Přesnost (Precision):
Pro ANO: a/(a+b)
Pro NE: d/(c+d)

Úplnost (Recall):
Pro ANO: a/(a+c)
Pro NE: d/(b+d)

Správnost (Accuracy) = (a+d)/(a+b+c+d)

Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz [U; 0,2] AND [V;
Y] znamená, že nás zajímají dokumenty, ve kterých se vyskytuje deskriptor U a zároveň
deskriptor V. Váha deskriptoru U v tomto dotazu je 0,2, váha deskriptoru V není známá,
značíme ji Y. Váha tohoto dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu
pomocí fuzzy logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y >= 0,4
- Y <= 0,6
- Y = 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ AND bere menší číslo

Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz [U; 0,2] OR [V;
Y] znamená, že nás zajímají dokumenty, ve kterých se vyskytuje deskriptor U a zároveň
deskriptor V. Váha deskriptoru U v tomto dotazu je 0,2, váha deskriptoru V není známá,
značíme ji Y. Váha tohoto dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu
pomocí fuzzy logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y <= 0,4
- Y = 0,5
- Y >= 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ OR bere větší číslo

Který z následujících termínů nesouvisí s problematikou PAgeRanku?


+ matice incidence
- konvergenční kritérium
- rank sink
- náhodný surfař
- žádná z předchozích

Co rozpozná regulární výraz 00*?10+ v řetezci 1010001001?


- celý řetězec
+ 01000
- 01001
- 101000

Dokument má 2 deskriptory U a V. U je 0,5 a V je 0,4. Dotaz [U; 0,8] OR [V; 0,2]. Váha
tohoto dotazu je X a je rovna?
- X = 0,5
- X = 0,2
-X=1
+ X = 0,4

Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární výraz rozpozná v


textu: name@domain.cz?
- name@domain
- žádné z uvedených
+ domain
- domain.

Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý?


- 9. 9a1
- žádný z uvedených
+ 5. w?w
- 8.klk

Jaká je správná syntaxe pro pole obsahující pět čísel 1,2,3,4,5 v JSON?
+ [1,2,3,4,5]
- (1,2,3,4,5)
- <1,2,3,4,5>
- {1,2,3,4,5}

Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když přesnost je 1/3?
+ 60
- 20
- 30
- 40

Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když úplnost je 1/2?
- 60
- 20
+ 30
- 40

Nejvyšší entropii mají prvky?


+ Kde je T a F půl na půl. (entropie=1)

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je správnost?


+ 500/550
- 235/550
- 50/500
- 235/250

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je úplnost pro třídu ANO?
- 500/550
+ 235/270
- 265/280
- 235/250

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je přesnost pro třídu ANO?
+ 235/250
- 235/550
- 50/500
- 235/270
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false positive?
+ 15
- 235
- 265
- 35

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota true negative?
- 15
- 235
+ 265
- 35

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false negative?
- 15
- 235
- 265
+ 35

Jaku bude vypadat Google matice při dumping faktoru 1?


+ Totožná s maticí S

Co matchne: a+?a v řetezci aaaaaaa?aaa


+ aa

Kolik maximálně znaků bude obsahovat match regexu: ^\???$?


+1

Co není v regexu kvantifikátor?


- otazník
+ pomlčka
- plus
- hvězdička

Normalizovaná term frekvence může nabývat hodnot?


+ menších nebo rovno 1

Regulární výraz [a-z]{4} je zde použit jaký typ lookaround?


- nagativní lookhead
- atomický lookaround
- pozitivní lookbehond
+ žádná z předchozích

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Pokud bychom (?:cde)


nahradili podvýrazem (cde), jak by bylo třeba upravit zbytek výrazu, aby se rozpoznávaná
množina znaků nezměnila?
- (cde)(?:abc)X?[abc]*
- (cde)(abc)X?[abc]*\1
- (cde)(?:abc)X?[abc]*\1
+ (cde)(abc)X?[abc]*?\2

Co rozpozná regex výraz $ pokud je aktivován režim multiline?


+ konec řádku
- začátek řádku
- konec řetězce
- začátek řetězce

Kolik maximálně znaků rozpozná regex ^\???$?


-2
-5
+1
-0

Jaká JSON hodnota je nevalidní?


- 1.5
- 1500
- ["a","b","c"]
+ všechny jsou validní

Jak se liší poměrný informační zisk použitý v algoritmu C4.5 od informačního zisku ID3?
+ informační zisk preferuje atributy s vysokým počtem hodnot, poměrný informační člen má
normalizační cosi, který to řeší
+ umožňuje zpracovat spojité atributy
- zaručuje optimální řešení
- poměr informačního zisku kořenového a cílového atributu

Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že?


+ minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové
- žádná z předchozích
- maximalizují vnitroshlukové vzdálenosti a minimalizují mezishlukové
- maximalizují vnitroshlukové vzdálenosti i mezishlukové

Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude centroid?


- [12,15,9]
- [4,4,0]
+ žádná z předchozích

Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0. Kolik je celkem


zaindexovaných dokumentů?
+ 10
- log10
- 10*10
- žádná z předchozích

K čemu neslouží jazyk XML Schema?


- K popsání struktury XML doku
+ k definici vizuální reprezentace informací obsažených v XML doku
- k definici omezení na obsah elementů v XML doku
- k definici povolených elementů v XML dokumentu

Které tvrzení o formátu CSV není pravdivé?


- každý záznam obsahuje stejné pole ve stejném pořadí
- je možno použít libovolné kódování
+ obsahuje záznamy, jeden záznam může být na více řádcích
- není možné vyjádřit relace mezi záznamy

Pro jaký způsob využití v procesu hodnocení webové stránky na určitý dotaz byl algoritmus
PageRank navržen?
+ Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je
první ve výsledích
- Výsledná relevance stránky vznikne zkombinováním hodnoty PR s hub score
- Hodnota PR pro danou stránku se zkombinuje s dalšími měrami relevance stránky na daný
dotaz
- Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je
poslední ve výsledích

Uvedený regex \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} rozpozná ipv4 adresu, upravte tak, aby třetí
byte byl vždy stejný jako druhý?
+ \d{1,3}\.(\d{1,3})\.\1\.\d{1,3}
- (\d{1,3}\.){2}\d{1,3}\.\d{1,3}
- (=next)(\-\d{1,3})\.\d{1,3}\.\d{1,3}
- (\d{1,3}\.)(=previous)\d{1,3}\.\d{1,3}

Označme symbolem G Google matici a symbolem H příslušnou H matici celého internetu.


Jaké tvrzení je pravdivé?
+ Matice G je hustší než matice H
- Matice G je stejně hustá jako matice H
- Matice G může být v některých případech řidší než matice H, jindy hustší
- Matice G je ridší než matice H

Jako konvergenční krit algoritmu Page Rank byl zvolen rozdíl L1 normy oproti předchozí
itineraci. Jaká bude velikost tohoto rozdílu máme-li tyto vektory Pi5=[0,489 0,090 0,465
0,040] a pi6=[0,423 0,090 0,456 0,040]
- 0,073
-1
+ žádná z předchozích

Pro rozšiřování Boolovského modelu vyhledávání dokumentů platí?


- řazení vybraných dokumentů podle důležitosti nepatří mezi důvody rozšiřování
- rozlišení důležitosti deskriptorů v dotazu nepatří mezi důvody rozšiřování
+ odstranění tvrdosti boolovských operací patří mezi důvody rozšiřování
- žádná z předchozích

Jaký je název pro syntaktický konstrukt (?=b)?


- atomické seskupování
- pozitivní lookbehind
+ pozitivní lookahead
- posesivní kvatifikátor

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Co rozpozná?


+ cdeabcXabc
- cdeabcXabcabc
- abc
- výraz selže

Máme regex b?(aaa)+? co rozpozná v aabaaaaa?


- nic
- aa za béčkem
+ baaa
- aa na začátku

Jaký regex je chybný?


- \\
- a(\^2)?
+ *\w{3,5}
- [^1-3]

Co nesouvisí s algoritmy pro rozhodovací stromy?


+ centroid
- C4.5
- míra dobroty
- poměrný informační zisk

Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je nepravdivé?


- výsledkem algoritmu je přiřazení do právě 1 shluku
- na začátku výpočtu je nutné zvolit počet clusterů
+ výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů
- žádná z předchozích

Které tvrzení vztahující se k logistické regresi je pravdivé? Asi


- Logistická regrese nepracuje přímo s vícehodnotovými kategoriálními proměnnými, ale pro
využití takových proměnných lze využít transformaci na dummy proměnné.
- Logistická regrese nepracuje přímo s vícehodnotovými numerickými proměnnými, ale pro
využití takových proměnných lze využít transformaci na dummy proměnné.
- Parametry modelu logistické regrese je možné získat pomocı́ metody nejmenších čtverců
(normální rovnice).
+ Parametry modelu logistické regrese je možné získat pomocı́ algoritmu největšıh
́ o spádu.

Co platí o tvrzeních v jazyce RDF?


+ Predikát tvrzení musí být identifikován pomocí URL adresy.
- RDF tvrzení se sestávají ze subjektu, objektu a předmětu.
+ Subjekt tvrzení musí být identifikován pomocí URL adresy.
+ Předmět tvrzení může být identifikován pomocí URL adresy.

Které z uvedených patří mezi zásady pro zveřejnování propojených dat? asi
- Preferovaným formátem pro propojená data je XML Schema.
- Preferovaným formátem pro propojená data je JSON.
- Preferovaným formátem pro propojená data je CSV.
- Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes HTTP protokol
(naopak ano)

Vyberte jen jednu z následujících možných odpovědí?


- V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je
výstupní proměnná kvantitativní.
+ V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je
výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je
výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je
výstupní proměnná kvantiativní.

Jaký regex je totožný s (?>.)abc


+ .(abc)
- .abc
- .?abc
- (.?:)abc
Co rozpozná regex výraz ^ pokud je aktivován režim multiline?
- konec řádku
+ začátek řádku
- konec řetězce
- začátek řetězce

Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz


[U; 0,2] AND [V; Y] znamená, že nás zajímají dokumenty, ve kterých se
vyskytuje deskriptor U a zároveň deskriptor V. Váha deskriptoru U v tomto
dotazu je 0,2, váha deskriptoru V není známá, značíme ji Y. Váha tohoto
dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu pomocí fuzzy
logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y >= 0,4
- Y <= 0,6
- Y = 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ AND bere menší číslo

Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz


[U; 0,2] OR [V; Y] znamená, že nás zajímají dokumenty, ve kterých se
vyskytuje deskriptor U a zároveň deskriptor V. Váha deskriptoru U v tomto
dotazu je 0,2, váha deskriptoru V není známá, značíme ji Y. Váha tohoto
dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu pomocí fuzzy
logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y <= 0,4
- Y = 0,5
- Y >= 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ OR bere větší číslo

Který z následujících termínů nesouvisí s problematikou PAgeRanku?


+ matice incidence
- konvergenční kritérium
- rank sink
- náhodný surfař
- žádná z předchozích

Co rozpozná regulární výraz 00*?10+ v řetezci 1010001001?


- celý řetězec
+ 01000
- 01001
- 101000

Dokument má 2 deskriptory U a V. U je 0,5 a V je 0,4. Dotaz [U; 0,8] OR [V;


0,2]. Váha tohoto dotazu je X a je rovna?
- X = 0,5
- X = 0,2
- X = 1
+ X = 0,4

Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární


výraz rozpozná v textu: name@domain.cz?
- name@domain
- žádné z uvedených
+ domain
- domain.

Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý?


- 9. 9a1
- žádný z uvedených
+ 5. w?w
- 8.klk

Jaká je správná syntaxe pro pole obsahující pět čísel 1,2,3,4,5 v JSON?
+ [1,2,3,4,5]
- (1,2,3,4,5)
- <1,2,3,4,5>
- {1,2,3,4,5}

Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když přesnost je 1/3?
+ 60
- 20
- 30
- 40

Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když úplnost je 1/2?
- 60
- 20
+ 30
- 40

Nejvyšší entropii mají prvky?


+ Kde je T a F půl na půl. (entropie=1)

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je správnost?


+ 500/550
- 235/550
- 50/500
- 235/250

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je úplnost pro třídu ANO?
- 500/550
+ 235/270
- 265/280
- 235/250

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je přesnost pro třídu ANO?
+ 235/250
- 235/550
- 50/500
- 235/270

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false positive?
+ 15
- 235
- 265
- 35

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota true negative?
- 15
- 235
+ 265
- 35

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false negative?
- 15
- 235
- 265
+ 35
Jaku bude vypadat Google matice při dumping faktoru 1?
+ Totožná s maticí S

Co matchne: a+?a v řetezci aaaaaaa?aaa


+ aa

Kolik maximálně znaků bude obsahovat match regexu: ^\???$?


+ 1

Co není v regexu kvantifikátor?


- otazník
+ pomlčka
- plus
- hvězdička

Normalizovaná term frekvence může nabývat hodnot?


+ menších nebo rovno 1

Regulární výraz [a-z]{4} je zde použit jaký typ lookaround?


- nagativní lookhead
- atomický lookaround
- pozitivní lookbehond
+ žádná z předchozích

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Pokud bychom


(?:cde) nahradili podvýrazem (cde), jak by bylo třeba upravit zbytek
výrazu, aby se rozpoznávaná množina znaků nezměnila?
- (cde)(?:abc)X?[abc]*
- (cde)(abc)X?[abc]*\1
- (cde)(?:abc)X?[abc]*\1
+ (cde)(abc)X?[abc]*?\2

Co rozpozná regex výraz $ pokud je aktivován režim multiline?


+ konec řádku
- začátek řádku
- konec řetězce
- začátek řetězce

Kolik maximálně znaků rozpozná regex ^\???$?


- 2
- 5
+ 1
- 0

Jaká JSON hodnota je nevalidní?


- 1.5
- 1500
- ["a","b","c"]
+ všechny jsou validní

Jak se liší poměrný informační zisk použitý v algoritmu C4.5 od


informačního zisku ID3?
+ informační zisk preferuje atributy s vysokým počtem hodnot, poměrný
informační člen má normalizační cosi, který to řeší
+ umožňuje zpracovat spojité atributy
- zaručuje optimální řešení
- poměr informačního zisku kořenového a cílového atributu

Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že?


+ minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové
- žádná z předchozích
- maximalizují vnitroshlukové vzdálenosti a minimalizují mezishlukové
- maximalizují vnitroshlukové vzdálenosti i mezishlukové

Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude


centroid?
- [12,15,9]
- [4,4,0]
+ žádná z předchozích

Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0.


Kolik je celkem zaindexovaných dokumentů?
+ 10
- log10
- 10*10
- žádná z předchozích

K čemu neslouží jazyk XML Schema?


- K popsání struktury XML doku
+ k definici vizuální reprezentace informací obsažených v XML doku
- k definici omezení na obsah elementů v XML doku
- k definici povolených elementů v XML dokumentu

Které tvrzení o formátu CSV není pravdivé?


- každý záznam obsahuje stejné pole ve stejném pořadí
- je možno použít libovolné kódování
+ obsahuje záznamy, jeden záznam může být na více řádcích
- není možné vyjádřit relace mezi záznamy

Pro jaký způsob využití v procesu hodnocení webové stránky na určitý dotaz
byl algoritmus PageRank navržen?
+ Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz.
Nejvyšší PR je první ve výsledích
- Výsledná relevance stránky vznikne zkombinováním hodnoty PR s hub score
- Hodnota PR pro danou stránku se zkombinuje s dalšími měrami relevance
stránky na daný dotaz
- Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz.
Nejvyšší PR je poslední ve výsledích

Uvedený regex \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} rozpozná ipv4 adresu,


upravte tak, aby třetí byte byl vždy stejný jako druhý?
+ \d{1,3}\.(\d{1,3})\.\1\.\d{1,3}
- (\d{1,3}\.){2}\d{1,3}\.\d{1,3}
- (=next)(\-\d{1,3})\.\d{1,3}\.\d{1,3}
- (\d{1,3}\.)(=previous)\d{1,3}\.\d{1,3}

Označme symbolem G Google matici a symbolem H příslušnou H matici celého


internetu. Jaké tvrzení je pravdivé?
+ Matice G je hustší než matice H
- Matice G je stejně hustá jako matice H
- Matice G může být v některých případech řidší než matice H, jindy hustší
- Matice G je ridší než matice H

Jako konvergenční krit algoritmu Page Rank byl zvolen rozdíl L1 normy
oproti předchozí itineraci. Jaká bude velikost tohoto rozdílu máme-li tyto
vektory Pi5=[0,489 0,090 0,465 0,040] a pi6=[0,423 0,090 0,456 0,040]
- 0,073
- 1
+ žádná z předchozích

Pro rozšiřování Boolovského modelu vyhledávání dokumentů platí?


- řazení vybraných dokumentů podle důležitosti nepatří mezi důvody
rozšiřování
- rozlišení důležitosti deskriptorů v dotazu nepatří mezi důvody
rozšiřování
+ odstranění tvrdosti boolovských operací patří mezi důvody rozšiřování
- žádná z předchozích

Jaký je název pro syntaktický konstrukt (?=b)?


- atomické seskupování
- pozitivní lookbehind
+ pozitivní lookahead
- posesivní kvatifikátor

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Co rozpozná?


+ cdeabcXabc
- cdeabcXabcabc
- abc
- výraz selže

Máme regex b?(aaa)+? co rozpozná v aabaaaaa?


- nic
- aa za béčkem
+ baaa
- aa na začátku

Jaký regex je chybný?


- \\
- a(\^2)?
+ *\w{3,5}
- [^1-3]

Co nesouvisí s algoritmy pro rozhodovací stromy?


+ centroid
- C4.5
- míra dobroty
- poměrný informační zisk

Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je nepravdivé?


- výsledkem algoritmu je přiřazení do právě 1 shluku
- na začátku výpočtu je nutné zvolit počet clusterů
+ výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů
- žádná z předchozích

Které tvrzení vztahující se k logistické regresi je pravdivé? Asi


- Logistická regrese nepracuje přímo s vícehodnotovými kategoriálními
proměnnými, ale pro využití takových proměnných lze využít transformaci na
dummy proměnné.
- Logistická regrese nepracuje přímo s vícehodnotovými numerickými
proměnnými, ale pro využití takových proměnných lze využít transformaci na
dummy proměnné.
- Parametry modelu logistické regrese je možné získat pomocı́metody
nejmenších čtverců (normální rovnice).
+ Parametry modelu logistické regrese je možné získat pomocı́algoritmu
největšı́
ho spádu.

Co platí o tvrzeních v jazyce RDF?


+ Predikát tvrzení musí být identifikován pomocí URL adresy.
- RDF tvrzení se sestávají ze subjektu, objektu a předmětu.
+ Subjekt tvrzení musí být identifikován pomocí URL adresy.
+ Předmět tvrzení může být identifikován pomocí URL adresy.
Které z uvedených patří mezi zásady pro zveřejnování propojených dat? asi
- Preferovaným formátem pro propojená data je XML Schema.
- Preferovaným formátem pro propojená data je JSON.
- Preferovaným formátem pro propojená data je CSV.
- Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes
HTTP protokol (naopak ano)

Vyberte jen jednu z následujících možných odpovědí?


- V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze
logistické regrese je výstupní proměnná kvantitativní.
+ V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze
logistické regrese je výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze
logistické regrese je výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze
logistické regrese je výstupní proměnná kvantiativní.

Jaký regex je totožný s (?>.)abc


+ .(abc)
- .abc
- .?abc
- (.?:)abc

Co rozpozná regex výraz ^ pokud je aktivován režim multiline?


- konec řádku
+ začátek řádku
- konec řetězce
- začátek řetězce

Podmínkou pro zastavení výpočtu algoritmu PageRank je (vzorec algoritmu).


Jaká bude hodnota ukončovacího kritéria pro vektory [0,25 0,5 0,05 0,2] a
[0,2 0,5 0,15 0,15]:

0,1
0,25
0,15
žádná z předchozích možností

Uvažujme matici G zobrazenou níže a damping faktor 0,8. (obrázek matice).


Pro jaké hodnoty damping faktoru a nebude první řádek uvedené matice G
stejný jako pro první řádek příslušné matice S?:
0,5
(0,5;1.0)
0
Bude vždy stejný

Uvažujte webový graf zobrazený níže a damping faktor 0.8. V algoritmu


PageRank se kromě matice H používá i matice předhodových pravděpodobností S
a "Googe" matice G. (graf stránek). Jak bude vypadat čtvrtý řádek matice S?

[ 0 0 1 0]
[0 1 0 0]
[ 1/4 1/4 1/4 1/4]
[ 0 0 0 1]

Výpis 1 uvádí XML Schéma a výpis 2 kazkový XML dokument, který má schématu
odpovídat. Výpis 2 obsahuje dvě položky - první produkt "Fairetta s
guaranou" a druhý "Čaj černý Kilimanjaro". (Výpis1,Výpis2). Tvůrce XML
dokumentu se ale mohl dopustit chyb vůči XML Schématu. Vyberte jen jednu z
následujících odpovědí:
-element DOSTUPNOST se v prvním elementu POLOŽKA může vyskytnout na
libovolném místé, prolože schéma pozici tohoto elementu nedefinuje
-element DOSTUPNOST se může vyskytnout, jako kořenový dokument
-element DOSTUPNOST v prvním elementu POLOŽKA může nabývat hodnoty "0",
protože schéma množinu přípustných hodnot tohoto elementu neomezuje
-element DOSTUPNOST se nesmí v XML dokumentu vyskytnout

Který z uvedených CSV dokumentů je syntaktický správně?

"id","produkt"

"1","káva\"super"

"id","produkt"

"1",“"káva"super"

id,produkt

1,káva“super

"id“,"produkt"

"1","káva""super"

Jaká z následujících syntaxí je v XML povolena:

-neuzavřené tagy, např.: <br>

-prázdný element <emai1/>

-vyhrazené znaky uvnitř elementu, např.. <text> < </text>

-více než jeden kořenový element

Uvažujte element „produkt“ který je definován v XML Schema pomocí


xs:element. V definici je uvedena hodnota atributu maxOccurs "unboundeď" a
hodnota atributu minOccurs není uvedena. Kolikrát se element produkt musí
dle této definice na patřičném místě dokumentu vyskytnout?

nejméně 0x

nejméně 1x

nejvíce 1x

právě jednou
Uvažujete dataset obhasující 10 instací, které jsou popsané atributem
"Akce".

(tabulka)

V jakém případe by byla entropie atributu Akce nulová:

Entropie nemůže být nulová

Pokud by byl poměr hodnot ano a ne přesně 1/2

Zádná z předchozích možností

Uvažujte dataset obsahující šestinstancí v níže uvedené tabulce. Dalaset


obsahuje Čtyři Binární rysy (atributy) A, B. C. D a hodnotu cílového
atributu (sloupec Class). který je též binární (T - True. F - False).

Jaký bude kořenový atribut při tvorbě rozhodovacího stromu (z tabulky 6)


dle algoritems ID3.

A nebo B

Uvažuje nástedující rozhodovací strom. Tento strom je vytvořený pomocí


algoritmu ID3 na základě trénovací množiny (datasetu), který obsahuje
celkem 27 instancí. Instance jsou popsány atributy Jedním

z atributů je atribut A, který má hodnoty (a1, a2. a3). Rozhodovací strom


instance v datasetu bezchybné klasifikuje. u každé větve je uveden počet
instancí spadajících do cílové třídy.

(obrázek stromu)

Jaký je počet instancí v trénovací množně, které mají v atributu A hodnotu


a1?

15

Nelze zjistit

27

Který z uvedených popisů necharakterizuje přeučený rozhodovací strom?

Strom má malou hloubku

Strom klasifikuje trénovací instance s výrazně menší chybou než testovavcí


instance
Strom má velkou hloubku

Strom má velký počet listových uzlů

Uvažujte následující testovací ata pro validaci klasifikačního modelu. Ve


sloupci Predikce je uveden výsledek klasifikačního modelu.

(tabulka: Den,Předpoved,Teplota,Vlhkost,Vítr,Hrát tenis,Predikce)

Která z níže uvedených matic záměn odpovídá výsledku klasifikátoru na


daných datech?

[2 1]

[1 3]

[3 2]

[1 1]

[3 1]

[1 2]

Žádná z uvedených možností

Uvažujte shlukovací model, který tvoří tři shluky charakterizované


centroidy dle uvedené tabulky. Instance jsou popsány atributy X a Y.

Číslo shluku, X, Y

1: 0.2, 1

2: 0.5 0

3: 0.9 0.4

Do kterého shluku bude patřit instance, která má v atributu X hodnotu 0.2 a


v atributu Y hodnotu 0.4? Pro určení použijte euklidovskou vzdálenost.

Do shluku 2

Do shluku 2 a 3

Do shluku 3

Do shluku 1 a 2

Uvažujme shluk obsahující následující instance:

A= [4,6,5]

B= [7,9,4]
C= [1,0,0]

Jaký bude centroid tohoho shluku?

[4,5,3]

[6,9,1]

[2,3,1]

Žádná z předchozích možností

Máme body v euklidovském prostou A = [a1,15]a B = [0, 12] s neznámou


souřadnicí a1. Víme, že euklidovská vzdálenost mezi oběma body je 5. Jaká
je hodnota neznámé a1?

Žádná z předchozích možností

Mějme PageRank vektory =[ 0,25 0,5 0,05 0,2] & [ 0,2 0,5 0,15 0,15 ]. Jak
by vypadal PageRank vektor v nulté iteraci?

[ 0,25 0,25 0,25 0,25 ]

[ -0,05 0 0,1 -0,05 ]

[0 0 0 0]

žádná z předchozích možností

Rozšíření booleovského modelu vyhledávání dokumentů pomocí fuzzy logiky


neumožňuje:

Odstranit tvrdost booleovských operací (AND)

Rozlišit důležitost deskriptorů v dotazu

Řadit vybrané dokumenty podle důležitosti

žádná z předchozích možností

Úspešnost vyhledávání dokumentů - uvažujte tuto tabulku:


Dokumenty, Relevantní, Itelevantní

Vyhledáváné t u

Nevyhledáváné v w

Pro přesnost platí:

P= (t+w)/(t+u+v+w)

P= t/(t+v)

P= 1 - ((t+w)/(t+u+v+w))

Žádná z předchozích možností

Výsledek rešerše dokumentů k situaci v Kongu lze charakterizovat dle


tabulky níže. To znamená, že mezi vyhledanými dokumenty bylo 30
relevantních dokumentů a 20 irelevantních. Mezi dakumenly, které nebyly

vyhledány, bylo 150 relevantních dokumenků a 280 350 irelevantních


dokumentů.

Dokumenty, Relevantní, Itelevantní

Vyhledáváné 30 20

Nevyhledáváné 150 260350

Pro úplnost R vyhledávání rešerše platí:

R= 30/150

R= 30/(30+20)

R = 30/20

Žádná z předchozích možností

Tabulka odpovídá invertovanému souboru pro dokumenty D1,D2,D3 a D4

Informace: D2,D3

Počítač: D1,D3,D4

Systém: D1,D2,D4

Tiskárna: D1

Výsledek boolovského dotazu informace AND tiskárna je množina:


{D2,D3}

{D3,D4}

{D1}

Žádná z předchozích možností

Čtyřpolní tabulka booleovských atributů Bydliště(Vary)…

Čtyřpolní tabulka booleovských atributů Bydliště(Praha)…


Test: 31 bodů:

You might also like