Untitled

Spolehlivost (Confidence) = a/a+b
Podpora (Support) = a/(a+b+c+d)

Lift = (a/(a+b))/((a+c)/(a+b+c+d)
Přesnost (Precision):
Pro ANO: a/(a+b)
Pro NE: d/(c+d)
Úplnost (Recall):
Pro ANO: a/(a+c)
Pro NE: d/(b+d)
Správnost (Accuracy) = (a+d)/(a+b+c+d)
Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz [U; 0,2] AND [V;
Y] znamená, že nás zajímají dokumenty, ve kterých se vyskytuje deskriptor U a zároveň
deskriptor V. Váha deskriptoru U v tomto dotazu je 0,2, váha deskriptoru V není známá,
značíme ji Y. Váha tohoto dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu
pomocí fuzzy logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y >= 0,4
- Y <= 0,6
- Y = 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ AND bere menší číslo
Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz [U; 0,2] OR [V;
Y] znamená, že nás zajímají dokumenty, ve kterých se vyskytuje deskriptor U a zároveň
deskriptor V. Váha deskriptoru U v tomto dotazu je 0,2, váha deskriptoru V není známá,
značíme ji Y. Váha tohoto dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu
pomocí fuzzy logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y <= 0,4
- Y = 0,5
- Y >= 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ OR bere větší číslo
Který z následujících termínů nesouvisí s problematikou PAgeRanku?

+ matice incidence
- konvergenční kritérium
- rank sink
- náhodný surfař
- žádná z předchozích
Co rozpozná regulární výraz 00*?10+ v řetezci 1010001001?

- celý řetězec
+ 01000
- 01001
- 101000
Dokument má 2 deskriptory U a V. U je 0,5 a V je 0,4. Dotaz [U; 0,8] OR [V; 0,2]. Váha
tohoto dotazu je X a je rovna?
- X = 0,5
- X = 0,2
-X=1
+ X = 0,4
Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární výraz rozpozná v

textu: name@domain.cz?
- name@domain
- žádné z uvedených
+ domain
- domain.
Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý?

- 9. 9a1
- žádný z uvedených
+ 5. w?w
- 8.klk
Jaká je správná syntaxe pro pole obsahující pět čísel 1,2,3,4,5 v JSON?
+ [1,2,3,4,5]
- (1,2,3,4,5)
- <1,2,3,4,5>
- {1,2,3,4,5}
Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když přesnost je 1/3?
+ 60
- 20
- 30
- 40
Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když úplnost je 1/2?
- 60
- 20
+ 30
- 40
Nejvyšší entropii mají prvky?

+ Kde je T a F půl na půl. (entropie=1)
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je správnost?

+ 500/550
- 235/550
- 50/500
- 235/250
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je úplnost pro třídu ANO?
- 500/550
+ 235/270
- 265/280
- 235/250
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je přesnost pro třídu ANO?
+ 235/250
- 235/550
- 50/500
- 235/270
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false positive?
+ 15
- 235
- 265
- 35
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota true negative?
- 15
- 235
+ 265
- 35
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false negative?
- 15
- 235
- 265
+ 35
Jaku bude vypadat Google matice při dumping faktoru 1?

+ Totožná s maticí S
Co matchne: a+?a v řetezci aaaaaaa?aaa

+ aa
Kolik maximálně znaků bude obsahovat match regexu: ^\???$?

+1
Co není v regexu kvantifikátor?

- otazník
+ pomlčka
- plus
- hvězdička
Normalizovaná term frekvence může nabývat hodnot?

+ menších nebo rovno 1
Regulární výraz [a-z]{4} je zde použit jaký typ lookaround?

- nagativní lookhead
- atomický lookaround
- pozitivní lookbehond
+ žádná z předchozích
Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Pokud bychom (?:cde)

nahradili podvýrazem (cde), jak by bylo třeba upravit zbytek výrazu, aby se rozpoznávaná
množina znaků nezměnila?
- (cde)(?:abc)X?[abc]*
- (cde)(abc)X?[abc]*\1
- (cde)(?:abc)X?[abc]*\1
+ (cde)(abc)X?[abc]*?\2
Co rozpozná regex výraz $ pokud je aktivován režim multiline?

+ konec řádku
- začátek řádku
- konec řetězce
- začátek řetězce
Kolik maximálně znaků rozpozná regex ^\???$?

-2
-5
+1
-0
Jaká JSON hodnota je nevalidní?

- 1.5
- 1500
- ["a","b","c"]
+ všechny jsou validní
Jak se liší poměrný informační zisk použitý v algoritmu C4.5 od informačního zisku ID3?
+ informační zisk preferuje atributy s vysokým počtem hodnot, poměrný informační člen má
normalizační cosi, který to řeší
+ umožňuje zpracovat spojité atributy
- zaručuje optimální řešení
- poměr informačního zisku kořenového a cílového atributu
Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že?

+ minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové
- maximalizují vnitroshlukové vzdálenosti a minimalizují mezishlukové
- maximalizují vnitroshlukové vzdálenosti i mezishlukové
Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude centroid?

- [12,15,9]
- [4,4,0]
Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0. Kolik je celkem

zaindexovaných dokumentů?
+ 10
- log10
- 10*10
K čemu neslouží jazyk XML Schema?

- K popsání struktury XML doku
+ k definici vizuální reprezentace informací obsažených v XML doku
- k definici omezení na obsah elementů v XML doku
- k definici povolených elementů v XML dokumentu
Které tvrzení o formátu CSV není pravdivé?

- každý záznam obsahuje stejné pole ve stejném pořadí
- je možno použít libovolné kódování
+ obsahuje záznamy, jeden záznam může být na více řádcích
- není možné vyjádřit relace mezi záznamy
Pro jaký způsob využití v procesu hodnocení webové stránky na určitý dotaz byl algoritmus
PageRank navržen?
+ Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je
první ve výsledích
- Výsledná relevance stránky vznikne zkombinováním hodnoty PR s hub score
- Hodnota PR pro danou stránku se zkombinuje s dalšími měrami relevance stránky na daný
dotaz
- Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz. Nejvyšší PR je
poslední ve výsledích
Uvedený regex \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} rozpozná ipv4 adresu, upravte tak, aby třetí
byte byl vždy stejný jako druhý?
+ \d{1,3}\.(\d{1,3})\.\1\.\d{1,3}
- (\d{1,3}\.){2}\d{1,3}\.\d{1,3}
- (=next)(\-\d{1,3})\.\d{1,3}\.\d{1,3}
- (\d{1,3}\.)(=previous)\d{1,3}\.\d{1,3}
Označme symbolem G Google matici a symbolem H příslušnou H matici celého internetu.

Jaké tvrzení je pravdivé?
+ Matice G je hustší než matice H
- Matice G je stejně hustá jako matice H
- Matice G může být v některých případech řidší než matice H, jindy hustší
- Matice G je ridší než matice H
Jako konvergenční krit algoritmu Page Rank byl zvolen rozdíl L1 normy oproti předchozí
itineraci. Jaká bude velikost tohoto rozdílu máme-li tyto vektory Pi5=[0,489 0,090 0,465
0,040] a pi6=[0,423 0,090 0,456 0,040]
- 0,073
-1
Pro rozšiřování Boolovského modelu vyhledávání dokumentů platí?

- řazení vybraných dokumentů podle důležitosti nepatří mezi důvody rozšiřování
- rozlišení důležitosti deskriptorů v dotazu nepatří mezi důvody rozšiřování
+ odstranění tvrdosti boolovských operací patří mezi důvody rozšiřování
Jaký je název pro syntaktický konstrukt (?=b)?

- atomické seskupování
- pozitivní lookbehind
+ pozitivní lookahead
- posesivní kvatifikátor
Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Co rozpozná?

+ cdeabcXabc
- cdeabcXabcabc
- abc
- výraz selže
Máme regex b?(aaa)+? co rozpozná v aabaaaaa?

- nic
- aa za béčkem
+ baaa
- aa na začátku
Jaký regex je chybný?

- \\
- a(\^2)?
+ *\w{3,5}
- [^1-3]
Co nesouvisí s algoritmy pro rozhodovací stromy?

+ centroid
- C4.5
- míra dobroty
- poměrný informační zisk
Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je nepravdivé?

- výsledkem algoritmu je přiřazení do právě 1 shluku
- na začátku výpočtu je nutné zvolit počet clusterů
+ výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů
Které tvrzení vztahující se k logistické regresi je pravdivé? Asi

- Logistická regrese nepracuje přímo s vícehodnotovými kategoriálními proměnnými, ale pro
využití takových proměnných lze využít transformaci na dummy proměnné.
- Logistická regrese nepracuje přímo s vícehodnotovými numerickými proměnnými, ale pro
využití takových proměnných lze využít transformaci na dummy proměnné.
- Parametry modelu logistické regrese je možné získat pomocı́ metody nejmenších čtverců
(normální rovnice).
+ Parametry modelu logistické regrese je možné získat pomocı́ algoritmu největšıh
́ o spádu.
Co platí o tvrzeních v jazyce RDF?

+ Predikát tvrzení musí být identifikován pomocí URL adresy.
- RDF tvrzení se sestávají ze subjektu, objektu a předmětu.
+ Subjekt tvrzení musí být identifikován pomocí URL adresy.
+ Předmět tvrzení může být identifikován pomocí URL adresy.
Které z uvedených patří mezi zásady pro zveřejnování propojených dat? asi
- Preferovaným formátem pro propojená data je XML Schema.
- Preferovaným formátem pro propojená data je JSON.
- Preferovaným formátem pro propojená data je CSV.
- Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes HTTP protokol
(naopak ano)
Vyberte jen jednu z následujících možných odpovědí?

- V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je
výstupní proměnná kvantitativní.
+ V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze logistické regrese je
výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je
výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze logistické regrese je
výstupní proměnná kvantiativní.
Jaký regex je totožný s (?>.)abc

+ .(abc)
- .abc
- .?abc
- (.?:)abc
Co rozpozná regex výraz ^ pokud je aktivován režim multiline?
- konec řádku
+ začátek řádku
- konec řetězce
Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz

[U; 0,2] AND [V; Y] znamená, že nás zajímají dokumenty, ve kterých se
vyskytuje deskriptor U a zároveň deskriptor V. Váha deskriptoru U v tomto
dotazu je 0,2, váha deskriptoru V není známá, značíme ji Y. Váha tohoto
dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu pomocí fuzzy
logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y >= 0,4
- Y <= 0,6
- Y = 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ AND bere menší číslo
Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz

[U; 0,2] OR [V; Y] znamená, že nás zajímají dokumenty, ve kterých se
vyskytuje deskriptor U a zároveň deskriptor V. Váha deskriptoru U v tomto
dotazu je 0,2, váha deskriptoru V není známá, značíme ji Y. Váha tohoto
dotazu v dokumentu D vypočítaná v rozšíření boolovského modelu pomocí fuzzy
logiky je rovna 0,12. Pro každou z možných hodnot Y tedy platí?
+ Y <= 0,4
- Y = 0,5
- Y >= 0,3
- Y = sqrt(0,3^2+0,12^2/2)
+ OR bere větší číslo
Který z následujících termínů nesouvisí s problematikou PAgeRanku?

+ matice incidence
- konvergenční kritérium
- rank sink
- náhodný surfař
Co rozpozná regulární výraz 00*?10+ v řetezci 1010001001?

- celý řetězec
+ 01000
- 01001
- 101000
Dokument má 2 deskriptory U a V. U je 0,5 a V je 0,4. Dotaz [U; 0,8] OR [V;

0,2]. Váha tohoto dotazu je X a je rovna?
- X = 0,5
- X = 0,2
- X = 1
+ X = 0,4
Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární

výraz rozpozná v textu: name@domain.cz?
- name@domain
- žádné z uvedených
+ domain
- domain.
Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý?

- 9. 9a1
- žádný z uvedených
+ 5. w?w
- 8.klk
Jaká je správná syntaxe pro pole obsahující pět čísel 1,2,3,4,5 v JSON?
+ [1,2,3,4,5]
- (1,2,3,4,5)
- <1,2,3,4,5>
- {1,2,3,4,5}
Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když přesnost je 1/3?
+ 60
- 20
- 30
- 40
Máme 4polní tabulku a=30 b=x c=y d=8697. Kolik je x, když úplnost je 1/2?
- 60
- 20
+ 30
- 40
Nejvyšší entropii mají prvky?

+ Kde je T a F půl na půl. (entropie=1)
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je správnost?

+ 500/550
- 235/550
- 50/500
- 235/250
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je úplnost pro třídu ANO?
- 500/550
+ 235/270
- 265/280
- 235/250
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je přesnost pro třídu ANO?
+ 235/250
- 235/550
- 50/500
- 235/270
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false positive?
+ 15
- 235
- 265
- 35
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota true negative?
- 15
- 235
+ 265
- 35
Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je hodnota false negative?
- 15
- 235
- 265
+ 35
Jaku bude vypadat Google matice při dumping faktoru 1?
+ Totožná s maticí S
Co matchne: a+?a v řetezci aaaaaaa?aaa

+ aa
Kolik maximálně znaků bude obsahovat match regexu: ^\???$?

+ 1
Co není v regexu kvantifikátor?

- otazník
+ pomlčka
- plus
- hvězdička
Normalizovaná term frekvence může nabývat hodnot?

+ menších nebo rovno 1
Regulární výraz [a-z]{4} je zde použit jaký typ lookaround?

- nagativní lookhead
- atomický lookaround
- pozitivní lookbehond
Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Pokud bychom

(?:cde) nahradili podvýrazem (cde), jak by bylo třeba upravit zbytek
výrazu, aby se rozpoznávaná množina znaků nezměnila?
- (cde)(?:abc)X?[abc]*
- (cde)(abc)X?[abc]*\1
- (cde)(?:abc)X?[abc]*\1
+ (cde)(abc)X?[abc]*?\2
Co rozpozná regex výraz $ pokud je aktivován režim multiline?

+ konec řádku
- začátek řádku
- konec řetězce
Kolik maximálně znaků rozpozná regex ^\???$?

- 2
- 5
+ 1
- 0
Jaká JSON hodnota je nevalidní?

- 1.5
- 1500
- ["a","b","c"]
+ všechny jsou validní
Jak se liší poměrný informační zisk použitý v algoritmu C4.5 od

informačního zisku ID3?
+ informační zisk preferuje atributy s vysokým počtem hodnot, poměrný
informační člen má normalizační cosi, který to řeší
+ umožňuje zpracovat spojité atributy
- zaručuje optimální řešení
- poměr informačního zisku kořenového a cílového atributu
Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že?

+ minimalizují vnitroshlukové vzdálenosti a maximalizují mezishlukové
- maximalizují vnitroshlukové vzdálenosti a minimalizují mezishlukové
- maximalizují vnitroshlukové vzdálenosti i mezishlukové
Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude

centroid?
- [12,15,9]
- [4,4,0]
Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0.

Kolik je celkem zaindexovaných dokumentů?
+ 10
- log10
- 10*10
K čemu neslouží jazyk XML Schema?

- K popsání struktury XML doku
+ k definici vizuální reprezentace informací obsažených v XML doku
- k definici omezení na obsah elementů v XML doku
- k definici povolených elementů v XML dokumentu
Které tvrzení o formátu CSV není pravdivé?

- každý záznam obsahuje stejné pole ve stejném pořadí
- je možno použít libovolné kódování
+ obsahuje záznamy, jeden záznam může být na více řádcích
- není možné vyjádřit relace mezi záznamy
Pro jaký způsob využití v procesu hodnocení webové stránky na určitý dotaz
byl algoritmus PageRank navržen?
+ Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz.
Nejvyšší PR je první ve výsledích
- Výsledná relevance stránky vznikne zkombinováním hodnoty PR s hub score
- Hodnota PR pro danou stránku se zkombinuje s dalšími měrami relevance
stránky na daný dotaz
- Hodnota PR se použije jako jediná míra relevance stránky na daný dotaz.
Nejvyšší PR je poslední ve výsledích
Uvedený regex \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} rozpozná ipv4 adresu,

upravte tak, aby třetí byte byl vždy stejný jako druhý?
+ \d{1,3}\.(\d{1,3})\.\1\.\d{1,3}
- (\d{1,3}\.){2}\d{1,3}\.\d{1,3}
- (=next)(\-\d{1,3})\.\d{1,3}\.\d{1,3}
- (\d{1,3}\.)(=previous)\d{1,3}\.\d{1,3}
Označme symbolem G Google matici a symbolem H příslušnou H matici celého

internetu. Jaké tvrzení je pravdivé?
+ Matice G je hustší než matice H
- Matice G je stejně hustá jako matice H
- Matice G může být v některých případech řidší než matice H, jindy hustší
- Matice G je ridší než matice H
Jako konvergenční krit algoritmu Page Rank byl zvolen rozdíl L1 normy
oproti předchozí itineraci. Jaká bude velikost tohoto rozdílu máme-li tyto
vektory Pi5=[0,489 0,090 0,465 0,040] a pi6=[0,423 0,090 0,456 0,040]
- 0,073
- 1
Pro rozšiřování Boolovského modelu vyhledávání dokumentů platí?

- řazení vybraných dokumentů podle důležitosti nepatří mezi důvody
rozšiřování
- rozlišení důležitosti deskriptorů v dotazu nepatří mezi důvody
rozšiřování
+ odstranění tvrdosti boolovských operací patří mezi důvody rozšiřování
Jaký je název pro syntaktický konstrukt (?=b)?

- atomické seskupování
- pozitivní lookbehind
+ pozitivní lookahead
- posesivní kvatifikátor
Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Co rozpozná?

+ cdeabcXabc
- cdeabcXabcabc
- abc
- výraz selže
Máme regex b?(aaa)+? co rozpozná v aabaaaaa?

- nic
- aa za béčkem
+ baaa
- aa na začátku
Jaký regex je chybný?

- \\
- a(\^2)?
+ *\w{3,5}
- [^1-3]
Co nesouvisí s algoritmy pro rozhodovací stromy?

+ centroid
- C4.5
- míra dobroty
- poměrný informační zisk
Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je nepravdivé?

- výsledkem algoritmu je přiřazení do právě 1 shluku
- na začátku výpočtu je nutné zvolit počet clusterů
+ výsledek je vždy jednoznčný, nezáleží na volbě počátečních centroidů
Které tvrzení vztahující se k logistické regresi je pravdivé? Asi

- Logistická regrese nepracuje přímo s vícehodnotovými kategoriálními
proměnnými, ale pro využití takových proměnných lze využít transformaci na
dummy proměnné.
- Logistická regrese nepracuje přímo s vícehodnotovými numerickými
proměnnými, ale pro využití takových proměnných lze využít transformaci na
dummy proměnné.
- Parametry modelu logistické regrese je možné získat pomocı́metody
nejmenších čtverců (normální rovnice).
+ Parametry modelu logistické regrese je možné získat pomocı́algoritmu
největšı́
ho spádu.
Co platí o tvrzeních v jazyce RDF?

+ Predikát tvrzení musí být identifikován pomocí URL adresy.
- RDF tvrzení se sestávají ze subjektu, objektu a předmětu.
+ Subjekt tvrzení musí být identifikován pomocí URL adresy.
+ Předmět tvrzení může být identifikován pomocí URL adresy.
Které z uvedených patří mezi zásady pro zveřejnování propojených dat? asi
- Preferovaným formátem pro propojená data je XML Schema.
- Preferovaným formátem pro propojená data je JSON.
- Preferovaným formátem pro propojená data je CSV.
- Použitá adresa je pouze identifikátorem, neposkytuje popis zdroje přes
HTTP protokol (naopak ano)
Vyberte jen jednu z následujících možných odpovědí?

- V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze
logistické regrese je výstupní proměnná kvantitativní.
+ V úloze lineární regrese je výstupní proměnná kvantitativní, v úloze
logistické regrese je výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze
logistické regrese je výstupní proměnná kategoriální.
- V úloze lineární regrese je výstupní proměnná kategoriální, v úloze
logistické regrese je výstupní proměnná kvantiativní.
Jaký regex je totožný s (?>.)abc

+ .(abc)
- .abc
- .?abc
- (.?:)abc
Co rozpozná regex výraz ^ pokud je aktivován režim multiline?

- konec řádku
+ začátek řádku
- konec řetězce
Podmínkou pro zastavení výpočtu algoritmu PageRank je (vzorec algoritmu).

Jaká bude hodnota ukončovacího kritéria pro vektory [0,25 0,5 0,05 0,2] a
[0,2 0,5 0,15 0,15]:
0,1
0,25
0,15
žádná z předchozích možností
Uvažujme matici G zobrazenou níže a damping faktor 0,8. (obrázek matice).

Pro jaké hodnoty damping faktoru a nebude první řádek uvedené matice G
stejný jako pro první řádek příslušné matice S?:
0,5
(0,5;1.0)
0
Bude vždy stejný
Uvažujte webový graf zobrazený níže a damping faktor 0.8. V algoritmu

PageRank se kromě matice H používá i matice předhodových pravděpodobností S
a "Googe" matice G. (graf stránek). Jak bude vypadat čtvrtý řádek matice S?
[ 0 0 1 0]
[0 1 0 0]
[ 1/4 1/4 1/4 1/4]
[ 0 0 0 1]
Výpis 1 uvádí XML Schéma a výpis 2 kazkový XML dokument, který má schématu
odpovídat. Výpis 2 obsahuje dvě položky - první produkt "Fairetta s
guaranou" a druhý "Čaj černý Kilimanjaro". (Výpis1,Výpis2). Tvůrce XML
dokumentu se ale mohl dopustit chyb vůči XML Schématu. Vyberte jen jednu z
následujících odpovědí:
-element DOSTUPNOST se v prvním elementu POLOŽKA může vyskytnout na
libovolném místé, prolože schéma pozici tohoto elementu nedefinuje
-element DOSTUPNOST se může vyskytnout, jako kořenový dokument
-element DOSTUPNOST v prvním elementu POLOŽKA může nabývat hodnoty "0",
protože schéma množinu přípustných hodnot tohoto elementu neomezuje
-element DOSTUPNOST se nesmí v XML dokumentu vyskytnout
Který z uvedených CSV dokumentů je syntaktický správně?
"id","produkt"
"1","káva\"super"
"id","produkt"
"1",“"káva"super"
id,produkt
1,káva“super
"id“,"produkt"
"1","káva""super"
Jaká z následujících syntaxí je v XML povolena:
-neuzavřené tagy, např.: <br>
-prázdný element <emai1/>
-vyhrazené znaky uvnitř elementu, např.. <text> < </text>
-více než jeden kořenový element
Uvažujte element „produkt“ který je definován v XML Schema pomocí

xs:element. V definici je uvedena hodnota atributu maxOccurs "unboundeď" a
hodnota atributu minOccurs není uvedena. Kolikrát se element produkt musí
dle této definice na patřičném místě dokumentu vyskytnout?
nejméně 0x
nejméně 1x
nejvíce 1x
právě jednou
Uvažujete dataset obhasující 10 instací, které jsou popsané atributem
"Akce".
(tabulka)
V jakém případe by byla entropie atributu Akce nulová:
Entropie nemůže být nulová
Pokud by byl poměr hodnot ano a ne přesně 1/2
Zádná z předchozích možností
Uvažujte dataset obsahující šestinstancí v níže uvedené tabulce. Dalaset

obsahuje Čtyři Binární rysy (atributy) A, B. C. D a hodnotu cílového
atributu (sloupec Class). který je též binární (T - True. F - False).
Jaký bude kořenový atribut při tvorbě rozhodovacího stromu (z tabulky 6)

dle algoritems ID3.
A nebo B
Uvažuje nástedující rozhodovací strom. Tento strom je vytvořený pomocí

algoritmu ID3 na základě trénovací množiny (datasetu), který obsahuje
celkem 27 instancí. Instance jsou popsány atributy Jedním
z atributů je atribut A, který má hodnoty (a1, a2. a3). Rozhodovací strom

instance v datasetu bezchybné klasifikuje. u každé větve je uveden počet
instancí spadajících do cílové třídy.
(obrázek stromu)
Jaký je počet instancí v trénovací množně, které mají v atributu A hodnotu

a1?
15
Nelze zjistit
27
Který z uvedených popisů necharakterizuje přeučený rozhodovací strom?
Strom má malou hloubku
Strom klasifikuje trénovací instance s výrazně menší chybou než testovavcí

instance
Strom má velkou hloubku
Strom má velký počet listových uzlů
Uvažujte následující testovací ata pro validaci klasifikačního modelu. Ve

sloupci Predikce je uveden výsledek klasifikačního modelu.
(tabulka: Den,Předpoved,Teplota,Vlhkost,Vítr,Hrát tenis,Predikce)
Která z níže uvedených matic záměn odpovídá výsledku klasifikátoru na

daných datech?
[2 1]
[1 3]
[3 2]
[1 1]
[3 1]
[1 2]
Žádná z uvedených možností
Uvažujte shlukovací model, který tvoří tři shluky charakterizované

centroidy dle uvedené tabulky. Instance jsou popsány atributy X a Y.
Číslo shluku, X, Y
1: 0.2, 1
2: 0.5 0
3: 0.9 0.4
Do kterého shluku bude patřit instance, která má v atributu X hodnotu 0.2 a

v atributu Y hodnotu 0.4? Pro určení použijte euklidovskou vzdálenost.
Do shluku 2
Do shluku 2 a 3
Do shluku 3
Do shluku 1 a 2
Uvažujme shluk obsahující následující instance:
A= [4,6,5]
B= [7,9,4]
C= [1,0,0]
Jaký bude centroid tohoho shluku?
[4,5,3]
[6,9,1]
[2,3,1]
Žádná z předchozích možností
Máme body v euklidovském prostou A = [a1,15]a B = [0, 12] s neznámou

souřadnicí a1. Víme, že euklidovská vzdálenost mezi oběma body je 5. Jaká
je hodnota neznámé a1?
Mějme PageRank vektory =[ 0,25 0,5 0,05 0,2] & [ 0,2 0,5 0,15 0,15 ]. Jak
by vypadal PageRank vektor v nulté iteraci?
[ 0,25 0,25 0,25 0,25 ]
[ -0,05 0 0,1 -0,05 ]
[0 0 0 0]
Rozšíření booleovského modelu vyhledávání dokumentů pomocí fuzzy logiky

neumožňuje:
Odstranit tvrdost booleovských operací (AND)
Rozlišit důležitost deskriptorů v dotazu
Řadit vybrané dokumenty podle důležitosti
Úspešnost vyhledávání dokumentů - uvažujte tuto tabulku:

Dokumenty, Relevantní, Itelevantní
Vyhledáváné t u
Nevyhledáváné v w
Pro přesnost platí:
P= (t+w)/(t+u+v+w)
P= t/(t+v)
P= 1 - ((t+w)/(t+u+v+w))
Výsledek rešerše dokumentů k situaci v Kongu lze charakterizovat dle

tabulky níže. To znamená, že mezi vyhledanými dokumenty bylo 30
relevantních dokumentů a 20 irelevantních. Mezi dakumenly, které nebyly
vyhledány, bylo 150 relevantních dokumenků a 280 350 irelevantních

dokumentů.
Dokumenty, Relevantní, Itelevantní
Vyhledáváné 30 20
Nevyhledáváné 150 260350
Pro úplnost R vyhledávání rešerše platí:
R= 30/150
R= 30/(30+20)
R = 30/20
Tabulka odpovídá invertovanému souboru pro dokumenty D1,D2,D3 a D4
Informace: D2,D3
Počítač: D1,D3,D4
Systém: D1,D2,D4
Tiskárna: D1
Výsledek boolovského dotazu informace AND tiskárna je množina:

{D2,D3}
{D3,D4}
{D1}
Čtyřpolní tabulka booleovských atributů Bydliště(Vary)…
Čtyřpolní tabulka booleovských atributů Bydliště(Praha)…

Test: 31 bodů:

Untitled

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Untitled

Uploaded by

Copyright:

Available Formats

Spolehlivost (Confidence) = a/a+b

Podpora (Support) = a/(a+b+c+d)

Správnost (Accuracy) = (a+d)/(a+b+c+d)

Který z následujících termínů nesouvisí s problematikou PAgeRanku?

Co rozpozná regulární výraz 00*?10+ v řetezci 1010001001?

Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární výraz rozpozná v

Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý?

Nejvyšší entropii mají prvky?

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je správnost?

Jaku bude vypadat Google matice při dumping faktoru 1?

Co matchne: a+?a v řetezci aaaaaaa?aaa

Kolik maximálně znaků bude obsahovat match regexu: ^\???$?

Co není v regexu kvantifikátor?

Normalizovaná term frekvence může nabývat hodnot?

Regulární výraz [a-z]{4} je zde použit jaký typ lookaround?

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Pokud bychom (?:cde)

Co rozpozná regex výraz $ pokud je aktivován režim multiline?

Kolik maximálně znaků rozpozná regex ^\???$?

Jaká JSON hodnota je nevalidní?

Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že?

Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude centroid?

Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0. Kolik je celkem

K čemu neslouží jazyk XML Schema?

Které tvrzení o formátu CSV není pravdivé?

Označme symbolem G Google matici a symbolem H příslušnou H matici celého internetu.

Pro rozšiřování Boolovského modelu vyhledávání dokumentů platí?

Jaký je název pro syntaktický konstrukt (?=b)?

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Co rozpozná?

Máme regex b?(aaa)+? co rozpozná v aabaaaaa?

Jaký regex je chybný?

Co nesouvisí s algoritmy pro rozhodovací stromy?

Jaké tvrzení o Lloydově algoritmu pro k-means shlukování je nepravdivé?

Které tvrzení vztahující se k logistické regresi je pravdivé? Asi

Co platí o tvrzeních v jazyce RDF?

Vyberte jen jednu z následujících možných odpovědí?

Jaký regex je totožný s (?>.)abc

Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz

Dokument D má dva destriptory U a V. Váha U je 0,6 a váha V je 0,3. Dotaz

Který z následujících termínů nesouvisí s problematikou PAgeRanku?

Co rozpozná regulární výraz 00*?10+ v řetezci 1010001001?

Dokument má 2 deskriptory U a V. U je 0,5 a V je 0,4. Dotaz [U; 0,8] OR [V;

Uvažujte následující regulární výraz: (?<=@).+(?=\.) co tento regulární

Regulární výraz \d\.\s(\w)(.)\1 Který z řetězců bude rozpoznán celý?

Nejvyšší entropii mají prvky?

Máme 4polní tabulku a=235 b=15 c=35 d=265. Jaká je správnost?

Co matchne: a+?a v řetezci aaaaaaa?aaa

Kolik maximálně znaků bude obsahovat match regexu: ^\???$?

Co není v regexu kvantifikátor?

Normalizovaná term frekvence může nabývat hodnot?

Regulární výraz [a-z]{4} je zde použit jaký typ lookaround?

Máme regex (?:cde)(abc)X?[abc]*?\1 a řetězec cdeabcXabcabccde. Pokud bychom

Co rozpozná regex výraz $ pokud je aktivován režim multiline?

Kolik maximálně znaků rozpozná regex ^\???$?

Jaká JSON hodnota je nevalidní?

Jak se liší poměrný informační zisk použitý v algoritmu C4.5 od

Při shlukové analýze (clusterování) jsou objekty seskupovány tak, že?

Uvažujme shluk obshující A=[4,6,50] B=[7,9,4] C=[1,0,0]. Jaký bude

Term se vyskytuje v 10 dokumentech a jeho inverzní dokumentová frek je 0.

K čemu neslouží jazyk XML Schema?

Které tvrzení o formátu CSV není pravdivé?

Uvedený regex \d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3} rozpozná ipv4 adresu,

Označme symbolem G Google matici a symbolem H příslušnou H matici celého

Pro rozšiřování Boolovského modelu vyhledávání dokumentů platí?

Jaký je název pro syntaktický konstrukt (?=b)?