Wyszukiwanie Wzorca String Matching: - T - N - P - M

Notes
Wyszukiwanie wzorca
String matching
Tomasz M. Gwizdałła
Podstawowe definicje Notes
Zdefiniujmy dwa pojęcia
tekst T [0..n − 1] (text) |T | = n

wzorzec P[0..m − 1] (pattern) |P| = m
Elementy tablicy brane są z pewnego zbioru Σ zwanego alfabetem

Mówimy, że wzorzec występuje na pozycji s (z przesunięciem s),
jeżeli
T [s..s + m − 1] = P[0..m − 1]
T [s] = P[0], .., T [s + m − 1] = P[m − 1]
Mówimy też, że przesunięcie s jest przesunięciem poprawnym
Określenie problemu Notes
Zagadnienie wyszukiwania wzorca polega na
znalezieniu
wszystkich poprawnych przesunięć
wzorca w tekście
Inne pojęcia Notes
Niech Σ∗ będzie zbiorem wszystkich łańcuchów o skończonej

długości, które mogą być utworzone z alfabetu Σ
w jest prefixem łańcucha (tekstu) x, jeśli
w [x ⇐⇒ ∃y ∈Σ∗ x = wy
w jest suffixem łańcucha (tekstu) x, jeśli
w ]x ⇐⇒ ∃y ∈Σ∗ x = yw
Algorytm naiwny Notes
W algorytmie naiwnym sprawdzamy znak po znaku, przesuwając

wzorzec względem tekstu zawsze o 1
K ATARAKTA KAT ARAK TA

A RAK ARAK
KA T ARAKTA KATA R AKTA
A R AK A RAK
KA T ARAKTA KATARA K TA
A RAK A R AK
• Złożoność obliczeniowa
O(m ∗ n)
• Algorytm charakteryzuje się dużą wrażliwością, zależną od

rozmiaru alfabetu
a 8.91 z 5.64 1.82

ł
i 8.21 n 5.52 b 1.47
o 7.75 r 4.69 g 1.42
e 7.66 w 4.65 h 1.08
y 3.76 s 4.32 ż 0.83
u 2.5 t 3.98 ś 0.66
ę 1.11 c 3.96 ć 0.4
ą 0.99 k 3.51 f 0.3
ó 0.85 d 3.25 ń 0.2
prawdopodobieństwo p 3.13 q 0.14
przypadkowego m 2.8 ź 0.06
wyboru 2 takich j 2.28 v 0.04
samych znaków: l 2.1 x 0.02
≈ 0.05
Zagadnienie Notes
Ideą algorytmu Karpa-Rabina jest przetransformowanie łańcucha

znakowego do postaci liczbowej, po czym dokonywanie porównań
na liczbach całkowitych.
Założenia Notes
Załóżmy, że alfabet składa się tylko z czterech znaków
Σ = {A, K , R, T }
Przypiszmy każdemu znakowi jego indeks w takim alfabecie

(zaczynając od jedynki) i przepiszmy zarówno tekst, jak i wzorzec
używając znaków tych indeksów lub przejdźmy od razu do zapisu
poniżej
KATARAKTA = ”214131241”
ARAK = ”1312”
Algorytm Notes
Przedstawmy te łańcuchy znakowe, jako liczby w układzie

dziesiętnym
ts = m
i=1 T [i + s] ∗ 10
m−i
P
t0 = 2141
p= mi=1 P[i] ∗ 10
m−i
P
p = 1312
Jak łatwo zauważyć warunkiem poprawności przesunięcia s jest

równość:
ts = p
Algorytm Notes
Problemem, który trzeba rozwiązać jest duża ilość mnożeń w fazie

obliczania obu wartości. Można ją oszacować
m(m+1)
Nm = 2
Można ją zmniejszyć do ilości liniowej w zmiennej m poprzez
p = P[m] + 10 ∗ (P[m − 1] + 10 ∗ (...))
Algorytm Notes
Trzeba też zmodyfikować sposób wyznaczania ts . Można np.

wyznaczać je rekurencyjnie, weźmy t0 i t1
t0 = 2141 t1 = 1413
1413 = (2141 − 2000) ∗ 10 + 3
t1 = (t0 − T [0] ∗ 10m−1 ) ∗ 10 + T [4]
ts+1 = (ts − T [s] ∗ 10m−1 ) ∗ 10 + T [s + m]
Złożoność obliczeniowa operacji wyznaczania ts jest teraz stała

O(1)
Problemy Notes
• Rozmiar alfabetu
• Zakres liczby całkowitej
Załóżmy teraz, że znaki z przykładu są wybrane z całego alfabetu

łacińskiego, liczącego 26 znaków
Zarówno liczbę p, jak i ts trzeba zapisać w układzie o podstawie
równej rozmiarowi alfabetu. Oznaczmy tę wielkość przez d
ts+1 = (ts − T [s + 1] ∗ d m−1 ) ∗ d + T [s + m + 1]
Problemy Notes
Aby rozwiązać problem zakresu liczby całkowitej trzeba
• Rozszerzyć jej zakres poprzez stworzenie własnej

implementacji
• Posłużyć się działaniami modulo
(a ∗ b) mod c = ((a mod c) ∗ (b mod c)) mod c
Problemy Notes
Jaką liczbę przyjąć, jako argument dzielenia modulo?

Zwyczajowo przyjmuje się takie q, że d ∗ q < rozmiar słowa
ts+1 = ((ts − (T [s + 1] ∗ d m−1 ) mod q) ∗ d) mod q + T [s + m + 1]
h = d m−1 mod q
ts+1 = ((ts − (T [s + 1] ∗ h) mod q) ∗ d) mod q + T [s + m + 1]
Podsumowanie Notes
• Równość p = ts nie jest w tym przypadku jednoznaczną

odpowiedzią na pytanie o prawidłowe przesunięcie. Wymagane
jest jeszcze sprawdzenie znaków
• Złożoność obliczeniowa
O(n)
Założenia Notes
Zmieńmy łańcuchy znakowe. Niech nasz alfabet składa się z liter:

A, C, G, T.
Szukajmy wzroca TATA w tekście TTATCTATAGCT.
Spróbujmy przesuwać wzorzec względem tekstu o większą liczbę

znaków, niż w przeszukiwaniu naiwnym
Przesuwanie (1) Notes
O ile możemy przesunąć wzorzec w takiej sytuacji.
T T 1 znak
T A
A teraz?
TTAT C 2 znaki
TAT A
Teraz znów podobna sytuacja?
TTAT C 1 znak
T A
Przesuwanie (2) Notes
TTAT C 1 znak
T
Sukces, ale o ile można przesunąć teraz?
TTATC TATA 2 znaki

TATA
TTATCTATA G 2 znaki
TA T
Przesuwanie - podsumowanie Notes
gdzie ile znaków “z

przodu” i “z
wystąpił tyłu” jest takich przesunięcie C1 - C2 -1
błąd samych
2 1 1 0
4 1 2 2
2 1 1 0
1 0 1 0
5 2 2 2
3 0 2 2
Kryterium przesuwania Notes
To co określić dla wzorca, to:

• analizować po kolei wszystkie jego prefiksy
• dla tych prefiksów wyznaczać długości prefiksów, które są
równocześnie sufiksami
0 0
1 T 1
2 TA 0
3 TAT 1
4 TATA 2
Tworzymy tablicę preprocesingu Π = [0, 1, 0, 1, 2].
Kryterium przesuwania Notes
Ostatecznie, przesunięcie następuje o:
max(1, j − Π[j] − 1)
Analiza złożoności obliczeniowej algorytmu BM wymaga podania

jej dla dwóch faz osobno
• preprocessing O(m)
• przeszukiwanie O(n)
Założenia Notes
Zmieniamy sposób porównywania znaków, zaczynamy teraz

porównania od końca łańcucha wzorca
KAT A RAKTA
ARA K
O ile możemy przesunąć wzorzec względem tekstu; pokrywać się
mogą litery A, zatem przesuwamy o 1
KATA R AKTA
ARA K
Teraz pokryć się mogą litery R
KAT ARAK TA
ARAK
Założenia Notes
Ale można też inaczej

OPANC E RZONY
G RZ E G O RZ
Możemy przesunąć o 2 znaki, tak aby podpisać

OPANC E R Z ONY
GR Z E GO R Z
Możemy przesunąć o 2 znaki, tak aby podpisać

OPANC E RZ ON Y
G RZ E GORZ
BCS Notes
Mamy dwa rodzaje porównań i dwa preprocessingi
Bad character shift (occurence shift)
Przesunięcie następuje do takiej pozycji, żeby pozycji tekstu, gdzie

nastąpiła niezgodność odpowiadał zgodny z nią znak wzorca
Tablica pre BC ma rozmiar alfabetu

A R A K
[A] [K] [R] [T]

[1] [4] [2] [4]
GSS Notes
Good suffix shift (matching shift)
Przesunięcie następuje do takiej pozycji, żeby pokrył się pasujący

suffix wzorca, jednak poprzedzony innym znakiem, niż ten, na
którym wystąpiła niezgodność. Szukamy oczywiście wystąpienia
tego suffixu jak najbardziej z prawej strony wzorca
Tablica pre GS ma rozmiar równy długości wzorca

A R A K
[4] [4] [4] [1]
Założenia Notes
K AT A RAKT A
A R A K
pre BC [A] = 1, pre GS[4] = 1, przesunięcie=1
KA T A R AKT A
A R A K
pre BC [R] = 2, pre GS[4] = 1, przesunięcie=2
KA T A RAK T A
A RAK
A co z przesunięciem? Zawsze pre GS[0].
Podsumowanie Notes
Mając dwie możliwe wartości przesunięć, w algorytmie

Boyera-Moore’a wybieramy zawsze tę większą)
Analiza złożoności obliczeniowej algorytmu BM wymaga podania

jej dla dwóch faz osobno
• preprocessing O(m + σ)
• przeszukiwanie O(n)

Wyszukiwanie Wzorca String Matching: - T - N - P - M

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wyszukiwanie Wzorca String Matching: - T - N - P - M

Uploaded by

Copyright:

Available Formats

Notes

Podstawowe definicje Notes

Zdefiniujmy dwa pojęcia

tekst T [0..n − 1] (text) |T | = n

Elementy tablicy brane są z pewnego zbioru Σ zwanego alfabetem

Mówimy też, że przesunięcie s jest przesunięciem poprawnym

Określenie problemu Notes

Zagadnienie wyszukiwania wzorca polega na

Inne pojęcia Notes

Niech Σ∗ będzie zbiorem wszystkich łańcuchów o skończonej

w jest prefixem łańcucha (tekstu) x, jeśli

w jest suffixem łańcucha (tekstu) x, jeśli

W algorytmie naiwnym sprawdzamy znak po znaku, przesuwając

K ATARAKTA KAT ARAK TA

Algorytm naiwny Notes

• Algorytm charakteryzuje się dużą wrażliwością, zależną od

Algorytm naiwny Notes

a 8.91 z 5.64 1.82

Ideą algorytmu Karpa-Rabina jest przetransformowanie łańcucha

Załóżmy, że alfabet składa się tylko z czterech znaków

Przypiszmy każdemu znakowi jego indeks w takim alfabecie

Przedstawmy te łańcuchy znakowe, jako liczby w układzie

Jak łatwo zauważyć warunkiem poprawności przesunięcia s jest

Problemem, który trzeba rozwiązać jest duża ilość mnożeń w fazie

Można ją zmniejszyć do ilości liniowej w zmiennej m poprzez

p = P[m] + 10 ∗ (P[m − 1] + 10 ∗ (...))

Trzeba też zmodyfikować sposób wyznaczania ts . Można np.

t1 = (t0 − T [0] ∗ 10m−1 ) ∗ 10 + T [4]

ts+1 = (ts − T [s] ∗ 10m−1 ) ∗ 10 + T [s + m]

Złożoność obliczeniowa operacji wyznaczania ts jest teraz stała

Załóżmy teraz, że znaki z przykładu są wybrane z całego alfabetu

ts+1 = (ts − T [s + 1] ∗ d m−1 ) ∗ d + T [s + m + 1]

Aby rozwiązać problem zakresu liczby całkowitej trzeba

• Rozszerzyć jej zakres poprzez stworzenie własnej

(a ∗ b) mod c = ((a mod c) ∗ (b mod c)) mod c

Jaką liczbę przyjąć, jako argument dzielenia modulo?

ts+1 = ((ts − (T [s + 1] ∗ d m−1 ) mod q) ∗ d) mod q + T [s + m + 1]

ts+1 = ((ts − (T [s + 1] ∗ h) mod q) ∗ d) mod q + T [s + m + 1]

• Równość p = ts nie jest w tym przypadku jednoznaczną

Zmieńmy łańcuchy znakowe. Niech nasz alfabet składa się z liter:

Szukajmy wzroca TATA w tekście TTATCTATAGCT.

Spróbujmy przesuwać wzorzec względem tekstu o większą liczbę

Przesuwanie (1) Notes

O ile możemy przesunąć wzorzec w takiej sytuacji.

Teraz znów podobna sytuacja?

Przesuwanie (2) Notes

Sukces, ale o ile można przesunąć teraz?

TTATC TATA 2 znaki

Przesuwanie - podsumowanie Notes

gdzie ile znaków “z

To co określić dla wzorca, to:

Tworzymy tablicę preprocesingu Π = [0, 1, 0, 1, 2].

Kryterium przesuwania Notes

Ostatecznie, przesunięcie następuje o:

Analiza złożoności obliczeniowej algorytmu BM wymaga podania

Zmieniamy sposób porównywania znaków, zaczynamy teraz

Ale można też inaczej

Możemy przesunąć o 2 znaki, tak aby podpisać

Możemy przesunąć o 2 znaki, tak aby podpisać

Mamy dwa rodzaje porównań i dwa preprocessingi

Bad character shift (occurence shift)

Przesunięcie następuje do takiej pozycji, żeby pozycji tekstu, gdzie

Tablica pre BC ma rozmiar alfabetu