You are on page 1of 9

Kalisz, 24.04.

2018

Ontologia prototypow pozytywnych i gruntowanie


modalnych zdan o przynalezności obiektu do
kategorii – model nr 2
Autor: Marcin Żurawski

1. Generowanie ontologii prototypów pozytywnych


1.1. Reprezentacja sceny fizycznej
Dane wejściowe reprezentowane są przez system informacyjny, zawierający obserwacje. Kolejne
obserwacje opisane są przez wartości atrybutów i etykietowane zdaniem atomicznym
„o jest (w kategorii) c”.

System informacyjny zawierający obserwacje: SO=(O,AL) gdzie


O – zbiór obserwacji (opisanych atrybutami z AL)
A – zbiór atrybutów
L – zbiór atrybutów-etykiet, na razie jednoelementowy – jedna etykieta na obserwację.
Jeśli na wejściu agenta pojawi się zestaw wartości atrybutów bez etykiety, to jest on traktowany jako
pytanie i powoduje próbę ustalenia relacji obiektu opisanego powyższymi wartościami z prototypami
w ontologii. Agent wykorzystuje w tym celu funkcje podobieństwa i uogólnienia.
System informacyjny zawierający pytania: SQ=(Q,A)
Q – zbiór pytań (obserwacji bez etykiety)

1.2. Model poznawczy pozytywny


Obserwacje można podzielić na bloki. Blok zawiera obserwacje o tych samych wartościach
atrybutów. Odpowiada to relacji B-nierozróżnialności (B-indiscernibility) definiowanej dla zbiorów
przybliżonych [Kom99]:
INDS(B) = {(x,x’)O2: aB a(x)=a(x’)}

gdzie S to system informacyjny, a BA.


Blok stanowi klasę równoważności (equivalence class) obserwacji będących w relacji INDS(A)
i oznaczamy go jako [o]A.
Model poznawczy pozytywny P(c) pojęcia (kategorii) c definiujemy jako zbiór bloków zawierających
obserwacje oznaczone etykietą c, a więc:
P(c) = {oO: [o]AC}

gdzie CO to zbiór obserwacji oznaczonych etykietą c.


W terminologii zbiorów przybliżonych model poznawczy jest więc górnym przybliżeniem zbioru C:

P(c) = A C
Jednak w odróżnieniu od teorii zbiorów przybliżonych i modelu nr 1 zakładam, że
przyporządkowanie różnych etykiet do równoważnych obserwacji (z tego samego bloku) nie wynika
ze zbyt słabej granulacji informacji ale z nakładania się pojęć.

1.3. Funkcja podobieństwa


Oznaczmy przez:
 B – zbiór bloków utworzonych na podstawie O
 B(c) – zbiór bloków zawierających co najmniej jedną obserwację oznaczoną przez etykietę c
 F(X,q) – liczbę pokrywających się wartości atrybutów dla pytania q i elementów pewnego
zbioru X.
Funkcja podobieństwa będzie miała postać
𝐹(𝐵(𝑐), 𝑞)
𝑆𝑖𝑚: (𝑄, 𝐶) → [0,1] 𝑖 𝑆𝑖𝑚(𝑞, 𝑐) =
𝐹(𝐵, 𝑞)
Simc(q) oznacza prawdopodobieństwo przynależności pytania qQ do kategorii c. Czyli jest ona
równa stosunkowi liczby pokrywających się atrybutów dla bloków oznaczonych etykietą c do liczby
pokrywających się atrybutów dla wszystkich(? - niekoniecznie) bloków.

Przykład nr 1 – obserwacje pogrupowane w bloki


Uwaga: w tabelach z obserwacjami kolejne bloki mają różne kolory tła.

lata nogi rozmiar etykieta


t 2 m wróbel
t 2 m ptak
t 2 m roślinożerny
t 2 m zwierzę
t 2 d orzeł
t 2 d ptak
t 2 d mięsożerny
t 2 d zwierzę
n 4 m mysz
n 4 m ssak
n 4 m roślinożerny
n 4 m zwierzę
n 4 ś pies
n 4 ś ssak
n 4 ś mięsożerny
n 4 ś zwierzę
n 4 d pies
n 4 d ssak
n 4 d mięsożerny
n 4 d zwierzę
Powyższy przykład oparty jest o dwie niezależne hierarchie pojęć:

zwierzę

ptak ssak

wróbel orzeł mysz pies

zwierzę

roślinożerny mięsożerny

wróbel mysz orzeł pies

Prototypy dla powyższego przykładu można zwizualizować jak poniżej:

lata nogi rozmiar

wróbel
t 2 m

roślinożerny ptak
orzeł t 2 d

mysz n 4 m zwierzę
mięsożerny

n 4 ś ssak
pies

n 4 d
Zgodnie z [Kat16] dla pytań, które odpowiadają obserwacjom, agent zwraca niemodalną odpowiedź,
czyli dla q1:(lata=t)(nogi=2)(rozmiar=m) pojawią się wypowiedzi:

 q1 is wróbel
 q1 is ptak
 q1 is roślinożerny
 q1 is zwierzę.

Dla pytania q2:(lata=t)(nogi=2)(rozmiar=ś) agent nie dysponuje żadną obserwacją, a więc posługuje
się funkcją podobieństwa:
F(B,q2)=5
Wartości funkcji podobieństwa:
Sim(q2,wróbel)=2/5=0,4 Sim(q2, orzeł)=2/5=0,4 Sim(q2,mysz)=0/5=0
Sim(q2,pies)=1/5=0,2 Sim(q2,ptak)=4/5=0,8 Sim(q2,ssak)=1/5=0,2
Sim(q2,zwierzę)=5/5=1 Sim(q2,roślinożerny)=2/5=0,4 Sim(q2,mięsożerny)=3/5=0,6
Agent przyjmuje, że są takie same szanse że badany obiekt jest wróblem i orłem, gdyż bloki z takimi
etykietami mają po 2 jednakowe wartości atrybutów co badany obiekt q2. Pojęcie pies jest mniej
prawdopodobne, gdyż tylko jedna wartość atrybutu pokrywa się w blokach z taką etykietą. Pojęcia na
wyższym poziomie hierarchii mają wyższe wartości funkcji podobieństwa, co jest racjonalne,
zachowana jest więc monotoniczność funkcji.

1.4. Poziom odcięcia


Można ograniczyć obliczanie funkcji podobieństwa do s najbardziej podobnych bloków, s będę
nazywał poziomem odcięcia. Np. dla powyższego przykładu dla s=2 tylko pierwsze dwa bloki będą
brane pod uwagę, czyli <t,2,m> i <t,2,d> gdyż mają po 2 wartości atrybutów równe wartościom
dla q2.
Wówczas F(B,q2)=4, a wartości funkcji podobieństwa będą bardziej zróżnicowane:
Sim(q2,wróbel)=2/4=0,5 Sim(q2, orzeł)=2/4=0,5 Sim(q2,mysz)=0/4=0
Sim(q2,pies)=0/4=0 Sim(q2,ptak)=4/4=1 Sim(q2,ssak)=0/4=0
Sim(q2,zwierzę)=4/4=1 Sim(q2,roślinożerny)=2/4=0,5 Sim(q2,mięsożerny)=2/4=0,5
Agent przestał rozważać możliwość, że badany obiekt może być psem/ssakiem, a nabrał większej
„pewności” że jest to ptak, a także wróbel lub orzeł.
Poziom s może zmieniać się w czasie. Np. agent może zaczynać od niskiej wartość s, co oznacza
skupienie się na najbardziej podobnych obserwacjach, a następnie zwiększać wartość s aby
przeanalizować więcej możliwości. To by odpowiadało efektowi psychologicznemu, że im dłużej coś
obserwujemy tym więcej opcji rozważamy.
Poziom s może być też optymalizowany na podstawie doświadczenia – trafności klasyfikacji. Jeśli
agent nie bierze pod uwagę pojęcia do którego należy badany obiekt to s należy zwiększyć. Jeśli
niepotrzebnie rozpatruje zbyt wiele pojęć – zmniejszyć.
1.5. Wartości puste
Brakującą wartość ε traktujemy jako różną od wartości atrybutu, a więc:
dla q3:(lata=t)(rozmiar=m) co odpowiada <t, ε,m>
F(B,q3)=4
Sim(q3,wróbel)=2/4=0,5 Sim(q3, orzeł)=1/4=0,25 Sim(q3,mysz)=1/4=0,25
Sim(q3,pies)=0/4=0 Sim(q3,ptak)=3/4=0,75 Sim(q3,ssak)=1/4=0,25
Sim(q3,zwierzę)=4/4=1 Sim(q3,roślinożerny)=3/4=0,75 Sim(q3,mięsożerny)=1/4=0,25

1.6. Cue validity


Model pozwala na uwzględnienie kryterium proponowanego przez Rosch [Kle03, str. 75] tzw. cue
validity czyli ważności atrybutu. Dla każdego z pojęć można policzyć, które atrybuty najbardziej
odróżniają dane pojęcie od innych. Takim atrybutom należałoby przypisać większą wagę, np. atrybut
‘lata’ dla pojęcia ptak miałoby większą wagę niż ‘rozmiar’. Wtedy miara F(X,q) byłaby sumą ważoną.
Nie jestem pewien, czy jest to konieczne, gdyż i tak atrybuty których wartości powtarzają się dla
wielu bloków, będą zwiększać miarę podobieństwa do danego pojęcia. Np. w przykładzie nr 1
atrybuty ‘lata’ i ‘nogi’ powtarzają się dla wróbla i orła, przez co są podwójnie liczone przy obliczaniu
funkcji podobieństwa dla pojęcia ptak.

1.7. Prototyp – stara wersja


Możemy spróbować znaleźć prototyp, a więc najbardziej typowych przedstawicieli pojęcia. Jako
bardzo wstępną propozycję miary dla danego bloku można przyjąć sumę odległości od pozostałych
bloków definiujących pojęcie. Odległość liczymy jako liczbę atrybutów o odmiennych wartościach.
Poniżej przykład:

lata nogi rozmiar etykieta odległość


t 2 m ptak 3
t 2 d ptak 3
n 2 ś ptak 4

Sortując według odległości możemy stwierdzić, że pierwsze dwa bloki są przypadkami typowymi
pojęcia ‘ptak’, ich wspólne wartości atrybutów (lata=t)(nogi=2) można przyjąć za typowe wartości.
Wówczas można poszukać czym różni się nietypowy przypadek od jądra prototypu i przedstawić to w
formie zdania np. q jest w kategorii ptak ale lata=n.
Wydaje się jednak, że odległość pytania q od prototypu nie powinna wpływać na miarę
podobieństwa, dlatego na razie nie jest w niej ujęta.
Można jednak przeszukiwać listę bloków od najbardziej typowych, w połączeniu z poziomem
odcięcia s, można w ten sposób uzyskać efekt prototypowy – najbardziej typowi przedstawiciele
pojęć będą rozpoznawani szybciej.
1.8. Prototyp – wersja oparta o [Kat17]
Dla zgodności z definicjami w [Kat17] atrybuty poddajemy binaryzacji:
 f1 – lataTak
 f2 – lataNie
 f3 – nogi2
 f4 – nogi4
 f5 – rozmiarM
 f6 – rozmiarS
 f7 – rozmiarD.
Wartości stopnia przynależności (degree of membership)  dla wszystkich kategorii podaję
w poniższej tabeli.
Kategoria lataTak lataNie nogi2 nogi4 rozmiarM rozmiarS rozmiarD
wróbel 1 0 1 0 1 0 0
orzeł 1 0 1 0 0 0 1
mysz 0 1 0 1 1 0 0
pies 0 1 0 1 0 0,5 0,5
ptak 1 0 1 0 0,5 0 0,5
ssak 0 1 0 1 0,33 0,33 0,33
roślinożerny 0,5 0,5 0,5 0,5 1 0 0
mięsożerny 0,33 0,67 0,33 0,67 0 0,33 0,67
zwierzę 0,4 0,6 0,4 0,6 0,4 0,2 0,4

Niebieskim tłem oznaczyłem wartości atrybutów należące do prototypu danej kategorii, zakładając
próg =0,63. Tak więc prototypowy ptak lata i ma 2 nogi. Niektóre prototypy są mniej sensowne z
uwagi na to, że rozważany przykład jest dość ubogi (mało przedstawicieli w każdej kategorii). Np.
prototypowy roślinożerca okazał się mały (rozmiarM).
2. Gruntowanie modalnych zdań o przynależności obiektu do
kategorii
2.1.Modalne zdania atomiczne
Rozpatrujemy zdania w postaci Mod(q jest w kategorii c) gdzie Mod jest jednym z operatorów
modalnych:

 Pos – możliwości
 Bel – przekonania
 Know – wiedzy.
Wzorując się na [Kat07] zakładamy istnienie progów modalności od których uzależnione jest
generowanie przez agenta modalnego zdania atomicznego: 0<minPos<maxPos≤minBel<maxBel≤1.

 Relacja epistemicznego spełnienia formuły Pos(q jest w kategorii c) zachodzi wtedy i tylko
wtedy, gdy:
𝜆𝑚𝑖𝑛𝑃𝑜𝑠 ≤ 𝑆𝑖𝑚(𝑞, 𝑐) < 𝜆𝑚𝑎𝑥𝑃𝑜𝑠
 Relacja epistemicznego spełnienia formuły Bel(q jest w kategorii c) zachodzi wtedy i tylko
wtedy, gdy:
𝜆𝑚𝑖𝑛𝐵𝑒𝑙 ≤ 𝑆𝑖𝑚(𝑞, 𝑐) < 𝜆𝑚𝑎𝑥𝐵𝑒𝑙

 Relacja epistemicznego spełnienia formuły Know(q jest w kategorii c) zachodzi wtedy i tylko
wtedy, gdy:
𝑆𝑖𝑚(𝑞, 𝑐) = 1
Być może uda się uprościć model do 2 progów Pos<Bel co równałoby się założeniom:

 Pos=minPos
 Bel=maxPos=minBel
 maxBel=1.
Powiedzmy, że dla przykładu nr 1 ustaliliśmy progi Pos=0,3 i Bel=0,6. Wówczas po prezentacji
agentowi pytania q2 o wartościach atrybutów (lata=t)(nogi=2)(rozmiar=ś) uzasadnione jest
ugruntowanie poniższych modalnych zdań atomicznych:
 Know(q jest w kategorii zwierzę)
 Bel(q jest w kategorii ptak)
 Bel(q jest w kategorii mięsożerny)
 Pos(q jest w kategorii wróbel)
 Pos(q jest w kategorii orzeł)
 Pos(q jest w kategorii roślinożerny)
Powyższe zdania są spójne z wiedzą odnośnie hierarchii kategorii podaną w przykładzie. Pokazują też
wzrastającą pewność agenta wraz z przesuwaniem się w górę hierarchii.
2.2. Modalne zdania z alternatywą
Rozpatrujemy zdania w postaci Mod(q jest w kategorii c1 lub … lub q jest w kategorii cn). Zdanie
zawierające taką alternatywę agent może ugruntować przy założeniu, że kategorie c1…cn traktujemy
jako nową kategorię c obejmującą wszystkie obserwacje etykietowane przez c1…cn. A więc we
wzorze:
𝐹(𝐵(𝑐), 𝑞)
𝑆𝑖𝑚: (𝑄, 𝐶) → [0,1] 𝑖 𝑆𝑖𝑚(𝑞, 𝑐) =
𝐹(𝐵, 𝑞)
klasa c reprezentuje c1…cn a zbiór C obserwacje o takie, że l(o)=ci, i=1…n. Relację epistemicznego
spełniania formuł sprawdzamy tak, jak dla zdań atomicznych.

2.3. Zdania modalne dotyczące prototypów


Rozszerzamy zdania modalne o klauzulę „ale atrybutwartość [i atrybutwartość...]”. Zdanie można
rozszerzyć jeśli mówi ono o przynależności do kategorii c, lecz obserwowany obiekt nie posiada
wartości atrybutów należących do prototypu c.

Dla pytania q4:(lata=n)(nogi=2)(rozmiar=d) agent nie dysponuje żadną obserwacją, a więc


posługuje się funkcją podobieństwa:
F(B,q4)=7
Wartości funkcji podobieństwa:
Sim(q4,wróbel)=1/7=0,14 Sim(q4, orzeł)=2/7=0,28 Sim(q4,mysz)=1/7=0,14
Sim(q4,pies)=1/7=0,14 Sim(q4,ptak)=3/7=0,43 Sim(q4,ssak)=4/7=0,57
Sim(q4,zwierzę)=7/7=1 Sim(q4,roślinożerny)=2/7=0,28 Sim(q4,mięsożerny)=5/7=0,71
Zakładając ponownie progi Pos=0,3 i Bel=0,6 otrzymujemy zdania (tu jeszcze w trochę innej formie,
z użyciem atrybutów zbinaryzowanych):

 Know(q4 jest w kategorii zwierzę)


 Bel(q4 jest w kategorii mięsożerny) ale nogi4=0
 Pos(q4 jest w kategorii ssak) ale nogi4=0
 Pos(q4 jest w kategorii ptak) ale lataTak=0
Czyli przekształcając do postaci podanej powyżej, dla atrybutów wielowartościowych:
 Know(q4 jest w kategorii zwierzę)
 Bel(q4 jest w kategorii mięsożerny) ale nogi4
 Pos(q4 jest w kategorii ssak) ale nogi4
 Pos(q4 jest w kategorii ptak) ale latat
Pierwsze zdanie nie zostało rozszerzone, gdyż kategoria zwierzę nie posiada żadnych wartości
atrybutów w prototypie.
3. Podsumowanie
Zalety modelu:
 możliwość gruntowania modalnych zdań atomicznych i alternatyw
 możliwość gruntowania zdań z klauzulą „ale”
 racjonalne gruntowanie zdań dla kategorii rozdzielnych
 racjonalne gruntowanie zdań dla kategorii nakładających się, w tym tworzących ontologię
(hierarchię)
 możliwość tworzenia wielu niezależnych ontologii dla tych samych kategorii
 gruntowanie zdań na podstawie niepełnych informacji (mniejszego zestawu atrybutów
w pytaniu niż odpowiedzi)
 możliwość uzyskania efektów prototypowych

Wady modelu:
 brak (na razie) mechanizmu gruntowania modalnych koniunkcji, alternatyw wyłączających i
negacji
 część wad modelu nr 1 wymaga jeszcze zbadania.

4. Bibliografia
[Kat07] Katarzyniak Radosław (2007): Gruntowanie modalnego języka komunikacji w systemach
agentowych. Wyd. Exit, Warszawa 2007.
[Kat16] Katarzyniak R., Mulka M., Popek G., Żurawski M. (2016): Towards Communicative Agents
with Cognitive Semantics of Modal Class-Membership Statements. W: 2016 12th International
Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery, Changsha, China. s.
1981-1986
[Kat17] Katarzyniak R., Lorkiewicz W., Mulka M., Krejcar O. (2017): Towards basic level categories in
cognitive agents. W: 2017 13th International Conference on Natural Computation, Fuzzy Systems and
Knowledge Discovery, ICNC-FSKD 2017 [Dokument elektroniczny] : 29-31 July 2017, Guilin, China /
Eds. Yong Liu [i in.]. [B.m.] : IEEE, cop. 2017. s. 384-391.
[Kle03] Kleiber G. (2003): Semantyka prototypu
[Kom99] Komorowski J., Pawlak Z., Polkowski L., Skowron A., Rough Sets: A tutorial. In: S.K. Pal and A.
Skowron, editors, Rough Fuzzy Hybridization, A New Trend in and Decision Making, pages 3-98.
Springer-Verlag, Singapore, 1999.

You might also like