You are on page 1of 17

Metody przetwarzania i analizy obrazów

1-1

Rozdział 1. Postrzeganie obrazów

Proces postrzegania obrazów przez ludzi jest bardzo złożony. Po pierwsze
istnieje bardzo dobrze wykształcony system rejestracji promieniowania widzialnego
poprzez oko ludzkie. Jednak synteza obrazu, a co za tym idzie jego interpretacja, to
wciąż badane procesy mózgu. Sztuczne systemy rejestracji i prezentacji obrazów
opierają się głównie na własnościach układu wzrokowego. Warto zatem je
prześledzić gdyż mogą stać się podstawą do rozwijania metod przetwarzania i analizy
obrazów.
1.1. Postrzeganie obrazów
Oko ludzkie stanowi bardzo dobry system rejestracji promieniowania widzialnego.
Uproszczona budowa oka przedstawia układ optyczny regulujący rozmiar wiązki
światła padającego na rozłożony w tylnej części oka zestaw receptorów. W oku
ludzkim znajduje się około 80-137 mln receptorów w tym 4-7 milionów czopków i
około 76-130 milionów pręcików [1][2][3]. Średnia gęstość pręcików to 80-110 tys.
na mm2; maksymalne gęstości sięgają poziomu 190 tys. pręcików na mm2. W
przypadku czopków średnia gęstość wynosi 4-5 tys. na mm2, natomiast największe
gęstości są rzędu 300 tys. czopków na mm2. W centralnej części siatkówki znajduje
się największe zagęszczenie czopków (plamka żółta), związane z największą czułością
widzenia. Przykładowy widok zestawu receptorów w siatkówce człowieka pokazano
na Rys. 1. Warto zauważyć, iż system sztuczne charakteryzują się znacznie mniejszą
rozdzielczością rzędu od kilku do kilkudziesięciu detektorów na milimetr.

© Jacek Rumiński, 2004

V4. Liczne badania wskazują. Kora pierwszorzędowa – oznaczana jako pole V1 – stanowi główny ośrodek przetwarzania informacji wzrokowych. kształt. 2. Każde z tych pól charakteryzuje się przetwarzaniem danego aspektu obrazu jak barwa (V4). Receptory połączone są grupami do komórek zwojowych (Rys. skąd dalej poprzez włókna nerwowe łączą się z mózgiem.Metody przetwarzania i analizy obrazów 1-2 Rys. że © Jacek Rumiński. Przykład budowy siatkówki człowieka w dużym powiększeniu. Rys. 1. Przykład połączenia grupy receptorów z komórką zwojową. V3. 2004 .. 2). Korę drugorzędową tworzą pola oznaczone jako V2. Obszary mózgu związane głównie z przetwarzaniem informacji wzrokowych to kora pierwszorzędowa i drugorzędowa. itp. ruch (V5). lub ich kombinacji [4]. Większa jej część zajmuje się analizą postrzeganych informacji pochodzących z centralnych 10 stopni pola widzenia. faktura. V5.

W ten sposób powstały popularne dzisiaj prawa percepcji czy inaczej prawa scalania. W metodzie tej rejestruje się sygnał z obszaru mózgu. Ze względu na tematykę tej książki warto przedstawić szkic poglądów psychologicznej szkoły Gestalt. brak postrzegania ruchu. wpływającą na wielkość sygnału mierzonego. że całość jest czymś więcej niż sumą swoich części”. Typową metodą jest funkcjonalne badanie z wykorzystaniem tomografii rezonansu magnetycznego. czy wręcz psychologia widzenia. co powoduje większą konsumpcję tlenu (metabolizm tlenu).Metody przetwarzania i analizy obrazów 1-3 mózg przetwarza sygnały wzrokowe w sposób rozproszony. itp. a nasze wnioskowanie o treści obserwowanej sceny zależeć będzie od ułożenia (w sensie odległości) © Jacek Rumiński. powszechnych ich zdaniem w układzie wzrokowym. Podobnie bada się inne formy pobudzeń (np. Pozostaje jedynie problem właściwego pobudzenia mózgu. W tym celu stosuje się odpowiednio przygotowanych ochotników demonstrując im różne obrazy i ich aspekty. jako funkcję zmian właściwości magnetycznych ośrodka. czy seksualne). Ośrodki mózgu powiązane z interpretacją obrazów (ponad 30 ośrodków) realizują jedno z dominujących zadań mózgu – przetwarzanie. słuchowe. Prawo bliskości głosi. Samo słowo „gestalt” oznacza „zorganizowaną całość. albo ruch kolorowych obiektów. kontynuacji i zamknięcia. interpretacji „tego co zobaczone” i mechanizmów z tym związanych rozpatruje psychologia poznania. Pobudzenie danej części mózgu powoduje jej aktywność. itp. Przykładowo: pokazujemy im zmiany barw. ponieważ krew utlenowana ma inną podatność magnetyczną niż krew bez tlenu (z mniejszą jej ilością). Z tych względów występują różne selektywne problemy postrzegania. jak np. podobieństwa. że w sposób naturalny grupujemy elementy leżące blisko siebie. Zmiany te są wywoływane poprzez zmienną zawartość tlenu we krwi dostarczanej do określonych części mózgu. Problem widzenia. interpretację. Obejmują one prawa bliskości. Psychologowie szkoły Gestalt próbowali opracować podział typów oddziaływań. Tworzenie map kory jest możliwe dzięki wykorzystywaniu profesjonalnych metod pomiarowych. Następnie badamy odpowiedź na dane pobudzenie i po analizie statystycznej uzyskuje się pola aktywności mózgu związane z daną formą pobudzenia. ruchowe. 2004 . której każda część oddziałuje na inne w ten sposób. niemożność rozpoznania twarzy przy jednoczesnym bardzo dobrym rozpoznawaniu obiektów prostych. rozpoznawanie i uczenie się obrazów.

czyli do receptorów. których obserwacja nie prowadzi nas do wniosku o czterech odcinkach spotykających się w jednym punkcie. Inne ważne prawo szkoły Gestalt to prawo prostoty (Prägnanz). 2004 . Na Rys. © Jacek Rumiński. Prawo zamknięcia głosi. Najprostsza interpretacja to taka. że punkty tworzą linie poziome. kolor). wówczas w sposób naturalny decydujemy. 3 zaprezentowano względną efektywność czopków i pręcików. Prawo kontynuacji głosi. Przykładowo. Czopki związane są z możliwością rejestracji promieniowania w trzech oddzielnych pasmach promieniowania (trzy typy czopków). Prawo podobieństwa głosi. niż tylko sam kontur. Jak już wspomniano istnieją dwie klasy receptorów: czopki i pręciki. że obserwując zamknięty lub prawie zamknięty kontur widzimy raczej zawarty w tym konturze region. która wymaga małej ilości informacji. że grupujemy elementy. lecz o dwóch liniach przecinających się.Metody przetwarzania i analizy obrazów 1-4 elementów tej sceny. Według niego układ wzrokowy ustala dla odbieranej informacji wzrokowej najprostszą. Powróćmy jednak to systemu rejestracji promieniowania. jeśli dokonamy regularnej prezentacji punktów w układzie dwuwymiarowym. najbardziej symetryczną interpretację. Prawa szkoły Gestalt stanowią często podstawę dla opracowywanych metod przetwarzania. Pręciki związane są z rejestracją natężenia promieniowania (zasadniczo istnieje jeden typ pręcików) i są bardziej aktywne przy mniejszej intensywności oświetlenia. analizy i rozpoznawania obrazów. co w efekcie odpowiada widzeniu barwnemu. z tym. natomiast na Rys. że grupujmy elementy za względu na ich podobne cechy wzrokowe (np. że w jednym wymiarze (powiedzmy w poziomie) punkty będą leżały bliżej siebie niż dla drugiego wymiaru (w pionie). litera X). Przykładem jest skrzyżowanie dwóch linii (np. które stanowią określoną ciągłość (kontynuację). 4 pokazano względną efektywność dla różnych typów czopków.

2 Efektywność postrzegania [j. 3 można wysnuć wniosek. © Jacek Rumiński. Wyniki te uzyskano na podstawie badań statystycznych (dla średniego obserwatora). 2004 . 3. Względna efektywność postrzegania w widzeniu fotopowym (jasne otoczenie) i w widzeniu skotopowym (ciemne otoczenie).at.2 0 300 400 500 600 Długość fali [nm ] 700 800 900 Rys.u. Na podstawie Rys.Metody przetwarzania i analizy obrazów 1-5 1.co.6 0.cie.] 1 0. Dane na podstawie standardów CIE [5][6]. że receptory oka ludzkiego są w stanie zarejestrować promieniowanie w zakresie od 380nm do 720nm. Prezentowane wyniki powstały jako efekt badań statystycznych przeprowadzonych dla reprezentacji populacji osób przez międzynarodową komisję standaryzującą Commission Internationale d'Eclairage (CIE) – www.4 0.8 photopic CIE 1924 scotopic CIE 1951 0.

© Jacek Rumiński. 5 nieliniowość ta jest opisywana przez funkcję logarytmiczną.6 0. Poprzez mieszanie odcieni barwy czerwonej.u. Green – zielony. zielonej i niebieskiej otrzymuje się dużą gamę kolorów możliwych do wyświetlenia w systemach projekcyjnych. Postrzeganie zmian w jasności odbijanego od obiektu promieniowania widzialnego ma charakter nieliniowy.2 pręciki Względna efektywność receptorów [j.2 0 350 400 450 500 550 600 650 700 -0. Systemy kolorów przedstawione zostaną w kolejnym rozdziale. można w przybliżeniu stwierdzić iż czopki rejestrują najbardziej następujące barwy: niebieską (czopki S). które w większości wykorzystują system kolorów zwany RGB (Red – czerwony.] 1 czopki L czopki M 0. zieloną (czopki M) i żółto-zieloną (czopki L).8 czopki S 0. 2004 . 4. 3 z gamą barw tęczy. Dane wyznaczone według [7].Metody przetwarzania i analizy obrazów 1-6 1. Blue – niebieski). L (long).4 0. Jak to prezentuje Rys. Względna efektywność receptorów (normalizowana do 1) dla pręcików oraz trzech typów czopków S (short). Synteza barwy poprzez mieszaninę sygnałów pochodzących z trzech typów czopków jest bezpośrednio odwzorowywana w systemach sztucznych.2 Długość fali [nm] Rys. M (medium). Porównując amplitudy rozkładów czułości czopków pokazane na Rys.

W warunkach jasnego oświetlenia otoczenia (dzień. 2004 . Efektywność tą prezentuje Rys. 5. Na podstawie badań grup reprezentujących zdrową populację osób określono efektywność spektralną postrzegania promieniowania widzialnego przez średniego obserwatora (CIE). 6. sztuczne oświetlenie) – widzenie fotopowe – dominującymi receptorami rejestrującymi światło są czopki. Postrzeganie promieniowania widzialnego zależy również od warunków oświetlenia obserwowanej sceny. © Jacek Rumiński.Metody przetwarzania i analizy obrazów 1-7 Rys. Nieliniowy charakter postrzegania zmian jasności przez oko ludzkie. W warunkach niewielkiego oświetlenia (wieczór) – widzenie skotopowe – dominującymi receptorami są pręciki.

2004 . Przykładowo moc optyczna jest pojęciem radiometrycznym. Efektywność spektralna postrzegania promieniowania widzialnego przez człowieka. Wyraźnie widoczne maksimum dla widzenia fotopowego przypada na promieniowanie monochromatyczne 555nm.Metody przetwarzania i analizy obrazów 1-8 1800 1700lm/W Efektywność spektralna receptorów [lm/W] 1600 507nm 1400 1200 photopic CIE 1924 scotopic CIE 1951 1000 800 555nm 683lm/W 600 400 200 0 300 400 500 600 Długość fali [nm] 700 800 900 Rys.57lm. Lumen definiowany jest jako: źródło światła monochromatycznego emitującego promieniowanie o mocy optycznej 1/683 Wata dla długości fali 555nm wytwarza strumień świetlny równy 1 lumen (1 lm). w obrębie 1 steradiana (sr) dla długości fali 555nm ma natężenie promieniowania widzialnego równe 1 kandela (1 cd). Natężenie promieniowania widzialnego określane jest przez następującą definicję i jednostkę: źródło światła monochromatycznego emitującego promieniowanie o mocy optycznej 1/683 Wata (W). 6. Wyraźnie wyznaczyć można relację pomiędzy lumenem a kandelą: 1cd = 1lm / sr. Jakościowy opis i reprezentacja fizyczna 1 kandeli © Jacek Rumiński. Jeżeli źródło emituje promieniowanie identycznie we wszystkich kierunkach (izotropowo) wówczas natężenie promieniowania równe 1 cd wyniesie 4π⋅ 1lm=12. czyli związanym z układem odniesienia jakim jest system wzrokowy człowieka. Innym ogólnym pojęciem nie związanym fotometrycznym z jest tak subiektywnym natężenie światła (promieniowania widzialnego). Z tym związane jest bardzo ważna jednostka strumienia świetlnego – lumen. Strumień świetlny (lumen) jest pojęciem fotometrycznym. odniesieniem.

W gdzie: P – moc optyczna wypromieniowana ze źródła (monochromatycznego).058lm .Metody przetwarzania i analizy obrazów 1-9 podawany jest jako natężenie promieniowania widzialnego typowej świeczki (ang.017=V(680nm) – wartość efektywności spektralnej według standardu CIE. W Jeżeli źródło nie jest monochromatyczne wówczas konieczne jest skalowanie wartości mocy dla każdej długości fali: Φ = 683 lm ⋅ V ( λ ) ⋅ P ( λ ) dλ . 3. ponieważ V(630nm)=0. W gdzie 0. Przykładowo strumień świetlny wskaźnika laserowego o mocy 5mW i długości fali 680nm wyniesie Φ = 0.265 >> 0. candle – świeczka). Normalizując natężenie promieniowania przez powierzchnię padania promieniowania równą 1m x 1m.265 ⋅ 683 lm = 0. uzyskujemy luminację 1cd / m2. Stosując dla wskaźnika laserowego krótszą długość fali – 630 nm – uzyskamy znaczne zwiększenie strumienia. Zaprezentowane krzywe efektywności spektralnej postrzegania promieniowania widzialnego przez człowieka (normalizowane przez CIE) umożliwiają wyznaczenie strumienia świetlnego dla źródła promieniowania monochromatycznego.017: Φ = 0.905lm .005W ⋅ 0. V – wartość efektywności spektralnej dla danej długości fali (źródła monochromatycznego) dla widzenia fotopowego – Rys. W ∫λ Całkowita moc wyemitowana przez źródło wyniesie wówczas © Jacek Rumiński. 2004 .017 ⋅ 683 lm = 0. Analogicznie normalizując strumień świetlny przez powierzchnię badania otrzymujemy natężenie oświetlenia 1 lm / m2. według wzoru: Φ = P ⋅ V ⋅ 683 lm .005W ⋅ 0.

2. 2004 . Na rysunku umieszczono jednakowo szare kwadraty we wnętrzu kwadratów o odmiennej wartości w skali szarości. 1. iż kolor małego kwadratu jest coraz jaśniejszy. będziemy mieli na myśli przetwarzanie danych pewnego modelu obrazu. λ a relacja Φ /P określa efektywność konwersji mocy optycznej na strumień świetlny. Mówiąc o przetwarzaniu obrazów. przyjrzyjmy się problemom interpretacji obrazów wynikających z własności systemu wzrokowego człowieka. że człowiek inaczej widzi w zależności od warunków zewnętrznych. Złudzenia. Dla potrzeb systemów sztucznych skonstruowano wiele uproszczeń (jak na przykład prezentowane średnie charakterystyki efektywności postrzegania). Te samo pobudzenie może być inaczej zinterpretowane („zobaczone”) przez różne osoby. Model obrazu zawiera zarówno reprezentację obrazu (np. formę przechowywania danych obrazu) jak i prezentację obrazu. oraz sposób odwzorowania tych danych na kolory. Przetwarzaniu mogą podlegać zarówno dane obrazu (dla obrazów cyfrowych – dane macierzy obrazu) jak i sposób odwzorowania tych danych na kolory. Problem wpływu relacji gradientu luminancji na jakość wnioskowania ilustruje Rys. 7. Zanim rozpatrzymy problem kolorów. Obraz jest zatem określonym produktem naszego mózgu w odpowiedzi na pobudzenie receptorów. iluzje i inne problemy postrzegania Istotnym wnioskiem wynikającym z przeprowadzonej do tej pory analizy procesu widzenia może być stwierdzenie. Obserwator może mylnie ocenić. które umożliwiają modelowanie kolorów i związanych z nimi obrazów. Model ten opisuje: dane obrazu (wartości liczbowe).Metody przetwarzania i analizy obrazów 1-10 P = ∫ P (λ )dλ . © Jacek Rumiński. Postrzeganie obrazów przez człowieka jest zatem bardzo złożonym procesem.

zakodowanych odpowiednim kolorem. Podstawowe testy wykonywane w celu wykrycia daltonizmu polegają na wkomponowaniu w obraz barwny prostych informacji. 2004 . Na Rys. które mogą wpłynąć na niewłaściwe rozpoznanie i związaną z tym decyzją. 12. Jeżeli osoba badana nie jest daltonistą to bez trudu odczyta ukryta informację. 45). © Jacek Rumiński. Umiejętność ta może okazać się jednak wadą w przypadku interpretacji obrazów dwuwymiarowych. Kolejne problemy interpretacji obrazów związane są ze złudzeniami jakie niesie nasz system wzrokowy. Przykładowe tablice pokazuje Rys. Doskonałym przykładem tego testu są tablice doktora Shinobu Ishihary. Problemy z rozróżnianiem kolorów mogą znacznie utrudnić orientację czy odbiór informacji. Przykładowe tablice Ishihary (kolejno ukryte liczby 5.Metody przetwarzania i analizy obrazów 1-11 Rys. iż człowiek obserwuje przestrzeń 3-wymiarową potrafiąc wnioskować o rozmiarach obiektów. Oprócz negatywnego wpływu warunków obserwacji obrazu na jego interpretację istnieje jeszcze szereg czynników. 9 pokazano przykładowo trzy walce. Jedną z najbardziej znanych wad układu wzrokowego związanego z rozpoznawaniem obrazów jest daltonizm. Rys. Po pierwsze należy wskazać na fakt. których wielkość oceniamy na różną lub równą w zależności od kontekstu. 8. Wpływ kontekstu na ocenę poziomu szarości. w których zakodowano poprzez kontekst obiekty przestrzenne. 8. Czynniki te mają najczęściej charakter złudzeń i wad układu wzrokowego. 7.

dwie linie równoległe są odbierane jako krzywe. 10. chociaż w rzeczywistości występują tylko trzy czarne koła z wycięciami. Przykładowo na Rys. .Metody przetwarzania i analizy obrazów 1-12 Rys. . Trzy walce występujące w różnym kontekście mogą być odbierane przez obserwatora jako zupełnie inne lub takie same. Wpływ kontekstu na ocenę elementów obrazu. Rys. których relacja lub rozmiar ulega mylnej ocenie ze względu na kontekst obserwacji. Kolejno: . Białe trójkąty obserwowane jako wynik kontekstu ułożenia czarnych pól z wyciętymi trójkątami. gdzie nie one nie występują. © Jacek Rumiński.idealny okrąg jest odbierany jako zniekształcony. 11 można zaobserwować białe trójkąty. 9. 11.dwie jednakowe linie poziome są odbierane jako linie o różnej długości. Rolę kontekstu pokazuje również Rys. 2004 . Pokazano na nim elementy wektorowe. Rys. 10. Kolejne złudzenie wynikające z kontekstu to rozpoznawanie kształtów tam.

2004 . poza tym obszarem. 12. Rys. na który patrzy obserwator. Biały kształt obserwowany jako wnętrze wytyczane przez występujące w obrazie czarne krzywe. Fałszywie odbierane czarne koła na styku czterech sąsiednich kwadratów. Rys. wyraźnie pojawiają się szare koła wszędzie na styku czterech sąsiednich kwadratów. 13). 12 wyraźnie widać biały kształt. W obrazie tym. 13.Metody przetwarzania i analizy obrazów 1-13 Na Rys. chociaż nie występuje on w obrazie. © Jacek Rumiński. Innym przykładem złudzenia powodującym obserwację nieistniejących obiektów w obrazie jest obraz regularnej kompozycji kwadratów (Rys.

© Jacek Rumiński. Jednak. Nie można natomiast obu tych scen zobaczyć jednocześnie. 14. który można ocenić albo jako wazę albo jako dwa profile ludzkiej twarzy. pokazano na Rys. zaprezentowanego na Rys. 13. Obrazy takie umożliwiają obserwację tylko jednego obiektu obrazu na raz. 15 pokazano obraz. Rys. Jednak. Przecinające się linie tworzą białe kropki. gdy nie skupiamy na nich uwagi widzimy czarne kropki zamiast białych. 14. gdy nie skupiamy na nich uwagi widzimy czarne kropki zamiast białych. Ciekawym przykładem wpływu kontekstu na jakość rozpoznania są tak zwane obrazy konkurencyjne. Przecinające się linie tworzą białe kropki.Metody przetwarzania i analizy obrazów 1-14 Inny przykład analogicznego złudzenia do tego. Przykładowo na Rys. 2004 .

Inną ciekawą ilustracją obrazów konkurencyjnych jest rysunek słonia (Rys. Obrazy konkurencyjne – ile słoń ma nóg? Kolejną ciekawą własnością ludzkiego postrzegania są tak zwane obrazy ukryte. Niemniej raz rozpoznane. 15. Obrazy ukryte to sceny w obrazie. Obrazy konkurencyjne wazonu i profili ludzkich twarzy. sprawiają. iż każda kolejna obserwacja obrazu ukrytego jest bardzo prosta i wręcz oczywista dla obserwatora. © Jacek Rumiński.Metody przetwarzania i analizy obrazów 1-15 Rys. Rys. 16. 16). 17 przedstawiono ukryty obraz dalmatyńczyka. 2004 . Przykładowo na Rys. ze złudzeniem wielu nóg. które bardzo trudno rozpoznać.

Ukryty obraz dalmatyńczyka... 2004 . K. 17. Obiektywna ocena obrazu poprzez polepszenie jego jakości lub poprzez opis jego treści może znacznie zmniejszyć błędy w rozpoznawaniu. C. 1990. w aplikacjach wojskowych czy medycznych). © Jacek Rumiński. W kolejnym rozdziale rozpatrzymy problem reprezentacji i prezentacji obrazów. & Allen. 2.Metody przetwarzania i analizy obrazów 1-16 Rys.A. Topography of ganglion cells in human retina. Procesy przetwarzania informacji u człowieka – wprowadzenie o psychologii.Østerberg. G. PWN. 1991. Przedstawione przykłady. Linsay P. Zadania takie stawiane są miedzy innymi rozwijanym metodom przetwarzania i analizy obrazów. Literatura 1. które stanowią zaledwie część licznych obrazów testowych. Curcio.H. wyraźnie wskazują jak prosto można podlegać złudzeniom układu wzrokowego. Topography of the layer of rods and cones in the human retina. Zatem istnieje również niebezpieczeństwo niewłaściwego rozpoznania obrazu co może być tragiczne w skutkach (np. Acta Ophthalmologica 13 (Supplement 6) 1-97. 3. lub może to rozpoznawanie uczynić lepszym zarówno jakościowo jak i ilościowo. 1935. Warszawa. skupiając się głównie na systemach kolorów (modelach barw).A. Norman . Journal of comparative Neurology 293.A..A..

S. CIE.. 5. 7. Cambridge: Cambridge University Press. J. 115-130. D. 2004 . Wyszecki. J. Zdumiewająca hipoteza czyli nauka w poszukiwaniu duszy. Proceedings of the Royal Society of London.). K. Prószyński i S-ka. © Jacek Rumiński. Dartnall. Commission Internationale de l'Eclairage Proceedings.. W. H.Metody przetwarzania i analizy obrazów 1-17 4.. Color Science: concepts and methods. G. Bowmaker. 1926.. New York: Wiley. 1982. A. Crick F. B 220. 1983. Human visual pigments: microspectrophotometric results from the eyes of seven persons. 1997. Warszawa. quantitative data and formulae. (2nd ed.. & Mollon. J. 1924. 6. & Stiles..