You are on page 1of 7

1.

Introducere
Imaginile sunt i un concept cu caracter informaional. Oamenii primesc pe cale vizual cea mai
mare parte din informaia pe care sistemul lor senzorial o achiziioneaz.
Oamenii preistorici au pictat, mult nainte de a scrie, transmind n acest mod informaii selectate.
Probabil c am putea identifica aceste picturi din peteri ca primele imagini artificiale cu
aplicabilitate grafic. Multe mii de ani imaginile artificiale au fost create de oameni prin metode
grafice i au fost interpretate n mod natural tot de ctre oameni. Apariia i ulterior dezvoltarea
calculatoarelor a oferit posibilitatea ca imaginile artificiale s fie create i memorate sub form
numeric. Noul domeniu este grafica pe calculator i el este astzi foarte cunoscut i utilizat.
Informaia, sub form de imagine de sintez, furnizat de o aplicaie de grafic pe calculator este
legat de lumea nconjurtoare numai n msura n care se dorete ca aceast realitate s fie mai
mult sau mai puin copiat. Decodificarea informaiei transmise prin aceste imagini este fcut de
oamenii care le privesc i care sunt utilizatorii finali ai aplicaiei. Din acest punct de vedere,
imaginile au o rezoluie din ce n ce mai bun pentru a putea reprezenta ct mai bine detaliile.
Numrul de culori este deasemenea din ce n ce mai mare pentru ca fidelitatea reprezentrilor s fie
susinut i din acest punct de vedere. Se creaz n acest mod o realitate virtual aflat sub controlul
total al programatorului care a proiectat-o. Dac ar fi necesar atunci s-ar putea oferi un text
explicativ care s descrie toate obiectele incluse n scena virtual reprezentat printr-o astfel de
imagine pentru c totul este cunoscut aprioric de ctre programator.
Dezvoltarea tehnicii a creat, chiar naintea calculatoarelor, senzori care s ofere semnale electrice
dependente de interaciunea dintre lumin i o scen cu obiecte. A aprut astfel posibilitatea de a
produce imagini artificiale care ulterior s fie afiate pe dispozitive speciale i s fie privite de
oameni. Coninutul acestor imagini achiziionate este puternic i direct legat de scena pe care o
reprezint. Calitatea imaginilor de acest tip nu este, n majoritatea cazurilor, satisfctoare i ca
urmare semnalele corespunztoare trebuie prelucrate pentru a elimina zgomotele sau pentru a
amplifica alte caracteristici utile, de exemplu contrastul. Cele dou etape, achiziia i prelucrarea
imaginilor, i pstreaz scopurile generale, dar i adapteaz tehnicile i metodele, i atunci cnd
sistemul este completat cu un calculator i formatul imaginii este unul numeric. Imaginile
achiziionate pot fi afiate, ca i imaginile de sintez, pentru a fi privite i analizate de un observator
uman. Dac se dorete s se determine ce conine imaginea achiziionat fr a face apel la un
observator uman atunci apare o problem nou, interpretarea sau nelegerea imaginilor folosind
tehnici de inteligen artificial. Rezolvarea acestei probleme presupune adugarea unei noi etape
dup achiziia i prelucrarea imaginii. Noua etap realizeaz o decodificare a informaiei coninute
ntr-o imagine i poate fi asociat termenului generic de recunoatere a imaginilor. Pe lng
fotografie i cinematografie, din punct de vedere istoric, primele aplicaii care au necesitat achiziia
i prelucrarea imaginilor au fost aplicaiile militare, spaiale i medicale. Cele trei etape amintite
anterior, achiziia, prelucrarea i recunoaterea imaginilor, se constituie n problemele principale ale
domeniului vederii artificiale. O tendin natural ar fi aceea de a lucra cu imagini cu o ct mai bun
rezoluie spaial i cu ct mai multe culori. n multe cazuri, echipamentele disponibile azi nu pot
s-i ndeplineasc sarcinile att de repede pe ct este necesar i atunci vom constata c n aplicaiile
de vedere artificial imaginile au o rezoluie redus i sunt reprezentate cu nivele de gri. Privind
numai imaginile folosite, s-ar putea trage concluzia c vederea artificial este mai puin
spectaculoas dect grafica pe calculator. Totui, identificarea i localizarea automate ale unui
obiect, care pe baza acestor informaii va fi manipulat corespunztor de un robot, este un exemplu
de aplicaie care ne poate trezi interesul.

Dei lucreaz cu imagini i folosesc multe tehnici i metode comune, cele dou domenii amintite
mai sus, grafica pe calculator i vederea artificial, pstreaz o complementaritate care le
difereniaz principial.
Sistemele de vedere artificial au fost dezvoltate avnd ca model inevitabil sistemele biologice i
n special sistemul uman. O astfel de abordare este limitat din start de dou aspecte. n primul rnd,
sistemul uman dispune de un avantaj net n ceea ce privete modul de prelucrare a
informaiei pentru c se bazeaz pe un numr impresionant de uniti de prelucrare (nu de calcul),
neuronii, care proceseaz n paralel informaia codificat ntr-o manier mult mai complex dect
aceea numeric i binar. Sistemele artificiale sunt obligate s folosesc formatul numeric pentru
informaie pentru c echipamentele care sunt disponibile sunt calculatoarele numerice. n al doilea
rnd, tentativa de a copia propriul nostru mod de gndire este limitat de capacitatea nostr
discutabil de autocunoatere. Noi oamenii, recunoatem cu uurin un obiect, chiar dac este
parial ascuns de alte obiecte, dar nu putem s explicm cum am realizat aceast recunoatere i ca
urmare nu putem s copiem metoda ntr-un algoritm sau ntr-o tehnic de inteligen artificial. Mai
mult, datorit capacitii de nvare, de generalizare i a intuiiei oamenii pot recunoate i obiecte
pe care nu le-au mai vzut. De exemplu, oricine se poate pronuna n legtur cu un fruct chiar dac
el este exotic, spre exemplu avogado, i nu l va confunda niciodat cu un bec chiar dac nu l-a mai
vazut niciodat! Pentru sistemele de vedere artificiale recunoaterea se reduce, n cele mai multe
aplicaii actuale, la o clasificare adic la identificarea unui obiect iniial necunoscut prin detectarea
asemnrii cu unul din obiectele nvate iniial.

2. Achiziia imaginii
2.1 Introducere
Indiferent de domeniul de aplicaie, utilizarea calculatoarelor impune un format numeric pentru
informaia prelucrat. Vederea artificial respect aceast regul i lucreaz cu imagini numerice.
Pentru a obine imaginea numeric (digital image) este nevoie de dou elemente: senzorul i
covertorul (digitizer).
Senzorul este un element fizic care percepe o radiaie electromagnetic ntr-o anumit band de
frecven (ultraviolete, infrarou, vizibil, raze X). Ieirea senzorului este o mrime electric, n
general o tensiune, proporional cu energia radiaiei electromagnetice primit de senzor. n funcie
de aplicaie, banda de frecven i senzorul aferent sunt diferite.
Convertorul este un dispozitiv electronic care primete mrimea electric furnizat de senzor i o
transform ntr-un format numeric.
Pentru aplicaiile de vedere artificial, cel mai frecvent, senzorii sunt identificai cu numele generic
de camere de luat vederi. Realitatea observat se prezint atunci sub forma unei scene
tridimensionale care este iluminat natural sau artificial. Lumina reflectat este absorbit de senzor
a crui suprafa activ este bidimensional. Desigur, se pot imagina i alte situaii particulare, dar
cazul prezentat mai sus este cel mai frecvent i el are avantajul c poate fi pus uor n
coresponden, i deci neles, cu vederea uman. Cele mai cunoscute camere de luat vederi au fost,
n ordinea apariiei i utilizrii istorice, camerele vidicon i camerele matriceale (solid state).
Lumina este focalizat pe suprafaa senzorului prin intermediul unui sistem de lentile la nivelul
cruia are loc o transformare optic care depinde de natura i caracteristicile lentilei, respectiv ale

luminii i sursei de lumin. O condiie pentru obinerea unei imagini ideale este ca planul de
focalizare s coincid cu planul senzorului.
Camerele vidicon (numai sunt utilizate azi, dar au stat la baza dezvoltrii unor standarde care nc
mai produc efecte i astzi), au fost proiectate pe baza principiului fotoconductivitii. Pe suprafaa
tubului vidicon se creaz o distribuie de zone cu conductivitate variabil n funcie de intensitatea
luminii cu care aceste zone vin n contact. Un fascicol controlat de electroni care baleiaz suprafaa
tubului va genera un semnal electric variabil n timp n funcie de intensitatea luminoas a zonelor
din scena real. Controlul modalitii de baleiere permite pstrarea unei corespondene cunoscute
ntre poziia geometric a zonei de pe suprafaa tubului (x,y) i valoarea semnalului electric la un
anumit moment de timp t. Pe lng aceast coresponden spaiu timp, apare i o a doua
coresponden ntre nivelul intensitii luminoase corespunztoare zonei (x,y) i mrimea
semnalului electric u(t).
Camerele matriceale sunt formate din elemente fotosensibile, senzori individuali. Fiecare element
fotosensibil poate fi privit ca o capacitate individual care acumuleaz o sarcin mai mare sau mai
mic n funcie de intensitatea luminoas primit. Citirea sarcinilor nu se poate face n acelai timp
pentru toate elementele (este evident c nu putem avea practic, din punct de vedere tehnologic, un
circuit electronic cu sute de mii sau milioane de pini) i ca urmare un proces de baleiere rmne
necesar. Aici, baleierea este de fapt un transfer al sarcinilor ctre dispozitivul care face efectiv
citirea. Rezultatul va fi tot o mrime electric variabil n timp u(t). Corespondena dintre poziia
(x,y) a senzorului individual n matrice i momentul de timp t la care se consider valoarea
u(t) este determinant pentru geometria imaginii. Corespondena dintre intensitatea
luminoas corespunztoare poziiei (x,y) i valoarea mrimii electrice u(t) este responsabil
pentru generarea unui nivel de gri sau a unei culori corecte.
Fie un punct P(X, Y, Z) din scena tridimensional. Lumina provenit de la o surs este parial
absorbit i parial reflectat de acest punct. Lumina reflectat din punctul P este focalizat de
sistemul de lentile al camerei pe suprafaa senzorului, n punctul P'(x,y). Corespondena dubl P
P' constituie problema transformrii geometrice. Este intuitiv clar c pentru un sistem de lentile
cunoscut i un punct P dat se poate determina n mod unic punctul P' corespunztor de pe suprafaa
senzorului. Invers problema este mai complicat, dac se d un punct P' de pe suprafaa
senzorului atunci exist o infinitate de puncte P din scena tridimensional al cror corespondent
poate fi P'. Toate aceste puncte P sunt aezate pe dreapta care pleac din P' i trece prin centrul
lentilei.
n urma conversiei analog numerice se va obine o matrice cu elemente numerice I(i,j) numite
pixeli (picture element). Aceast conversie analog numeric presupune dou procese.
Eantionarea, sau discretizarea spaial, este procesul care pune n eviden corespondena dintre
momentul t la care se face conversia i poziia (i,j) corespunztoare din imagine. Cuantificarea,
sau discretizarea n amplitudine, este procesul care asociaz fiecrui nivel al mrimii continue
u(t) o valoare numeric I(i,j) pe care o numim nivel de gri sau culoare.

2.2 Sistemul de vedere uman


n foarte multe domenii de aplicaii este prezent o tendin inevitabil, aceea de a folosi ca model
sistemele biologice, n special sistemele umane. Aplicaiile robotice i de vedere artificial, prin
natura lor, sunt ntr-o msur i mai mare afectate de aceast tendin. Despre avantajele unei astfel
de abordri nu este necesar s insistm. Putem s subliniem ns limitele proiectelor bazate pe astfel
de modele. O prim limitare pare mai degrab una de ordin filozofic i este legat limitele
autocunoaterii n general. Putem s analizm n detaliu o multitudine de procese fizice i chimice

care au loc la nivelul diferitelor sisteme de locomoie i percepie umane. Problemele se complic n
momentul n care dorim s ne folosim propriul creier pentru a afla cum folosim noi nine
informaiile disponibile pentru a lua deciziile necesare. Este o problem extrem de complicat s ne
explicm cum reuim ntr-un timp foarte scurt s apreciem dac ceea ce vedem este un scaun sau un
fotoliu. Dac printr-un miracol am intra n posesia schemei utilizate atunci ne-am lovi de o a doua
limitare. Cu siguran respectiva schem nu se bazeaz pe folosirea informaiei numerice aa cum
suntem noi obligai s facem ca utilizatori de calculatoare. Este instructiv s contientizm faptul c
ncercm s copiem abilitile sistemelor biologice bazndu-ne pe posibilitatea oferit de sitemele
de calcul de a aduna i deplasa cifre binare, 1 i 0.
Sistemul vedere uman are trei componente principale:
- senzorul (ochiul),
- calea de transmisie (nervul optic) i
- unitatea de prelucrare (creierul).
Principial funcionarea poate fi descris simplu. Lumina este focalizat cu ajutorul unei lentile pe
senzorul propriu-zis (retina). Printr-un proces bioelectrochimic se genereaz semnal electric ca
rspuns la stimulul luminos. Semnalul este trimis pe nervul optic pn la creier unde se creaz
forme neurologice pe care noi le percepem ca imagini i le interpretm punndu-le n legtur cu
lumea exterioar. Lumina pe care o poate percepe ochiul uman ocup o mic parte a spectrului
undelor electromagnetice (figura 2.1) i corespunde doar frecvenelor cuprinse ntre aproximativ
400 nm i 800 nm. Lentila este format din ap (65 %), grsimi (6%) i proteine (ntr-un procent
mai mare dect oricare alt esut). Ea este colorat uor n galben i absoarbe sub 10 % din spectrul
vizibil al luminii. Razele infraroii i cele ultraviolete sunt absorbite de proteinele din structura
lentilei.

1014

Oscilaii electrice lungi

1011
106
103
1
10-1
10-2
10-4
10

-6

10-8

[nm]

[m]

Unde radio
Microunde
Infrarou
Spectru vizibil
Ultraviolete
Raze X
Raze gamma
Radiaii cosmice

10-10

infrarou
770
rou
622
portocaliu
597
galben
577
verde
492
albastru
455
violet
390
ultraviolet
300

Spectrul radiaiei electromagnetice

Spectrul vizibil

Figura 2.1 Poziia spectrului vizibil n cadrul spectrului radiaiei electromagnetice

Din punct de vedere senzorial, la nivelul retinei, exist o ierarhizare concretizat n specializarea
elementelor individuale senzoriale. Conurile sunt specializate n vederea diurn, sunt sensibile
i difereniate pe culori, ofer o foarte mare rezoluie (sensibilitate la detalii) i sunt concentrate n
zona central a retinei. Bastonaele sunt specializate n vederea n penumbr, sunt sensibile la
strlucire nu la culoare, sunt distribuite pe toat retina, sunt utilizate n special pentru vederea
periferic i ofer o rezoluie mai redus. Bastonaele (75 - 150 milioane) sunt mult mai
numeroase dect conurile (6 7 milioane), dar au conexiuni pe grupe de senzori i nu individuale
ca acestea din urm. Acest tip diferit de conectare este o justificare a rezoluiilor diferite oferite de
cele dou grupe de senzori. n apropierea locului de conectare a nervului optic la retin exist o
zon lipsit de senzori, zona oarb. Creierul este capabil s completeze cu informaie, prin
extrapolare, poriunea corespunztoare din imagine astfel nct noi aflm despre aceast problem
din cri i nu o sesizm direct. Modalitatea a fost mprumutat la fabricarea senzorilor electronici
cnd pentru a nu arunca un senzor care are milioane de celule individuale se completeaz informaia
aferent celor ctorva celule individuale defecte cu informaia memorat n celule adiionale de
memorie.
Zona cu cea mai mare sensibilitate de pe retin este zona central unde sunt concentrate cele mai
multe conuri. Aceast zon (fovea) are o form aproximativ circular cu o raz mai mic de 1
mm (aproximativ 0,75 mm). Pentru a putea face o comparaie cu senzorii electronici, o putem
echivala cu o zon dreptunghiular de 1,53 mm x 1,15 mm care pstreaz raportul de 4/3 ntre
dimensiuni. Dac acceptm c densitatea conurilor n aceast zon este de aproximativ 150.000
de elemente pe mm2, atunci obinem un senzor echivalent de 265.000 de elemente. Dac lum n
considerare un senzor comun CCD care are o rezoluie de 756 x 581 vom gsi un numr mai mare
de celule individuale, distribuite i pe o suprafa mai mare. Cum la nivelul tehnologic din mileniul
trei exist senzori cu mai multe milioane de celule individuale putem concluziona c ochiul
omenesc nu depete aceti senzori nici ca numr absolut de celule nici ca densitate pe
unitatea de suprafa.
Distana dintre centrul focal al lentilei i retin variaz ntre 14 mm i 17 mm, dup cum se
focalizez asupra unor obiecte mai apropiate sau mai deprtate ceea ce conduce la deformarea
lentilei. Ca urmare un om de 1,80 m privit de la 10 m distan va crea o imagine de aproximativ 2,5
mm (figura 2.2).

1,8 m

16 mm

10 m

Figura 2.2 Influena distanei focale asupra formrii imaginii


Sistemul vizual uman reuete s ofere o capacitate foarte mare de adaptare relativ la limitele
inferioar i superioar acceptabile pentru intensitatea luminii incidente pe ochi (aceste limite se
afl ntr-un raport de 1010). Acest lucru este justificat de caracteristica logaritmic a ochiului
(strlucirea subiectiv este o funcie logaritmic de intensitatea luminii incidente pe ochi), dar

trebuie fcut precizarea c sistemul are nevoie de un timp de adaptare la trecerea de la un nivel de
iluminare la un altul mult diferit. Sistemul vizual uman poate sesiza numai aproximativ 20 de
schimbri n stralucirea unei zone mici dintr-o imagine, iar pentru ntreaga imagine sunt
necesare n jur de 100 de nivele de gri pentru ca aceasta s fie apreciat ca realist.
Capacitatea sistemului vizual uman de a distinge detalii (rezoluia spaial) este limitat de mrimea
celelor individuale, a conurilor i bastonaelor. Este evident c nu se pot sesiza detalii mai mici
dect dimensiunea unei astfel de celule. Obiectele mai mici pot genera o imagine de aceeai mrime
dac sunt privite de la o distan mai mic. Rezoluia spaial depinde de condiiile de iluminare,
crete cu nivelul strlucirii i este mai mare pentru imaginile monocrome.
Rezoluia spaial (care poate fi definit i drept capacitatea de a separa doi pixeli vecini dintr-o
imagine) este un concept legat frecvena spaial. Dac privim o imagine format din benzi
verticale negre pe fond alb (figura 2.3) atunci se pune problema cte astfel de schimbri de
strlucire putem sesiza. Este clar c este important s precizm i distana de la care privim. Pentru
a elimina efectul distanei putem calcula aceast frecven relativ la 1 grad spaial din cmpul de
vedere (mrimea pumnului privit de la o distan egal cu lungimea braului ntins este de
aproximativ 1 grad spaial). n aceste condiii se poate aprecia c frecvena de tiere pentru
sistemul vizual uman este n jur de 50 de ciclii (un ciclu este o schimbare complet n semnal) pe
grad.

f=8

Figura 2.3 Imagine de test pentru rezoluia spaial


Pentru aprecierea percepiei imaginilor n micare se definete rspunsul temporal al sistemului
vizual uman care este capacitatea sistemului de a rspunde la informaia vizual primit ca funcie
de timp. Ca o msur a performanelor, putem preciza c pentru o imagine afiat pe un monitor
sistemul vizual uman nu poate percepe contient plpiri (flicker) dac frecvena de afiare a
cadrelor este mai mare de 60 Hz.
Dac, ntre anumite limite, fiziologia i aprecierea performanelor sistemului senzorial de vedere
uman sunt accesibile, mai dificil se arat posibilitatea de nelegere a modului cum aceast
informaie este prelucrat i utilizat de sistemul de prelucrare, care are ca element central creierul
uman. Pe baza informaiei vizuale, care reprezint mai mult de 80% din totalul intrrilor
senzoriale, omul reuete, ntr-o prim etap, s identifice i s localizeze obiectele din mediul
nconjurtor. Desigur, nelegerea scenelor privite este o operaie mult mai complex i o putem
defini ca totalitatea operaiilor care mai pot fi fcute dup simpla clasificare a obiectelor.
Putem remarca faptul c sistemul de vedere este integrat n sistemul global care este omul. n
sprijinul acestei afirmaii putem face o observaie interesant. Pentru orice sistem de vedere este
important s poat localiza obiectele din spaiul aplicaiei pe baza informaiei din imaginile

achiziionate. Pentru vederea artificial, realizarea acestei corespondene ntre coordonatele


globale i coordonatele imagine se bazeaz pe o etap iniial care se numete calibrarea
camerelor de luat vederi. Calibrarea camerelor produce o matrice de transformare a coordonatelor.
Aceast matrice este valabil atta timp ct poziia i orientarea camerelor sunt fixe n raport cu
anumite repere de referin. Este evident c n creierul omului astfel de corespondene nu pot fi
realizate matriceal! Totui plasarea celor doi senzori, care sunt ochii, ntr-o poziie relativ fix n
raport cu scheletul nostru, i deci i cu sistemele noastre de locomoie i manipulare, este o condiie
care susine abilitatea noastr de a localiza i manipula corect obiectele. Pentru configuraia fix
care este proprie fiecrui individ, corespondena imagine mediu nconjurtor este nvat i
permite o foarte bun vitez de reacie. Dac ncercai s manipulai obiecte pe baza unor imagini
dintr-o oglind sau achiziionate cu o camer TV i afiate pe un monitor, vei avea dificulti i
performane modeste. O nou coresponden imagine mediu nconjurtor trebuie construit i
aceast sarcin necesit un timp de adaptare. Acesta este motivul pentru care nu ne ateptm la
performane remarcabile de la un sistem de vedere plasat n vrful unor antene care se orienteaz
permanent, ca n filmele SF! Nici melcul nu este un vitezist!
Pentru sistemul de vedere uman putem face o apreciere general a performanelor pe care acesta le
ofer:
- Msurarea distanelor este fcut calitativ, rezultnd mai degrab informaii de tipul mai
aproape, mai departe, mai scurt sau mai lung dect dimensiuni exprimate n uniti de
msur. Va putei convinge ncercnd s apreciai dimensiunile obiectelor din jurul dumneavoastr,
n centimetrii. n mod normal vei avea aproximri de circa 10%. Nu avem n vedere iluziile optice
care pot fii induse prin diferite mici trucuri.
- Sesiziarea detaliiilor tridimensionale (relief) este foarte bun.
- Aprecierea direcei (orientarea muchiilor) este bun i se face tot calitativ i nu cantitaiv.
- Achiziia i prelucrarea imaginilor n micare se face cu o vitez mai mare de 10 imagini ntr-o
secund. Este o vitez apreciat ca timp real relativ la aciunile (de exemplu deplasare, manipulare,
supraveghere) pe care le poate ntreprinde o persoan.
- Sesizarea contururilor obiectelor se face cu foarte bun precizie.
- Rezoluia (sesizarea detaliilor) este foarte bun i este superioar rezoluiei ateptate n raport
cu numrul celulelor vizuale individuale.
- Culoarea este perceput n banda de lungimi de und 400 nm 800 nm.

You might also like