Professional Documents
Culture Documents
Diploma Work
Diploma Work
ԾՐԱԳԻՐ
ԱՎԱՐՏԱԿԱՆ ԱՇԽԱՏԱՆՔ
ԵՐԵՎԱՆ 2023
1
#review this page, fill missing
Ուսանող՝ _
ստորագրություն
Բեջանյան Աննա
ազգանուն, անուն
Ղեկավար՝
ստորագրություն
«Թույլատրել պաշտպանության»
Ամբիոնի վարիչ՝
ստորագրություն
«_ » _2023թ.
2
Պատկերներում օբյեկտների խորության գնահատում
Depth estimation of objects in images
Оценка глубины объектов на изображения
Համառոտագիր
3
bovandakutiun 1
4
bovandakutiun 2
5
Հետազոտության նպատակը
Սահմանափակումներ
6
Հաջորդ սահմանափակումը հաշվողական տեխնիկաների
սահմանափակ
հզորությունն է։ Հետազոտության ընթացքում օգտագործվել է ․․․․․․․
7
Գլուխ 2
Տեսություն
Ի՞նչ է նեյրոնային ցանցը
Նեյրոնային ցանցերը (հայտնի նաև որպես արհեստական նեյրոնային ցանցեր)
մեքենայական ուսուցման ենթաճյուղ են և ընկած են խորը ուսուցման հիմքում։
Դրանց կառուցվածքն ու աշխատանքի սկզբունքը ստեղծված են մարդու
ուղեղում գոյություն ունեցող նեյրոնային ցանցերի նմանությամբ և կրկնում են
կենսաբանական նեյրոնների՝ միմյանց հետ սիգնալների միջոցով կապը։
Ինչպես մարդու ուղեղում առկա նեյրոններն են ինֆորմացիա փոխանցում իրար,
այդպես էլ արհեստական նեյրոնային ցանցում է ինֆորմացիան՝ կշռավորված
փոխարկման ֆունկցիայի միջոցով անցնում մեկից մյուսին։
Նեյրոնային ցանցերը դասակարգվում են ըստ այն խնդիրների, որոնց համար
նախատեսված են։ Դրանցից են պերսեպտրոնը, բազմաշերտ
պերսեպտրոնը(MLP, feedforward neural network), կոնվոլուցիոն նեյրոնային
ցանցերը, ռեկուրենտ նեյրոնային ցանցերը և այլն։
Գոյություն ունեցող հաշվողական հզոր տեխնիկան թույլ է տալիս իրականացնել
միլիոնավոր նեյրոններից բաղկացած նեյրոնային ցանցերի ուսուցում, որոնք
կիրառելի են տարբեր խնդիրներում և ճշգրտությամբ ու ստացված
արդյունքներով գերազանցում են մեքենայական ուսուցման դասական
ալգորիթմներին։
8
ելքային շերտ միմյանց հետ կապակցված են կշիռների միջոցով։ Այդպիսի
օրինակ ներկայացված է նկար 2․1-ում։
Ակտիվացիոն ֆունկցիաներ
(2.4)
10
Ֆունկցիայի գրաֆիկը S-աձև տեսք ունի։ Քանի որ արժեքների տիրույթը [0,1]
միջակայքում է, ապա նպատակահարմար է օգտագործել այն մոդելների
դեպքում, որտեղ որպես ելք ցանկանում ենք հավանականություն ստանալ։
(2.5)
Սոֆթմաքս ակտիվացիոն ֆունկցիան օգտագործվում է մեկից ավելի դաս
ունեցող դասակարգման խնդիրներում։ Այսպիսի նեյրոնային ցանցերում
նպատակահարմար է որպես ելք ստանալ տվյալ դասին պատկանելու
հավանականությունը։ Սոֆթմաքսը, որպես մուտք ստանալով թվային վեկտոր,
վերադարձնում է հավանականությունների վեկտոր, որի կոորդինատների
գումարը հավասար է մեկի։
(2.6)
Կորստի ֆունկցիա
11
2․2 Կոնվոլուցիոն նեյրոնային ցանցեր
12
հաշվարկվում և պահպանվում կոնվոլուցիոն շերտի արդյունք հանդիսացող
մատրիցի մեջ, որը կոչվում է հատկությունների քարտեզ (feature map) ։
Այնուհետև միջուկը սահում է կոնվոլուցիոն շերտի լրացուցիչ պարամետրի՝
քայլի համաձայն(stride)։
Նկար 2․1․1-ում մասնավոր օրինակով ներկայացված է միջուկի կիրառման
արդյունքը։
Արդյունքում ստացված հատկությունների քարտեզը ցույց է տալիս, թե ֆիլտրի
միջոցով ներկայացված հատկությունները նկարի որ հատվածներում են առավել
արտահայտված։
նկար 2․2․1 կոնվոլուցիայի արդյունքը 3x3 չափանի միջուկի և 1 սահքի քայլ արժեքի
դեպքում
13
Նկար 2․2․2 մաքսիմալ ենթանմուշառում, միջին ենթանմուշառում,2x2 միջուկի չափով և
2 սահքի քայլի պարամետրով
14
2․3 Տեսախցիկի մոդել
Համակարգչային տեսողության հիմքում ընկած է տեսախցիկը, որը ստանում է
իրական աշխարհի օբյեկտների պատկերային ինֆորմացիան, որպես
լուսանկար:
Այս աշխատանքում կիրառված տվյալների որոշ ձևափոխություններ և մեթոդներ
հասկանալու համար կարևոր է անդրադառնալ տեսախցիկի պարամետրերին,
լուսանկարների ստացմանը, և դրան առնչվող կարևորագույն
հասկացություններին։
Լուսանկարի ստացումը իրենից ներկայացնում է 3D կոորդինատական
համակարգից օբյեկտի պրոյեկտում 2D կոորդինատական հարթության վրա։
Այդ երկու հարթությունների մեջ օբյեկտի և նկարի գոյություն ունի խոչընդոտ
հանդիսացող հարոթություն՝ շատ փոքր անցքով պինհոլ տեսակի տեսախցիկ,
որի միջով անցնելով լույսի ճառագայթը պրոյեկտվում է նկարի հարթության վրա։
Նկար 2․3․1-ում պինհոլային տեսախցիկի աշխատանքի կառուցվածքն է
նկարագրված։ Այստեղ O-ն կոչվում է տեսախցիկի կենտրոն (սա այն կետն է,
որով անցնում է լույսի ճառագայթը)։ Իսկ f -ը ֆոկուսային հեռավորությունը, որը
հեռավորությունն է տեսախցիկի կենտրոնի և նկարի հարթության միջև։
15
դրանցից ստացված նկարներից յուրաքանչյուր պիքսելի խորության արժեքն է
վերականգնվում։
16
Գլուխ 3
ՀԱՐԱԿԻՑ ԱՇԽԱՏԱՆՔՆԵՐ
Այս գլխում նկարագրվում են ուսումնասիրված հոդվածները, մեև
KITTI :
Տվյալների այս շտեմարանը համակարգչային տեսողության խնդիրների
հետազոտության համար նախատեսված խոշորագույն տվյալների
շտեմարաններից է՝ ստեղծված Կարլսրուեի և Տոյոտայի
տեխնոլոգիական ինստիտուտների կողմից։
Այն պարունակում է ավտովարման ընթացքում ՝ տարբեր
իրավիճակներում արված նկարներ, որոնք ստացվել են
լուսավորության և եղանակային տարբեր պայմաններում, շարժվող
մեքենայի վրա տեղադրված սարքերի միջոցով ։
Տվյալների շտեմարանը բաղկացած է ստերեո նկարներից և դրանց
համապատասխան ՝ LIDAR սենսորի 3D սկաններից պրոյեկտմամբ
ստացված խորության քարտեզներից։
Նկարներն այստեղ ունեն 1241x375 պիքսելային չափ (resolution)։
Ուսուցման համար օգտագործվում է 26 հազար ձախ նկար և 697
նկար՝ փորձարկման համար։
Որպես առավելագույն խորության արժեք հիմնականում
օգտագործվում է 80 մետրը։
17
նկար 3․1 KITTI տվյալների շտեմարանից նկարի և դրան
համապատասխան խորության նկարի օրինակ
18
Cityscapes:
Տվյալների այս շտեմարանը նախատեսված է իմաստային
սեգմենտացիայի և խորության գնահատման խնդիրների համա
համար։
19
20
Գլուխ 5
Առաջարկվող մոտեցումը և
արդյունքները
21
22
1․ներածություն(նպատակը,սահմանափակումները,
2․տեսություն
3․հարակից աշխատանքներ
dataset, metrics,
3․առաջարկվող մոտեցոիմ
23
https://www.ibm.com/topics/neural-networks
https://medium.com/deep-learning-demystified/introduction-to-
neural-networks-part-1-e13f132c6d7eշ
https://towardsdatascience.com/activation-functions-neural-
networks-1cbd9f8d91d6
24
https://cs231n.github.io/convolutional-networks/
https://web.stanford.edu/class/cs231a/course_notes/
https://towardsdatascience.com/using-convolutional-neural-network-for-
image-classification-5997bfd0ede4
https://www.baeldung.com/cs/disparity-map-stereo-
vision#:~:text=The%20disparity%20is%20the%20apparent,This
%20phenomenon%20is%20called%20disparity
25
26