You are on page 1of 12

Приступни рада

ПРЕЗИМЕ И ИМЕ Стаматовић Марија

БРОЈ ИНДЕКСА 2016/3504

СТУДИЈСКИ Електронско пословање и управљање системима: Управљање


ПРОГРАМ системима

ПРЕЗИМЕ И ИМЕ Проф. Др Ана Поледица


МЕНТОРА

НАСЛОВ РАДА Утицај недостајућих вредности на резултате класификације

У овом раду биће приказано како недостајуће вредности утичу на


резултате класификације. За експерименте ће бити коришћени
скупови података без недостајућих вредности. Након добијања
резултата класификације применом различитих класификатора
попут неуронских мрежа, метода носећих вектора и бајсовог
класификатора, у скупу података ће бити генерисан одређен
АПСТРАКТ РАДА проценат недостајућих вредности. Методама импутације, као што
су нпр. метода к најближих суседа и LASSO, недостајуће вредности
биће замењене новим вредностима, а затим ће на тако добијеном
скупу података поново бити извршена класификација. Акценат рада
је на експериментима и упоредној анализи резултата добијених
комбинацијом различитих метода класификације и импутације при
различитом проценту недостајућих вредности.
УВОД

Проблем класификације података са недостајућим вредностима представља подручје


истраживања овог мастер рада. Овакви проблеми су изузетно актуелни, јер се многа
истраживања раде над непотпуним упитницима и непотпуним базама података [3].
Уопштено посматрано, главни узрок јављања недостајућих података је недовољно времена
и новца уложеног у истраживање и праћење процеса прикупљања података, а њихова
појава често негативно утиче на резултате предвиђања, односно класификације. Услед
тога, решавање овог проблема је од изузетног значаја у области машинског учења.

Проблеми класификације са недостајућим вредностима се уобичајено решавају на два


начина: редукцијом скупа података или импутацијом појединачних вредности. У
зависности од конкретног проблема, могуће је изоставити појединачне атрибуте у датом
скупу података, или једноставно уклонити инстанце у којима постоје атрибути са
недостајућим вредностима. То поготову има смисла ако су недостајуће вредности
концентрисане у једном атрибуту/инстанци [1]. Велики недостатак редукције је што се на
тај начин димензије скупа података могу значајно смањити. Такође, на овај начин може
доћи до искључења инстанци која је значајна за даљу анализу података.

Са друге стране, методе импутације података подразумевају да се појединачне


недостајуће вредности попуне предложеним вредностима [1]. На тај начин не долази до
смањења димензије скупа података, али предложене вредности могу имати значајан утицај
на резултате класификације и разликују се у зависности од методе импутације која се
користи.

Како би се решио проблем недостајућих вредности на адекватан начин потребно је


извршити истраживање тако да се закључи која комбинација методе класификације и
методе импутације даје најбоље резултате при одређеном проценту недостајућих
вредности, како на нивоу целог скупа података, тако и на нивоу атрибута који има
највиши, одосно најнижи степен корелације са излазом. Управо то би требало да буде и
резултат овог истраживања.
У првом делу рада биће дат кратак преглед основних теоријских концепата значајних
за разумевање овог истраживања. Биће објашњене методе класификације и методе
импутације података које су коришћене у експерименталном делу. Други део рада односи
се на експеримент. У овом делу ће бити детаљно описан проблем који се решава и начин
имплементације класификатора и метода импутације. Преглед и тумачење добијених
резултата биће дат за сваки од класификатора при различитом проценту недостајућих
вредности и у комбинацији са различитим методама импутације, а затим ће бити извршена
и упоредна анализа резултата. На крају рада биће изведени закључци и дати предлози за
будући рад и даља истраживања.

ФОРМУЛАЦИЈА ПРОБЛЕМА

Класификација представља сврставање посматраног објекта у једну класу из


предефинисаног скупа. Овај процес је један од најчешћих задатака који се јавља приликом
доношења одлука, како људи, тако и машина. Приликом решавања проблема
класификације истовремено се захтева и тачност и разумевање разлога за доношење
одлуке. У терминологији истраживања података, класификација представља вид
надгледаног учења, односно учења где постоји тренинг скуп чији су примерци исправно
идентификовани. Скуп података над којим треба извршити класификацију се састоји од
низа инстанци описаних скупом вредности одговарајућих атрибута. Циљ многих научних
радова је пронаћи класификатор који на основу података за учење, са највећом тачношћу,
пресликава сваку инстанцу у неку од предефинисаних класа. Одређивање тачности модела
врши се на основу података за тестирање при чему се користе одабране мере перформанси
класификатора (нпр. тачност, прецизност, одзив, ф-мера, специфичност).

Постоје различите методе класификације, а у овом раду примењене су: неуронске


мреже - биолошки инспирисан класификатор, који се сматра универзалним
апроксиматором [2], методе носећих вектора - метода машинскот учења за бинарну
класификацију која није заснована на вероватноћи и Бајесов класификатор - као
представник статистичких метода[5]. У зависности од скупа података ове методе имају
различите перформансе.
Проблеми са недостајућим вредностима подразумевају случајеве кад посматрани скуп
података није потпун, у смислу да не постоје сачуване вредности за све атрибуте. Као што
је већ поменуто, овакви проблеми најчешће се решавају редукцијом или импутацијом
података. У овом раду фокус ће бити на замени недостајућих вредности неким новим
вредностима, добијеним употребом неке од метода импутације.

Највећи број метода за импутацију података је заснован на различитим статистичким


техникама. Међу њима, највише коришћене су: импутација средњом вредношћу,
импутација на основу оцене максималне веродостојности, LASSO метода, метода к-
најближих суседа итд. Недостајуће вредности се могу попунити и нулама, што представља
најједноставнији, али често недовољно прецизан начин за решавање овог проблема.

Истраживање би требало да одговори на следећа кључна питања:

1. Како проценат недостајућих вредности утиче на резултате класификације?

2. Која метода класификације даје најбоље резултате?

3. Која метода импутације даје најбоље резултате?

4. Комбинацијом који метода импутације и класификације се добијају најбољи


резултати?

5. Како недостајуће вредности у атрибутима са високим степеном корелације утичу на


перформансе класификатора?

6. Како недостајуће вредности у атрибутима са ниским степеном корелације утичу на


перформансе класификатора?

7. Да ли се одговори на претходно постављена питања разликују у зависности од скупа


података на ком се врши истраживање?

МОТИВАЦИЈА: ИНТЕЛЕКТУАЛНА И ЛИЧНА МОТИВИСАНОСТ

Проблем класификације података из датог скупа података који садржи недостајуће


вредности је изузетно актуелан, јер непотпуни подаци могу имати велики утицај на
резултате каласификације, а то може узроковати доношење погрешних одлука и
закључака. Управо из тог разлога, решавање овог проблема може бити релевантно за
област машинског учења, као и многе области живота у којима је метода класификације
нашла примену.
Циљ овог истраживања је да допринесе бољим резултатима класификационих метода.
Такође, циљ је и да се избегне редукција инстанци из скупа података и на тај начин спречи
да нека инстанца која носи значајне информације буде уклоњена из скупа података.

Тема импутације података је веома актуелна у области меког рачунарства. Овим


истраживањем желим да дам свој допринос решавању овог проблема. Основни разлог моје
заинтересованости потиче управо из немогућности да изаберем одговарајући скуп
података за вршење истраживања у својим претходним радовима.

ОРГАНИЗАЦИЈА И МЕТОДЕ ИСТРАЖИВАЊА

Предложено истраживање реализовано је у неколико корака. За истраживање се


користи неколико потпуних скупова података, односно скупова података углавном из
домена медицине, који не садрже недостајуће вредности, који се разликују по броју класа,
атрибута и истанци.

У првом кораку експеримента извршена је класификација посматраних инстанци датих


скупова података. За класификацију су коришћене три методе: метода носећих вектора,
Бајесов класификатор и неуронска мрежа. Сва три класификатора имплементирана су у
програмском језику MATLAB. За генерисање методе носећих вектора коришћено је језгро
са радијалним дистрибуционим функцијама (енг. Radial based function - RBF ), односно
Гаусова функција са фактором 1. Употраба RBF језгра се препоручује кад је број инстанци
за класификацију већи од броја атрибута, због тога што је у случају мале димензије
простора већа вероватноћа да су подаци линеарно нераздвојиви. RBF мапира улазни
простор у простор са више димензија, па је и вероватноћа линеарног раздвајања већа.
Даље, коришћена је нерекурентна неуронска мрежа са једним скривеним слојем који се
састоји од 10 неурона и која за учење користи алгоритам простирања уназад (енг. Back
propagation).

Како би се избегла пристрасност, односно утицај изабраних скупова за учење и тренинг


на резултате класификације, коришћена је унакрасна валидација са једним издвојеним
елементом. Ова метода валидације је погодна за скупове података се мањим бројем
инстанци у узорку. За оцену успешности наведених класификатора коришћене су две
уобичајене мере перформанси класификатора- тачност и прецизност. Резултати добијени у
овом кораку представљају референтну вредност са којом поредимо резултате добијене
коришћењем наведених класификатора над подацима који садрже унапред одређен
проценат недостајућих вредности.

Након добијених резултата за сва три класификатора, насумично је генерисан одређени


проценат недостајућих вредности у скупу података (5%, 10% i 20%), а затим су методама
импутације недостајуће вредности замењене другим вредностима. Такође је за сваки скуп
података утврђено који атрибут има највиши односно најнижи степен корелације са
излазом, а затим су недостајуће вредности генерисане само за те атрибуте и замењене су
новим, предложеним вредностима. За импутацију података коришћене су следеће методе
импутације: импутација нулом, импутација средњом вредношћу тог атрибута, импутација
вредношћу коју има инстанцин најближи сусед и импутација вредношћу добијеном
LASSO методом.

Приликом примене методе импутације података нулом у посматраном скупу података


који се користи за класификацију, недостајуће вредности се мењају нулом [4]. Предност
ове методе лежи у једноставности примене. Са друге стране, класификатори нуле
доживљавају као вредности атрибута, па оне могу имати значајан утицај на резултате
класификације. То указује на чињеницу да ово често није најбољи начин за импутацију
података са аспекта тачности.

Импутација података средњом вредношћу је један од најкоришћених алгоритама за


импутацију података. Заснива се на замени непознате вредности неког атрибута средњом
вредношћу тог атрибта за цео скуп података. Импутација средњом вредношћу може
резултирати непристрасним предвиђањем недостајућих података, али и лошим оценам
варијанси и корелација са другим враијаблама [3]. Поред тога, она у случају већег
процента недостајућих вредности реагује већом пристрасношћу, прецењивањем
стандардинх грешака и губитком моћи. Стога, она је најчешће коришћена ако у скупу
података нема много недостајућих вредности. Даље, ова метода се успешно може
комбиновати са методама редукције у случају да скуп података има изузетно много
недостајућих вредности.

Метода к-најближих суседа (енг. k-nearest neighbor - kNN) је један од најкоришћениијих


алгоритама за класификацију. Разлог за то је пре свега њена једноставност, али и то што је
дуго присутна у науци. Овај класификатро претражује скуп података за тренинг и тражи
најсличнију инстанцу посматраном егземплару. За мерење сличности егземплара са
инстанцама за тренинг најчешће се користе метрике, међу којима се издвајају Еуклидско
(сума разлике квадрата) и Менхетн (сума апсолутних разлика) одстојање kNN метода се
користи и за импутацију шодатака тако што се недостајућим вредностима посматране
инстанце приписују вредности инстанце која јој је најсличнија. Сличност се дефинише као
"близина" помоћу функције растојања која користи остале, познате, вредности атрибута.

Експериметн је настављен тако што су наведени класификатори примењени на нове


скупове података, а затим је извршено поређење добијених резултата како би се дошло до
жељених закључака и одговора на питање која комбинација метода класификације и
импутације даје најбоље резултате.

У наредном кораку утврђено је који атрибут има највиши степен корелације са излазом.
Извршено је генерисање недостајућих вредности само за тај атрибут, а потом су
поновљени поступци импутације и класификације. Исто је урађено и за атрибут са
најнижим степеном корелације са излазом. Извршено је поређење добијених резултата и
изведени су закључци.

Садржај рада:
1 Увод...........................................................................................................................
2 Класификација и методе класификације................................................................
2.1 Појам класификације........................................................................................
2.2 Методе класификације......................................................................................
2.2.1 Метода носећих вектора.............................................................................
2.2.2 Бајесове мреже.............................................................................................
2.2.3 Неуронске мреже.........................................................................................
3 Недостајуће вредности и појам импутације података..........................................
3.1 Метода импутације нулом................................................................................
3.2 Метода импутације средњом вредношћу........................................................
3.3 кNN метода........................................................................................................
3.4 LASSO метода...................................................................................................
4 Утицај недостајућих вредности на резултате класификације..............................
4.1 Опис проблема...................................................................................................
4.2 Експеримент......................................................................................................
4.3 Анализа резултата.............................................................................................
5 Закључак....................................................................................................................
6 Литература..........................................................Error: Reference source not found
ОПИС ДЕЛА СВЕТА КОЈИ ЋЕ БИТИ ИЗУЧАВАН

Велики број свакодневних активности човека обухвата препознавање шаблона зарад


доношења одлука. Класификација података, односно предвиђање којој класи припада нека
инстанца из датог скупа, нашла је широку примену у процесу одлучивања, како у
пословном тако и у приватном животу људи.

Истраживање везано за недостајуће вредности у скуповима података чије инстанце је


потребно класификовати је значајно за бројне области попут медицине (да ли је присутна
нека болест код пацијента или не), финансија (предвиђање кредитног ризика, предвиђање
банкротства предузећа), економије, индустрије и безбедности (да ли трансакција на
кредитној картици спада у превару или не), у којима се класификација успешно
примењује. Наиме, често су прикупљени подаци непотпуни и велики број инстанци се не
може користити у процесу класификације, а те инстанце су често веома значајне за учење
и тренирање класификатора.

РЕФЕРЕНТНА ЛИТЕРАТУРА, КОНЦЕПТИ И ТЕОРИЈСКИ ФОКУС

У овом истраживању користе се радови који се односе на машинско учење, а пре свега
на методе класификације попут неуронских мрежа, носећих вектора и Бајесовог
класификатора.

У тексту који следи биће наведена прелиминарна литература која ће бити коришћена у
изради овог рада. Списак ће се вероватно проширити, како буде одмицало истраживање.
Прелиминарна референтна литература се састоји од следећих извора:

[1] Altman, E.I. (1968). Financial ratios, discriminant analysis and the prediction of corporate
bankruptcy. The Journal of Finance, 23(4), 589-609.
[2] Čabarkapa S., Kojić N., Radosavljević, B., & Reljin B. (2008). Jedna implementacija SVM u
CBIR sistemu. 16. telekomunikacioni forum (TELFOR 2008), Beograd, Srbija, 613-616.
[3] Enders, C.K. (2010). Applied missing data analysis. New York: Guilford Press.
[4] Garcia-Laencina, P.J., Sancho-Gomez, J.L., Figueiras-Vidal, A.R., & Verleysen, M. (2009).
K nearest neighbours with mutual information for simultaneous classification and missing
data imputation. Neuro Computing, 72, 1483-1493.
[5] Huang, Z., Chen, H., Hsu, C. J., Chen, W. H., & Wu, S. (2004). Credit rating analysis with
support vector machines and neural networks: a market comparative study. Decision Support
Systems, 37(4), 543-558.
[6] Hagan, M.T., Demuth, H. B., & Beale, M. H. (1996). Neural network design. Boston: PWS
Publishing Co.
[7] Haykin, S. (2009). Neural Networks and Learning Machines. (3rd ed.). New Jersey: Pearson.
[8] Koloseni, D. (2015). Differential evolution based classification with pool of distances and
aggregation operators. Doctoral thesis. Lappeenranta University of Technology,
Lappeenranta.
[9] Larose, D.T. (2014). Discovering Knowledge in Data: an Introduction to Data Mining. New
Jersey: John Wiley & Sons.
[10] Little , R.J.A., & Rubin, D.B. (2002). Statistical Analysis with Missing Data, New York:
John Wiley & Sons.
[11] Little, R.J.A., & Schluchter, M.D. (1985). Maximum likelihood estimation for mixed continuous
and categorical data with missing values. Biometrika, 72(3), 497-512.
[12] Lohr, S.L. (2010). Sampling: Design and Analysis. Boston: Brooks/Cole.
[13] Mitchell T. (1997). Machine Learning. Boston: McGraw Hill.
[14] Papakostas, G.A., Hatzimichailidis, A.G., & Kaburlasos, V.G. (2013). Distance and similarity
measures between intuitionistic fuzzy sets: A comparative analysis from a pattern recognition point of
view. Pattern Recognition Letters, 34(14), 1609-1622.
[15] Suykens, J.A., & Vandewalle, J. (1999). Least squares support vector machine classifiers. Neural
Processing Letters, 9(3), 293-300.
[16] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal
Statistical Society. Series B (Methodological), 267-288.
[17] Zhang, H., & Ling, C.X. (2001). Learnability of augmented Naive Bayes in nominal domains.
Proceedings of the 18th International Conference on Machine Learning, San Francisco, USA, 617-
623.
[18] Zurada M. J. (1992). Introduction to Artificial Neural Systems, New York: West Publishing Co.
СВРХА И ЦИЉЕВИ ИСТРАЖИВАЊА

Сврха овог истраживања је да се испита како и у којој мери недостајуће вредности


утичу на резултате клсаификације на различитим скуповима података. Методе машинског
учења попут неуронских мрежа, методе носећих вектроа и Бајесовог класификатора
коришћене су за класификацију података, са циљем да се изведе закључак који
класификатор је најпогоднији за скупове података са одређеним карактеристикама и
одређеним процентом недостајућих вредности. Класификатори су најпре примењени на
почетни потпун скуп, а затим на исти скуп са унапред одређеним процентом насумично
генерисаних недостајућих вредности. У случају постојања неодостајућих вредности, за
попуњавање скупа података коришћене су методе импутације, како би се недостајуће
вредности замениле новим вредностима које ће допринети бољим резултатима
класификације.
Циљ овог рада је да се изведе закључак која комбинација метода класификације и
импутације даје најбоље резултате на различитим скуповима података и са различитим
процентима недостајућих вредности.
РЕФЕРЕНЦЕ

[1] Enders, C.K. (2010). Applied missing data analysis. New York: Guilford Press.
[2] Haykin, S. (2009). Neural Networks and Learning Machines. (3rd ed.). New Jersey:
Pearson.
[3] Lohr, S.L. (2010). Sampling: Design and Analysis. Boston: Brooks/Cole.
[4] Papakostas, G.A., Hatzimichailidis, A.G., & Kaburlasos, V.G. (2013). Distance and similarity
measures between intuitionistic fuzzy sets: A comparative analysis from a pattern recognition
point of view. Pattern Recognition Letters, 34(14), 1609-1622.

[5] Zhang, H., & Ling, C.X. (2001). Learnability of augmented Naive Bayes in nominal
domains. Proceedings of the 18th International Conference on Machine Learning, San
Francisco, USA, 617-623.

You might also like