You are on page 1of 28

DATA MINING

Leksion 1
Dr. Senada Bushati
Hyrje
• Cfare eshte Data Mining?
• DM dhe makinat e te mesuarit
• Natyra e bashkesive(Set) te te dhenave
• Tipet e strukturave: modele dhe konture
• Detyrat e DM
• Perberesit e algoritmeve te DM
• Funksionet Score
• Metodat e Optimizimi dhe kerkimit
• Strategjia e menaxhimit te te dhënave
• Rolet interaktive te statistikave dhe DM
• Fushat e aplikimit
• DM dhe etika
Mosha e Informacionit
• "Ne jetojmë në epokën e informacionit"
• Terabyte-s ose petabyte-s
• Kjo rritje eksplozive e vëllimit të të dhënave në
dispozicion është rezultat i kompjuterizimit të
shoqërisë sonë dhe zhvillimit të shpejtë të mjeteve të
fuqishme të grumbullimit dhe ruajtjes së të dhënave.
• Bizneset në mbarë botën prodhojnë grupe gjigande të
të dhënave, duke përfshirë transaksionet e shitjeve, të
dhënat e tregtimit të aksioneve, përshkrimet e
produkteve, promovimet e shitjeve, profilet dhe
performancën e kompanisë dhe reagimet e klientëve.
Cfare eshte Data Mining?
• Shkenca e nxjerrjes se informacionit të dobishem nga grupe të mëdha të
të dhënave apo të bazave të të dhënave është e njohur si Data Mining.
• Një cudi, interesi është rritur në mundësinë e përgjimit te këtyre të
dhënave, të nxjerrësh prej tyre informacion që mund të jetë me vlerë për
zoteruesin e bazës së të dhënave.
• Kjo është një disiplinë e re, e shtrirë në kryqëzimin e statistikave,
makinave te te mësuarit, menaxhimit te të dhënave dhe bazave të të
dhënave, modeleve te njohjes, inteligjencës artificiale, dhe fusha të tjera.
• Të gjitha këto janë perqendruar ne aspekte të caktuara të analizës së të
dhënave, kështu që ata kanë shumë gjëra të përbashkëta, por secili ka
edhe një aromë te tij të dallueshme, duke theksuar probleme të veçanta
dhe lloje zgjidhjesh.
• DM është analiza (shpesh e gjere) e të dhënave vëzhguese e vendosur për
të gjetur marrëdhëniet jo te dyshimta dhe për të përmbledhur të dhënat
në mënyra te reja që janë të kuptueshme dhe të dobishme për zoteruesin
e te dhënave.
DM dhe makinat e te mesuarit
• Ne jemi te mbingarkuar nga te dhenat, sasia e te cilave ne bote
dhe ne jetet tona duket sikur rritet vazhdimisht.
• WWW na mbingarkon me informacion, qe do te thote se çdo
veprim/zgjedhje qe ne bejme regjistrohet.
– Te gjitha keto nuk jane gje tjeter vec se zgjedhje personale, te cilat nuk
ndikojne ne boten e tregtise dhe industrise.
• Por edhe pse te dhenat rriten dhe zgjerohen, sasia e asaj cfare
njerezit kuptojne eshte gjithnje ne renie.
• Ne gjithe keto te dhena qendron i fshehur informacioni, i cili radhe
behet i dukshem.
– Ne DM te dhenat ruhen elektronikisht dhe kerkimi eshte automatik.
• Qellimi per te ndertuar nje sistem kompjuterik qe pershtatet me
mjedisin dhe meson nga eksperiencat e tyre ka terhequr kerkuesit
nga fusha te ndryshme, duke perfshire shkencat kompjuterike,
inxhinierine, matematiken, fiziken etj.
– Nga ky hulumtim ka dalë një shumëllojshmëri teknikash te të mësuarit
që kanë aftesine për të transformuar shumë fusha shkencore dhe
industriale.
DM dhe makinat e te mesuarit
• DM përfshin një shumëllojshmëri të gjerë të temave
në shkencat kompjuterike dhe statistikat
• DM është në thelb një disiplinë e aplikuar, dhe me
këtë në mendje bëjmë referenca të shpeshta për
studimet e rasteve dhe aplikimeve të veçanta, ku
teoria bazë mund të aplikohet ose ka qene aplikuar.
• DM është përcaktuar si procesi i zbulimit te modeleve
të të dhënave.
• Procesi duhet të jetë automatik ose (zakonisht)
gjysem-automatik.
• Modelet e zbuluara domosdoshmërisht duhet te jenë
kuptimplotë, pasi ata të çojnë në disa përparësi.
DM dhe makinat e te mesuarit
• Si janë keto modele?
• Modele të dobishme që na lejojnë të bëjmë parashikime jo
banale, për të dhëna të reja.
• Modele të tilla i quajmë modele strukturore, pasi ata kapin në
mënyrë eksplicite strukturën e nje vendimi.
• Procesi i kërkimit te marrëdhënies se të dhënave brenda një
bashkesie; kërkimi i saktë, i përshtatshëm dhe i dobishem i
paraqitjes se disa aspekteve te të dhënave; përfshin një numër
hapash:
– Përcaktimi i natyrës dhe strukturës se paraqitjes që do të përdoret;
– Te vendoset se si duhet matur dhe krahasimi se sa mirë përfaqësime të
ndryshme përshtatin të dhënat;
– Te zgjedhim një proces algoritmik per të permiresuar funksionin
rezultant
– Të vendoset se cilat jane parimet e menaxhimit të të dhënave qe
kerkohen për implementimin e algoritmeve efikase.
Natyra e bashkesive(Set) te te
dhenave
• Kemi nje diskutim te nje niveli te larte te bashkesive se te
dhenave.
• Nje bashkesi te dhenash eshte nje bashkesi matjesh te marra nga
disa mjedise ose procese.
• Ne rastin me te thjeshte, kemi nje koleksion objektesh, ku per
secilin prej tyre kemi nje bashkesi matjesh te te njejtit tip.
• Keshtu ne mund ti vendosim ne nje matrice te dhenash (nje
koleksion matjesh te n objekteve) n * p.
– Rreshtat perfaqesojne objektet ne te cilat behen matjet( psh, pacientet
mjeksor, klientet me karte krediti, studentet etj.). rreshatve i
referohemi si individual, entitete, raste, objekte ose rekorde, ne varesi
te kontekstit.
– Pjesa tjeter e matrices permban bashkesine e p-matjeve, te realizuara
ne secilin objekt( psh, teste te ndryshme mjekesore). Keto p-kolona te
matrices te referohen si variabla, tipare, atribute ose fusha, edhe ketu
ne varesi te kontekstit.
Detyrat e DM
• Eshte e pershtatshme qe DM ta kategorizojme
ne detyra, ne korrespondence te objektivave
te ndryshme, te personit qe analizon te
dhenat.
• ndarja e mëtejshme në detyra te hollsishme
është e mundur, por ajo kap llojet e
veprimtarive DM dhe stampon llojet kryesore
të algoritmeve DM, te cilat do ti përshkruajmë
më vonë.
Detyrat e DM
• EDA(Exploratory Data Analysis) – eksplorimi i analizes
se te dhenave, ashtu siç sugjeron edhe emri, qëllimi
këtu është thjesht për të shqyrtuar të dhënat, pa
ndonjë ide të qartë të asaj që ne jemi duke kërkuar.
• Modelimi pershkrues - Qëllimi i një modeli përshkrues
është përshkrimi i të gjitha të dhënave (ose procesi
per gjenerimin e të dhënave).
• Modelimi parashikues ( Klasifikimi dhe Regresioni) -
Qëllimi këtu është të ndërtojme një model që lejon që
vlera e një variabli të parashikohet nga vlerat e
njohura te variablave të tjera.
• Zbulimi i modeleve dhe rregullave – Të tre llojet e
detyrave të listuara më sipër janë përqendruar ne
ndërtimin e modelit.
Perberesit e algoritmeve te DM
• Ne do të bazohemi ne këto katër komponente
themelore:
– Modeli apo Struktura e modelit: përcaktimi i
strukturës themelore/baze ose i formave funksionale
që ne kërkojmë nga të dhënat.
– Funksioni Rezultat: gjykon cilësinë e një modeli të
pershtatur.
– Metodat e Optimizimi dhe kerkimit: optimizimi i
funksionit te pikeve dhe kërkimi mbi modele dhe
struktura model te ndryshme.
– Strategjia e menaxhimit te te dhënave: trajtimi i
aksesit te te dhenave me efikasitet gjatë Kërko /
optimizo.
Funksionet Rezultat/Score
• Funksionet Score percaktojnë se sa mirë një strukturë
model apo parameter i përshtatet një grupi të caktuar të te
dhënave.
• Në një botë ideale zgjedhja e funksionit Score do të
pasqyrojë perdorueshmerine e një modeli të veçantë
parashikues.
• Në praktikë, megjithatë shpesh është e vështirë të
përcaktojmë saktësisht perdorimin e vërtetë te një modeli
parashikues.
• Pa ndonjë formë të funksionit Score, ne nuk mund të themi
nëse një model është më e mirë se nje tjetër, ose si të
zgjedhim një grup të mirë të vlerave për parametrat e
modelit.
Metodat e Optimizimi dhe kerkimit
• Funksioni Score është një matje se sa mire aspektet e të
dhënave lidhin modelet e propozuara.
• këto modele janë përshkruar në kushtet e një strukture,
nganjëherë me vlera të panjohura te parametrave.
• Qëllimi i optimizimit dhe kerkimit është përcaktimi i
strukturës dhe vlerave te parametrave që arrijnë një vlere
minimum (ose maksimum, në varësi të kontekstit) te
funksionit Score.
• Detyra e gjetjes së vlerave me te mira te parametrave në
modele, është trajtuar në mënyrë tipike si një problem
optimizimi.
• Detyra për të gjetur modele interesante (të tilla si rregullat)
nga një familje e madhe e modeleve e mundshme është
trajtuar zakonisht si një problem i kërkimit kombinator, dhe
shpesh është realizohet duke përdorur teknika të kërkimit
orientues(heuristik).
Strategjia e menaxhimit te te dhënave
• Komponenti i fundit në çdo algoritem DM është strategjia e
menaxhimit te të dhënave: mënyra në të cilat të dhënat janë të
ruajtura, të indeksuara dhe të aksesuara.
• Algoritmet analizuese te te dhenave më të njohura ne statistika
dhe makinat e të mësuarit janë zhvilluar sipas nje supozimi se të
gjitha pikat e të dhënave individuale mund të arrihen shpejt dhe
me efikasitet në Random-akses memory (RAM).
• Shumë algoritme te analizimit te te dhenave janë zhvilluar pa
përfshirë ndonjë specifikim eksplicit te një strategjie të
menaxhimit të të dhënave.
• Fusha e bazës së të dhënave është e perqendruar me zhvillimin e
metodave të indeksimit, të strukturave te te dhënave, dhe
algoritme query për nje rikthim efikas dhe të besueshëm të të
dhënave.
• Shumë nga këto teknika janë zhvilluar për të mbështetur nje
veprim numërimi të thjeshtë (përmbledhës) të të dhënave
mëdha, për qëllime raportimi.
Rolet interaktive te statistikave dhe
DM
• Vetëm Teknikat statistikore nuk mund të jenë e mjaftueshme për të adresuar
disa nga sfidat në çështjet e DM, veçanërisht ato që dalin nga grupe masive të
të dhënave.
• Me grupe të mëdha të të dhënave, ne shpesh nuk mund te dime edhe fakte të
drejtpërdrejta rreth të dhënave.
– Për shembull, në një bazë të dhënash me objekte astronomike, ne mund
të bëjmë një deklaratë se "të gjitha objektet si ky, sillen kështu", ndoshta
edhe me një probabilitet kualifikues bashkangjitur.
– Gjithashtu, ne mund të përcaktojmë se rajone të veçanta të një vendi
shfaqin modele të caktuara të thirrjeve telefonike.
• Baza e të dhënave ofron nje bashkesi objektesh të cilat do të përdoren për të
ndërtuar modelin ose te kërkoni për një model, por objektivi përfundimtar nuk
do të jetë për të përshkruar ato të dhëna.
• Në shumicën e rasteve Objektivi është që të përshkruajë procesin e
përgjithshëm me të cilin të dhënat u linden, dhe të dhëna te tjera te cilat
mund të kenë lindur nga nje proces i njëjtë.
Rolet interaktive te statistikave dhe
DM
• Dallimi themelor ndërmjet aplikacioneve klasike statistikore
dhe DM, është madhësia e grupeve te të dhënave.
– Për një statisticien konvencional, një grup "i madh" të dhënash
mund të përmbajë disa qindra apo mijëra pika të dhënash.
• Përveç problemeve që lindin nga menyra e mbledhjes se te
dhenave, ne presim të ndodhin
shtrembërime të tjera në keto grupe te medha të dhënash -
përfshirë vlerat e humbura, ndotja,
dhe pika te dhenash të korruptuara.
• Është e rrallë që grupe te dhënash të mos kenë probleme të
tilla.
• Në të vërtetë, disa metoda përpunimi te modelimit përfshijnë,
si pjesë te modelit, një komponent qe përshkruan nje
mekanizëm permes të cilit të dhënat humbin ose
shtrembërohen.
Shembull: MOTI
• Instancat ne nje grup te dhenash karakterizohen nga
vlerat e tipareve ose atributeve, te cilat masin aspekte
te ndryshme te nje instance.
• Ne tabelen e mesiperme jane paraqitur 4 atribute:
peisazhi(outlook), temperatura, lageshtia, dhe era.
• Keto atribute kane si vlera kategori simbolike.
• Peisazhi mund te jete: me diell, me shi etj; temperatura
mund te jete e nxehte, e ftohte etj; e keshtu me radhe.
• Nje bashkesi rregullash qe mund te perftojme nga kjo
tabele eshte:
– If outlook = sunny and humidity = high then play = no
– If outlook = rainy and windy = true then play = no
– If outlook = overcast then play = yes
– If humidity = normal then play = yes
– If none of the above then play = yes
Shembull Moti
• Rregullat qe kemi pare deri tani quhen rregulla
klasifikuese.
• Ata parashikojne klasifikimin e shembullit sipas
luaj(play) ose jo.
• Është po aq e mundur që të mosrespektohet klasifikimi
dhe vetëm shikoni për ndonjë prej rregullave që
shoqërojnë fuqishëm vlera atributesh te ndryshme.
• Këto quhen rregullat lidhese. Me poshte po tregojme
disa:
– If temperature = cool then humidity = normal
– If humidity = normal and windy = false then play = yes
– If outlook = sunny and play = no then humidity = high
– If windy = false and play = no then outlook = sunny and
– humidity = high
Fushat e aplikimit
• Duke qenë fusha aplikacionesh, shembujt që
vijojnë kanë tendencën të theksojne përdorimin e
mësimit në situatat performancës, në të cilën
theksi është në aftësinë për të performuar sa me
mire në shembujt e rinj.
• Në tre shembujt e mëposhtme, fakti se Struktura
e vendimeve është e kuptueshme, është një tipar
kryesor në pershtatjen e suksesshme të aplikimit.
Fushat e aplikimit
• Web mining
• Vendimet me gjykim
• Imazhet shqyrtuese
• Ngarkimi i parashikimeve
• Diagnozat
• Marketingu dhe shitjet
• Aplikacione te tjera
• DM dhe etika
Procesi i zbulimit të njohurive është paraqitur si
një sekuencë iterative e hapave në vijim:
• Pastrimi i të dhënave (për të hequr zhurmën dhe të dhënat e paqëndrueshme)
• Integrimi i të dhënave (ku mund të kombinohen burime të shumëfishta të të
dhënave)
• Zgjedhja e të dhënave
• Transformimi i të dhënave (ku të dhënat transformohen dhe konsolidohen në forma
të përshtatshme për nxjerrjen e gjurmimin duke kryer operacione përmbledhëse ose
grumbulluese).
• Reduktimi i të dhënave mund të kryhet gjithashtu për të marrë një përfaqësim më të
vogël të të dhënave origjinale pa e sakrifikuar integritetin e tij.
• Gjurmimi i të dhënave (një proces thelbësor ku përdoren metoda inteligjente për
nxjerrjen e modeleve të të dhënave)
• Vlerësimi i modelit (për të identifikuar modelet vërtet interesante që përfaqësojnë
njohuritë bazuar në masat e interesimit
• Prezantimi i njohurive (ku vizualizimi dhe teknikat e përfaqësimit të njohurive
përdoren për të prezantuar njohuritë e minuara për përdoruesit)
• Bazuar në këto pikëpamje, arkitektura e një sistemi tipik të
gjurmimit të të dhënave mund të ketë komponentët kryesorë
të mëposhtëm:
Si te zgjedhim një sistem DM?
• Sistemet dhe platformat DM ofrohen ne lloje dhe tipologji te ndryshme.
• Për te zgjedhur nje sistem te sakte DM duhet te kemi parasysh disa tipare karakteristike te secilit
prej tyre.
• Me poshtë po listojmë disa prej tyre:
– Sistemet DM kane shume pak element te përbashkët:
• 1) Mund te kenë funksione dhe metodologji te ndryshme;
• 2) Mund te punojnë tërësisht me bashkësi (dataset) te ndryshme te dhënash.
– Kerkojne pamje te shumëfishta, shumëdimensionale përgjatë përzgjedhjes.
– Tipet e te dhenave jane te ndryshme, si:relacionale, tekst, sekuenciale etj.
– Tiparet e sistemit:
• 1) ekzekutohet ne një apo shume sisteme operative;
• 2) ështënjë arkitekture Client/server;
• 3) ofron ndërfaqe (interface) te bazuara ne ueb dhe lejon si input/output te dhënat XML.
– Burimet e të dhënave:
• 1) skedarët tekst ASCII, burime të shumtate të dhënave relacionale;
• 2) suporton lidhjet ODBC (OLE DB, JDBC)?
– Funksionet dhe metodologjitë DM:
• 1) një apo shume funksione DM;
• 2) një metode e vetme apo metoda te ndryshme per çdo funksion, (Sa me shume Funksione DM dhe metoda për funksion
i ofrojnë përdoruesit fleksibilitet më të madh dhe fuqi analizuese).
– Pershkallezueshmeria:
• 1) Row scalability(ose madhësia bazës së të dhënave);
• 2) Column scalability(ose dimensioni);
• 3) kursi i dimensionalitetit, është shumë më e vështirë për të bërë një sistem kolonë të pershkallëzuar sesa një sistem
rresht te përshkallëzuar.
– Mjete e vizualizimit: themi qe "Nje pikture/pamje vlen sa një mije fjale", keto teknika na ofrojne disa kategori
vizualizimi: vizualizimi të dhënave, vizualizimi i rezultatit te gjurmimit, procesi i vizualizimit te gjurmimeve dhe
DM vizuale.
– Gjuha e pyetësorëve Data Mining dhe GUI:
• 1) e lehte ne perdorim dhe me cilësi të lartë grafike GUI;
• 2)shumë interaktive

You might also like