2 DataMining

Data Mining
Përmbajtja
Abstrakti----------------------------------------------------------------------------------------------3
Hyrje--------------------------------------------------------------------------------------------------3
Pse të përdoret Data Mining----------------------------------------------------------------------5
Sasi mjaft e madhe e të dhënave në dispozicion----------------------------------------------5
Rritja e konkurrencës 5
Ekzistimi i teknologjisë 5
Problemet afariste----------------------------------------------------------------------------------6
Analizat e dyshimeve ( ang. churn analysis )--------------------------------------------------6
Reklamimi i tërthortë (cross-selling) 6
Detektimi i mashtrimeve 7
Menaxhimi i rreziqeve 7
Parashikimi i shitjeve 7
Profilizimin e partnerëve 7
Procesi i Data Mining------------------------------------------------------------------------------8
Zgjedhja e të dhënave 8
Para procesimi i të dhënave 9
Gjurmimi 9
Përvetësimi i të dhënave 9
Metodat dhe teknikat e Data Mining----------------------------------------------------------10
Metoda e klasifikimit 10
Metoda e grumbullimit 11
Metoda e ndërlidhjes 11
Metoda e parashikimit 11
Aplikacionet / Produktet-------------------------------------------------------------------------13
SAS 13
SPSS 13
IBM 13
Microsoft Corporation 13
Oracle 14
Angoss 14
KXEN 14
Të rejat në gjurmimin e të dhënave-----------------------------------------------------------14
REFERENCAT------------------------------------------------------------------------------------15
Hyrje
Kohëve të fundit e veçanërisht gjatë dy dekadave të fundit kapacitetet për
gjenerimin dhe grumbullimin e të dhënave janë rritur në mënyrë rapide. Si rezultat i kësaj
rritje janë përdorimi i barkodeve gjatë gjenerimit të transaksioneve të ndryshme,
përdorimi i sistemeve kompjuterike nëpër biznese dhe shërbimet e ndryshme qeveritare.
Aktualisht përdoren numër jashtëzakonisht i madh i bazave të shënimeve në të gjitha
lëmit jetësore si në biznes, mjekësi, inxhinieri, shërbime të ndryshme administrative etj.
Hapësira të cilën e shfrytëzojnë këto baza të shënimeve nuk është më problem
teknologjik. Secila nga këto baza e të dhënave mund të ketë sasi deri në disa terrabajta
shënimesh.
Pra nga aspekti harduerik ruajtja e një grumbulli kaq të madh i të dhënave nuk paraqet
ndonjë problem të madh.
Mirëpo problemi kryesor paraqitet në përpunimin e këtyre të dhënave, në nxjerrjen e
informatave të nevojshme nga një grumbull kaq i madh i të dhënave.
Për këtë arsye është paraqitur nevoja për përdorimin e teknikave të reja, me anë të të
cilave do të mundësohej që nga një grumbull i madh i të dhënave, në mënyrë automatike
dhe inteligjente të fitojmë informata të dobishme dhe të rëndësishme.
Procesi i nxjerrjes së informatave të dobishme nga një grumbull jashtëzakonisht i madh i
të dhënave njihet si Data Mining (ang. Data Mining).
Qëllimi kryesor i procesi të Data Mining është nxjerrja e modeleve nga të dhënat,
rritja e vlerave të brendshme dhe transferimi i atyre të dhënave në informata të
dobishme.
Data Mining është teknologji relativisht e re dhe me tendencë që së shpejti të

shndërrohet në njërën nga teknologjitë më të rëndësishme ne botë. Për këtë arsye MIT
Technology Review e ka zgjedhur gjurmimin e të dhënave në njërën nga 10 teknologjitë
që do ta ndryshojnë boten.
Gjithashtu sipas revistës teknologjike ZDNET News (të botuar në shkurt të vitit 2001),
Data Mining parashikohet të jetë një nga zhvillimet më revolucionare në dekadën e
ardhshme.[3].
Shumica e profesionistëve nga bazat e të dhënave do të vinin në pikëpyetje procesin e

Data Mining në krahasim me SQL querit, apo shprehur më mirë cilat të dhëna do të
mund të fitoheshin duke aplikuar gjurmimin e të dhënave e nuk mund të fitoheshin duke
aplikuar SQL querit në bazat relacionare. Përgjigjen për këtë krahasim do të përpiqem
gjejë duke elaboruar shembullin në vijim.
Nëse në bazën tonë relacionare kemi të dhënat e studenteve e disa nga kolonat do
të ishin si në vijim : gjinia, niveli i ndikimit të prindërve të tyre për vazhdimin e
studimeve, rezultatet nga IQ testi etj. Nëse dëshirojmë të dimë numrin e studenteve sipas
gjinisë, apo numrin e studenteve sipas nivelit të ndikimit nga prindërit këto rezultate
mund të fitoheshin duke aplikuar SQL Querit.
Mirëpo si do të mund të fitoheshin rezultatet për numrin e studenteve të grupuar sipas

gjinisë dhe sipas ndikimit të prindërve, apo studentët e grupuar sipas gjinisë dhe sipas IQ
testit. Edhe ky rezultat do të fitohej duke aplikuar SQL querit, mirëpo numri i quer-ëve të
shkruar do të ishte mjaft i madh dhe strukturimi i të dhënave të fituara gjithashtu i
vështirë. Në këtë rast numri i kolonave të cilat jemi duke i analizuar është relativisht i
vogël, por paramendoni një situatë kur duhet të analizojmë qindra kolona. Nxjerrja e
rezultateve do të ishte jashtëzakonisht e vështirë përmes SQL quer-ëve.
Në rastin e Data Mining rezultatet do të fitoheshin mjaft lehtë. Mjafton zgjedhja e
drejtë e algoritmit të Data Mining dhe specifikimi i kolonave që dëshirojmë ti
përdorim për analizë, duke përfshirë kolonat hyrëse dhe ato të pritura të cilat janë
edhe qëllimi i analizës.[2]
Duke ditur se Data Mining është një fushë mjaft e gjerë për diskutim, gjatë këtij punimi
me theks të veçantë do të shqyrtohen dobitë e përdorimit të Data Mining në problemet
afariste.
fig. 1 Të dhëna të shumta, por informacione të pakta [6]

Pse të përdoret Data Mining
Data Mining mund të gjejë zbatim mjaft të madh në ngritjen e vlerave të punës
për një ndërmarrje. Në vijim janë disa nga arsyet pse mund të përdoret Data Mining.
- Sasi mjaft e madhe e të dhënave në dispozicion

- Rritja e konkurrencës
- Ekzistimi i teknologjisë
Secilën nga këto arsye do të përpiqem që ti shpjegoj në vijim.
Sasi mjaft e madhe e të dhënave në dispozicion
Gjatë dy dekadave të fundit çmimet e pajisjeve harduerike e në veçanti të hard

disqeve kanë rënë në mënyrë rapide. Duke u nisur nga ky fakt, ndërmarrjet kanë
gjeneruar numër ekstrem të madh të të dhënave duke përdorur aplikacione të llojeve të
ndryshme. Me anë të këtyre të të dhënave ndërmarrjet dëshirojnë që të fitojnë
informata të cilat do të ishin të dobishme për strategjitë e zhvillimit të tyre.
Rritja e konkurrencës
Në ditët e sotme ndërmarrjet ballafaqohen me konkurrencë të lartë me rivalet e

tyre në fushën e njëjtë të veprimtarisë apo biznesit. Kjo rrjedh si rezultat i zhvillimit të
internetit dhe pajisjeve komunikuese. Ekzistimi i secilës ndërmarrje varet nga numri i
klientëve. Duke pasur parasysh konkurrencën e lartë secila ndërmarrje përpiqet që ti
mbajë klientët e vetë e në rastin më të mirë edhe të fitoj klientë të rinj.
Data Mining i përmban teknologjitë të cilat ju mundësojnë ndërmarrjeve që të
analizojnë faktorët të cilët i afektojnë shqetësimet në lidhje me largimin e klientëve ose
afrimin e klientëve te rinj.
Ekzistimi i teknologjisë
Duke u bazuar në faktin se Data Mining është teknologji mjaft e re, atëherë edhe
teknologjitë e zhvillimit të saj kanë qenë të pranishme vetëm në sferën akademike/
teorike, mirëpo këto teknologji tani janë përpunuar dhe janë duke u aplikuar edhe në
industri.
Algoritmet e zhvilluara nxjerrin rezultate shumë të sakta, janë shumë efikase dhe mund të
përpunojnë sasi gjithnjë e më të madhe të të dhënave. Përveç kësaj programimi i
aplikacioneve për gjurmimin e të dhënave është duke u standardizuar, me çka ju
lehtësohet puna e zhvillueseve të aplikacioneve për gjurmim të të dhënave. [2]
Problemet afariste
Metodat e Data Mining mund të zbatohen në aplikacione të ndryshme varësisht
nga qëllimi i përdorimit të tyre.
Problemet afariste të cilat mund të zgjidheshin duke aplikuar procesin e Data Mining janë
të shumta. Në vijim do të paraqiten vetëm disa prej tyre.
Analizat e dyshimeve ( ang. churn analysis )
Cilët janë klientët tanë apo grupet e klientëve të cilët kanë tendenca që shërbimet
e tyre t’i realizojnë te konkurrenca?
Kjo është një nga pyetjet e cila i shqetëson më së shumti stafin udhëheqës të
ndërmarrjeve. Sidomos ndërmarrjet bankare, telekomunikuese dhe kompanitë e
sigurimeve janë të shqetësuara me këtë pyetje duke marrë parasysh konkurrencën e
madhe që ekziston ne treg për këto lëmi. Ndërmarrjet e këtij lloj shpenzojnë gjithashtu
mjete të mëdha financiare duke promovuar shërbimet e tyre.
Secila ndërmarrje përpiqet që t’i mbajë klientët e tyre. Analiza e dyshimeve ( churn
analysis) mund ti ndihmojë udhëheqësit e ndërmarrjeve për të kuptuar se cilat janë arsyet
që klientët duan te largohen, ngritjen e komunikimit në mes të klientëve dhe ndërmarrjes
dhe eventualisht ngritjen e besueshmërisë ndaj klientëve.
Reklamimi i tërthortë (cross-selling)
Përmes reklamimit të tërthorte ndërmarrjet janë në gjendje të dinë preferencat e

klientëve në produktet të cilat i ofron ndërmarrja në shitje. Shumica e ndërmarrjeve të
cilat shesin me pakicë e përdorin këtë metodë e veçanërisht ndërmarrjet të cilat shesin
online.
Psh. Nëse blejmë një libër përmes librarisë amazon.com neve na kërkohet që të
plotësojmë një pyetësorë, se cilat janë librat e tjerë për të cilët ne jemi të interesuar.
Këto rekomandime të blerësve mund të analizohen përmes Data Mining dhe kështu
ndërmarrjet përafërsisht mund të sigurojnë informacion se cilat produkte do të
shiteshim me shumë. Dhe normalisht ato lloje të produkteve do të ofroheshin më shumë
në treg sesa produktet tjera.
Detektimi i mashtrimeve
Me anë të kësaj metode tentohet që të njohën mashtruesit gjatë procesit të

analizimit të kërkesave të tyre. Kjo metodë vie në konsiderim në rastin kur ndërmarrjet
kanë kërkesa në numër mjaft të madh gjatë ditës. Dhe është e pamundur që të hetohet
secili rast në veçanti. Përmes kësaj metode, duke hulumtuar rastet e mëparshme të
mashtrimeve dhe duke krahasuar me rastet aktuale, ndërmarrjet mund të gjejnë se cilat
nga këto kërkesa mund të jenë kërkesa mashtruese.
Menaxhimi i rreziqeve
Kjo metodë gjen zbatim sidomos të ndërmarrjet bankiere. Psh. Me rastin e

aprovimit të ndonjë kredie. A duhet aprovuar ajo kredi apo jo?
Metodat e Data Mining mund të ndihmojnë në menaxhimin e situatave të tilla, gjithmonë
duke u bazuar në rezultatet paraprake për problemin e njëjtë.
Parashikimi i shitjeve
Kjo metodë mund ti ndihmonte ndërmarrjet në menaxhimin e depove të tyre duke

bërë parashikimin e shitjeve. Psh udhëheqësit të secilës shitore do ti interesonte për një
produkt se sa do të shitej ai produkt javën e ardhshme, apo si do të jetë gjendja e asaj
shitore në muajin në vijim etj.
Këto informata ne mënyrë mjaft efikase do të fitoheshin duke përdorur teknikat e Data
Mining. Pra nëse e dimë se sa shishe të coca-cola janë shitur këtë javë, përafërsisht do
të mund ta dimë se sa do të shiten edhe në javën e ardhshme.
Profilizimin e partnerëve
Cilët janë klientët e një ndërmarrje? Kjo ndoshta është pyetja më e rëndësishme
për secilin afarist. Një ndërmarrje duke i njohur klientët e vet, ajo edhe e shtrinë
aktivitetin e saj afarist në atë lëmi. Klientët mund të njihen apo grupohen duke u bazuar
në produktet të cilat ata zakonisht i blejnë. Informatat për shitjen e atyre produkteve dhe
se nga cilët klientë janë blerë fitohen gjithashtu duke përdorur gjurmimin e të dhënave.
Procesi i Data Mining
Nxjerrja e informacionit nga të dhënat të cilat i posedojmë në bazën e të dhënave,
përmes procesit të Data Mining është një proces mjaft kompleks dhe i cili kalon nëpër
disa faza.
Fazat apo hapat në të cilat kalon procesi i Data Mining do të shqyrtohet përmes
figurës në vijim.
fig.2 Procesi i Data Mining [4]
Zgjedhja e të dhënave
Si hap i parë në procesin e Data Mining është zgjedhja e tipave të të dhënave

të cilat do të përdoren nga algoritmi i gjurmimit.
Siç dihet në bazën e të dhënave ekzistojnë llojllojshmëri e të dhënave dhe jo të gjitha prej
atyre të dhënave janë të nevojshme për të realizuar gjurmimin e të dhënave. Prandaj është
detyrë e analistit të bazës së të dhënave që të ti identifikoj se ku ndodhen të dhënat e
dëshiruara për gjurmim dhe ti grumbulloj ato të dhëna në një bazë të vetme. Zakonisht
këto të dhëna gjenden në baza të ndryshme të të dhënave dhe të cilat nuk e kanë një
strukturë unike. Gjithashtu këto baza nuk janë të centralizuara në një lokacion të vetëm,
pra nevojitet transportimi i tyre. Andaj edhe pse ky proces duket i lehtë në koncept është
mjaft i vështirë dhe i ndjeshëm gjatë realizimit të tij.
Para procesimi i të dhënave
Pra procedimi i të dhënave përfshinë formatizimin e të dhënave, modelimin,

adaptimin dhe nganjëherë edhe përshtatjen e të dhënave algoritmit të Data Mining.
Disa nga operacionet të cilat do të nevojiteshin gjatë kësaj faze janë.
- Kapitalizimi i germave, është e zakonshme që disa algoritme të gjurmimit janë
case sensitive, prandaj është detyrë e analistit që këto të dhëna ti kthej me germa
të mëdha apo të vogla, varësisht nga kërkesa e algoritmit.
- Ndërlidhja e fushave, janë të shpeshta rastet kur disa fusha në bazë të të dhënave
të bashkohen në një fushë të vetme. Psh të dhënat për punëtorin për emrin dhe
mbiemrin ruhen si dy fusha, ( emri = Sidrit dhe mbiemri = Desku ). Është detyrë e
analistit të bazës që këto fusha ti kthej në një (emri_mbiemri = Sidrit_Desku ).
- Formati i paraqitjes, kjo veti është evidente sidomos tek paraqitja e fushave në të
cilat ruhet data. Pasi që burim i të dhënave janë bazat e ndryshme atëherë edhe
datat kanë forma të ndryshme të paraqitjes.
Psh DD-MM-YYYY, MM-DD-YYYY etj. andaj që këto të dhëna të jenë të
krahasueshme duhet të kenë format të njëjtë të paraqitjes.
Gjurmimi
Pas përfundimit të fazës së para procedimit, të dhënat janë të gatshme për

gjurmim. Qëllimi i kësaj faze është nxjerrja e informatave të dobishme nga baza e të
dhënave duke përdorur metoda të ndryshme për gjurmim. Metodat për gjurmim do të
shtjellohen në vijim të këtij punimi.
Përvetësimi i të dhënave
Hapi i fundit në procesin e Data Mining është përvetësimi i të dhënave të

gjurmuara apo hulumtuara. Kjo arrihet duke interpretuar apo përvetësuar informacionet të
cilat nga modelet e gjurmimit kanë rezultuar si të dobishme. Pra ky hap i procesit të
gjurmimit ka për qëllim të kuptuarit e informatave të nxjerrura nga gjurmimi, zakonisht
bëhet në nivel të ekspertëve të cilët e njohin lëmin për të cilën është kryer gjurmimi.
Nga të kuptuarit e drejtë të rezultateve të nxjerrura nga gjurmimi varen edhe vendimet të
cilat do ti marr ndërmarrja në zhvillimin e veprimtarisë së saj afariste.
Metodat dhe teknikat e Data Mining
Problemet afariste të cilat mund të zgjidhen duke përdorur gjurmimin e të
dhënave janë të shumta. Andaj duke u bazuar në natyrën e problemeve të paraqitura janë
zhvilluar metoda të ndryshme të cilat ndihmojnë zgjedhjen e atyre problemeve.
Ekzistojnë një numër i konsiderueshem i këtyre metodave, disa prej të cilave janë:
Metoda e klasifikimit, metoda e grumbullimit, regresionit, parashikimit etj.
Metoda e klasifikimit
Metoda e klasifikimit apo ndryshe njihet edhe si vendimmarrje përmes pemës

(ang. decision trees), është metodë induktive e cila përdoret për të gjetur rregullat apo
mënyrat e klasifikimit të të dhënave nga baza e të dhënave. Është metoda me e përhapur
nga metodat e Data Mining. Problemet afariste në të cilat involvohet kjo metodë janë:
analizat e dyshimeve (churn analysis), menaxhimi i rrezikueshmerisë etj. Përmes kësaj
metode bëhet grupimi i rasteve sipas kategorive duke u bazuar në atributet e përcaktuara
më parë. Psh. Nëse i kemi dy atribute hyrëse X dhe Y. Të gjitha rastet për të cilat X > 1
dhe Y = B i përkasin Klasa2 , përderisa të gjitha rastet për kushtin X < 1 pa marrë
parasysh vlerën e Y i përkasin Klasa1, shih figurën në vijim.[2][5]
fig.3 Zbatimi i metodës së klasifikimit për atributet X dhe Y [5]

Teknikat apo algoritmet me të cilat zbatohet kjo metodë zakonisht janë pemët e
vendimmarrjes, rrjetat nervore dhe Naïve Bayes.
Metoda e grumbullimit
Kjo metodë ndryshe njihet edhe si metoda e ndarjes apo segmentimit dhe përdoret
për ti identifikuar grupet natyrale duke u bazuar ne një bashkësi atributesh. Pra është
proces i grumbullimit të të dhënave me karakteristika të ngjashme nëpër klasa apo grupe.
Objektet apo të dhënat brenda një klase apo grupi mund të jenë shumë të ngjashme në
mes vete, mirëpo ato dallojnë mjaft shumë me objektet apo të dhënat nga grupet apo
klasat tjera.
Kjo metodë është mjaft e rëndësishme në aktivitetet humane apo njerëzore.
Psh ne në fëmijëri jemi mësuar si ti dallojmë qenët nga macet, apo kafshët nga drunjët etj.
Pra jemi përpjekur që përmes disa karakteristikave të përbashkëta ti ndajmë grupet e
ndryshme.
Metoda grumbullimit gjithashtu mundëson krahasimin e karakteristikave në mes të një
grupi, pra i bënë informatat në dimensione të krahasueshme.
Ndërmarrjet afariste përmes kësaj metode mund ti ndajnë grupet e klientëve varësisht nga
mallrat që ata porosisin apo i blejnë.[6],[2].
Metoda e ndërlidhjes
Kjo metodë njihet edhe me emrin analizat e shportës së blerjes ( ang. market
basket analysis). Problemi kryesorë i kësaj metode është që të analizoj transaksionet e
shitjes dhe të gjejë se cilat produkte shiten së bashku në shportën e shitjes.
Detyra e kësaj metode është të gjejë se sa shpesh shiten apo blihen një grumbull i
produkteve dhe cila është nderlidhshmeria në mes të atij grupi të produkteve të shitura
apo blera bashkërisht.
Zbulimi i këtyre lidhshmërive do ti ndihmonte shitësit në orientimin e strategjive të
marketingut duke u fokusuar në atë se cilat janë produktet më të shpeshta që klientët i
blejnë së bashku. Psh. Nëse për klientët të cilët blejnë qumësht, sa është gjasa që ata të
blejnë edhe bukë me një vizitë të vetme në shitore?
Nëse shitësit mund të gjejnë këtë lidhshmëri, atëherë ata raftin e qumështit dhe të bukës
do ti vendosnin afër njëra tjetrës. Më këtë inkurajohen klientët që me rastin e vizitës në
shitore ku për qëllim kanë blerjen e qumështit, të blejnë edhe bukën. [2],[6]
Metoda e parashikimit
Gjithashtu është metodë e rëndësishme në problemet afariste. Pyetjet të cilave

mund t’u jepte përgjigje kjo metodë në problemet afariste do të ishin si , cila do të jetë
gjenda e depos së një ndërmarrje brenda një periode të caktuar të ardhshme kohore, apo
sa shishe të Coca-Colës do të shiten brenda asaj periode?
Kjo metodë bazohet në historikun e të dhënave dhe në bazë të shpeshtësisë së përsëritjes
së transaksioneve e gjënë lidhshmërinë për transaksionet e ardhshme.
Është përafërsisht e ngjashme me metodën e klasifikimit, mirëpo në këtë metodë
klasifikimi i rekordeve bëhet duke u bazuar në atribute të parashikuara.
Rrjedha e të dhënave
Sikurse është paraqitur në figurën në vijim, rrjedha e të dhënave kalon nëpër disa
faza. Se pari aplikacionet e ndryshme softuerike afariste i ruajnë të dhënat në bazën e të
dhënave, apo në procesimin online të transaksioneve ( OLTP- ang. On Line Transaction
Processing). Pastaj të dhënat nxjerrën nga baza online e të dhënave ose OLTP ,
formatizohen, përshtaten dhe dërgohen në bazën e shkëputur të të dhënave e cila ndryshe
quhet edhe magazina e të dhënave ( ang. DW - Data Warehouse). Vetëm pas popullimit
të DW, kubet e OLAP (ang.On Line Analytical Processing) mund të ndërtohen në DW.
Ndërmarrjet e vogla zakonisht nuk kanë DW, andaj Data Mining kryhet drejtpërsëdrejti
në OLTP , duke krijuar një kopje të bazës së të dhënave paraprakisht, apo direkt nga
aplikacionet softuerike afariste.
Në shumicën e aplikacioneve të sotme softuerike për afarizëm serioz është i inkorporuar
edhe Data Mining. Psh Gjatë blerjeve në internet në momentin kur në shportën tonë
blerëse e dërgojmë një artikull atëherë automatikisht iniciohen querit të cilët na
paraqesin listën e artikujve që na i rekomandojnë për ti blerë.
fig.4 Procesi i rrjedhës së të dhënave

Aplikacionet / Produktet
Aplikacionet apo produktet softuerike për gjurmimin e të dhënave janë të shumta
për nga numri i tyre në vijim do të ceken disa prej tyre dhe disa nga kompanitë që kanë
zhvilluar produkte të tilla.
SAS
SAS është produkti më i përhapur për gjurmimin e të dhënave. Ka qenë mjaft i
njohur në fushën e analizave statistikore përmes nënproduktit të quajtur SAS Baze i cili
ka qenë i pajisur me funksione të shumta të shërbejnë për analizimin e të gjitha llojeve të
të dhënave. SAS gjithashtu ka zhvilluar edhe një gjuhë skriptuese të quajtur SAS Script.
Ndërsa në vitin 1997 është paraqitur SAS Enterprise Miner, e cila i mundëson
shfrytëzuesit ndërtimin e modeleve në mënyrë grafike, gjithashtu e përkrahë edhe
gjurmimin e tekstit.
SPSS
Është ndërmarrje statistikore e cila ka në vete disa produkte për gjurmimin e të
dhënave duke përfshirë SPSS Base dhe Answer Tree.
Në vitin 1998 SPSS e bleu kompaninë angleze ISL duke trashëguar paketën për gjurmim
të quajtur Clementine. Clementine ishte një nga kompanitë e para e cila kishte filluar
gjurmimin e të dhënave duke i mundësuar shfrytëzuesve pastrimin e të dhënave,
transformimin e tyre etj.
IBM
IBM e ka produktin për gjurmim të quajtur Intelligent Miner, i cili produkt është
zhvilluar nga një degë e IMB në Gjermani. Intelligent Miner përmban një tërësi të
algoritmeve dhe veglave vizuale për gjurmim e cila i eksporton modelet e gjurmimit në
Predictive Modeling Markup Language (PMML), që është definuar nga organizata
industriale Data Mining Group (DMG) . Dokumentet PMML janë fajlla XML të cilët
përmbajnë përshkrimet e modeleve dhe statistikat e një grumbulli të dhënash. Këta fajlla
mund të ngarkohen (loaded) nga baza e të dhënave DB2 për qëllime të parashikimit.
Microsoft Corporation
Microsoft është kompania e parë e cila i ka përfshirë karakteristikat e Data
Mining në bazat relacionare. Produkti SQL Server 2000 i publikuar në shtator të vitit
2000 i përmban dy algoritme të patentuar të Data Mining, ato janë: Microsoft
Decision Trees dhe Microsoft Clustering. Përveç këtyre algoritmeve mjaft e rëndësishme
për këtë produkt është edhe karakteristika e implementimit të OLE DB për gjurmimin e të
dhënave. Këto API e bëjnë të mundur futjen e komponentëve të Data Mining në
aplikacionet e shfrytëzuesve.
Oracle
Data Mining në produktet e Oracle është paraqitur për herë të parë në vitin
2000 me nxjerrjen e Oracle 9i i cili përmbante disa algoritme të bazuar në
ndërlidhmëni dhe Naïve Bayes. Ndërsa Oracle 10g përmbanë më shumë vegla dhe
algoritme për gjurmimin e të dhënave. Oracle gjithashtu ka inkorporuar edhe Java Data
Mining API, e cila është një paketë e Java për qëllimet e Data Mining.
Angoss
Angoss’ Knowledge STUDIO është një vegël e Data Mining e cila përmban
algoritmet e pemëve vendimmarrëse dhe grumbullimit duke iu mundësuar shfrytëzuesve
që të gjurmojnë dhe të kuptojnë të dhënat nga perspektiva të ndryshme. Gjithashtu
përmban vegla vizuale. Algoritmet e tij mund të punojnë edhe në platformë të SQL
Server.
KXEN
Është një softuer francez për gjurmim të të dhënave i cili përmban disa algoritme
përfshirë SVM, algoritmin e regresionit, segmentimit etj. Gjithashtu ka zgjedhje për
gjurmimin e të dhënave me OLAP. Ka zhvilluar edhe një add-in për Excel duke iu
mundësuar shfrytëzuesve të cilët janë familjar me Excel ta përdorin gjurmimin e të
dhënave.
Të rejat në gjurmimin e të dhënave

Sikurse është cekur edhe në hyrjen e këtij punimi Data Mining është teknologji
mjaft e re në krahasim me teknologjinë e bazave të të dhënave. Pasi është teknologji e re
edhe shfrytëzuesit e kësaj teknologjie janë të pakët në numër. Andaj edhe kompanitë të
cilat i zhvillojnë produktet për gjurmimin e të dhënave çdo ditë e me shume janë duke
zhvilluar API të ndryshëm për t’iu mundësuar një numri më të madh të zhvilluesve të
merren me gjurmimin e të dhënave.
Data Mining mund të përdoret në të gjitha sferat jetësore. Në ditët e sotme kryesisht
është duke u përdorur në financa, ndërmarrjet e sigurimeve, telekom etj.
Kërkesat për të zhvilluar algoritme për të zgjidhur problemet në të ashtuquajturat sektorë
vertikal janë në rritje të vazhdueshme. Psh në fushën e mjekësisë duhen të zhvillohen
algoritme speciale për të analizuar sekuencat e ADN-së, pastaj në aplikacionet për siguri
të rrjetave nevojiten algoritme të cilat detektojnë në kohë reale ndërhyrjet në rrjetë nga
jashtë etj. Andaj zhvillimi i algoritmeve të tilla është një nga prioritet kah po zhvillohet
Data Mining.

2 DataMining

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2 DataMining

Uploaded by

Copyright:

Available Formats

Data Mining

Data Mining është teknologji relativisht e re dhe me tendencë që së shpejti të

Shumica e profesionistëve nga bazat e të dhënave do të vinin në pikëpyetje procesin e

Mirëpo si do të mund të fitoheshin rezultatet për numrin e studenteve të grupuar sipas

fig. 1 Të dhëna të shumta, por informacione të pakta [6]

- Sasi mjaft e madhe e të dhënave në dispozicion

Sasi mjaft e madhe e të dhënave në dispozicion

Gjatë dy dekadave të fundit çmimet e pajisjeve harduerike e në veçanti të hard

Në ditët e sotme ndërmarrjet ballafaqohen me konkurrencë të lartë me rivalet e

Analizat e dyshimeve ( ang. churn analysis )

Reklamimi i tërthortë (cross-selling)

Përmes reklamimit të tërthorte ndërmarrjet janë në gjendje të dinë preferencat e

Me anë të kësaj metode tentohet që të njohën mashtruesit gjatë procesit të

Kjo metodë gjen zbatim sidomos të ndërmarrjet bankiere. Psh. Me rastin e

Kjo metodë mund ti ndihmonte ndërmarrjet në menaxhimin e depove të tyre duke

fig.2 Procesi i Data Mining [4]

Si hap i parë në procesin e Data Mining është zgjedhja e tipave të të dhënave

Pra procedimi i të dhënave përfshinë formatizimin e të dhënave, modelimin,

Pas përfundimit të fazës së para procedimit, të dhënat janë të gatshme për

Hapi i fundit në procesin e Data Mining është përvetësimi i të dhënave të

Metoda e klasifikimit apo ndryshe njihet edhe si vendimmarrje përmes pemës

fig.3 Zbatimi i metodës së klasifikimit për atributet X dhe Y [5]

Gjithashtu është metodë e rëndësishme në problemet afariste. Pyetjet të cilave

fig.4 Procesi i rrjedhës së të dhënave

Të rejat në gjurmimin e të dhënave

You might also like