Professional Documents
Culture Documents
2 DataMining
2 DataMining
Përmbajtja
Abstrakti----------------------------------------------------------------------------------------------3
Hyrje--------------------------------------------------------------------------------------------------3
Pse të përdoret Data Mining----------------------------------------------------------------------5
Sasi mjaft e madhe e të dhënave në dispozicion----------------------------------------------5
Rritja e konkurrencës 5
Ekzistimi i teknologjisë 5
Problemet afariste----------------------------------------------------------------------------------6
Analizat e dyshimeve ( ang. churn analysis )--------------------------------------------------6
Reklamimi i tërthortë (cross-selling) 6
Detektimi i mashtrimeve 7
Menaxhimi i rreziqeve 7
Parashikimi i shitjeve 7
Profilizimin e partnerëve 7
Procesi i Data Mining------------------------------------------------------------------------------8
Zgjedhja e të dhënave 8
Para procesimi i të dhënave 9
Gjurmimi 9
Përvetësimi i të dhënave 9
Metodat dhe teknikat e Data Mining----------------------------------------------------------10
Metoda e klasifikimit 10
Metoda e grumbullimit 11
Metoda e ndërlidhjes 11
Metoda e parashikimit 11
Aplikacionet / Produktet-------------------------------------------------------------------------13
SAS 13
SPSS 13
IBM 13
Microsoft Corporation 13
Oracle 14
Angoss 14
KXEN 14
Të rejat në gjurmimin e të dhënave-----------------------------------------------------------14
REFERENCAT------------------------------------------------------------------------------------15
Hyrje
Kohëve të fundit e veçanërisht gjatë dy dekadave të fundit kapacitetet për
gjenerimin dhe grumbullimin e të dhënave janë rritur në mënyrë rapide. Si rezultat i kësaj
rritje janë përdorimi i barkodeve gjatë gjenerimit të transaksioneve të ndryshme,
përdorimi i sistemeve kompjuterike nëpër biznese dhe shërbimet e ndryshme qeveritare.
Aktualisht përdoren numër jashtëzakonisht i madh i bazave të shënimeve në të gjitha
lëmit jetësore si në biznes, mjekësi, inxhinieri, shërbime të ndryshme administrative etj.
Hapësira të cilën e shfrytëzojnë këto baza të shënimeve nuk është më problem
teknologjik. Secila nga këto baza e të dhënave mund të ketë sasi deri në disa terrabajta
shënimesh.
Pra nga aspekti harduerik ruajtja e një grumbulli kaq të madh i të dhënave nuk paraqet
ndonjë problem të madh.
Mirëpo problemi kryesor paraqitet në përpunimin e këtyre të dhënave, në nxjerrjen e
informatave të nevojshme nga një grumbull kaq i madh i të dhënave.
Për këtë arsye është paraqitur nevoja për përdorimin e teknikave të reja, me anë të të
cilave do të mundësohej që nga një grumbull i madh i të dhënave, në mënyrë automatike
dhe inteligjente të fitojmë informata të dobishme dhe të rëndësishme.
Procesi i nxjerrjes së informatave të dobishme nga një grumbull jashtëzakonisht i madh i
të dhënave njihet si Data Mining (ang. Data Mining).
Qëllimi kryesor i procesi të Data Mining është nxjerrja e modeleve nga të dhënat,
rritja e vlerave të brendshme dhe transferimi i atyre të dhënave në informata të
dobishme.
Nëse në bazën tonë relacionare kemi të dhënat e studenteve e disa nga kolonat do
të ishin si në vijim : gjinia, niveli i ndikimit të prindërve të tyre për vazhdimin e
studimeve, rezultatet nga IQ testi etj. Nëse dëshirojmë të dimë numrin e studenteve sipas
gjinisë, apo numrin e studenteve sipas nivelit të ndikimit nga prindërit këto rezultate
mund të fitoheshin duke aplikuar SQL Querit.
Data Mining mund të gjejë zbatim mjaft të madh në ngritjen e vlerave të punës
për një ndërmarrje. Në vijim janë disa nga arsyet pse mund të përdoret Data Mining.
Rritja e konkurrencës
Ekzistimi i teknologjisë
Duke u bazuar në faktin se Data Mining është teknologji mjaft e re, atëherë edhe
teknologjitë e zhvillimit të saj kanë qenë të pranishme vetëm në sferën akademike/
teorike, mirëpo këto teknologji tani janë përpunuar dhe janë duke u aplikuar edhe në
industri.
Algoritmet e zhvilluara nxjerrin rezultate shumë të sakta, janë shumë efikase dhe mund të
përpunojnë sasi gjithnjë e më të madhe të të dhënave. Përveç kësaj programimi i
aplikacioneve për gjurmimin e të dhënave është duke u standardizuar, me çka ju
lehtësohet puna e zhvillueseve të aplikacioneve për gjurmim të të dhënave. [2]
Problemet afariste
Metodat e Data Mining mund të zbatohen në aplikacione të ndryshme varësisht
nga qëllimi i përdorimit të tyre.
Problemet afariste të cilat mund të zgjidheshin duke aplikuar procesin e Data Mining janë
të shumta. Në vijim do të paraqiten vetëm disa prej tyre.
Cilët janë klientët tanë apo grupet e klientëve të cilët kanë tendenca që shërbimet
e tyre t’i realizojnë te konkurrenca?
Kjo është një nga pyetjet e cila i shqetëson më së shumti stafin udhëheqës të
ndërmarrjeve. Sidomos ndërmarrjet bankare, telekomunikuese dhe kompanitë e
sigurimeve janë të shqetësuara me këtë pyetje duke marrë parasysh konkurrencën e
madhe që ekziston ne treg për këto lëmi. Ndërmarrjet e këtij lloj shpenzojnë gjithashtu
mjete të mëdha financiare duke promovuar shërbimet e tyre.
Secila ndërmarrje përpiqet që t’i mbajë klientët e tyre. Analiza e dyshimeve ( churn
analysis) mund ti ndihmojë udhëheqësit e ndërmarrjeve për të kuptuar se cilat janë arsyet
që klientët duan te largohen, ngritjen e komunikimit në mes të klientëve dhe ndërmarrjes
dhe eventualisht ngritjen e besueshmërisë ndaj klientëve.
Këto rekomandime të blerësve mund të analizohen përmes Data Mining dhe kështu
ndërmarrjet përafërsisht mund të sigurojnë informacion se cilat produkte do të
shiteshim me shumë. Dhe normalisht ato lloje të produkteve do të ofroheshin më shumë
në treg sesa produktet tjera.
Detektimi i mashtrimeve
Menaxhimi i rreziqeve
Parashikimi i shitjeve
Profilizimin e partnerëve
Cilët janë klientët e një ndërmarrje? Kjo ndoshta është pyetja më e rëndësishme
për secilin afarist. Një ndërmarrje duke i njohur klientët e vet, ajo edhe e shtrinë
aktivitetin e saj afarist në atë lëmi. Klientët mund të njihen apo grupohen duke u bazuar
në produktet të cilat ata zakonisht i blejnë. Informatat për shitjen e atyre produkteve dhe
se nga cilët klientë janë blerë fitohen gjithashtu duke përdorur gjurmimin e të dhënave.
Procesi i Data Mining
Nxjerrja e informacionit nga të dhënat të cilat i posedojmë në bazën e të dhënave,
përmes procesit të Data Mining është një proces mjaft kompleks dhe i cili kalon nëpër
disa faza.
Fazat apo hapat në të cilat kalon procesi i Data Mining do të shqyrtohet përmes
figurës në vijim.
Zgjedhja e të dhënave
Gjurmimi
Përvetësimi i të dhënave
Metoda e klasifikimit
Metoda e grumbullimit
Kjo metodë ndryshe njihet edhe si metoda e ndarjes apo segmentimit dhe përdoret
për ti identifikuar grupet natyrale duke u bazuar ne një bashkësi atributesh. Pra është
proces i grumbullimit të të dhënave me karakteristika të ngjashme nëpër klasa apo grupe.
Objektet apo të dhënat brenda një klase apo grupi mund të jenë shumë të ngjashme në
mes vete, mirëpo ato dallojnë mjaft shumë me objektet apo të dhënat nga grupet apo
klasat tjera.
Kjo metodë është mjaft e rëndësishme në aktivitetet humane apo njerëzore.
Psh ne në fëmijëri jemi mësuar si ti dallojmë qenët nga macet, apo kafshët nga drunjët etj.
Pra jemi përpjekur që përmes disa karakteristikave të përbashkëta ti ndajmë grupet e
ndryshme.
Metoda grumbullimit gjithashtu mundëson krahasimin e karakteristikave në mes të një
grupi, pra i bënë informatat në dimensione të krahasueshme.
Ndërmarrjet afariste përmes kësaj metode mund ti ndajnë grupet e klientëve varësisht nga
mallrat që ata porosisin apo i blejnë.[6],[2].
Metoda e ndërlidhjes
Kjo metodë njihet edhe me emrin analizat e shportës së blerjes ( ang. market
basket analysis). Problemi kryesorë i kësaj metode është që të analizoj transaksionet e
shitjes dhe të gjejë se cilat produkte shiten së bashku në shportën e shitjes.
Detyra e kësaj metode është të gjejë se sa shpesh shiten apo blihen një grumbull i
produkteve dhe cila është nderlidhshmeria në mes të atij grupi të produkteve të shitura
apo blera bashkërisht.
Zbulimi i këtyre lidhshmërive do ti ndihmonte shitësit në orientimin e strategjive të
marketingut duke u fokusuar në atë se cilat janë produktet më të shpeshta që klientët i
blejnë së bashku. Psh. Nëse për klientët të cilët blejnë qumësht, sa është gjasa që ata të
blejnë edhe bukë me një vizitë të vetme në shitore?
Nëse shitësit mund të gjejnë këtë lidhshmëri, atëherë ata raftin e qumështit dhe të bukës
do ti vendosnin afër njëra tjetrës. Më këtë inkurajohen klientët që me rastin e vizitës në
shitore ku për qëllim kanë blerjen e qumështit, të blejnë edhe bukën. [2],[6]
Metoda e parashikimit
Rrjedha e të dhënave
Sikurse është paraqitur në figurën në vijim, rrjedha e të dhënave kalon nëpër disa
faza. Se pari aplikacionet e ndryshme softuerike afariste i ruajnë të dhënat në bazën e të
dhënave, apo në procesimin online të transaksioneve ( OLTP- ang. On Line Transaction
Processing). Pastaj të dhënat nxjerrën nga baza online e të dhënave ose OLTP ,
formatizohen, përshtaten dhe dërgohen në bazën e shkëputur të të dhënave e cila ndryshe
quhet edhe magazina e të dhënave ( ang. DW - Data Warehouse). Vetëm pas popullimit
të DW, kubet e OLAP (ang.On Line Analytical Processing) mund të ndërtohen në DW.
Ndërmarrjet e vogla zakonisht nuk kanë DW, andaj Data Mining kryhet drejtpërsëdrejti
në OLTP , duke krijuar një kopje të bazës së të dhënave paraprakisht, apo direkt nga
aplikacionet softuerike afariste.
Në shumicën e aplikacioneve të sotme softuerike për afarizëm serioz është i inkorporuar
edhe Data Mining. Psh Gjatë blerjeve në internet në momentin kur në shportën tonë
blerëse e dërgojmë një artikull atëherë automatikisht iniciohen querit të cilët na
paraqesin listën e artikujve që na i rekomandojnë për ti blerë.
SAS
SAS është produkti më i përhapur për gjurmimin e të dhënave. Ka qenë mjaft i
njohur në fushën e analizave statistikore përmes nënproduktit të quajtur SAS Baze i cili
ka qenë i pajisur me funksione të shumta të shërbejnë për analizimin e të gjitha llojeve të
të dhënave. SAS gjithashtu ka zhvilluar edhe një gjuhë skriptuese të quajtur SAS Script.
Ndërsa në vitin 1997 është paraqitur SAS Enterprise Miner, e cila i mundëson
shfrytëzuesit ndërtimin e modeleve në mënyrë grafike, gjithashtu e përkrahë edhe
gjurmimin e tekstit.
SPSS
Është ndërmarrje statistikore e cila ka në vete disa produkte për gjurmimin e të
dhënave duke përfshirë SPSS Base dhe Answer Tree.
Në vitin 1998 SPSS e bleu kompaninë angleze ISL duke trashëguar paketën për gjurmim
të quajtur Clementine. Clementine ishte një nga kompanitë e para e cila kishte filluar
gjurmimin e të dhënave duke i mundësuar shfrytëzuesve pastrimin e të dhënave,
transformimin e tyre etj.
IBM
IBM e ka produktin për gjurmim të quajtur Intelligent Miner, i cili produkt është
zhvilluar nga një degë e IMB në Gjermani. Intelligent Miner përmban një tërësi të
algoritmeve dhe veglave vizuale për gjurmim e cila i eksporton modelet e gjurmimit në
Predictive Modeling Markup Language (PMML), që është definuar nga organizata
industriale Data Mining Group (DMG) . Dokumentet PMML janë fajlla XML të cilët
përmbajnë përshkrimet e modeleve dhe statistikat e një grumbulli të dhënash. Këta fajlla
mund të ngarkohen (loaded) nga baza e të dhënave DB2 për qëllime të parashikimit.
Microsoft Corporation
Microsoft është kompania e parë e cila i ka përfshirë karakteristikat e Data
Mining në bazat relacionare. Produkti SQL Server 2000 i publikuar në shtator të vitit
2000 i përmban dy algoritme të patentuar të Data Mining, ato janë: Microsoft
Decision Trees dhe Microsoft Clustering. Përveç këtyre algoritmeve mjaft e rëndësishme
për këtë produkt është edhe karakteristika e implementimit të OLE DB për gjurmimin e të
dhënave. Këto API e bëjnë të mundur futjen e komponentëve të Data Mining në
aplikacionet e shfrytëzuesve.
Oracle
Data Mining në produktet e Oracle është paraqitur për herë të parë në vitin
2000 me nxjerrjen e Oracle 9i i cili përmbante disa algoritme të bazuar në
ndërlidhmëni dhe Naïve Bayes. Ndërsa Oracle 10g përmbanë më shumë vegla dhe
algoritme për gjurmimin e të dhënave. Oracle gjithashtu ka inkorporuar edhe Java Data
Mining API, e cila është një paketë e Java për qëllimet e Data Mining.
Angoss
Angoss’ Knowledge STUDIO është një vegël e Data Mining e cila përmban
algoritmet e pemëve vendimmarrëse dhe grumbullimit duke iu mundësuar shfrytëzuesve
që të gjurmojnë dhe të kuptojnë të dhënat nga perspektiva të ndryshme. Gjithashtu
përmban vegla vizuale. Algoritmet e tij mund të punojnë edhe në platformë të SQL
Server.
KXEN
Është një softuer francez për gjurmim të të dhënave i cili përmban disa algoritme
përfshirë SVM, algoritmin e regresionit, segmentimit etj. Gjithashtu ka zgjedhje për
gjurmimin e të dhënave me OLAP. Ka zhvilluar edhe një add-in për Excel duke iu
mundësuar shfrytëzuesve të cilët janë familjar me Excel ta përdorin gjurmimin e të
dhënave.