Data Mining

Ushtrimi 3 Ushtrimi 1 Teori
Klasa - Në kontekstin e minierës së të dhënave, "klasa" është një grup ose kategori e dhënash
Për të klasifikuar shembullin duke përdorur teknikat klasifikuese Naive Bayes, fillimisht që përfaqëson një sërë elementesh të ngjashëm. Klasifikimi është procesi i ndarjes së të
duhet të llogarisim probabilitetet marginale dhe probabilitetet kondicionale për çdo atribut në dhënave në klasa të ndryshme ose grupime bazuar në karakteristikat e tyre.
dataset.
Naive Bayes - Është një algoritëm i mësim-automatik që përdoret për klasifikimin e të
dhënave. Bazohet në thesarin e teorisë së probabilitetit, veçanërisht në Teoremin e Bayesit.
Llogaritja e Probabiliteteve Marginale: Përveç të dhënave, kjo metodë kërkon të dhëna të pavarura nga njëra-tjetra, nga kjo edhe emri
 P(Stolen=Yes) = 5/10 = 0.5 "naive" (i thjeshtë).
 P(Stolen=No) = 5/10 = 0.5 Cluster - Një grup ose ansambël i të dhënave që janë ngjashëm në një mënyrë të caktuar.
Llogaritja e Probabiliteteve Kondicionale për secilin atribut: Metodat e grupimit janë përdorur për të identifikuar struktura të fshehta ose modele në të
 P(Color=Red | Stolen=Yes) = 2/5 = 0.4
dhënat pa pasur nevojë për etiketimin paraprak të tyre.
 P(Color=Red | Stolen=No) = 1/5 = 0.2 Model frekuent - Në kontekstin e minierës së të dhënave, një "model frekuent" është një
strukturë analitike që identifikon shabllone ose tendenca të zakonshme në të dhënat bazuar në
 P(Color=Yellow | Stolen=Yes) = 3/5 = 0.6
frekuencën e paraqitjes së tyre. Këto modele mund të përdoren për të parashikuar apo për të
 P(Color=Yellow | Stolen=No) = 4/5 = 0.8 bërë vendime në bazë të dhënave historike.
 P(Type=Sports | Stolen=Yes) = 3/5 = 0.6
Klasifikimi - Është procesi i identifikimit të klasës së duhur për një element të ri të dhënave
 P(Type=Sports | Stolen=No) = 2/5 = 0.4 bazuar në karakteristikat e tij. Klasifikimi është një pjesë e mësim-automatikut dhe përdoret
 P(Type=SUV | Stolen=Yes) = 2/5 = 0.4
për të kategorizuar ose për të vendosur etiketat për të dhënat e reja bazuar në informacionin e
dhënë nga të dhënat e mëparshme të etiketuara.
 P(Type=SUV | Stolen=No) = 3/5 = 0.6
 P(Origin=Domestic | Stolen=Yes) = 3/5 = 0.6
 P(Origin=Domestic | Stolen=No) = 2/5 = 0.4
 P(Origin=Imported | Stolen=Yes) = 2/5 = 0.4
 P(Origin=Imported | Stolen=No) = 3/5 = 0.6
Përdorimi i teoremes së Bayesit për të llogaritur probabilitetin totale për secilin klasifikim:
 P(Stolen=Yes | Color=Red, Type=Sports, Origin=Domestic) ∝ P(Color=Red |
Stolen=Yes) * P(Type=Sports | Stolen=Yes) * P(Origin=Domestic | Stolen=Yes)
* P(Stolen=Yes) = 0.4 * 0.6 * 0.6 * 0.5 = 0.072
 P(Stolen=No | Color=Red, Type=Sports, Origin=Domestic) ∝ P(Color=Red |
Stolen=No) * P(Type=Sports | Stolen=No) * P(Origin=Domestic | Stolen=No) *
P(Stolen=No) = 0.2 * 0.4 * 0.4 * 0.5 = 0.016
Pasi kemi llogaritur këto probabilitete, mund të shohim se probabiliteti më i lartë është për
klasën "Stolen=Yes", kështu që shembulli do të klasifikohet si "Stolen=Yes".
Ushtrimi 2a Ushtrimi 2a
Për të përcaktuar rregullin IR (Internal Rule) për atributin e temperaturës, duhet të kryejmë Përdore këtë rregull IR per te klasifikuar te dhënat bazuar ne temperaturën e tyre.
disa hapa. Rregulli IR është një rregull i cili është bazuar në vlerën e një atributi të caktuar në
një bazë të dhënash. Kjo zakonisht përfshinë përdorimin e një funksioni të caktuar të cilin Pjesa 2
përdoruesi ka zgjedhur për të vlerësuar këtë atribut. Mirë, le të përdorim rregullin IR të caktuar për të klasifikuar të dhënat bazuar në
temperaturën e tyre duke përdorur kufijtë që sapo vendosëm:
Në rastin tuaj, duke qenë se jeni duke pyetur për rregullin IR për atributin e temperaturës,
është e rëndësishme të kuptojmë se cili është qëllimi i këtij rregulli. Për shembull, nëse Temperaturat < 55: "i ftohtë"
dëshironi të ndani vlerat në kategori (si "nxehtë", "mild", "i ftohtë"), mund të përdorni ndonjë
lloj funksioni që ndanë vlerat e temperaturës në kategori të ndryshme. Temperaturat midis 55 dhe 65: "mild"
Temperaturat >= 65: "nxehtë"
Për këtë, mund të përdorni ndonjë algoritëm të thjeshtë që ndanë temperaturën në kategori të
ndryshme. Një mënyrë e thjeshtë për ta bërë këtë është përdorimi i kufijve të caktuar. Kështu Tani do të shkojmë për një pasqyrim të dhënash dhe do t'i klasifikojmë ato bazuar në këtë
që mund të përcaktoni kufijtë për kategoritë "i ftohtë", "mild" dhe "nxehtë", dhe pastaj të rregull IR:
vendosni cdo vlerë të temperaturës në njërën nga këto kategori bazuar në kufijtë e vendosur.
Temperatura: 50, 40, 53, 65, 68, 65, 70, 59, 52, 58, 61, 53, 67, 62
Për shembull:
50 - "i ftohtë",40 - "i ftohtë", 53 - "mild",65 - "nxehtë",68 - "nxehtë",65 - "nxehtë",

Temperaturat < 55: "i ftohtë" 70 - "nxehtë", 59 - "mild", 52 - "i ftohtë", 58 - "mild", 61 - "mild", 3 - "mild",67 - "nxehtë",
62 - "mild"
Temperaturat midis 55 dhe 65: "mild"
Temperaturat >= 65: "nxehtë"
Kështu, pas klasifikimit bazuar në rregullin IR të caktuar, të dhënat e temperaturës janë
klasifikuar si vijon:
Kjo është një mënyrë e thjeshtë për të përcaktuar kategoritë e temperaturës. Pas kësaj, mund
të përdorni këtë rregull IR për të klasifikuar të dhënat tuaja bazuar në temperaturën e tyre.
4 temperatura janë klasifikuar si "i ftohtë"
6 temperatura janë klasifikuar si "mild"
4 temperatura janë klasifikuar si "nxehtë"
Ushtrimi 1 pjesa 2
Për të ndërtuar një pemë vendimi të optimale, fillimisht duhet të llogarisim shpërblimin e
Ushtrimi 1 pjesa 1 informacionit për secilin atribut. Pastaj, duhet të përzgjedhim atributin që jep shpërblimin më
Për të filluar, mund të ndajmë këtë proces në disa hapa: të madh të informacionit për të ndarë datasetin në mënyrë më efektive.
Llogarisim Entropinë fillestare (Entropia e dataset-it fillestar). Të filluarit, le të llogarisim entropinë fillestare (Entropia e dataset-it fillestar):
Përzgjedhim një atribut të caktuar dhe llogarisim Entropinë e pritshme për secilën vlerë të
mundshme të këtij atributi.
Llogarisim shpërblimin e informacionit duke zbritur entropinë e pritshme nga entropia Entropia fillestare (S) = -p(ngrenshme) * log2(p(ngrenshme)) - p(te_ngrenshme) *
fillestare. log2(p(te_ngrenshme))
Përsërisim hapin 2 dhe 3 për të gjithë atributet e mundshme dhe marrim atë që jep
shpërblimin më të madh të informacionit.
Ku:
Për të filluar, llogarisim Entropinë fillestare (Entropia e dataset-it fillestar):

p(ngrenshme) është probabiliteti që një kerpudhë të jetë e ngrenshme.
Entropia fillestare (S) = -p(ngrenshme) * log2(p(ngrenshme)) - p(te_ngrenshme) * p(te_ngrenshme) është probabiliteti që një kerpudhë të jetë e papjekur.
log2(p(te_ngrenshme))
Për të llogaritur këtë, nevojitet të numërojmë kerpudhat e ngrenshme dhe ato të papjekura në
Ku: dataset. Në datasetin tuaj, ka 10 rreshta dhe 5 prej tyre janë të ngrenshme dhe 5 prej tyre janë
të papjekura.
p(ngrenshme) është probabiliteti që një kerpudhë të jetë e ngrenshme.

Entropia fillestare (S) = -0.5 * log2(0.5) - 0.5 * log2(0.5) = -0.5 * (-1) - 0.5 * (-1) = 1
p(te_ngrenshme) është probabiliteti që një kerpudhë të jetë e papjekur.
Tani, le të llogarisim shpërblimin e informacionit për secilin atribut. Për këtë, duhet të
Pasi të kemi llogaritur entropinë fillestare, mund të vazhdojmë duke llogaritur shpërblimin e llogarisim entropinë e pritshme për secilin atribut dhe pastaj të zbritim entropinë e pritshme
informacionit për secilin atribut. nga entropia fillestare.
Le të vazhdojmë me këtë proces. Le të fillojmë me atributin "Magazine promotion":
Entropia e pritshme (S_Magazine_promotion) = (4/10) * Entropia(2/4, 2/4) + (6/10) *

Entropia(3/6, 3/6)
Entropia(2/4, 2/4) = -0.5 * log2(0.5) - 0.5 * log2(0.5) = 1 Entropia(3/6, 3/6) = -0.5 * log2(0.5)
- 0.5 * log2(0.5) = 1
Entropia e pritshme (S_Magazine_promotion) = (4/10) * 1 + (6/10) * 1 = 0.4 + 0.6 = 1
Shpërblimi i informacionit për "Magazine promotion" është:
Information Gain(Magazine promotion) = Entropia fillestare (S) - Entropia e pritshme

(S_Magazine_promotion) = 1 - 1 = 0
Përsërisim këtë proces për të gjithë atributet të tjerë dhe pastaj zgjedhim atë që ka shpërblimin
më të madh të informacionit.
Nëse keni nevojë për ndihmë për të llogaritur entropinë dhe shpërblimin e informacionit për
atributet e tjera, le të dimë dhe unë do të ju ndihmoj.
Ushtrimi 2b
Algoritmi Apriori është një nga algoritmët më të njohur për rindërtimin e modeleve frekuentë
në minierën e të dhënave. Ky algoritm punon në disa hapa: Ushtrimi 2b
Kështu, artikujt frekuentë janë: pasta, lemon, dhe orange.
Identifikon dhe krijon një listë të të gjitha artikujve (item) unike në dataset.
Përcakton artikujt që kanë frekuencën minimale të caktuar, të cilat quhen artikujt frekuentë. Identifikimi i kombinacioneve të mundshme:
Krijon kombinacione të mundshme të artikujve (kandidatë) dhe kontrollon se sa prej tyre janë {pasta, lemon}
frekuentë në dataset.
Përditëson listën e artikujve frekuentë bazuar në kriteret e përcaktuara. {pasta, orange}
{lemon, orange}
Përcaktojmë kombinacionet frekuentë:
Për të aplikuar algoritmin Apriori në datasetin e dhënë, fillimisht do të përcaktojmë artikujt
frekuentë me një sport minimal prej 50%. Pastaj, do të identifikojmë kombinacionet e {pasta, lemon}: 2/4 = 50%
mundshme të artikujve dhe do të përcaktojmë ato që plotësojnë kriterin e sportit minimal. Në
{pasta, orange}: 2/4 = 50%
fund, do të kemi modelin tonë frekuent.
{lemon, orange}: 2/4 = 50%
Në këtë rast, artikujt unikë në dataset janë: pasta, lemon, bread, orange, dhe cake. Sporti
minimal është 50%. Nuk ka kombinacione të tjera që plotësojnë kriterin e sportit minimal prej 50%.
Përcaktojmë artikujt frekuentë: Kështu, modeli frekuent përfshin artikujt e vetëm: pasta, lemon, dhe orange, dhe
Pasta: 4/4 = 100% kombinacionet e tyre:
Lemon: 3/4 = 75%

Orange: 3/4 = 75% {pasta}
Cake: 2/4 = 50% {lemon}
{orange}
{pasta, lemon}
{pasta, orange}
{lemon, orange}

Data Mining

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining

Uploaded by

Copyright:

Available Formats

Ushtrimi 3 Ushtrimi 1 Teori

50 - "i ftohtë",40 - "i ftohtë", 53 - "mild",65 - "nxehtë",68 - "nxehtë",65 - "nxehtë",

Për të filluar, llogarisim Entropinë fillestare (Entropia e dataset-it fillestar):

p(ngrenshme) është probabiliteti që një kerpudhë të jetë e ngrenshme.

Le të vazhdojmë me këtë proces. Le të fillojmë me atributin "Magazine promotion":

Entropia e pritshme (S_Magazine_promotion) = (4/10) * Entropia(2/4, 2/4) + (6/10) *

Entropia e pritshme (S_Magazine_promotion) = (4/10) * 1 + (6/10) * 1 = 0.4 + 0.6 = 1

Shpërblimi i informacionit për "Magazine promotion" është:

Information Gain(Magazine promotion) = Entropia fillestare (S) - Entropia e pritshme

Lemon: 3/4 = 75%

You might also like