Professional Documents
Culture Documents
II. Adatkezelés
Az adatbázist hogyan
kell megtervezni,
leírni?
Mi az adattárház? Milyen a
feladata? Hogy működik?
Benne az adatokat hogy kell
megszervezni?
I. Adat, Információ, Tudás
• Adat:
─ bármi, ami körülöttünk van, valamilyen tulajdonsággal
rendelkezik, mástól megkülönböztethet. (Szűkebb
értelemben): Valamely célokra szolgáló, számítógépben tárolt
jelek.
─ a tények, jelenségek, fogalmak feldolgozásra alkalmas
reprezentációja,
─ az információ hordozója. (objektív fogalom)
6
• A tudás meghatározása:
• A tudás mindaz, amit tudunk. (Grant)
• A tudásnak három fő jellemzője van (Sveiby, Polányi alapján)
↘ nem algoritmizálható: A tudás szabályokkal soha le nem
írható.
↘ Egyrészt nyilvános, egyrészt személyes jellegű: Bár a tudás
jelentős mértékben közösségi szinten is létezik, de
legnagyobbrészt azonban az egyének által létrehozott és
fenntartott, érzelmek és szenvedélyek befolyásolják.
↘ egyrészt explicit jellegű, egyrészt ki nem fejezhető mélységben
rejlik.
• Adatokat, információkat könnyű megjegyezni, memorizálni, de
felhasználni őket már tapasztalat, hosszú tanulás kell.
• A tudás alátámasztottan igaz vélekedés. (Nonaka)
7
• A tudás típusai:
8
• A tudásmenedzsment: a szervezet szellemi tőkének növelését,
hatékony felhasználását célzó törekvések összessége.
• A tudásmenedzsment
komponensei:
– Ember
– Tudásszerkezet
– Folyamat
– Technológia
– Támogató rendszerek
• A tudásmenedzsment feladatai:
Felhalmozódott tudásvagyon
számbavétele, megőrzése,
felhasználása révén
– stratégiai célok elérésének segítése,
– teljesítmény és integráltság növelése
– Automatizmusok működése
Adat és adatbázis szervezése
• Adattípus: Az adattípus alapján • Adathierarchia:
lehet tudni:
– Az összetettségéről,
– A műveleti jellemzőiről,
– A tárolási és értelmezési jellemzőiről
• Adat típusai:
– Konstans/Változó
─ Elemi (egész, valós, karakter, logikai, mutató)/Összetett (tömb,
karakterlánc, rekord, állomány)
─ Strukturált/ Strukturálatlan/Szemi Strukturált
─ Számszerű/Szöveges
─ Meta adat
• Adatelem:
– Adat azonosítója+Értéke+Mutató értéke 10
• Adat minőségi jellemzője: Egy aláírással
─ Hitelesség: az adat elvárt forrásból való származása, igazolt
dokumentum
a hitelességet biztosító, az adattól elválaszthatatlan
elem. Egy szakkönyv a
─ Érthetőség: Szabályok, amelyek biztosítják az adat teljes szakszavak
szótárával
egyértelmű értelmezését, jelentését.
─ Teljesség: Szabályok, társadatok, amelyek lehetővé
teszik az adat pontos értelmezését.
─ Időszerűség: Az adat jellemzői, amelyek Egy vállalat évégi
kapcsolódnak más objektum idődimenzióban jelentése
jelenlegi állapotával.
─ Bizalmasság: az adat jellemzője, amely szerint csak
az jogosultak ismerhetik meg, felhasználhatják. PIN kód, jelszó
─ Objektivitás: az adat jellemzője, amely megmutatja
pontos, valóságos helyzetet az adat képzését végző Műszerrel mért
adatok
személyek szubjektivitásától függetlenül.
11
• Információ mennyisége:
Shannon képlet:
H = - log₂p
p az adat előfordulásának valószínűsége,
H (bit) az adatból kinyerhető információ mennyisége.
Példa:
- Fémszázas feldobásának valószínűsége ½, azért abból
kinyerhető információ mennyisége 1 bit.
- Mennyi információt tartalmaz a magyar autórendszám?
- Ha nő a p, csökkent a H, és fordítva is igaz: Ritkább dologból
több információt lehet nyerni!
12
• Adattípus: Születési év / személyi igazolvány
─ Elemi / összetett adat
Autó(rendszám, szín, ár, gyártási év)
─ Specifikált adat,
– Konstans / Változó 2017 / X
– Szöveges adat / számszerű adat, XML fájl
– Strukturált adat / szemi-strukturált Szöveg
adat/ nem strukturált adat,
Neptun kód, Hallgatói név
– Azonosító adat / leíró adat
Áfa
– Származtatott adat
– Meta adat, Katalógus
Strukturált adat
CD
1 Kraftwerk 2500 Zoli
4 Groove 3100 Laci
Szemi-strukturált adat
3 Enya 2700 Ani
6 Hobo 3600 Zoli
Metaadat: katalógus, adatszótár
<cím>Hello Péter!</cím>
<CD>
<eloado>Kratfwerk</eloado>
Katalógus Tartalom
<cím>Autobahn</cím>
CATALOG Táblázatok, nézetek, … <ar>2500</ar>
CONSTR- A táblázatokra és azok részeire
</CD>
AINTS definiált korlátozások, feltételek <CD><eloado>Groove
</eloado><ar>3100</ar>
SYNONYMS Szinonimák </CD> 15
• Adatmodellezés: az adatstruktúra leírására szolgáló modell
felépítése.
• Az adatmodellezés:
- Feladata: a valós világ vizsgálat alá vont részének
információs struktúráját feltárni.
o Az adatvédelem,
o Adatszervezési és adatelérési módok
kialakítása.
o A hardvertől, az adatbázis-kezelő rendszertől
illetve a felhasználói alkalmazásoktól való
függetlenség biztosítása.
- Cél: azoknak a tényeknek az azonosítása,
amelyeket az adatbázisban tárolni akarunk.
- Az adat modellezésben résztvevők: felhasználók,
elemzők.
adatmodellezés adatbázis modellezése
• Adatszervezési és adatelérési módok:
– A DBMS-ek az adatokat a külső tároló-kon lapokon tárolják,
amelyek a mérete rögzített, 1 - 32 Kbájt. Az adatátvitel a külső
tároló és a belső memória pufferei között laponként történik.
– Logikai szinten az DBMS-ek rekordokkal dolgoznak. Pl.
Rekordokat alkothatnak a tulajdonságai. Pl. egy személyi
nyilvántartásban egy egyéni személy adatai: név, lakhely,
születési év,…
– rekordok konkrét előfordulása: rekordok a konkrét értékekkel
rendelkező mezőivel.
– Az adatszervezési mód meghatározza, hogyan helyezzük el
fizikailag az adatokat.
– Az elérési mód mutatja meg azt, hogy valamilyen konkrét
esetben hogyan férünk hozzá az adatokhoz.
17
• Adattípusok, adatszerkezetek
• Az adatelem :
• Az adatelem komponensei:
─ tárolási cím: Megmutatja az adat-elhelyezési címét.
─ adat értéke:
─ mutatók értéke: Megmutatja az adott adattal kapcsolódó adat
tárolási címét.
• Adatszerkezetek: Az adatelemek összegsége az adatok közötti,
a mutatók értékek által meghatározott kapcsolatrendszerrel.
18
• Adatszerkezetek típusai
– Homogén adatszerkezetek: az adatelemek közti kapcsolatok szerint
csoportosítjuk,
– Heterogén adatszerkezetek: Nem az adatelemek közti kapcsolatok
szerint csoportosítjuk. Pl. rekord
• Homogén adatszerkezetek típusai
ᴥ Struktúra nélküli adatszerkezet: az adatelemek között nincs
kapcsolatok.
ᴥ Asszociatív adatszerkezet : Az adatelemek között lényegi kapcsolat
nincs. Valamilyen közös tulajdonság alapján összeállított halmazból
részismérvek alapján részhalmazokat választhatunk ki. Az adat-
elemek a tartalmuk alapján címezhetők. Pl. tömb, ritka mátrixok,
táblák. Elérési mód: Közvetlen vagy véletlen elérés
ᴥ Szekvenciális adatszerkezet : az adatelemek között van
egyértelműen meghatározott, egy-egy jellegű a kapcsolat: minden
adatelem két másik adatelemnek van egy megelőzője és egy
rákövetkezője, kivéve az elsőt és az utolsót. Pl. Egyszerű lista 19
ᴥ Hierarchikus adatszerkezet: az adatelemek között
fa alakú (körmentes), egy-több jellegű
kapcsolatrendszer van: egy gyökérelemből minden
elem elérhető Pl. Fa, összetett lista
ᴥ Hálós adatszerkezet: az adatelemek között gráf
alakú, több-több jellegű kapcsolatrendszer van:
minden adatelemnek van tetszőleges számú
megelőzője és rákövetkezője. Pl. gráf, irányított
gráf.
1. vevõ kódja
2. vevõ rekordja
1. vevõ neve 1. vevõ címe 1. vevõ telefonszáma
Rekord:
...
Mezõ
22
• Példa a szekvenciális szerkezetben történő módosításra (bővítésre
és törlésre): a mutató értékeket kell módosítani!
Az adatszerkezet a
módosítás előtt
A 2-es elem
bővítése a Listába
A 2-es elem
bővítése az Üres
hely-be
Jelmagyarázat:
: Tárolási cím
: Adatérték
: Mutató érték
: Törölt kapcsolat
: Aktív kapcsolat
• Adatbázis rendszer modellezése:
24
• Adatbázis rendszer modellezése legfontosabb feladatai:
– Az adatvédelem
– Az adatfüggetlenség biztosítása,…
• Az adatvédelem:
– az adatbiztonság: a fizikai meghibásodások, program általi hibák,
logikai biztonságlerontása (szándékos megrontásból, helytelen
kezelésből származó anomália) elleni védekezés az adatok
minősége, pontossága, megbízhatósága, az adatintegráció
megőrzése érdekében.
– az adatintegritás: az adat helyességének, egységességének
megőrzése.
– a hozzáférési jog: az adathoz csak felhatalmazottak, jogosultak
férhetnek hozzá, módosíthatják.
• Az adat biztonságát veszélyezteti:
‒ redundancia: többszörös, felesleges adattárolás.
‒ anomália: adat módosítása, törlése során történő rendellenesség.
25
• Az adatbázis-kezelő rendszer a független felhasználói programok és a
független adatok tárolási mód révén lehetővé teszi az arra jogosult
felhasználóknak az adatbázishoz való hozzáférést.
• Az adatfüggetlenség biztosítása:
Az absztrakció szintjei: Az adatbázisok modellezése három szinten
történik:
– A külső (felhasználói) szinten: modellezni kell, hogyan látják az
egyes felhasználók az adatbázist.
– A középső (logikai, koncepciós) szint: fel kell építeni a rendszer
koncepcionális modelljét.
– A belső (fizikai) szint: a rendszer elemei fizikai elhelyezésének
leírása.
Erika Név
1992 Szül-év
Ford Típus
ILP162 Rendszám
2000 Gy-év
110 Lóerő
Egyed Egyedtípus
Tulajdonság Attribútum
• Attribútum osztályozása:
– Egyszerű (atomi) Strukturált vagy összetett
– Egyértékű (tulajdonság egy értéket vehet fel) Több értékű
– Tárolt (fizikai háttértárolón letárolt) adat tárolt adatokból
származtatott adat 37
• E/K-modell (Entity-Relationship Model): létrehozandó adatbázis
logikai felépítésének szemléletes, adattípusokat, köztük fennálló
kapcsolatokat ábrázoló diagrammal történő leírása.
• E/K-modell szimbólumai
• E/K diagram
• Relációs adatmodell (Codd, 1971)
Egy reláció nem tartalmaz két azonos sort, két azonos oszlopot.
Reláció Hallgatók
Attribútumok (Neptun_kód,Név, Neptun_ Név Szül_hely Szül_idő
Szül_hely, Szül_idő) kód
Attribútum értékei (Ádám)
101 Ádám Bud 1991
Attribútum értéktartománya
(101,102,103,104) 102 Béla Bud 1990
Rekord 103 Béla Szeged 1990
mező
104 Erika Bud 1991
Relációséma:
Hallgató(Neptun_kód,Név, Szül_hely, Szül_idő)
Név Cím
Normál formák és Normalizálás Ügyfél
• Normál forma: Amelyben a Azonosít Név Szül_hel Szerződés
reláció kevesebb redundanciát és ó y száma
anomáliát tartalmaz . 1010 Ádám Bud 01991,
02013
1020 Béla Bud 01990
• 0- Normál forma (0NF): 1030 Béla Szeged 01995
Bármelyik reláció (amely 1040 Erika Bud 02015
tartalmazhat redundanciát és
anomáliát). Nem elemi
Egy reláció attribútum-értéke adat
lehet elemi, összetett vagy
strukturált.
45
• Boyce-Codd Normál forma (BCNF vagy 3.5NF): a reláció 3NF-
ban van és ha benne teljesül egy nem-triviális funkcionális
függőség XY akkor X egy szuperkulcs.
46
• Normalizálás: A felbontási módszer, mely révén:
- csökkent a redundancia és anomália,
- csökkent az adatok tároló-igénye, és
- Logikailag áttekinthetőbb az adatbázis
• Normalizálási módszer: Az adattáblák több lépésben történő,
ismétléses felbontása.
Normalizálás lépései
1. Lépés: A kulcs meghatározása
2. Lépés: A függési diagram megrajzolása
3. Lépés: A reláció normalizálási
szabályok alkalmazásával történő
felbontása
4. Lépés: Az 1. lépés ismétlése a 3.
lépésben kapott relációkra.
47
Példa:
• A Szállítók reláció nincs 1NF-ben: Szállítók
700/900 nem elemi érték Név Cím Áru Ár
• CímÁru mert ha két sor Ádám Bud USB 700/ 900
megegyezik a Cím-nél, akkor Béla Bud USB 700
megegyezik az Áru-nál. Béla Érd Keyboard 1500
• Név Cím nem igaz, mert 2. és 3.
sor megegyezik a Név-nél, de nem
egyezik meg az Cím-nél.
48
Normalizálás
• 0NF1NF:
Sokszorozzuk a reláció sorait, ahol
összetett attribútumérték van. Pl.
Szállítók {Szállítók 1, Szállítók 2}
• 1NF2NF:
Ha R relációban PQ függőség
megsérti a 2.NF feltételeit, azaz
P1Q, P1 P, akkor R-t két
kisebb relációra bontjuk:
R és
49
• Példa:
• A Szállítók2(Név,Cím,Áru,Ár) relációban {Név, Cím} egy kulcs
halmaz.
• Név,Cím Áru, Ár de Cím Áru, azért Áru funkcionálisan (de
részlegesen) függ {Név,Cím}-től.
• Azért a Szállítók2(Név,Cím,Áru,Ár) relációt a Szállítók3(Cím,Áru,Á)
és Szállítók4(Név,Cím) relációkra kell bontani.
50
2NF3NF: Ha R(P,Q,S) relációban teljesül a tranzitív függőség
P Q és Q S, akkor azt lehet megszüntetni az R felbontásával:
R {R1, R2}
Normalizálás eredménye
Normalizálás
Normalizálás előtt (tranzitív függőségek R1
P Q
megszüntetése)
R
P Q S
R2
Q S
• Példa:
Szállítók3(Cím,Áru,Ár) -ban teljesül a tranzitív függőség:
CímÁruÁr.
Ha a Cím attribútum az elsődleges kulcs, akkor Szállítók3 nincs 3.NF-
ben, mert másodlagos Ár tranzitíven függ a Cím-től.
A tranzitív függőséget meg kell szüntetni. Bontjuk: Szállítók3
Szállítók5(Cím,Áru) és Szállítók6(Áru, Ár) relációkra. 51
3NFBCNF:
Ha R(P,Q,S) relációban teljesül a függőség Q S, ahol Q nem kulcs
, akkor azt lehet megszüntetni az R felbontásával: R {R1,
R2}
Példa: Az R(A, B, C, D, E)-ben teljesülnek a
függőségek: F={AC, BD, CDE},
R nem 2NF: C nem függ teljesen a kulcstól
R nem 3NF: ABCDE tranzitív függőség R
R nem BCNF: AC -ben A nem kulcs.
Normalizálás:
1) R R1(A, B, C, D), R2(C, D, E) :
tranzitív füg- gőség megszüntetése, R1
nem 2NF, R2 az NF.
2) R1(A, B, C, D) R11(A, C), R12(B, D)
Kétszer 1.NF2.NF szabály alkalmazása
Normalizálás eredménye:
52
Példa:
1) Lépés: Kulcs
{B-az, Betegség, Gyógy szer}
2) Lépés: A diagram megrajzolása
3) Lépés: A reláció felbontása
(1.NF2.NF szabály
alkalmazva)
53
A
Példa: Normalizálás lépései:
1. Elsődleges kulcs meghatározása,
{B-az, Betegség, Gyógyszer}
2. Lépésenként a táblák normálformába
való hozása.
• 1NF2NF:
A B, C, D
• 2NF3NF:
C E, F
Normalizálás eredménye:
A B,E,F,D 54
• Példa: 0. 1. NF-ra hozás
(összetett adat megszüntetése): Áru-kód Áru Ár
101 TV 140000
Áru-kód Áru Ár
102 Pendrive 1900
101 TV 140000
102 Pendrive 1900
2500 Áru-kód Áru Ár
101 TV 140000
102 Pendrive 2500
59
2
3
50 → 46
60
2
3
61
4. ER-modellből relációs modellbe leképezések
ER- Relációs ER- Relációs
modellben modellben modellben modellben
Egyedtípus Reláció (táblázat) Kapcsolattípus reláció kiegészítése idegen kulccsal VAGY
kapcsolatreláció
Egyed- rekord (sor) Kapcsolattípus egyedreláció mezője VAGY kapcsolatreláció
előfordulás attribútuma mezője
Attribútum mező (oszlop) 1:1 kapcsolattípus relációk egyesítése VAGY reláció kiegészítése
idegen kulccsal VAGY kapcsolatreláció
Összetett Minden kompon- 1:N reláció kiegészítése idegen kulccsal
attribútum ensből külön mező kapcsolattípus VAGY kapcsolatreláció
Kulcs- elsődleges kulcs M:N kapcsolatreláció a résztvevők elsődleges
attribútum kapcsolattípus kulcsából képzett összetett kulccsal
Példa: Oktató(O-Azonosító , O-Név, T-Kód) Tanszék(T-Kód, T-név)
Példa:
Óra(Neptun-Kód,T-Kód, Hányóra, Kredit) Hallgató(Neptun-Kód, H-Név)
Tanszék(T-Kód, T-név)
63
Példa (Mintafeladat): Pótolja az egyedtípusok neveit az ER diagramban az adott
relációk alapján
Adott:
1. PARTNER (Partnerkód, Partnernév)
2. PARTNERCÍM (Címazonosító, Partnerkód, Cím)
3. TERMÉK (Termékkód, Terméknév, Vtszám)
4. VTSZ (VTszám, Megnevezés)
5. TERMÉKÁR (Árazonosító, Termékkód, Ártípus, Egységár, Devizanem,
Mértékegység)
6. ÁR-ÁTSZÁMÍTÁS (Árazonosítóról + Árazonosítóra, Arány)
/Az Árazonosítóról és Árazonosítóra az Árazonosító szerepnevei.
7. ÁFAMÉRTÉK (VTszám + Érvényesség kezdete, Érvényesség vége, ÁFA mérték)
8. SZÁMLAFEJ (Számlasorszám, Partnerkód, Címazonosító, Számlatípuskód, Kiállító
törzsszáma, Kiállítás dátuma, Első nyomtatás dátuma, Nyomtatott példány,
Teljesítés dátuma, Fizetési határidő, Fizetési mód) /A Kiállító törzsszáma a
Törzsszám szerepneve.
9. FEJSZÖVEG (Számlasorszám + Szövegkód, Szöveg)
10. ALKALMAZOTT (Törzsszám, Név)
11. SZÁMLATÉTEL (Számlasorszám + Tételsorszám, Termékkód, Mértékegység,
Mennyiség, Tételérték)
12. TÉTELSZÖVEG (Számlasorszám + Tételsorszám + Szövegsorszám, Tételszöveg)
1. Lépés: (a gráf csúcsainak meghatározása)
Ahány relációséma van, annyi téglalap van.
2. Lépés: (a gráf eleinek meghatározása)
Nyilat húzd egyik téglalaptól másik téglalaphoz, ha az adott
relációséma elsődleges kulcsa a másik relációséma kulcsának
része, vagy idegen kulcsként szerepel a másik relációsémában.
65
Adattárházak
Hogyan szerveznek
Minek szerveznek ?
• Adattárház jellemzői
• Nonvolatile (nem illékony,
• Subject oriented (téma-orientált): vagyis tartós): az
adott tárgyterületek köré, a adattárházban jelen lévő
meglévő és kapcsolódó adatokat adatok alapvetően
szem előtt tartva ("data driven") változatlanok. Ha a forrás-
tervezünk. rendszer adatai változnának,
az adattárház a változást
• Integrated (integrált): az adattárház megjegyezi a megfelelő
az említett tárgyterületekhez időbélyeggel (érvényességi
kapcsolódó adatokat az érintett idővel).
adatforrásokból szabványosított
• Time variant (időfüggő): Az
formára alakítva egy helyre gyűjti
adattárház ennek
és egységbe rendezve kezeli.
megfelelően az adatokat
időfüggően (időpontok és
időintervallumok szerint)
! Adattárház Adatbázis
tárolják és kezelik,
• Információs rendszerek típusai Hagyományos
Adatforrások
Workflow
Report
DW
OLTP
SOAP
WEB DSS
XML
XML OLAP
e-comm
Java DM
! Adattárház Adatbázis
• OLAP követelményrendszer (E.F.Codd, 1992: 12 pontos
követelményrendszer)
1. Multidimenzionális adatnézet
2. Transzparencia, áttekinthetőség
3. Elérhetőségek (jogosultságok) beállíthatósága
4. Állandó riportozási (lekérdezési) teljesítmény
5. Kliens-szerver architektúra
6. Általános dimenzió-fogalom, korlátlan dimenziószám
7. Dinamikus ritka-mátrix kezelés
8. Több konkurens felhasználó támogatása
9. Korlátozás nélküli dimenzióműveletek
10.Intuitív adatkezelés (a végfelhasználó számára)
11.Rugalmas riportozás (vagyis beszámoló-készítés, lekérdezés)
12.Korlátlan dimenziószám és aggregációs szint szám
• OLTP – OLAP tulajdonságainak összehasonlítása
• Adatkocka (Datacube): A
képzeletbeli n-dimenziós
szerkezet, amelyben az adatokat
egy n-dimenziós kocka pontjaiként
tároljuk, illetve kezeljük.
• Dimenziók (jellemzők)
• Dimenziók részletezettsége
Deduktív szakértői
rendszerek tipikus
kérdése
Hagyományos adatbázis
tipikus kérdése:
Egyszerű keresés vagy
lekérdezés Adatbányászat tipikus
kérdése
• Az adatbányászat alkalmazási • Piacelemzés és menedzsment
területei: Adatok: hitelkártya tranzakciók,
– Telekommunikáció: Elvándorlás előrejel- vásárlói kártyák, kedvezményre
zés, Díjcsomagok ajánlása; Árazás; jogosító utalványok, vásárlói
Ügyfélszolgálat optimalizálása panaszok,
– Pénzügy: Kockázatkezelés; Hitelbírálat; Célzatos marketing: hasonló
Tőzsdei predikció jellemzőkkel (érdeklődés, bevétel,
– Kereskedelem: Piacelemzés és menedzs- vásárlói szokások,…) rendelkező
ment, A csalás felderítése, Vásárlói kosár ügyfelek, keresett termékek
elemzése; Vásárlói útvonalak meghatározása, osztályozása
feltérképezése, Piaci kölcsönhatások elemzése:
– Biológia, orvostudományok: a termék eladások közötti
Gyógyszerkutatás; DNS elemzése asszociációk felderítése és
előrejelzése,
– Szövegbányászat
Cross-market analysis: termékek
– Web bányászata eladása közti kapcsolatok,
– Multimédia adatok bányászata előrejelzések
– Csillagászat Összefoglaló jelentések
– Térfigyelő kamerák készítése: Több-dimenziós
összefoglaló jelentés, Statisztikai
– Idősor és szekvencia adatok bányászata
információ (tendenciák és
szórások)
• Vállalat és Kockázat- • A csalás felderítése, szokatlan
menedzsment jelenségek vizsgálata
– Pénzügyi tervezés és – A módszer: klaszterezés és modell-tervezés a
vagyonértékelés: cash flow csalás és kivétel elemzéshez.
analízis, Igényelemzés,
– Alkalmazás: egészségügy, távközlés, szállítás,
Idősorok elemzése (pénzügyi
bankkártya műveletek,
tervezés, trendek elemzése)
Gépkocsi biztosítás: ütközési „gyűrű”,
– Erőforrás tervezés: A
bevételek és kiadások Pénzmosás: gyanús tranzakciók,
összehasonlítása, Egészségbiztosítás: Hivatásos betegek, orvosi
– Versenykövetés: A összefonódások, kör referenciák, Szükségtelen
versenytársak és a piaci ellenőrzés,
mozgások figyelése, A Távközlés: hívási csalások, hívás-listák
vevőosztályok kialakítása, elemzése (cél, időtartam, napszak), Az átlagtól
Árstratégia kialakítása. eltérő minták elemzése,
– Kereskedelmi forgalom elemzés: Az
elemzések azt mutatják, hogy a
forgalomcsökkenés 38%- a a csaló
alkalmazottak miatt következik be,
– Terrorelhárítás
• Az adatbányászat helye a tudásfeltárás folyamatában
• A tudásfeltárás folyamata:
– Az alkalmazási terület megismerése: Fontos ismeretek, az
alkalmazás céljának meghatározása
– Kiindulási adathalmaz kialakítása: adatválogatás
– Adattisztítás és előkészítés: (a folyamat 60%-át is kiteheti!)
– Adathalmaz csökkentése és kiválogatása: Fontos tulajdonságok,
dimenziók/változók csökkentése, redundanciák.
– Az adatbányászati módszer meghatározása: összegzés,
osztályozás, regresszió, asszociáció, klaszterezés
– Az adatbányászó algoritmusok kiválasztása:
– Adatbányászat: érdekes mintázatok keresése
– Mintázatok kiértékelése és megjelenítése: vizualizáció,
transzformáció, redundáns mintázatok elvétele, stb.
– A felfedezett mintázat használata
• Az adatbányászat tipikus feladatai
Rejtett kapcsolatok
Kiugró elemek
feltárása 88
elemzése
• Klaszterezés: csoportosítani
kell az egyedeket különböző
csoportokba az az elv alapján:
hasonló egyedek egy
csoportba tartozzon.
─ Hasonlóság meghatározása
─ Algoritmus kiválasztása
• Asszociációs Kapcsolat
feltárása: Fel kell tárni az
adatokban rejtett
asszociációs szabályokat az
egyedek között.
• Prediktív modellezés:
olyan modell építése,
ahol a célok a más
változók függvénye.
- Osztályozás: Prediktív
modell diszkrét
folyamatokra.
Pl. Döntési fa felépítése
Döntési fa felépítése
90
• Outlier elemzés: Rendhagyó,
kiugró elemek
meghatározása, elemzése.
91
Vége