You are on page 1of 92

SZÁMÍTÁSTUDOMÁNY

II. Adatkezelés

Dr. HUA NAM SON


I. Adatbázis rendszerek
• Adat, Információ, Tudás, Adatbázis , Információ
rendszer, Tudás menedzsment
• Adat és adatbázis szervezése
• Egyed-Kapcsolat modell
• Relációs adatbázis
II. Adattárház
• Alap fogalmák
• Adattárház komponensei, típusai
• Adattárházban történő adat modellezése
III. Adatbányászat
• Az adatbányászat fogalma,
• Az adatbányászat alkalmazási területei
• Az adatbányászat helye a tudásfeltárás folyamatában
• A tudásfeltárás folyamata
• Az adatbányászat tipikus feladatai
Az adatokat hogy kell Mi a
megszervezni különbség a Mi az adat?
technikai Mi a különbség az
szempontból? DB, DBMS és
DBS között? adat, információ és
a tudás között?

Az adatbázist hogyan
kell megtervezni,
leírni?

Mi az adattárház? Milyen a
feladata? Hogy működik?
Benne az adatokat hogy kell
megszervezni?
I. Adat, Információ, Tudás
• Adat:
─ bármi, ami körülöttünk van, valamilyen tulajdonsággal
rendelkezik, mástól megkülönböztethet. (Szűkebb
értelemben): Valamely célokra szolgáló, számítógépben tárolt
jelek.
─ a tények, jelenségek, fogalmak feldolgozásra alkalmas
reprezentációja,
─ az információ hordozója. (objektív fogalom)

• Információ: új ismeret, amelyet az


adatokból kapunk. (szubjektív
fogalom )

• Tudás: ismeretek együttese, melyből


új ismeretek következtethetők.
Adatbázis , Információ rendszer, Tudás menedzsment

• Az információs rendszer: • Az információs rendszerek alkalmazási


olyan számítógépes rend- területei:
szer, amely különböző –kereskedelem: raktár és megrendelés
forrásokból adatokat nyilvántartása, vevői menedzsment,
gyűjt, feldolgozza, tárolja
– kultúra, oktatás: könyvtári információs
és outputjával informá-
rendszerek, hallgatói adminisztráció,
ciót szolgáltat a mened-
zser döntéshozatalához. – közigazgatás: adónyilvántartások ,
• Az információk beszer- – közlekedés: helyfoglalási rendszerek,
zését, feldolgozását, tárol- – egészségügy: beteg nyilvántartás,
ását és szolgáltatását szakértői rendszer,
végző személyek, tevéke- – tudomány: szakadatbázisok,
nységek, valamint a funk- – posta: ügyfelek, számlák
ciók ellátását lehetővé nyilvántartása
tevő hardver- és szoftver- – vállalat: termelés irányítási rendszerek
eszközök összessége.
– mérnöki munka: tervezői rendszerek. 5
• Az információs rendszerek
1950-es évek TPS: adatfeldolgozás
1960-as évek MIS: menedzseri döntéshozatal támogatása, előre definiált jelentések
1970-es évek DSS: döntéstámogatás, egyedi problémák, MRP: termeléstervezés
1980-as évek EIS: legfelsőbb vezetés igényei szerint, ES: szakértői tanácsadás GDSS:
csoportos döntéshozatal
1990-es évek ERP: erőforrás-tervezés, BI: üzleti intelligencia, CRM: ügyfélkapcsolat-
kezelés, SRM: szállítókapcsolat-kezelés, SCM: ellátásilánc-kezelés, KM:
tudásmenedzsment
2000-es évek EPM: teljesítménymenedzsment
Business Suite: komplex üzleti csomagok, ágazati megoldások

6
• A tudás meghatározása:
• A tudás mindaz, amit tudunk. (Grant)
• A tudásnak három fő jellemzője van (Sveiby, Polányi alapján)
↘ nem algoritmizálható: A tudás szabályokkal soha le nem
írható.
↘ Egyrészt nyilvános, egyrészt személyes jellegű: Bár a tudás
jelentős mértékben közösségi szinten is létezik, de
legnagyobbrészt azonban az egyének által létrehozott és
fenntartott, érzelmek és szenvedélyek befolyásolják.
↘ egyrészt explicit jellegű, egyrészt ki nem fejezhető mélységben
rejlik.
• Adatokat, információkat könnyű megjegyezni, memorizálni, de
felhasználni őket már tapasztalat, hosszú tanulás kell.
• A tudás alátámasztottan igaz vélekedés. (Nonaka)

7
• A tudás típusai:

A tudás típusai Egyéni szint Szervezeti szint


Explicit Szakmai ismeretek, Adatbázisok, elemzések
funkcionális tudás tárgyi tudás
Tacit funkcionális Eljárások, Technológiai rendszerek
tudás alkalmazások,
„tapasztalati tudás”
Explicit integratív Szerepfelfogás, Vezetési és formális
tudás Rendszertudás koordinációs rendszerek
Tacit integratív Értékek, értelmezési Szervezeti értékrendszer
tudás sémák és rutinok

8
• A tudásmenedzsment: a szervezet szellemi tőkének növelését,
hatékony felhasználását célzó törekvések összessége.
• A tudásmenedzsment
komponensei:
– Ember
– Tudásszerkezet
– Folyamat
– Technológia
– Támogató rendszerek

• A tudásmenedzsment feladatai:
Felhalmozódott tudásvagyon
számbavétele, megőrzése,
felhasználása révén
– stratégiai célok elérésének segítése,
– teljesítmény és integráltság növelése
– Automatizmusok működése
 Adat és adatbázis szervezése
• Adattípus: Az adattípus alapján • Adathierarchia:
lehet tudni:
– Az összetettségéről,
– A műveleti jellemzőiről,
– A tárolási és értelmezési jellemzőiről
• Adat típusai:
– Konstans/Változó
─ Elemi (egész, valós, karakter, logikai, mutató)/Összetett (tömb,
karakterlánc, rekord, állomány)
─ Strukturált/ Strukturálatlan/Szemi Strukturált
─ Számszerű/Szöveges
─ Meta adat

• Adatelem:
– Adat azonosítója+Értéke+Mutató értéke 10
• Adat minőségi jellemzője: Egy aláírással
─ Hitelesség: az adat elvárt forrásból való származása, igazolt
dokumentum
a hitelességet biztosító, az adattól elválaszthatatlan
elem. Egy szakkönyv a
─ Érthetőség: Szabályok, amelyek biztosítják az adat teljes szakszavak
szótárával
egyértelmű értelmezését, jelentését.
─ Teljesség: Szabályok, társadatok, amelyek lehetővé
teszik az adat pontos értelmezését.
─ Időszerűség: Az adat jellemzői, amelyek Egy vállalat évégi
kapcsolódnak más objektum idődimenzióban jelentése
jelenlegi állapotával.
─ Bizalmasság: az adat jellemzője, amely szerint csak
az jogosultak ismerhetik meg, felhasználhatják. PIN kód, jelszó
─ Objektivitás: az adat jellemzője, amely megmutatja
pontos, valóságos helyzetet az adat képzését végző Műszerrel mért
adatok
személyek szubjektivitásától függetlenül.
11
• Információ mennyisége:
Shannon képlet:
H = - log₂p
p az adat előfordulásának valószínűsége,
H (bit) az adatból kinyerhető információ mennyisége.

Példa:
- Fémszázas feldobásának valószínűsége ½, azért abból
kinyerhető információ mennyisége 1 bit.
- Mennyi információt tartalmaz a magyar autórendszám?
- Ha nő a p, csökkent a H, és fordítva is igaz: Ritkább dologból
több információt lehet nyerni!

12
• Adattípus: Születési év / személyi igazolvány
─ Elemi / összetett adat
Autó(rendszám, szín, ár, gyártási év)
─ Specifikált adat,
– Konstans / Változó 2017 / X
– Szöveges adat / számszerű adat, XML fájl
– Strukturált adat / szemi-strukturált Szöveg
adat/ nem strukturált adat,
Neptun kód, Hallgatói név
– Azonosító adat / leíró adat
Áfa
– Származtatott adat
– Meta adat, Katalógus

• Adattípus: Az adattípus alapján meghatározható:


– Az adat összetettsége,
– Az adat műveleti jellemzője,
– Az adat tárolási és értelmezési jellemzője. 13
• Adat összetettsége
– Egyszerű adat (elemi).
– Összetett adat: Egyszerű adatokból áll elő
valamilyen szabály szerinti csoportképzéssel.
† Halmaz (tömb)
† Szekvencia (soros)
† Fa
† Irányítás nélküli háló
† Irányított háló

 Adat összetettsége  Adatstruktúra


Szövegszerű, nem- Hello Péter!
strukturált adat Jól vagy?

Strukturált adat
CD
1 Kraftwerk 2500 Zoli
4 Groove 3100 Laci
Szemi-strukturált adat
3 Enya 2700 Ani
6 Hobo 3600 Zoli
Metaadat: katalógus, adatszótár
<cím>Hello Péter!</cím>
<CD>
<eloado>Kratfwerk</eloado>
Katalógus Tartalom
<cím>Autobahn</cím>
CATALOG Táblázatok, nézetek, … <ar>2500</ar>
CONSTR- A táblázatokra és azok részeire
</CD>
AINTS definiált korlátozások, feltételek <CD><eloado>Groove
</eloado><ar>3100</ar>
SYNONYMS Szinonimák </CD> 15
• Adatmodellezés: az adatstruktúra leírására szolgáló modell
felépítése.
• Az adatmodellezés:
- Feladata: a valós világ vizsgálat alá vont részének
információs struktúráját feltárni.
o Az adatvédelem,
o Adatszervezési és adatelérési módok
kialakítása.
o A hardvertől, az adatbázis-kezelő rendszertől
illetve a felhasználói alkalmazásoktól való
függetlenség biztosítása.
- Cél: azoknak a tényeknek az azonosítása,
amelyeket az adatbázisban tárolni akarunk.
- Az adat modellezésben résztvevők: felhasználók,
elemzők.
 adatmodellezés  adatbázis modellezése
• Adatszervezési és adatelérési módok:
– A DBMS-ek az adatokat a külső tároló-kon lapokon tárolják,
amelyek a mérete rögzített, 1 - 32 Kbájt. Az adatátvitel a külső
tároló és a belső memória pufferei között laponként történik.
– Logikai szinten az DBMS-ek rekordokkal dolgoznak. Pl.
Rekordokat alkothatnak a tulajdonságai. Pl. egy személyi
nyilvántartásban egy egyéni személy adatai: név, lakhely,
születési év,…
– rekordok konkrét előfordulása: rekordok a konkrét értékekkel
rendelkező mezőivel.
– Az adatszervezési mód meghatározza, hogyan helyezzük el
fizikailag az adatokat.
– Az elérési mód mutatja meg azt, hogy valamilyen konkrét
esetben hogyan férünk hozzá az adatokhoz.

17
• Adattípusok, adatszerkezetek
• Az adatelem :

1001 Anna 1102 1212

Tárolási Mutató 1 Mutató2


Adatérték
cím értéke értéke

• Az adatelem komponensei:
─ tárolási cím: Megmutatja az adat-elhelyezési címét.
─ adat értéke:
─ mutatók értéke: Megmutatja az adott adattal kapcsolódó adat
tárolási címét.
• Adatszerkezetek: Az adatelemek összegsége az adatok közötti,
a mutatók értékek által meghatározott kapcsolatrendszerrel.

18
• Adatszerkezetek típusai
– Homogén adatszerkezetek: az adatelemek közti kapcsolatok szerint
csoportosítjuk,
– Heterogén adatszerkezetek: Nem az adatelemek közti kapcsolatok
szerint csoportosítjuk. Pl. rekord
• Homogén adatszerkezetek típusai
ᴥ Struktúra nélküli adatszerkezet: az adatelemek között nincs
kapcsolatok.
ᴥ Asszociatív adatszerkezet : Az adatelemek között lényegi kapcsolat
nincs. Valamilyen közös tulajdonság alapján összeállított halmazból
részismérvek alapján részhalmazokat választhatunk ki. Az adat-
elemek a tartalmuk alapján címezhetők. Pl. tömb, ritka mátrixok,
táblák. Elérési mód: Közvetlen vagy véletlen elérés
ᴥ Szekvenciális adatszerkezet : az adatelemek között van
egyértelműen meghatározott, egy-egy jellegű a kapcsolat: minden
adatelem két másik adatelemnek van egy megelőzője és egy
rákövetkezője, kivéve az elsőt és az utolsót. Pl. Egyszerű lista 19
ᴥ Hierarchikus adatszerkezet: az adatelemek között
fa alakú (körmentes), egy-több jellegű
kapcsolatrendszer van: egy gyökérelemből minden
elem elérhető Pl. Fa, összetett lista
ᴥ Hálós adatszerkezet: az adatelemek között gráf
alakú, több-több jellegű kapcsolatrendszer van:
minden adatelemnek van tetszőleges számú
megelőzője és rákövetkezője. Pl. gráf, irányított
gráf.

• Gyakori műveletek az adatszerkezetben:


‒ Törlés,
‒ Bővítés,
‒ Keresés,
‒ Rendezés,
‒ … 20
• Adatszerkezetek
– Vektor: fix hosszúságú adatokat fix
hosszúságú, egymást követő
helyekben tárolják. Mutató nem
szükséges.
– Lista: Az adatelem az adatértéken
kívül egy tárolási címmel és egy
mutatóval rendelkezik, amely az azt
követő adatelemre mutat.
– Multi lista: Az adatelem az
adatértéken kívül egy tárolási címmel
és több mutatóval rendelkezik, amely
az azt követő adatelemekre mutat.
– Strukturált adatfájl: Az adatok egy Strukturált adatfájl:
a nyilvántartás alapegysége az operációs rendszer
számára

strukturált szerkezetben tárolódnak 1. vevõ rekordja

1. vevõ kódja

2. vevõ rekordja
1. vevõ neve 1. vevõ címe 1. vevõ telefonszáma

Rekord:

és mutatók segítségével elérhetők.


a feldolgozás
2. vevõ kódja 2. vevõ neve 2. vevõ címe 2. vevõ telefonszáma
alapegysége az
alkalmazás
3. vevõ rekordja számára
3. vevõ kódja 3. vevõ neve 3. vevõ címe 3. vevõ telefonszáma

...

Mezõ
22
• Példa a szekvenciális szerkezetben történő módosításra (bővítésre
és törlésre): a mutató értékeket kell módosítani!

Az adatszerkezet a
módosítás előtt

A 2-es elem
bővítése a Listába

A 2-es elem
bővítése az Üres
hely-be

Jelmagyarázat:
: Tárolási cím
: Adatérték
: Mutató érték
: Törölt kapcsolat
: Aktív kapcsolat
• Adatbázis rendszer modellezése:

• Adatbázis rendszer részei:


- az adatbázis DB,
- adatbázis kezelő szoftver (DBMS),
- adatbázis adminisztrátor, és
- felhasználói környezet

24
• Adatbázis rendszer modellezése legfontosabb feladatai:
– Az adatvédelem
– Az adatfüggetlenség biztosítása,…
• Az adatvédelem:
– az adatbiztonság: a fizikai meghibásodások, program általi hibák,
logikai biztonságlerontása (szándékos megrontásból, helytelen
kezelésből származó anomália) elleni védekezés az adatok
minősége, pontossága, megbízhatósága, az adatintegráció
megőrzése érdekében.
– az adatintegritás: az adat helyességének, egységességének
megőrzése.
– a hozzáférési jog: az adathoz csak felhatalmazottak, jogosultak
férhetnek hozzá, módosíthatják.
• Az adat biztonságát veszélyezteti:
‒ redundancia: többszörös, felesleges adattárolás.
‒ anomália: adat módosítása, törlése során történő rendellenesség.
25
• Az adatbázis-kezelő rendszer a független felhasználói programok és a
független adatok tárolási mód révén lehetővé teszi az arra jogosult
felhasználóknak az adatbázishoz való hozzáférést.
• Az adatfüggetlenség biztosítása:
Az absztrakció szintjei: Az adatbázisok modellezése három szinten
történik:
– A külső (felhasználói) szinten: modellezni kell, hogyan látják az
egyes felhasználók az adatbázist.
– A középső (logikai, koncepciós) szint: fel kell építeni a rendszer
koncepcionális modelljét.
– A belső (fizikai) szint: a rendszer elemei fizikai elhelyezésének
leírása.

• Az adatfüggetlenség: A három szinten


megtervezett modellek között ne legyen
semmi összefüggőség!
• Integrált és osztott adatbázis rendszer
─ Integrált adatbázis: A különböző
felhasználócsoport adatai minimális
redundanciával, együttes tárolása
központilag ellenőrizhető módon.
─ Osztott adatbázis: Az osztott adatbázis
különböző helyeken lévő, egymással
adatátviteli hálózattal összekapcsolt helyi
adatbázisokból épül fel.

– Replikáció: Az adatok többszörözése, több helyen való tárolása.


– Horizontális adatmegosztás: Az egyed-típus egyedeit különböző
helyeken tárolhatják, de egy egyed-előfordulás (rekord) minden
eleme egy helyen található.
– Vertikális adatmegosztás: Az egyedtípus egyes mezőit különböző
helyeken tárolják. A teljes rekordot több helyi adatbázisból kell
összeállítani. 27
• Integrált adatbázis előnyei és hátrányai:
Előnyök Hátrány
– Az adatok centralizáltan – Nincs tökéletes integráltság.
ellenőrizhetőek. – Az adattárolás teljessége az
– Az adatok közti logikai ellen- adatbázis bonyolultságával jár.
tmondásai, a redundanciák, – Az adatbázis működtetéséhez
anomáliák csökkenthetők. ahhoz értő, speciális személyzet
– Az illetéktelen hozzáféréstől szükséges.
való adatvédelem központ- – A központ meghibásodásakor min-
ilag jobban megvalósítható. den információszolgáltatás leáll.
– egységes felhasználása – nagymértékben megnövekszik az
megvalósítható. adatátviteli vonalak terhelése.
– Az adatok közti kapcsolatok – az adatoktól távol lévő
jobban értékelhetők. felhasználók kevésbé érzik
– Teljes vállalat szempontjá- „sajátjuknak” a központban tárolt
ból a feldolgozás adatokat.
hatékonyabb. 28
• Osztott adatbázis jellemzői:
– A felhasználó nem tudja, hogy a helyben tárolt adatokkal vagy más
csomópontjából való adatokkal dolgozik.
– A felhasználó számára közömbös, hogy az adat melyik példányával
dolgozik.
– Mindegyik csomópont azonos rangú (bármelyik bármelyikkel
azonos módon léphet kapcsolatba).
Hátrányok: Előnyök:
– A rendszer és adminisztrációja – az adatátviteli vonalak
bonyolult terhelése csökken.
– Inhomogén adatbázisoknál – A teljes adatbázis
adatátvitelkor problémák adódhatnak. felépítése, a
– A csomópont csak rendszerben meghibásodásának
működik. helyreállítása
– A redundáns, optimális adattárolás és modulárisan történhet.
adatbiztonság közti konfliktusa.
• Adatbázis kezelő rendszer (DBMS): olyan programrendszer, amely
biztosítja:
─az adat rendezését,
─az adatbázishoz való hozzáférést,
─az adatbázis karbantartási műveleteinek végrehajtása.
• DBMS struktúrája Kommunikációs réteg CFG gráf
utasításértelmező DAC mátrix
Hozzáférés ellenőrzés ECA modul
Aktív szabály ellenőrző QOG gráf
Optimalizáló QEP gráf
Végrehajtó TM modul, zárolás
Tranzakció vezérlő Recovery modul
Naplózó modul
read(), write()
IO rendszer
30
• Az adatbázis kezelő rendszerek osztályozása: nem a belső
felépítésen, hanem a DBMS-nek a fejlesztő, a felhasználó felé
mutatott képén alapszik:
– Adatmodell
– felhasználók száma:
 Egy-felhasználós rendszerek
 Több-felhasználós rendszerek
– DBMS csomópontok száma:
 egy gépen futó DBMS,
 osztott DBMS, amely több csomóponton is fut egyidejűleg.
– támogatott hardware és OS típusok
• Az adatbázis-kezelő rendszerek feladatai, vele szemben
támasztott követelmények:
1) A legalapvetőbb feladatok megoldása (bevitel, mentés, tárolás,
módosítás, törlés, lekérdezés, kódolás,).
2) Adatvédelem (adatbiztonság, rendszerösszeomlás elleni védelem,
adatintegritás megőrzése, hozzáférési jogok alkotása),
3) Program és adatfüggetlenség (logikai és fizikai adatfüggetlenség).
4) Osztott hozzáférés (több felhasználó egyidejű hozzáférésének
biztosítása)
5) Absztrakt adatstruktúrák.
6) Titkosság: Nem minden felhasználó fér hozzá az adatokhoz.
7) Konzisztencia: Az adatok nem ellentmondóak egymásnak.
8) Szinkronizáció: az egyidejűség esetén az adatok konzisztensek.

• Ismertebb adatbázis-kezelő rendszerek:


DB2, ORACLE, INGRES, MS ACCESS, SYBASE, CODASYL, mySQL 32
• Adatbázis modellezés

• Adatbázis (DB) fogalma:


– összetartozó és kapcsolódó adatok rendszere.
– Számítógépen hosszú távon, valamely célokra tárolt adatok
szervezett rendszere.
– egy integrált adatrendszer, mely több különböző egyed
előfordulásainak adatait adatmodell szerinti struktúrában,
perzisztens módon tárolja a kapcsolat leíró elemek mellett a meta-
adatokkal együtt, melyek a hatékonyság, integritásőrzés, az
adatvédelem biztosítását szolgálják.

• A DB létrehozásához szükséges kellék:


– Adatszerkezetet leíró nyelv (Data Definition Language - DDL)
– a fizikai szerkezetet magvalósító nyelv (Storage Definition
Language - SDL)
– az adatkezelő nyelv (Data Manipulation Language - DML). 33
• Az adatbázis felépítésének a lépései:
• A logikai adatbázis-
- Követelmény-, rendszerelemzés modellezés lépései:
- Tervezés, 1. Egyedek azonosítása.
- Koncepcionális adatbázis modell- jének 2. Kapcsolatok azonosítása.
elkészítése, normalizálása, DBMS
3. Információgyűjtés az
rendszer kiválasztása
egyedek és a kapcsolatok
- adatmodell leírása, tulajdonságairól.
- Implementálás, parancs kódolás 4. Egyedtulajdonságok
- A fizikai adatmodell tervezése meghatározása.
- tesztelés 5. Egyed-kapcsolat diagram
- karbantartás első változatának
elkészítése.
Az adatbázis tervezésében fontos:
6. Egyed-kapcsolat diagram
– Az adatvédelem, ellenőrzése, felbontási
– Az adat tárolásának és kezelésének szint azonosítása.
optimalizálása.
• Adatbázis logikai modellezése
• Egyed: Valós világ elemei (tárgy, jelenség, esemény,…)
absztrakciója.
• Egyedtípus: Hasonló szerkezetű egyedek közös típusa.
• Egyed-előfordulás: konkrét egyed konkrét attribútum-értékeivel.
• Attribútum (Tulajdonság ): az egyed valamely jellemzője.
• Attribútum osztályozása:
─ Azonosító tulajdonság: azonosítja az egyedet. Pl. személyi szám
─ Leíró tulajdonság: leírja az egyed valamely jellemzőjét. Pl. Név.
─ Kapcsoló tulajdonság: leírja az egyedek közötti kapcsolatát. Pl.
Születési hely.
─ Egyszerű (atomi)/Strukturált vagy összetett
─ Egyértékű /Több értékű
─ Tárolt (fizikai háttértárolón letárolt adat)/Származtatott
• Attribútum értéke: Az attribútum értelmezési tartományához
tartozó érték.
• Kapcsolat: az (különböző egyedtípusú) egyedek közötti viszonya.
• Kapcsolattípus: A kapcsolat jellemzője, amely szerint
─ Egy-az-egyhez (1-1): az egyik egyedtípus egyede kapcsolódhat a
másik egyedtípus egyetlen egyedéhez, és fordítva.
Pl. osztály-osztályfőnök.
─ Egy-a-többhöz (1-N): az egyik egyedtípus egyede kapcsolódhat a
másik egyedtípus több egyedéhez, de fordítva nem igaz.
Pl. osztály-tanuló.
─ Több-a-többhöz (N-M): az egyik egyedtípus egyede kapcsolódhat
a másik egyedtípus több egyedéhez, és fordítva is igaz.
Pl. osztály-tanár.
PKI12Z Neptun kód

Erika Név

1992 Szül-év

Ford Típus

ILP162 Rendszám

2000 Gy-év

110 Lóerő

Egyed Egyedtípus
Tulajdonság Attribútum

• Attribútum osztályozása:
– Egyszerű (atomi)  Strukturált vagy összetett
– Egyértékű (tulajdonság egy értéket vehet fel)  Több értékű
– Tárolt (fizikai háttértárolón letárolt) adat  tárolt adatokból
származtatott adat 37
• E/K-modell (Entity-Relationship Model): létrehozandó adatbázis
logikai felépítésének szemléletes, adattípusokat, köztük fennálló
kapcsolatokat ábrázoló diagrammal történő leírása.
• E/K-modell szimbólumai
• E/K diagram
• Relációs adatmodell (Codd, 1971)

• Relációs adatmodell elemei:


─ Reláció: adattábla
─ Relációs adatmodell: adattáblák rendszere.
─ Rekordok: a táblázatok sorai
─ Attribútumok: a táblázatok oszlopai
─ Mezők: a sor és oszlopok találkozása, ahol tárolják az attribútum
értékét.

 Egy reláció nem tartalmaz két azonos sort, két azonos oszlopot.
Reláció Hallgatók
Attribútumok (Neptun_kód,Név, Neptun_ Név Szül_hely Szül_idő
Szül_hely, Szül_idő) kód
Attribútum értékei (Ádám)
101 Ádám Bud 1991
Attribútum értéktartománya
(101,102,103,104) 102 Béla Bud 1990
Rekord 103 Béla Szeged 1990
mező
104 Erika Bud 1991

Relációséma:
Hallgató(Neptun_kód,Név, Szül_hely, Szül_idő)

Neptun_kód Név Szül_hely Szül_idő


• Kulcs Szuper kulcs:
1. (Szuper) Kulcs: attribútumok halmaza, {Neptun_kód, név},
amelyik egyértelműen azonosítja a reláció {Neptun_kód}, {Szsz},
összes rekordjait. {Név, Szak}.
2. Minimális kulcs: Olyan kulcs, melyben Nem kulcs: {Név}.
nincs valódi kulcs-részhalmaz.
Elsődleges kulcs:
3. Elsődleges kulcs (Primary key): Olyan {Neptun_kód}
kulcs, melyet a DB tervezői kiválasztják a
sorok azonosítására. Minimális kulcs:
4. Idegen kulcs (Foreign key): Olyan {Neptun_kód}, {Szsz},
attribútum halmaz, mely egy másik {Név, Szak}.
relációban elsődleges kulcsként szerepel. Idegen kulcs: {Szak}
Hallgató
Neptun_kód Név Szsz Szak Szak
101 Ádám 10123 Info Szak Tanszék
102 Béla 12001 Info Info Gazdinfor
103 Béla 32133 Mat Mat Term. tudomány
• Funkcionális függőség: A R(A1; A2;
....; An) relációban Q attribútumok
halmaza funkcionálisan függ P-től,
P Q, ha bármelyik két sor, amelynek
az értékei P-nél egyeznek meg, annak
értékei megegyeznek Q-nél is.
Hallgatói_Cím

• Példa: Neptun_kód Név Szsz Cím

Neptun_kód {Név, Cím}

{Név, Cím}  Neptun_kód 101 Ádám 10123 A

Alap_bér  SZJA, 102 Béla 12001 A

{Szállító_kód, Áru}  Ár 103 Béla 32133 B

Név  Cím
Normál formák és Normalizálás Ügyfél
• Normál forma: Amelyben a Azonosít Név Szül_hel Szerződés
reláció kevesebb redundanciát és ó y száma
anomáliát tartalmaz . 1010 Ádám Bud 01991,
02013
1020 Béla Bud 01990
• 0- Normál forma (0NF): 1030 Béla Szeged 01995
Bármelyik reláció (amely 1040 Erika Bud 02015
tartalmazhat redundanciát és
anomáliát). Nem elemi
 Egy reláció attribútum-értéke adat
lehet elemi, összetett vagy
strukturált.

• 1- Normál forma (1NF): az attribútumok értéke elemi.


Ha valamely nem-kulcs attribútum nem csak elsődleges
kulcstól, hanem egy részhalmazától függ?
44
• 2- Normál forma (2NF): a
reláció 1NF-ben van és
minden nem-kulcs attribútum
teljesen, funkcionálisan függ
az elsődleges kulcstól. A részleges függősséget
Ha valamely nem-kulcs ki kell zárni
attribútum tranzitíven függ az
elsődleges kulcstól.

• 3- Normál forma (3NF): a reláció


2NF-ben van és minden nem-
kulcs attribútum funkcionálisan
és teljesen függ az elsődleges A tranzitív függősséget
kulcstól és csak attól. (Nincs ki kell zárni
tranzitív függősség).

45
• Boyce-Codd Normál forma (BCNF vagy 3.5NF): a reláció 3NF-
ban van és ha benne teljesül egy nem-triviális funkcionális
függőség XY akkor X egy szuperkulcs.

• Három fajta anomália:


– Hozzáadási anomália
– Módosítási anomália
– Törlési anomália

46
• Normalizálás: A felbontási módszer, mely révén:
- csökkent a redundancia és anomália,
- csökkent az adatok tároló-igénye, és
- Logikailag áttekinthetőbb az adatbázis
• Normalizálási módszer: Az adattáblák több lépésben történő,
ismétléses felbontása.

 Normalizálás lépései
1. Lépés: A kulcs meghatározása
2. Lépés: A függési diagram megrajzolása
3. Lépés: A reláció normalizálási
szabályok alkalmazásával történő
felbontása
4. Lépés: Az 1. lépés ismétlése a 3.
lépésben kapott relációkra.
47
Példa:
• A Szállítók reláció nincs 1NF-ben: Szállítók
700/900 nem elemi érték Név Cím Áru Ár
• CímÁru mert ha két sor Ádám Bud USB 700/ 900
megegyezik a Cím-nél, akkor Béla Bud USB 700
megegyezik az Áru-nál. Béla Érd Keyboard 1500
• Név  Cím nem igaz, mert 2. és 3.
sor megegyezik a Név-nél, de nem
egyezik meg az Cím-nél.

• Normál formák hierarchiája

48
 Normalizálás
• 0NF1NF:
Sokszorozzuk a reláció sorait, ahol
összetett attribútumérték van. Pl.
Szállítók {Szállítók 1, Szállítók 2}

• 1NF2NF:
Ha R relációban PQ függőség
megsérti a 2.NF feltételeit, azaz
P1Q, P1 P, akkor R-t két
kisebb relációra bontjuk:
R és

49
• Példa:
• A Szállítók2(Név,Cím,Áru,Ár) relációban {Név, Cím} egy kulcs
halmaz.
• Név,Cím Áru, Ár de Cím Áru, azért Áru funkcionálisan (de
részlegesen) függ {Név,Cím}-től.
• Azért a Szállítók2(Név,Cím,Áru,Ár) relációt a Szállítók3(Cím,Áru,Á)
és Szállítók4(Név,Cím) relációkra kell bontani.

50
 2NF3NF: Ha R(P,Q,S) relációban teljesül a tranzitív függőség
P  Q és Q  S, akkor azt lehet megszüntetni az R felbontásával:
R {R1, R2}
Normalizálás eredménye
Normalizálás
Normalizálás előtt (tranzitív függőségek R1
P Q
megszüntetése)
R
P Q S
R2
Q S

• Példa:
Szállítók3(Cím,Áru,Ár) -ban teljesül a tranzitív függőség:
CímÁruÁr.
Ha a Cím attribútum az elsődleges kulcs, akkor Szállítók3 nincs 3.NF-
ben, mert másodlagos Ár tranzitíven függ a Cím-től.
A tranzitív függőséget meg kell szüntetni. Bontjuk: Szállítók3
Szállítók5(Cím,Áru) és Szállítók6(Áru, Ár) relációkra. 51
 3NFBCNF:
Ha R(P,Q,S) relációban teljesül a függőség Q  S, ahol Q nem kulcs
, akkor azt lehet megszüntetni az R felbontásával: R {R1,
R2}
Példa: Az R(A, B, C, D, E)-ben teljesülnek a
függőségek: F={AC, BD, CDE},
R nem 2NF: C nem függ teljesen a kulcstól
R nem 3NF: ABCDE tranzitív függőség R
R nem BCNF: AC -ben A nem kulcs.

Normalizálás:
1) R R1(A, B, C, D), R2(C, D, E) :
tranzitív füg- gőség megszüntetése, R1
nem 2NF, R2 az NF.
2) R1(A, B, C, D) R11(A, C), R12(B, D)
Kétszer 1.NF2.NF szabály alkalmazása
Normalizálás eredménye:
52
Példa:
1) Lépés: Kulcs
{B-az, Betegség, Gyógy szer}
2) Lépés: A diagram megrajzolása
3) Lépés: A reláció felbontása
(1.NF2.NF szabály
alkalmazva)
53
A
 Példa: Normalizálás lépései:
1. Elsődleges kulcs meghatározása,
{B-az, Betegség, Gyógyszer}
2. Lépésenként a táblák normálformába
való hozása.

• 1NF2NF:
A B, C, D

• 2NF3NF:
C E, F

A Betegség Oszt_az  Oszt_név, Főorvos


tranzitív függőség megszüntetése

Normalizálás eredménye:
A B,E,F,D 54
• Példa: 0.  1. NF-ra hozás
(összetett adat megszüntetése): Áru-kód Áru Ár
101 TV 140000
Áru-kód Áru Ár
102 Pendrive 1900
101 TV 140000
102 Pendrive 1900
2500 Áru-kód Áru Ár
101 TV 140000
102 Pendrive 2500

• Példa: 1.  2. NF-ra hozás (részleges


függősség megszüntetése): Áru-kód Település Ár
101 Budapest 14000
Áru-kód  Szállító 102 Budapest 1900
függősség megszüntetése 102 Debrecen 2500

Áru-kód Település Ár Szállító


101 Budapest 14000 Béla Áru-kód Szállító
102 Budapest 1900 András 101 Béla
102 Debrecen 2500 András 102 András
56
• Példa: 2.  3. NF-ra hozás (tranzitív függősség
megszüntetése)

Szállító-kód  Áru-Kód  Raktár


Tranzitív függősség megszüntetése Szállító- Cím Áru-
kód Kód
001 Budapest A1
Szállító- Cím Áru- Raktár
kód Kód 002 Debrecen A1
001 Budapest A1 R1 … … …
002 Debrecen A1 R1 050 Szeged A1
… … … … 051 Debrecen A2
050 Szeged A1 R1 … … …
051 Debrecen A2 R2 100 Budapest A2
… … … …
100 Szeged A2 R2
Áru-Kód Raktár
A1 R1
A2 R2
57
58
• Példa: Normalizálja az alábbi táblát!
1. lépés: Elsődleges kulcs meghatározása
2. lépés: Függősség meghatározása
Részleges f. Szállító-kód Cím, Áru-Kód  Raktár
Tranzitív f. Áru-Kód  Raktár  Raktár vezető
3. lépés: „Zavaró” függősség megszüntetése

59
2
3

50 → 46
60
2
3

61
4. ER-modellből relációs modellbe leképezések
ER- Relációs ER- Relációs
modellben modellben modellben modellben
Egyedtípus Reláció (táblázat) Kapcsolattípus reláció kiegészítése idegen kulccsal VAGY
kapcsolatreláció
Egyed- rekord (sor) Kapcsolattípus egyedreláció mezője VAGY kapcsolatreláció
előfordulás attribútuma mezője
Attribútum mező (oszlop) 1:1 kapcsolattípus relációk egyesítése VAGY reláció kiegészítése
idegen kulccsal VAGY kapcsolatreláció
Összetett Minden kompon- 1:N reláció kiegészítése idegen kulccsal
attribútum ensből külön mező kapcsolattípus VAGY kapcsolatreláció
Kulcs- elsődleges kulcs M:N kapcsolatreláció a résztvevők elsődleges
attribútum kapcsolattípus kulcsából képzett összetett kulccsal
 Példa: Oktató(O-Azonosító , O-Név, T-Kód) Tanszék(T-Kód, T-név)

 Példa:
Óra(Neptun-Kód,T-Kód, Hányóra, Kredit) Hallgató(Neptun-Kód, H-Név)

Tanszék(T-Kód, T-név)

63
Példa (Mintafeladat): Pótolja az egyedtípusok neveit az ER diagramban az adott
relációk alapján
Adott:
1. PARTNER (Partnerkód, Partnernév)
2. PARTNERCÍM (Címazonosító, Partnerkód, Cím)
3. TERMÉK (Termékkód, Terméknév, Vtszám)
4. VTSZ (VTszám, Megnevezés)
5. TERMÉKÁR (Árazonosító, Termékkód, Ártípus, Egységár, Devizanem,
Mértékegység)
6. ÁR-ÁTSZÁMÍTÁS (Árazonosítóról + Árazonosítóra, Arány)
/Az Árazonosítóról és Árazonosítóra az Árazonosító szerepnevei.
7. ÁFAMÉRTÉK (VTszám + Érvényesség kezdete, Érvényesség vége, ÁFA mérték)
8. SZÁMLAFEJ (Számlasorszám, Partnerkód, Címazonosító, Számlatípuskód, Kiállító
törzsszáma, Kiállítás dátuma, Első nyomtatás dátuma, Nyomtatott példány,
Teljesítés dátuma, Fizetési határidő, Fizetési mód) /A Kiállító törzsszáma a
Törzsszám szerepneve.
9. FEJSZÖVEG (Számlasorszám + Szövegkód, Szöveg)
10. ALKALMAZOTT (Törzsszám, Név)
11. SZÁMLATÉTEL (Számlasorszám + Tételsorszám, Termékkód, Mértékegység,
Mennyiség, Tételérték)
12. TÉTELSZÖVEG (Számlasorszám + Tételsorszám + Szövegsorszám, Tételszöveg)
1. Lépés: (a gráf csúcsainak meghatározása)
Ahány relációséma van, annyi téglalap van.
2. Lépés: (a gráf eleinek meghatározása)
Nyilat húzd egyik téglalaptól másik téglalaphoz, ha az adott
relációséma elsődleges kulcsa a másik relációséma kulcsának
része, vagy idegen kulcsként szerepel a másik relációsémában.

65
Adattárházak

Dr. Hua Nam Son


1. Adattárház fogalma
• Meghatározás
• Követelmények és feladatok
• OLTP és OLAP rendszerek
2. Adattárház komponensei, típusai
• Adattárházban történő adatáramlása
• Speciális adattárház típusok: Data Mart (adatpiac),
Operational Data Store (ODS), Extraprise Data
Warehouse, Virtuális adattárház
3. Adattárházban történő adat modellezése
• Adatkocka
• Adatkockán végzendő műveletek: Aggregáció (roll up),
Lefúrás (drill down), Elforgatás (pivoting), Szelekció
(selection, filtering), Szeletelés (slicing and dicing).
• Adattárház fogalma

Az adattárház (DW): egy Az adattárház (DW): A


tény-orientált, integrált, szervezet adatainak tároló és
tartós és idő-változó működési helye, ahol az
adatrendszer, amelyet operatív adatokat speciális
szervezik a menedzsment struktúrába szervezik a
döntéshozatal támogatására. lekérdezés, elemzés
(W.H. Inmon) teljesítésére, kényelmes
használatra.

Hogyan szerveznek

Minek szerveznek ?
• Adattárház jellemzői
• Nonvolatile (nem illékony,
• Subject oriented (téma-orientált): vagyis tartós): az
adott tárgyterületek köré, a adattárházban jelen lévő
meglévő és kapcsolódó adatokat adatok alapvetően
szem előtt tartva ("data driven") változatlanok. Ha a forrás-
tervezünk. rendszer adatai változnának,
az adattárház a változást
• Integrated (integrált): az adattárház megjegyezi a megfelelő
az említett tárgyterületekhez időbélyeggel (érvényességi
kapcsolódó adatokat az érintett idővel).
adatforrásokból szabványosított
• Time variant (időfüggő): Az
formára alakítva egy helyre gyűjti
adattárház ennek
és egységbe rendezve kezeli.
megfelelően az adatokat
időfüggően (időpontok és
időintervallumok szerint)
! Adattárház  Adatbázis
tárolják és kezelik,
• Információs rendszerek típusai Hagyományos
Adatforrások

Virt. Műveleti rend.


Információs Döntési
vállalati
rendszer rendszer
Rendszer

Workflow
Report
DW

OLTP
SOAP
WEB DSS
XML
XML OLAP
e-comm
Java DM

! Adattárház  Adatbázis
• OLAP követelményrendszer (E.F.Codd, 1992: 12 pontos
követelményrendszer)
1. Multidimenzionális adatnézet
2. Transzparencia, áttekinthetőség
3. Elérhetőségek (jogosultságok) beállíthatósága
4. Állandó riportozási (lekérdezési) teljesítmény
5. Kliens-szerver architektúra
6. Általános dimenzió-fogalom, korlátlan dimenziószám
7. Dinamikus ritka-mátrix kezelés
8. Több konkurens felhasználó támogatása
9. Korlátozás nélküli dimenzióműveletek
10.Intuitív adatkezelés (a végfelhasználó számára)
11.Rugalmas riportozás (vagyis beszámoló-készítés, lekérdezés)
12.Korlátlan dimenziószám és aggregációs szint szám
• OLTP – OLAP tulajdonságainak összehasonlítása

Tulajdonság OLTP OLAP


Általános

Orientáció, Cél Tranzakciók hatékony Adatanalízis


tárolása, végrehajtása
Jellemzői Művelet Adatmódosítás Adatlekérdezés
Feladat Napi folyamatok követése Döntéstámogatás,
információszolgáltatás
Hangsúly Adatbevitelen Információ- (tudás-) kinyerésen
Prioritás Állandó rendelkezésre állás, Rugalmasság, felhasználói
megbízhatóság önállóság
Szervezés

Adatbázis Relációs és OO Adatkocka


Adatvédelem Adatvesztés elleni védelem Adatvesztés elleni védelem
Normalizálás Normalizált Nem normalizált
Tulajdonság OLTP OLAP
Adat

Adatforrás Homogén heterogén


Adattárolás Aktuális, up-to-date Történeti, archív adatok
Összegzett adatok Nem jellemző, részletes Összegzett, egyesített adatok
Adatkezelés Alkalmanként tizes Egyszerre akár milliós
nagyságrendű rekordszám
Adatok nézete Relációs multidimenziónális
Felhasználó

Felhasználó Vállalati Döntéshozók


adminisztrátorok
Felhasználói hozzáférés Olvasás / írás Jellemzően olvasás
Párhuzamos szolgáltatás Nagy konkurencia Kis konkurencia
Felhasználók száma Viszonylag sok Néhány, közép- és
felsővezetők
Az adattárház rendszerek főbb funkciói

1) több különböző, heterogén szerkezetű OLTP adatforrásból bejövő


adatok egységesítése, ellentmondás-mentessége.
2) a hagyományos OLTP rendszerekhez képest nagyságrenddel
nagyobb adathalmazt hatékony módon kezelése.
3) a lekérdezési műveletek hatékony végrehajtására a
döntéstámogatás céllal optimalizálása.
4) az adatok tárolása egy felhasználóbarát, a felhasználó
szemléletmódjához közelálló struktúrában.
5) felhasználóbarát felületekkel a bonyolultabb statisztikai jellegű,
elemzési és adatbányászási műveletek támogatása .
6) a működési környezet paraméterei rugalmasan beállítása.
7) az adatok múltbeli verziói megőrzése.
• Adattárház komponensei
Adattárház speciális típusai
• Adatpiac (Data mart - DM): Egy lokális, konkrét feladatot ellátó,
kisebb adattároló és analizáló egység, amely valamely
felhasználói csoportja, szakterülete számára készült és
önmagában adattárház funkciókat láthat el.
• Működési Adat Tároló (Operational Data Store - ODS): a
tranzakciós adatok egy olyan nagy gyűjtőhelye, amit az adatok
egyesítésére és tisztítására használhatunk. Az ODS-t akkor az
adattárháznak tekintjük, ha vállalati szinten lát el adatgyűjtő,
adatszolgáltató funkciókat.
• Extraprise Data Warehouse: olyan világméretű adatgyűjtő hely,
ahol összefutnak Business to Business (B2B), Business to
Customer (B2C) adatok.
• Virtuális adattárház: olyan rendszer, amely csak megfelelő
felületet biztosít a forrás adatok nézetére.
• Adatmodellezés, adatmodellek

• Adatkocka (Datacube): A
képzeletbeli n-dimenziós
szerkezet, amelyben az adatokat
egy n-dimenziós kocka pontjaiként
tároljuk, illetve kezeljük.
• Dimenziók (jellemzők)
• Dimenziók részletezettsége

• A tervezőknek fontos feladata az adatkocka dimenziói, ill. a


dimenziók részletezettségének a meghatározása!
• Tényadatok (mutatószámok), ill. aggregált adatok egyaránt
tárolhatók az adatkockában!
• Műveletek az adatkockán :
─ Aggregáció (roll up): lépés felfelé a részletezettség
hierarchiában (Aggregált adat előállítása a részletesebb
adatokból).
─ Lefúrás (drill down): lépés lefelé a részletezettség
hierarchiában (részletesebb adat előállítása az aggregált
adatokból).
─ Pivoting: Adatlekérdezés az adatkocka elforgatásával
─ Szelekció (selection, filtering): Adatlekérdezés a konkrét
jellemzők alapján.
─ Szeletelés (slicing and dicing): Adatlekérdezés az adatkocka
szeletének kiválasztásával, a részkocka kiválasztásával
ADATBÁNYÁSZAT
1. Az adatbányászat fogalma,
2. Az adatbányászat alkalmazási területei
3. Az adatbányászat helye a tudásfeltárás
folyamatában
4. A tudásfeltárás folyamata
5. Az adatbányászat tipikus feladatai
• Az adatbányászat fogalma: nagy
mennyiségű
–Fontos (nem triviális, implicit, korábban Hol? adat-
ismeretlen és hasznos) tudás kinyerése halmazban
adat
nagy adattömegből.
információ
–Az adatbányászat a nagy mennyiségű Mit?
adat
adatokban rejlő információ
félautomatikus feltárása mesterséges Milyen feltárás
feladat? adat
intelligencia algoritmusok
alkalmazásával (Wikipédia) mesterséges
Milyen
–mesterséges és a humán intelligencia módszer? intelligencia
ötvözése . algoritmusok

• Nem tartozik az adatbányászathoz:


─ Egyszer keresés vagy lekérdezés,
─ Deductive szakértő rendszerek
─ Kis statisztikai programok
A betegek 95% -ánál ha
mutatkozik az A tünet,
akkor B betegséget
szenved a beteg.
Pitinél most mutatkozik
A tünet, milyen
betegsége lehet?

Deduktív szakértői
rendszerek tipikus
kérdése

Hagyományos adatbázis
tipikus kérdése:
Egyszerű keresés vagy
lekérdezés Adatbányászat tipikus
kérdése
• Az adatbányászat alkalmazási • Piacelemzés és menedzsment
területei: Adatok: hitelkártya tranzakciók,
– Telekommunikáció: Elvándorlás előrejel- vásárlói kártyák, kedvezményre
zés, Díjcsomagok ajánlása; Árazás; jogosító utalványok, vásárlói
Ügyfélszolgálat optimalizálása panaszok,
– Pénzügy: Kockázatkezelés; Hitelbírálat; Célzatos marketing: hasonló
Tőzsdei predikció jellemzőkkel (érdeklődés, bevétel,
– Kereskedelem: Piacelemzés és menedzs- vásárlói szokások,…) rendelkező
ment, A csalás felderítése, Vásárlói kosár ügyfelek, keresett termékek
elemzése; Vásárlói útvonalak meghatározása, osztályozása
feltérképezése, Piaci kölcsönhatások elemzése:
– Biológia, orvostudományok: a termék eladások közötti
Gyógyszerkutatás; DNS elemzése asszociációk felderítése és
előrejelzése,
– Szövegbányászat
Cross-market analysis: termékek
– Web bányászata eladása közti kapcsolatok,
– Multimédia adatok bányászata előrejelzések
– Csillagászat Összefoglaló jelentések
– Térfigyelő kamerák készítése: Több-dimenziós
összefoglaló jelentés, Statisztikai
– Idősor és szekvencia adatok bányászata
információ (tendenciák és
szórások)
• Vállalat és Kockázat- • A csalás felderítése, szokatlan
menedzsment jelenségek vizsgálata
– Pénzügyi tervezés és – A módszer: klaszterezés és modell-tervezés a
vagyonértékelés: cash flow csalás és kivétel elemzéshez.
analízis, Igényelemzés,
– Alkalmazás: egészségügy, távközlés, szállítás,
Idősorok elemzése (pénzügyi
bankkártya műveletek,
tervezés, trendek elemzése)
Gépkocsi biztosítás: ütközési „gyűrű”,
– Erőforrás tervezés: A
bevételek és kiadások Pénzmosás: gyanús tranzakciók,
összehasonlítása, Egészségbiztosítás: Hivatásos betegek, orvosi
– Versenykövetés: A összefonódások, kör referenciák, Szükségtelen
versenytársak és a piaci ellenőrzés,
mozgások figyelése, A Távközlés: hívási csalások, hívás-listák
vevőosztályok kialakítása, elemzése (cél, időtartam, napszak), Az átlagtól
Árstratégia kialakítása. eltérő minták elemzése,
– Kereskedelmi forgalom elemzés: Az
elemzések azt mutatják, hogy a
forgalomcsökkenés 38%- a a csaló
alkalmazottak miatt következik be,
– Terrorelhárítás
• Az adatbányászat helye a tudásfeltárás folyamatában
• A tudásfeltárás folyamata:
– Az alkalmazási terület megismerése: Fontos ismeretek, az
alkalmazás céljának meghatározása
– Kiindulási adathalmaz kialakítása: adatválogatás
– Adattisztítás és előkészítés: (a folyamat 60%-át is kiteheti!)
– Adathalmaz csökkentése és kiválogatása: Fontos tulajdonságok,
dimenziók/változók csökkentése, redundanciák.
– Az adatbányászati módszer meghatározása: összegzés,
osztályozás, regresszió, asszociáció, klaszterezés
– Az adatbányászó algoritmusok kiválasztása:
– Adatbányászat: érdekes mintázatok keresése
– Mintázatok kiértékelése és megjelenítése: vizualizáció,
transzformáció, redundáns mintázatok elvétele, stb.
– A felfedezett mintázat használata
• Az adatbányászat tipikus feladatai

Az elemek előre nem Döntési fa


meghatározott csoportokba Adat felépítése
besorolása

Rejtett kapcsolatok
Kiugró elemek
feltárása 88
elemzése
• Klaszterezés: csoportosítani
kell az egyedeket különböző
csoportokba az az elv alapján:
hasonló egyedek egy
csoportba tartozzon.
─ Hasonlóság meghatározása
─ Algoritmus kiválasztása

• Asszociációs Kapcsolat
feltárása: Fel kell tárni az
adatokban rejtett
asszociációs szabályokat az
egyedek között.
• Prediktív modellezés:
olyan modell építése,
ahol a célok a más
változók függvénye.
- Osztályozás: Prediktív
modell diszkrét
folyamatokra.
Pl. Döntési fa felépítése
Döntési fa felépítése

90
• Outlier elemzés: Rendhagyó,
kiugró elemek
meghatározása, elemzése.

91
Vége

You might also like