You are on page 1of 20

Data Store dan

Arsitektur Data Flow


Data Warehouse
2017
Tujuan
Mahasiswa memahami pengertian dan variasi data
store pada data warehouse
Mahasiswa memahami kelebihan dan kekurangan dari
setiap arsitektur data flow pada data warehouse
Data Store
Data Store merupakan bagian terpenting dari sebuah
data warehouse.
Data Store merupakan satu atau lebih database atau
file yang berisi data dari data warehouse yang diatur
pada format tertentu.
Data Store dibagi menjadi tiga (berdasarkan akses end-
user).
User-facing : dapat di-query oleh end-user
Internal : berguna pada proses integrasi, cleansing, logging
dan persiapan data serta tidak dapat di-query oleh end-user
Hybrid : menggunakan mekanisme internal data store dan
dapat di-query oleh end user
Data Store
Data Store juga dapat dikelompokkan menjadi empat
kategori (berdasarkan klasifikasi data).
Stage : internal data store untuk transformasi data
Normalized Data Store (NDS) (normalized)
internal master data store dari satu atau lebih relasional database
(normalized) untuk integrasi data dari berbagai macam sumber
Operational Data Store (ODS) (normalized)
hybrid data store dalam bentuk satu atau lebih relasional database
yang berisi data transaksi dan versi terbaru dari master data
Dimensional Data Store (DDS) (dimensional/denormalized)
User-facing data store dalam bentuk satu atau lebih database
relasional dimana data diatur dalam format dimensional untuk
mendukung query analisis
Data Store
Tipe database
Relasional : berisi entitas (tabel) dengan relasi di antaranya
Normalized : database tanpa pengulangan data (3NF atau
lebih)
Denormalized : terdapat pengulangan data (karena tidak
melalui proses normalisasi)
Dimensional : database yang belum dinormalisasi dan terdiri
dari tabel fact dan tabel dimension yang berisi pengukuran
setiap bisnis yang dilakukan dan dikategorisasi menggunakan
dimension.
Arsitektur Data Flow
Arsitektur data flow merupakan konfigurasi alur data
dari sumber data menuju data store hingga ke
pengguna (end-user)
Komponen paling penting pada arsitektur data flow
adalah data store
Arsitektur Data Flow
Arsitektur Data Flow menggunakan Stage, ODS dan DDS sebagai data store.
Setiap kali terjadi proses pemindahan data ke data store yang lain, terdapat
proses ETL untuk menyesuaikan data dengan arsitektur data pada data store.
Arsitektur Data Flow
Arsitektur data flow menggunakan sistem kontrol, metadata dan proses data
quality
Arsitektur Data Flow
Source system : sumber data yang digunakan
Stage : digunakan untuk penyimpanan sementara
(dapat berupa database/file)
Digunakan ketika
Transformasi data yang dilakukan cukup kompleks
Volume data besar
Data dari sumber data masuk pada waktu yang berbeda
(menggunakan lebih dari satu ETL)
Pengurangan waktu ETL
Control + Audit : merupakan sistem untuk mengatur
proses pada ETL dan mencatat log dari hasil eksekusi
pada ETL
Arsitektur Data Flow
Multidimensional Database : merupakan sebuah
bentuk dari database yang setiap datanya disimpan
dalam bentuk cell dan posisi setiap cell didefinisikan
oleh sebuah dimension
Contoh : SSAS, untuk mengakses/melakukan query pada
SSAS, end-user dapat menggunakan OLAP
Metadata : sebuah storage untuk menyimpan
deskripsi dari proses ETL, data mapping, struktur data,
log
Arsitektur Data Flow
Data Firewall : program yang digunakan untuk menge-cek
apakah data yang dimasukkan sudah memenuhi peraturan
yang telah didefinisikan pada aturan data quality
Data Quality Rules : kriteria yang menentukan apakah data
sesuai dengan kebutuhan dan format yang telah didefinisikan
Data Quality (database) : digunakan untuk menyimpan
setiap aturan yang terdeteksi dilanggar pada data firewall
DQ Reports : membaca informasi violasi data dari database
Data Quality
Arsitektur Data Flow
Berikut ini merupakan beberapa macam arsitektur data
flow yang banyak diimplementasikan
Single DDS
NDS + DDS
ODS + DDS
Single DDS
Pada arsitektur ini, DDS digunakan sebagai user-facing
dan master data store
Kelebihan
Desain cukup sederhana karena data dari stage langsung
dimasukkan ke dalam DDS
Single DDS baik untuk sistem yang memiliki satu sumber atau
satu dimensi
Kekurangan
Sulit untuk membangun DDS kedua
Single DDS

A B
Pada arsitektur A, proses ETL untuk stage dan DDS terpisah,
sementara pada arsitektur B, proses ETL untuk stage dan DDS
digabung dan ditambahkan dengan proses data quality
NDS + DDS
Terdapat tiga data store yang digunakan : stage, NDS, DDS
NDS digunakan untuk
Master data (historical dan current)
Integrasi dari berbagai macam sumber data
Mendistribusikan data ke beberapa DDS
Kelebihan
Prose ETL pada DDS lebih sederhana dibandingkan dengan single DDS
Lebih fleksibel (dapat melakukan penambahan DDS)
Proses integrasi, perawatan dan pendistribusian master data terpusat
Kekurangan
Diperlukan banyak data store dan proses ETL untuk setiap data store
NDS + DDS
ODS + DDS
Terdapat tiga data store yang digunakan : stage, ODS, DDS
ODS digunakan untuk
Master data (current)
User-facing database (mengubah dan mengambil data)
Kelebihan
Proses integrasi, perawatan dan pendistribusian master data terpusat
Hasil normalisasi lebih kecil dibandingkan dengan NDS + DDS karena hanya
terdiri dari data current (tidak terdapat data histori)
Mendukung operasional di level transaksi
Kekurangan
Untuk membangun DDS lain, perlu dilakukan query ke DDS utama (bukan
melalui ETL DDS yang sudah ada)
ODS + DDS
Federated Data Warehouse
Data Warehouse yang terdiri dari beberapa data warehouse
dengan sebuah layer untuk proses akuisisi data

EII : Enterprise Information Integration


Sumber
Rainardi, Vincent. Building a Data Warehouse with
Examples in SQL Server. Berkeley: Apress. 2007. E-book.

You might also like