Professional Documents
Culture Documents
to
Data Warehouse Systems
อ. สุ รินทร์ ทพิ ศักดิ์ภูวดล
คณะเทคโนโลยีสารสนเทศและการสื่ อสาร
มหาวิทยาลัยพะเยา
บทที่ 1 แนะนำระบบคลังข้ อมูล
(Introduction to Data Warehouse Systems )
Midterm Exam 20 %
Final Exam 30 %
LAB 15 %
Project 15 %
Self_Study 10 %
เนือ้ หา
1. คลังข้ อมูลคืออะไร
2. ลักษณะของคลังข้ อมูล
3. สถาปัตยกรรมของคลังข้ อมูล
4. ประโยชน์ ของ DSS
การวิเคราะห์ขอ้ มูลทางธุรกิจ
ต้องการหากำไรสู งสุ ด ต้องการหาต้นทุนต่ำสุ ด
ต้องการวิเคราะห์เพื่อหาลูกค้า ต้องการทำนาย รายได้ เมื่อมี
ใหม่ และรักษาลูกค้าเก่า (CRM) การเปลี่ยนแปลงปั จจัยต่างๆ
เพื่อสนับสนุนการตัดสิ นใจของผู ้
ต้องการหาพฤติกรรมการซื้ อ
บริ หาร
จากฐานข้อมูลขนาดใหญ่
http://daikin.idevterest.com/daikin-quality/production
ความก้าวหน้าทางการวิเคราะห์ขอ้ มูล
Process สารสนเทศที่เกี่ยวข้องและ
Information
นำไปใช้ประโยชน์ได้
Data Knowledge
สารสนเทศที่เกี่ยวข้องและนำไปใช้ประโยชน์ได้
Data warehouse
A data warehouse is a database that stores current and historical
data of potential interest to decision makers throughout the
company. The data originate in many core operational transaction
systems, such as systems for sales, customer accounts, and
manufacturing, and may include data from Web site transactions.
The data warehouse consolidates and standardizes information
from different operational databases so that the information can be
used for management analysis and decision making.
12
Data warehouse
คลังข้ อมูล (data warehouse) เป็ นฐานข้อมูลที่จดั เก็บข้อมูล
ปัจจุบนั และข้อมูลในอดีต ที่น่าสนใจแก่ผมู้ ีอ ำนาจตัดสิ นใจทัว่ ทั้ง
บริ ษทั ข้อมูลมาจากระบบธุรกรรมหลักในการดำเนินงาน เช่นระบบ
การขาย ระบบบัญชีลูกค้า และระบบการผลิต และอาจรวมถึงข้อมูล
จากการทำธุรกรรมบนเว็บไซต์ (Web site transactions) คลังข้อมูล
รวบรวมข้อมูล และสร้างมาตรฐานข้อมูลที่มาจากฐานข้ อมูลการ
ปฏิบัตงิ าน (Operational databases) ที่แตกต่างกัน เพื่อให้ขอ้ มูล
สามารถใช้สำหรับการวิเคราะห์การจัดการและการตัดสิ นใจ
Data warehouse
คลังข้ อมูล หมายถึง ฐานข้ อมูลที่จดั เก็บข้ อมูลที่ได้ มาจากการสกัด
ข้ อมูล(Extract) จากฐานข้ อมูลอื่น ซึง่ อาจมีโครงสร้ างแตกต่างกัน หรื ออยู่
บนระบบปฎิบตั ิการแตกต่างกันได้ เพื่อประโยชน์ในการวิเคราะห์และตัดสิน
ใจเชิงธุรกิจ
คลังข้ อมูล หมายถึง ฐานข้ อมูลขนาดใหญ่ขององค์กร ที่ได้ มาจากการ
สกัดข้ อมูล (Extract) ที่มาจากฐานข้ อมูลระบบงานประจำวัน หรื อเรี ยกอีก
อย่างว่า Operational database และฐานข้ อมูลอื่นภายนอกองค์กร หรื อ
เรี ยกว่า External database โดยข้ อมูลในคลังข้ อมูลจะถูกนำมาใช้ เพื่อ
สนับสนุนการตัดสินใจบริ หารงานของผู้บริหาร โดยเฉพาะการเป็ นข้ อมูลพื ้น
ฐานให้ กบั ระบบงาน เพื่อการบริหารงานอื่น เช่น ระบบ DSS หรื อ MIS
เป็ นต้ น
Data warehouse
คุณสมบัตขิ อง Data warehouse
Subject-Oriented ข้ อมูลจะต้ องถูกสร้ างขึ ้นจากหัวข้ อ (subject) ธุรกิจที่สนใจ เช่น
ถ้ าบริ ษัทประกันภัยต้ องการใช้ คลังข้ อมูล ฐานข้ อมูลที่ได้ จะต้ องสร้ างขึ ้นจากประวัติ
ลูกค้ า, เบี ้ยประกัน และการเรี ยกร้ องแทนที่จะแยกตามชนิดของผลิตภัณฑ์ หรื อ
บริ การประกันภัย/ประกันชีวิต ข้ อมูลที่สร้ างขึ ้นจะประกอบด้ วยหัวข้ อที่เก็บเฉพาะ
ข่าวสารที่จำเป็ น สำหรับกระบวนการตัดสินเท่านัน้
Integrated คือการรวบรวมข้ อมูลจากหลายฐานข้ อมูลปฏิบตั ิการเข้ าด้ วยกัน และ
ทำให้ ข้อมูลมีมาตราฐานเดียวกัน เช่นกำหนดให้ มีคา่ ตัวแปรของข้ อมูลในเนื ้อหา
เดียวกันให้ เป็ นแบบเดียวกันทังหมด้
Time-variant ข้ อมูลซึง่ ใช้ ตดั สินใจที่เก็บไว้ จะต้ องมีอายุประมาณ 5 ถึง 10 ปี เพื่อใช้
เปรี ยบเทียบ หาแนวโน้ ม และทำนายผลลัพธ์ในอนาคตได้
Non-volatile ข้ อมูลจะไม่อพั เดตหรื อถูกทำให้ เปลี่ยนแปลงง่ายๆ
ข้ อมูลที่จดั เก็บภายในคลังข้ อมูล จะไม่ถกู แก้ ไข แต่จะถูกเพิ่มข้ อมูลใหม่ตอ่ ท้ าย
โดยไม่ทำการแทนที่ข้อมูลเดิม
ภาพรวม
คลังข้ อมูล (Data Warehouse) : การวิเคราะห์ ข้อมูลในคลังข้ อมูล (ช่ วงเวลา)
ผล รายงาน
ขอ้ มูล Report
แหล่งข้อมูลเพื่อ Generator
การปฏิบตั ิงาน
ขอ้ มูล การใช้งาน
Data Mining ผล
Tools
Data
ูล
Warehouse ขอ้ ม
รใ ช ง้ าน ผูใ้ ช้งาน
กา
แหล่งข้อมูลเพื่อ ข้อมูล OLAP ผล
การวิเคราะห์ Generator
OLAP
External
Data External data
Sources
External data
Extract การสกัดข้อมูล เป็ นเลือกข้อมูลที่ดี และข้อมูลตามต้องการ
Transform การแปลงรู ปแบบข้อมูล ให้อยูร่ ู ปแบบที่ตอ้ งการ เช่น แปลงข้อมูลเงินจาก 50 เป็ น 50.00
Load การนำข้อมูลที่แปลงรู ปแบบ แล้วนำไปเก็บยัง ฐานข้อมูลปลายทาง DW, P10, P56, P156,
Data warehouse
ส่ วนประกอบของ Data warehouse แบบละเอียด (2/2) (ต่ อ)
End User
Data
Mart
Data Extract
Transform Data
Warehouse Mart
Load
(ETL)
Data
Mart
เลือกใช้ แบบจำลอง (Model)
ต่ างๆ
Data Acquisition
Cleansing Business Intelligence (BI)
Operational data and Filtering
Internal
Data End User
Sources Historical data Data
Mart
Data
External External data Mart Á̈º° Äo ε¨ °
Data
Sources
(Model) nµ Ç
External data
Data warehouse
วัตถุประสงค์ ของการสร้ างคลังข้ อมูล
Data Data Staging Data Data Warehouse Data Data Provisioning Data
Area Database Area หรื อ Data Mart
Metadata
Metadata
Metadata
Metadata Repository
คลังข้ อมูล (Data Warehouse) : สถาปัตยกรรมของคลังข้อมูล (2/2)
1. Data Acquisition System :
ทำหน้ าทีร่ ับข้ อมูลจากภายใน/นอกองค์ กร มีการตรวจสอบความถูกต้ อง (Validation) เบือ้ งต้ น
2. Data Staging Area :
ทำหน้ าที่ Cleansing & Filtering เลือกเฉพาะข้ อมูลทีเ่ ป็ นประโยชน์ (Filtering), แปลงข้ อมูล และ
ตรวจสอบความถูกต้ อง ก่อนจะโหลดเข้ าสู่ Data Warehouse Database
3. Data Warehouse Database :
บันทึกข้ อมูลต่ าง ๆ ทีจ่ ำเป็ นสำหรับการวิเคราะห์ ข้อมูลขององค์ กร
4. Data Provisioning Area หรือ Data Mart :
เหมือน Data Warehouse Database แต่ ขอบเขตเนือ้ หาข้ อมูลจะแคบกว่ า คือ เพือ่ กลุ่มงานใดกลุ่ม
งานหนึ่ง
5. End Users Terminal :
นำเสนอผลลัพธ์ ออกจากหน้ าจอ โดยจะใช้ เครื่องมือหรือระบบทีท่ ำหน้ าทีอ่ อกรายงาน เช่ น Simple
Reporting Tools, Multi-Dimensional Tools หรือ Data Mining Tools ก็ได้
6. Metadata Repository :
เป็ นพืน้ ทีส่ ำหรับเก็บข้ อมูลต่ าง ๆ ทีจ่ ำเป็ นสำหรับควบคุมการทำงานและควบคุมข้ อมูลในคลัง
ข้ อมูล เช่ น คำนิยามของข้ อมูลใน Data Warehouse Database
1. Data Acquisition System :
1. Data Acquisition System :
ทำหน้ าทีร่ ับข้ อมูลจากภายใน/นอกองค์ กร มีการตรวจสอบความถูกต้ อง
ของข้ อมูลเบือ้ งต้ น (Validation) เช่ น ขนาดข้ อมูลอายุคน ประเภทข้ อมูลต้ องเป็ น
ตัวเลข ไม่ เกิน 180 ปี
ข้ อมูลจะถูกดึง (Extract) จากฐานข้ อมูลปฏิบัตงิ าน ขั้นตอนต่ อมาจะมีการ
ปรับเปลีย่ นรู ปแบบข้ อมูล (Transform) และหลังจากนั้นข้ อมูลจะถูกถ่ ายเท (Load)
ไปยัง Data Staging Area
2. Data Staging Area หรือ Data Staging Database : (1/2)
Data Staging Area หรือ Data Staging Database:
เป็ นบริเวณทีพ่ กั ข้ อมูลซึ่งข้ อมูลทีร่ ับมาจากฐานข้ อมูลปฏิบัตงิ าน ใน Data Staging
Area นี้ ข้ อมูลจะมีการตรวจสอบความถูกต้ องอีกครั้งเช่ น ตรวจสอบ ความ
สอดคล้ องกัน ความตรงกันของข้ อมูล เนื่องจากข้ อมูลถูกนำมาจากหลายฐานข้ อมูล
ปฏิบัตงิ านอาจไม่ สอดคล้องกัน เช่ น Name แต่ ละฐานข้ อมูลปฏิบัตงิ านอาจจัดเก็บ
ต่ างกัน หรือไม่ มขี ้ อมูล ดังนั้นเมือ่ มารวมกันใน Data Staging Area จึงจำเป็ นต้ อง
ตรวจสอบข้ อมูลจากทุกแหล่ง เพือ่ ต้ องการจัดเก็บในรู ปแบบเดียวกันใน Data
Staging Area
นอกจากนี้ ในส่ วนนีข้ ้ อมูลบางส่ วนจะถูกทำการลบทิง้ หรือแก้ไขให้ ถูกต้ อง เรียก
ว่ าการทำความสะอาดข้ อมูล (Cleansing) หลังจากนั้นข้ อมูลจะถูกเลือกเฉพาะข้ อมูล
ทีเ่ ป็ นประโยชน์ (Filtering) เท่ านั้น จากนั้นข้ อมูลทีไ่ ด้ จะถูกทำการ Extract,
Transform, Load (ETL) เข้ าสู่ Data Warehouse Database
2. Data Staging Area หรือ Data Staging Database : (2/2)
ความหมาย Data cleansing :
Data cleansing หรือ data cleaning หมายถึง การทำความสะอาดข้อมูล เพื่อให้ขอ้ มูลมี
คุณภาพและตรงตามความต้องการของระบบ
เป็ นกระบวนการตรวจสอบข้อมูล
ทำการแก้ไขให้ถูกต้องตามความต้องการของระบบ
ลบรายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล
ตัวอย่ างเช่ น ระบบที่ตอ้ งการ Data Warehouse ที่ตอ้ งการเก็บข้อมูลวันที่ขาย ยอดขาย เขตการขาย
เท่านั้น แต่ไม่ตอ้ งการข้อมูลหมายเหตุการขาย จึงทำการลบข้อมูล Field หมายเหตุ ที่ดึงมาจากฐานข้อมูล
ปฏิบตั ิงานออกไป
ตัวอย่ างเช่ น รายการใบเสร็ จที่มีการยกเลิกไปแล้วหากองค์กรมองว่าไม่มีประโยชน์ ก็จะถูกลบออกไป
ทั้งหมดของรายการ ใบเสร็ จนั้นๆ
ตัวอย่ างเช่ น ในฐานข้อมูลปฏิบตั ิงานบางรายการของ 1 ใบเสร็ จมีขอ้ มูลวันที่ขาดหายไป ถือว่ามีขอ้ มูล
ไม่ครบถ้วน ข้อมูลของทั้งใบเสร็ จนั้นจะถูกลบออกจากข้อมูลที่เตรี ยมไว้เพื่อจะนำเข้าสู่ Data
Warehouseในขั้นตอนต่อไป หรื อจะต้องประมวลผลเพื่อหาค่าวันที่มาใส่ โดยพิจารณาจากข้อมูลที่มีอยู่
3. Data
คำอธิ Warehouse
บายส่ วนประกอบของ Database
Data : แบบละเอียด (3/5)
warehouse
https://powerbi.microsoft.com/en-us/features/
6. Metadata Repository
Meta data คือ Data about data
เป็ นส่ วนอธิบายความคุณสมบัติของข้อมูล (Data) ในฐานข้อมูล ทุกฐานข้อมูลที่ถูกสร้าง
ขึ้น
ตย. เช่น ข้อมูล Table Customer ใครสามารถแก้ไข บันทึกข้อมูลได้บา้ ง ดังนั้นจะต้อง
ระบุการเข้าถึงข้อมูลลงไป เช่น Admin สามารถ (Add, Update, Delete) ข้อมูลได้
นอกจากนี้ ยังเก็บข้อมูลอธิบายลักษณะข้อมูลที่จดั เก็บในแต่ละ Table ว่ามีลกั ษณะ
อย่างไร
ตย. เช่น Table Sales ใน Database Design
ข้อมูล Customer Name (ชื่อลูกค้าที่ซ้ื อสิ นค้า) คุณสมบัติเป็ น Character (100)
Student
Admin Library
Affairs
Transaction
Processing system HR Payroll Finance Students
(TPS)
OLTP (Online Transaction Processing) : สารสนเทศประเภท TPS
สารสนเทศประเภท TPS :
เป็ นการจัดการข้ อมูลรายวัน
มีการ เพิ่มข้ อมูล ลบข้ อมูล (ลบข้ อมูล หรื อ ยกเลิกรายการ) แก้ ไข
ข้ อมูลได้ ตลอดเวลา
ในองค์ กรมีผ้ ูใช้ เป็ นจำนวนมาก
มักมีการแก้ ไขข้ อมูลพร้ อมๆกันอยู่ตลอดเวลา
Operational Data (TPS) เปรียบเทียบกับ Data warehouse
Topic/Function Operational (OLTP) Data Warehouse
จาก TPS
การเก็บข้อมูล ข้อมูลจะมีการเก็บ ข้อมูลจะถูกเก็บเป็ นระเบียบ มีขอ้ มูลสรุป
กระจัดกระจายอยูห่ ลายที่ ผล (Summary) ข้อมูลสำหรับการคำนวณ
ต่างๆ และข้อมูลรายละเอียดตามความ
ต้องการ นัน่ คือจะเก็บข้อมูลที่ระดับต่ำสุ ด
ของ transactional detail หรื อหลาย ๆ
ระดับของบทสรุ ปข้อมูล
องค์ประกอบข้อมูล Application by Application การรวมข้อมูลทั้งหมดในองค์กร
Data Mart คือ คลังข้ อมูลขนาดเล็ก เพื่อเก็บไว้ ใช้ เป็ นคลังข้ อมูลสำหรับบาง
ส่วนขององค์กร Data Mart จึงเป็ นเสมือนส่วนหนึง่ ของคลังข้ อมูลที่เน้ นเฉพาะ
ข้ อมูลสำหรับวัตถุประสงค์บางอย่าง และมักจะถูกเก็บแยกไว้ ในส่วนของ
องค์กรที่ต้องการใช้ ข้อมูลนี ้เท่านัน้ เช่น Data mart สำหรับฝ่ ายขาย และการ
ตลาด เพื่อใช้ เป็ นข้ อมูลสำหรับบริ การลูกค้ าแต่เพียงผู้เดียว
เนื่องจาก Data warehouse มีขนาดใหญ่ มาก จะต้ องใช้ เวลาในการ
ประมวลผลนาน ในบางครัง้ การใช้ งานคลังข้ อมูลโดยตรงอาจทำไม่สะดวก
และเกินความจำเป็ น (สำหรับงานที่ต้องใช้ เพียงข้ อมูลของตัวเองเท่านัน) ้ ดัง
นัน้ การแยกข้ อมูล Data Warehouse ที่ตรงกับการทำงานของแต่ละแผนก
ออกมา จึงต้ องทำ Data Mart เพื่อจำกัดขอบเขตเฉพาะแต่ละฟั งก์ชนั
โครงสร้ าง การออกแบบ ของ Database ใน Data Mart อาจเหมือน หรื อแตก
ต่างบ้ างบางส่วนจากใน Data Warehouse เพื่อให้ มีความเหมาะสมกับงาน
Data Mart
Data mart การบริหารจัดการ
การเงิน
การผลิต
การตลาด Data
Warehouse
การขาย
การบัญชี
การบริหารงานบุคคล
แสดงความสัมพันธ์ ระหว่ างคลังข้ อมูล, Data Mart ของ การบริหารจัดการ การเงิน การ
ผลิต การตลาด การขาย การบัญชี การบริหารงานบุคคล และผู้ใช้
Data Mart
ลักษณะโดยทั่วไปของ Data Mart มีดังนี ้
ข้อมูลเจาะจงไปยังฟังก์ชนั เฉพาะกลุ่ม หรื อหน่วยงานภายในขององค์กร
https://en.wikipedia.org/wiki/Category:Classification_algorithms
เหมืองข้ อมูล (Data mining)
ผลประโยชน์ ท่ อี งค์ ธุรกิจได้ รับจากการทำเหมืองข้ อมูล
องค์ กร การนำเหมืองข้ อมูลไปใช้
ShopKo Stores ใช้ เหมืองข้ อมูลค้ นหาความสัมพันธ์ ระหว่ าง “เหตุ-และ-ผลกระทบ”
ระหว่ างสินค้ าที่มีขายในร้ านและนิสัยการซือ้ สินค้ าของลูกค้ า
Northstrom ใช้ เทคนิคเหมืองข้ อมูลวิเคราะห์ ข้อมูลที่ตอบสนองความต้ องการ
ของผู้ใช้ ในเว็บไซท์ เพื่อปรับปรุ งวิธีการโฆษณาและการให้ บริการแก่
ลูกค้ า
KeyCorp. ใช้ เทคนิคเหมืองข้ อมูลกับสินค้ าในครัวเรือน 3.3 ล้ านชิน้ และผู้ใช้ 7
ล้ านคนในคลังข้ อมูลเพื่อค้ นหาระยะเวลาในการตอบสนองของ
ลูกค้ าต่ อสินค้ าที่โฆษณาด้ วยการส่ งจดหมายไปยังลูกค้ าโดยตรง จะ
ได้ ทราบว่ าสินค้ าใดที่ไม่ ค้ ุมค่ ากับการตลาดนี ้
Verizon วิเคราะห์ ข้อมูลลูกค้ าของบริษัทเพื่อค้ นหาลูกค้ าใหม่ และให้ บริการ
Wireless หลังการขาย รวมทัง้ ให้ ข้อเสนอแนะแก่ ลูกค้ าที่ควรเปลี่ยนแผนการ
โปรโมทไปใช้ บริการชนิดอื่น
เหมืองข้ อมูล (Data mining)
ซอฟต์แวร์ในระดับ Data Mining
SAS Enterprise Miner
DBMiner
WEKA
RapidMiner
http://lbdwww.epfl.ch/f/teaching/courses/TPsIBD/DBMinerTutorial.pdf
Software ที่ใช้จดั เก็บข้อมูลใน DW คือ?
1.
2.
3.
Reference
ระบบสารสนเทศเพื่อการจัดการ (Laudon) สัลยุทธ์ สว่างวรรณ แปล เรี ยบเรี ยง
การออกแบบและพัฒนาคลังข้อมูล Data Warehouse (กิตติพงศ์ กลมกล่อม)
Management Information Systems: Kenneth C. Laudon, Jane P. Laudon