Chương 5 - Kho Dữ Liệu

Môn học: Phân tích Kinh doanh
Chương 5:
KHO DỮ LIỆU
Biên soạn:
Bộ môn: Quản trị Vận hành Bộ môn: Khoa học Dữ liệu
Khoa: Quản trị Kinh doanh Khoa: Kỹ Thuật
1
Dữ liệu lớn (Big Data)
• Khái niệm Big Data do Viện McKinsey đưa ra lần đầu vào 6/2011.
• Dữ liệu bùng nổ có đặc điểm 3V: Volumes (Dung lượng lớn),
Variability (Đa dạng), Velocity (Tốc độ tạo mới nhanh).
• Ví dụ: dữ liệu từ Facebook, Twitter, Google.
• Sự ra đời các nền tảng mã nguồn mở thuận lợi khai thác Big Data như
Hadoop.
• Sự phát triển của Điện toán Đám Mây (Cloud Computing) cho phép
giảm chi phí đầu tư hạ tầng IT và thuận lợi cho việc tương tác từ các
thiết bị di động.
2
Nguồn dữ liệu
Dữ liệu hiện nay có thể được tạo ra từ rất nhiều nguồn (Data Source) khác nhau
như sau, nên cần tập trung chúng vào một nơi lưu trữ chung, là Kho Dữ Liệu
(Data Warehouse):
◾ Hệ thống thanh toán (hệ thống in hóa đơn)
◾ Hệ thống nhắc nhở (hệ thống gửi lời nhắc, nếu khách hàng
không thanh toán đúng hạn và cập nhận điểm tín dụng)
◾ Hệ thống quản lý quan hệ khách hàng (CRM) (hệ thống
để lưu trữ lịch sử về các cuộc trao đổi và cuộc gọi của khách hàng)
◾ Sản phẩm và thông tin mua hàng (sản phẩm và dịch vụ nào
một khách hàng đã mua theo thời gian)
3
Các nguồn Dữ Liệu (tt)
◾ Thông tin khách hàng (tên, địa chỉ, mở tài khoản, đặc điểm hợp đồng,
phân khúc, …)
◾ Thông tin công ty (mã ngành, số lượng nhân viên, kết quả kinh doanh, …)
◾ Lịch sử các chiến dịch marketing (ai đã nhận chiến dịch nào và khi nào)
◾ Nhật ký web (thông tin về hành vi của khách hàng trên cổng thông tin
(Portal))
◾ Thông tin từ mạng xã hội (ví dụ: Facebook và Twitter)
◾ Các cuộc khảo sát bảng câu hỏi khác nhau được thực hiện theo thời gian
4
Các nguồn Dữ Liệu (hết)
◾ Thông tin nguồn nhân lực (HR) (thông tin về nhân viên, giờ công,
năng lực và quá trình làm việc)
◾ Thông tin sản xuất (quy trình sản xuất, quản lý hàng tồn kho, dịch vụ)
◾ Kết quả các Chỉ số hiệu suất chính (KPI; được sử dụng để giám sát
các quy trình hiện tại, nhưng có thể được sử dụng để tối ưu hóa các
quy trình ở giai đoạn sau)
◾ Kết quả khai thác dữ liệu (phân khúc, mô hình bán hàng bổ sung,
lòng trung thành, mô hình giảm giá và phân khúc khách hàng thân
thiết, …)
5
Những lợi ích của tập trung hóa dữ liệu
◾ Để tránh việc xử lý thông tin rời rạc và thủ công
◾ Để tránh quá tải luồng thông tin với các báo cáo và phân tích
hàng ngày
◾ Có thể tích hợp dữ liệu từ nhiều nguồn khác nhau
◾ Để tạo nền tảng lịch sử dữ liệu ngay khi các hệ thống khởi tạo khác
(như ERP) đã xóa
◾ Để tổng hợp dữ liệu và kết quả hoạt động cho nhu cầu kinh doanh
6
Những lợi ích của tập trung hóa dữ liệu (hết)
◾ Để bổ sung các điều khoản, quy tắc và logic kinh doanh mới vào dữ
liệu
◾ Để thiết lập môi trường phân tích và báo cáo trung tâm
◾ Để duy trì tài liệu về siêu dữ liệu (Dữ liệu về Dữ liệu) một cách tập
trung
◾ Để đảm bảo khả năng mở rộng khi dữ liệu gia tăng dung lượng trong
tương lai
◾ Để đảm bảo tính nhất quán về định nghĩa và giá trị của dữ liệu trong
các doanh nghiệp, khu vực và quốc gia (còn gọi là “nguyên tắc một phiên
bản duy nhất của sự thật”)
7
Kho dữ liệu – Kiến trúc & Quy trình
Toàn bộ Kiến trúc và Hoạt động của Kho Dữ Liệu được thể hiện như sau:
8
Kho dữ liệu – Các tầng tính từ Input
• Dữ liệu nguồn (Source systems): từ các hệ ERP, CRM, nguồn ngoài DN,
Bảng chấm công, …
• Quy trình ETL: Extract (Trích) – Transform (Chuyển đổi) - Load (Tải đi),
là quá trình Nhập - Xử lý - Xuất giao dữ liệu.
• Khu vực tiếp nhận (Staging area): vùng lưu trữ dữ liệu đầu vào, và
vùng lưu các ODS (Operational Data Store – Kho dữ liệu vận hành:
vùng dữ liệu cho truy cập nhanh).
• Quy trình đảm bảo chất lượng dữ liệu (Data quality processes):
“tường lửa” với chức năng làm sạch và tạo profile cho dữ liệu.
9
Kho dữ liệu – Các tầng tính từ Input (hết)
• Kho dữ liệu (Data warehouse):
• Dữ liệu từ các nguồn được tích hợp
• Là nơi lưu trữ của Metadata (Siêu dữ liệu – Dữ liệu về dữ liệu) và các
Dimension (“Chiều” – tạo thuộc tính cho dữ liệu).
• Khu vực “cửa hàng” dữ liệu (Data mart area): nền tảng và các khối dữ liệu
quan hệ sẵn sàng cho việc khai thác và phân tích kinh doanh.
• Cổng phân tích kinh doanh (BA portal): nơi tương tác trực tiếp với
người dung. Gồm: Các báo cáo (Report), Bảng kết quả hoạt động
(Score card), Bảng hiện trạng (Dashboard), Các ứng dụng phân tích
(Analytical application).
10
Quy trình ETL
• ETL - Quá trình cơ bản trong hoạt động của Kho dữ liệu:
• Extract: Trích xuất dữ liệu từ các Data Source (Từ ngoài hoặc từ
chính trong Kho)
• Transform: chuyển đổi thành các dạng thông tin phù hợp với nhu
cầu xử lý
• Load: tải kết quả xử lý đến những vị trí tiếp nhận (Đến các tầng
trong Kho, hoặc chuyển ra ngoài Kho)
• Quy trình ETL có thể xảy ra ở nhiều giai đoạn khác nhau trong hoạt
động của Kho Dữ Liệu
11
Ví dụ những nội dung của một ETL
◾ Dịch các giá trị được mã hóa. Ví dụ, hệ thống nguồn đang lưu trữ “M” cho nam và
“W” cho nữ, nhưng kho dữ liệu muốn lưu trữ giá trị 1 cho nam và 2 cho nữ.
◾ Ánh xạ các giá trị. Ví dụ: ánh xạ các giá trị "Man“, "M" và "Mr." thành giá trị mới là 1.
◾ Tính toán một giá trị mới từ dữ liệu đầu vào. Ví dụ: doanh số bán hàng = số lượng×
đơn giá.
◾ Gộp dữ liệu các nguồn khác nhau thành một đơn vị dữ liệu mới
◾ Tổng hợp một số hàng dữ liệu. Ví dụ: tổng doanh số cho tất cả vùng.
◾ Tạo khóa đại diện: Giá trị trong 1 cột được lựa chọn để nhận biết một hàng hoặc
một đối tượng trong cơ sở dữ liệu; Có thể sẵn có từ Data Source hoặc được chỉ định
khi thực hiện quy trình ETL
◾ Chuyển vị: Thay đổi nhiều cột thành nhiều hàng hoặc ngược lại.
12
Các ví dụ khác về ETL
Một ETL đơn giản
Một ETL ghép nguồn dữ liệu

theo yêu cầu kinh doanh sử
dụng SQL (Ngôn ngữ Truy
vấn Có cấu trúc)
13
Staging Area and Operational Data Stores
(ODS)
• Là nơi chuyển đổi dữ liệu với format từ nhiều nguồn khác nhau
(Oracle, DB2, SQL Server, MySQL, SAS, các file text) thành dạng dữ liệu
theo 1 format chung.
• ODS: nơi dữ liệu được chuẩn bị sẵn cho các yêu cầu xử lý nhanh, ví dụ
đánh giá rủi ro để ra quyết định tín dụng. Trong khi dữ liệu chuẩn bị
cho các Data Mart có khi cần phải chạy qua đêm – dung cho các yêu
cầu không khẩn thiết.
14
Vấn đề chất lượng dữ liệu đầu vào
• Các vấn đề chất lượng có thể là: trùng lắp, thiếu, không chính xác.
• Cơ chế hoạt động của “tường lửa” thường dựa trên các mẫu (pattern)
lỗi, và một khi có mẫu lỗi mới thì phải được cập nhật và báo cho bên
cung cấp Data Source có biện pháp khắc phục, tránh lắp lại.
• Lỗi chất lượng dữ liệu có thể ảnh hưởng rộng và nghiêm trọng đến
kết quả hoạt động của DN ở nhiều cấp độ khác nhau: báo thiếu hàng
ảo, sai thông tin khách hàng, chậm cấp phát ngân sách, …
• Công cụ Data Profiling được sử dụng để tìm lỗi dữ liệu: ví dụ những
cụm từ như “Mr. Thomas D. Marchand” và “Thomas D. Marchand.” là
cùng chỉ một người.
15
Vấn đề chất lượng dữ liệu đầu vào (hết)
• Chất lượng dữ liệu thành vấn đề có khi do phát sinh yêu cẩu mới của DN:
ví dụ cần biết chi tiết hơn dữ liệu thời gian (“12APR2010:12:40:31.”, thay
vì “12 April 2010”). Khi đó, cần cập nhật yêu cầu này cho bên cấp nguồn.
• Sau Profiling là đến bước cải thiện chất lượng dữ liệu bao các xử lý như:
chữa lỗi, xác thực và chuẩn hóa dữ liệu. Các công cụ có thể sử dụng liên
quan các thuật toán thông minh như Công nghệ Ghép Mờ (Fuzzy Merge).
• Chi tiết hơn, quá trình xác thực có thể “cứng” (hard) hoặc “mềm”, chẳng
hạn khi có dữ liệu không chính xác thì loại bỏ dòng dữ liệu đó hoặc thay
thề bằng dữ liệu sửa chữa.
16
Khu vực Data Warehouse chính
• Khái niệm tạo thuộc tính (Dimensioning). Ví dụ: thông tin sau đây là
chưa tạo thuộc tính “Doanh số đạt 25,5 triệu $”. Các thuộc tính sẽ
được tạo ra khi bổ sung các thông tin liên quan như: Có được khi nào
(Ngày, tháng, năm), Ở đâu và do ai tạo ra (Nhân viên bán hàng nào,
Bộ phận nào, Địa bàn nào), Cái gì tạo ra (Sản phẩm, Nhóm sản phẩm
nào).
• Khái niệm Metadata (Dữ liệu về Dữ liệu): tương tự một bộ dữ liệu
trong Data Warehouse tương tự như một quyển sách trong thư viện,
thì Metadata tương tự như data về các quyển sách (Tác giả, Tên sách,
Nhà xuất bản, Năm xuất bản, …)
17
Hình ảnh minh họa về Dimensioning (tạo 5 thuộc tính)
18
Phương pháp lưu dữ liệu
• Phương pháp phổ biến là dưới dạng mảng (Array) còn gọi là các khối
dữ liệu (Cube). Một định dạng phổ biến là các khối OnLine Analytical
Processing (OLAP) cube.
• Khi đó dữ liệu có thể truy vấn thông qua các ngôn ngữ SQL.
• Nhiều ứng dụng mã nguồn mở và cloud-based được giới thiệu rộng
rãi như Hadoop.
19
Cổng BA: Chức năng và Ví dụ
• Cổng và các công cụ B.A. (Business Analytics – Phân tích Kinh doanh)
nhằm cung cấp thông tin và các dạng tham vấn khác nhau cho các quá
trình ra quyết định kinh doanh khác nhau.
• Các thông tin trên chủ yếu lấy từ Các cơ sở dữ liệu quan hệ và các
khối OL
• Các dạng phổ biến ở khu vực này bao gồm: Bảng kết quả tổng hợp
(Scoreboard), Bảng kết quả quá trình (Dashboard), Kết quả phân tích
(Analytical application)
• Việc tạo ra Cổng này chiếm 15% khối lượng công việc, 85 % còn lại
thuộc về phần thu thập và xử lý dữ liệu trước đó.
20
Ví dụ một Bảng
Dashboard
21
Ví dụ Kết quả phân tích dùng công cụ Khai thác Dữ liệu (Data Mining)
22
Một số vấn đề khi sử dụng Kho dữ liệu
• Master Data Management (MDM): là một giải pháp đảm bảo chất
lượng và hiệu quả khi dữ liệu tăng dung lượng và độ phức tạp.
• Service-Oriented Architecture (SOA): các nguồn lực của hệ thống
IT(Hạ tầng, Cơ sở dữ liệu, Các ứng dụng, …) được cấu trúc sao cho có
thể thực thi từ một hay nhiều đơn vị bên ngoài (services).
• Quyền truy cập vào các tầng khác nhau cho các đối tượng khác nhau:
các đối tượng quản lý và vận hành Kho, các nhà phân tích, các đối
tượng sử dụng (các cấp quản lý, nhân viên, khách hàng, nhà cung cấp,
…).
23
END
24

Chương 5 - Kho Dữ Liệu

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chương 5 - Kho Dữ Liệu

Uploaded by

Copyright:

Available Formats

Môn học: Phân tích Kinh doanh

Một ETL đơn giản

Một ETL ghép nguồn dữ liệu

You might also like