You are on page 1of 44

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC


------ ------

BÁO CÁO NHÓM


KHO DỮ LIỆU VÀ KINH DOANH THÔNG MINH

ĐỀ TÀI: Financial Services – Dịch vụ cho vay tín dụng

Giảng viên hướng dẫn: ThS. NGUYỄN DANH TÚ

Nhóm sinh viên thực hiện: Nhóm 14


STT Họ và tên MSSV Lớp
1 Nguyễn Thị Bích Ngọc 20185388 Toán – Tin 01 – K63
2 Nguyễn Minh Tuấn 20185420 Toán – Tin 01 – K63

Hà Nội, tháng 01 năm 2021


MỤC LỤC
BẢNG ĐÁNH GIÁ THÀNH VIÊN......................................................................................... 3
PHẦN 1. TỔNG QUAN VỀ BUSINESS INTELLIGENCE ................................................ 4
1.1. Khái niệm Business Intelligence (BI) ............................................................................... 4
1.2. Ứng dụng của BI trong doanh nghiệp ............................................................................. 4
1.3. Kiến trúc của BI................................................................................................................. 5
1.3.1. Kiến trúc cơ bản của một hệ thống BI .............................................................................. 5
1.3.2. Các thành khác của BI ...................................................................................................... 6
1.4. Chu kỳ của một phân tích kinh doanh thông minh ........................................................ 7
PHẦN 2. TỔNG QUAN VỀ DATA WAREHOUSE ............................................................. 9
2.1. Mở đầu về Data Warehouse ............................................................................................. 9
2.1.1. Khái niệm Data Warehouse .............................................................................................. 9
2.1.2. Phân loại dữ liệu trong Data Warehouse .......................................................................... 9
2.1.3. Các đặc trưng của kho dữ liệu .......................................................................................... 9
2.1.4. Data Marts ...................................................................................................................... 10
2.2. Kiến trúc kho dữ liệu đa tầng ......................................................................................... 11
2.2.1. Nguồn Dữ liệu (Data Sources) ....................................................................................... 11
2.2.2. Extract – Transform - Load ............................................................................................ 12
2.2.3. Metadata ......................................................................................................................... 13
2.3. Phân tích các khối (cubes) và đa chiều .......................................................................... 13
2.3.1. Dimension tables ............................................................................................................ 13
2.3.2. Fact tables ....................................................................................................................... 13
2.3.3. OLTP và OLAP .............................................................................................................. 14
2.3.4. Các phép toán OLAP chuẩn tắc ...................................................................................... 14
2.4. Lược đồ dữ liệu trong Data warehouse ......................................................................... 15
2.4.1. Lược đồ hình sao (Star Schema) .................................................................................... 15
2.4.2. Lược đồ bông tuyết (Snowflake Schema) ...................................................................... 15
2.4.3. Lược đồ chòm sao (Constellation Schema) .................................................................... 16
PHẦN 3. ỨNG DỤNG DATA WAREHOUSE VÀ BUSINESS INTELLIGENCE VÀO
BÀI TOÁN DỊCH VỤ CHO VAY TÍN DỤNG.................................................................... 17
3.1. Khảo sát ............................................................................................................................ 17
3.1.1. Quy trình nghiệp vụ ........................................................................................................ 17
3.1.2. Phân tích Requirement ................................................................................................... 22
3.1.3. Quy mô dữ liệu ............................................................................................................... 22
3.2. Phân tích và thiết kế ........................................................................................................ 24
1
3.2.1. Kiến trúc Data Warehouse .............................................................................................. 24
3.2.2. Quy trình ETL dữ liệu .................................................................................................... 25
3.2.3. Các chiều dữ liệu – Dimensions ..................................................................................... 31
3.2.4. Data Exploration ............................................................................................................. 32
3.2.5. Mô hình dữ liệu logic ..................................................................................................... 36
3.2.6. Mô hình dữ liệu OLTP ................................................................................................... 36
3.2.7. Mô hình dữ liệu OLAP ................................................................................................... 37
3.3. Xây dựng chương trình ................................................................................................... 38
3.3.1. Các mẫu Dashboard và phân tích Dashboard ................................................................ 38
3.3.2. Bài học tổng kết .............................................................................................................. 42
TÀI LIỆU THAM KHẢO...................................................................................................... 43

2
BẢNG ĐÁNH GIÁ THÀNH VIÊN

Họ và tên Nguyễn Minh Tuấn

MSSV 20185420

Lớp Toán – Tin 01 – K63

Nhóm 14

3
PHẦN 1. TỔNG QUAN VỀ BUSINESS INTELLIGENCE

1.1. Khái niệm Business Intelligence (BI)

Kinh doanh thông minh có thể được định nghĩa là một tập hợp các mô hình toán học và
phương pháp phân tích, khai thác dữ liệu sẵn có để tạo ra thông tin và kiến thức hữu ích cho
các quá trình ra quyết định phức tạp.

Công nghệ BI có khả năng xử lý một lượng lớn dữ liệu có cấu trúc và đôi khi là phi cấu trúc
để giúp xác định việc phát triển và tạo ra các cơ hội kinh doanh chiến lược mới. Mục tiêu của
BI là cho phép giải thích dễ dàng các khối lượng lớn dữ liệu này.

Công nghệ BI cung cấp các quan điểm lịch sử, hiện tại và dự đoán về hoạt động kinh doanh
trong tương lai. Các chức năng phổ biến của công nghệ BI là báo cáo, phân tích xử lý trực
tuyến, khai phá dữ liệu, quản trị hiệu suất kinh doanh, phân tích dự báo, phân tích mô tả...

BI có thể được sử dụng để hỗ trợ một loạt các quyết định kinh doanh từ hoạt động đến chiến
lược.

1.2. Ứng dụng của BI trong doanh nghiệp

Kinh doanh thông minh có thể được áp dụng cho các mục đích kinh doanh sau đây để thúc
đẩy giá trị kinh doanh:

- Chương trình đo lường: tạo ra một hệ thống phân cấp các chỉ số đo lường hiệu suất và điểm
chuẩn thông báo cho các nhà lãnh đạo doanh nghiệp về tiến trình hướng tới các mục tiêu kinh
doanh (quản lý quy trình kinh doanh).

- Chương trình phân tích:

 Xây dựng các quy trình định lượng để doanh nghiệp đi đến quyết định tối ưu và thực
hiện khám phá tri thức kinh doanh.
 Thường xuyên liên quan đến quá trình khai thác dữ liệu, khai thác quy trình, phân tích
thống kê, phân tích dự báo, mô hình hóa dự báo, mô hình hóa quy trình kinh doanh, xử
lý sự kiện phức tạp và phân tích mô tả.

- Chương trình báo cáo của doanh nghiệp:

 Xây dựng cơ sở hạ tầng cho báo cáo chiến lược để phục vụ việc quản lý chiến lược
của một doanh nghiệp, không phải báo cáo hoạt động.
 Thường xuyên liên quan đến hệ thống thông tin điều hành, trực quan hóa dữ liệu và
OLAP.

4
- Chương trình nền tảng cộng tác: Giúp các khu vực khác nhau (cả bên trong và bên ngoài
doanh nghiệp) hoạt động cùng nhau thông qua chia sẻ dữ liệu và trao đổi dữ liệu điện tử.

- Chương trình quản lý tri thức: Dựa trên dữ liệu thông qua các chiến lược và thực tiễn để
xác định, khởi tạo, biểu diễn, phân phối và cho phép áp dụng những hiểu biết sâu sắc và kinh
nghiệm là tri thức kinh doanh.

1.3. Kiến trúc của BI

1.3.1. Kiến trúc cơ bản của một hệ thống BI

- Kiến trúc của một hệ thống kinh doanh thông minh được mô tả trong Hình 2.1 bao gồm ba
thành phần chính là: Nguồn dữ liệu (data sources), data warehouse và data marts, phương
pháp luận BI.

Hình 1.1. Kiến trúc cơ bản của một hệ thống BI [3]

- Nguồn dữ liệu (data sources):

Trong giai đoạn đầu tiên, cần thu thập và tích hợp dữ liệu được lưu trữ trong các nguồn chính
và phụ khác nhau không đồng nhất về nguồn gốc và chủng loại.

Các nguồn này bao gồm phần lớn dữ liệu thuộc về các hệ thống vận hành nhưng cũng có thể
bao gồm các tài liệu phi cấu trúc như email và dữ liệu nhận được từ các nhà cung cấp bên
ngoài.

- Data warehouse và data marts: Sử dụng các công cụ trích xuất và biến đổi được gọi là trích
xuất – biến đổi – tải (ETL), dữ liệu có nguồn gốc từ các nguồn khác nhau được lưu trữ trong
cơ sở dữ liệu mới nhằm hỗ trợ các phân tích thông tin kinh doanh. Các cơ sở dữ liệu này
thường được gọi là data warehouse và data marts.

5
- Phương pháp luận BI: Dữ liệu cuối cùng được trích xuất và sử dụng để cung cấp các mô
hình toán học và phương pháp phân tích nhằm hỗ trợ những người ra quyết định. Trong một
hệ thống thông minh kinh doanh, một số ứng dụng hỗ trợ quyết định có thể kể đến như:

 Phân tích khối đa chiều.


 Phân tích dữ liệu khám phá.
 Phân tích chuỗi thời gian.
 Mô hình học quy nạp để khai phá dữ liệu.
 Các mô hình tối ưu.

1.3.2. Các thành khác của BI

Ngoài ba thành phần chính được nêu như ở phần 1.3.1, một hệ thống BI còn có một số những
thành phần khác như sau:

Hình 1.2. Các thành phần của một hệ thống BI [3]

- Dữ liệu khám phá (Data exploration):

 Gồm các công cụ để thực hiện phân tích thông minh kinh doanh thụ động (passive),
bao gồm các hệ thống truy vấn và báo cáo cũng như các phương pháp thống kê.
 Chúng được gọi là phương pháp luận thụ động vì những người ra quyết định được yêu
cầu tạo ra các giả thuyết hoặc xác định các tiêu chí trích xuất dữ liệu và sau đó sử
dụng các công cụ phân tích, trực quan hóa thông qua đồ thị, bảng biểu để tìm câu trả
lời và xác nhận thông tin chi tiết ban đầu của họ.

6
- Khai phá dữ liệu (Data mining):

 Gồm các phương pháp luận kinh doanh chủ động (active) có mục đích là trích xuất
thông tin và kiến thức từ dữ liệu.
 Gồm các mô hình toán học cho máy học, nhận dạng mẫu và các kỹ thuật khai thác dữ
liệu.
 Các mô hình thuộc mức độ này không yêu cầu người ra quyết định hình thành bất kỳ
giả thuyết trước nào để sau này được xác minh. Thay vào đó, mục đích của chúng là
mở rộng kiến thức của những người ra quyết định.

- Tối ưu (Optimization): Mức độ này cho phép xác định giải pháp tốt nhất trong số một tập
các hành động thay thế thường khá rộng và đôi khi thậm chí là vô hạn.

- Quyết định (Decisions): Đưa ra sự lựa chọn và áp dụng thực tế một quyết định cụ thể và
theo một cách nào đó thể hiện kết luận tự nhiên của quá trình ra quyết định. Việc lựa chọn
một quyết định thuộc về những người ra quyết định, những người có thể tận dụng thông tin để
điều chỉnh, sửa đổi các khuyến nghị và kết luận đạt được thông qua việc sử dụng các mô hình
toán học.

1.4. Chu kỳ của một phân tích kinh doanh thông minh

Hình 1.3. Chu kỳ của một phân tích kinh doanh thông minh

- Phân tích (Analysis):

 Trong giai đoạn phân tích, cần nhận ra được và nắm bắt chính xác vấn đề.
 Sự sẵn có của các phương pháp luận kinh doanh thông minh có thể giúp ích cho giai
đoạn này bằng cách cho phép các nhà ra quyết định phát triển nhanh chóng các hướng
điều tra khác nhau.

- Hiểu biết (Insight):


7
 Giai đoạn này cho phép những người ra quyết định hiểu rõ hơn và sâu sắc hơn vấn đề
hiện tại ở cấp độ nhân quả.
 Thông tin thu được qua giai đoạn phân tích sau đó được chuyển thành kiến thức trong
giai đoạn hiểu biết sâu sắc.
 Việc khai thác kiến thức có thể xảy ra do trực giác của những người ra quyết định và
do đó thường dựa trên kinh nghiệm của họ.
 Các mô hình học tập quy nạp cũng có thể tỏ ra rất hữu ích trong giai đoạn này, đặc
biệt khi áp dụng cho dữ liệu có cấu trúc.

- Quyết định (Decision):

 Kiến thức thu được là kết quả của giai đoạn hiểu biết sâu sắc được chuyển thành quyết
định và sau đó thành hành động.
 Tính sẵn có của các phương pháp luận kinh doanh thông minh cho phép các giai đoạn
phân tích và thấu hiểu được thực hiện nhanh chóng hơn để có thể đưa ra các quyết
định hiệu quả hơn và kịp thời hơn, phù hợp hơn với các ưu tiên chiến lược của một tổ
chức nhất định.

- Đánh giá (Evaluation):

 Cuối cùng, giai đoạn thứ tư của chu kỳ kinh doanh thông minh liên quan đến việc đo
lường và đánh giá hiệu suất.
 Các chỉ số đo lường mở rộng nên được đưa ra không chỉ giới hạn ở khía cạnh tài chính
mà còn tính đến các chỉ số hoạt động chính được xác định cho các bộ phận khác nhau
của công ty.

8
PHẦN 2. TỔNG QUAN VỀ DATA WAREHOUSE

2.1. Mở đầu về Data Warehouse

2.1.1. Khái niệm Data Warehouse

Kho dữ liệu (DW) là một tập hợp dữ liệu được tạo ra để hỗ trợ việc ra quyết định, nó cũng là
một kho lưu trữ dữ liệu lịch sử và hiện tại mà các nhà quản lý trong toàn tổ chức quan tâm.
Theo Bill Inmon, kho dữ liệu là một tập các dữ liệu biến đổi theo thời gian, được định hướng
chủ đề, tính hợp và có tính bền vững để hỗ trợ quá trình ra quyết định.

Thuật ngữ kho dữ liệu còn chỉ toàn bộ các hoạt động có liên quan với nhau trong việc thiết kế,
triển khai và sử dụng kho dữ liệu.

2.1.2. Phân loại dữ liệu trong Data Warehouse

Dữ liệu nội bộ (Internal data):

 Dữ liệu nội bộ được lưu trữ phần lớn trong cơ sở dữ liệu được gọi là hệ thống giao
dịch hoặc hệ thống hoạt động.
 Dữ liệu nội bộ có thể coi như là xương sống của hệ thống thông tin doanh nghiệp.
 Dữ liệu được lưu trữ trong các hệ thống hoạt động thường liên quan đến các thực thể
chính trong các quy trình của công ty, doanh nghiệp, có thể kể đến như: khách hàng,
doanh thu, nhân viên, nhà cung cấp...

Dữ liệu bên ngoài (External data):

 Để nguồn dữ liệu nội bộ được phong phú, đa dạng hơn, cần thu thập thêm các dữ liệu
từ bên ngoài.
 Các dữ liệu này thường chứa thông tin về vị trí địa lý cụ thể của các thực thể và được
cung cấp bởi hệ thống thông tin địa lý (GIS).
 Dựa trên những dữ liệu về yếu tố địa lý đó, thông tin được trực quan hóa bằng các đồ
thị, giúp cho việc thực hiện các hoạt động phân tích dữ liệu theo chủ đề cụ thể.

Dữ liệu cá nhân (Personal data):

 Dựa trên những thông tin và các phân tích, đánh giá được lưu trữ trong các trang tính
hoặc cơ sở dữ liệu cục bộ bên trong máy tính cá nhân, những người ra quyết định sẽ
thực hiện phân tích tình hình kinh doanh của doanh nghiệp.
 Việc truy xuất thông tin như vậy và tích hợp với dữ liệu có cấu trúc từ các nguồn bên
trong và bên ngoài là một trong những mục tiêu của hệ thống quản lý tri thức.

2.1.3. Các đặc trưng của kho dữ liệu

9
Hướng chủ đề (Subject oriented):

 Định hướng chủ đề cung cấp một cái nhìn tổng quan hơn về tổ chức.
 Dữ liệu được tổ chức theo chủ đề chi tiết như sản phẩm, doanh thu bán hàng hoặc
khách hàng.
 Tập trung vào việc mô hình và phân tích dữ liệu cho việc ra quyết định chứ không
phải xử lý các giao dịch hay tác nghiệp hàng ngày.

Tích hợp (Integrated):

 Tích hợp có quan hệ mật thiết với định hướng chủ đề.
 Kho dữ liệu phải đặt dữ liệu từ các nguồn khác nhau vào một định dạng nhất quán.
 Cần phải giải quyết các xung đột về đặt tên và sự khác biệt là đơn vị đo lường.
 Một kho dữ liệu được coi là được tích hợp hoàn toàn.

Dữ liệu theo thời gian (Time variant):

 Thời gian là một trong những khía cạnh quan trọng mà tất cả các kho dữ liệu cần phải
hỗ trợ. Mọi kho dữ liệu đều có chất lượng tạm thời.
 Kho dữ liệu lưu trữ dữ liệu lịch sử, chứ không nhất thiết phải cung cấp dữ liệu hiện tại
(ngoại trừ trong hệ thống thời gian thực).
 Phát hiện những sai lệch về xu hướng và các mối quan hệ lâu dài để dự báo và đưa đến
việc ra quyết định.

Bền vững (Nonvolatile):

 Sau khi dữ liệu được nhập vào kho dữ liệu, người dùng không thể sửa hoặc cập nhật
dữ liệu mà chỉ có thể nạp dữ liệu và truy cập.
 Dữ liệu lỗi thời bị loại bỏ và các thay đổi được ghi lại dưới dạng dữ liệu mới.

2.1.4. Data Marts

* Khái niệm:

Data marts là một tập hợp con của kho dữ liệu tổng thể và thường được định hướng cho một
bộ phận, chức năng cụ thể của doanh nghiệp nhằm mục đích thực hiện phân tích thông tin
kinh doanh và thực hiện các ứng dụng hỗ trợ quyết định cụ thể cho chính chức năng đó.

Data mart có thể được coi là một kho dữ liệu chức năng hoặc bộ phận có quy mô nhỏ hơn và
kiểu cụ thể hơn so với kho dữ liệu tổng thể của công ty.

Data mart cải thiện thời gian phản hồi của người dùng cuối bằng cách cho phép người dùng
có quyền truy cập vào loại dữ liệu cụ thể mà họ cần xem thường xuyên nhất.

10
* Ưu điểm so với kho dữ liệu đầy đủ:

 Dễ dàng truy cập tới những dữ liệu cần thiết.


 Tạo chế độ xem chung bởi một nhóm người dùng.
 Cải thiện thời gian phản hồi của người dùng cuối.
 Chi phí thấp hơn so với việc triển khai kho dữ liệu đầy đủ.
 Người dùng tiềm năng được xác định rõ ràng hơn so với trong kho dữ liệu đầy đủ.
 Chỉ chứa dữ liệu thiết yếu của doanh nghiệp và ít lộn xộn hơn.

2.2. Kiến trúc kho dữ liệu đa tầng

Hình 2.1. Kiến trúc kho dữ liệu đa tầng [1]

- Bản thân kho dữ liệu cùng với các Data marts bổ sung chứa dữ liệu và các chức năng cho
phép dữ liệu có thể được truy cập, trực quan hóa và sửa đổi.

- Các ứng dụng thu thập dữ liệu còn được biết đến như là Trích xuất – Biến đổi – Tải (ETL)
hoặc các công cụ back-end cho phép dữ liệu được trích xuất, chuyển đổi và tải vào kho dữ
liệu.

- Các ứng dụng hỗ trợ ra quyết định và kinh doanh thông minh đại diện cho front-end và cho
phép người dùng thực hiện các phân tích và trực quan hóa kết quả.

2.2.1. Nguồn Dữ liệu (Data Sources)

- Dữ liệu được lấy từ nhiều hệ thống kế thừa hoạt động độc lập và có thể từ các nhà cung cấp
dữ liệu bên ngoài.
11
- Dữ liệu cũng có thể đến từ hệ thống OLTP hoặc ERP.

- Dữ liệu Web ở dạng nhật ký Web cũng có thể cung cấp nguồn dữ liệu cho kho dữ liệu.

2.2.2. Extract – Transform - Load

Trích xuất dữ liệu là giai đoạn dữ liệu được trích xuất từ các nguồn dữ liệu đồng nhất hoặc
không đồng nhất. Chuyển đổi dữ liệu là giai đoạn dữ liệu được chuyển đổi để lưu trữ ở định
dạng hoặc cấu trúc thích hợp cho các mục đích truy vấn. Tải dữ liệu là giai đoạn trong đó dữ
liệu được tải vào cơ sở dữ liệu đích cuối cùng, cụ thể hơn là data mart hoặc data warehouse.

* Extract

Giai đoạn trích xuất nhằm mục đích đưa dữ liệu về một định dạng duy nhất thích hợp cho quá
trình biến đổi.

Dữ liệu được trích xuất từ các nguồn bên trong và bên ngoài có sẵn.

Việc lựa chọn dữ liệu sẽ được nhập dựa trên thiết kế kho dữ liệu, do đó phụ thuộc vào thông
tin cần thiết của các phân kinh doanh thông minh và hệ thống hỗ trợ quyết định hoạt động
trong một miền ứng dụng cụ thể.

* Transform

Mục tiêu của giai đoạn làm sạch và biến đổi là cải thiện chất lượng của dữ liệu được trích xuất
từ các nguồn khác nhau thông qua việc sửa chữa, loại bỏ các điểm không nhất quán, không
chính xác và các giá trị bị thiếu.

Một số kiểu biến đổi thường áp dụng trong giai đoạn này có thể kể đến như:

 Xóa bỏ các cột thông tin dư thừa, chỉ dữ lại các cột dữ liệu cần thiết.
 Xác định các giá trị Null và loại bỏ hoặc có thể xử lý chúng bằng cách chuyển về một
giá trị cụ thể phù hợp với yêu cầu của kho dữ liệu.
 Định dạng lại kiểu dữ liệu cho phù hợp (VD: Kiểu dữ liệu tiền tệ, kiểu date,...)
 Dịch các giá trị được mã hóa.
 Mã hóa các giá trị dạng tự do.
 Transposing hoặc pivoting.
 Đổi tên cột dữ liệu.
 Tách một cột thành nhiều cột.
 Hợp nhất nhiều cột thành một cột duy nhất.

 Việc làm sạch và biến đổi dữ liệu giúp giảm thời gian phản hồi theo yêu cầu của các truy
vấn và phân tích tiếp theo mà kho dữ liệu dự định.

12
* Load

Dữ liệu sau khi được trích xuất và biến đổi sẽ được tải vào các bảng của kho dữ liệu để cung
cấp cho các nhà phân tích và các ứng dụng hỗ trợ ra quyết định.

2.2.3. Metadata

Siêu dữ liệu (metadata) được thiết lập nhằm ghi lại ý nghĩa của dữ liệu chứa trong kho dữ
liệu, hay có thể nói là dữ liệu mô tả dữ liệu.

Siêu dữ liệu cho biết mỗi thuộc tính của kho dữ liệu, nguồn dữ liệu ban đầu, ý nghĩa của
chúng và các biến đổi đối với dữ liệu này.

Thông tin trong các bản ghi được cung cấp bởi siêu dữ liệu phải được cập nhật liên tục để
phản ánh bất kỳ sửa đổi nào trong cấu trúc kho dữ liệu. Theo đó, người dùng kho dữ liệu có
thể truy cập trực tiếp vào kho dữ liệu thông qua trình duyệt web theo các quyền truy cập liên
quan đến vai trò của từng nhà phân tích.

2.3. Phân tích các khối (cubes) và đa chiều

2.3.1. Dimension tables

Bảng dimension chứa các thuộc tính mô tả (hoặc trường), thường là các trường dạng văn bản
(hoặc các số rời rạc). Các thuộc tính này được thiết kế để phục vụ hai mục đích quan trọng là
ràng buộc truy vấn, lọc và gắn nhãn tập kết quả truy vấn.

Các thuộc tính dimension có thể là:

 Verbose (các nhãn bao gồm các từ đầy đủ).


 Descriptive – mô tả.
 Complete – đầy đủ (không có giá trị bị thiếu).
 Có giá trị riêng biệt (chỉ có một giá trị cho mỗi hàng của bảng dimension).
 Đảm bảo chất lượng (không có lỗi chính tả).

Mục tiêu của bảng dimension là tạo ra các thứ nguyên phù hợp, được tiêu chuẩn hóa, có thể
được chia sẻ trong môi trường kho dữ liệu của doanh nghiệp và cho phép kết hợp với nhiều
bảng fact biểu diễn cho các quy trình kinh doanh khác nhau.

2.3.2. Fact tables

Bảng Fact thường đề cập đến các giao dịch hoặc các giá trị đo lường.

Liên kết đến các bảng dimenson, được yêu cầu để tham chiếu chính xác thông tin có trong
mỗi bảng Fact.

13
Ví dụ, một bảng Fact có thể chứa các giao dịch bán hàng và tham chiếu đến một số bảng
dimension, chẳng hạn như thời gian, nhà cung cấp, sản phẩm, điểm bán hàng, khách hàng.
Các thước đo lãi suất tương ứng là các thuộc tính như số lượng mặt hàng đã bán, đơn giá và
chiết khấu.

Tất cả các bảng Fact có hai hoặc nhiều khóa phụ kết nối với khóa chính của bảng Dim. Khi tất
cả các khóa trong bảng Fact khớp chính xác với các khóa chính tương ứng của chúng trong
các bảng Dim thì các bảng đó thỏa mãn tính toàn vẹn tham chiếu.

2.3.3. OLTP và OLAP

OLTP (hệ thống xử lý giao dịch trực tuyến) là một thuật ngữ được sử dụng cho một hệ thống
giao dịch chịu trách nhiệm chính trong việc thu thập và lưu trữ dữ liệu liên quan đến các chức
năng kinh doanh hàng ngày.

Hệ thống OLTP giải quyết nhu cầu kinh doanh quan trọng là tự động hóa các giao dịch kinh
doanh hàng ngày và chạy các báo cáo điện tử theo thời gian thực và các phân tích định kỳ.
Nhưng các hệ thống này không được thiết kế để phân tích đặc biệt và các truy vấn phức tạp
xử lý một số mục dữ liệu. Mặt khác, OLAP được thiết kế để giải quyết nhu cầu này bằng cách
cung cấp phân tích đặc biệt về dữ liệu tổ chức một cách hiệu quả và hiệu quả hơn nhiều.

2.3.4. Các phép toán OLAP chuẩn tắc

Cấu trúc hoạt động chính trong OLAP dựa trên một khái niệm gọi là khối (cube). Khối OLAP
là một cấu trúc dữ liệu đa chiều (thực tế hoặc ảo) cho phép phân tích dữ liệu nhanh chóng.

Các phép toán OLAP chuẩn tắc bao gồm:

- Roll-up: Phép toán Roll-up, còn được gọi là drill-up, là phép toán tổng hợp dữ liệu trong
khối bằng cách:

 Tiếp tục lên đến cấp độ cao hơn dọc theo một chiều duy nhất được xác định qua hệ
thống phân cấp khái niệm.
 Giảm chiều dữ liệu.

- Roll-down: Phép toán Roll-down, còn được gọi là drill-down, là thao tác ngược lại với thao
tác Roll-up. Nó cho phép điều hướng thông qua một khối dữ liệu từ thông tin tổng hợp và hợp
nhất đến thông tin chi tiết hơn. Có thể được thực hiện theo hai cách:

 Chuyển xuống cấp thấp hơn dọc theo phân cấp chiều duy nhất.
 Thêm chiều dữ liệu.

- Slice: Lát cắt là tập con của mảng nhiều chiều tương ứng với giá trị đơn ở một chiều nào đó
và phép chiếu ở các chiều còn lại. Là phép toán chọn theo điều kiện bằng.
14
- Dice: Khúc cắt là tập con của mảng nhiều chiều mà được chọn theo dải trên 1 chiều hoặc
chọn bằng trên nhiều chiều.

- Pivot: Phép toán pivot, còn được gọi là phép quay, tạo ra chuyển động quay của các trục,
hoán đổi một số chiều để có được một dạng xem khác của một khối dữ liệu.

2.4. Lược đồ dữ liệu trong Data warehouse

2.4.1. Lược đồ hình sao (Star Schema)

- Lược đồ hình sao phân tách dữ liệu quy


trình kinh doanh thành các dữ liệu chứa
dữ liệu định lượng có thể đo lường và các
chiều là các thuộc tính mô tả liên quan
đến dữ liệu thực tế.

- Gồm 1 bảng Fact (bảng sự kiện) nằm ở


trung tâm và được bao quanh bởi những
bảng Dimension (bảng chiều). Dữ liệu của Hình 2.2. Ví dụ về lược đồ hình sao [4]
lược đồ hình sao không được chuẩn hoá.
Các câu hỏi nhằm vào bảng Fact và được cấu trúc bởi các bảng Dimension.

- Ưu điểm:

 Bảng Fact, Dimension được mô tả rõ ràng, dễ hiểu.


 Bảng Dim là bảng dữ liệu tĩnh, bảng Fact là dữ liệu động được nạp bằng các thao tác.
 Khoá của Fact được tạo bởi khoá của các bảng Dim, nghĩa là khoá chính của các bảng
Dim chính là khoá của bảng Fact.

- Nhược điểm: Lược đồ hình sao không được chuẩn hóa nghĩa là các quy tắc chuẩn hóa thông
thường được áp dụng cho cơ sở dữ liệu quan hệ giao dịch được nới lỏng trong quá trình thiết
kế và triển khai lược đồ hình sao.

2.4.2. Lược đồ bông tuyết (Snowflake Schema)

- Là dạng mở rộng của lược đồ hình sao bằng các bổ sung các Dim. Bảng Fact như lược đồ
hình sao, bảng Dim được chuẩn hoá. Các chiều được cấu trúc rõ ràng. Bảng Dim được chia
thành chiều chính hay chiều phụ.

- Ưu điểm: Số chiều được phân cấp thể hiện dạng chuẩn của bảng Dim.

- Nhược điểm: Cấu trúc phi dạng chuẩn của lược đồ hình sao phù hợp hơn cho việc duyệt các
chiều.

15
Hình 2.3 Ví dụ về lược đồ hình bông tuyết [10]

2.4.3. Lược đồ chòm sao (Constellation Schema)

- Lược đồ chòm sao là sự kết hợp của nhiều Data Mart tức là chứa nhiều bảng Fact và cùng sử
dụng chung một số bảng Dim.

- Các thành phần của lược đồ chòm sao: bảng sự kiện (Fact), bảng chiều (Dimension) và
đường kết nối giữa bảng Fact và bảng Dim. Bảng Fact là dữ liệu số, có tính toán và bảng có
khóa ngoại nhằm để liên kết các bảng chiều. Bảng Dim chứa thông tin mô tả các nghiệp vụ
thông thường là dữ liệu text và các mô tả, bảng Dim chỉ có một khóa chính và liên kết với
bảng Fact.

- Đặc điểm của lược đồ là có 2 hoặc nhiều bảng fact, tái sử dụng các chiều.

Hình 2.4. Ví dụ về lược đồ kiểu chòm sao [11]

16
PHẦN 3. ỨNG DỤNG DATA WAREHOUSE VÀ BUSINESS INTELLIGENCE VÀO
BÀI TOÁN DỊCH VỤ CHO VAY TÍN DỤNG

3.1. Khảo sát

3.1.1. Quy trình nghiệp vụ

* Tổng quan về dịch vụ tài chính

- Khái niệm: Dịch vụ tài chính (Financial Services) là những dịch vụ có liên quan chặt chẽ
đến quá trình lưu chuyển và sử dụng vốn, tiền tệ trong nền kinh tế.

- Vai trò đối với nền kinh tế:

+ Xúc tiến đầu tư: Để thỏa mãn nhu cầu của người tiêu dùng, các nhà sản xuất buộc
phải đầu tư nhiều hơn. Khi đó, các dịch vụ tài chính sẽ giải cứu họ thông qua việc huy động
vốn. Nhà đầu tư có thể huy động thêm vốn thông qua thị trường chứng khoán, thu hút đầu tư
từ nước ngoài.

+ Thúc đẩy tiết kiệm: Quỹ tương hỗ trong các dịch vụ tài chính mang lại nhiều cơ hội
cho các hình thức tiết kiệm đa dạng. Nhiều cơ hội tái đầu tư khác nhau cũng được cung cấp
cho những người quan tâm đến sự tăng trưởng tiết kiệm của họ.

+ Giảm thiểu rủi ro: Nhờ sự hiện diện của các công ty bảo hiểm, rủi ro của các doanh
nghiệp cũng như các dịch vụ tài chính được giảm thiểu. Các công ty bảo hiểm không chỉ bảo
vệ chủ thể khỏi điều kiện kinh doanh biến động, mà còn tránh được những rủi ro do tác động
bên ngoài gây nên, ví dụ như thiên tai, thảm họa,…

+ Tối đa hóa lợi nhuận: Các doanh nghiệp có thể tối đa hóa lợi nhuận nếu như có sự
hiện diện của các dịch vụ tài chính. Điều này có thể thực hiện được do sự sẵn có của tín dụng
ở mức độ hợp lý.

+ Góp phần tăng trưởng và phát triển kinh tế: Tất cả các ngành phát triển một cách
đồng đều đều cần thiết cho sự phát triển kinh tế nói chung. Trong đó, việc phân phối đồng đều
nguồn vốn cho tất cả các lĩnh vực được các dịch vụ tài chính đảm bảo. Điều này mang lại sự
tăng trưởng cân bằng của nền kinh tế, cùng với đó tạo ra nhiều triển vọng việc làm hơn cho
lao động.

* Nghiệp vụ cho vay

- Khái niệm: Cho vay là một hình thức cấp tín dụng, theo đó người cho vay (cá nhân, tổ chức,
ngân hàng,...) giao cho khách hàng một khoản tiền để sử dụng vào mục đích và thời hạn nhất
định theo thỏa thuận với nguyên tắc có hoàn trả cả gốc và lãi.

17
- Đặc điểm cho vay:

+ Chủ thể bao giờ cũng có hai bên tham gia: Bên cho vay – là người có tài sản chưa
dùng đến, muốn cho người khác sử dụng để thỏa mãn một số lợi ích của mình và Bên vay – là
người đang cần sử dụng tài sản đó để thỏa mãn nhu cầu của mình (về kinh doanh hoặc vốn).

+ Hình thức pháp lý của việc cho vay được thể hiện dưới dạng hợp đồng tín dụng tài
sản.

+ Sự kiện cho vay phát sinh bởi hai hành vi căn bản là hành vi ứng trước và hành vi
hoàn trả một số tiền (hay tài sản) nhất định là các vật cùng loại.

+ Việc cho vay bao giờ cũng dựa trên sự tín nhiệm giữa người cho vay đối với người
đi vay về khả năng hoàn trả tiền vay.

- Vai trò của hoạt động cho vay:

+ Đối với nền kinh tế: Góp phần thu hút vốn đầu tư, mở rộng sản xuất, thúc đẩy đổi
mới công nghệ, thiết bị, cải tiến khoa học kỹ thuật.

+ Đối với người đi vay: Việc vay vốn ngân hàng giúp khách hàng tập trung được vốn
kinh doanh đồng bộ, giảm chi phí huy động và chủ động trong việc hoàn trả gốc và lãi theo
hợp đồng.

+ Đối với lợi ích của ngân hàng: Hoạt động cho vay là hoạt động chứa nhiều rủi ro
tiềm ẩn, nhưng nó lại là hoạt động chính của ngân hàng cho vay. Bên cạnh rủi ro tiềm ẩn thì
ngân hàng cho vay thu được lãi suất phù hợp với các khoản vay đó và đó cũng là thu nhập
chính của ngân hàng cho vay.

* Phân loại nghiệp vụ cho vay:

18
- Phân loại theo thời gian (thời hạn cho vay):

+ Cho vay ngắn hạn: là những khoản cho vay có thời hạn không quá 1 năm, nhằm tài
trợ cho nhu cầu vốn lưu động của doanh nghiệp, nhu cầu chi tiêu ngắn hạn của Chính phủ và
nhu cầu tiêu dùng của cá nhân.

+ Cho vay trung hạn: là những khoản cho vay có thời hạn trên 1 năm đến 5 năm.
Khoản tín dụng này thường được sử dụng để đầu tư đổi mới, nâng cấp cơ sở hạ tầng kỹ thuật,
thiết bị công nghệ hoặc mở rộng sản xuất.

+ Cho vay dài hạn: là những khoản vay trên 5 năm. Các khoản này thường dùng để
đầu tư vào vốn cố định của doanh nghiệp, các lĩnh vực xây dựng cơ bản, bất động sản và cho
vay tiêu dùng cá nhân vào các nhu cầu nhà ở, phương tiện vận tải…

- Phân loại theo mục đích sử dụng tiền vay:

+ Cho vay sản xuất: Khách hàng sử dụng vốn chuyên để sản xuất ra sản phẩm hàng
hóa. Bao gồm cho vay nông nghiệp, công nghiệp, lâm – ngư – diêm nghiệp.

+ Cho vay lưu thông: Khách hàng sử dụng vốn vay chuyên để kinh doanh hàng hóa,
dịch vụ. Bao gồm cho vay thương mại (mua – bán kinh doanh hàng hóa nội địa, kinh doanh
xuất – nhập khẩu); cho vay kinh doanh dịch vụ.

+ Cho vay tiêu dùng: Khách hàng sử dụng vốn chuyên để phục vụ cho nhu cầu sinh
hoạt cá nhân.

- Phân loại theo tài sản đảm bảo:

+ Cho vay có tài sản đảm bảo: Khách hàng phải có tài sản thế chấp, cầm cố hoặc bảo
lãnh của bên thứ ba làm đảm bảo.

+ Cho vay không có tài sản đảm bảo: Thường được cấp cho các khách hàng có uy tín,
làm ăn thường xuyên có lãi, tài chính vững mạnh, ít xảy ra tình trạng nợ nần dây dưa, hoặc
món vay tương đối nhỏ so với vốn của người vay.

- Phân loại theo tính chất hoàn trả:

+ Cho vay hoàn trả trực tiếp: Người đi vay chính là người phải trả nợ trực tiếp cho
ngân hàng.

+ Cho vay hoàn trả gián tiếp: Người đi vay không phải là người trả nợ, loại cho vay
này thường được thực hiện bằng cách chiết khấu thương phiếu và các giấy tờ có giá trị còn
thời hạn thanh toán hoặc thực hiện nghĩa vụ bao thanh toán.

19
- Phân loại theo phương pháp hoàn trả:

+ Cho vay hoàn trả trả góp: Vốn vay được trả làm nhiều kỳ, được góp lại khi nào đủ
nợ gốc và lãi theo hợp đồng tín dụng được kết thúc.

+ Cho vay hoàn trả một lần: Vốn vay và lãi được trả một lần khi đến hạn thanh toán.

+ Cho vay hoàn trả theo yêu cầu: Vốn vay được trả theo yêu cầu của bên cho cho vay
hoặc bên đi vay.

- Phân loại theo phương thức cho vay:

+ Cho vay theo món: Cho vay theo món cũng gọi là cho vay từng lần vì khi có nhu
cầu vốn khách hàng làm hồ sơ xin vay một khoản tiền cho một mục đích sử dụng vốn cụ thể.

+ Cho vay theo hạn mức tín dụng: Là loại cho vay mà doanh nghiệp chỉ cần làm đơn
xin vay lần đầu, sau đó trên cơ sở hợp đồng, doanh nghiệp lập kế hoạch vay và trả nợ gửi đến
ngân hàng.

+ Các phương thức cho vay khác như: Cho vay ứng trước, cho vay thấu chi, cho vay
đồng tài trợ và các loại cho vay khác.

* Quy trình cho vay:

Người cho Người cần Quy trình cho vay


vay vay

Yes
Khách hàng có Lập hồ sơ Phân tích tín Quyết định Ký hợp Giải ngân
nhu cầu vay vay vốn dụng tín dụng đồng vay

No
Thông báo và lý
Giám sát tín dụng
do

Yes
Thanh toán
trả nợ

No

Thanh lý tín dụng

- Bước 1: Lập hồ sơ vay vốn

Cán bộ tín dụng căn cứ vào chế độ thể lệ tín dụng của từng loại cho vay để hướng dẫn
người vay thành lập hồ sơ vay vốn.
20
- Bước 2: Phân tích tín dụng

+ Xác định khả năng hiện tại và tương lại của khách hàng trong việc sử dụng vốn vay
và hoàn trả nợ vay.

+ Mục tiêu:

 Hạn chế tình trạng thông tin không cân xứng


 Đánh giá chính sách mức độ rủi ro của khách hàng.
 Đánh giá chính xác nhu cầu vay vốn của khách hàng.

- Bước 3: Quyết định tín dụng

Ngân hàng sẽ ra quyết định chấp thuận hay không chấp thuận cho vay đối với một hồ
sơ vay vốn của khách hàng.

- Bước 4: Giải ngân

+ Giải ngân là nghiệp vụ cấp tiền cho khách hàng hay phát tiền vay trên cơ sở mức tín
dụng đã cam kết theo hợp đồng.

+ Nguyên tắc giải ngân: phải gắn liền sự vận động tiền tệ với sự vận động hàng hóa
hoặc dịch vụ có liên quan, nhằm kiểm tra mục đích sử dụng vốn vay của khách hàng và đảm
bảo khả năng thu nợ. Nhưng đồng thời cũng phải tạo sự thuận lợi, tránh gây phiền hà cho
công việc sản xuất kinh doanh của khách hàng.

- Bước 5: Giám sát tín dụng

+ Giám sát món vay hiệu quả sẽ làm giảm tổn thất tín dụng thông qua việc phát hiện
và đánh giá vấn đề sớm nhất có thể. Đồng thời, nó cũng giúp phát hiện những cơ hội kinh
doanh mới.

+ Nội dung giám sát: Theo dõi khoản vay, xếp hạng tín dụng theo mức độ rủi ro...

- Bước 6: Thanh lí tín dụng

+ Thu hồi, gia hạn nợ.

+ Thanh lí tín dụng.

* Nhu cầu xây dựng Data Warehouse:

- Dựa trên những yêu cầu cần phân tích, kho dữ liệu cần đáp ứng được đối với những dữ liệu
lớn, hơn nữa dữ liệu trong kho dữ liệu cần được chuẩn hóa, thống nhất, toàn vẹn và có tính đa
dạng.

- Trích xuất thông tin khách hàng theo hợp đồng vay tín dụng, theo yêu cầu một cách thuận
tiện và dễ dàng.
21
- Cung cấp cho ngân hàng hoặc các tổ chức tài chính những công cụ phân tích, đánh giá và dự
báo về các yếu tố rủi ro, có tác động tiêu cực tới hoạt động kinh doanh, qua đó có thể đề xuất
được những giải pháp giúp giảm thiểu, phòng ngừa những yếu tố rủi ro đó.

- Kiến trúc cần thuận tiện, linh hoạt, có thể mở rộng hệ thống khi cần phát triển quy mô, hay
khi yêu cầu của tổ chức có những thay đổi.

3.1.2. Phân tích Requirement

- Báo cáo về số tiền cho vay theo: - Báo cáo về lịch sử giao dịch theo:

• Tần suất thanh toán khoản vay. • Loại tài khoản.

• Chế độ khoản vay. • Ngân hàng/tổ chức tín dụng cụ thể

• Phương thức thanh toán. thực hiện giao dịch.

• Thời hạn khoản vay. • Trách nhiệm hoàn trả của khách hàng.

• Giới tính của khách hàng. • Trạng thái của tài khoản vay.

• Khoảng độ tuổi của khách hàng. • Mục đích khoản vay.

• Khoảng thu nhập của khách hàng. • Loại tài sản.

• Khu vực địa lý (Thành phố, bang). • Thời gian (ngày, tháng, năm).

• Thời gian (ngày, tháng, năm).


3.1.3. Quy mô dữ liệu

(Nguồn: www.kaggle.com)
22
- Tên bộ dữ liệu: LTFS Data Science FinHack 3

- Nguồn dữ liệu: https://www.kaggle.com/alphadraco/ltfs-data-science-finhack-3

- Dữ liệu mẫu với các khoản vay của một số ngân hàng và tổ chức tài chính ở Ấn Độ, do tác
giả Ashutosh Tiwari – một thạc sĩ khoa học dữ liệu tính toán tại đại học Indiana của Mỹ đăng
tải từ một năm trước.

- Tổng số file: 5 file .xlsx; tổng số cột: 112 cột; tổng kích thước: 113.23 MB

- Giới thiệu các file:

+ File data_dict.xlsx: Mô tả ỷ nghĩa của các trường dữ liệu trong 2 file train_Data.xlsx
và train_bureau.xlsx

+ File train_Data.xlsx: Là bộ dữ liệu về nhân khẩu học của khách hàng - Customer’s
Demographics (gồm một số thông tin liên quan đến tần suất khoản vay, thời hạn khoản vay,
số tiền giải ngân cho một khoản vay...)

(Nguồn: www.kaggle.com)

23
+ File train_bureau.xlsx: Dữ liệu của văn phòng - Bureau data, chứa các thuộc tính
hành vi và giao dịch của khách hàng như số dư hiện tại, Số tiền cho vay, Quá hạn, ...

(Nguồn: www.kaggle.com)

- Mô tả một số trường dữ liệu quan trọng:

3.2. Phân tích và thiết kế

3.2.1. Kiến trúc Data Warehouse

* Kiến trúc cũ

Người dùng có thể sử dụng trực tiếp database, cụ thể ở đây là dữ liệu nguồn LTFS Data
Science FinHack 3. Tuy nhiên, việc sử dụng kiến trúc cũ có thể dẫn đến trường hợp:

- Làm giảm hiệu năng hệ thống quản lý giao dịch.

- Dữ liệu dùng để phân tích không ổn định...

24
 Do đó, cần xây dựng một kiến trúc mới để có thể giảm thiểu, hạn chế được những bất cập
trên.

* Kiến trúc mới

Từ dữ liệu nguồn, thực hiện các phép tiền xử lý dữ liệu ETL (sử dụng Power Query) ở giai
đoạn Staging. Sau đó, tiến hành xác định các Fact và các Dim cần phân tích theo yêu cầu của
bài toán đặt ra và lưu trữ vào Data Warehouse. Cuối cùng thực hiện phân tích, trực quan hóa
dữ liệu bằng các loại biểu đồ khác nhau, thông qua các tools như PowerBI, Tableau,.. và xuất
ra các báo cáo người dùng.

3.2.2. Quy trình ETL dữ liệu

* Extract: Gộp bảng

25
 Do bộ dữ liệu này được sử dụng để phục vụ dự báo, nhưng vì nhóm em không tập trung
vào việc dự báo nên nhóm em đã gộp hai bảng test_data với train_data thành một bảng mới là
Customer’s Demographics phản ánh về nhân khẩu học của khách hàng và gộp hai bảng
test_bureau với train_bureau thành một bảng mới là Bureau data phản ánh về dữ liệu giao
dịch tại ngân hàng.

* Transform

- Bảng Customer’s Demographics:

+ Xóa bỏ các cột không cần thiết:

+ Loại bỏ các giá trị NULL:

+ Định dạng lại kiểu dữ liệu tiền tệ:

26
+ Định dạng lại kiểu dữ liệu date:

+ Đổi tên cột và tách cột:

+ Xử lý mã hóa:

+ Thêm cột Range_Income: khoảng thu nhập của khách hàng

27
+ Thêm cột Range_Age:

+ Thêm cột Loan_Type: 0-12 tháng thuộc khoản vay ngắn hạn; trên 12 tháng đến 60
tháng thuộc khoản vay trung hạn và lớn hơn 60 tháng thuộc khoản vay dài hạn:

+ Thêm cột Region:

28
- Bảng Bureau data:

+ Xóa bỏ các cột không cần thiết:

+ Loại bỏ các giá trị NULL:

+ Định dạng lại kiểu dữ liệu tiền tệ:

+ Định dạng lại kiểu dữ liệu date:

29
+ Xử lý mã hóa:

+ Chuyển các dữ liệu null tại cột ASSET_CLASS sang Others (các loại tài sản khác):

* Load

30
* Sau quá trình ETL dữ liệu:

3.2.3. Các chiều dữ liệu – Dimensions

* Xác định Dim và Fact

31
* Vẽ voi Dim

3.2.4. Data Exploration

* Tổng quan về các số liệu

32
* Tổng quan về dữ liệu khách hàng

- Phân bố khách hàng theo độ


tuổi và giới tính: Các khoản
vay tập trung chủ yếu ở nhóm
khách hàng có độ tuổi từ 25 –
50, và hầu như ở mọi độ tuổi,
số khách hàng nam vẫn chiếm
số lượng áp đảo so với khách
hàng nữ.

- Phân bố khách hàng theo khu vực địa lý:

+ Theo vùng miền: Các khách


hàng tập trung chủ yếu ở miền
Bắc Ấn Độ với khoảng 39
nghìn khách hàng, tiếp theo là
miền Nam với khoảng 33
nghìn khách hàng và thấp nhất
là miền Đông Bắc.

+ Theo các bang:

 Bang Madhya Pradesh là bang có số khách hàng nhiều nhất với khoảng 19,4 nghìn khách
hàng, tiếp đến là bang Andhra Pradesh với 18,6 nghìn khách hàng và thấp nhất là bang Tamil
Nadu.
33
* Tổng quan về dữ liệu khoản vay

- Theo giới tính: Tổng số tiền


cho vay đối với khách hàng là
nam giới chiếm tỉ trọng áp đảo,
với khoảng 40.72 tỷ chiếm
94,3% tổng số khoản vay của
ngân hàng. Trong khi đó, các
khách hàng là nữ giới chiếm tỷ
trọng khá khiêm tốn với 2.46
tỷ (5.7%).

- Theo thời hạn khoản vay:


Trong 3 loại khoản vay thì
tổng số tiền cho vay của loại
khoản vay trung hạn là cao
nhất với 40.2 tỷ, chiểm tỷ
trọng 93.1%. Tiếp đến là số
khoản vay dài hạn với 2.39 tỷ,
chiếm 5.53% và cuối cùng
thấp nhất là khoản vay ngắn
hạn với 0,59 tỷ, chiếm 1.36%.

- Theo thời gian:

 Số tiền cho vay tăng dần từ năm 2010 đến năm 2014, sau đó có xu hướng giảm tới năm
2016. Đến năm 2017, số tiền cho vay tăng kỷ lục, đạt đỉnh ở mức 10.3 tỷ, nhưng sau đó lại
giảm sâu đến năm 2019 xuống mức chỉ còn 0.34 tỷ.
34
* Tổng quan về dữ liệu giao dịch

- Số tiền giao dịch theo ngân hàng:

 Trong tỷ trọng chung, số tiền đã giao dịch trong lịch sử của ngân hàng NBFC là lớn nhất
với 92.25 tỷ, chiếm 47,71%, tiếp đến lần lượt là các ngân hàng như Nationalized Bank chiếm
tỷ lệ 21.22% và Private Bank chiếm tỷ lệ 17.52%.

- Số tiền giao dịch theo kiểu trách nhiệm hoàn trả:

 Đối với loại trách nhiệm hoàn trả “Individual” có tổng số tiền đã giao dịch là lớn nhất với
141.49 tỷ với tổng số lượt giao dịch là 510000 lượt, thấp nhất là kiểu “Supl Card Holder” chỉ
với 0.05 tỷ.
35
- Theo thời gian:

 Số tiền giao dịch cao nhất vào năm 2017 với 25.49 tỷ sau đó giảm sâu tới năm 2020 xuống
mức chỉ còn 0.71 tỷ. Đối với khoảng thời gian trước đó từ năm 1900 đến 2000 thì nền kinh tế
của Ấn Độ vẫn còn lạc hậu và chưa phát triển nên dịch vụ cho vay tín dụng vẫn còn hạn chế.

3.2.5. Mô hình dữ liệu logic

3.2.6. Mô hình dữ liệu OLTP

36
3.2.7. Mô hình dữ liệu OLAP

Ở đây nhóm em sử dụng lược đồ OLAP kiểu chòm sao, tức là hai Fact cần phân tích gồm
Loan_Fact và Transaction_Fact được kết nối với nhau thông qua hai Dim là Dim_Date và
Dim_Client.

37
3.3. Xây dựng chương trình

3.3.1. Các mẫu Dashboard và phân tích Dashboard

* Dashboard về số tiền cho vay của ngân hang

38
 Phân tích dashboard

- Tổng số khách hàng cho vay hơn 121 nghìn người với tổng số tiền cho vay là hơn 43 tỷ đô.

- Phương thức thanh toán chủ yếu là ECS có tới 33.08 nghìn khách hàng tham gia với tổng số
tiền cho vay là hơn 12 tỷ đô và Direct Debit (ghi nợ trực tiếp) với khoảng 11.7 tỷ đô có
khoảng 32.55 nghìn người đăng ký.

39
- Chế độ mở tài khoản: Arrear (tiền còn thiếu) chiếm khoảng 41.63 tỷ đô (96.4%) còn lại là
Advance (tiền tạm ứng).

- Trạng thái tài khoản: số tiền cho vay của các tài khoản Closed (đã đóng) chiếm 29.5 tỷ đô
(68.3%) còn tài khoản Active (đang hoạt động).

- Loại cho vay: chủ yếu là vay trung hạn (Medium-term) với thời gian khoảng từ trên 1 năm
đến dưới 5 năm với tổng số khách hàng vay là 112.6 nghìn người, tổng số tiền cho vay là 40.2
tỷ đô chiếm 93.1% còn lại là vay dài hạn (Long-term) và vay ngắn hạn (Short-term).

- Độ tuổi của khách hàng: chủ yếu là độ tuổi từ 26-45 có 68.46 nghìn khách hàng đăng ký vay
với số tiền vay trung hạn chiếm 56.8%, vay dài hạn chiếm 52.27% và vay ngắn hạn chiếm
54.73% => độ tuổi lao động có khả năng chi trả.

- Giới tính của khách hàng: phần lớn khách hàng vay đều là nam.

- Thu nhập của khách hàng: các khách hàng vay đều có thu nhập dưới 50 nghìn đô với tổng số
tiền cho vay là hơn 31.8 tỷ đô.

- Phân bố số tiền cho vay theo khu vực địa lý:

+ Miền Bắc có số tiền cho vay là lớn nhất với tổng số tiền cho vay trung hạn là 1.56 tỷ
đô với thành phố BIKANER có số tiền vay nhiều nhất khoảng 132,7 triệu đô.

+ Miền Trung Ấn có số tiền vay gần khoảng 1.2 tỷ đô trong đó thành phố NEEMUCH
có số tiền vay là 95.2 triệu đô.

- Số tiền cho vay theo thời gian:

+Trong năm 2017 có khoảng 26.7 nghìn giao dịch với tổng số tiền cho vay là lớn nhất
khoảng 10.3 tỷ đô và có xu hướng giảm đần trong các năm tiếp theo do các ngân hàng đã đòi
hỏi cao hơn với các đối tượng cho vay, trong vòng 3 tháng cuối tổng số tiền cho vay là 3.2 tỷ
đô, phía Bắc chiếm 291 triệu đô chủ yếu là vay trung hạn.

+ Chủ yếu vào Quý 4 (3 tháng cuối năm) có tổng số tiền cho vay lớn hơn là do khi đó
các ngân hàng cho vay đã giảm mức lãi suất khi đó số lượng khách hàng vay tăng lên.

* Dashboard về lịch sử giao dịch của ngân hàng

40
 Phân tích dashboard: - Tổng số giao dịch trong lịch sử giao dịch là 592.67 nghìn lần với
tổng số tiền đã giao dịch là 193.34 tỷ đô.
41
- Ngân hàng NBFC (Non Banking Financial Company: công ty tài chính phi ngân hàng) có
tổng số giao dịch là lớn nhất 277.2 nghìn lần với tổng số tiền đã cho vay là 92.25 tỷ đô. Tiếp
đến là ngân hàng Nationalized Bank (Ngân hàng quốc hữu hóa) với tổng số giao dịch là 177.5
lần với tổng số tiền giao dịch là 41.02 tỷ đô.

- Mục đích các khoản vay trước đó: cho vay mua nhà, cho vay mua xe, vay tiêu dùng, cho vay
kinh doanh Nông nghiệp, kinh doanh tài chính vi mô, thiết bị xây dựng,....

- Lịch sử trạng thái tài khoản vay của khách hàng: đã đóng (Closed) 88.3 tỷ đô (45.67%),
Active (Đang hoạt động) 86.46 tỷ đô (44.72%), không trả (Delinquent) 16.74 tỷ đô (8.66%)
còn lại là trạng thái khác 1.85 tỷ đô chiếm 0.96%.

- Loại tài sản: loại đạt tiêu chuẩn (Standard) với 83.04 tỷ đô chiếm 42.95%, loại không đạt
tiêu chuẩn với 2.09 tỷ đô chỉ chiếm 1.08% còn lại là loại tài sản khác.

- Trách nhiệm hoàn trả: Individual (Cá nhân) với 141.49 tỷ đô, Joint (Chung) với 27.7 tỷ đô,
Guarantor (Người bảo lãnh) với 23.99 tỷ đô.

- Tính đến năm 2020: ngân hàng có tổng số tiền cho vay nhiều nhất là ngân hàng NBFC
(Công ty tài chính phi ngân hàng) với 511 triệu đô, tiếp đến là ngân hàng Private Bank (Ngân
hàng tư nhân) với 114 triệu đô và ngân hàng Nationalized Bank (Ngân hàng quốc hữu hóa)
với 71.2 triệu đô.

- Tổng số tiền các ngân hàng cho vay chủ yếu là vay cá nhân rồi đến vay theo nhóm và vay có
người bảo lãnh.

3.3.2. Bài học tổng kết

- Hiểu được tính cần thiết của Data Warehouse và BI, các khái niệm cơ bản về cho vay tín
dụng (đặc điểm, tính chất, quy trình nghiệp vụ), các mô hình dữ liệu OLTP, OLAP,... của
môn học.

- Cần phải tìm hiểu, khảo sát kĩ yêu cầu, nghiệp vụ chuyên môn trước khi xử lý dữ liệu, phân
tích và làm báo cáo.

- Dữ liệu thực tế luôn chưa hoàn chỉnh. Cần phải có các bước xử lý dữ liệu sao cho đạt hiệu
quả, dữ liệu cần phải được chọn lọc, chuẩn hóa, thu gọn kích thước để phù hợp với yêu cầu
phân tích.

- Dashboard cần phải bám sát với yêu cầu nghiệp vụ, đảm bảo tính trực quan, đa dạng, thông
tin phải được biểu diễn tường minh, được sắp xếp một cách khoa học,...

- Dashboard phải phục vụ cho nhu cầu đưa ra phân tích, dự báo, ra quyết định,.... không quá
tập trung vào thống kê đơn thuần.
42
TÀI LIỆU THAM KHẢO

[1]. Nguyễn Danh Tú, Slide bài giảng: Kho dữ liệu và kinh doanh thông minh, Viện Toán ứng
dụng và Tin học, Đại học Bách Khoa Hà Nội.

[2]. Ramesh Sharda, Dursun Delen, Efraim Turban, Business Intelligence and Analytics:
Systems for Decision Support, Tenth Edition, Pearson Education Limited, 2014.

[3]. Carlo Vercellis, Business Intelligence: Data Mining and Optimization for Decision
Making, A John Wiley and Sons, Ltd., Publication, 2009.

[4]. Drew Bentley, Business Intelligence and Analytics, Published by Library Press, 2017.

[5]. Ralph Kimball, Margy Ross, The Data Warehouse Toolkit: The Definitive Guide to
Dimensional Modeling, Third Edition, John Wiley & Sons, Inc., 2013.

[6]. https://timviec365.com/blog/dich-vu-tai-chinh-la-gi-new1770.html#xuc-tien-dau-tu

[7]. https://trithuccongdong.net/tai-chinh-ngan-hang/cho-vay-la-gi-cac-hinh-thuc-cho-vay

[8]. https://luatduonggia.vn/dac-diem-cho-vay-cua-to-chuc-tin-dung

[9]. https://topbank.vn/tu-van/quy-trinh-tin-dung-la-gi-tim-hieu-so-do-quy-trinh-tin-dung

[10]. https://hethongbokhoe.com/olap-la-gi-oltp-va-olap-co-gi-khac-nhau/

[11]. http://trituevietvn.com/chi-tiet/-Phan-tich-thiet-ke-xay-dung-kho-du-lieu

43

You might also like