You are on page 1of 16

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG

PHÁP SỬ DỤNG

2.1 Các phương pháp của Excel dùng để khai thác dữ liệu

Excel là một phần mềm quen thuộc và thông dùng dùng để tính toán trong bộ Microsoft
Officec có công dụng giúp khai phá, phân tích, thống kê, tính toán các số liệu,... Excel trong
học phần Khoa học dữ liệu này được dùng để thống kê mô tả, phân tích dự báo và lưu các
dữ liệu.

2.1.1 Phương pháp Thống kê mô tả

2.1.1.1 Thống kê bằng công cụ Descriptive Statistics

Cách thực hiện:

 Bước 1: Chuẩn bị bảng số liệu để thống kê


 Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp

thoại Descriptive Statistics.


 Bước 3: Khai báo các thông các thông số Input và lựa chọn các thông số Output

Options.

Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong tháng 03 trong siêu
thị ABC.

Bảng 2.1 Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại Descriptive
Statistics
Trong hộp thoại Descriptive Statistics của ví dụ trên, Input Range là cột chứa dữ liệu thịt
heo, Output Range là ô xuất dữ liệu, Confidence Level for Mean thường là 95%. Sau khi
điền đầy đủ thông tin vào các ô trên ta sẽ có được bảng kết quả gồm các giá trị trung bình
(Mean), Sai số chuẩn (Standard Error), Trung vị (Median),...như sau:

Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistics

2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal

Chức năng của Subtotal:

 Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như:
tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
 Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.
Cách thực hiện:

 Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm.


 Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu.
 Bước 3: Chọn Data → Outline → Subtotal, xuất hiện hộp thoại Subtotal.

Ví dụ: Cần thống kê tổng số tiền mà mỗi nhân viên đã thực hiện

Bảng 3.2 Bảng dữ liệu của nhân viên


Hình 1.2 Hộp thoại Subtotal

Trong hộp thoại Subtotal, cột cần gom nhóm (At each change in) ở ví dụ này là
Saleperson, chọn hàm thống kê (Use function) là Sum, chọn cột thống kê giá trị (Add
subtotal) là Order Amount sau đó chọn OK. Ta được bảng kết quả tổng hợp số tiền mà mỗi
nhân viên thực hiện.

Bảng 4.2 Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện
2.1.1.3 Hợp nhất dữ liệu với Consolidate

Chức năng của Consolidate:

 Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau.
 Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
 Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.
 Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc.

Cách thực hiện:

 Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.


 Bước 2: Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại Consolidate

Ví dụ: Hợp nhất doanh thu của 3 cửa hàng

Bảng 5.2 Doanh thu của 3 cửa hàng


Hình 2.2 Hộp thoại của Consolidate

Tại mục Function (chọn hàm tổng hợp) chọn Sum, Reference là vùng xuất kết quả. Ở
mục All reference (chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất) : ta thêm
các vùng cần hợp nhất của cửa hàng 1, cửa hàng 2, cửa hàng 3 sau đó chọn OK. Ta được
kết quả như dưới:

Bảng 6.2 Bảng hợp nhất doanh thu của 3 cửa hàng
2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable

Chức năng của PivotTable: tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp
khác nhau.

Cách thực hiện:

 Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu.

 Bước 2: Chọn lệnh Insert → PivotTable.

 Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa
PivotTable, click nút OK.

 Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: Filters, Rows, Colums
và Values.

Ví dụ:

Bảng 7.2 Tổng hợp dữ liệu đa chiều với PivotTable


Hình 3.2 Hộp thoại Create PivotTable

Bảng 8.2 Kết quả tổng


hợp dữ liệu đa chiều
bằng PivotTable

2.1.2 Phương pháp phân tích dự báo

2.1.2.1 Phương pháp Trung bình trượt (Moving Average)

Cách thực hiện:


 Bước 1: Chuẩn bị bảng số liệu cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại
Moving Average

 Bước 3: Khai báo các thông số Input va Output Options

Ví dụ: Dự báo số liệu thịt bò bán được của công ty ABC

Bảng 9.2 Số liệu dự báo và hộp thoại Moving Average

Ở mục
Input Range ta chọn vùng dữ liệu cần dự báo, mục Interval chọn số lượng các kì trước đó
muốn dùng để ước tính, ở ví dụ này ta chọn 3, nghĩa là trượt từ 3 kì để được số liệu dự báo.
Cuối cùng, chọn vùng xuất kết quả ở mục Output Range, các ô không đủ số lượng các giá
trị trước đó để tính toán sẽ nhận giá trị #N/A.

2.1.2.2 Phương pháp: San bằng mũ (Exponential Smoothing)

Cách thực hiện:

 Bước 1: Chuẩn bị bảng số liệu cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Exponential Smoothing, xuất hiện hộp
thoại Exponential Smoothing

 Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Dự báo số liệu thịt bò bán được tại siêu thị ABC có hệ số điều chỉnh a=0.3

Bảng 10.2 Số liệu thịt bò bán trong siêu thị ABC và hộp thoại Exponential Smoothing

Input
Range là cột dữ liệu cần dùng để dự báo. Hệ số san bằng Damping factor, là giá trị điều
chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)=0.7 → a=0.3. Hệ số
điều chỉnh là 0.3, ngày 17 số liệu thịt bò được dự báo là 29.88kg.

2.1.2.3 Phương pháp Hồi quy (Regression)

Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến ( gọi là biến phụ thuộc hoặc
biến được giải thích) vào một hay nhiều biến khác (gọi là biến độc lập hoặc biến giải thích).

Cách thực hiện:

 Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

 Bước 2: Chọn lệnh Data → Data Analysis → Regression, xuất hiện hộp thoại
Regression

 Bước 3: Khai báo các thông số Input và Output Options

Ví dụ: Ảnh hưởng của Chi phí lên Doanh thu

Hình 4.2 Hộp thoại của Regression


Input Y Range là vùng địa chỉ chứa biến phụ thuộc Y, ở ví dụ này là Doanh thu, Input X
Range là vùng địa chỉ chứa biến độc lập X (có thể chọn nhiều biến X trong trường hợp hồi
quy đa biến), ở ví dụ này là Chi phí. Độ tin cậy hồi quy (Confidence Level) là 95%.

Bảng 11.2 Bảng kết quả hồi quy

2.1.3
Phương pháp
phân tích tối ưu

Ví dụ: Một nhà quản ly dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao
nhiêu tấn lúa mì và lúa gạo để tối đa hoá lợi nhuận của dự án dựa trên các số liệu sau:

Bảng 12.2 Bảng số liệu dự án


Các bước lập mô hình:

 Bước 1: Xác định biến quyết định

Gọi x1 là lượng lúa gạo và x2 là lượng lúa mì (tấn) cần sản xuất

 Bước 2: Xác định hàm mục tiêu

Mục tiêu của bài toán là tối đa hoá lợi nhuận

Ta có P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max

 Bước 3: Xác động hệ ràng buộc

 Ràng buộc tài nguyên sử dụng:

 Về diện tích đất: 2x1 + 3x2 ≤ 50

 Về nước tưới: 6x1 +4x2 ≤ 90

 Về lao động: 15x1 + 12x2 ≤ 250

 Ràng buộc tự nhiên: x1, x2 ≥ 0

Công cụ Solver để giải mô hình kinh tế

Bước 1: Thiết lập bảng tính

Bảng 13.2 Thiết lập bảng tính


Cho biến x1, x2 bằng 1, sau đó nhập các hệ ràng buộc về diện tích, lượng nước, nhân
công. Dùng hàm Sumproduct để tính các giá trị

Bước 2: Chọn lệnh Data → Analysis → Solver

Hình 5.2 Hộp thoại Solver Parameterss

Bước 3: Nhấn nút Solve để giải mô hình, chọn Sensitivity và nhấn OK để xem kết quả
mô hình

Bảng 14.2 Kết quả tính lợi nhuận tối đa


Ta được lợi nhuận tối đa là $378 và thoã mãn các điều kiện ràng buộc

2.2 Phần mềm Orange

2.2.1 Tổng quan về phần mềm Orange

Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE). Hệ
điều hành này dựa trên kiến trúc x86 (32-bit) của Intel và chạy được dưới bộ vi x86 của
Intel hay AMD. Orange 1.0.0 là hệ điều hành giống như Windows 1.0 của Microsoft.
Orange 1.0.0 sử dụng công nghệ X của SUSE.inc. Orange là một phần mềm đồ họa giúp
người sử dụng dữ liệu giải quyết vấn đề của mình nhanh chóng mà không cần những thuật
toán khó khăn làm cho công việc phân tích dữ liệu dễ dàng hơn, nhanh chóng hơn. Những
người không có kỹ năng mã hóa có thể thực hiện công việc một cách gọn gàng hơn, giúp
tiết kiệm được nhiều thời gian và công sức. Orange khai thác dữ liệu doanh nghiệp từ nhỏ
đến lớn tạo quy trình phân tích công việc giúp mọi vấn đề được giải quyết một cách logic
và hợp lý bằng cách trực quan hóa dữ liệu và các chiếu tuyến tính bảng đồ nhiệt, MDS,
Cây quyết định, Hồi quy, SVM,…

Orange cung cấp cho người dùng bao gồm tiện ích để tích hợp gọn nhất để người sử
dụng phân tích dữ liệu 1 cách dễ dàng

 Data chứa các chức năng biến đổi, tích, nạp, rút gọn dữ liệu
 Visualize giúp người sử dụng dễ dàng quan sát hơn bằng các biểu đồ
 Model phân lớp dữ liệu
 Evaluate: các phương pháp đánh giá mô hình mấy học phân lớp
 Unsupervised: Phân cụm dữ liệu.

You might also like