Professional Documents
Culture Documents
PHÁP SỬ DỤNG
2.1 Các phương pháp của Excel dùng để khai thác dữ liệu
Excel là một phần mềm quen thuộc và thông dùng dùng để tính toán trong bộ Microsoft
Officec có công dụng giúp khai phá, phân tích, thống kê, tính toán các số liệu,... Excel trong
học phần Khoa học dữ liệu này được dùng để thống kê mô tả, phân tích dự báo và lưu các
dữ liệu.
Options.
Ví dụ: Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong tháng 03 trong siêu
thị ABC.
Bảng 2.1 Số liệu bán hàng trong tháng 3 tại siêu thị ABC và hộp thoại Descriptive
Statistics
Trong hộp thoại Descriptive Statistics của ví dụ trên, Input Range là cột chứa dữ liệu thịt
heo, Output Range là ô xuất dữ liệu, Confidence Level for Mean thường là 95%. Sau khi
điền đầy đủ thông tin vào các ô trên ta sẽ có được bảng kết quả gồm các giá trị trung bình
(Mean), Sai số chuẩn (Standard Error), Trung vị (Median),...như sau:
Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistics
Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như:
tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.
Cách thực hiện:
Ví dụ: Cần thống kê tổng số tiền mà mỗi nhân viên đã thực hiện
Trong hộp thoại Subtotal, cột cần gom nhóm (At each change in) ở ví dụ này là
Saleperson, chọn hàm thống kê (Use function) là Sum, chọn cột thống kê giá trị (Add
subtotal) là Order Amount sau đó chọn OK. Ta được bảng kết quả tổng hợp số tiền mà mỗi
nhân viên thực hiện.
Bảng 4.2 Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện
2.1.1.3 Hợp nhất dữ liệu với Consolidate
Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau.
Consolidate có thể hợp nhất dữ liệu theo 2 hình thức:
Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.
Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc.
Tại mục Function (chọn hàm tổng hợp) chọn Sum, Reference là vùng xuất kết quả. Ở
mục All reference (chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất) : ta thêm
các vùng cần hợp nhất của cửa hàng 1, cửa hàng 2, cửa hàng 3 sau đó chọn OK. Ta được
kết quả như dưới:
Bảng 6.2 Bảng hợp nhất doanh thu của 3 cửa hàng
2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable
Chức năng của PivotTable: tổng hợp và phân tích dữ liệu với nhiều góc độ và nhiều cấp
khác nhau.
Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa
PivotTable, click nút OK.
Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: Filters, Rows, Colums
và Values.
Ví dụ:
Bước 2: Chọn lệnh Data → Data Analysis → Moving Average, xuất hiện hộp thoại
Moving Average
Ở mục
Input Range ta chọn vùng dữ liệu cần dự báo, mục Interval chọn số lượng các kì trước đó
muốn dùng để ước tính, ở ví dụ này ta chọn 3, nghĩa là trượt từ 3 kì để được số liệu dự báo.
Cuối cùng, chọn vùng xuất kết quả ở mục Output Range, các ô không đủ số lượng các giá
trị trước đó để tính toán sẽ nhận giá trị #N/A.
Bước 2: Chọn lệnh Data → Data Analysis → Exponential Smoothing, xuất hiện hộp
thoại Exponential Smoothing
Ví dụ: Dự báo số liệu thịt bò bán được tại siêu thị ABC có hệ số điều chỉnh a=0.3
Bảng 10.2 Số liệu thịt bò bán trong siêu thị ABC và hộp thoại Exponential Smoothing
Input
Range là cột dữ liệu cần dùng để dự báo. Hệ số san bằng Damping factor, là giá trị điều
chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a)=0.7 → a=0.3. Hệ số
điều chỉnh là 0.3, ngày 17 số liệu thịt bò được dự báo là 29.88kg.
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến ( gọi là biến phụ thuộc hoặc
biến được giải thích) vào một hay nhiều biến khác (gọi là biến độc lập hoặc biến giải thích).
Bước 2: Chọn lệnh Data → Data Analysis → Regression, xuất hiện hộp thoại
Regression
2.1.3
Phương pháp
phân tích tối ưu
Ví dụ: Một nhà quản ly dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao
nhiêu tấn lúa mì và lúa gạo để tối đa hoá lợi nhuận của dự án dựa trên các số liệu sau:
Gọi x1 là lượng lúa gạo và x2 là lượng lúa mì (tấn) cần sản xuất
Bước 3: Nhấn nút Solve để giải mô hình, chọn Sensitivity và nhấn OK để xem kết quả
mô hình
Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE). Hệ
điều hành này dựa trên kiến trúc x86 (32-bit) của Intel và chạy được dưới bộ vi x86 của
Intel hay AMD. Orange 1.0.0 là hệ điều hành giống như Windows 1.0 của Microsoft.
Orange 1.0.0 sử dụng công nghệ X của SUSE.inc. Orange là một phần mềm đồ họa giúp
người sử dụng dữ liệu giải quyết vấn đề của mình nhanh chóng mà không cần những thuật
toán khó khăn làm cho công việc phân tích dữ liệu dễ dàng hơn, nhanh chóng hơn. Những
người không có kỹ năng mã hóa có thể thực hiện công việc một cách gọn gàng hơn, giúp
tiết kiệm được nhiều thời gian và công sức. Orange khai thác dữ liệu doanh nghiệp từ nhỏ
đến lớn tạo quy trình phân tích công việc giúp mọi vấn đề được giải quyết một cách logic
và hợp lý bằng cách trực quan hóa dữ liệu và các chiếu tuyến tính bảng đồ nhiệt, MDS,
Cây quyết định, Hồi quy, SVM,…
Orange cung cấp cho người dùng bao gồm tiện ích để tích hợp gọn nhất để người sử
dụng phân tích dữ liệu 1 cách dễ dàng
Data chứa các chức năng biến đổi, tích, nạp, rút gọn dữ liệu
Visualize giúp người sử dụng dễ dàng quan sát hơn bằng các biểu đồ
Model phân lớp dữ liệu
Evaluate: các phương pháp đánh giá mô hình mấy học phân lớp
Unsupervised: Phân cụm dữ liệu.