Professional Documents
Culture Documents
Nhom1 5901 Buoi5
Nhom1 5901 Buoi5
Tên đề tài:
TRÍCH YẾU
(Viết thành đoạn văn, chữ in nghiêng)
Nêu lên sự cần thiết của đề tài,... dẫn đến sự cần thiết phải thực hiện đồ án này
i
Nhóm 1
MỤC LỤC
TRÍCH YẾU...................................................................................................................i
MỤC LỤC......................................................................................................................ii
DẪN NHẬP....................................................................................................................1
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT.........................................................................3
2.4. Giới thiệu về phần mềm sử dụng (nêu tên phần mềm nhóm sử dụng tại đây). .3
2.4.1.1. Ưu điểm.......................................................................................................3
2.4.2.1. Giới thiệu giao diện (bao gồm cách cài đặt phần mềm).............................3
ii
Nhóm 1
PHỤ LỤC.......................................................................................................................7
iii
Nhóm 1
LỜI CẢM ƠN
Đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Tài
chính - Marketing đã đưa môn học “Khai phá dữ liệu” vào chương trình giảng dạy.
Đặc biệt, chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn – cô Nguyễn Thị
Trần Lộc đã dạy dỗ, truyền đạt những kiến thức quý báu cho chúng em trong suốt thời
gian học tập vừa qua. Trong thời gian tham gia lớp học của cô, chúng em đã có thêm
cho mình nhiều kiến thức bổ ích, tinh thần học tập hiệu quả, nghiêm túc. Đây chắc
chắn sẽ là những kiến thức quý báu, là hành trang để chúng em có thể vững bước sau
này trong các môn chuyên ngành khác cũng như phục vụ cho thực hành nghề nghiệp
trong tương lai.
Bộ môn Khai phá dữ liệu là môn học thú vị, vô cùng bổ ích và có tính thực tế
cao. Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên khoa
Công nghệ thông tin. Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng tiếp
thu thực tế còn nhiều bỡ ngỡ. Mặc dù chúng em đã cố gắng hết sức nhưng chắc chắn
đồ án môn học khó có thể tránh khỏi những thiếu sót và nhiều chỗ còn chưa chính xác,
kính mong cô xem xét và góp ý để đồ án môn học của chúng em được hoàn thiện hơn.
Kính chúc cô cùng tất cả giảng viên luôn mạnh khỏe và thành công.
iv
Nhóm 1
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
.......................................................................................................................................
Điểm số:........................................................................................................................
Điểm chữ:......................................................................................................................
Giảng viên
v
Nhóm 1
vi
Nhóm 1
vii
Nhóm 1
viii
Nhóm 1
ix
Nhóm 1
DẪN NHẬP
Nêu rõ lý do tại sao chọn đề tại (Sự cần thiết dẫn đến việc chọn đề tài)
STT Tên công việc thực hiện SV thực hiện Ghi chú
1
Nhóm 1
2
Nhóm 1
<< phần này nhóm trình bày dùng khai phá dữ liệu trong kinh doanh
tại….._nhóm tự xây dựng ngữ cảnh cho bộ dữ liệu của mình>>
- Ứng dụng được việc sử dụng phần mềm trong thực hiện khai phá dữ liệu.
- Sử dụng phần mềm Data Melt để chạy các thuật toán: phân lớp, gom cụm và
luật kết hợp.
- Biết phân chia thời gian, công việc cho nhau.
3
Nhóm 1
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Giới thiệu về phần mềm Data Melt
DataMelt (DMelt) là một chương trình phần mềm dùng để tính toán khoa học,
phân tích dữ liệu và trực quan hóa dữ liệu. Chương trình này được sử dụng để phân
tích dữ liệu thống kê, khớp đường cong, khai thác dữ liệu, học máy, tính toán số và vẽ
đồ thị khoa học tương tác ở dạng 2D và 3D. DataMelt được thiết kế dành cho các nhà
khoa học, kỹ sư và sinh viên.
DataMelt là đa nền tảng vì nó được viết bằng Java, do đó nó chạy trên mọi hệ
điều hành có thể cài đặt máy ảo Java. DataMelt cũng sử dụng các ngôn ngữ lập trình
cấp cao, chẳng hạn như Jython, Apache Groovy, JRuby, nhưng mã hóa Java cũng có
thể được sử dụng để gọi các thư viện đồ họa và số liệu của DataMelt.
DataMelt được xếp vào danh mục phần mềm nguồn mở, nhưng nó không hoàn
toàn miễn phí cho mục đích sử dụng thương mại. Tổng quan DataMelt có một số tính
năng để phân tích dữ liệu:
- sử dụng Jython, BeanShell, Groovy, JRuby kịch bản, hoặc tiêu chuẩn Java. Các
Phần mềm: GNU Octave chế độ cũng có sẵn để tính toán tượng trưng;
- có thể được tích hợp với Web dưới dạng applet hoặc các ứng dụng khởi động Web
Java, do đó nó phù hợp với môi trường phân tích phân tán qua Internet;
- có IDE đầy đủ tính năng với tô sáng cú pháp, kiểm tra cú pháp, hoàn thành mã và
máy phân tích. Nó bao gồm một phiên bản IDE cho các thiết bị màn hình nhỏ;
- bao gồm một hệ thống trợ giúp với việc hoàn thành mã dựa trên Java phản ánh
công nghệ;
- sử dụng I / O trung lập nền tảng dựa trên Google Bộ đệm giao thức. Dữ liệu có thể
được viết bằng C + + và được phân tích bằng Java / Jython. Nó có một trình duyệt
cho các đối tượng và đối tượng được tuần tự hóa được tạo bằng Bộ đệm giao thức
Google;
- bao gồm SQLdựa trên và NoQuery cơ sở dữ liệu
- bao gồm các gói để tính toán thống kê, lan truyền lỗi (không chắc chắn) bằng cách
sử dụng mở rộng tuyến tính hoặc phương pháp Monte Carlo cho chức năng tùy ý,
4
Nhóm 1
các tính toán tượng trưng tương tự như các tính toán được tìm thấy trong GNU
Octave dự án hoặc MATLAB, nhưng viết lại bằng Java;
- bao gồm một số mạng thần kinh, chẳng hạn như Phần mềm: JOONE và Encog, có
thể truy cập thông qua GUI hoặc sử dụng tập lệnh Java
- Lịch sử
DataMelt có nguồn gốc từ vật lý hạt trong đó việc khai thác dữ liệu là nhiệm vụ
chính. Nó được tạo ra dưới dạng dự án Software:jHepWork vào năm 2005 và ban đầu
nó được viết để phân tích dữ liệu cho vật lý hạt bằng cách sử dụng khái niệm phần
mềm Java cho dự án Máy va chạm tuyến tính quốc tế được phát triển tại SLAC . Các
phiên bản sau này của jHepWork đã được sửa đổi để sử dụng rộng rãi cho công chúng
(dành cho các nhà khoa học, kỹ sư, sinh viên vì mục đích giáo dục) do dự án Máy va
chạm tuyến tính quốc tế đã bị đình trệ. Năm 2013, jHepWork được đổi tên thành
DataMelt và trở thành một dự án có mục đích chung được cộng đồng hỗ trợ.
Nền tảng DataMelt chạy trên Windows, Phần mềm: macOS, Phần mềm: Linux và
Android nền tảng. Gói dành cho Android được gọi là AWork.
2.1.1.1. Ưu điểm
2.1.2.1. Giới thiệu giao diện (bao gồm cách cài đặt phần mềm)
https://www.oracle.com/java/technologies/javase/jdk19-archive-downloads.html
5
Nhóm 1
6
Nhóm 1
+ Tạo biến JAVA_HOME: Nhấn chọn New và điền tên và giá trị của biến
JAVA_HOME, nhấn OK.
7
Nhóm 1
8
Nhóm 1
https://datamelt.org/download/
9
Nhóm 1
Kỹ thuật này đề cập đến quy trình gán một đối tượng đầu vào nhất định vào một trong
số các danh mục nhất định.
Nó hỗ trợ K-Nearest Neighbor, Phân tích phân biệt tuyến tính (LDA), Phân biệt tuyến
tính của Fisher (FLD), Phân tích phân biệt bậc hai (QDA), Phân tích phân biệt đối xử
chính quy (RDA), Hồi quy logistic (LR), Phân loại Entropy tối đa, Mạng lưới thần
kinh Perceptron đa lớp, Mạng chức năng cơ sở xuyên tâm và nhiều thư viện khác.
K-Nearest Neighbor là một thuật toán phân loại đơn giản nhưng hiệu quả. Nó hoạt
động bằng cách gán một đối tượng mới vào lớp của đối tượng gần nhất trong tập dữ
liệu đào tạo.
Để sử dụng K-Nearest Neighbor trong Data Melt, chúng ta có thể sử dụng thư viện
dmelt.classification.knn
10
Nhóm 1
import dmelt
data = dmelt.io.load_csv("data/iris.csv")
knn = dmelt.classification.knn.KNN(k=3)
knn.fit(data)
prediction = knn.predict(new_data)
print(prediction)
Phân cụm (Clustering) là xác định mối quan hệ hợp lý trong các sản phẩm và nhóm
chúng lại với nhau.
DataMelt chứa một khung để phân tích phân cụm. Nó bao gồm các thuật toán sau:
Cách tiếp cận dễ nhất là chạy trình soạn thảo GUI để thực hiện phân cụm. Trong ví dụ
dưới đây, chúng tôi tạo một số cụm ở chế độ 3D và sau đó truyền dữ liệu giữ GUI để
phân tích phân cụm:
Gói jsat.clustering/ jsat.clustering/cung cấp các lớp Java khác để phân cụm dữ liệu.
Dưới đây là một ví dụ sử dụng dữ liệu đầu vào IRIS, chạy nhiều thuật toán có nghĩa là
k, in điểm số. Sau đó, nó hiển thị các cụm trên một khung vẽ:
Có thể sử dụng tập lệnh Jython để phân cụm dữ liệu trong JSAT. Tập lệnh Jython là
một tập lệnh Python có thể được sử dụng để tương tác với JSAT.
Để thực hiện phân cụm dữ liệu bằng tập lệnh Jython, bạn cần tạo một đối tượng JSAT
và sau đó gọi phương thức cluster() của đối tượng đó. Phương thức cluster() sẽ nhận
dữ liệu cần phân cụm làm đầu vào và trả về một đối tượng cụm.
Ví dụ: Để thực hiện phân cụm K-means với 10 cụm, bạn có thể sử dụng mã sau
import jsat
data = ...
jsat = jsat.JSAT()
13
Nhóm 1
1. Giới thiệu về thuật toán luật kết hợp trong Data Melt:
Thuật toán luật kết hợp là một kỹ thuật khai phá dữ liệu được sử dụng để tìm
các mối quan hệ giữa các biến trong một tập dữ liệu. Thuật toán này được sử dụng
trong nhiều lĩnh vực khác nhau, bao gồm bán lẻ, tiếp thị, và phát triển sản phẩm.
Trong Data Melt, thuật toán luật kết hợp được sử dụng để tìm các luật kết hợp
nhị phân. Một luật kết hợp nhị phân là một tuyên bố về hai biến, trong đó một biến
được gọi là “yếu tố đầu tiên” và biến còn lại được gọi là “yếu tố thứ hai”. Luật kết hợp
xác định rằng nếu yếu tố đầu tiên xảy ra, thì yếu tố thứ hai có khả năng xảy ra.
Thuật toán luật kết hợp trong Data Melt hoạt động theo các bước sau:
- Tính toán hỗ trợ cho tất cả các tập kết hợp: Hỗ trợ là số lần một tập kết hợp
xuất hiện trong tập dữ liệu.
- Tính toán độ tin cậy cho tất cả các luật kết hợp: Độ tin cậy là xác suất rằng
yếu tố thứ hai xảy ra nếu yếu tố đầu tiên xảy ra.
- Lọc các luật kết hợp dựa trên các ngưỡng hỗ trợ và độ tin cậy: Chỉ các luật
kết hợp có hỗ trợ và độ tin cậy lớn hơn hoặc bằng các ngưỡng đã đặt sẽ
được giữ lại.
2. Tiến hành chạy thuật toán luật kết hợp trong Data Melt
14
Nhóm 1
15
Nhóm 1
16
Nhóm 1
PHỤ LỤC
17