Data mining - classification

Giảng viên:

Nguyễn Quỳnh Chi

Sinh viên:
Trần Tuấn Anh
Đinh Thị Thanh Hương
Nguyền Trường Thọ

Data mining - Classification

MỞ ĐẦU
Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ
các dữ liệu dạng siêu văn bản (dữ liệu Web). Cùng với sự thay đổi và phát triển hàng ngày,
hàng giờ về nội dung cũng như số lượng các trang Web trên Internet thì vấn đề tìm kiếm thông
tin đối với người sử dụng lại càng khó khăn. Có thể nói nhu cầu tìm kiếm thông tin trên một
CSDL phi cấu trúc đã được phát triển chủ yếu cùng với sự phát triển của Internet. Thực vậy,
với Internet con người đã làm quen với các trang Web cũng với vô vàn các thông tin. Trong
những năm gần đây Internet đã trở thành một trong những kên về khoa học, thông tin kinh tế,
thương mại và quảng cáo. Một trong những lý do cho sự phát triển này là sự thấp về giá cả tiêu
tốn khi công khai một tran Web trên Internet. So sánh với những dịch vụ khác như mua bản
hay quảng cáo trên một tờ báo hay tạp chí, thì một trang Web “đòi” rẻ hơn rất nhiều và cập
nhật nhanh chóng hơn tới hàng triệu người dung khắp mọi nơi trên thế giới. Có thể nói trang
Web như là cuốn từ điển Bách khoa toàn thư. Thông tin trên các trang Web đa dạng về mặt nội
dung cũng như hình thức. Có thể nói Internet như một xã hội ảo, nó bao gồm các thông tin về
mọi mặt của đời sống kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh…
Tuy nhiên cũng với sự đa dạng và số lượng lớn thông tin như vậy đã nảy sinh vấn đề quá tải
thông tin. Người ta không thể tự tìm kiếm địa chỉ trang Web chứa thông tin mà mình cần, do
vậy đòi hỏi phải có một trình tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy
các địa chỉ trang Web có nội dung giống với yêu cầu của người tìm kiếm. Các tiện ích này
quản lý dữ liệu như các đối tượng phi cấu trúc. Hiện nay chúng ta đã làm quen với một số các
tiện ích như vậy, đó là: yahoo, google, alvista…
Mặt khác, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể thao, Kinh tế - Xã hội
và xây dựng… Căn cứ vào nội dung của các tài liệu mà khách hàng xem hoặc download về,
sau khi phân lớp chúng ta sẽ biết khách hàng hay tập trung vào nội dung gì trên trang Web của
chúng ta, từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà khách hàng
quan tâm và ngược lại. Còn về phía khách hàng sau khi phân tích chúng ta cũng biết được
khách hàng hay tập trung về vấn đề gì, từ đó có thể đưa ra những hỗ trợ thêm cho khách hàng
đó. Từ những nhu cầu thực tế trên , phân lớp và tìm kiếm trang Web vẫn là bài toán hay và cần
phát triển nghiên cứu hiện nay.

[D08 HTTT1]

Page 2

..........................................14 Phân tích kết quả...............................................................................................12 Thực tế........................................................................14 Giới thiệu về dataset...............................................................................................................................................................................................................................................................17 [D08 HTTT1] Page 3 ..............................................................................................................9 Cây quyết định trong phân lớp dữ liệu..................................................................Data mining ........................................................................Classification MỤC LỤC MỤC LỤC....................................................7 Khảo sát dữ liệu..........................................................3 Giới thiệu.................................................................................9 Tổng quan về phân lớp dữ liệu trong khai phá.......5 Các kỹ thuật khai phá dữ liệu...........................11 Thuật toán C4.........................................................................................................................................4 Ưu thế khai phá dữ liệu....................................................................................................5...........................................................................................7 Công cụ khai phá dữ liệu – Weka..................9 Phân lớp dữ liệu.....6 Cây quyết định........................................................................................................8 Phân lớp dữ liệu sử dụng cây quyết định.....................................................................................................................................................................................................................................7 Các chức năng của Weka Explorer..................................................................4 Khai thác dữ liệu.................................................................11 Định nghĩa.............................................................................................................4 Khái niệm...............................................................................................................................................................................

Classification Giới thiệu Khai thác dữ liệu Khái niệm Khái phá dữ liệu được định nghĩa lá: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu. ngoài thuật ngữ khai phá dữ liệu. Quá trình này bao gồm các bước sau: Bước 1: Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu không thích hợp. Bước 6: Đánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo. trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu. file text… Bước 3: Chọn dữ liệu (data selection): ở bước này. phân tích dữ liệu/mẫu (data/patten analysis). Bước 7: Trình diễn dữ liệu (knowlegde presentation): sử dụng các kĩ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng [D08 HTTT1] Page 4 . Bước 4: Chuyển đổi dữ liệu (data transformation): trong bước này. người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ cơ sở dữ liệu (knowlegde mining from databases). những dữ liệu liên quan trực tiếp đến nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu. dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp. Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khai phá tri thức trong cơ sở dữ liệu (Knowlegde Discovery in Databases – KDD) là như nhau. khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong cơ sở dữ liệu.Data mining . khảo cổ dữ liệu (data archaeology). Bước 2: Tích hợp dữ liệu (data intergration): tích hợp dữ liệu từ các nguồn khác nhau như: cơ sở dữ liệu. Tuy nhiên trên thực tế. kho dữ liệu. kho dữ liệu… Hiện nay. nạo vét dữ liệu (data dredging). trích lọc dữ liệu (knowlegde extraction). Bước 5: Khai phá dữ liệu (data mining): là giai đoạn thiết yếu.

dữ liệu không đầy đủ hoặc biến đổi liên tục. Tìm kiếm những thông tin tiềm ẩn trong dữ liệu mà bằng phương pháp khác không phát hiện được.Data mining . khai phá dữ liệu có thể sử dụng với các cơ sở dữ liệu chứa nhiều nhiễu. thống kê. khai phá dữ liệu có một số ưu thế rõ rệt Ưu thế khai phá dữ liệu Khai phá dữ liệu có nhiều ứng dụng và một số ưu thế rõ rệt được xem xét dưới đây: + So với phương pháp học máy. + Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các dữ liệu trong cơ sở dữ liệu. [D08 HTTT1] Page 5 . Song so với các phương pháp khác. trí tuệ nhân tạo. nó không sử dụng tri thức sẵn có về lĩnh vực  Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được  Kết quả phân tích của thống kê có thể sẽ rất nhiều và khó có thể làm rõ được Với những ưu điểm đó. khai phá dữ liệu đang được áp dụng khai phá dữ liệu nhân sự để đáp ứng tính thường xuyên thay đổi. + Phương pháp thống kê là một trong những nền tảng lí thuyết của Khai phá dữ liệu. thuật toán và kỹ thuật từ nhiều chuyên ngành nghiên cứu khác nhau như học máy. ít biến động và tập dữ liệu không quá lớn. thu nhận mẫu. nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kê còn tồn tại một số điểm yếu mà Khai phá dữ liệu đã khắc phục được:  Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trong rất nhiều cơ sở dữ liệu  Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu. khai phá dữ liệu có lợi thế hơn ở chỗ. Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các cơ sở dữ liệu đầy đủ.Classification Khai phá dữ liệu và phát hiện tri thức trong các cơ sở dữ liệu đã cuốn hút các phương pháp. và chúng thường chỉ bao hàm được các trường hợp quan trọng. cơ sở dữ liệu. Hơn nữa các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được. thu nhận tri thức trong hệ chuyên gia… cùng hướng tới mục tiêu thống nhất là trích lọc ra được các tri thức từ dữ liệu trong các cơ sở dữ liệu khổng lồ. tăng trưởng của dữ liệu.

. Phương pháp hồi qui khác với phân lớp dữ liệu ở chỗ. Các kĩ thuật này có thể liệt kê: phân cụm (clustering). Trước hết chúng ta phải tính độ chính xác của mô hình.Kỹ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có.. • Bước 2: sử dụng mô hình để phân lớp dữ liệu.Classification Các kỹ thuật khai phá dữ liệu Các kỹ thuật khai phá dữ liệu thường được chia làm hai nhóm chính: . hồi qui dùng để dự đoán về các giá trị liên tục còn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training data set). hồi quy (regression). 3 phương pháp thông dụng nhất trong khai phá dữ liệu la: phân cụm dữ liệu. các kỹ thuật này gồm có: phân lớp (classification). . phân lớp dữ liệu và khai phá luật kết hợp. [D08 HTTT1] Page 6 .Data mining . Chúng ta chỉ xét đến phương pháp phân lớp Phân lớp dữ liệu: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu. mô hình sẽ được sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. tóm tắt (summerization).. phân tích sự phá hiện biến đổi và độ lệch. trực quan hóa (visualization). Mỗi mẫu tương ứng với một lớp.Kỹ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời.. vì vậy phương pháp này còn được gọi là học có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy (unsupervised learning). được quyết định bởi một thuộc tính gọi là thuộc tính lớp. Nếu độ chính xác là chấp nhận được. Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình. Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu • Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có. phân tích luật kết hợp (association rules).

Data mining . [D08 HTTT1] Page 7 .Classification Cây quyết định Trong phân lớp dữ liệu hình thức trực quan của mô hình là cây quyết định. Công cụ khai phá dữ liệu – Weka Các chức năng của Weka Explorer Các chức năng chính của Weka Explorer thể hiện trong các thẻ tab của man hình chính. bao gồm: • • • • • • Preprocess: Cho phép mở. lưu một tập tin dữ liệu. điều chỉnh. Sau đây. Classify: Cung cấp các mô hình phân loại dữ liệu hoặc hồi quy. Associate: Khai thác tập phổ biến và luật kết hợp. đánh giá về cây quyết định trong khai phá dữ liệu. Cluster: Cung cấp các mô hình gom cụm. thẻ này chứa các thuậtt toán áp dụng trong tiền xử lý dữ liệu. SelectAttributes: Lựa chọn các thuộc tính thích hợp nhất trong tập dữ liệu. Visualize: Thể hiện dữ liệu dưới dạng biểu đồ. luận văn sẽ trình bầy vai trò.

• (2) Test Options: các tùy chọn để kiểm thử mô hình • o Use training set: sử dụng chính tập dữ liệu huấn luyện để kiểm nghiệm o Supplied test set: Sử dụng một tập dữ liệu khác. binary – nhị phân) o Missing: Số mẫu thiếu giá trị trên thuộc tính đang xét o Distinct: Số giá trị phân biệt o Unique: Số mẫu không có giá trị trùng với mẫu khác • Sử dụng thẻ Classify • (1) Classifer: lựa chọn bộ phân loại và các tham số. có thể tương tác trên danh sách này để thực hiện một chức năng phụ [D08 HTTT1] Page 8 . phần còn lại dành cho kiểm thử (3) Result list: Danh sách kết quả các lần chạy thuật toán.Classification Khảo sát dữ liệu • Sử dụng thẻ Preprocess • (1) Open file: Mở một tập dữ liệu. o Cross-validation: Chia dữ liệu thành nhiều phần (Flods) để thực hiện nhiều lần đánh giá kết quả. o Percentage split: Chia dữ liệu thành 2 phần theo tỉ lệ %. ordinal – thứ tự. • (2) Edit: Hiển thị và chỉnh sửa dữ liệu bằng tay nếu cần thiết.Data mining . • (3) Save: Lưu trữ dữ liệu hiện tại ra tập tin Weka Explorer hỗ trợ một sỗ định dạng arff. csv… • (4) Filter: Các tác vụ tiền xử lý dữ liệu được gọi là các bộ lọc • (5) Selected attribute: Thông tin về thuộc tính đang được chọn o Type: Kiểu dữ liệu của thuộc tính (Numeric – dạng số. Nominal – dạng rời rạc / không số. một phần dùng để xây dựng mô hình.

Trong số các thuộc tính rời rạc có một thuộc tính đặc biệt là phân lớp. ngược lại thuộc tính rời rạc sẽ nhận các giá trị không có thứ tự. các nhân viên kinh doanh có thể ra những quyết sách đúng đắn về lượng mặt hàng cũng như chủng loại bày bán… Một mô hình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng [D08 HTTT1] Page 9 . mỗi mẫu được mô tả bằng một số thuộc tính. Mô hình biểu diễn quan hệ nói trên sau đó sẽ được dùng để xác định nhãn lớp cho các quan sát mới không nằm trong tập mẫu ban đầu. các thuộc tính có thể nhận giá trị không xác định (chẳng hạn. mà các giá trị của nó được gọi là nhãn lớp. nhiệt độ. Ngoài ra. Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa. có nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá trị là biết trước. Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệu tương lai. sức gió. dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục.… của ngày hôm nay và các ngày trước đó. Hay nhờ các luật về xu hướng mua hàng của khách hàng trong siêu thị. Lớp 1 Dữ liệu đầu vào Thuật toán phân lớp hoạt động Lớp 2 Lớp n Thực tế đặt ra nhu cầu từ một cơ sở dữ liệu với nhiều thông tin ẩn ta có thể trích rút ra các quyết định nghiệp vụ thông minh.Classification Phân lớp dữ liệu sử dụng cây quyết định Tổng quan về phân lớp dữ liệu trong khai phá Phân lớp dữ liệu Một trong các nhiệm vụ chính của khai phá dữ liệu là giải quyết bài toán phân lớp. Nhiệm vụ của quá trình phân lớp là thiết lập được ánh xạ giữa giá trị của các thuộc tính với các nhãn lớp. Đầu vào của bài toán phân lớp là một tập các mẫu học đã được phân lớp trước. vì những lý do khách quan ta không thể biết được giá trị của nó). Thuộc tính liên tục sẽ nhận các giá trị có thứ tự. hay nắng dựa vào những thông số về độ ẩm. Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value).Data mining . Chú ý rằng nhãn lớp của tất cả các mẫu không được phép nhận giá trị không xác định. Các thuộc tính dùng để mô tả một mẫu gồm hai loại là thuộc tính liên tục và thuộc tính rời rạc. Trong khi đó.

21 50. maketing. Quá trình phân lớp dữ liệu gồm hai bước: • Bước thứ nhất (learning) Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các khái niệm định trước. công thức logic.99 114.21 and S_s <=40.01 28. bản ghi (record) hay trường hợp (case).254 If D_s39.53 … … 39.82 22.61 105. đối tượng (object).47 and P_t >9. Trong tập dữ liệu này.5642 Then class = Abnormal 22.98 -3. cây quyết định. bảo hiểm.02 68.60 <= 19. Trong những năm qua.. hay mạng nơron. giáo dục. nghiên cứu thị trường. mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước. y tế.Classification dựa trên những thông tin về thu nhập và nghề nghiệp của khách hàng. Quá trình này được mô tả như trong hình vẽ: Classification algorithm Training data Classifier (modle) P_i P_t 63.09 46. ví dụ (example). Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó. Công nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại. nhà băng. lớp ở đây là giá trị của một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute)..06 25. có thể là các mẫu (sample). Luận văn sử dụng các thuật ngữ này với nghĩa tương đương. hệ chuyên gia (expert system).52 40.97 10.05 • L_l_a … S_s … P_r … D_s … Bước thứ hai (classification) [D08 HTTT1] Page 10 . Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật dạng if-then.Data mining .47 98. Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple). thống kê (statistics). phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning).67 -0.4 4..85 and P_r <=125..

dễ hiểu. Có thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh. phổ biến và đặc biệt thích hợp cho Data Mining nói chung và phân lớp dữ liệu nói riêng [12]. Các phương pháp đánh giá độ chính xác của mô hình phân lớp. nút lá biểu diễn nhãn lớp hoặc sự phân bố của lớp.…. Chúng ta chỉ đề cập đến phương pháp đánh giá độ phổ biến k-fold cross-validation. nút bên trong biểu thị một kiểm tra trên một thuộc tính .Sk. S3.Data mining . mô hình thông kê tuyến tính bậc 2. Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đã được gán nhãn lớp. thì mô hình được sử dụng để phân lớp những dữ liệu tương lai. cây quyết định. Trong số những mô hình đó. k-fold cross-validation tập dữ liệu ban đầu được chia ngẫu nhiên thành k tập con (fold) có kích thước xấp xỉ nhau S1. Các mẫu này được chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào tạo. Nếu độ chính xác của mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu. Cây quyết định trong phân lớp dữ liệu Định nghĩa Trong những năm qua. mô hình di truyền.Classification Bước thứ hai dùng mô hình đã xây dựng ở bước trước để phân lớp dữ liệu mới. Quá trình train và test được thực k lần. cây quyết định với những ưu điểm của mình được đánh giá là một công cụ mạnh. việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân lớp khác Cây quyết định là một flow-chart giống cấu trúc cây . Hơn nữa các cây có thể dễ dàng được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ sở dữ liệu một cách hiệu quả. sau đó kiểm tra trên tập S1. nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron. Quá vừa dữ liệu là hiện tượng kết quả phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp từ tập dữ liệu đào tạo có thể đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đó. S2. cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo. đơn giản. Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây. hoặc những dữ liệu mà giá trị của thuộc tính phân lớp là chưa biết. tại lần lặp thứ I. Tiếp tục quá trình như thế đến khi tập kiểm tra là Sk.…. Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó. Sk. Có nghĩa là đầu tiên việc huấn luyện được thực hiện trên các tập S2. Do vậy. Độ chính xác của mô hình trên tập dữ liệu kiểm tra đã đưa là tỉ lệ phần trăm các các mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế). Cuối cùng. Nếu độ chính xác của mô hình là chấp nhận được. nhánh biểu diễn đầu ra của kiểm tra . Dộn chính xác là toàn bộ số phân lớp đúng từ k lần lặp chia cho tổng số mẫu của dữ liệu ban đầu. Si là tập dữ liệu kiểm tra các tập còn lại hợp thành tập dữ liệu huấn luyện. như mô tả trong hình vẽ sau: [D08 HTTT1] Page 11 . Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được ước lượng.

Classification Trong cây quyết định: • Gốc: là node trên cùng của cây • Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật) • Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên) • Node lá: biểu diễn lớp hay sự phân phối lớp.Data mining . mỗi mẫu thuộc về một lớp. Đầu vào là tập các mẫu.5 sinh ra cây quyết định ban đầu theo phướng pháp chia để trị như sau: [D08 HTTT1] Page 12 . Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó Thuật toán C4. giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định. Để phân lớp mẫu dữ liệu chưa biết.5 Là sự phát triển từ CLS và ID3 là công cụ thường dùng trong Data mining. Đầu ra là bộ phân lớp dùng để dự đoán. Cây quyết định Cho tập S các mấu. C4.

S2. Sv là tập con của S mà A nhận giá trị Gain ratio [D08 HTTT1] Page 13 .5 dựa vào một trong hai heuristics sau: Information Gain Trong đó: Value (A) là tập các giá trị của thuộc tính A.… Làm thế nào để chọn thuộc tính làm nút gốc? C4.Sk theo kết quả (còn lại) của S.Classification  Nếu tất cả các mẫu trong S đều thuộc về cùng một lớp hay tập S nhỏ thì cây là một nút lá với nhãn là lớp xuất hiện nhiều nhất trong S  Ngược lại.Data mining . chia tập mẫu còn lại của S thành các tập con S1. chọn một thuộc tính với hai hay nhiều “kết quả” trong tập thuộc tính.…. Tạo thuộc tính này là nút gốc của cây với mỗi nhánh là mỗi kết quả của thuộc tính. ấp dụng cùng cách làm một các đệ quy cho các tập S1.

uci. Bẳng miêu tả tên.742%) [D08 HTTT1] Page 14 .058 –> 418. Nhiệm vụ bao gồm trong việc phân loại bệnh nhân thuộc một trong hai loại: Bình thường (100 bệnh nhân) hoặc bất thường (210 bệnh nhân).Nguồn : http://archive.834 2 Pelvic_tilt Numeric -6.742 4 Sacral_slope Numeric 13. Abnormal Thuộc tính phân lớp 7 (class)  Tỉ lệ phân lớp o Normal: 100 (32.432 3 Lumbar_lordosis_angle Numeric 14 –> 125. kiểu dữ liệu.ics.367 –> 121.258%) o Abnormal: 210 (67.arff thu thập được được xây dựng bởi Tiến sĩ Henrique da Mota trong một khoảng thời gian cư trú y tế trong Tập đoàn Nghiên cứu ứng dụng trong Chỉnh hình (GARO) của các Trung tâm y si-Chirurgical de Réadaptation des Massues.Classification Thực tế Giới thiệu về dataset Qua tập dữ liệu column_2C_weka.555 –> 49.arff ta nhận thấy có 310 mẫu với 7 thuộc tính (cả thuộc tính lớp) có trong dữ liệu.edu/ml/datasets/Vertebral+Column Qua tập dữ liệu column_2C_weka. Lyon. Chúng tôi cung cấp các tập tin còn cho sử dụng trong môi trường WEKA.148 –> 129. Pháp.083 –> 163. các giá trị của từng thuộc tính Stt Tên thuộc tính Kiểu dữ liệu Các giá trị của thuộc tính 1 Pelvic_incidence Numeric 26.43 5 Pelvic_radius Numeric 70. Các dữ liệu đã được tổ chức trong hai nhiệm vụ phân loại khác nhau nhưng có liên quan.Data mining .071 6 Degree_spondylolisthesis Numeric -11.543 7 Class Nominal Normal.

92190658.108.06078446.Abnormal … Phần dữ liệu Phần khai báo: @relation <tên dữ liệu> @attribute <tên thuộc tính 1><Kiểu dữ liệu> @attribute <tên thuộc tính 2><Kiểu dữ liệu> … @attribute <tên thuộc tính n><Kiểu dữ liệu> o Các kiểu dữ liệu Numeric Dữ liệu dạng số Ví dụ: @ATTRIBUTE name numeric Nominal Dữ liệu rời rạc Ví dụ: @ATTRIBUTE class {setosa.71285934.61353893.44.26.28.7.06099147.1687249.101. 564258645.317406.46.55258597.24.Abnormal 39.99595951.10.25019968.64413017.21848205.0278175.Abnormal 40.652074879.Classification Một định dạng tập tin văn bản bao gồm hai phần: @relation column_2C_weka @attribute @attribute @attribute @attribute @attribute @attribute pelvic_incidence numeric pelvic_tilt numeric lumbar_lordosis_angle numeric sacral_slope numeric pelvic_radius numeric degree_spondylolisthesis numeric Phần khai báo @attribute class {Abnormal.13.40.83202098.67291675.91 8500615.29700807.105.4054254.98.25.1249496.40. versicolor} String Date [D08 HTTT1] Dữ liệu chuỗi Ví dụ: @ATTRIBUTE name string Dữ liệu kiểu ngày Ví dụ: @ATTRIBUTE discovered Page 15 .05695098.8684951.9851355.01537822.39.09219357. Normal} @data 63.254399986.50.114.2.47523153.9.28.31123813.65287791.2 30651729.3278713.530317314.44.22.11 .0.3.32829311.Abnormal 69.21152344.4.Abnormal 68.130.60911701.25.Abnormal 49.22.Data mining .

Data mining .” Hiển thị tập tin bằng arffViewer Ý nghĩa của các thuộc tính 1 Pelvic_incidence = Pi Tỉ lệ mắc bệnh vùng chậu 2 Pelvic_tilt = Pt Độ nghiêng vùng chậu 3 Lumbar_lordosis_angle = lla Góc tật xương sông thắt lung cong ra 4 Sacral_slope = Ss Độ dốc xương cùng [D08 HTTT1] Page 16 .Classification date Dữ liệu thiếu được ký hiệu bằng dấu chấm hỏi “?” o Phần dữ liệu: Mỗi mẫu dữ liệu được đặt trên một dòng. giá trị của các thuộc tính được liệt kê theo thứ tự từ trái qua phải và ngăn cách bởi dấu phẩy“.

Data mining . dị thường Phân tích kết quả Sử dụng thuật toán J48 (C4.5) của Weka cung cấp để huấn luyện tập dữ liệu Cây quyết định của thuật toán là: Đánh giá hiệu quả phân lớp của thuật toán đối với tập dữ liệu được cho theo hai phương pháp: [D08 HTTT1] Page 17 . Abnormal Lớp: bình thường.Classification 5 Pelvic_radius = Pr Bán kính vùng chậu 6 Degree_spondylolisthesis = Ps Mức độ spondylolisthesis 7 Class: Normal.

9355% Phân lớp sai 56 18.Data mining .3871% Không phân được lớp 0 0 Tổng 310 Lần test thứ hai: với tỉ lệ phân chia <10 phần là 8 ta có: Số mẫu Tỉ lệ Phân lớp đúng 255 82.7419% Không phân được lớp 0 0 Tổng 310 Lần test thứ ba: với tỉ lệ phân chia < 10 phần là 5 ta có: Số mẫu Tỉ lệ Phân lớp đúng 254 81.0645% Không phân được lớp 0 0 Tổng 310 [D08 HTTT1] Page 18 .6129% Phân lớp sai 57 18.2581% Phân lớp sai 55 17.Classification Cross-validation Lần test thứ nhất : với tỉ lệ phân chia thành 10 phần Số mẫu Tỉ lệ Phân lớp đúng 253 81.

7419% Không phân được lớp 0 0 Tổng 310 Lần test thứ năm với tỉ lệ phân chia > 10 phần là 15 ta có: Số mẫu Tỉ lệ Phân lớp đúng 260 83.7143% Phân lớp sai 15 14.Data mining .871% với số mẫu test là 310 Precentage split: cho biết chia là bao nhiêu % thì đạt hiệu quả phân lớp cao nhất: Lần test thứ nhât: với tỉ lệ phân chia là 66% thì ta có: Số mẫu Tỉ lệ Phân lớp đúng 90 85.Classification Lần test thứ tư: Với tỉ lệ phân chia > 10 phần là 12 ta có: Số mẫu Tỉ lệ Phân lớp đúng 255 82.871% Phân lớp sai 50 16.2581% Phân lớp sai 55 17.2857% Không phân được lớp 0 0 Tổng 105 [D08 HTTT1] Page 19 .129% Không phân được lớp 0 0 Tổng 310 Sau khi chạy thuật toán trên theo phương pháp Cross-Validation thì với tham số Fold = 15 đạt được hiệu quả phân lớp nhất là 83.

2258% Phân lớp sai 27 21.7204% Phân lớp sai 17 18.8273% Không phân được lớp 0 0 Tổng 139 Lần test thứ tư: với tỉ lệ phân chia > 66% là 70% ta có: Số mẫu Tỉ lệ Phân lớp đúng 76 81.Data mining .7742% Không phân được lớp 0 0 Tổng 124 Lần test thứ ba : với tỉ lệ phân chia <66% là 55% ta có: Số mẫu Tỉ lệ Phân lớp đúng 117 84.Classification Lần test thứ hai: với tỉ lệ phân chia < 66% là 60% ta có: Số mẫu Tỉ lệ Phân lớp đúng 97 78.1727% Phân lớp sai 22 15.2796% Không phân được lớp 0 0 Tổng 93 [D08 HTTT1] Page 20 .

4156% Phân lớp sai 12 15. nhưng với số mẫu phân lớp 105 giảm so với 310 nên chưa đạt hiệu quả phân lớp Các suy luận suy ra từ cây quyết định sử dụng phương pháp Cross-Validation: Classifier out put: Kết quả được liệt kê bằng văn bản với những phần phân biệt như sau [D08 HTTT1] Page 21 .Data mining .5844% Không phân được lớp 0 0 Tổng 77 Sau khi chạy thuật toán trên với phương pháp Precentage split với tỉ lệ phân chia là 66% đạt hiệu quả phân lớp cao nhất 85.7143%.Classification Lần test thứ năm: với tỉ lệ phân chia > 66% là 75% ta có: Số mẫu Tỉ lệ Phân lớp đúng 65 84.

tuy nhiên đối với một số bộ phân loại thì mô hình phân loại không thể hiện đầy đủ thông tin bằng văn bản được • Summary: Liệt kê thông tin tổng quát về mức độ chính xác của bộ phân loại trong thử nghiệm và thực thi [D08 HTTT1] Page 22 . tập dữ liệu • Classifier model: chi tiết mô hình phân loại.Data mining .Classification • Run information: Thông tin chung về thuật toán dược sử dụng dữ liệu.

Một giá trị lớn hơn 0 và luôn nhỏ hơn 1 có nghĩa là phân loại của bạn đang làm tốt hơn so với cơ hội ( nó thực sự nên được!). Ở đây có 310 trường hợp. Tỷ lệ lỗi được sử dụng để dự đoán số chứ không phải là phân loại. b và đại diện cho nhãn lớp.Classification Các trường hợp được phân loại một cách chính xác và không chính xác cho thấy tỷ lệ phần trăm các trường hợp thử nghiệm một cách chính xác và không chính xác phân loại. không nhạy cảm với lớp phân). Các số liệu được hiển thị trong ma trận nhầm lẫn. ab + ba = 19 + 31= 50. do đó. dự đoán không chỉ là đúng hay sai. aa + bb = 191 + 69 = 260. Trong số dự đoán. Kappa là một biện pháp có thể được hiệu chỉnh của thỏa thuận giữa các phân loại và các lớp học thật sự. Số lượng các trường hợp phân loại chính là tổng của đường chéo chính trong ma trận aa + bb. Tỷ lệ phần trăm các trường hợp phân loại chính xác thường được gọi là độ chính xác hoặc mẫu chính xác. • Detailed Accuracy By Class và Confusion Matrix: Chi tiết kết quả chính xác của bộ phân loại trên từng phân lớp Ma trận nhầm lẫn là ma trận 2x2.Data mining . lỗi này có một cường độ. [D08 HTTT1] Page 23 . với a. tỷ lệ phần trăm và số liệu. Nó có một số nhược điểm như là một ước tính hiệu suất (không có cơ hội sửa chữa. Nó được tính bằng cách tham gia các thỏa thuận dự kiến bởi cơ hội từ các thỏa thuận quan sát và phân chia theo thỏa thuận tối đa có thể. và các biện pháp này phản ánh điều đó. vì vậy có thể bạn sẽ muốn xem xét một số các số khác.

09 Precision – tính chính xác: xác định các phần của hồ sơ mà thực sự hóa ra là tích cực trong các nhóm phân loại Precision = TP / ( TP + FP ) Recall – khả năng lấy lại: phần trăm các trường hợp tích cực là TP rate F-Measure – Giá trị trung bình điều hòa chính xác và lấy lại: F-measure = 2 * ( ( Precision. nhưng thuộc về một lớp khác trong số tất cả các ví dụ không phải lớp x. 69/(69+31) = 0.31. đây là phần tử đường chéo chia cho giá trị trên hàng có liên quan: TP = 191/(191+69) = 0.69 FP rate (False Positive rate – tỉ lệ sai tích cực): là tỉ lệ của các ví dụ đã phân loại là lớp x.Recall) / Precision + Recall) ) or = 2*TP / (2*TP) + FP + FN [D08 HTTT1] Page 24 . trong ma trận nhầm lẫn.Classification TP rate (True Positive rate – tỉ lệ đúng tích cực): là tỉ lệ của các ví dụ đã phân lớp là loại x. trong tất cả các ví dụ thực sự có lớp x.91.Data mining . trong ma trận nhầm lẫn điều này là phần tử dường chéo chia cho tổng số phần tử hàng có liên quan tức là: 31/ (31+69) = 0. 19/( 191+ 19)= 0.