Thầy Chiến

LÝ THUYẾT
QUYẾT ĐỊNH
BAYES
SVTH: Nhóm 3
GVHD: TS. Thái Bá Chiến
Chúng ta thảo luận về lý thuyết xác suất
như là khung cơ bản để đưa ra quyết định
trong điều kiện không chắc chắn. Trong phân
loại, nguyên tắc Bayes được sử dụng để tính
toán xác suất của các lớp. Chúng ta tổng quát
hóa để thảo luận về cách chúng ta có thể đưa ra
quyết định hợp lý giữa nhiều hành động để
giảm thiểu rủi ro dự kiến.
3.1 Giới thiệu
Lập trình máy tính để suy luận từ dữ liệu là sự kết hợp giữa thống kê và khoa
học máy tính, đến từ một quy trình không hoàn toàn được biết đến thông qua việc
mô hình hóa quy trình như một quy trình ngẫu nhiên sử dụng lý thuyết xác suất để
phân tích nó
Ví dụ : Việc ném một đồng xu là một quy trình ngẫu nhiên chúng ta không thể dự
đoán ở mỗi lần ném liệu kết quả sẽ là mặt trước hay mặt sau, Nếu chúng ta áp
dụng vị trí ban đầu của nó, lực và hướng nơi bắt nó và cetera, kết quả chính xác
của lần ném có thể được dự đoán.
x = f(z)
Trong đó:
- x : cái quan sát được

- z : không cái quan sát được
- f : Hàm xác định kết quả từ phần kiến thức không thể quan sát được.
Vì không thể lập mô hình theo cách này :

P(X =x)
x : một biến ngẫu nhiên được rút ra từ phân bố xác suất
(Nếu x = 1 ngửa hoặc x = 0 là sấp )
3.2 Phân loại
Trong đoạn văn trích từ sách, chúng ta đã thảo
luận về việc sử dụng định lý Bayes để xây dựng
mô hình đánh giá tín dụng trong ngân hàng xem
rủi ro khi họ trả lại khoản vay và ngân hàng có
lợi nhuận trong khi một số khách hàng khác
được xem là rủi ro cao khi họ không trả nợ.
Mục tiêu
Lọc được lớp "khách hàng rủi ro cao" để trong
tương lai có thể kiểm tra xem người đó có tuân
theo mô tả lớp hay không để chấp nhận hoặc từ
chối đơn đăng ký.
3.2 Phân loại
Chúng ta giả sử có hai thông tin có thể quan sát được về khách hàng:
Thu nhập hàng năm và số tiết kiệm ( và )
Trong đó:
: Khách hàng rủi ro cao.
Khi có đơn đăng ký mới là ( = ) và ( = )
(Nếu (P(C=1|x1, x2) > 0.5) và từ chối nếu ngược lại)

3.3 Tổn thất và rủi ro
3.3.1 Tổn thất
Tổn thất là một giá trị đo lường mức độ thiệt hại hoặc mất mát
kinh tế, xã hội, hoặc cá nhân có thể phải chịu khi quyết định đưa
ra không chính xác
Trong đó:
: tổn thất kỳ vọng của một quyết định
: mọi khả năng của tham số mà chúng ta đang (quan sát thường
liên quan đến lớp ‘ rủi ro cao ’)
: tổn thất liên quan đến quyết định khi tham số là
: sác suất điều kiện của khi đã quan sát dữ liệu x
3.3.2 Rủi ro
Rủi ro là kỳ vọng (hay giá trị kỳ vọng) của tổn thất dưới điều kiện xác suất
của các giả thuyết.
Rủi ro được tính bằng cách tích của xác suất của mỗi kịch bản với tổn
thất tương ứng:
R
Trong đó :
Rrủi ro của bayes khi đưa ra quyết định

: hàm tổn thất
3.4 Hàm phân biệt
Được sử dụng trong bài toán phân loại giúp quyết định
xem một quan sát nào Đối với bài toán phân loại hai
lớp có thể được xây dựng để đánh giá giá trị của hàm
đối. Cụ thể, nếu giá trị lớn hơn một ngưỡng quan sát
được gán vào một lớp, ngược lại nếu nhỏ hơn thì
được gán vào lớp còn lại.
Giả sử có C lớp khác nhau và mỗi lớp có một hàm phân

phối có điều kiện P (X|Ci),với X là biến ngẫu nhiên đại
diện cho dữ liệu quan sát được đối với bài toán phân
loại, chúng ta muốn tính xác suất điều kiện P (C|X) tức là
xác suất để một quan sát thuộc về lớp C khi đã biết giá trị
của X.
Ví dụ thực tế :
Giả sử bạn là một nhà đầu tư và muốn đưa ra
quyết định về việc đầu tư vào một cổ phiếu. Bạn
có thể đặt ra các giả thuyết về tăng trưởng của
công ty và dựa vào dữ liệu thị trường để cập nhật
xác suất của mỗi giả thuyết. Tổn thất có thể được
đo lường bằng sự dao động của giá cổ phiếu, và
rủi ro là kỳ vọng của tổn thất dưới điều kiện xác
suất. Quyết định đầu tư của bạn có thể được đánh
giá bằng cách so sánh rủi ro của nhiều kịch bản
khác nhau.
3.4 Hàm phân biệt
 Được sử dụng trong bài toán phân loại giúp quyết
định xem một quan sát nào Đối với bài toán phân
loại hai lớp có thể được xây dựng để đánh giá giá
trị của hàm đối.Cụ thể, nếu giá trị lớn hơn một
ngưỡng quan sát được gán vào một lớp, ngược lại
nếu nhỏ hơn thì được gán vào lớp còn lại.
 Giả sử có C lớp khác nhau và mỗi lớp có một hàm
phân phối có điều kiện P (X|Ci), với X là biến ngẫu
nhiên đại diện cho dữ liệu quan sát được đối với
bài toán phân loại, chúng ta muốn tính xác suất
điều kiện P (C|X)tức là xác suất để một quan sát
thuộc về lớp C khi đã biết giá trị của X.
3.5 Lý thuyết hữu ích
Trong ngữ cảnh này, ngân hàng có thể có một hàm tiện ích cụ thể cho việc chấp
nhận hoặc từ chối một đơn vay dựa trên rủi ro dự kiến. Sự kết hợp giữa xác suất
và tiện ích được tính để đưa ra quyết định tối ưu. Điều này thường dẫn đến việc
đặt ra các câu hỏi như: "Đối với mỗi khách hàng, nếu chấp nhận đơn vay, ngân
hàng có thể có được một giá trị tiện ích là bao nhiêu?" hoặc "Nếu từ chỗi đơn vay,
ngân hàng có thể tránh được một khoản thiệt hại có giá trị là bao nhiêu?" Lý
thuyết tiện ích có thể giúp ngân hàng đưa ra quyết định dựa trên một sự cân nhắc
tổng thể giữa rủi ro và lợi nhuận mong đợi, đồng thời tạo ra một cơ sở quyết định
tối ưu dựa trên ước lượng xác suất và giá trị mong đợi.
3.5 Lý thuyết hữu ích
Giả sử có một ngân hàng đang sử dụng định lý
Bayes để đánh giá rủi ro của khách hàng khi cấp
vay. Mục tiêu của ngân hàng có thế là tối ưu hóa
một hàm tiện ích, thường được biểu diến như sau:
Trong đó:
- xác suất của khách hàng thuộc lớp dựa trên dữ
liệu quan sát được X (sử dụng định lý Bayes).
tiện ích hoặc giá trị mong đợi liên quan đến việc
chấp nhận khách hàng thuộc lớp .
3.6 Quy tắc hiệp hội
Quy tắc hiệp hội của định lý Bayes là một quy tắc toán học cho phép
chúng ta tính xác suất của một biến ngẫu nhiên dựa trên xác suất của các
biến ngẫu nhiên khác. Quy tắc này được biểu diễn bởi công thức sau:
P(A|B) =
Trong đó:
- A : biến ngẫu nhiên cần tính xác suất
- B : biến ngẫu nhiên được biết
Ví dụ:
Giả sử chúng ta có một hộp chứa 10 quả bóng,
trong đó có 7 quả màu đỏ và 3 quả màu xanh.
Chúng ta lấy ra một quả bóng một cách ngẫu
nhiên và thấy rằng nó có màu đỏ.
Chúng ta có thể sử dụng quy tắc hiệp hội của
định lý Bayes để tính xác suất rằng quả bóng
tiếp theo được lấy ra cũng có màu đỏ.
3.6 Quy tắc hiệp hội
Trong trường hợp này, biến ngẫu nhiên A là quả bóng tiếp theo được lấy ra
có màu đỏ, biến ngẫu nhiên B là quả bóng đầu tiên được lấy ra có màu đỏ.
P(A|B) = = =
=> Vậy xác suất rằng quả bóng tiếp theo được lấy ra cũng có màu đỏ là .
Quy tắc hiệp hội của định lý Bayes có nhiều ứng dụng thực tế trong các
lĩnh vực như phân tích dữ liệu, trí tuệ nhân tạo, và xử lý ngôn ngữ tự nhiên.
3.8 Ghi chú
Lịch sử phát triển của quyết định trong điều kiện không chắc chắn. Con
người đã sử dụng mọi nơi để tìm dấu hiệu giảm sự không chắc chắn, từ
thiên nhiên đến đối tượng hàng ngày. Lý thuyết xác suất chỉ xuất hiện
trong vài trăm năm và được đề cập đến sự đóng góp của các tác giả như
Laplace, Bernoulli. Các tác giả Russell và Norvig (1995) thảo luận về
giá trị thông tin và đánh giá nó theo đơn vị tiền tệ. Quy tắc liên kết, được
sử dụng trong khai thác dữ liệu, đơn giản và quan trọng trong triển khai
trên cơ sở dữ liệu lớn. Các chương sau sẽ mở rộng về mô hình đồ thị và
khái niệm biến ẩn.
BÀI TẬP CHƯƠNG 3
Câu 1 :Trong một bài toán hai lớp, tỷ lệ xác suất (likelihood ratio) được định nghĩa là
P(x | C₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₁
P(x | C₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₂
Hàm phân biệt dựa trên tỷ lệ xác suất là: [ \text{Hàm phân biệt} =
BÀI GIẢI
Câu 1. Tỷ số khả năng (Likelihood Ratio)
Tỷ số khả năng trong bài toán hai lớp được định nghĩa là:
Tỷ số khả năng = P(x | C₁) / P(x | C₂)
Với:
P(x | C₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₁ là đúng.
P(x | C₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₂ là đúng.
Hàm phân biệt (Discriminant Function) dựa trên Tỷ số khả năng:
Hàm phân biệt có thể được viết dựa trên Tỷ số khả năng như sau:
Hàm phân biệt = log(Tỷ số khả năng) = log(P(x | C ₁) / P(x | C ₂))
Câu 2: Trong một bài toán hai lớp, log odds được định nghĩa là log odds =log
P(C₁ | x): Xác suất lớp C₁ là đúng cho biết dữ liệu x xuất hiện.
P(C₂ | x): Xác suất lớp C₂ là đúng cho biết dữ liệu x xuất hiện.
Hàm phân biệt có thể được viết dựa trên Log Odds như sau:
Hàm phân biệt = Log Odds =

BÀI GIẢI
Câu 2: Log Odds
Log Odds trong bài toán hai lớp được định nghĩa là:
Log Odds = log(P(C₁ | x) / P(C₂ | x))
Với:
P(C₁ | x): Xác suất lớp C₁ là đúng cho biết dữ liệu x xuất hiện.
P(C₂ | x): Xác suất lớp C₂ là đúng cho biết dữ liệu x xuất hiện.
Hàm phân biệt (Discriminant Function) dựa trên Log Odds:
Hàm phân biệt có thể được viết dựa trên Log Odds như sau:
Hàm phân biệt = Log Odds = log(P(C₁ | x) / P(C₂ | x))
Câu 3 : Quy tắc quyết định tối ưu với Ma trận Lỗ (Loss
Matrix)
Với ma trận lỗ được cho như sau:
Lỗ = [[0, 10],
[1, 0]]
Quy tắc quyết định tối ưu sẽ là:
Chọn lớp C₁ nếu:
P(C₁ | x) > P(C₂ | x)
Chọn lớp C₂ nếu:
P(C₁ | x) < P(C₂ | x)
BÀI GIẢI
Câu 3: Quy tắc quyết định tối ưu với Ma trận Lỗ (Loss Matrix)
Với ma trận lỗ được cho như sau:
Lỗ = [[0, 10],
[1, 0]]
Quy tắc quyết định tối ưu sẽ là:
Chọn lớp C₁ nếu:
P(C₁ | x) > P(C₂ | x)
Chọn lớp C₂ nếu:
P(C₁ | x) < P(C₂ | x)
Câu 4 : Đề xuất một tầng ba cấp trong đó khi một cấp bị bác bỏ thì cấp tiếp theo sẽ được sử dụng như
trong phương trình 3.10. Làm cách nào chúng ta có thể sửa điểm A ở các cấp độ khác nhau?
Lời giải :
Mô hình cascade ba tầng với loại bỏ hoạt động như sau:
Mức 1: Sử dụng một mô hình để phân loại dữ liệu.
Nếu dữ liệu bị loại bỏ ở mức 1, nó sẽ được chuyển đến mức 2.
Mức 2: Sử dụng một mô hình khác để phân loại dữ liệu.
Nếu dữ liệu vẫn bị loại bỏ ở mức 2, nó sẽ được chuyển đến mức 3.
Mức 3: Sử dụng mô hình cuối cùng để phân loại dữ liệu.
Việc chọn các mô hình cho từng mức và cách thức điều chỉnh giá trị A (tương ứng với mức độ
loại bỏ) cần được thực hiện dựa trên tập dữ liệu và mục đích sử dụng mô hình.
Câu 5 : Ai đó tung một đồng xu công bằng và nếu kết quả là mặt ngửa, bạn sẽ không nhận được gì,
nếu không bạn sẽ nhận được 5 đô la. Bạn sẽ trả bao nhiêu để chơi trò chơi này? Điều gì sẽ xảy ra nếu
người thắng $500 thay vì $57
Lời giải :
Trò chơi tung đồng xu
Trường hợp 1: Giải thưởng $5
Giá trị mong đợi của trò chơi này là:
E = (1/2) * 0 + (1/2) * 5 = $2.5
Do đó, bạn nên trả tối đa $2.5 để chơi trò chơi này.
Trường hợp 2: Giải thưởng $500
Giá trị mong đợi của trò chơi này là:
E = (1/2) * 0 + (1/2) * 500 = $250
Do đó, bạn nên trả tối đa $250 để chơi trò chơi này
LÝ THUYẾT
CÂY RA
QUYẾT ĐỊNH
Ra quyết định
Thế nào cây ra

quyết
Rủi ro định ? Hậu quả
… … …
…
9.1 Giới thiệu
Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt
được mục tiêu mong muốn các quyết định và các hậu quả có thể của
nó.
Ước tính tham số Ước tính phi tham Nút quyết định Nút lá
số
• Xác định mô hình • Chia không gian đầu Thực hiện một hàm Đại diện cho một vùng
cho toàn bộ không vào thành các vùng kiểm tra fm(x) với các cục bộ trong không gian
gian đầu vào. cục bộ. kết quả riêng biệt được đầu vào.
• Tìm hiểu tham số từ • Xác định mô hình gán nhãn cho các nhánh.
tất cả dữ liệu huấn cục bộ cho mỗi vùng
luyện. dựa trên dữ liệu
• Sử dụng cùng một huấn luyện trong
mô hình và tham số vùng đó.
cho mọi đầu vào thử • Sử dụng mô hình
nghiệm. cục bộ tương ứng
cho mỗi đầu vào thử
nghiệm.
Ví dụ
Hình 9.1 Ví dụ về tập dữ liệu và cây quyết định tương ứng.

9.2 Cây đơn biến
Là mỗi nút bên trong chỉ sử dụng một chiều đầu vào. Nếu chiều đầu
vào là rời rạc, nút sẽ kiểm tra giá trị của nó và chia thành n nhánh tương
ứng với các giá trị có thể của chiều đó.
Ví dụ: nếu chiều màu có các giá trị {đỏ, xanh lam, xanh lục}, thì một
nút trên chiều đó sẽ có ba nhánh, mỗi nhánh tương ứng với một giá trị
có thể của chiều.
9.2 Cây đơn biến
Nút quyết định có các nhánh riêng biệt và đầu vào số phải được rời rạc hóa. Nếu
là số (có thứ tự), phép kiểm tra là phép so sánh :
Trong đó:
f(x) : >
: giá trị ngưỡng được chọn phù hợp.
Chia không gian đầu vào thành hai sự phân chia nhị phân
= {x/ > } và = {x| ≤ }

9.3 Cắt tỉa
Một Nút không được phân
chia nếu số lượng phiên bản và
ngăn chặn lỗi có tỷ lệ phần tram ít
hơn so với ban đầu nhất định
được gọi là quá trình cắt tỉa và
đồng thời loại bỏ một số các cây
con tránh làm đầy quá mức.

9.3 Cắt tỉa
Hình 9.5: Cây hồi quy thực hiện làm mịn hình 9.4 cho các giá trị khác của
9.3 Cắt tỉa
X1 > 38,5
: Tuổi
Đúng Sai Số năm làm việc
: Giới tính
: Loại công việc
X2 > 2,5 x4
Đúng Sai
‘A’ ‘B’ ‘C’
0,8 0,6 0,4 0,3 0,2
Hình 9.6 Ví dụ về cây quyết định (giả định). Mỗi đường đi từ gốc đến lá có thể được viết
dưới dạng một quy tắc liên hợp, bao gồm các điều kiện được xác định bởi các nút quyết
định trên đường đi.
9.4 Trích suất luật từ cây
 Khả năng của cây quyết định trích suất tính năng riêng nơi chỉ sử
dụng các biến cần thiết bằng cách chọn những biến được sử dụng
ban đầu vào các phương pháp học khác.
 Các nút quyết định mang theo các điều kiện và chuyển đổi thành các
tỷ lệ IF -Then làm cho nó trở nên rất dễ giải “C4.5 rules là phương
pháp tạo ra cơ sở quy tắc hiểu rõ quyết định của mô hình “
Ví dụ:
Cây quyết định của hình 9.6 có thể được viết dưới dạng tập hợp các quy tắc sau:
R1: IF (38,5 tuổi) AND (số năm làm việc>2,5) THEN y = 0,8
R2: IF (tuổi > 38,5) AND (số năm làm việc<2,5) THEN y = 0,6
R3: IF (38,5 tuổi) AND (loại công việc='A') THEN y = 0,4
R4: IF (tuổi < 38,5) AND (loại công việc='B*) THEN y = 0,3
R5: IF (tuổi < 38,5) AND (loại công việc='C') THEN y = 0,2
Cơ sở quy tắc như vậy cho phép trích xuất tri thức nó có thể dễ hiểu và cho
phép các chuyên gia xác minh mô hình đã học được từ dữ liệu.Các quy tắc phản
ánh các đặc điểm chính của tập dữ liệu: chúng hiển thị các tính năng quan trọng
và phân chia vị trí.
Ngoài ra
Quy tắc cắt tỉa
Quy tắc cắt tỉa có thể được đơn giản hóa. Việc cắt tỉa một cây con tương
ứng với việc cắt tỉa các thuật ngữ từ một số quy tắc cùng một lúc. Có thể
cắt bớt một thuật ngữ khỏi một quy tắc mà không cần chạm vào các quy tắc
khác.
Ví dụ: Trong bộ quy tắc trước đó, đối với R3, nếu chúng ta thấy rằng tất cả
những người có loại công việc = 'A' có kết quả gần bằng 0,4 bất kể độ tuổi,
thì R3 có thể được cắt bớt thành.
R3': IF (loại công việc = 'A') THEN y = 0,4
9.5 Quy tắc học tập từ dữ liệu
Là một phương pháp học máy sử dụng để tạo ra
các quy tắc IF-THEN từ dữ liệu để phân loại các
dữ liệu mới, dự đoán giá trị của một thuộc tính
hoặc hiểu mối quan hệ giữa các thuộc tính thêm các
điều kiện vào một quy tắc cho đến khi nó bao trùm tất cả
các ví dụ dương trong tập huấn luyện. Các điều kiện
được thêm vào để tối đa hóa một số tiêu chí, chẳng hạn
như giảm thiểu entropy hoặc thu được thông tin.
Ripper hoạt động theo các bước sau:
1. Khởi tạo một quy tắc trống.
2. Lặp lại cho đến khi không còn ví dụ dương nào
trong tập huấn luyện.
3. Thêm điều kiện vào quy tắc để tối đa hóa một số
tiêu chí.
4. Cắt tỉa quy tắc để cải thiện độ chính xác (là quá
trình loại bỏ các điều kiện khỏi quy tắc mà không
làm giảm độ chính xác của quy tắc).
Ví dụ :
Giả sử chúng ta có tập dữ liệu gồm các ví dụ về bệnh
nhân ung thư và không ung thư. Tập dữ liệu này bao gồm
các thông tin về tuổi, giới tính, tiền sử gia đình, triệu
chứng, v.v. Chúng ta muốn sử dụng Ripper để tạo ra một
mô hình có thể phân loại các bệnh nhân mới là ung thư
hay không.
IF age > 50 AND sex = "male" AND family_history
= "yes" THEN class = "cancer"
9.6 Cây đa biến
Các nút quyết định sử dụng bất kì siêu phẳng nào trong không gian
đầu vào để phân chia dữ liệu làm cho cây đa biến linh hoạt hơn cây quyết
định đơn biến, có thể chỉ sử dụng các phân chia theo trục.
Đa biến sử dụng cho nhiều mục đích khác nhau, bao gồm phân loại, dự
đoán và phân cụm.
• Phân loại: có thể sử dụng bất kì siêu phẳng nào trong không gian đầu
vào
Và linh hoạt hơn, học các mô hình phức tạp hơn
• Dự đoán: nút quyết định tuyến tính, nút quyết định phi tuyến, nút
quyết định hình cầu
• Phân cụm: qua các thuật toán như Thuật toán CART và Thuật toán
OCI
9.6 Cây đa biến
Ưu điểm và nhược điểm của cây quyết định đa biến:
 Ưu điểm:
 Linh hoạt hơn cây quyết định đơn biến
 Có thể học được các mô hình phức tạp hơn
 Nhược điểm:
 Khó diễn giải hơn cây quyết định đơn biến
 Yêu cầu nhiều dữ liệu hơn
 Có xu hướng trang bị quá mức
Kết luận:
Cây quyết định đa biến là một công cụ mạnh mẽ có thể được sử dụng cho nhiều
mục đích khác nhau. Tuy nhiên, điều quan trọng cần lưu ý là các nút quyết định đa
biến có thể khó diễn giải hơn các nút quyết định đơn biến.
9.7 Khắc phục
Học chưa khớp Học quá khớp (Overfitting) Cải thiện khả năng thích
(Underfitting) nghi
• Sử dụng nhiều dữ liệu • Cắt tỉa cây (Pruning): Loại • Sử dụng cross-validation
hơn: Cung cấp cho mô bỏ các nhánh không quan (xác thực chéo): Đánh giá
hình nhiều dữ liệu hơn để trọng của cây để giảm độ hiệu suất của mô hình trên
học các mẫu tốt hơn. phức tạp. nhiều tập dữ liệu khác
• Sử dụng các thuộc tính có • Sử dụng tập dữ liệu xác nhau để đảm bảo khả
liên quan: Chọn các thuộc thực (Validation set): Đánh năng thích nghi.
tính có ảnh hưởng đến kết giá hiệu suất của mô hình • Sử dụng ensemble
quả dự đoán trên tập dữ liệu riêng biệt learning: Kết hợp nhiều mô
để tránh overfitting. hình khác nhau để cải
• Sử dụng kỹ thuật điều thiện hiệu suất tổng thể.
chỉnh • Sử dụng các thuật toán
(Regularization): Thêm các học mạnh mẽ
ràng buộc vào mô hình để (Robust): Chọn các thuật
giảm độ phức tạp. toán ít nhạy cảm với nhiễu
trong dữ liệu.
9.8 Ưu và nhược điểm cây quyết định
Ưu điểm Nhược điểm
• Dễ hiểu và trực quan: Cấu trúc cây • Dễ bị overfitting (quá khớp): Cây
đơn giản giúp dễ dàng hiểu và diễn quyết định có thể học thuộc lòng dữ
giải các quyết định dự đoán. liệu huấn luyện và không khái quát tốt
• Hiệu quả với nhiều loại dữ liệu: Có cho dữ liệu mới.
thể xử lý tốt cả dữ liệu số và dữ liệu • Có thể không hiệu quả với dữ liệu có
phân loại. nhiều chiều: Hiệu suất có thể giảm với
số lượng lớn các thuộc tính.
• Có khả năng xử lý dữ liệu thiếu: Có
• Khó khăn trong việc xác định điểm cắt
thể xử lý các điểm dữ liệu có giá trị tối ưu cho các thuộc tính: Việc lựa
thuộc tính bị thiếu. chọn điểm cắt có thể ảnh hưởng đáng
• Có thể giải thích được các quyết kể đến độ chính xác của mô hình.
định dự đoán: Dễ dàng truy xuất các
quy tắc và lý do đằng sau mỗi dự
đoán.
CHÚC MỪNG NĂM MỚI!!!

Thầy Chiến

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Thầy Chiến

Uploaded by

Copyright:

Available Formats

LÝ THUYẾT

- x : cái quan sát được

Vì không thể lập mô hình theo cách này :

Thu nhập hàng năm và số tiết kiệm ( và )

: Khách hàng rủi ro cao.

Khi có đơn đăng ký mới là ( = ) và ( = )

(Nếu (P(C=1|x1, x2) > 0.5) và từ chối nếu ngược lại)

Rrủi ro của bayes khi đưa ra quyết định

Giả sử có C lớp khác nhau và mỗi lớp có một hàm phân

Hàm phân biệt = Log Odds =

Thế nào cây ra

Hình 9.1 Ví dụ về tập dữ liệu và cây quyết định tương ứng.

là số (có thứ tự), phép kiểm tra là phép so sánh :

: giá trị ngưỡng được chọn phù hợp.

= {x/ > } và = {x| ≤ }

chia nếu số lượng phiên bản và

ngăn chặn lỗi có tỷ lệ phần tram ít

hơn so với ban đầu nhất định

được gọi là quá trình cắt tỉa và

đồng thời loại bỏ một số các cây

con tránh làm đầy quá mức.

0,8 0,6 0,4 0,3 0,2

You might also like