Professional Documents
Culture Documents
Thầy Chiến
Thầy Chiến
QUYẾT ĐỊNH
BAYES
SVTH: Nhóm 3
GVHD: TS. Thái Bá Chiến
Chúng ta thảo luận về lý thuyết xác suất
như là khung cơ bản để đưa ra quyết định
trong điều kiện không chắc chắn. Trong phân
loại, nguyên tắc Bayes được sử dụng để tính
toán xác suất của các lớp. Chúng ta tổng quát
hóa để thảo luận về cách chúng ta có thể đưa ra
quyết định hợp lý giữa nhiều hành động để
giảm thiểu rủi ro dự kiến.
3.1 Giới thiệu
Lập trình máy tính để suy luận từ dữ liệu là sự kết hợp giữa thống kê và khoa
học máy tính, đến từ một quy trình không hoàn toàn được biết đến thông qua việc
mô hình hóa quy trình như một quy trình ngẫu nhiên sử dụng lý thuyết xác suất để
phân tích nó
Ví dụ : Việc ném một đồng xu là một quy trình ngẫu nhiên chúng ta không thể dự
đoán ở mỗi lần ném liệu kết quả sẽ là mặt trước hay mặt sau, Nếu chúng ta áp
dụng vị trí ban đầu của nó, lực và hướng nơi bắt nó và cetera, kết quả chính xác
của lần ném có thể được dự đoán.
x = f(z)
Trong đó:
- f : Hàm xác định kết quả từ phần kiến thức không thể quan sát được.
Trong đó:
Trong đó:
: tổn thất kỳ vọng của một quyết định
: mọi khả năng của tham số mà chúng ta đang (quan sát thường
liên quan đến lớp ‘ rủi ro cao ’)
: tổn thất liên quan đến quyết định khi tham số là
: sác suất điều kiện của khi đã quan sát dữ liệu x
3.3.2 Rủi ro
Rủi ro là kỳ vọng (hay giá trị kỳ vọng) của tổn thất dưới điều kiện xác suất
của các giả thuyết.
Rủi ro được tính bằng cách tích của xác suất của mỗi kịch bản với tổn
thất tương ứng:
R
Trong đó :
Trong đó:
- xác suất của khách hàng thuộc lớp dựa trên dữ
liệu quan sát được X (sử dụng định lý Bayes).
tiện ích hoặc giá trị mong đợi liên quan đến việc
chấp nhận khách hàng thuộc lớp .
3.6 Quy tắc hiệp hội
Quy tắc hiệp hội của định lý Bayes là một quy tắc toán học cho phép
chúng ta tính xác suất của một biến ngẫu nhiên dựa trên xác suất của các
biến ngẫu nhiên khác. Quy tắc này được biểu diễn bởi công thức sau:
P(A|B) =
Trong đó:
- A : biến ngẫu nhiên cần tính xác suất
- B : biến ngẫu nhiên được biết
Ví dụ:
Giả sử chúng ta có một hộp chứa 10 quả bóng,
trong đó có 7 quả màu đỏ và 3 quả màu xanh.
Chúng ta lấy ra một quả bóng một cách ngẫu
nhiên và thấy rằng nó có màu đỏ.
Chúng ta có thể sử dụng quy tắc hiệp hội của
định lý Bayes để tính xác suất rằng quả bóng
tiếp theo được lấy ra cũng có màu đỏ.
3.6 Quy tắc hiệp hội
Trong trường hợp này, biến ngẫu nhiên A là quả bóng tiếp theo được lấy ra
có màu đỏ, biến ngẫu nhiên B là quả bóng đầu tiên được lấy ra có màu đỏ.
P(A|B) = = =
=> Vậy xác suất rằng quả bóng tiếp theo được lấy ra cũng có màu đỏ là .
Quy tắc hiệp hội của định lý Bayes có nhiều ứng dụng thực tế trong các
lĩnh vực như phân tích dữ liệu, trí tuệ nhân tạo, và xử lý ngôn ngữ tự nhiên.
3.8 Ghi chú
Lịch sử phát triển của quyết định trong điều kiện không chắc chắn. Con
người đã sử dụng mọi nơi để tìm dấu hiệu giảm sự không chắc chắn, từ
thiên nhiên đến đối tượng hàng ngày. Lý thuyết xác suất chỉ xuất hiện
trong vài trăm năm và được đề cập đến sự đóng góp của các tác giả như
Laplace, Bernoulli. Các tác giả Russell và Norvig (1995) thảo luận về
giá trị thông tin và đánh giá nó theo đơn vị tiền tệ. Quy tắc liên kết, được
sử dụng trong khai thác dữ liệu, đơn giản và quan trọng trong triển khai
trên cơ sở dữ liệu lớn. Các chương sau sẽ mở rộng về mô hình đồ thị và
khái niệm biến ẩn.
BÀI TẬP CHƯƠNG 3
Câu 1 :Trong một bài toán hai lớp, tỷ lệ xác suất (likelihood ratio) được định nghĩa là
P(x | C₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₁
P(x | C₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₂
Hàm phân biệt dựa trên tỷ lệ xác suất là: [ \text{Hàm phân biệt} =
BÀI GIẢI
Câu 1. Tỷ số khả năng (Likelihood Ratio)
Tỷ số khả năng trong bài toán hai lớp được định nghĩa là:
Tỷ số khả năng = P(x | C₁) / P(x | C₂)
Với:
P(x | C₁): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₁ là đúng.
P(x | C₂): Xác suất của dữ liệu x xuất hiện cho biết lớp C ₂ là đúng.
Hàm phân biệt (Discriminant Function) dựa trên Tỷ số khả năng:
Hàm phân biệt có thể được viết dựa trên Tỷ số khả năng như sau:
Hàm phân biệt = log(Tỷ số khả năng) = log(P(x | C ₁) / P(x | C ₂))
BÀI TẬP CHƯƠNG 3
Câu 2: Trong một bài toán hai lớp, log odds được định nghĩa là log odds =log
P(C₁ | x): Xác suất lớp C₁ là đúng cho biết dữ liệu x xuất hiện.
P(C₂ | x): Xác suất lớp C₂ là đúng cho biết dữ liệu x xuất hiện.
Hàm phân biệt có thể được viết dựa trên Log Odds như sau:
… … …
…
9.1 Giới thiệu
Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt
được mục tiêu mong muốn các quyết định và các hậu quả có thể của
nó.
Ước tính tham số Ước tính phi tham Nút quyết định Nút lá
số
• Xác định mô hình • Chia không gian đầu Thực hiện một hàm Đại diện cho một vùng
cho toàn bộ không vào thành các vùng kiểm tra fm(x) với các cục bộ trong không gian
gian đầu vào. cục bộ. kết quả riêng biệt được đầu vào.
• Tìm hiểu tham số từ • Xác định mô hình gán nhãn cho các nhánh.
tất cả dữ liệu huấn cục bộ cho mỗi vùng
luyện. dựa trên dữ liệu
• Sử dụng cùng một huấn luyện trong
mô hình và tham số vùng đó.
cho mọi đầu vào thử • Sử dụng mô hình
nghiệm. cục bộ tương ứng
cho mỗi đầu vào thử
nghiệm.
Ví dụ
Là mỗi nút bên trong chỉ sử dụng một chiều đầu vào. Nếu chiều đầu
vào là rời rạc, nút sẽ kiểm tra giá trị của nó và chia thành n nhánh tương
ứng với các giá trị có thể của chiều đó.
Ví dụ: nếu chiều màu có các giá trị {đỏ, xanh lam, xanh lục}, thì một
nút trên chiều đó sẽ có ba nhánh, mỗi nhánh tương ứng với một giá trị
có thể của chiều.
9.2 Cây đơn biến
Nút quyết định có các nhánh riêng biệt và đầu vào số phải được rời rạc hóa. Nếu
Trong đó:
f(x) : >
Chia không gian đầu vào thành hai sự phân chia nhị phân
Hình 9.5: Cây hồi quy thực hiện làm mịn hình 9.4 cho các giá trị khác của
9.3 Cắt tỉa
X1 > 38,5
: Tuổi
Đúng Sai Số năm làm việc
: Giới tính
: Loại công việc
X2 > 2,5 x4
Đúng Sai
‘A’ ‘B’ ‘C’
Hình 9.6 Ví dụ về cây quyết định (giả định). Mỗi đường đi từ gốc đến lá có thể được viết
dưới dạng một quy tắc liên hợp, bao gồm các điều kiện được xác định bởi các nút quyết
định trên đường đi.
9.4 Trích suất luật từ cây
Khả năng của cây quyết định trích suất tính năng riêng nơi chỉ sử
dụng các biến cần thiết bằng cách chọn những biến được sử dụng
ban đầu vào các phương pháp học khác.
Các nút quyết định mang theo các điều kiện và chuyển đổi thành các
tỷ lệ IF -Then làm cho nó trở nên rất dễ giải “C4.5 rules là phương
pháp tạo ra cơ sở quy tắc hiểu rõ quyết định của mô hình “
Ví dụ:
Cây quyết định của hình 9.6 có thể được viết dưới dạng tập hợp các quy tắc sau:
R1: IF (38,5 tuổi) AND (số năm làm việc>2,5) THEN y = 0,8
R2: IF (tuổi > 38,5) AND (số năm làm việc<2,5) THEN y = 0,6
R3: IF (38,5 tuổi) AND (loại công việc='A') THEN y = 0,4
R4: IF (tuổi < 38,5) AND (loại công việc='B*) THEN y = 0,3
R5: IF (tuổi < 38,5) AND (loại công việc='C') THEN y = 0,2
Cơ sở quy tắc như vậy cho phép trích xuất tri thức nó có thể dễ hiểu và cho
phép các chuyên gia xác minh mô hình đã học được từ dữ liệu.Các quy tắc phản
ánh các đặc điểm chính của tập dữ liệu: chúng hiển thị các tính năng quan trọng
và phân chia vị trí.
Ngoài ra
Quy tắc cắt tỉa
Quy tắc cắt tỉa có thể được đơn giản hóa. Việc cắt tỉa một cây con tương
ứng với việc cắt tỉa các thuật ngữ từ một số quy tắc cùng một lúc. Có thể
cắt bớt một thuật ngữ khỏi một quy tắc mà không cần chạm vào các quy tắc
khác.
Ví dụ: Trong bộ quy tắc trước đó, đối với R3, nếu chúng ta thấy rằng tất cả
những người có loại công việc = 'A' có kết quả gần bằng 0,4 bất kể độ tuổi,
thì R3 có thể được cắt bớt thành.
R3': IF (loại công việc = 'A') THEN y = 0,4
9.5 Quy tắc học tập từ dữ liệu
Là một phương pháp học máy sử dụng để tạo ra
các quy tắc IF-THEN từ dữ liệu để phân loại các
dữ liệu mới, dự đoán giá trị của một thuộc tính
hoặc hiểu mối quan hệ giữa các thuộc tính thêm các
điều kiện vào một quy tắc cho đến khi nó bao trùm tất cả
các ví dụ dương trong tập huấn luyện. Các điều kiện
được thêm vào để tối đa hóa một số tiêu chí, chẳng hạn
như giảm thiểu entropy hoặc thu được thông tin.
9.5 Quy tắc học tập từ dữ liệu
Ripper hoạt động theo các bước sau:
1. Khởi tạo một quy tắc trống.
2. Lặp lại cho đến khi không còn ví dụ dương nào
trong tập huấn luyện.
3. Thêm điều kiện vào quy tắc để tối đa hóa một số
tiêu chí.
4. Cắt tỉa quy tắc để cải thiện độ chính xác (là quá
trình loại bỏ các điều kiện khỏi quy tắc mà không
làm giảm độ chính xác của quy tắc).
9.5 Quy tắc học tập từ dữ liệu
Ví dụ :
Giả sử chúng ta có tập dữ liệu gồm các ví dụ về bệnh
nhân ung thư và không ung thư. Tập dữ liệu này bao gồm
các thông tin về tuổi, giới tính, tiền sử gia đình, triệu
chứng, v.v. Chúng ta muốn sử dụng Ripper để tạo ra một
mô hình có thể phân loại các bệnh nhân mới là ung thư
hay không.
IF age > 50 AND sex = "male" AND family_history
= "yes" THEN class = "cancer"
9.6 Cây đa biến
Các nút quyết định sử dụng bất kì siêu phẳng nào trong không gian
đầu vào để phân chia dữ liệu làm cho cây đa biến linh hoạt hơn cây quyết
định đơn biến, có thể chỉ sử dụng các phân chia theo trục.
Đa biến sử dụng cho nhiều mục đích khác nhau, bao gồm phân loại, dự
đoán và phân cụm.
• Phân loại: có thể sử dụng bất kì siêu phẳng nào trong không gian đầu
vào
Và linh hoạt hơn, học các mô hình phức tạp hơn
• Dự đoán: nút quyết định tuyến tính, nút quyết định phi tuyến, nút
quyết định hình cầu
• Phân cụm: qua các thuật toán như Thuật toán CART và Thuật toán
OCI
9.6 Cây đa biến
Ưu điểm và nhược điểm của cây quyết định đa biến:
Ưu điểm:
Linh hoạt hơn cây quyết định đơn biến
Có thể học được các mô hình phức tạp hơn
Nhược điểm:
Khó diễn giải hơn cây quyết định đơn biến
Yêu cầu nhiều dữ liệu hơn
Có xu hướng trang bị quá mức
Kết luận:
Cây quyết định đa biến là một công cụ mạnh mẽ có thể được sử dụng cho nhiều
mục đích khác nhau. Tuy nhiên, điều quan trọng cần lưu ý là các nút quyết định đa
biến có thể khó diễn giải hơn các nút quyết định đơn biến.
9.7 Khắc phục
Học chưa khớp Học quá khớp (Overfitting) Cải thiện khả năng thích
(Underfitting) nghi
• Sử dụng nhiều dữ liệu • Cắt tỉa cây (Pruning): Loại • Sử dụng cross-validation
hơn: Cung cấp cho mô bỏ các nhánh không quan (xác thực chéo): Đánh giá
hình nhiều dữ liệu hơn để trọng của cây để giảm độ hiệu suất của mô hình trên
học các mẫu tốt hơn. phức tạp. nhiều tập dữ liệu khác
• Sử dụng các thuộc tính có • Sử dụng tập dữ liệu xác nhau để đảm bảo khả
liên quan: Chọn các thuộc thực (Validation set): Đánh năng thích nghi.
tính có ảnh hưởng đến kết giá hiệu suất của mô hình • Sử dụng ensemble
quả dự đoán trên tập dữ liệu riêng biệt learning: Kết hợp nhiều mô
để tránh overfitting. hình khác nhau để cải
• Sử dụng kỹ thuật điều thiện hiệu suất tổng thể.
chỉnh • Sử dụng các thuật toán
(Regularization): Thêm các học mạnh mẽ
ràng buộc vào mô hình để (Robust): Chọn các thuật
giảm độ phức tạp. toán ít nhạy cảm với nhiễu
trong dữ liệu.
9.8 Ưu và nhược điểm cây quyết định
Ưu điểm Nhược điểm
• Dễ hiểu và trực quan: Cấu trúc cây • Dễ bị overfitting (quá khớp): Cây
đơn giản giúp dễ dàng hiểu và diễn quyết định có thể học thuộc lòng dữ
giải các quyết định dự đoán. liệu huấn luyện và không khái quát tốt
• Hiệu quả với nhiều loại dữ liệu: Có cho dữ liệu mới.
thể xử lý tốt cả dữ liệu số và dữ liệu • Có thể không hiệu quả với dữ liệu có
phân loại. nhiều chiều: Hiệu suất có thể giảm với
số lượng lớn các thuộc tính.
• Có khả năng xử lý dữ liệu thiếu: Có
• Khó khăn trong việc xác định điểm cắt
thể xử lý các điểm dữ liệu có giá trị tối ưu cho các thuộc tính: Việc lựa
thuộc tính bị thiếu. chọn điểm cắt có thể ảnh hưởng đáng
• Có thể giải thích được các quyết kể đến độ chính xác của mô hình.
định dự đoán: Dễ dàng truy xuất các
quy tắc và lý do đằng sau mỗi dự
đoán.
CHÚC MỪNG NĂM MỚI!!!