You are on page 1of 4

CÂU 1: Các thành phần chính của 1 bài toán học máy: 

 Lựa chọn các ví dụ học (training/learning examples) 


 Ví dụ: T: dựa vào điểm xstk để dự đoán điểm môn học máy của sinh
viên năm 1
P : dựa vào điểm xstk với điểm học máy của sinh viên năm 2
E : điểm môn học máy của sinh viên năm 1
 Xác định hàm mục tiêu (giả thiết, khái niệm) cần học
 xác định quy tắc từ đầu vào ta xác định được đầu ra
 Lựa chọn cách biểu diễn cho hàm mục tiêu cần học.
 hàm đa thức
 một tập các luật
 một cây quyết định
 Lựa chọn một giải thuật học máy có thể học (xấp xỉ) được hàm mục tiêu
 Phương pháp học Mô hình Markov ẩn (HMM)
 Phương pháp học cây quyết định (ID3 hoặc C4.5)
 Phương pháp học lan truyền ngược (Back-propagation)
CÂU 2:Các vấn đề trong học máy://
 Giải thuật học máy: (Learning algorithm)
 Các ví dụ học(Training examples)
 bao nhiêu ví dụ là đủ: càng nhiều càng tốt(đảm bảo đc độ che phủ), độ
che phủ cao, ít nhiễu (dữ liệu sạch, dữ liệu có đầy đủ thông tin → dữ
liệu đủ tốt, đủ thông tin)
 kích thước của tập huấn luyện: tập kích thước của tập huấn luyện phải
đủ và phù hợp với biến
 các tập nhiễu ảnh hưởng ra sao
 Quá trình học(Learning process)
 Khả năng/giới hạn học(Learning capability)

CÂU 3: Các tiêu chí để đánh giá hệ thống học máy


 Độ chính xác của phân lớp (Classification Accuracy)
 Tính đúng đắn của giải pháp (Solution correctness)
 Chất lượng của giải pháp (Solution quality (length, efficiency))
 Tốc độ thực hiện(Speed of performance)
Ngoài 4 tiêu chí trên nhóm còn tìm hiểu thêm được 6 tiêu chí đánh giá
 1. Tính chính xác (Accuracy)
Mức độ dự đoán (phân lớp) chính xác của hệ thống (đã được huấn luyện) đối với
các ví dụ kiểm chứng (test instances)
 2. Tính hiệu quả (Efficiency)
Chi phí về thời gian và tài nguyên (bộ nhớ) cần thiết cho việc huấn luyện và kiểm
thử hệ thống
 3. Khả năng xử lý nhiễu (Robustness)
Khả năng xử lý (chịu được) của hệ thống đối với các ví dụ nhiễu (lỗi) hoặc thiếu
giá trị
 4. Khả năng mở rộng (Scalability)
Hiệu năng của hệ thống (vd: tốc độ học/phân loại) thay đổi như thế nào đối với
kích thước của tập dữ liệu
 5. Khả năng diễn giải (Interpretability)
Mức độ dễ hiểu (đối với người sử dụng) của các kết quả và hoạt động của hệ thống
 6. Mức độ phức tạp (Complexity)
Mức độ phức tạp của mô hình hệ thống (hàm mục tiêu) học được
 7. Vấn đề công bằng
CÂU 4: Phân loại hệ thống học máy  
Học có giám sát (supervised learning). Là dạng học máy trong đó cho trước
tập dữ liệu huấn luyện dưới dạng các ví dụ cùng với giá trị đầu ra hay giá trị đích.
Dựa trên dữ liệu huấn luyện, thuật toán học cần xây dựng mô hình hay hàm đích để
dự đoán giá trị đầu ra (giá trị đích) cho các trường hợp mới.
Nếu giá trị đầu ra là rời rạc thì học có giám sát được gọi là phân loại hay
phân lớp (classification).
Nếu đầu ra nhận giá trị liên tục, tức đầu ra là số thực, thì học có giám sát
được gọi là hồi quy (regression). Trong phần tiếp theo, ta sẽ xem xét chi tiết hơn về
học có giám sát.
Ví dụ : Thuật toán dò các khuôn mặt trong một bức ảnh đã được phát triển từ rất
lâu. Thời gian đầu, facebook sử dụng thuật toán này để chỉ ra các khuôn mặt trong
một bức ảnh và yêu cầu người dùng tag friends - tức gán nhãn cho mỗi khuôn mặt.
Số lượng cặp dữ liệu (khuôn mặt, tên người) càng lớn, độ chính xác ở những lần tự
động tag tiếp theo sẽ càng lớn.

 Học không giám sát (un-supervised learning). Là dạng học máy trong đó
các ví dụ được cung cấp nhưng không có giá trị đầu ra hay giá trị đích.
Thay vì xác định giá trị đích, thuật toán học máy dựa trên độ tương tự giữa
các ví dụ để xếp chúng thành những nhóm, mỗi nhóm gồm các ví dụ tương tự
nhau. Hình thức học không giám sát như vậy gọi là phân cụm (clustering). Ví dụ,
chỉ bằng cách quan sát hoặc đo chiều cao của mọi người, dần dần ta học được khái
niệm “người cao” và “người thấp”, và có thể xếp mọi người vào hai cụm tương
ứng.
Ngoài phân cụm, một dạng học không giám sát phổ biến khác là phát hiện
luật kết hợp (association rule). Luật kết hợp có dạng P(A | B), cho thấy xác suất hai
tính chất A và B xuất hiện cùng với Ví dụ, qua phân tích dữ liệu mua hàng ở siêu
thị, ta có luật P(Bơ | Bánh mỳ) =80%, có nghĩa là 80% những người mua bánh mỳ
cũng mua bơ.
Ví dụ: phân nhóm khách hàng dựa trên hành vi mua hàng. Điều này cũng
giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình thù và
màu sắc khác nhau, ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu
cầu trẻ phân chúng thành từng nhóm. Mặc dù không cho trẻ biết mảnh nào tương
ứng với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loại các
mảnh ghép theo màu hoặc hình dạng.

Học tăng cường (reinforcement learning). Đối với dạng học này, kinh
nghiệm không được cho trực tiếp dưới dạng đầu vào/đầu ra cho mỗi trạng thái hoặc
mỗi hành động. Thay vào đó, hệ thống nhận được một giá trị khuyến khích
(reward) là kết quả cho một chuỗi hành động nào đó. Thuật toán cần học cách hành
động để cực đại hóa giá trị khuyến khích. Ví dụ của học khuyến khích là học đánh
cờ, trong đó hệ thống không được chỉ dẫn nước đi nào là hợp lý cho từng tình
huống mà chỉ biết kết quả toàn ván cờ. Như vậy, các chỉ dẫn về nước đi được cho
một cách gián tiến và có độ trễ dưới dạng giá trị thưởng. Nước đi tốt là nước đi
nằm trong một chuỗi các nước đi dẫn tới kết quả thắng toàn bộ ván cờ.
Trong các dạng học máy, học có giám sát là dạng phổ biến, có nhiều thuật
toán liên quan và nhiều ứng dụng nhất.

Học nửa giám sát(Semi-supervised Learning) Một dạng lai giữa hai nhóm
giải thuật giữa học có giám sát và học không có giám sát

CÂU 5: Overfitting trong học máy


 dữ liệu thuốc vào tập training hay dữ liệu phụ thuộc vào tập test
 bản chất của hàm mục tiêu là quy tắc của đầu vào và đầu ra. hàm mục
tiêu mục đích của nó là đầu vào để đưa ra 1 đầu ra nào đó. 
Overfitting là hiện tượng khi mô hình xây dựng thể hiện được chi tiết bộ dữ liệu
huấn luyện. Điều này có nghĩa là cả dữ liệu nhiễu, hoặc dữ liệu bất thường trong
tập huấn luyện đều được chọn và học để đưa ra quy luật mô hình. Những quy luật
này sẽ không có ý nghĩa nhiều khi áp dụng với bộ dữ liệu mới có thể có dạng dữ
liệu nhiễu khác. Khi đó, nó ảnh hưởng tiêu cực tới độ chính xác của mô hình nói
chung.
Hiện tượng Overfitting thường xảy ra trong các mô hình phi tham số hoặc
phi tuyến, những mô hình có sự linh hoạt cao trong xây dựng hàm mục tiêu.
Như vậy, rất nhiều thuật toán học máy phi tham số sẽ bao gồm những thông
số và kỹ thuật để hạn chế và giới hạn mức độ học chi tiết của mô hình.
Ví dụ, bài toán cây quyết định là một thuật toán học máy phi tham số. Đây là
thuật toán thường xảy ra hiện tượng Overfitting. Ta có thể tránh hiện tượng này
bằng phương pháp cắt tỉa cây (pruning).

You might also like