You are on page 1of 3

Học máy là một lĩnh vực của trí tuệ nhân tạo (AI) tập trung vào việc

phát triển các


thuật toán và mô hình máy tính có khả năng học từ dữ liệu và thực hiện các nhiệm vụ
mà không cần được lập trình cụ thể. Trong học máy, máy tính được thiết kế để tự động
học và cải thiện hiệu suất của chúng theo thời gian.

Các thuật toán học máy có thể được chia thành các loại chính:

Học giám sát (Supervised Learning): Mô hình được đào tạo bằng cách sử dụng một
tập dữ liệu đào tạo, trong đó mỗi mẫu dữ liệu đi kèm với một đầu ra mong muốn. Mục
tiêu là học cách ánh xạ từ đầu vào đến đầu ra.

Học không giám sát (Unsupervised Learning): Mô hình được đào tạo trên tập dữ
liệu không có đầu ra mong muốn. Mục tiêu là khám phá cấu trúc ẩn sau dữ liệu, chẳng
hạn như phân loại hoặc gom cụm.

Học tăng cường (Reinforcement Learning): Mô hình tương tác với môi trường và tự
động học thông qua việc thử nghiệm và lỗi. Học tăng cường thường được áp dụng
trong các ứng dụng có tính tương tác động với môi trường, chẳng hạn như trò chơi
hoặc robotica.

Học máy có nhiều ứng dụng rộng rãi, bao gồm nhận dạng hình ảnh, dịch ngôn ngữ tự
nhiên, xe tự lái, dự đoán chuỗi thời gian, và nhiều lĩnh vực khác. Học máy đã đóng
góp đáng kể vào sự tiến bộ của nhiều ứng dụng công nghiệp và khoa học.

PCA (Principal Component Analysis) là một phương pháp trong thống kê và học
máy được sử dụng để giảm chiều dữ liệu, giữ lại các thành phần quan trọng nhất và
giảm thiểu thông tin không quan trọng. PCA thường được sử dụng để giảm số lượng
biến trong tập dữ liệu, giúp giảm chiều của không gian đặc trưng mà vẫn giữ được sự
biểu diễn quan trọng của dữ liệu.

Các bước chính của PCA bao gồm:

Chuẩn bị dữ liệu: Đảm bảo dữ liệu đã được chuẩn hóa, nghĩa là các biến có đơn vị đo
lường tương tự để tránh ảnh hưởng không mong muốn từ sự biến thiên tỷ lệ.
Tính toán ma trận hiệp phương sai (covariance matrix): Xác định mức độ biến thiên
chung giữa các cặp biến trong dữ liệu.

Tính toán các vector riêng và giá trị riêng của ma trận hiệp phương sai: Các vector
riêng và giá trị riêng cung cấp thông tin về hướng và lượng biến thiên tương ứng.

Sắp xếp các vector riêng theo giá trị riêng giảm dần: Các thành phần chính của dữ liệu
được xác định bởi các vector riêng ứng với giá trị riêng lớn nhất.

Chọn số lượng thành phần chính: Dựa trên tỷ lệ giữ lại thông tin mong muốn, quyết
định giữ lại bao nhiêu thành phần chính.

Chuyển đổi dữ liệu: Xây dựng các thành phần chính mới bằng cách kết hợp các biến
theo trọng số của vector riêng tương ứng.

Phương pháp này thường được sử dụng để giảm chiều dữ liệu trong các bài toán như
phân tích hình ảnh, nhận dạng khuôn mặt, hay trong việc xử lý dữ liệu đa biến. Điều
này giúp giảm kích thước của dữ liệu, tăng tốc quá trình đào tạo mô hình, và có thể cải
thiện hiệu suất của mô hình trong một số trường hợp.

LDA (Linear Discriminant Analysis):

LDA trong học máy là một kỹ thuật giảm chiều dữ liệu và phân loại. Mục tiêu chính
của LDA là tối ưu hóa sự phân biệt giữa các lớp trong dữ liệu. Nó thực hiện điều này
bằng cách tìm ra các thành phần chính (linear discriminants) mà giảm thiểu sự biến
động trong từng lớp và đồng thời tăng cường sự phân biệt giữa các lớp.

Các bước cơ bản của LDA bao gồm:

Tính toán ma trận hiệp phương sai (covariance matrix): Đối với mỗi lớp dữ liệu, tính
toán ma trận hiệp phương sai để đo lường sự biến động trong lớp đó.
Tính toán ma trận giữa lớp (between-class scatter matrix) và trong lớp (within-class
scatter matrix): Dựa trên ma trận hiệp phương sai, tính toán hai ma trận này để đo
lường sự biến động giữa các lớp và bên trong các lớp.

Tính toán vector riêng và giá trị riêng của ma trận nghịch đảo của within-class scatter
matrix nhân với between-class scatter matrix: Vector riêng và giá trị riêng này giúp
xác định các thành phần chính (linear discriminants).

Sắp xếp các vector riêng theo giá trị riêng giảm dần và chọn các thành phần chính: Các
thành phần chính này được sử dụng để biến đổi dữ liệu vào không gian có chiều thấp
hơn.

LDA thường được sử dụng trong các bài toán phân loại để giảm chiều dữ liệu và
tăng cường khả năng phân biệt giữa các lớp. Nó là một kỹ thuật mạnh mẽ khi dữ liệu
phân bố gần với phân phối chuẩn và các lớp có các ma trận hiệp phương sai chung.

You might also like