Professional Documents
Culture Documents
HCM
KHOA CÔNG NGHỆ THÔNG TIN
Chuyên đề:
MÁY HỌC LÀ GÌ ?
CÓ BAO NHIÊU CÁCH TIẾP CẬN VÀ ỨNG DỤNG
MÁY HỌC ?
TẦM QUAN TRỌNG TRONG KĨ NGUYÊN 4.0 ?
1
1.2 Biểu Diễn
Biểu diễn (tiếng Anh: representation) là một trong những vấn đề quan trọng
của học máy. Biểu diễn ở đây có thể hiểu làm sao ghi mã (encode) những thông
tin của thế giới thật giúp hoàn thành nhiệm vụ một cách hiệu quả và đầy đủ nhất
có thể. Thông tin ở đây bao hàm cả thông tin về dữ liệu đầu vào, đầu ra hay các
trạng thái của hệ thống; cũng như cách đánh giá hiệu quả của chương trình.
Thông thường, trong học máy người ta hay xây dựng các mô hình sử dụng
những biển ngẫu nhiên cho việc biểu diễn dữ liệu và nội trạng thái của hệ thống. Ví
dụ: dùng biến ngẫu nhiên để biểu thị cho tính chất của email là spam (tương ứng
giá trị 0) hay là bình thường (tương ứng 1). Mối tương quan giữa các biến ngẫu
nhiên này có thể sử dụng ví dụ như mô hình xác suất dồ thị để miêu tả. Mặt khác,
để đo hiệu quả có thể dùng các hàm thiệt hại (hay hàm tiẹn ích, trong tiếng Anh
là loss function và utility function tương ứng).
1.3 Tính phổ quát
Một trong những trọng tâm khác của học máy là đạt được tính phổ quát (tiếng
Anh: generalization), nói cách khác là tính chất của chương trình có thể làm việc
tốt với dữ liệu mà nó chưa gặp bao giờ (tiếng Anh: unseen data). Một chương trình
chỉ hiệu quả với dữ liệu đã gặp nhìn chung không có nhiều tính hữu dụng.
1.4 Tương Tác với con người
Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác của con người
trong việc phân tích dữ liệu, trong khi các hệ thống khác hướng đến việc tăng sự
cộng tác giữa người và máy. Không thể loại bỏ hoàn toàn tác động của con người
vì các nhà thiết kế hệ thống phải chỉ định cách biểu diễn của dữ liệu và những cơ
chế nào sẽ được dùng để tìm kiếm các đặc tính của dữ liệu. Học máy có thể được
xem là một nỗ lực để tự động hóa một số phần của phương pháp khoa học. Một số
nhà nghiên cứu học máy tạo ra các phương pháp bên trong các khuôn khổ
của thống kê Bayes.
1.5 Tương quan khai pha dữ liệu
Là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan
đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở
dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính. Mục tiêu tổng thể
2
của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển
nó thành một cấu trúc dễ hiểu để sử dụng tiếp.
Hai lĩnh vực này nhìn chung gần với nhau và đôi khi dùng chung nhiều phương
pháp, công cụ nhưng khác biệt chính là ở mục tiêu
• Khai phá dữ liệu: thường mục tiêu là tìm kiếm những thông tin, tri thức
hoàn toàn mới tiềm năng có ích trong nguồn dữ liệu.
• Học máy: dự đoán một số thông tin của dữ liệu dựa trên những đặc tính
đã biết.
1.6 Các loại Giải thuật
Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật
toán.Các loại thuật toán thường dùng bao gồm:
• Học có giám sát—trong đó, thuật toán tạo ra một hàm ánh xạ dữ liệu vào
tới kết quả mong muốn. Một phát biểu chuẩn về một việc học có giám sát
là bài toán phân loại: chương trình cần học (cách xấp xỉ biểu hiện của)
• một hàm ánh xạ một vector tới một vài lớp bằng cách xem xét một số
mẫu dữ liệu - kết quả của hàm đó.
• Học không giám sát—mô hình hóa một tập dữ liệu, không có sẵn các ví
dụ đã được gắn nhãn.
• Học nửa giám sát—kết hợp các ví dụ có gắn nhãn và không gắn nhãn để
sinh một hàm hoặc một bộ phân loại thích hợp.
• Học tăng cường—trong đó, thuật toán học một chính sách hành động tùy
theo các quan sát về thế giới. Mỗi hành động đều có tác động tới môi
trường, và môi trường cung cấp thông tin phản hồi để hướng dẫn cho
thuật toán của quá trình học.
• Chuyển đổi—tương tự học có giám sát nhưng không xây dựng hàm một
cách rõ ràng. Thay vì thế, cố gắng đoán kết quả mới dựa vào các dữ liệu
huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá
trình huấn luyện.
• Học cách học—trong đó thuật toán học thiên kiến quy nạp của chính
mình, dựa theo các kinh nghiệm đã gặp.
Phân tích hiệu quả các thuật toán học máy là một nhánh của ngành thống kê,
được biết với tên lý thuyết học điện toán.
3
2. TIẾP CẬN HỌC MÁY NHƯ THẾ NÀO?
2.1 Cách tiếp cận học máy
Thông qua trao đổi với nhiều bạn bè của tôi và nhiều người học ML khác, tôi
rút ra được có 2 cách chính để tiếp cận ML:
• Cách 1: Học đến đâu chắc đến đấy, người học muốn thành thạo từng phần
rồi mới chuyển qua phần khác. Học ML thì học chắc đại số, xong chắc
giải tích, xong chuyển qua xác suất thống kê... cuối cùng mới chuyển qua
học chắc lần lượt các model classification, regression, vv. Cách này giúp
cho người học nắm vững căn bản và xây dựng một nền tảng tốt. Đây cũng
là cách đào tạo bài bản của các trường đại học. Tuy nhiên, cách này phải
đầu tư thời gian và công sức cũng như sự kiên trì theo đuổi.
• Cách 2: Từ khái quát đến cụ thể, hay còn gọi là top-down, đối với cách
này, người học sẽ không yêu cầu nền tảng toán học vững chắc ngay từ đầu
để tiếp cận vào vấn đề, ngay từ đầu, người học ứng dụng ML để giải quyết
vấn đề, cuối cùng mới đi vào cụ thể lý thuyết đằng sau. Với cách tiếp cận
này, ngay từ đầu ta đã mừng tượng được ML là cái gì đó, giải quyết được
một vấn đề gì đó. Điều đó giúp trong suy nghĩ của ta luôn thông, nó thôi
thúc trí tò mò tìm hiểu chi tiết hơn đến một mức ta mong muốn.
Phương pháp từ khái quát đến cụ thể chấp nhập coi một cái chưa biết là hộp
đen. Hộp đen có input, output và chức năng của nó. Chỉ cần biết điều đó là ta đã ứng
dụng được hộp đen vào giải quyết vấn đề. So với cách 1 thì cách 2 active hơn, tiếp
cận nhanh hơn và dễ hơn. Đặc biệt phù hợp với những người trái ngành, muốn bắt
đầu với ML mà chưa có căn bản.
5
Hình 3 Tự động phân loại
3.2 Ứng dụng trong các mạng xã hội
Học máy đang được sử dụng trong một loạt các ứng dụng ngày nay. Một trong
những ví dụ nổi tiếng nhất là Facebook News Feed. Nguồn cấp tin tức sử dụng học
máy để cá nhân hóa từng nguồn cấp dữ liệu thành viên.
Nếu một thành viên thường xuyên dừng lại để đọc hoặc thích một bài đăng
của một người bạn cụ thể, News Feed sẽ bắt đầu hiển thị nhiều hơn về hoạt động
của người bạn đó trước đó trong nguồn cấp dữ liệu.
Đằng sau hệ thống ấy, phần mềm sử dụng phân tích thống kê và phân tích dự
đoán để xác định các mẫu trong dữ liệu người dùng và sử dụng các mẫu đó để điền
vào News Feed. Nếu thành viên không còn dừng lại để đọc, thích hoặc bình luận
trên các bài đăng của bạn bè, dữ liệu mới đó sẽ được bao gồm trong tập dữ liệu và
News Feed sẽ điều chỉnh tương ứng. Không chỉ riêng facebook, ta có thể bắt gặp
những tính năng tương tự đó qua các mạng xã hội khác như google, instagram,....
6
trưng của một đối tượng trong hình ảnh kỹ thuật số. Hơn nữa, kỹ thuật này có thể
được sử dụng để phân tích sâu hơn, chẳng hạn như nhận dạng mẫu, nhận diện hình
khuôn, nhận dạng khuôn mặt, nhận dạng ký tự quang học và nhiều hơn nữa,...
7
sử dụng các thuật toán để tìm kiếm các yếu tố tác động tích cực và tiêu
cực đến thành công của chuỗi một cung ứng, biến máy học trở thành một
thành phần quan trọng trong việc quản lý chuỗi cung ứng. Máy học sẽ
liên tục xác định các đối tượng trong môi trường xung quanh xe, dự đoán
chúng sẽ thay đổi hoặc di chuyển như thế nào.
• Tài chính – Máy học có thể cung cấp cho ngành này những hiểu biết sâu
sắc cho phép các nhà đầu tư xác định các cơ hội mới hoặc biết thời điểm
nào nên giao dịch. Nó cũng có thể giúp chúng ta phát hiện các giao dịch
gian lận và mở đường dẫn đến một giao dịch trực tuyến an toàn, bảo mật
hơn.
8
4.3.2 Trường hợp chúng ta biết cách thực hiện nhưng không thể diễn giải để
máy tính có thể thực hiện lại được
Đây là trường hợp con người có thể nhưng máy tính không thể. Cho một
tấm hình có kí tự viết tay, xác định xem tấm hình đó chứa kí tự gì nằm trong
bảng chữ cái ABC. Quả thật với khả năng của con người, ta có thể nhận biết
ngay đó là kí tự gì chỉ trong vài giây. Nhưng ngược lại, đối với máy tính, ta khó
có thể diễn giải được tại sao chúng ta có thể làm được như vậy
4.3.3 Trường hợp dữ liệu thay đổi liên tục, ta không thể thường xuyên lập
trình lại chức năng đó
Trong chứng khoán, ta luôn muốn phân tích dữ liệu 10 ngày trước đó, để có
thể đưa ra quyết định cho giá trị chứng khoán ngày hiện tại. Do dữ liệu thay đổi
liên tục, ta cần một hệ thống có thể tự cập nhật và phân tích để hỗ trợ đưa ra
quyết định có độ chính xác cao nhất.
4.3.4 Trường hợp ta không thể lập trình cụ thể cho từng người dùng do giới
hạn về nhân lực
Làm sao ta biết được thói quen của từng người dùng khi mua sản phẩm
online để có thể gợi ý họ mua những sản phẩm tương ứng với những sản phẩm
họ đã mua trước đó. Amazon hay Youtube là những ví dụ cho các hệ thống có
khả năng xác định thói quen và xu hướng của người dùng để có thể đưa ra những
gợi ý chính xác giúp nâng cao trải nghiệm của người dùng
5 KẾT LUẬN
Machine Learning ngày càng thể hiện được rõ vai trò của mình trong sự phát triển
của công nghệ trong thời đại mới. Am hiểu về học máy sẽ giúp bạn có thể mở ra những
cơ hội phát triển cùng sự thăng tiến trong tương lai. Do đó, bạn hãy xây dựng cho mình
một lộ trình nghiên cứu học máy từ cơ bản đến nâng cao để nâng cao trình độ chuyên
môn của mình tốt hơn nhé.
9
TÀI LIỆU THAM KHẢO
1. https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y
2. https://helpex.vn/article/phuong-phap-tiep-can-nhanh-de-phat-trien-va-van-
hanh-cac-mo-hinh-hoc-may-ml-608ba7b74c4ecc9eb5d8eacc
3. https://vn.got-it.ai/blog/tim-hieu-ve-hoc-may-la-gi-va-nhung-ung-dung-cua-
hoc-may
4. https://vnautomate.net/tam-quan-trong-cua-may-hoc.html
5. https://longvan.net/machine-learning-la-gi-ung-dung-cua-machine-
learning.html
10