Lý thuyết

BỘ KẾ HOẠCH VÀ ĐẦU TƯ
HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN
TIỂU LUẬN
MÔN DỮ LIỆU LỚN TRONG KINH TẾ VÀ
KINH DOANH
Hà Nội, năm 2024

MỤC LỤC
CHƯƠNG I. TRẢ LỜI CÂU HỎI SỐ 2..........................................................................5

1.1. Đặc trung 5V của dữ liệu lớn..............................................................................5
1.1.1. Kích thước (Volume)......................................................................................5
1.1.2. Tốc độ (Velocity) – Vận tốc...........................................................................6
1.1.3. Đa dạng (Variety)..........................................................................................7
1.3.5. Giá trị (Value)....................................................................................................8
1.2. Trả lời ý số 2 của câu hỏi.....................................................................................9
CHƯƠNG II. TRẢ LỜI CÂU HỎI SỐ 3......................................................................13
2.1 Sơ lược 4 kỹ thuật phân tích dữ liệu lớn...............................................................13
2.1.1. Phân lớp dữ liệu..........................................................................................13
2.1.2. Phân cụm dữ liệu.........................................................................................18
2.1.3. Phát hiện luật kết hợp..................................................................................21
2.1.4. Hồi quy............................................................................................................23
2.2. So sánh sự khác biệt giữa phân cụm và phân lớp dữ liệu...............................23
2.3. Ví vụ minh họa trong thực tế mà em biết về kỹ thuật phân cụm và phân lớp.24
TÀI LIỆU THAM KHẢO...............................................................................................28
FILE THỰC HÀNH TABLEAU....................................................................................28
3
DANH MỤC HÌNH ẢNH
Hình 1. 1. Mô hình 5V của dữ liệu lớn................................................................................5

Hình 1. 2. Các bước tìm hiểu và phân tích thông tin khách hàng......................................11
Hình 2. 1. Hệ thống phân loại thư rác................................................................................13
Hình 2. 2 Ví dụ về dữ liệu huấn luyện...............................................................................14
Hình 2. 3 Hồ sơ quá trình huấn luyện................................................................................14
Hình 2. 4. Sơ đồ biểu diễn quá trình sử dụng mô hình phân lớp.......................................15
Hình 2. 5. Phân lớp những người gian lận đóng thuế dựa trên mô hình cây quyết định...15
Hình 2. 6. Mô hình phân lớp của rừng ngẫu nhiên............................................................16
Hình 2. 7. Ví dụ phân lớp dữ liệu dựa trên thuật toán K-NN............................................17
Hình 2. 8. Ví dụ về phân cụm............................................................................................18
Hình 2. 9. Minh họa liên thông mật độ..............................................................................20
4
CHƯƠNG I. TRẢ LỜI CÂU HỎI SỐ 2
Phân tích đặc trưng 5V của dữ liệu lớn. Nếu giả sử em là chủ sở một
nguồn dữ liệu của 1 tỷ người sử dụng mạng xã hội thì em sẽ có giải pháp
kinh doanh hợp pháp nào từ kho dữ liệu lớn này
I.1. Đặc trung 5V của dữ liệu lớn
Năm 2014, công ty nghiên cứu và tư vấn công nghệ thông tin hàng
đầu thế giới là Gartner đã công bố mô hình “5V” - năm tính chất quan trọng
của dữ liệu lớn để miêu tả về những gì Bia Data có thể làm được và hoạt
đọng mạnh như nào.
Hình 1. 1. Mô hình 5V của dữ liệu lớn

I.1.1. Kích thước (Volume)
Bản thân cái tên dữ liệu lớn có liên quan đến một kích thước rất
lớn, một dữ liệu có thực sự được coi là “Big Data” hay không phụ thuộc vào
khối lượng dữ liệu. Chúng ta không phải nói về dữ liệu hàng Terabyte mà là
những dữ liệu hàng Zettebyte hay Brontobyte.
Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở
Châu Âu làm ví dụ cho “Big Data”. Khi các thí nghiệm này được tiến hành,
kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữ
liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như LHC ghi nhận hết kết
5
quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn, có thể đạt đến
150 triệu Petabyte mỗi năm, hoặc 500 Exabyte mỗi ngày, cao hơn 200 lần so
với tất cả các nguồn dữ liệu khác trên thế giới gộp loại.
Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa
các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% các
luồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quan
tâm. Điều này có nghĩa là cơ quan chủ quản của hệ thống LHC phải tìm
những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này. Với ố
lượng lớn thông tin hàng ngày liên tục được cập nhật trên mạng xã hội, ví dụ
như: Facebook nhận được gần 350 triệu hình ảnh, hơn 4,5 tỷ lượt like, và
gần 10 tỷ tin nhắn và bình luận mỗi ngày.
Việc tăng trưởng này khiến cho dữ liệu trở nên quá lớn để có thể lưu
trữ và phân tích theo công nghệ CSDL truyền thống. Với công nghệ điện
toán đám mây (cloud computing), tại các trung tâm dữ liệu (data center)
chúng ta đã có thể lưu trữ và sử dụng những tập dữ liệu này với sự giúp đỡ
của các hệ thống phân tán, nơi mà dữ liệu chỉ được lưu trữ một phần tại các
địa điểm khác nhau và được quản trị bởi các phần mềm chuyên dụng.
I.1.2. Tốc độ (Velocity) – Vận tốc
Ngoài đặc trưng đầu tiên là khối lượng rất lớn thì khi nói đến “Big
data” là phải nói đến tốc độ dữ liệu mới được tạo ra và tốc độ xử lý dữ liệu
hiện nay. Hãy tưởng tượng đó là các thông điệp của mạng xã hội lan truyền
theo đơn vị giây hay đó là tốc độ mà các giao dịch thẻ tín dụng gian lận
được kiểm tra. Một ví dụ cụ thể cho khối lượng dữ liệu đã tạo ra, vào năm
2016 lượng truy cập toàn cầu chỉ là 6.2 exabytes/tháng, tuy nhiên đến năm
2020 thì con số này đã lên đến 40.000 exabytes/tháng. Điều đó có thể giải
thích được, dữ liệu hiện nay phát triển nhanh đến mức nào.
Công nghệ dữ liệu lớn cho phép chúng ta có thể phân tích dữ liệu
ngay khi chúng đang được tạo ra mà không cần lưu trữ chúng trong các
CSDL. Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ
6
liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng
mili giây).
I.1.3. Đa dạng (Variety)

Đặc trưng thứ ba của “Big Data” là sự đa dạng của các loại dữ liệu.
Sự đa dạng về định dạng dữ liệu lớn được thể hiện thông qua các yếu tố sau:
+ Đa dạng về nguồn gốc: Dữ liệu lớn có thể được thu thập từ nhiều
nguồn khác nhau, bao gồm các nguồn dữ liệu nội bộ của tổ chức, dữ liệu từ
các nguồn bên ngoài như mạng xã hội, trang web, máy cảm biến, thiết bị IoT
(Internet of Things), các hệ thống giao thông, và nhiều nguồn dữ liệu khác.
+ Đa dạng về định dạng: Dữ liệu lớn có thể tồn tại dưới nhiều định
dạng khác nhau như văn bản, hình ảnh, âm thanh, video, tệp log, tệp đồ thị,
tệp dạng bảng, và nhiều định dạng dữ liệu khác.
+ Đa dạng về kích thước: Dữ liệu lớn thường có kích thước rất lớn,
từ hàng terabyte đến petabyte hoặc thậm chí exabyte. Điều này có nghĩa là
dữ liệu lớn bao gồm một lượng lớn thông tin và chi tiết về các sự kiện, giao
dịch, hành vi người dùng, và nhiều thông tin khác.
+ Đa dạng về tốc độ: Dữ liệu lớn thường được tạo ra và cập nhật liên
tục từ nhiều nguồn khác nhau. Ví dụ, dữ liệu từ các mạng xã hội được tạo ra
trong thời gian thực, dữ liệu từ máy cảm biến IoT được gửi với tốc độ
nhanh. Điều này yêu cầu khả năng xử lý dữ liệu lớn và phân tích nhanh
chóng để tận dụng được giá trị của dữ liệu.
Sự đa dạng của dữ liệu lớn đòi hỏi các công nghệ và phương pháp xử
lý dữ liệu phù hợp, bao gồm kho lưu trữ dữ liệu, công cụ phân tích dữ liệu,
thuật toán thông minh để tìm ra những thông tin quan trọng, xu hướng và
hiểu biết từ dữ liệu đa dạng này.
1.3.4. Độ tin cậy (Veracity)
Một trong những tính chất phức tạp nhất của “Big data” là độ tin
cậy/chính xác của dữ liệu vì khối lượng lớn thường đi kèm với việc thiếu
chính xác và chất lượng của dữ liệu.
7
Tính xác thực là một đặc tính của “Big data” liên quan đến tính nhất
quán, độ chính xác, chất lượng hay độ tin cậy của dữ liệu. Tính xác thực của
dữ liệu đề cập đến sự sai lệch, nhiễu, bất thường trong dữ liệu. Nó cũng đề
cập đến dữ liệu không đầy đủ hoặc sự hiện diện của lỗi, giá trị ngoại lệ. Để
chuyển đổi loại dữ liệu này thành một nguồn thông tin nhất quán, thống nhất
sẽ một thách thức lớn cho các tổ chức và doanh nghiệp.
Trong khi trọng tâm chính của các doanh nghiệp là sử dụng toàn bộ
tiềm năng của dữ liệu để thu thập thông tin chi tiết, họ có xu hướng bỏ lỡ các
vấn đề do quản trị dữ liệu kém gặp phải. Khi chúng ta nói về độ chính xác
của dữ liệu lớn, nó không chỉ là về chất lượng của dữ liệu mà còn phụ thuộc
vào mức độ đáng tin cậy của nguồn dữ liệu và các quy trình dữ liệu của bạn.
Chẳng han, ta lấy một ví dụ để biết tác động của tính tin cậy của dữ
liệu bằng cách có thông tin của hàng triệu người có nhu cầu tiêu dùng một
loại hàng hóa của doanh nghiệp. Tuy nhiên, dữ liệu này không thể chuyển
đổi thành dữ liệu bán hàng do thông tin khách hàng không chính xác. Chất
lượng dữ liệu kém hoặc dữ liệu không chính xác có thể dẫn đến việc nhắm
mục tiêu sai khách hàng và thông tin liên lạc, điều này cuối cùng gây ra thiệt
hại về doanh thu cho doanh nghiệp.
Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là
tính chất quan trọng của Big data. Tất nhiên dữ liệu không được phép sai
hoàn toàn, nhưng chúng ta sẵn sàng hy sinh một chút trong sự chính xác để
đổi lại hiểu biết về xu hướng chúng. Dữ liệu lớn biến đổi các con số thành
một cái gì đó mang tính xác suất nhiều hơn là tính chính xác.
1.3.5. Giá trị (Value)
Chữ V cuối cùng trong 5V của “Big data” và cũng là chữ V quan
trọng nhất chính là giá trị. Nó đề cập đến giá trị mà “Big data” có thể cung
cấp và nó liên quan trực tiếp đến những gì tổ chức có thể làm với dữ liệu
được thu thập đó. Việc tiếp cận được dữ liệu lớn sẽ chẳng có ý nghĩa gì nếu
chúng ta không chuyển được chúng thành những thứ có giá trị vì giá trị của
dữ liệu lớn tăng lên đáng kể tùy thuộc vào những hiểu biết sâu sắc có thể thu
được từ chúng.
8
Ví dụ, nếu chúng ta có một bộ dữ liệu của hàng tỷ hoạt động khám
chữa bệnh của các bệnh nhân tại một bệnh viện lớn trong thời gian 5 năm
gần đây mà được lưu trữ một cách cơ học trên hệ thống máy chủ thì cũng sẽ
không mang lại giá trị gì cho bệnh viện cũng như các bệnh nhân. Tuy nhiên,
nếu bộ dữ liệu đó được đem ra phân tích nhằm tìm được các xu hướng khám
chữa bệnh, các loại thuốc nào điều trị hiệu quả hơn, loại bệnh nào người
bệnh hay mắc phải, bác sỹ nào khám chữa bệnh tốt hơn, thời gian điều trị
bệnh tối ưu là bao nhiêu ngày,… thì điều này sẽ mang lại giá trị rất lớn cho
cả bệnh viện và cộng đồng vì sẽ giúp dự báo về sức khỏe được chính xác
hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế.
Một ví dụ khác để thể hiện giá trị của dữ liệu lớn là quá trình chuyển
đổi số của mỗi tổ chức mà doanh nghiệp. Trong những năm gần đây, khi nhu
cầu về chuyển đổi số ngày một tăng lên, dữ liệu lớn đã nổi lên như một
nguồn nhiên
liệu chính tiếp sức cho cuộc hành trình này. Khả năng phân tích một
lượng lớn dữ liệu cấu trúc (structured data) và dữ liệu phi cấu trúc
(unstructured data) để có được những thông tin chi tiết, thường là theo thời
gian thực, là cơ sở nền tảng của hầu hết các nỗ lực chuyển đổi số, vì thông
tin chi tiết thu được thông qua phân tích dữ liệu lớn được sử dụng để thúc
đẩy quá trình số hóa và tự động hóa quy trình làm việc. Khi các tổ chức có
thể tận dụng dữ liệu lớn cho mục đích báo cáo và cải tiến quy trình thì “giá
trị đích thực sẽ đến từ khả năng kết hợp dữ liệu lớn với các nỗ lực chuyển
đổi số để cho phép số hóa và tự động hóa toàn bộ hoạt động nhằm thúc đẩy
hiệu quả và các mô hình kinh doanh mới”. Nếu chuyển đổi số cho mỗi tổ
chức và doanh nghiệp là con đường thì dữ liệu lớn là một trong những
phương tiện giúp đi nhanh trên con đường đó.
I.2. Trả lời ý số 2 của câu hỏi
Nếu giả sử em là chủ sở một nguồn dữ liệu của 1 tỷ người sử dụng
mạng xã hội thì em sẽ có giải pháp kinh doanh hợp pháp nào từ kho dữ liệu
lớn này
9
Mạng xã hội là một công cụ hiệu quả để quảng bá thương hiệu, tăng
doanh số bán hàng và xây dựng mối quan hệ với khách hàng. Nếu em là chủ
sở hữu một nguồn dữ liệu của 1 tỷ người dùng mạng xã hội thì em sẽ sử
dụng các thông tin đó để tương tác với khách hàng. Bằng việc sử dụng các
kênh truyền thông hai chiều để giao tiếp, hỗ trợ và thúc đẩy sự gắn kết với
khách hàng. Việc sử dụng mạng xã hội để tương tác với khách hàng có thể
giúp tăng sự hài lòng, trung thành và doanh số của khách hàng.
Theo em, để có thể tận dụng tối đa tiềm năng của mạng xã hội trong
việc giao tiếp với khách hàng cần quan tâm đến các đặc trưng của dữ liệu để
từ đó có cách sử dụng thông tin hiệu quả
- Dựa vào đặc trưng về kích thước (Volume): do kích thước thông tin
mà hàng ngày các khách hàng cập nhật trên mạng xã hội là rất lớn, nên
không thể lưu trữ và phân tích bằng CSDL truyền thống nên em sẽ áp dụng
kỹ thuật phân tích đám đông để xác định được hành vi người tiêu dùng và
tính năng của họ. Từ đó đưa ra nhwuxng chiến lược tiếp thị, quảng cáo và
marketing phù hợp.
- Dựa vào đặc trưng tốc độ (Velocity): các thông tin được cập nhật
nhanh chóng có thể phân tích ngay khi chúng đang được tạo ra mà không
cần lưu trữ chúng trong các CSDL. Xử lý thông tin khách hàng nhanh ở mức
thời gian thực (real-time) có thể giúp chủ doanh nghiệp nắm bắt các xu
hướng mua sắm nhanh chóng
- Dựa vào đặc trưng về độ tin cậy (Veracity): bằng việc xác thực
thông tin người dùng của khách hàng của các ứng dụng trên mạng xã hội,
em có thể dễ dàng đánh giá tính chính xác của các thông tin mà khách hàng
cung cấp bao gồm bài đăng, hình ảnh, bình luận và các hoạt động khác liên
quan. Các lịch sử giao dịchvà hoạt động của khách hàng có thể cung cấp
xem họ có lịch sử gian lận, lừa đảo hoặc dính vào các dư luận tiêu cực hay
không để từ đó loại bỏ họ ra khỏi tệp khách hàng tiềm năng.
- Dựa vào đặc trưng về giá trị (Values): sử dụng dữ liệu thu được từ
người dùng trên mạng xã hội như việc người dung đang quan tâm về một
10
vấn đề nào đang hot, xu hướng của người dùng hiện nay và từ đó đem lại
thêm giá trị cho người dùng bằng cách phát triển sản phẩm và dịch vụ dựa
theo những xu hướng đó
- Dựa vào đặc trưng về đa dạng (Variety): tìm kiếm các tệp khách
hàng tiềm năng thông qua nhiều loại dữ liệu khác nhau như hình ảnh, video,
các văn bản thể hiện thông tin ngườidùng, v.v để từ đó tìm ra những đặc
điểm chung của các phân khúc khách hàng tiềm năng như sởthích, phong
cách, độ tuổi… và đưa ra những chiến lược quảng cáo và marketing đánh
thẳng vàonhu cầu của các tệp khách hàng đó.
Các bước tìm hiểu và phân tích thông tin khách hàng trước khi bắt
đầu tương tác:
Chọn Tạo Giải

Tìm
kênh nội pháp
hiểu
mạng dung tương
khách
xã hội tương tác hiệu
hàng (1)
(2) tác (3) quả (4)
Hình 1. 2. Các bước tìm hiểu và phân tích thông tin khách hàng
(1) Tìm hiểu khách hàng:
 Ai là khách hàng mục tiêu ? Họ có đặc điểm gì về tuổi, giới
tính, nghề nghiệp, sở thích, nhu cầu, vấn đề…?
 Họ sự dụng mạng xã hội nào? Thời gian hoạt động mạng xã
hội, nội dung quan tâm
 Khách hàng mong đợi gì về sản phẩm/dịch vụ mình kinh
doanh? Họ có những câu hỏi, ý kiến, phản hồi, khiếu nại hay góp ý gì?
(2) Chọn kênh mạng xã hội phù hợp: tập trung vào những kênh
khách hàng thường xuyên sử dụng và quan tâm. Mỗi kênh mạng xã hội có
những đặc điểm và lợi ích riêng. Ví dụ như:
11
 Kênh Facebook: chia sẻ các nội dung về sản phẩm/dịch vụ,
tin tức, sự kiện hay chương trình khuyến mãi. Ngoài ra còn có thể tạo trang
và nhóm để thu hút và tương tác với khách hàng tiềm năng
 Kênh hình ảnh và video – Instagram: kênh có lượng người
dùng trẻ và năng động. Có thể dùng để chia sẻ hình ảnh, video về sản phẩm
hay tạo các story để tăng sự gắn kết với khách hàng
 Kênh Tiktok: kênh giải trí và sáng tạo rất phong phú và đa
dạng, được đánh giá là thị trường đầy tiềm năng trong những kênh bán hàng
online tại Việt Nam do giải quyết đúng insights của thị trường (nội dung
giải trí, video ngắn cô đọng, thu hút cực nhiều khách hàng trẻ,...), nội
dung mang tính giải trí cao & gây nghiện
(3) Tạo nội dung tương tác với khách hàng: tạo nội dung có giá
trị cao cho khách hàng, có thể giải quyết vấn đề, đáp ứng nhu cầu, cung cấp
thông tin hay mang lại cảm xúc tích cực. Ngoài ra nội dung cũng cần độc
đáo, sáng tạo và phù hợp với bản sắc thương hiệu của sản phẩm/dịch vụ
(4) Giải pháp tương tác hiệu quả: tương tác là chìa khóa. Cần
đưa ra các chiến lược marketing tương tác hiệu quả để xây dựng thương
hiệu, gia tăng lợi nhuận, doanh số cũng như giúp chúng ta có sự gắn bó với
khách hàng.
12
CHƯƠNG II. TRẢ LỜI CÂU HỎI SỐ 3
Trình bày sơ lược 4 kỹ thuật phân tích dữ liệu lớn. So sánh sự khác
biệt giữa phân cụm và phân lớp dữ liệu? Hãy lấy một ví dụ minh họa trong
thực tế mà em biết về kỹ thuật phân cụm và phân lớp
2.1 Sơ lược 4 kỹ thuật phân tích dữ liệu lớn

Với các tập dữ liệu lớn thì thường sử dụng các kỹ thuật của học máy
để phân tích dữ liệu thông qua các thuật toán học dữ liệu tự động. Các kỹ
thuật phân tích dữ liệu lớn phổ biến đó là: phân lớp dữ liệu, phân cụm dữ
liệu, phát hiện luật kết hợp và hồi quy.
2.1.1. Phân lớp dữ liệu
Phân lớp (Classification) là kỹ thuật phổ biến và được quan tâm
nhiều nhất trong phân tích dữ liệu, đặc biệt là các tập dữ liệu lớn. Bản chất
của việc phân lớp là quá trình gán nhãn cho một đối tượng dữ liệu mới vào
một lớp (trong tập nhãn lớp đã cho trước) nhờ một mô hình phân lớp.
Ví dụ về phân loại Email Spam
Hình 2. 1. Hệ thống phân loại thư rác

2.1.1.1. Quá trình phân loại dữ liệu
Quá trình phân lớp được thực hiện qua hai giai đoạn là: giai đoạn học
hay huấn luyện (learning) và giai đoạn phân lớp (classification).
Bước 1: Giai đoạn học (huấn luyện)
13
Giai đoạn học là giai đoạn xây dựng mô hình mô tả dữ liệu dựa trên
bộ dữ liệu đã biết trước nhãn lớp hay dữ liệu huấn luyện. Dữ liệu huấn luyện
là một tập các phần tử dữ liệu có gán nhãn, trong đó có một thuộc tính là
thuộc tính lớp cho biết phần tử dữ liệu này được gán nhãn cho lớp nào.
Hình 2. 2 Ví dụ về dữ liệu huấn luyện

Quá trình huấn luyện được thực hiện bằng một thuật toán phân lớp,
thuật toán thực hiện học dữ liệu huấn luyện để từ đó trích rút thông tin và
xác định một mô hình mô tả dữ liệu.
Hình 2. 3 Hồ sơ quá trình huấn luyện

Bước 2: Giai đoạn phân lớp:
Giai đoạn phân lớp là giai đoạn sử dụng mô hình xây dựng được ở
giai đoạn huấn luyện để phân lớp dữ liệu mới nếu hiệu quả phân lớp chấp
nhận được. Để đánh giá mô hình phân lớp là chấp nhận được hay không, ta
sử dụng một bộ dữ liệu kiểm tra đã biết trước nhãn lớp của các phần tử dữ
liệu. Bộ dữ liệu kiểm tra này độc lập với bộ dữ liệu huấn luyện trước đó. Ta
thực hiện phân lớp các mẫu dữ liệu trong bộ dữ liệu kiểm tra, từ đó xác định
xem có bao nhiêu phần tử dữ liệu được phân lớp đúng và bao nhiêu phân tử
14
dữ liệu bị phân lớp sai. Nếu kết quả kiểm tra đạt độ chính xác cao (tỉ lệ phần
tử dữ liệu được phân lớp đúng cao) thì mô hình có thể được sử dụng để thực
hiện phân lớp cho dữ liệu mới chưa biết trước nhãn lớp.
Hình 2. 4. Sơ đồ biểu diễn quá trình sử dụng mô hình phân lớp
2.1.1.2. Một số mô hình phân lớp dữ liệu
Đặc điểm chung của các mô hình phân lớp dữ liệu là đều có khả năng
phân loại cho dữ liệu mới. Dưới đây là một số mô hình học máy phân lớp
được sử dụng phổ biến:
a) Cây quyết định (Decision Tree)
Cây quyết định là mô hình phân lớp dạng cây dùng để biểu diễn các
tri thức đơn giản cho việc phân loại các mẫu vào một số các lớp.
Hình 2. 5. Phân lớp những người gian lận đóng thuế dựa trên mô hình cây
quyết định
15
- Là mô hình phân lớp phổ biến
- Hiệu quả phân lớp (Độ chính xác) khá tốt
- Tốc độ học tương đối nhanh so với các mô hình khác
- Tiền xử lý dữ liệu đơn giản
- Dễ dàng chuyển thành luật
- Một số thuật toán mở rộng xây dựng cây quyết định:
 CLS (Concept Learning System)
 ID3 (Iteractive Dichotomiser 3)
 CART (Classification and Regression Trees)
 C4.5, Hunt’s Algorithm ...
b) Rừng ngẫu nhiên (Random Forest):
Rừng ngẫu nhiên là một thành viên trong họ thuật toán Cây quyết
định, bao gồm tập hợp các cây quyết định mà mỗi cây được chọn theo một
thuật toán dựa vào ngẫu nhiên. Khi phân lớp, mỗi cây sẽ cho một dự đoán và
dự đoán cuối cùng của thuật toán Rừng ngẫu nhiên là dự đoán chiếm phần
đa số từ các dự đoán của các cây đơn
Hình 2. 6. Mô hình phân lớp của rừng ngẫu nhiên
16
Đây là một thuật toán mới xuất hiện tầm hơn 10 năm trước và được
coi là một cuộc cách mạng trong Học máy. Rừng ngẫu nhiên thường cho
hiệu quả phân lớp khá tốt và ưu điểm là có khả năng tìm ra thuộc tính nào
quan trọng hơn so với những thuộc tính khác, thuộc tính nào là hoàn toàn vô
dụng.
c) K láng giềng gần nhất (K-Nearest Neighboor)
Mô hình phân lớp k láng giềng gần nhất sử dụng thuật toán K-
Nearest Neighboor (KNN) để huấn luyện mô hình, đây là thuật toán phân
lớp đơn giản và được sử dụng khá phổ biến. K-NN thực hiện phân lớp một
phần tử dựa vào k láng giềng gần nhất của nó trong bộ dữ liệu huấn luyện
(số nguyên k là tham số biết trước của thuật toán) dựa trên khoảng cách
Euclid. Phần tử mới sẽ được gán nhãn cho lớp mà chiếm đa số trong tổng số
nhãn của k láng giềng đang xét.
Hình 2. 7. Ví dụ phân lớp dữ liệu dựa trên thuật toán K-NN

So với các thuật toán phân lớp khác thì hiệu quả của K-NN không
cao nhưng thuật toán vẫn được sử dụng rộng rãi vì việc cài đặt khá đơn giản.
d) Một số mô hình phân lớp dữ liệu khác
- Naïve Bayes: phân lớp dựa vào xác suất của một phần tử dữ liệu
thuộc vào lớp là bao nhiêu, lớp mà có xác suất lớn nhất chính là giá trị được
dự đoán.
17
- Máy vectơ hỗ trợ (Support Vector Machine): là một phương pháp
phân lớp nhị phân dựa trên chiến lược khoảng cách lề cực đại được giới
thiệu bởi Vapnik và đồng nghiệp.
2.1.1.3. Ứng dụng của phân lớp dữ liệu
Phân lớp dữ liệu là kỹ thuật phân tích dữ liệu được sử dụng nhiều
nhất và có ứng dụng rất rộng rãi trong nhiều lĩnh vực: viễn thông, y tế, tài
chính, kinh doanh...
2.1.2. Phân cụm dữ liệu
Phân cụm dữ liệu (Clustering) là một trong những kỹ thuật phân tích
dữ liệu rất quan trọng và là dạng học không giám sát điển hình. Mục đích
của phân cụm là từ một tập dữ liệu lớn chưa được gán nhãn (đánh dấu xem
một phần tử dữ liệu là thuộc lớp nào) sẽ phân nhỏ ra thành các cụm nhỏ hơn
sao cho các phần tử dữ liệu trong cùng một cụm sẽ có sự tương tự nhau cao
hơn so với các phần tử ở các cụm khác nhau. Việc gán nhãn cho các phần tử
của một tập dữ liệu lớn là rất tốn kém và khó khăn nên giải pháp thực hiện
phân cụm dữ liệu là cần thiết và khả thi trong trường hợp này. Để đo sự
tương tự hay khác biệt của các phần tử dữ liệu thông thường là sử dụng độ
đo khoảng cách.
Hình 2. 8. Ví dụ về phân cụm

- Các yêu cầu trong phân cụm dữ liệu Phân cụm là một thách thức
trong lĩnh vực nghiên cứu ở chỗ những ứng dụng tiềm năng của chúng được
đưa ra ngay chính trong những yêu cầu đặc biệt của chúng. Những yêu cầu
cơ bản của phân cụm gồm:
18
 Có khả năng mở rộng
 Khả năng thích nghi với các kiểu thuộc tính khác nhau
 Khả năng thích nghi với dự liệu nhiễu
 Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào
 Số chiều lớn
 Phân cụm ràng buộc
 Dễ hiểu và dễ sử dụng
- Các phương pháp phân cụm:
 Phân cụm dựa vào mật độ(density-based)
 Phân cụm dựa trên lưới (grid-based)
 Phân cụm dựa trên mô hình(model)
 Phân cụm đơn định (deterministic) và phân cụm xác suất
(probability)
 Phân cụm dựa vào số chiều lớn (high-dimensional)
 Phân cụm dựa trên ràng buộc (constraint-based)
 Phân cụm phẳng và phân cụm phân cấp
- Một số thuật toán phổ biến trong phân cụm
a) Thuật toán K-means
+ K-means là thuật toán thuộc dạng phân cụm phẳng được sử dụng
phổ biến nhất. Ý tưởng của thuật toán là từ tập dữ liệu ban đầu sẽ phân ra
thành k cụm dữ liệu dựa trên tâm của các cụm, cụ thể là:
+ Đầu vào: tập dữ liệu 𝐷, số lượng các cụm 𝑘.
+ Đầu ra: tập dữ liệu đã được phân thành 𝑘 cụm.
+ Các bước thực hiện cụ thể của thuật toán:
▪ Bước 1. Khởi tạo 𝑘 điểm dữ liệu bất kỳ trong bộ dữ liệu làm 𝑘 tâm
cụm ban đầu.
19
▪ Bước 2. Với mỗi điểm dữ liệu tiến hành phân vào cụm mà có tâm
cụm gần nhất điểm đó nhất. ▪ Bước 3. Sau khi hình thành các cụm, cập nhật
lại tâm cụm mới bằng cách tính trung bình cộng của tất cả các điểm dữ liệu
trong cụm tương ứng.
▪ Bước 4. Lặp lại bước 2 và bước 3 cho đến khi không có sự thay đổi
của tâm cụm hoặc sự thay đổi nhỏ hơn sai số cho phép thì dừng.
b) Thuật toán DBSCAN
+ DBSCAN (được viết tắt từ Density-Based Spatial Clustering of
Application with Noise) là thuật toán thuộc dạng phân cụm dựa trên mật độ.
Nó có thể phát hiện các cụm ở hình dạng bất kỳ và thậm chí cả trong trường
hợp dữ liệu có chứa nhiều nhiễu. Ý tưởng của thuật toán là sẽ mở rộng các
cụm nếu thấy mật độ của nó là cao.
+ Thuật toán DBSCAN sẽ tìm các cụm bằng cách kiểm tra 𝜀-
neighborhood của từng đối tượng trong tập dữ liệu đầu vào 𝐷. Nếu 𝜀-
neighborhood của đối tượng p chứa số đối tượng thoả mãn ngưỡng MinPts
thì một cụm mới chứa đối tượng lõi p được tạo ra. DBSCAN tiếp tục mở
rộng cụm bằng cách tìm các đối tượng với được trực tiếp theo mật độ từ các
đối tượng lõi trong cụm. Quá trình mở rộng này có thể dẫn đến 98 trường
hợp ta ghép hai hay nhiều cụm lại với nhau. Thuật toán dừng khi không có
đối tượng nào được thêm vào các cụm.
Hình 2. 9. Minh họa liên thông mật độ
20
+ Các bước cụ thể của thuật toán DBSCAN có thể mô tả như sau:
▪ Bước 1: Lấy điểm p thỏa mãn là đối tượng lõi (nếu p ban đầu không
thoả mãn thì sẽ duyệt điểm tiếp theo đến khi tìm được đối tượng lõi).
▪ Bước 2: Hình thành cụm mới chứa tất cả các điểm trong lân cận của
p.
▪ Bước 3: Mở rộng cụm bằng cách tìm cách đối tượng với được trực
tiếp theo mật độ từ các đối tượng lõi trong cụm.
▪ Bước 4: Nếu cụm không được mở rộng thêm thì chọn một đối
tượng lõi 𝑝′ khác chưa xét và lặp lại quá trình trên.
▪ Bước 5: Lặp cho đến khi mọi đối tượng trong dữ liệu đều được gom
cụm thì dừng thuật toán.
2.1.3. Phát hiện luật kết hợp
- Kỹ thuật phát hiện luật kết hợp thường gắn liền với bài toán phân
tích giỏ hàng từ cơ sở dữ liệu giao dịch (gồm các mặt hàng trong hoá đơn
bán hàng) để tìm ra những nhóm mặt hàng thường được bán cùng nhau trong
một hoá đơn. Để hiểu rõ hơn, chúng ta sẽ đề cập tới một số khái niệm tiếp
sau.
Tập mục:
Gọi I = {𝑥1 , 𝑥2 , … , 𝑥𝑛} là tập n mục (item). Một tập X ⊆ I được
gọi là một tập mục (itemset). Ví dụ: ta có tập tất cả các mặt hàng thực phẩm
trong siêu thị I = {sữa, trứng, đường, bánh mỳ, mật ong, mứt, bơ, thịt bò,
giá, . . . } thì các tập con của I là những tập mục như: X = {sữa, bánh mỳ}, Y
= {trứng, bơ, thịt bò}… Một tập mục có k phần tử thì gọi là k-itemset,
chẳng hạn X là tập 2-itemset.
Giao dịch:
Ký hiệu T = {𝑇1, 𝑇2,…,} là cơ sở dữ liệu gồm m giao dịch
(transaction). Mỗi giao dịch 𝑇𝑖 ∈ T là một tập mục, tức 𝑇𝑖 ⊆ I. Ví dụ: tập
mục I là các sản phẩm trong siêu thị, Cơ sở dữ liệu giao dịch là những đơn
mua hàng của khách hàng, cụ thể là:
21
⮚ T1 = {sữa, trứng, đường, bánh mỳ}
⮚ T2 = {sữa, mật ong, mứt, bơ}
⮚ T3 = {trứng, mì tôm, thịt bò, giá}…
Độ hỗ trợ của tập mục (support):
Tổng số hỗ trợ của một tập mục X là tổng số các giao dịch chứa X
trong cơ sở dữ liệu, ký hiệu là 𝜎(X).
Độ hỗ trợ của một tập mục X, ký hiệu là (𝑋), là tỷ lệ các giao dịch
chứa X trên tổng số tất cả các giao dịch trong T:
Tập mục X được gọi là tập mục thường xuyên (hoặc tập mục
phổ biến) nếu độ hỗ trợ của tập mục X lớn hơn hoặc bằng một độ hỗ trợ tối
thiểu minsup:
𝑠(𝑋) ≥ 𝑚𝑖𝑛𝑠𝑢𝑝
Luật kết hợp (Association Rule):
Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết
giữa các tập thuộc tính (tập mục) trong cơ sở dữ liệu. Một luật kết hợp là
một mệnh đề kéo theo có dạng X → Y, trong đó X, Y là các tập mục và
không giao nhau, thể hiện rằng Y xuất 101 hiện trong điều kiện X xuất hiện.
Có hai độ đo quan trọng để đo độ mạnh của luật kết hợp, đó là độ hỗ trợ và
độ tin cậy.
Độ hỗ trợ (support) của luật X → Y là tỷ lệ các giao dịch trong T
chứa đồng thời cả X và Y trên tổng số tất cả các giao dịch, tức là:
Độ tin cậy (confedence) của luật X → Y là tỷ lệ các giao dịch trong T

chứa đồng thời cả X và Y trên tổng số các giao dịch chứa X:
22
2.1.4. Hồi quy
- Với bài toán phân lớp thì tập giá trị của nhãn đầu ra là hữu hạn
- Bài toán Hồi quy tương tự như bài toán phân lớp, xác định hàm xấp
xỉ f(x)≅ y nhưng tập giá trị của nhãn đầu ra y là liên tục (số thực).
- Nếu ta biết hàm f, biết x thì sẽ dự đoán được y (≅ f(x))
- Bài toán Hồi quy được ứng dụng rộng rãi trong dự báo kinh tế
- Phương pháp phổ biến: Hồi quy tuyến tính (Linear Regression)
+ Nhận thấy rằng:
⁎ Số km càng đi nhiều thì giá cước càng tăng
⁎ Diện tích càng lớn thì giá nhà càng cao
⁎ Càng nhiều phòng ngủ thì giá nhà càng cao
⁎ Càng xa trung tâm thì giá nhà càng giảm
+ Có thể biểu diễn hàm xấp xỉ f(x) theo dạng tuyến tính với các thuộc
tính, sau đó tìm các hệ số để sai số thấp nhất.
⁎ Giá cước f(x) = ax + b, với x là số km đi được
⁎ Giá nhà f(x) = ax + by + cz + d …
2.2. So sánh sự khác biệt giữa phân cụm và phân lớp dữ liệu
Tiêu chí Phân cụm Phân lớp
Giám sát Dữ liệu không được giám Dữ liệu được giám sát
sát
Sử dụng tập huấn luyện Không đánh giá cao độ Tập giá trị cao
đào tạo
23
Dán nhãn Chỉ hoạt động với dữ liệu Liên quan đến cả dữ
chưa được gắn nhãn liệu
Mục tiêu Nhằm mục đích xác định Nhằm xác minh vị trí
sự tượng đồng giữa các của một mốc thời
dữ liệu gian
Cụ thể Chỉ định thay đổi cần Không chỉ định cải
thiết tiến cần thiết
Các giai đoạn Có 1 pha Có 2 giai đoạn
Điều kiện biên Xác định điều kiện biên Xác định các điều
không phải là tối quan kiện biên là rất cần
trọng thiết trong việc thực
hiện các giai đoạn
Sự dự đoán Nói chung là không đối Giao dịch với dự đoán

phó với dự đoán
Số lượng có thể ra Chủ yếu sử dụng hai thuật Có một số thuật toán
toán có thể sử dụng
Phức tạp Quá trình ít phức tạp hơn Qúa trình phức tạp
hơn
2.3. Ví vụ minh họa trong thực tế mà em biết về kỹ thuật phân

cụm và phân lớp
a) Ví dụ về phân cụm dữ liệu
Phân cụm dữ liệu trong hoạt động nghiên cứu thị trường: Trong
nghiên cứu thị trường phân cụm dữ liệu được sử dụng để phân đoạn thị
trường và xác định mục tiêu thị trường. Trong phân đoạn thị trường, phân
cụm dữ liệu được dùng để phân chia thị trường thành những cụm mang ý
nghĩa. Chẳng hạn như chia đối tượng nam giới từ 21 – 30 tuổi và nam giới
24
ngoài 51 tuổi, đối tượng nam giới ngoài 51 tuổi thường không có xu hướng
mua những sản phẩm mới
b) Ví dụ về phân lớp dữ liệu
Được kham khảo trong cuốn “Machine learning in action” của Petter
Harington.
Ta sẽ đi phân loại xem một bộ phim thuộc thể loại phinm hành
động hay phim tình cảm. Việc phân loại phim sẽ được xác định bằng cách
đếm số lượng cú đá hoặc số lượng nụ hôn trong phim. Ở đây, chúng ta đã có
một tập huấn luyện (training set), tập đó chứa một số phim đã biết số lượng
cú đá, nụ hôn trong phim đó, và loại phim được cho trong bảng sau:
Tên phim Số lượng Số lượng nụ Loại phim

cú đá hôn
California Man 3 104 Tình cảm
He isn’t really into 2 100 Tình cảm

dudes
Beautiful Woman 1 81 Tình cảm
Kevin Longblade 101 10 Hành động
Robo Slayer 3000 99 5 Hành động
Amped II 98 2 Hành động
Anh 18 90 ???
Ta đã biết được số lượng cú đá, số lượng nụ hôn trong phim. Nhiệm

vụ của ta ở đây là xác định xem phim? Thuộc thể loại nào?
Đầu tiên chúng ta sẽ xác định xem sự giống nhau của phim “Anh"
với các phim khác như thể nào. Đề làm được điều đó, ta sẽ sử dụng
Euclidean distance.
25
Euclidean distance là việc chúng ta tim khoảng cách giữa hai
điểm trong không gian, ví dụ cho 2 điểm P1 (x1,y1) và P2(x2,y2) thì
Euclidean distance sẽ được tính theo công thức:
Để áp dụng trong euclidean distance vào trong trường hợp này,

chúng ta sẽ coi môi phim sẽ được biêu diên bởi một điêm trong tọa độ Oxy
với sô lượng cú đá là tọa độ x và số lượng nụ hôn là tọa độ y. Điều đó có
nghĩa là phim "California Man" sẽ được biểu diễn bởi điếm (3, 104); phim
“He isn't really into dudes " sẽ được biểu diễn bởi điểm (2, 100), ..
Gọi d là euclidean distance thì:
• “California Man”: d= =20.5
• “He isn't really into dudes”: d= = 18.7
• “Beautiful Woman”: d= =19.2
• “Kevin Longblade”: d= = 115.3
• “Robo Slayer 3000”: d= = 117.5
• “Amped II”: d= = 118.9
Sau khi tính toán ta được bảng:
Tên phim Euclidean distance
California Man 20.5
He isn’t really into dudes 18.7
Beautiful Woman 19.2
Kevin Longblade 115.3
Robo Slayer 3000 117.5
26
Amped II 118.9
Chúng ta đã có khoàng cách euclidean từ phim chua biêt lớp tới từng
phim trong tập huân luyện, giờ chúng ta sẽ tìm ra k láng giêng gân nhất bằng
cách sắp xếp các phim theo thứ tự euclidean distance từ nhỏ đền lớn. Giả sử
k=3 thì 3 láng giễng gần nhất, đó là các phim "California Man'", "He isn't
really into dudes" và "Beautiful Woman". Thuật toán kNN sẽ lấy loại phim
nào chiếm ưu thể trong các láng giếng gần nhất để làm loại phim cho phim
cần được xác định lớp. Vì 3 phim trên đều là thể loại Tinh cảm =>Phim
“Anh" thuộc thê loại phim tình cảm.
27
TÀI LIỆU THAM KHẢO
1. PGS, TS. Trần Trọng Nguyên; TS. Đàm Thanh Tú. Năm 2023.
Giáo trình Dữ Liệu Lớn Trong Kinh Tế và Kinh Doanh
2. Peter Harington. Năm 2012. Sách Machine Learning in Action
FILE THỰC HÀNH TABLEAU:

https://public.tableau.com/app/profile/l.m.i/viz/Thchnhtableau_17051770585920/Story1?
publish=yes
28

Lý thuyết

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lý thuyết

Uploaded by

Copyright:

Available Formats

BỘ KẾ HOẠCH VÀ ĐẦU TƯ

HỌC VIỆN CHÍNH SÁCH VÀ PHÁT TRIỂN

Hà Nội, năm 2024

CHƯƠNG I. TRẢ LỜI CÂU HỎI SỐ 2..........................................................................5

Hình 1. 1. Mô hình 5V của dữ liệu lớn................................................................................5

Hình 1. 1. Mô hình 5V của dữ liệu lớn

I.1.3. Đa dạng (Variety)

Chọn Tạo Giải

2.1 Sơ lược 4 kỹ thuật phân tích dữ liệu lớn

Hình 2. 1. Hệ thống phân loại thư rác

Hình 2. 2 Ví dụ về dữ liệu huấn luyện

Hình 2. 3 Hồ sơ quá trình huấn luyện

Hình 2. 6. Mô hình phân lớp của rừng ngẫu nhiên

Hình 2. 7. Ví dụ phân lớp dữ liệu dựa trên thuật toán K-NN

Hình 2. 8. Ví dụ về phân cụm

Hình 2. 9. Minh họa liên thông mật độ

Độ tin cậy (confedence) của luật X → Y là tỷ lệ các giao dịch trong T

Tiêu chí Phân cụm Phân lớp

Các giai đoạn Có 1 pha Có 2 giai đoạn

Sự dự đoán Nói chung là không đối Giao dịch với dự đoán

2.3. Ví vụ minh họa trong thực tế mà em biết về kỹ thuật phân

Tên phim Số lượng Số lượng nụ Loại phim

California Man 3 104 Tình cảm

He isn’t really into 2 100 Tình cảm

Beautiful Woman 1 81 Tình cảm

Kevin Longblade 101 10 Hành động

Robo Slayer 3000 99 5 Hành động

Amped II 98 2 Hành động

Ta đã biết được số lượng cú đá, số lượng nụ hôn trong phim. Nhiệm

Để áp dụng trong euclidean distance vào trong trường hợp này,

Tên phim Euclidean distance

California Man 20.5

He isn’t really into dudes 18.7

Beautiful Woman 19.2

Kevin Longblade 115.3

Robo Slayer 3000 117.5

FILE THỰC HÀNH TABLEAU:

You might also like