Professional Documents
Culture Documents
Chuong 01. Tong Quan Phan Tich Va Truc Quan Du Lieu.1
Chuong 01. Tong Quan Phan Tich Va Truc Quan Du Lieu.1
❖ Về cơ bản, khai phá dữ liệu cho phép các doanh nghiệp hiểu các điều ẩn đằng sau dữ
liệu giao dịch mua bán của khách hàng. Từ đó, doanh nghiệp có thể lên kế hoạch và
khởi động các chiến dịch marketing mới.
❖ Ứng dụng của phân tích và trực quan dữ liệu giúp doanh nghiệp phân tích nhu cầu thị
trường để hiểu về sản phẩm thường được mua cùng nhau. Thông tin này giúp doanh
nghiệp quảng bá sản phẩm có lợi nhuận cao nhất và tối đa hóa lợi nhuận. Ngoài ra, nó
còn khuyến khích khách hàng mua các sản phẩm liên quan.
❖ Ví dụ:
➢ Phân tích giỏ hàng hóa
(market basket analysis)
➢ Phân tích hài lòng của khách hàng
(customer satisfaction analysis)
➢ Dự báo giá trị vòng đời khách hàng
(Predicting customer lifetime value)
5
❖ Nhiều công ty thương mại điện tử đang áp dụng ứng dụng của phân tích và
trực quan dữ liệu để bán hàng qua nhiều nước thông qua các trang web của họ.
Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazon. Họ sử
dụng các kỹ thuật khai phá dữ liệu để điều hướng “những người đã xem sản
phẩm cũng thích sản phẩm được giới thiệu này”
❖ Ví dụ:
➢ Đánh giá thành công trang web
TMĐT
➢ Hành vi mua hàng Online,
➢ Phân tích click chuột trên web
(Web clickstream analysis)
➢ Quản lý rủi ro hoạt động
(Operational risk management)
6
❖ Dân số:
➢ Nghiên cứu những đặc trưng dân số,
➢ Nghiên cứu những mối liên hệ giữa các qui
luật biến động tự nhiên, biến động cơ học
của dân số,
❖ Lao động:
➢ Nghiên cứu những đặc trưng của lao động,
nghiên cứu những mối liên hệ giữa các qui
luật biến động lao động.
➢ Nghiên cứu động cơ lao động, thu nhập, mức
độ hài lòng công việc
➢ Nghiên cứu mức độ rời bỏ công việc.
7
❖ Tìm ra mối quan hệ giữa các loại bệnh và hiệu quả của phương pháp điều trị sẽ
giúp thay đổi các loại thuốc mới hoặc đảm bảo rằng bệnh nhân được chăm sóc
phù hợp, kịp thời.
❖ Ứng dụng phân tích và trực quan dữ liệu trong lĩnh vực Y tế, chăm sóc sức
khỏe còn hỗ trợ các công ty cung cấp dịch vụ bảo hiểm sức khỏe phát hiện gian
lận hay lạm dụng.
❖ Ví dụ:
➢ Hài lòng dịch vụ y tế
➢ Mô hình bệnh tật
8
❖ Mục tiêu là dự đoán hành vi học tập của học sinh, sinh viên trong tương lai.
❖ Sử dụng phân tích và trực dữ liệu để đưa ra quyết định chính xác và cũng như
để dự đoán kết quả của học sinh. Tuy nhiên, ứng dụng của phân tích và trực
quan dữ liệu trong lĩnh vực giáo dục vẫn chưa thực sự được phát huy mạnh mẽ
trong thời điểm hiện tại. Có lẽ bởi vì sự mới mẻ của phân tích và trực quan dữ
liệu ở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng kỹ thuật
này vào hệ thống giáo dục.
❖ Ví dụ:
➢ Hài lòng dịch vụ đào tạo
➢ Lựa chọn các trường, ngành nghề...
➢ Phân tích điểm...
➢ Dự báo hiệu quả học trên elearning của sinh viên
(Predicting e-learning student performance)
9
❖ Phân tích dữ liệu là quá trình thu thập, tổng hợp, lưu trữ, xử lý, trình bày và
diễn giải kết quả nhằm nêu được bản chất và tính qui luật về các sự vật, hiện
tượng và quá trình kinh tế xã hội nhằm hỗ trợ ra quyết định.
10
❖ Trực quan hóa dữ liệu là một trong những bước của quy trình phân tích dữ
liệu, quy trình này đảm bảo sau khi dữ liệu đã được thu thập, xử lý và mô hình
hóa, nó phải được trực quan hóa để khám phá bản chất, mối quan hệ, xu hướng
và những đặc trưng phân phối của dữ liệu
❖ Trực quan hóa dữ liệu cũng là một công cụ để trình bày kết quả phân tích
nhằm truyền đạt thông tin đến người xem, những người lãnh đạo hỗ trợ ra
quyết định.
❖ Mục tiêu chính của trực quan dữ liệu là giúp dễ dàng xác định các mẫu, xu
hướng, mối quan hệ trong các tập dữ liệu.
11
❖ Biểu đồ và đồ thị: biểu đồ cột, biểu đồ tròn, biểu đồ diện tích, biểu đồ bong
bóng, biểu đồ radar, Biểu đồ bề mặt, đồ thị đường, đồ thị phân tán, đồ thị liên
hệ…
❖ Bảng
❖ Bản đồ
12
❖ Dữ liệu (data): là những con số, ngày tháng, hình ảnh, chuỗi ký tự, âm thanh về
những hiện tượng, sự vật, quá trình… được thu thập, lưu trữ để sản xuất thông
tin. Dữ liệu là luồng sự kiện thô đại diện cho các sự kiện xảy ra trong các tổ
chức hoặc môi trường vật lý trước khi chúng được tổ chức và sắp xếp thành
một hình thức có ý nghĩa mà mọi người có thể hiểu và sử dụng.
❖ Thông tin (information): là kết quả của quá trình xử lý dữ liệu, là những hiểu
biết hữu ích của con người về các sự vật hiện tượng. Thông tin là dữ liệu đã
được định hình thành một hình thức có ý nghĩa và hữu ích cho con người.
13
❖ Hợp lệ: Giá trị dữ liệu nằm trong phạm vi được (Accessibility)
xác định.
❖ Kịp thời: Những dữ liệu có sẵn khi cần thiết. Kịp thời Hợp lệ
(Timeliness) (Validity)
❖ Khả năng tiếp cận: Các dữ liệu có thể truy cập
được, dễ hiểu, và có thể sử dụng.
14
❖ Nếu căn cứ và hình thức: Dữ liệu gồm dữ liệu định tính và dữ liệu định
lượng.
❖ Với cách phân loại này có ảnh hưởng đến lựa chọn các phương pháp phân tích
thống kê phù hợp. Nói chung, có rất nhiều phương pháp phân tích thống kê đối
với dữ liệu định lượng.
➢ Dữ liệu định tính (Qualitative Data)
✓ Còn được gọi là dữ liệu phân loại, dữ liệu không phải số (dạng chuỗi), được sử
dụng để xác định thuộc tính của mỗi phần tử.
✓ Sử dụng thang đo định danh hoặc thứ bậc.
✓ Đối với dữ liệu dạng định tính thì phương pháp phân tích thống kê thích hợp bị
hạn hạn chế hơn so với dữ liệu định lượng.
15
Chú ý: Trong khi xử lý, dữ liệu định lượng liên tục có thể
rời rạc hóa
16
❖ Dữ liệu lớn (Big Data): Dữ liệu lớn được biết đến như khối lượng dữ liệu khổng
lồ, đa dạng, được thu thập từ nhiều nguồn như web, e-mail, nội dung truyền
thông xã hội, và từ các máy cảm biến... không xử lý bằng các kỹ thuật truyền
thống.
❖ Nền tảng phân tích (Analytic Platforms): được các nhà cung cấp cơ sở dữ liệu
thương mai phat trien đe xư ly vơi toc đo cao chuyen sư dung cong nghe ca vè
quan he lã n không quan hệ được tối ưu hóa cho phân tích các tập dữ liệu lớn.
❖ Đặc điểm 5Vs: Đặc điểm 5Vs: Khối lượng (Volume); Tốc độ (Velocity: Tốc độ,
tức thời); Đa dạng (Variety: Cấu trúc, bán cấu trúc và không cấu trúc); Giá trị
(Value xác định được giá trị của thông tin mang lại và quyết định có nên triển
khai dữ liệu lớn hay không) và Chính xác (Veracity: Chệch, nhiễu, bất thường)
18
TÍNH ĐA DẠNG
Dữ liệu không cần tuân theo một cấu trúc và có thể
lưu trữ nhiều định dạng khác nhau.
❖ Phân tích dữ liệu lớn là việc sử dụng các kỹ thuật phân tích tiên tiến đối với các tập dữ
liệu lớn, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc, từ các nguồn khác
nhau và ở các kích thước khác nhau từ terabyte đến zettabyte.
❖ Lĩnh vực dùng:
➢ Truyền thông: Để hiểu cách thức các phương tiện truyền thông sử dụng dữ liệu lớn
như thế nào.
➢ Trong thương mại điện tử: nhiều nhà bán lẻ trực tuyến có khả năng cá nhân hoá sản
phẩm trực tuyến để khách truy cập trang web của họ để kích thích mua.
➢ Quản lý chính phủ: Trong khu vực công, phân tích lớn dữ liệu đã được hướng về
"thành phố thông minh”, hồ sơ công cộng; dữ liệu vị trí.
➢ Tài chính: phân tích kỹ thuật tài chính
➢ Chăm sóc sức khỏe: Phân tích dữ liệu lớn đã giúp cải thiện việc chăm sóc sức khoẻ
➢ …
20
❖ Thang đo công cụ biểu thị dữ liệu nhằm tóm tắt và lựa chọn phương pháp phân
tích dữ liệu phù hợp.
❖ Các loại thang đo:
➢ Định danh
➢ Thứ bậc
➢ Khoảng
➢ Tỷ lệ Chú ý: Trong SPSS chỉ dùng 3 thang đo:
Định danh,
Thứ bậc
Tỷ lệ
21
❖ Dùng mô tả các biến thuộc tính, được sử dụng để phân loại các đối tượng.
➢ Sinh viên đại học được phân loại bởi các trường học, trong đó sinh viên được
ghi bằng cách sử dụng một nhãn phải, như: kinh tế, bách khoa, ngoại ngữ,
nhân văn, giáo dục, ...
➢ Ngoài ra, một mã số có thể được sử dụng cho biến trường (ví dụ: 1 biểu thị
doanh nghiệp, 2 biểu thị nhân văn, 3 biểu thị giáo dục, ...).
❖ Thang đo này chỉ thực hiện được phép đếm, không thực hiện phép cộng, trừ,
nhân, chia.
22
❖ Thang đo thường được sử dụng cho biến định tính và xếp hạng thứ bậc, hơn
kém. Sự chênh lệch giữa các biểu hiện không nhất thiết phải bằng nhau.
➢ Phân loại theo năm học của họ bằng cách sử dụng một nhãn như năm nhất,
thứ hai,… năm cuối.
➢ Đánh giá chất lượng học tập, chúng ta dùng các loại: xuất sắc, giỏi, khá, trung
bình, yếu, kém.
❖ Đối loại thang đo này, chúng ta chỉ thực hiện phép đếm, không thực hiện phép
cộng, trừ, nhân, chia.
23
❖ Thang đo thường dùng cho các biến số lượng. Thang đo khoảng có tất cả các
thuộc tính của dữ liệu thứ bậc và khoảng cách giữa các giá trị được thể hiện
dưới dạng một đơn vị đo lường cố định.
➢ Ví dụ: nhiệt độ, điểm thi, thang đo likert...
❖ Số 0 trong thang đo khoảng chỉ mang tính qui ước
❖ Đối loại thang đo này, chúng ta chỉ thực hiện phép đếm, cộng trừ, không thực
hiện phép nhân, chia.
24
❖ Thang đo dùng cho các biến định lượng, có đầy đủ các đặc tính của thang đo
khoảng, tồn tại một trị số 0 “thật”.
➢ GDP của Việt Nam năm 2016, 2017 tương ứng là 4.502.733 và 5.005.975 (tỷ
đồng).
❖ Đối với loại thang đo này, thực hiện được mọi phép tính số học thông thường,
như phép đếm, cộng trừ, nhân, chia.
➢ Trong thang đo khoảng, sự so sánh tỷ lệ không có ý nghĩa nhưng trong thang
đo tỷ lệ thì so sánh tỷ lệ là hợp lý.
➢ Có thể thực hiện phép chia 5005975/4502733 = 1,11 hay 111%.
25
Định danh
Số
Thứ bậc
Định tính
Định danh
Không phải số
Dữ liệu
Thứ bậc
Khoảng
Định lượng Số
Tỷ lệ
5
26
4
Giải thích kết quả
Interpreting the Results END
3
Phân tích dữ liệu
Data Analysis
2
Tiền xử lý
Data Preparation
❖ 3. Tiền xử lý (Data Preparation): Không phải tất cả dữ liệu thu thập đều hữu
ích, vì vậy đã đến lúc làm sạch dữ liệu đó và một số hoạt động khác làm cho dữ
liệu phong phú hơn, chất lượng hơn.
❖ 4. Phân tích dữ liệu (Data Analysis): Đây là giai đoạn sử dụng phần mềm phân
tích dữ liệu và các công cụ khác để diễn giải và hiểu dữ liệu cũng như đưa ra
kết luận. Các công cụ phân tích dữ liệu bao gồm Excel, Python, R, SPSS, SPSS
Modeler, STATA, Rapid Miner...
❖ 5. Giải thích kết quả (Interpreting the Results): Bây giờ bạn đã có kết quả của
mình, cần giải thích chúng và đưa ra các hướng hành động tốt nhất dựa trên
những phát hiện trong phân tích. Trong giai đoạn này, để nâng cao sức thuyết
phục cần trực quan hóa dữ liệu, tức"hiển thị thông tin bằng đồ họa theo cách
mà mọi người có thể đọc và hiểu thông tin đó". Có thể sử dụng biểu đồ, đồ thị,
bản đồ, bảng.
29
Nguồn dữ liệu của thống kê khá đa dạng, cụ thể gồm các nguồn sau:
1. 2.
Kết quả 3.
Nguồn
thực nghiệm Kết quả
có sẵn here
điều tra
30