You are on page 1of 33

01 02 03 04 05 06

Ứng dụng Qui trình


phân tích và Giới thiệu Trực quan Dữ liệu và Nguồn dữ
phân tích và dữ liệu thông tin phân tích và liệu
trực quan trực quan
dữ liệu trực quan
dữ liệu dữ liệu
3
❖ Để tăng độ trung thành của khách hàng bằng cách thu thập và phân tích dữ liệu hành
vi của khách hàng.
❖ Để dự đoán hành vi của khách hàng để tung ra các dịch vụ tài chính thích hợp.
❖ Giúp khám phá mối tương quan giữa các chỉ số tài chính khác nhau để phát hiện ra các
hoạt động đáng ngờ có rủi ro tiềm ẩn cao.
❖ Hỗ trợ xác định các hành động gian lận hoặc không
gian lận bằng cách thu thập dữ liệu lịch sử và sau đó
biến đổi nó thành thông tin hợp lệ và hữu ích.
❖ Phân tích dữ liệu sâu để tạo các mô hình rủi ro
chính xác cho việc cho vay, sáp nhập / mua lại và
khám phá các hoạt động gian lận.
❖ Ví dụ:
➢ Phân tích điểm tín dụng (Credit scoring)
➢ Dự báo rủi ro tín dụng của doanh nghiệp nhỏ
(predicting credit risk of small businesses)
4

❖ Về cơ bản, khai phá dữ liệu cho phép các doanh nghiệp hiểu các điều ẩn đằng sau dữ
liệu giao dịch mua bán của khách hàng. Từ đó, doanh nghiệp có thể lên kế hoạch và
khởi động các chiến dịch marketing mới.
❖ Ứng dụng của phân tích và trực quan dữ liệu giúp doanh nghiệp phân tích nhu cầu thị
trường để hiểu về sản phẩm thường được mua cùng nhau. Thông tin này giúp doanh
nghiệp quảng bá sản phẩm có lợi nhuận cao nhất và tối đa hóa lợi nhuận. Ngoài ra, nó
còn khuyến khích khách hàng mua các sản phẩm liên quan.
❖ Ví dụ:
➢ Phân tích giỏ hàng hóa
(market basket analysis)
➢ Phân tích hài lòng của khách hàng
(customer satisfaction analysis)
➢ Dự báo giá trị vòng đời khách hàng
(Predicting customer lifetime value)
5

❖ Nhiều công ty thương mại điện tử đang áp dụng ứng dụng của phân tích và
trực quan dữ liệu để bán hàng qua nhiều nước thông qua các trang web của họ.
Một trong những công ty nổi tiếng nhất ứng dụng điều này là Amazon. Họ sử
dụng các kỹ thuật khai phá dữ liệu để điều hướng “những người đã xem sản
phẩm cũng thích sản phẩm được giới thiệu này”
❖ Ví dụ:
➢ Đánh giá thành công trang web
TMĐT
➢ Hành vi mua hàng Online,
➢ Phân tích click chuột trên web
(Web clickstream analysis)
➢ Quản lý rủi ro hoạt động
(Operational risk management)
6

❖ Dân số:
➢ Nghiên cứu những đặc trưng dân số,
➢ Nghiên cứu những mối liên hệ giữa các qui
luật biến động tự nhiên, biến động cơ học
của dân số,
❖ Lao động:
➢ Nghiên cứu những đặc trưng của lao động,
nghiên cứu những mối liên hệ giữa các qui
luật biến động lao động.
➢ Nghiên cứu động cơ lao động, thu nhập, mức
độ hài lòng công việc
➢ Nghiên cứu mức độ rời bỏ công việc.
7

❖ Tìm ra mối quan hệ giữa các loại bệnh và hiệu quả của phương pháp điều trị sẽ
giúp thay đổi các loại thuốc mới hoặc đảm bảo rằng bệnh nhân được chăm sóc
phù hợp, kịp thời.
❖ Ứng dụng phân tích và trực quan dữ liệu trong lĩnh vực Y tế, chăm sóc sức
khỏe còn hỗ trợ các công ty cung cấp dịch vụ bảo hiểm sức khỏe phát hiện gian
lận hay lạm dụng.
❖ Ví dụ:
➢ Hài lòng dịch vụ y tế
➢ Mô hình bệnh tật
8

❖ Mục tiêu là dự đoán hành vi học tập của học sinh, sinh viên trong tương lai.
❖ Sử dụng phân tích và trực dữ liệu để đưa ra quyết định chính xác và cũng như
để dự đoán kết quả của học sinh. Tuy nhiên, ứng dụng của phân tích và trực
quan dữ liệu trong lĩnh vực giáo dục vẫn chưa thực sự được phát huy mạnh mẽ
trong thời điểm hiện tại. Có lẽ bởi vì sự mới mẻ của phân tích và trực quan dữ
liệu ở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng kỹ thuật
này vào hệ thống giáo dục.
❖ Ví dụ:
➢ Hài lòng dịch vụ đào tạo
➢ Lựa chọn các trường, ngành nghề...
➢ Phân tích điểm...
➢ Dự báo hiệu quả học trên elearning của sinh viên
(Predicting e-learning student performance)
9

❖ Phân tích dữ liệu là quá trình thu thập, tổng hợp, lưu trữ, xử lý, trình bày và
diễn giải kết quả nhằm nêu được bản chất và tính qui luật về các sự vật, hiện
tượng và quá trình kinh tế xã hội nhằm hỗ trợ ra quyết định.
10

❖ Trực quan hóa dữ liệu là một trong những bước của quy trình phân tích dữ
liệu, quy trình này đảm bảo sau khi dữ liệu đã được thu thập, xử lý và mô hình
hóa, nó phải được trực quan hóa để khám phá bản chất, mối quan hệ, xu hướng
và những đặc trưng phân phối của dữ liệu
❖ Trực quan hóa dữ liệu cũng là một công cụ để trình bày kết quả phân tích
nhằm truyền đạt thông tin đến người xem, những người lãnh đạo hỗ trợ ra
quyết định.
❖ Mục tiêu chính của trực quan dữ liệu là giúp dễ dàng xác định các mẫu, xu
hướng, mối quan hệ trong các tập dữ liệu.
11

❖ Biểu đồ và đồ thị: biểu đồ cột, biểu đồ tròn, biểu đồ diện tích, biểu đồ bong
bóng, biểu đồ radar, Biểu đồ bề mặt, đồ thị đường, đồ thị phân tán, đồ thị liên
hệ…
❖ Bảng
❖ Bản đồ
12

❖ Dữ liệu (data): là những con số, ngày tháng, hình ảnh, chuỗi ký tự, âm thanh về
những hiện tượng, sự vật, quá trình… được thu thập, lưu trữ để sản xuất thông
tin. Dữ liệu là luồng sự kiện thô đại diện cho các sự kiện xảy ra trong các tổ
chức hoặc môi trường vật lý trước khi chúng được tổ chức và sắp xếp thành
một hình thức có ý nghĩa mà mọi người có thể hiểu và sử dụng.
❖ Thông tin (information): là kết quả của quá trình xử lý dữ liệu, là những hiểu
biết hữu ích của con người về các sự vật hiện tượng. Thông tin là dữ liệu đã
được định hình thành một hình thức có ý nghĩa và hữu ích cho con người.
13

❖ Chính xác: Dữ liệu có đại diện đúng với thực tế.


Toàn vẹn
❖ Toàn vẹn: Dữ liệu không bị thay đổi, mất mát (Integrity)
trong khi lưu trữ hay truyền tải. Nói cách khác Chính xác Nhất quán
tính toàn vẹn là tính không bị hiệu chỉnh của dữ (Accuracy)
(Consistency)
liệu.
❖ Nhất quán: Những yếu tố dữ liệu luôn được xác
định. Chất lượng dữ liệu/ Đầy đủ
Khả năng thông tin
❖ Đầy đủ: Tất cả các dữ liệu cần thiết đều sẵn có. tiếp cận (Completeness)

❖ Hợp lệ: Giá trị dữ liệu nằm trong phạm vi được (Accessibility)
xác định.
❖ Kịp thời: Những dữ liệu có sẵn khi cần thiết. Kịp thời Hợp lệ
(Timeliness) (Validity)
❖ Khả năng tiếp cận: Các dữ liệu có thể truy cập
được, dễ hiểu, và có thể sử dụng.
14

❖ Nếu căn cứ và hình thức: Dữ liệu gồm dữ liệu định tính và dữ liệu định
lượng.
❖ Với cách phân loại này có ảnh hưởng đến lựa chọn các phương pháp phân tích
thống kê phù hợp. Nói chung, có rất nhiều phương pháp phân tích thống kê đối
với dữ liệu định lượng.
➢ Dữ liệu định tính (Qualitative Data)
✓ Còn được gọi là dữ liệu phân loại, dữ liệu không phải số (dạng chuỗi), được sử
dụng để xác định thuộc tính của mỗi phần tử.
✓ Sử dụng thang đo định danh hoặc thứ bậc.
✓ Đối với dữ liệu dạng định tính thì phương pháp phân tích thống kê thích hợp bị
hạn hạn chế hơn so với dữ liệu định lượng.
15

➢ Dữ liệu định lượng (Quantitative Data)


✓ Dữ liệu luôn là số, được sử dụng để đo lường mặt lượng của mỗi phần tử, sử
dụng thang đo khoảng hoặc tỷ lệ. Dữ liệu có thể:
▪ Rời rạc: như Dân số, số lượng thiết bị…
▪ Liên tục: như Lợi nhuận, GDP…
✓ Đối với dữ liệu dạng định lượng thì phương pháp phân tích thống kê thích hợp
không hạn chế so với dữ liệu định tính.

Chú ý: Trong khi xử lý, dữ liệu định lượng liên tục có thể
rời rạc hóa
16

❖ Nếu căn cứ vào đối tượng thu thập, dữ liệu gồm:


➢ Dư lieu cheo (Cross-Sectional Data) Dư lieu đươc thu thap tư nhiè u đơn vị
trong cùng thời gian.
➢ Dư lieu theo thơi gian (Time Series Data): Dư lieu đươc thu thập từ một đơn vị
theo thời gian
Dữ liệu chéo Dữ liệu theo thời gian
Diện tích năm 2017 GDP VN
Địa phương (Km2) Năm (Tỷ đồng)
Hà Nội 3.358,6 2013 3.584.262,0
Vĩnh Phúc 1.235,2 2014 3.937.856,0
Bắc Ninh 822,7 2015 4.192.862,0
Quảng Ninh 6.177,8 2016 4.502.733,0
Hải Dương 1.668,2 2017 5.005.975,0
Hải Phòng 1.561,8
17

❖ Dữ liệu lớn (Big Data): Dữ liệu lớn được biết đến như khối lượng dữ liệu khổng
lồ, đa dạng, được thu thập từ nhiều nguồn như web, e-mail, nội dung truyền
thông xã hội, và từ các máy cảm biến... không xử lý bằng các kỹ thuật truyền
thống.
❖ Nền tảng phân tích (Analytic Platforms): được các nhà cung cấp cơ sở dữ liệu
thương mai phat trien đe xư ly vơi toc đo cao chuyen sư dung cong nghe ca vè
quan he lã n không quan hệ được tối ưu hóa cho phân tích các tập dữ liệu lớn.
❖ Đặc điểm 5Vs: Đặc điểm 5Vs: Khối lượng (Volume); Tốc độ (Velocity: Tốc độ,
tức thời); Đa dạng (Variety: Cấu trúc, bán cấu trúc và không cấu trúc); Giá trị
(Value xác định được giá trị của thông tin mang lại và quyết định có nên triển
khai dữ liệu lớn hay không) và Chính xác (Veracity: Chệch, nhiễu, bất thường)
18

TÍNH ĐA DẠNG
Dữ liệu không cần tuân theo một cấu trúc và có thể
lưu trữ nhiều định dạng khác nhau.

TỐC ĐỘ XỬ LÝ GIÁ TRỊ


Các thao tác xử lý như truy xuất, cập nhật, xác định được giá trị của thông tin mang lại và
chỉnh sửa… trong thời gian thực đạt với tốc quyết định có nên triển khai dữ liệu lớn hay
độ nhanh và có thể là ngay tức thì . không.

KHỐI LƯỢNG CHÍNH XÁC


Dữ liệu có kích thước lớn có Việc phân tích và loại bỏ dữ liệu
thể lên đến hàng ngàn tỉ thiếu chính xác và gây nhiễu là
Gigabyte hoặc thậm chí lớn tính chất phức tạp nhất của BIG
hơn. DATA.
19

❖ Phân tích dữ liệu lớn là việc sử dụng các kỹ thuật phân tích tiên tiến đối với các tập dữ
liệu lớn, bao gồm dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc, từ các nguồn khác
nhau và ở các kích thước khác nhau từ terabyte đến zettabyte.
❖ Lĩnh vực dùng:
➢ Truyền thông: Để hiểu cách thức các phương tiện truyền thông sử dụng dữ liệu lớn
như thế nào.
➢ Trong thương mại điện tử: nhiều nhà bán lẻ trực tuyến có khả năng cá nhân hoá sản
phẩm trực tuyến để khách truy cập trang web của họ để kích thích mua.
➢ Quản lý chính phủ: Trong khu vực công, phân tích lớn dữ liệu đã được hướng về
"thành phố thông minh”, hồ sơ công cộng; dữ liệu vị trí.
➢ Tài chính: phân tích kỹ thuật tài chính
➢ Chăm sóc sức khỏe: Phân tích dữ liệu lớn đã giúp cải thiện việc chăm sóc sức khoẻ
➢ …
20

❖ Thang đo công cụ biểu thị dữ liệu nhằm tóm tắt và lựa chọn phương pháp phân
tích dữ liệu phù hợp.
❖ Các loại thang đo:
➢ Định danh
➢ Thứ bậc
➢ Khoảng
➢ Tỷ lệ Chú ý: Trong SPSS chỉ dùng 3 thang đo:
Định danh,
Thứ bậc
Tỷ lệ
21

❖ Dùng mô tả các biến thuộc tính, được sử dụng để phân loại các đối tượng.
➢ Sinh viên đại học được phân loại bởi các trường học, trong đó sinh viên được
ghi bằng cách sử dụng một nhãn phải, như: kinh tế, bách khoa, ngoại ngữ,
nhân văn, giáo dục, ...
➢ Ngoài ra, một mã số có thể được sử dụng cho biến trường (ví dụ: 1 biểu thị
doanh nghiệp, 2 biểu thị nhân văn, 3 biểu thị giáo dục, ...).
❖ Thang đo này chỉ thực hiện được phép đếm, không thực hiện phép cộng, trừ,
nhân, chia.
22

❖ Thang đo thường được sử dụng cho biến định tính và xếp hạng thứ bậc, hơn
kém. Sự chênh lệch giữa các biểu hiện không nhất thiết phải bằng nhau.
➢ Phân loại theo năm học của họ bằng cách sử dụng một nhãn như năm nhất,
thứ hai,… năm cuối.
➢ Đánh giá chất lượng học tập, chúng ta dùng các loại: xuất sắc, giỏi, khá, trung
bình, yếu, kém.
❖ Đối loại thang đo này, chúng ta chỉ thực hiện phép đếm, không thực hiện phép
cộng, trừ, nhân, chia.
23

❖ Thang đo thường dùng cho các biến số lượng. Thang đo khoảng có tất cả các
thuộc tính của dữ liệu thứ bậc và khoảng cách giữa các giá trị được thể hiện
dưới dạng một đơn vị đo lường cố định.
➢ Ví dụ: nhiệt độ, điểm thi, thang đo likert...
❖ Số 0 trong thang đo khoảng chỉ mang tính qui ước
❖ Đối loại thang đo này, chúng ta chỉ thực hiện phép đếm, cộng trừ, không thực
hiện phép nhân, chia.
24

❖ Thang đo dùng cho các biến định lượng, có đầy đủ các đặc tính của thang đo
khoảng, tồn tại một trị số 0 “thật”.
➢ GDP của Việt Nam năm 2016, 2017 tương ứng là 4.502.733 và 5.005.975 (tỷ
đồng).
❖ Đối với loại thang đo này, thực hiện được mọi phép tính số học thông thường,
như phép đếm, cộng trừ, nhân, chia.
➢ Trong thang đo khoảng, sự so sánh tỷ lệ không có ý nghĩa nhưng trong thang
đo tỷ lệ thì so sánh tỷ lệ là hợp lý.
➢ Có thể thực hiện phép chia 5005975/4502733 = 1,11 hay 111%.
25

Định danh
Số
Thứ bậc
Định tính
Định danh
Không phải số
Dữ liệu
Thứ bậc

Khoảng
Định lượng Số
Tỷ lệ
5
26

4
Giải thích kết quả
Interpreting the Results END

3
Phân tích dữ liệu
Data Analysis

2
Tiền xử lý
Data Preparation

1 Thu thập dữ liệu

Xác định mục tiêu


Data Collection

START Define goals


27

❖ 1. Xác định mục tiêu (Define goals):


➢ Trước khi bắt đầu thu thập và phân tích dữ liệu, hãy xác định những vấn đề
kinh doanh cụ thể muốn giải quyết hoặc xem xét một giả thuyết có thể được
giải quyết bằng dữ liệu.
➢ Bắt đầu với một mục tiêu rõ ràng là một bước thiết yếu trong quá trình phân
tích dữ liệu. Bằng cách nhận ra vấn đề kinh doanh cần giải quyết và đặt ra các
mục tiêu được xác định rõ ràng sẽ dễ dàng quyết định dữ liệu mình cần hơn
➢ Từ đó sẽ tạo ra một tập hợp các câu hỏi ngắn gọn, rõ ràng và có thể đo lường
được để giúp trả lời câu hỏi đó.
❖ 2. Thu thập dữ liệu (Data Collection): Sau khi xác định các mục tiêu, phải tiến
hành thu thập dữ liệu từ các nguồn khác nhau. Các nguồn bao gồm nghiên cứu
trường hợp, khảo sát, phỏng vấn, bảng câu hỏi, quan sát trực tiếp và các nhóm
tập trung. Dù sử dụng loại dữ liệu nào thì mục tiêu cuối cùng của bước này là
đảm bảo có được cái nhìn 360 độ đầy đủ về vấn đề cần giải quyết.
28

❖ 3. Tiền xử lý (Data Preparation): Không phải tất cả dữ liệu thu thập đều hữu
ích, vì vậy đã đến lúc làm sạch dữ liệu đó và một số hoạt động khác làm cho dữ
liệu phong phú hơn, chất lượng hơn.
❖ 4. Phân tích dữ liệu (Data Analysis): Đây là giai đoạn sử dụng phần mềm phân
tích dữ liệu và các công cụ khác để diễn giải và hiểu dữ liệu cũng như đưa ra
kết luận. Các công cụ phân tích dữ liệu bao gồm Excel, Python, R, SPSS, SPSS
Modeler, STATA, Rapid Miner...
❖ 5. Giải thích kết quả (Interpreting the Results): Bây giờ bạn đã có kết quả của
mình, cần giải thích chúng và đưa ra các hướng hành động tốt nhất dựa trên
những phát hiện trong phân tích. Trong giai đoạn này, để nâng cao sức thuyết
phục cần trực quan hóa dữ liệu, tức"hiển thị thông tin bằng đồ họa theo cách
mà mọi người có thể đọc và hiểu thông tin đó". Có thể sử dụng biểu đồ, đồ thị,
bản đồ, bảng.
29
Nguồn dữ liệu của thống kê khá đa dạng, cụ thể gồm các nguồn sau:

1. 2.
Kết quả 3.
Nguồn
thực nghiệm Kết quả
có sẵn here
điều tra
30

❖ Nội bộ của các doanh nghiệp


❖ Cơ quan chính phủ: của các Ủy ban, sở ban ngành...
❖ Các hiệp hội ngành nghề

Một số địa chỉ về nguồn dữ liệu:


https://www.gso.gov.vn/Default.aspx?tabid=706&ItemID=13412
http://thongke.tourism.vn/
https://stats.oecd.org/#
https://data.worldbank.org/
https://www.kaggle.com/datasets
31

❖ Trong nghiên cứu thực nghiệm các


biến quan tâm là được xác định đầu
tiên. Sau đó một hoặc nhiều biến
khác được xác định và kiểm soát để
dữ liệu có thể thu được về xem
chúng ảnh hưởng đến biến quan
tâm không?
32

❖ Trong nghiên cứu quan sát không


có nỗ lực thực hiện kiểm soát hoặc
xét ảnh hưởng đến các biến quan
tâm.
❖ Nghiên cứu của những người hút
thuốc và không hút thuốc là nghiên
cứu quan sát bởi vì các nhà nghiên
cứu không xác định hoặc kiểm soát
ai sẽ hút thuốc và những ai không
hút thuốc.
❖ Tổng điều tra dân số và nhà ở của
Việt Nam
33

❖ Các phần mềm phân tích và trực quan dữ liệu:


➢ Các add-in trong Excel
➢ SPSS
➢ SPSS Modeler
➢ AMOS
➢ STATA
➢ SAS
➢ R, Python…
➢ Tableau
➢ Power BI

You might also like