You are on page 1of 20

Codegym Online

Nhập môn Phân tích


dữ liệu
Khóa học: Nền tảng Phân tích dữ liệu
Presented by
YEN QUYEN TRAN
------------------------------------
Date presented
May,2023
Codegym Online Codegym Online

Agenda

1. Dữ liệu và loại dữ liệu

2. Phân tích dữ liệu

3. Quy trình phân tích dữ liệu

4. Thực hành
1. Dữ liệu và loại dữ liệu Codegym Online

Dữ liệu là tập hợp các thông tin

được thu thập, lưu trữ và sử


?
dụng để giải quyết các vấn đề

và nhu cầu của con người


2.Phân tích dữ liệu Codegym Online

 Phân tích dữ liệu là quá trình thu thập, làm sạch, nghiên cứu, biến đổi, mô hình hóa dữ liệu từ

những dữ liệu thô nhằm đưa ra kết luận về những thông tin đó

 Phân tích dữ liệu giúp doanh nghiệp tối ưu hóa hiệu suất, hoạt động hiệu quả hơn, tối đa hóa

lợi nhuận hoặc đưa ra các quyết định có định hướng chiến lược hơn.
3. Quy trình phân tích dữ liệu Codegym Online

Interpret
Analyze Trực quan
Clean hóa dữ liệu:
Phân tích dữ Trình bày, diễn
Collect liệu: giải các kết quả
Làm sạch dữ Xác định các tìm được
Identify liệu: mối quan hệ,
Thu thập dữ - Lọc dữ liệu nguyên nhân-
liệu: - Loại bỏ dữ liệu kết quả, xu
Tìm hiểu bài - Thực hiện trùng lặp hướng,...
toán khảo sát - Chuyển đổi
Xác dịnh yêu - Dữ liệu có sẵn kiểu dữ liệu
cầu phân tích hoặc từ hệ - Tách dữ liệu
thống công ty - Loại bỏ các
- Các nguồn thông tin không
trên mạng... cần thiết...
3.1 Thu thập dữ liệu Codegym Online

Vai trò của SQL


Nguồn nội bộ trong công ty: - Là ngôn ngữ truy vấn
- Báo cáo của từng bộ phận
cơ sở dữ liệu phổ biến
Bảng khảo sát - CRM
- Databases
nhất hiện nay.
(survey)
Cách thu Cách thu - Được sử dụng để truy
Polls thập dữ thập dữ vấn và xử lý dữ liệu
liệu sơ liệu thứ Nguồn bên ngoài: trong các cơ sở dữ liệu
Phỏng vấn (Interview): cấp cấp - Báo cáo của chính phủ quan hệ.
- Phỏng vấn online - Báo cáo của các công ty nghiên
- Phỏng vấn face-to-face cứu thị trường
- SQL cho phép truy vấn
- Phỏng vấn qua điện - Sách báo nói chung
thoại dữ liệu từ một hoặc
nhiều bảng trong cơ sở
dữ liệu, lọc bỏ các bản
ghi không cần thiết và
lấy ra những thông tin
cần thiết cho phân tích
dữ liệu.
3.2 Làm sạch dữ liệu Codegym Online

Các bước cơ bản để làm sạch dữ liệu:


1. Nhập dữ liệu từ nguồn dữ liệu ngoài.
2. Tạo một bản sao lưu của dữ liệu gốc.
3. Đảm bảo rằng dữ liệu ở định dạng bảng gồm các hàng và cột
4. Thực hiện các tác vụ không yêu cầu thao tác với cột, chẳng hạn như kiểm tra chính tả.
5. Tiếp theo, thực hiện các tác vụ yêu cầu thao tác với cột. Các bước chung để thao tác một cột là:
 Chèn một cột mới (B) bên cạnh cột ban đầu (A) cần làm sạch.
 Thêm một công thức sẽ biến đổi dữ liệu ở đầu cột mới (B).
 Điền công thức vào cột mới (B).
 Trong bảng Excel, một cột được tính toán sẽ tự động được tạo với các giá trị được điền xuống.
 Chọn cột mới (B), sao chép cột đó rồi dán dưới dạng giá trị vào cột mới (B).
 Xóa cột ban đầu (A), chuyển đổi cột mới từ B thành A.
 Để làm sạch định kỳ cùng một nguồn dữ liệu, hãy xem xét ghi macro hoặc viết mã để tự động hóa toàn bộ quy trình.
3.2 Làm sạch dữ liệu Codegym Online

1.Loại bỏ các dòng dữ 2.Loại bỏ các dòng 3.Kiểm tra lỗi chính 4. Xóa các Formatting (nếu 5. Liên kết dữ liệu /Tách
liệu trống dữ liệu trùng nhau tả có) dữ liệu

6. Xử lí text đúng format 7. Chuyển đổi loại dữ 8. Kiểm tra các giá trị 9. Kiểm tra các giá trị về 10. Xử lí các chuỗi dữ
liệu ngoại lai ngày tháng năm liệu số
3.3 Phân tích dữ liệu
Descriptive analytics Diagnostic analytics Predictive analytics Prescriptive analytics
(Phân tích mô tả) (Phân tích chẩn đoán) (Phân tích dự đoán) (Phân tích đề xuất)

Phân tích để gợi ý một quá


Dự đoán các khả năng xảy ra trình hành động.
Mô tả những sự kiện đã xảy ra
Tập trung nhiều hơn vào lý do trong thời gian tới:  Nếu khả năng xảy ra một
trong một khoảng thời gian nhất
tại sao điều gì đó xảy ra:  Điều gì đã xảy ra với doanh mùa hè nóng bức được đo
định:
 Thời tiết có ảnh hưởng đến số bán hàng trong lần cuối bằng mức trung bình của
 Số lượt xem có tăng lên
việc bán bia không? cùng chúng ta có một mùa năm mô hình thời tiết này là
không?
 Chiến dịch tiếp thị mới nhất hè nóng bức? trên 58%, thì chúng ta nên
 Doanh số tháng này có
đó có ảnh hưởng đến  Có bao nhiêu mô hình thời thêm một ca làm việc buổi
mạnh hơn tháng trước
doanh số không? tiết dự đoán một mùa hè tối cho nhà máy bia và thuê
không?
nóng bức năm nay? thêm một bể chứa để tăng
sản lượng?
3.4 Trực quan hóa dữ liệu Codegym Online

Douglas Engelbart
- a tool doesn’t just make
Trực quan hóa là công cụ có thể làm cho các khái niệm phức
something easier—it allows for
tạp trở nên dễ hiểu hơn đối với con người.
new, previously-impossible
ways of thinking, of living, of
being.
Explore (Khám phá) Monitor (Theo dõi) Explain (Giải thích)
Khi người dùng đang tìm kiếm một Khi người dùng cần kiểm tra hiệu suất Khi người dùng muốn vượt ra
công cụ mở giúp họ tìm các mẫu và của một thứ gì đó, trực quan hóa dữ ngoài “cái gì” (What happened?)
thông tin chi tiết về dữ liệu, thì một liệu giúp họ tập trung vào các chỉ số của một vấn đề và tìm hiểu “tại
báo cáo trực quan hóa dữ liệu giúp giám sát. sao”, thì việc trực quan hóa dữ liệu
người dùng tập trung vào khám phá Các công cụ giám sát, chẳng hạn như tập trung vào giải thích là lý tưởng.
các chi tiết hữu ích. bảng điều khiển, nên tập trung vào các Hình ảnh trực quan giải thích
chỉ số hàng đầu và hiển thị thông tin thường được tạo thủ công để giúp
được kết nối với các hành động trực nhiều đối tượng hiểu một chủ đề
tiếp và hữu ích. phức tạp.
Codegym Online

THU THẬP VÀ
LÀM SẠCH DỮ LIỆU
VỚI EXCEL
Presented by
YEN QUYEN TRAN
------------------------------------
Khóa học: Nền tảng Phân tích dữ liệu Date presented
May,2023
HÀM TÌM KIẾM DỮ LIỆU Codegym Online

Một số hàm dùng để tìm kiếm dữ liệu

Tên hàm Cấu trúc hàm Mục đích

=VLOOKUP(Lookup_value, Table_array, Tìm kiếm dữ liệu trong bảng, theo dãy dọc và trả về dữ liệu tương ứng
Hàm VLOOKUP
Col_index_ num, Range_lookup) theo hàng ngang.

=HLOOKUP(Lookup_value, Table_ array, Tìm kiếm dữ liệu ở dòng đầu tiên trong bảng đối chiếu và trả về dữ liệu
Hàm HLOOKUP
Row_index_Num, Range_lookup) tương ứng theo phạm vi bạn chọn.

Trả về giá trị hoặc tham chiếu đến giá trị khác trong bảng hoặc phạm vi
Hàm INDEX =INDEX(array, row_num, column_num)
mà bạn lựa chọn.

=MATCH(Lookup_value, Lookup_array, Hàm tìm kiếm và xác định vị trí tương đối của một giá trị trong một ô
Hàm MATCH
Match_type) hoặc một phạm vi được xác định.
HÀM XỬ LÝ CHUỖI Codegym Online

Một số hàm cắt chuỗi trong excel


Tên hàm Cấu trúc hàm Mục đích
Hàm LEFT Left(Chuỗi, số ký tự muốn lấy) Là hàm lấy N ký tự, bắt đầu từ bên trái của chuỗi
Hàm RIGHT Right(Chuỗi, số ký tự muốn lấy) Là hàm lấy N ký tự bắt đầu từ bên phải của chuỗi
Lấy N ký tự của chuỗi bắt đầu từ vị trí được chỉ định. Đây là hàm lấy ký
Hàm MID MID(chuỗi, vị trí bắt đầu, số ký tự muốn lấy)
tự bất kỳ trong excel

Một số hàm xử lý chuỗi trong excel


Tên hàm Cấu trúc hàm Mục đích
Hàm CONCATENATE CONCATENATE(chuỗi 1, chuỗi 2….) Nối nhiều chuỗi thành 1 chuỗi
Hàm LEN LEN(chuỗi cần đếm) Đếm số ký tự trong chuỗi Excel
Hàm LOWER LOWER(chuỗi) Chuyển tất cả các ký tự trong chuỗi sang chữ thường
Hàm UPPER UPPER(chuỗi) Chuyển tất cả các ký tự trong chuỗi sang chữ in hoa.
Hàm PROPER PROPER(chuỗi) Chuyển các ký tự đầu tiên trong chuỗi sang in hoa
Tìm vị trí bắt đầu của chuỗi con có trong chuỗi chuỗi lớn, tính theo ký tự
Hàm FIND FIND(chuỗi con, chuỗi lớn, vị trí bắt đầu)
đầu tiên và có phân biệt chữ hoa và chữ thường.
HÀM TÍNH TOÁN Codegym Online

Tên hàm Cấu trúc hàm Mục đích


Hàm SUM =SUM(Number1, Number2, Number3,…) Tính tổng tất cả các số trong một số ô hoặc một dãy ô bạn chọn
=PRODUCT(Number1, Number2,
Hàm PRODUCT Tính nhân kết quả các số trong một số ô hoặc một dãy ô
Number3,…)
Hàm MIN =MIN(Number1,Number2,...) Tìm giá trị nhỏ nhất trong một phạm vi dữ liệu hoặc toàn bộ trang tính.
Tìm giá trị lớn nhất trong một phạm vi dữ liệu hoặc toàn bộ trang tính.
Hàm MAX =MAX(Number1,Number2,...)

Hàm COUNT =COUNT(Value1,...) Hàm COUNT đếm số ô trong phạm vi dữ liệu có chứa số
Hàm COUNTA được sử dụng để đếm các ô KHÔNG TRỐNG trong một
Hàm COUNTA =COUNTA(Value1,...)
phạm vi dữ liệu.
Hàm AVERAGE =AVERAGE(number1, number2,…) Tính giá trị trung bình của một chuỗi số trong trang tính.
Trả về giá trị trung bình của các đối số của nó, bao gồm số, văn bản và
Hàm AVERAGEA =AVERAGEA(value1, [value2], ...)
giá trị lô-gic
HÀM ĐIỀU KIỆN Codegym Online

Tên hàm Cấu trúc hàm Mục đích


Hàm COUNTIF =COUNTIF(range,criteria) Đếm các ô trong phạm vi dữ liệu đã chọn thỏa mãn điều kiện.
=COUNTIFS(criteria_range1, criteria1, Áp dụng tiêu chí cho các ô trong nhiều dải ô và đếm số lần đáp ứng
Hàm COUNTIFS
[criteria_range2, criteria2],…) tất cả các tiêu chí
Kiểm tra điều kiện của dữ liệu có thỏa có thỏa mãn yêu cầu của
Hàm IF =IF(Logical_test;Value_if_true;Value_if_false) người dùng đặt ra hay không và hiện kết quả theo biểu thức logic
đúng hoặc sai.
Hàm SUMIF =SUMIF(range,criteria,[sum_range]) Tính tổng một dãy giá trị thỏa mãn một điều kiện cụ thể.
=SUMIFS(sum_range, criteria_range1,
Hàm SUMIFS Cộng tất cả các đối số của nó mà đáp ứng nhiều tiêu chí
criteria1, [criteria_range2, criteria2], ...)
Trả về giá trị trung bình (giá trị trung bình cộng) của tất cả các ô trong
Hàm AVERAGEIF =AVERAGEIF(range, criteria, [average_range])
một phạm vi đáp ứng một tiêu chí đã cho
=AVERAGEIFS(average_range,
Trả về trung bình (trung bình số học) của tất cả các ô thỏa mãn nhiều
Hàm AVERAGEIFS criteria_range1, criteria1, [criteria_range2,
tiêu chí
criteria2], ...)
HÀM LOGIC Codegym Online

Tên hàm Cấu trúc hàm Mục đích


Hàm AND =AND(biểu_thức_lô-gic1, [biểu_thức_lô-gic2], ...) Trả về TRUE nếu tất cả các đối số là TRUE
Xác định xem liệu mọi điều kiện trong một kiểm tra có là TRUE
Hàm OR =OR(biểu_thức_lô-gic1, [biểu_thức_lô-gic2], ...)
hay không.

Hàm NOT =NOT(lô-gic) Đảo ngược lô-gic của đối số của nó

Trả về một giá trị mà bạn xác định nếu một công thức đánh giá
Hàm IFERROR =IFERROR(value, value_if_error)
một lỗi, nếu không, trả về kết quả của công thức
Trả về giá trị mà bạn xác định nếu biểu thức giải quyết thành
Hàm IFNA =IFNA(value, value_if_na)
#N/A, nếu không trả về kết quả của biểu thức
HÀM IS Codegym Online

Tên hàm Cấu trúc hàm Mục đích


Hàm ISBLANK =ISBLANK(value) Trả về TRUE nếu giá trị trống

Hàm ISERROR =ISERROR(value) Trả về TRUE nếu giá trị là bất kỳ lỗi nào

Hàm ISNA =ISNA(value) Trả về TRUE nếu giá trị là một giá trị lỗi #N/A

Hàm ISNONTEXT =ISNONTEXT(value) Trả về TRUE nếu giá trị không phải là văn bản

Hàm ISNUMBER =ISNUMBER(value) Trả về TRUE nếu giá trị là một số

Hàm ISODD =ISODD(value) Trả về TRUE nếu số là số lẻ

Hàm ISEVEN =ISEVEN(value) Trả về TRUE nếu số là số chẵn

Hàm ISTEXT =ISTEXT(value) Trả về TRUE nếu giá trị là văn bản
HÀM THỜI GIAN Codegym Online

Một số hàm ngày và thời gian


Tên hàm Cấu trúc hàm Mục đích
Hàm DATE =DATE(year; month; day) Trả về số sê-ri của một ngày cụ thể

Hàm DATEDIF =DATEDIF(start_date,end_date,unit) Tính toán số ngày, tháng hoặc năm giữa hai ngày

Hàm DATEVALUE =DATEVALUE(date_text) Chuyển đổi ngày từ dạng văn bản thành dạng số sê-ri
Trả về số sê-ri của một ngày trước hoặc sau ngày bắt đầu một số tháng
Hàm EDATE =EDATE(start_date, months)
đã xác định
Trả về số sê-ri của ngày cuối cùng trong tháng trước hoặc sau một số
Hàm EOMONTH =EOMONTH(start_date, months)
tháng cụ thể

Hàm NOW =NOW() Trả về số sê-ri của ngày và thời gian hiện thời

Hàm TODAY =TODAY() Trả về số sê-ri của ngày hôm nay

Hàm YEAR =YEAR(Serial_Number) Chuyển đổi số sê-ri thành năm

Hàm WEEKNUM =WEEKNUM(Serial_Number, [return_type]) Hàm trả về số thứ tự của tuần trong năm của một ngày cụ thể.
CÔNG CỤ PIVOTTABLE Codegym Online

Pivot Table là một công cụ giúp người dùng dễ dàng phân tích và tổng hợp dữ liệu từ một bảng dữ liệu lớn.
Với Pivot Table, người dùng có thể:
 Tự động sắp xếp và tổng hợp dữ liệu theo các trường dữ liệu được chọn.
 Cho phép người dùng thêm, xóa và sửa đổi các trường dữ liệu.
 Cung cấp nhiều lựa chọn để định dạng và hiển thị dữ liệu trong Pivot Table.
 Cho phép người dùng tạo các báo cáo, biểu đồ và phân tích số liệu một cách nhanh chóng và chính xác
CÔNG CỤ CONDITIONAL FORMATTING
Codegym Online

Conditional Formatting trong Excel để giúp người dùng đánh dấu, tô màu và định dạng các ô dữ liệu dựa trên
một số điều kiện nhất định.
 Giúp cho việc phân tích và hiển thị dữ liệu trở nên dễ dàng và nhanh chóng hơn.
 Một số trường hợp sử dụng thực tế:
 Đánh dấu màu các ô dữ liệu có giá trị cao hoặc thấp hơn một ngưỡng nào đó
 Tô màu các ô dữ liệu có chứa từ khóa hoặc giá trị quan trọng
 Định dạng các ô dữ liệu dựa trên công thức hoặc các quy tắc phức tạp

You might also like