Professional Documents
Culture Documents
Bai 1. Nhap Mon PTDL
Bai 1. Nhap Mon PTDL
Agenda
4. Thực hành
1. Dữ liệu và loại dữ liệu Codegym Online
Phân tích dữ liệu là quá trình thu thập, làm sạch, nghiên cứu, biến đổi, mô hình hóa dữ liệu từ
những dữ liệu thô nhằm đưa ra kết luận về những thông tin đó
Phân tích dữ liệu giúp doanh nghiệp tối ưu hóa hiệu suất, hoạt động hiệu quả hơn, tối đa hóa
lợi nhuận hoặc đưa ra các quyết định có định hướng chiến lược hơn.
3. Quy trình phân tích dữ liệu Codegym Online
Interpret
Analyze Trực quan
Clean hóa dữ liệu:
Phân tích dữ Trình bày, diễn
Collect liệu: giải các kết quả
Làm sạch dữ Xác định các tìm được
Identify liệu: mối quan hệ,
Thu thập dữ - Lọc dữ liệu nguyên nhân-
liệu: - Loại bỏ dữ liệu kết quả, xu
Tìm hiểu bài - Thực hiện trùng lặp hướng,...
toán khảo sát - Chuyển đổi
Xác dịnh yêu - Dữ liệu có sẵn kiểu dữ liệu
cầu phân tích hoặc từ hệ - Tách dữ liệu
thống công ty - Loại bỏ các
- Các nguồn thông tin không
trên mạng... cần thiết...
3.1 Thu thập dữ liệu Codegym Online
1.Loại bỏ các dòng dữ 2.Loại bỏ các dòng 3.Kiểm tra lỗi chính 4. Xóa các Formatting (nếu 5. Liên kết dữ liệu /Tách
liệu trống dữ liệu trùng nhau tả có) dữ liệu
6. Xử lí text đúng format 7. Chuyển đổi loại dữ 8. Kiểm tra các giá trị 9. Kiểm tra các giá trị về 10. Xử lí các chuỗi dữ
liệu ngoại lai ngày tháng năm liệu số
3.3 Phân tích dữ liệu
Descriptive analytics Diagnostic analytics Predictive analytics Prescriptive analytics
(Phân tích mô tả) (Phân tích chẩn đoán) (Phân tích dự đoán) (Phân tích đề xuất)
Douglas Engelbart
- a tool doesn’t just make
Trực quan hóa là công cụ có thể làm cho các khái niệm phức
something easier—it allows for
tạp trở nên dễ hiểu hơn đối với con người.
new, previously-impossible
ways of thinking, of living, of
being.
Explore (Khám phá) Monitor (Theo dõi) Explain (Giải thích)
Khi người dùng đang tìm kiếm một Khi người dùng cần kiểm tra hiệu suất Khi người dùng muốn vượt ra
công cụ mở giúp họ tìm các mẫu và của một thứ gì đó, trực quan hóa dữ ngoài “cái gì” (What happened?)
thông tin chi tiết về dữ liệu, thì một liệu giúp họ tập trung vào các chỉ số của một vấn đề và tìm hiểu “tại
báo cáo trực quan hóa dữ liệu giúp giám sát. sao”, thì việc trực quan hóa dữ liệu
người dùng tập trung vào khám phá Các công cụ giám sát, chẳng hạn như tập trung vào giải thích là lý tưởng.
các chi tiết hữu ích. bảng điều khiển, nên tập trung vào các Hình ảnh trực quan giải thích
chỉ số hàng đầu và hiển thị thông tin thường được tạo thủ công để giúp
được kết nối với các hành động trực nhiều đối tượng hiểu một chủ đề
tiếp và hữu ích. phức tạp.
Codegym Online
THU THẬP VÀ
LÀM SẠCH DỮ LIỆU
VỚI EXCEL
Presented by
YEN QUYEN TRAN
------------------------------------
Khóa học: Nền tảng Phân tích dữ liệu Date presented
May,2023
HÀM TÌM KIẾM DỮ LIỆU Codegym Online
=VLOOKUP(Lookup_value, Table_array, Tìm kiếm dữ liệu trong bảng, theo dãy dọc và trả về dữ liệu tương ứng
Hàm VLOOKUP
Col_index_ num, Range_lookup) theo hàng ngang.
=HLOOKUP(Lookup_value, Table_ array, Tìm kiếm dữ liệu ở dòng đầu tiên trong bảng đối chiếu và trả về dữ liệu
Hàm HLOOKUP
Row_index_Num, Range_lookup) tương ứng theo phạm vi bạn chọn.
Trả về giá trị hoặc tham chiếu đến giá trị khác trong bảng hoặc phạm vi
Hàm INDEX =INDEX(array, row_num, column_num)
mà bạn lựa chọn.
=MATCH(Lookup_value, Lookup_array, Hàm tìm kiếm và xác định vị trí tương đối của một giá trị trong một ô
Hàm MATCH
Match_type) hoặc một phạm vi được xác định.
HÀM XỬ LÝ CHUỖI Codegym Online
Hàm COUNT =COUNT(Value1,...) Hàm COUNT đếm số ô trong phạm vi dữ liệu có chứa số
Hàm COUNTA được sử dụng để đếm các ô KHÔNG TRỐNG trong một
Hàm COUNTA =COUNTA(Value1,...)
phạm vi dữ liệu.
Hàm AVERAGE =AVERAGE(number1, number2,…) Tính giá trị trung bình của một chuỗi số trong trang tính.
Trả về giá trị trung bình của các đối số của nó, bao gồm số, văn bản và
Hàm AVERAGEA =AVERAGEA(value1, [value2], ...)
giá trị lô-gic
HÀM ĐIỀU KIỆN Codegym Online
Trả về một giá trị mà bạn xác định nếu một công thức đánh giá
Hàm IFERROR =IFERROR(value, value_if_error)
một lỗi, nếu không, trả về kết quả của công thức
Trả về giá trị mà bạn xác định nếu biểu thức giải quyết thành
Hàm IFNA =IFNA(value, value_if_na)
#N/A, nếu không trả về kết quả của biểu thức
HÀM IS Codegym Online
Hàm ISERROR =ISERROR(value) Trả về TRUE nếu giá trị là bất kỳ lỗi nào
Hàm ISNA =ISNA(value) Trả về TRUE nếu giá trị là một giá trị lỗi #N/A
Hàm ISNONTEXT =ISNONTEXT(value) Trả về TRUE nếu giá trị không phải là văn bản
Hàm ISTEXT =ISTEXT(value) Trả về TRUE nếu giá trị là văn bản
HÀM THỜI GIAN Codegym Online
Hàm DATEDIF =DATEDIF(start_date,end_date,unit) Tính toán số ngày, tháng hoặc năm giữa hai ngày
Hàm DATEVALUE =DATEVALUE(date_text) Chuyển đổi ngày từ dạng văn bản thành dạng số sê-ri
Trả về số sê-ri của một ngày trước hoặc sau ngày bắt đầu một số tháng
Hàm EDATE =EDATE(start_date, months)
đã xác định
Trả về số sê-ri của ngày cuối cùng trong tháng trước hoặc sau một số
Hàm EOMONTH =EOMONTH(start_date, months)
tháng cụ thể
Hàm NOW =NOW() Trả về số sê-ri của ngày và thời gian hiện thời
Hàm WEEKNUM =WEEKNUM(Serial_Number, [return_type]) Hàm trả về số thứ tự của tuần trong năm của một ngày cụ thể.
CÔNG CỤ PIVOTTABLE Codegym Online
Pivot Table là một công cụ giúp người dùng dễ dàng phân tích và tổng hợp dữ liệu từ một bảng dữ liệu lớn.
Với Pivot Table, người dùng có thể:
Tự động sắp xếp và tổng hợp dữ liệu theo các trường dữ liệu được chọn.
Cho phép người dùng thêm, xóa và sửa đổi các trường dữ liệu.
Cung cấp nhiều lựa chọn để định dạng và hiển thị dữ liệu trong Pivot Table.
Cho phép người dùng tạo các báo cáo, biểu đồ và phân tích số liệu một cách nhanh chóng và chính xác
CÔNG CỤ CONDITIONAL FORMATTING
Codegym Online
Conditional Formatting trong Excel để giúp người dùng đánh dấu, tô màu và định dạng các ô dữ liệu dựa trên
một số điều kiện nhất định.
Giúp cho việc phân tích và hiển thị dữ liệu trở nên dễ dàng và nhanh chóng hơn.
Một số trường hợp sử dụng thực tế:
Đánh dấu màu các ô dữ liệu có giá trị cao hoặc thấp hơn một ngưỡng nào đó
Tô màu các ô dữ liệu có chứa từ khóa hoặc giá trị quan trọng
Định dạng các ô dữ liệu dựa trên công thức hoặc các quy tắc phức tạp