Professional Documents
Culture Documents
Lecture 3 - Pandas 1
Lecture 3 - Pandas 1
Pandas
Là thư viện mã nguồn mở, và hiệu quả trong
thao tác và phân tích dữ liệu.
Cung cấp các công cụ phân tích dữ liệu, có
cấu trúc dữ liệu dễ dàng và sử dụng NNLT
Python
Pandas được sử dụng trong nhiều lĩnh vực bao
gồm khoa học, kinh tế, phân tích thống kê…
Cài đặt: pip install pandas
3 4
3.1.1 Giới thiệu 3.1.1 Giới thiệu
Pandas có 3 kiểu cấu trúc dữ liệu: Ưu điểm
Series Hỗ trợ đa dạng dữ liệu
DataFrame
Tích hợp dữ liệu
Pannel
Các cấu trúc dữ liệu này được xây dựng trên Chuyển đổi dữ liệu
Numpy array, có tốc độ nhanh. Hỗ trợ dữ liệu time-series
Thống kê mô tả
5 6
11 12
3.1.2 Series 3.1.2 Series
Tạo series từ một giá trị Thao tác trên series
Truy xuất phần tử trên series: theo index (lable)
13 14
15 16
3.1.2 Series 3.1.2 Series
Xóa phần tử Xem tên index của Series: dùng axes
17 18
19 20
3.1.2 Series 3.1.2 Series
Tạo series mới bằng cách ánh xạ từ series đang Các hàm thống kê
có: dùng map (lambda)
Ví dụ
21 22
23 24
3.1.3 DataFrame 3.1.3 DataFrame
DataFrame là một cấu trúc dữ liệu 2D (two-
dimensional), dữ liệu được tổ chức theo dòng và
cột.
Đặc điểm
Các cột có nhiều kiểu dữ liệu khác nhau
Kích thước có thể thay đổi
Trục được gán nhãn (dòng và cột)
Có thể thực hiện các phép tính số học theo
dòng và cột
25 26
27 28
3.1.3 DataFrame 3.1.3 DataFrame
Tạo data frame từ dictionary ndarray/list Tạo data frame từ list dictionary
29 30
31 32
3.1.3 DataFrame 3.1.3 DataFrame
Xóa cột dùng: del/pop() Lấy dữ liệu theo index - iloc
33 34
35 36
3.1.3 DataFrame 3.1.3 DataFrame
Cập nhật dữ liệu của dòng Cập nhật dữ liệu của dòng
37 38
df df
• Pandas Apply with Lambda to All columns • Apply Lambda expression to single column
39 40
3.1.3 DataFrame 3.1.3 DataFrame
Lấy dữ liệu theo điều kiện Xác định lại nhãn dòng – set_index
41 42
45 46
47 48
3.1.3 DataFrame 3.1.3 DataFrame
any/all : Kiểm tra bất kỳ phần tử nào đều là True: Các hàm thống kê
dùng all()
49 50
51 52
Bài tập thực hành Hỏi & Đáp
Bài tập tại lớp
53 54
54