You are on page 1of 5

THỰC HÀNH KHÁM PHÁ DỮ LIỆU

Các thư viện sử dụng

import pandas as pd

import numpy as np

I. Cách đọc dữ liệu trong Pandas Python

1. Cách đọc dữ liệu từ một file CSV

pd.read_csv(filename)

2. Cách đọc dữ liệu từ một file TSV

pd.read_table(filename)

3. Cách đọc dữ liệu từ một file Excel

pd.read_excel(filename)

II. Cách xuất dữ liệu từ Pandas DataFrame


1. Cách xuất dữ liệu từ DataFrame ra file CSV

df.to_csv(filename)

2. Cách xuất dữ liệu từ DataFrame ra file Excel

df.to_excel(filename)

III. Cách xem và kiểm tra dữ liệu


1. Cách xem n dòng đầu tiên của DataFrame

df.head(n)

2. Cách xem n dòng cuối cùng của DataFrame

df.tail(n)

3. Cách lấy số dòng số cột của DataFrame

df.shape
4. Xem thông tin về Index, kiểu dữ liệu và dung lượng của DataFrame

df.info()

5. Tổng kết thông tin thống kê cho các cột có kiểu dữ liệu là số

df.describe()

IV. Trích xuất một phần dữ liệu trong Pandas DataFrame


1. Trả về một cột của DataFrame dưới dạng Series

df[col] # Trả về cột có label là col như một Series

2. Trả về các cột trong danh sách dưới dạng một DataFrame mới

df[[Col1, Col2]]

3. Chọn dữ liệu theo vị trí


s.iloc[0]

4. Chọn dữ liệu theo index


s.loc['index_one']

5. Chọn dữ liệu ở dòng đầu tiên

df.iloc[0,:]

6. Chọn dữ liệu ở dòng đầu tiên, ô thứ nhất của DataFrame

df.iloc[0,0]

V. Cách làm sạch dữ liệu trong Pandas DataFrame


1. Đổi tên các cột trong DataFrame theo thứ tự
df.columns = ['a','b','c']

2. Kiểm tra dữ liệu với giá trị null


pd.isnull()

3. Kiểm tra dữ liệu với giá trị khác null


pd.notnull()
4. Cách bỏ toàn bộ dòng có dữ liệu null
df.dropna()

5. Cách bỏ toàn bộ cột có dữ liệu null


df.dropna(axis=1)

6. Cách bỏ các dòng có nhiều hơn n giá trị null


df.dropna(axis=1, thresh=n)

7. Cách thay toàn bộ giá trị null bằng giá trị x

s.fillna(s.mean()) #Thay gia tri null trong Series bởi gia tri mean cua cac gia
tri trong Series

8. Cách thay toàn bộ giá trị null bằng giá trị khác

s.replace(1,'one') # Thay tat ca cac gia tri bang 1 bởi one

9. Cách thay giá trị này bởi giá trị khác


s.replace(1,'one')

10. Cách thay nhiều giá trị cùng lúc


s.replace([1,3],['one','three'])

11. Cách đổi tên cột cụ thể trong DataFrame


df.rename(columns={'old_name': 'new_ name'})

12. Cách đổi index trong DataFrame


df.set_index('column_one')

VI. Cách lọc, sắp xếp, nhóm dữ liệu trong Pandas DataFrame
1. Lọc dữ liệu theo điều kiện

df[ df[col] > 5 ] # Loc ra cac dong thoa man đieu kien col lởn hởn 5

# Lọc ra các dòng thỏa mãn điều kiện: có giá trị cột col trong khoảng 100 đến 200

df[ df[col] > 100 & df[col] < 200 ]


2. Sắp xếp dữ liệu

# Sắp xếp dữ liệu trong cột col1 theo chiều thuận (ascending)

df.sort_values(col1)

# Sắp xếp dữ liệu trong cột col2 theo chiều nghịch (descending)

df.sort_values(col2, ascending=False)

# Sắp xếp col1 theo chiều thuận và col2 theo chiều nghịch

df.sort_values([col1,col2],ascending=[True,False])

3. Tính mean của tất cả các cột


df.apply(np.mean)

4. Tính max mỗi dòng

#Áp dụng hàm np.max() cho mỗi dòng dữ liệu

df.apply(np.max,axis=1)

VII. Nối dữ liệu, gộp dữ liệu bằng Pandas DataFrame


o
1. Nối dữ liệu DataFrame theo chiều dọc

Nối các dòng của df1 xuống dưới df2 (Số lượng các cột trong 2 DataFrames này phải
giống nhau)

df1.append(df2)

2. Nối dữ liệu DataFrame theo chiều ngang

#Nối các cột của df1 sang phải các cột của df2 (Số lượng các dòng trong 2 DataFrames
này phải giống nhau)

pd.concat([df1, df2],axis=1)

VIII. Thống kê dữ liệu bằng Pandas DataFrame


o
1. Thống kê dữ liệu cho các cột số

df.describe()

2. Tính mean cho tất cả các cột

df.mean()

3. Tính correlation giữa các cột

df.corr()

4. Đếm số giá trị không null cho các cột

df.count()

5. Tìm giá trị lớn nhất cho mỗi cột

df.max()

6. Tìm giá trị nhỏ nhất cho mỗi cột

df.min()

7. Tìm giá trị median cho mỗi cột

df.median()

8. Tìm giá trị độ lệch tiêu chuẩn cho mỗi cột

df.std()

You might also like