CH 5 Basic Numpy and Pandas

You might also like

You are on page 1of 22

CP020001

Introduction to Computers
and Programming

CH 5 : Basic Numpy and Pandas

Asst. Prof. Chanon Dechsupa, Ph.D


Updated 18/02/2024
What is Numpy

NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทางคณิตศาสตร์ในภาษา Python


NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทางคณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียนด้วยภาษา C จึงทำงานได้เร็วและ
ซึ่งภายในถูกเขียนด้วยภาษา C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy
มีประสิทธิภาพ โดย NumPy มีความสามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเมทริกซ์
มี
ความสามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเมทริกซ์

ประโยชน์

NumPy
NumPy นั้นสามารถสร้างและจัดการกับ
เป็นชื่อของ array Python
library ที่ใช้ในการคำนวนทางคณิตศาสตร์ในภาษา หลายมิติได้ง่ายๆหลายวิธี
ซึ่งภายในถูกเขียนด้วยภาษา C จึงทำงานได้เร็วและ
มีประสิทธิภาพ โดย NumPy มีความสามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเมทริกซ์

1
create Numpy

test.ipynd output
NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง
import numpy
คณิตศาสตร์ในภาษา as np
Python ซึ่งภายในถูกเขียนด้วยภาษา คณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียนด้วยภาษา
[[1 2 3]
C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
[4 5 6]]
arr = np.array([[1, 2, 3], [4, 5, 6]])
สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
ทริกซ์ ทริกซ์

test.ipynd output
NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง
import numpy library
NumPy เป็นชื่อของ as npที่ใช้ในการคำนวนทาง (array([0, 2,Python
คณิตศาสตร์ในภาษา 4, 6]),)
ซึ่งภายในถูกเขียนด้วยภาษา
คณิตศาสตร์ในภาษา
arr = np.array([1,Python
2,ซึ่งภายในถูกเขียนด้วยภาษา
3, 4, 5, 6, 7, 8]) #ดึงตำแหน่ง
C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
x = np.where(arr%2 == 1) สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
print(x) ทริกซ์
ทริกซ์
2
function and Numpy

test.ipynd output
NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง
import numpy
คณิตศาสตร์ในภาษา as np
Python ซึ่งภายในถูกเขียนด้วยภาษา คณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียนด้วยภาษา
[0 1 2 3]
arr = np.array([3, 2, 0, 1])โดย NumPy มีความ
C จึงทำงานได้เร็วและมีประสิทธิภาพ C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
print(np.sort(arr))
สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
ทริกซ์ ทริกซ์

test.ipynd output
NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง
import numpy library
NumPy เป็นชื่อของ as npที่ใช้ในการคำนวนทาง 3
คณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียนด้วยภาษา
คณิตศาสตร์ในภาษา
arr = np.array([3,Python2,ซึ่งภายในถูกเขียนด้วยภาษา
0, 1]) C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
print(np.max(arr)) สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
ทริกซ์
ทริกซ์
3
function and Numpy

test.ipynd output
NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง
import numpy
คณิตศาสตร์ในภาษา as np
Python ซึ่งภายในถูกเขียนด้วยภาษา คณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียนด้วยภาษา
arr = np.array([3, 2, 0, 1])โดย NumPy มีความ 0
C จึงทำงานได้เร็วและมีประสิทธิภาพ C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
print(np.min(arr))
สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
ทริกซ์ ทริกซ์

test.ipynd output
NumPy เป็นชื่อของ library ที่ใช้ในการคำนวนทาง
import numpy library
NumPy เป็นชื่อของ as npที่ใช้ในการคำนวนทาง 1.5
คณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียนด้วยภาษา
คณิตศาสตร์ในภาษา
arr = np.array([3,Python2,ซึ่งภายในถูกเขียนด้วยภาษา
0, 1]) C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
C จึงทำงานได้เร็วและมีประสิทธิภาพ โดย NumPy มีความ
print(np.mean(arr)) สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
สามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเม
ทริกซ์
ทริกซ์
4
function and Numpy
test.ipynd
import numpy as np
output
def data_new(arr): NumPy เป็นชื่อของ library ที่ใช้ใน
data_max = np.max(arr) การคำนวนทางคณิตศาสตร์ในภาษา
data_min = np.min(arr) Max:ซึ่งภายในถูกเขียนด้วยภาษา
Python 3
data_sum = np.sum(arr) Min: 0
C จึงทำงานได้เร็วและมีประสิทธิภาพ
data_mean
NumPy = np.mean(arr)
เป็นชื่อของ library ที่ใช้ในการคำนวนทางคณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียน
Sum:
โดย NumPy6 มีความสามารถในการ
จัดการกับอาเรย์หลายมิติและข้อมูล
Mean: 1.5
return
ด้วยภาษา data_max, data_min, data_sum,
C จึงทำงานได้เร็วและมีประสิทธิภาพ data_mean
โดย NumPy มีความสามารถในการจัดการกับอาเรย์
แบบเมทริกซ์
หลายมิติและข้อมูลแบบเมทริกซ์

max_value, min_value, sum_value, mean_value = data_new(arr)


print("Max:", max_value)
print("Min:", min_value)
print("Sum:", sum_value)
print("Mean:", mean_value) 5
What is Pandas

Pandas เป็น Library (ไลบรารี่)ที่ใช้สำหรับวิเคราะห์ข้อมูลในหลายๆ format ที่มี


ประสิทธิที่ภาพมาก เป็นที่นิยมในตอนนี้ สามารถเอาไปใช้ได้ในงาน Data Analysis
เพื่อดู Data set และใช้ภาษา Python (ไพธอน) ในการเขียน
Pandas มี Feature อะไรบ้าง?
NumPy ออบเจ็กต์ DataFrame
เป็นชื่อของ library ที่รวดเร็วและมีประสิทธิภาพพร้อมการสร้าง
ที่ใช้ในการคำนวนทางคณิตศาสตร์ในภาษา Python ซึ่งภายในถูกเขียนด้วยภาษา Cindex เริ่ม
จึงทำงานได้เร็วและมี
ต้นและ index ที่กำหนดเองได้
ประสิทธิภาพ โดย NumPy มีความสามารถในการจัดการกับอาเรย์หลายมิติและข้อมูลแบบเมทริกซ์

เป็นเครื่องมือสำหรับโหลดข้อมูลลงใน in-memory data objects จากสกุลไฟล์


ต่างๆ
การจัดตำแหน่งข้อมูลและรวมการจัดการข้อมูลที่ขาดหายไป
Reshaping และ Pivoting data 6
Creating a DataFrame from Lists

test.ipynd
Output
import pandas as pd
import numpy as np Name Age

test.ipynd 0 Alice 25

names = [‘Alice’,‘Bob’,‘Charlie’,‘David’] 1 Bob 30


ages = [25, 30, 35, 40]
2 Charlie 35
df = pd.DataFrame({‘Name’:names,‘Age’:ages})
3 David 40
df

7
Indexing and Selection

test.ipynd Output
names = df[‘Name’] 0 Alice
print(names) 1 Bob
2 Charlie
3 David
Name: Name, dtype: object

test.ipynd Output
second_row = df.iloc[1] Name Bob
print(second_row) Age 30
Name: 1, dtype: object

8
Indexing and Selection

test.ipynd

df[df[‘Age’] > 30]

Output

Name Age

2 Charlie 35

3 David 40
9
Creating and Modifying DataFrame
Output
test.ipynd
Name Age IsSenior
df[‘IsSenior’] = df[’Age’] > 30]
df 0 Alice 25 False

1 Bob 30 False

2 Charlie 35 True

3 David 40 True

Output
test.ipynd
Name Age
df_remove_issenior =df.drop(‘IsSenior’, axis=1)
0 Alice 25
df_remove_issenior
1 Bob 30

2 Charlie 35
10
3 David 40
Creating and Modifying DataFrame

test.ipynd

df.rename(columns={’Age’:’AgeYears’}, inplace=True)
df

Output Output
Name Age IsSenior Name AgeYears IsSenior

0 Alice 25 False 0 Alice 25 False

1 Bob 30 False 1 Bob 30 False

2 Charlie 35 True 2 Charlie 35 True

3 David 40 True 3 David 40 True 11


Sorting and Aggregation

test.ipynd
sorted_df = df.sort_values(by=’AgeYears’,ascending=False)
sorted_df

Output

Name AgeYears IsSenior

3 David 40 True

2 Charlie 35 True

1 Bob 30 False

0 Alice 25 False 12
Counting Values

test.ipynd Output

mean_age = df[’AgeYears’].mean()
32.5
mean_age

test.ipynd Output
25 1
df[’AgeYears’].value_counts() 30 1
35 1
40 1
Name: AgeYears,
dtype: int64 13
Filtering with Multiple Conditions

test.ipynd Output
Name
filter_df = df[(df[’AgeYears’] > 25) & (df[’AgeYears’] < 40)]
filter_df[[’Name’]] 1 Bob

2 Charlie

test.ipynd Output
Name IsSenior
filter_df[[’Name’,’IsSenior’]]
1 Bob False

2 Charlie True
14
Finding Maximum and Minimum Values

test.ipynd Output

df[’AgeYears’].max() 40

test.ipynd Output

df[’AgeYears’].min() 25

test.ipynd Output

df[’AgeYears’].mean() 32.5

15
Appling Functions to DataFrame

test.ipynd
def double_age(age):
return age*2

df[’’DoubleAge] = df[’AgeYears’].apply(double_age)
df

Output Output

Name AgeYears IsSenior Name AgeYears IsSenior DoubleAge

0 Alice 25 False 0 Alice 25 False 50

1 Bob 30 False 1 Bob 30 False 60

2 Charlie 35 True 2 Charlie 35 True 70


16
3 David 40 True 3 David 40 True 80
Checking for Null Values

test.ipynd Output
Name False
df.isnull().any()
AgeYears False
IsSenior False
DoubleAge False
dtype: bool

test.ipynd Output
array([’Alice’, ’Bob’, ‘Charlie’,
df[’Name’].unique()
‘David’], dtype=object)

17
Reading Data from CSV
test.ipynd
file_path = ‘https://raw.githubusercontent.com/Kengelite/CP020001-dataset/main/USA_cars_datasets.csv’
df = pd.read_csv(file_Path)
df.head()

Output
price brand model year title_status mileage color vin lot state country condition

0 6300 toyota cruiser 2008 clean vehicle 274117 black jtezu11f88k007763 159348797 new jersey usa 10 days left

1 2899 ford se 2011 clean vehicle 190552 silver 2fmdk3gc4bbb02217 166951262 tennessee usa 6 days left

2 5350 dodge mvp 2018 clean vehicle 39590 silver 3c4pdcgg5jt346413 167655728 georgia usa 2 days left

3 25000 ford door 2014 clean vehicle 64146 blue 1ftfw1et4efc23745 167753855 virginia usa 22 hours left

4 27700 chevrolet 1500 2018 clean vehicle 6654 red 3gcpcrec2jg473991 167763266 florida usa 22 hours left

18
Reading Data from CSV

test.ipynd Output

df.shape (2499, 12)

Output
price brand model year title_status mileage color vin lot state country condition

0 6300 toyota cruiser 2008 clean vehicle 274117 black jtezu11f88k007763 159348797 new jersey usa 10 days left

1 2899 ford se 2011 clean vehicle 190552 silver 2fmdk3gc4bbb02217 166951262 tennessee usa 6 days left

2 5350 dodge mvp 2018 clean vehicle 39590 silver 3c4pdcgg5jt346413 167655728 georgia usa 2 days left

3 25000 ford door 2014 clean vehicle 64146 blue 1ftfw1et4efc23745 167753855 virginia usa 22 hours left

4 27700 chevrolet 1500 2018 clean vehicle 6654 red 3gcpcrec2jg473991 167763266 florida usa 22 hours left

19
Reading Data from CSV
อธิบาย column

Price ราคาขายของรถในโฆษณา
Years ปีทะเบียนรถ
Brand แบรนด์รถ
Model รุ่นของรถ
color สีของรถ
State/City รถพร้อมจำหน่ายอยู่ที่ใด
Mileage ระยะไมล์ของรถ
Vin หมายเลขประจำตัวรถประกอบด้วยอักขระ 17 ตัว (ตัวเลขและตัวพิมพ์ใหญ่)
Title Status คุณลักษณะนี้รวมถึงการจำแนกประเภทไบนารี ซึ่งเป็นยานพาหนะที่มีชื่อสะอาดและการประกันภัยกอบกู้
Lot เลขล็อตจะรวมกับหมายเลขซีเรียลเพื่อสร้างหมายเลขประจำตัวยานพาหนะ
Time เวลาคงเหลือ

20

You might also like