You are on page 1of 8

 .

info()
 秀出資料的基本型態

結果:

分析:
Numerical columns: PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
Categorial columns: Name, Sex, Ticket, Cabin, Embarked
There are some missing values (Age, Cabin, Embarked)
This dataset needs data cleaning & transformation.
 .describe()
 秀出基本統計資料

 結果(數字型資料適用於此)
 .hist()
 繪製資料的長條圖

 # 單一變數(1 個 column)的敘述統計
 數字型態資料


 文字型態資料


 文字形資料的分類與分組數量計算
 可以看出一個欄位中總共有幾種不一樣的分類

 也可以用來檢視,是不是混入怪怪的東西

 去除不要的變數欄位
 axis=1 表示要刪除列 (axis=0)表示要刪除行
 例一

 Result:

 例二
 計算遺失值數量

 處理遺失值 handing missing value


 方法 1. drop them all. 2. replace with certain values (e.g., mean, mode,
median, specific value)
 處理遺失(1): 刪除整行具有遺失值(空值)的資料
 先用.dropna()把整個行都怪怪的資料刪除掉

 處理遺失(2) 文字型: 將”空值”替換為分類列中最常見的類型


 fillna :將 'Embarked' 列中的缺失值用字串 'S' 來填充 & 再次使用
isnull().sum() 方法計算每列中的缺失值數量。

 處理遺失(2) 數字型: 將空值替換為分類列中最常見的值(均值 or 中位數)


 先計算中位數

 利用 fillna,將空值填入為中位數,並用 isnull 查看是否還有遺失值


(可以看到 age 已無遺失值)

 計算均值
 處理不夠準確的數據
 資料中如有出現不符合敘述的項目,利用 replace 將其轉換為空值 nan.
(import numpy as np: 這表示要引入名為 NumPy 的 Python 庫。NumPy 是一個強大的科學計算
庫,提供了支援大規模多維陣列和矩陣操作的功能,以及數學函數的豐富集合。)

 然後 replace 不符的數據(data)

 或 replace 成其他有用的、廣泛的數值

 將文字資料轉換成數字型態(1 與 0)
 利用 map 函數將文字資料轉換為 1 與 0
 map 它的主要用途是将某个操作应用于可迭代对象中的每个元素,从
而生成一个新的可迭代对象,其中包含应用了该操作后的结果。
 利用.map 轉換英文字母至 1-3

 轉出至 excel 檔

進階資料整理技能:

 增加新的欄位(變數)


 重新命名欄位名稱

You might also like