Professional Documents
Culture Documents
筆記 資料整理
筆記 資料整理
info()
秀出資料的基本型態
結果:
分析:
Numerical columns: PassengerId, Survived, Pclass, Age, SibSp, Parch, Fare
Categorial columns: Name, Sex, Ticket, Cabin, Embarked
There are some missing values (Age, Cabin, Embarked)
This dataset needs data cleaning & transformation.
.describe()
秀出基本統計資料
結果(數字型資料適用於此)
.hist()
繪製資料的長條圖
# 單一變數(1 個 column)的敘述統計
數字型態資料
文字型態資料
文字形資料的分類與分組數量計算
可以看出一個欄位中總共有幾種不一樣的分類
也可以用來檢視,是不是混入怪怪的東西
去除不要的變數欄位
axis=1 表示要刪除列 (axis=0)表示要刪除行
例一
Result:
例二
計算遺失值數量
計算均值
處理不夠準確的數據
資料中如有出現不符合敘述的項目,利用 replace 將其轉換為空值 nan.
(import numpy as np: 這表示要引入名為 NumPy 的 Python 庫。NumPy 是一個強大的科學計算
庫,提供了支援大規模多維陣列和矩陣操作的功能,以及數學函數的豐富集合。)
然後 replace 不符的數據(data)
或 replace 成其他有用的、廣泛的數值
將文字資料轉換成數字型態(1 與 0)
利用 map 函數將文字資料轉換為 1 與 0
map 它的主要用途是将某个操作应用于可迭代对象中的每个元素,从
而生成一个新的可迭代对象,其中包含应用了该操作后的结果。
利用.map 轉換英文字母至 1-3
轉出至 excel 檔
進階資料整理技能:
增加新的欄位(變數)
重新命名欄位名稱