Professional Documents
Culture Documents
Data Science - Machine Learning Slide
Data Science - Machine Learning Slide
Machine Learning
Python course
Thang Nguyen
Viet Nguyen
http://www.viet-it.com
Nội dung
Machine Learning Data Visualization
01 Tổng quan về Machine 04 Trực quan hóa dữ liệu
Learning
Input Output
(feature vector) Model (prediction)
Dataset (Bộ dữ liệu)
Adult dataset
Reinforcement learning
Feature (thuộc tính)
Classification Clustering
● Fraud detection ● Customer clustering ● Game theory
● Email spam detection ● Data visualization ● Autonomous cars
● Diagnostics
● Image classification
Regression Association
● Risk assessment ● Recommendation
● Score prediction System
Supervised learning
Labeled data (dữ liệu có nhãn)
Diabetes dataset
Reinforcement learning
Labeled data (dữ liệu có nhãn)
Diabetes dataset sample
Reinforcement learning
Labeled data (dữ liệu có nhãn)
Diabetes dataset feature
Reinforcement learning
Labeled data (dữ liệu có nhãn)
Diabetes dataset label (target)
Reinforcement learning
Labeled data (dữ liệu có nhãn)
Diabetes dataset feature vector corresponding label (target)
Reinforcement learning
Labeled data (dữ liệu có nhãn) Label/target
vector (y)
Diabetes dataset feature matrix (X)
Reinforcement learning
Model training (Huấn luyện mô hình)
loss
feature vector
Model
prediction label
update
loss
feature matrix
Model ><
prediction label
Loss function (Hàm mất mát)
Ví dụ về mô hình dự đoán giá nhà ở Việt Nam (Đơn vị: Tỉ VND)
loss
Loss function (Hàm mất mát)
L1 loss L2 loss
TRAINING SET
VALIDATION SET
TEST SET
Các bài toán trong Supervised Learning
Binary Classification
● Fraud detection
● Email spam detection
● Diagnostics ● House price estimation
● Stock prediction
● Temperature forecast
Multiclass Classification
● Animals (cat/dog/horse)
● Fruits (apple/orange/lemon)
● Flowers (rose/daisy/sunflower)
Classification
Cách đánh giá mô hình trong Supervised Learning
Classification: dog vs cat
model
label
Classification metrics
dog cat dog dog cat cat dog
Số lượng TP: 3
Classification metrics
dog cat dog dog cat cat dog
Số lượng TP: 3
Số lượng FP: 1
Classification metrics
dog cat dog dog cat cat dog
Số lượng TP: 3
Số lượng FP: 1
Số lượng FN: 2
Classification metrics
dog cat dog dog cat cat dog
Số lượng TP: 3
Số lượng FP: 1
Số lượng FN: 2
Số lượng TN: 1
Metric Công thức Ý nghĩa
Accuracy (TP+TN)/All Độ chính xác tổng quát
05 06 07
Step 5 Step 6 Step 7
Model Model
Model building
evaluation deployment
Xây dựng và huấn
Đánh giá mô hình Triển khai mô hình
luyện mô hình
Step 2: Statistics
Diabetes dataset
Reinforcement learning
Step 2: Statistics
How data looks like
Reinforcement learning
Step 2: Statistics
Check each feature’s data type
Reinforcement learning
(Multi)collinearity
Reinforcement learning
Density Plot
Reinforcement learning
Box Plot
Reinforcement learning
Correlation Matrix Plot
Reinforcement learning
Correlation Matrix Plot
Reinforcement learning
Scatter Matrix Plot
Reinforcement learning
Data visualization with matplotlib
Data visualization with matplotlib
Supervised Learning algorithms
Make vocabulary
Score assignment
CountVectorizer
Text preprocessing
01 02 03 04
1 2 3 4
Remove Remove
Lower text Tokenization
punctuations stopwords
Go and go should Split document into
.,!;?()%@ be the same words/sentences
you, is, the, a, an
05 05
5.1 5.2
learning->learn
cool->cool Stemming Lemmatization
machine->machin
Send = Sent = Better than
Sending Stemming
Bag of words
Document Vocabulary (no stopwords) Bag of words’ vector
This is not a good job. I will ignore it Good, job, not, ignore, take 1,1,1,1,0
N-grams
N-grams
CountVectorizer
Term Frequency-Inverse Document Frequency
Bias
Feature Selection
01 Original features are
maintained
Keep most
important
features
Feature Extraction
02 Features are transformed
to a new space
Curse of Dimensionality
Feature Selection
Feature Selection - Correlation Coefficient
Feature Selection - Variance Threshold
Feature Selection - Lasso (L1)
Feature Selection - RandomForest
Feature Extraction
Feature Extraction - Principle Component Analyst
Variance in data
Covariance vs Correlation
Covariance vs Correlation
PCA: step 1 - Standardize the dataset
PCA: step 2 - Calculate the covariance matrix
PCA: step 3 - Calculate eigenvector and eigenvalue
PCA: step 3 - Calculate eigenvector and eigenvalue
0.161 -0.917
-0.524 0.206
v
-0.585 -0.320
-0.596 -0.115
PCA: step 6 - Transform feature matrix
0.161 -0.917
-0.524 0.206
Nx4 matrix x = Nx2 matrix
-0.585 -0.320
-0.596 -0.115
PCA visualization
Recommendation systems
What is recommendation systems
Types of recommendation systems
Popularity-based recommendation systems
Utility matrix
Kiểm định giả thuyết
Định lý giới hạn trung tâm (Central Limit theorem)
Nếu chọn 1 tập mẫu có kích thước n đủ lớn (n ≥ 30) thì giá trị trung bình của tập mẫu này
sẽ xấp xỉ giá trị trung bình của tập tổng thể. Ngoài ra phân phối của giá trị trung bình
của tập mẫu sẽ tiệm cận phân phối chuẩn, bất kể phân phối của tập tổng thể là gì
Định lý giới hạn trung tâm (Central Limit theorem)
Định lý giới hạn trung tâm (Central Limit theorem)
Tổng quát
Các khái niệm
Theo nghiên cứu thì chiều cao trung bình của người Anh
là 1m75. Đo ngẫu nhiên 50 người Anh bất kì thì thấy
chiều cao trung bình của họ là 1m72. Liệu có thể cho
rằng nghiên cứu bị sai hay không?
kê
ng
hố
pt
há
gpn
ươ
Ph
Vì sao ???
Vì sao không nói là chấp nhận H0 mà lại nói Không đủ cơ sở để bác bỏ H0 ?
𝜃: Số lượng cá thể tôm hùm cây Úc còn tồn tại
H0 : 𝜃 = 0 Tôm hùm cây Úc đã tuyệt chủng
H1/HA: 𝜃 ≠ 0 Tôm hùm cây Úc chưa tuyệt chủng
𝜃: Bị cáo
H0 : Bị cáo vô tội
H1/HA: Bị cáo có tội
Australian Tree Lobsters
Nguyên lý xác suất nhỏ (The principle of small probability)
Nếu một biến ngẫu nhiên có xác suất rất nhỏ thì thực tế có thể cho rằng trong
một phép thử biến đó sẽ không xảy ra.
Phương pháp phản chứng
Để chứng minh 1 mệnh đề A là đúng: Giả sử A không đúng, từ đó suy ra
1 điều vô lý/mâu thuẫn với thực tế
A đúng !
Các quyết định và sai lầm - Part 2
𝞪 : Mức ý nghĩa
1 - 𝛃 : Lực lượng kiểm định
Các bước tiến hành
kiểm định giả thuyết
Bước 1: Thành lập cặp giả thuyết H0 và H1
Bước 2: Chọn 1 thống kê Z có liên quan đến biến X
H0: Tỉ lệ hỏng của 1 lô hàng ≤ 1% => X: Trạng thái của 1 món hàng
H0: Tiền lương TB của nhân viên công ty ABC ≥ 20 triệu => X: Lương của 1 nhân viên
H0: Độ tuổi trung bình của người dân VN = 65 tuổi => X: Tuổi thọ của 1 người Việt Nam
P(Z∊ W𝞪|H0) = 𝞪
Giá trị tới hạn (critical value) mức 𝞪 và 𝞪/2 có thể được kí hiệu là Z𝞪 hay Z𝞪/2
Bước 3: Xác định miền bác bỏ (rejection area) giả thuyết H0
Z𝞪/2 = 1.96
Z𝞪 = 1.65
Z ∊ W𝞪
Kiểm định lệch phải và Z > Z𝞪
Bác bỏ H0
Trường hợp không biết phương sai
của tập đối tượng gốc
Các thay đổi so với Z-test: Tiêu chuẩn kiểm định