Professional Documents
Culture Documents
Generalized Linear Model Presentation
Generalized Linear Model Presentation
PiMA 2021
August 8, 2021
Contents
1 Linear Regression
Định nghĩa
The Mathematics of Data Science
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
GLMs
Linear Regression
Định nghĩa
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
3/42
GLMs
Linear Regression
Định nghĩa
Bài toán. Mối quan hệ giữa điểm trung bình với số học sinh, quỹ
lớp và số tiết học của một lớp là gì?
Y : điểm trung bình của lớp học.
X1 : số học sinh, X2 : quỹ lớp, X3 : số tiết học.
Mô hình:
yi , xi1 , xi2 , xi3 là giá trị của Y , X1 , X2 , X3 khi xét lớp thứ i.
4/42
GLMs
Linear Regression
Định nghĩa
Định nghĩa
The Mathematics of Data Science
5/42
GLMs
Linear Regression
MLE
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
6/42
GLMs
Linear Regression
MLE
Ta quan tâm tới việc chọn β như thế nào thì hợp lí ?
các biến i nhận giá trị càng nhỏ càng tốt → Least Square.
biết phân phối → tối ưu hàm Likelihood (MLE)
Y | X = x ∼ N (β > x, σ 2 )
.
7/42
GLMs
Linear Regression
MLE
Likelihood
The Mathematics of Data Science
Hàm Likelihood:
Y
L(β) = p(yn |xn , β, σ 2 )
n
8/42
GLMs
Linear Regression
MLE
Log-likelihood
The Mathematics of Data Science
Hàm Log-likelihood:
X 1
1 2
>
LL(β) = log √ − 2 yn − β xn
n 2πσ 2 2σ
1 X >
2 n
LL(β) = yn − β xn − log(2π) − n log σ
2σ 2 n 2
9/42
GLMs
Linear Regression
MLE
Ta cần tính
∇β LL(β̂) = 0
Mặt khác
1 > >
∇β LL(β) = − X Xβ − X y
σ2
−1
β̂ = X> X X> y
10/42
GLMs
Generalized Linear Models
Motivation
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
11/42
GLMs
Generalized Linear Models
Motivation
Motivation
The Mathematics of Data Science
Ví dụ 1
Dự đoán mong muốn học tiếp sau đại học của sinh viên Việt Nam
12/42
GLMs
Generalized Linear Models
Motivation
Motivation
The Mathematics of Data Science
Ví dụ 1
Dự đoán mong muốn học tiếp sau đại học của sinh viên Việt Nam
Ví dụ 2
Dự đoán số ca dương tính với Covid-19 tại thành phố Hồ Chí Minh
12/42
GLMs
Generalized Linear Models
Component
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
13/42
GLMs
Generalized Linear Models
Component
14/42
GLMs
Generalized Linear Models
Component
Thành phần
The Mathematics of Data Science
15/42
GLMs
Generalized Linear Models
Component
Exponential family
The Mathematics of Data Science
Trong đó,
θ: natural parameter
φ: dispersion parameter
a(φ), b(θ), c(y , φ) là các hàm cố định.
16/42
GLMs
Generalized Linear Models
Component
Exponential family
The Mathematics of Data Science
Trong đó,
θ: natural parameter
φ: dispersion parameter
a(φ), b(θ), c(y , φ) là các hàm cố định.
Phân phối chuẩn thuộc họ Exponential
!
y µ − 12 µ2 y2 1
f (y ; µ, σ 2 ) = exp 2
− 2
− log(2πσ 2 )
σ 2σ 2
16/42
GLMs
Generalized Linear Models
Component
Random Component
The Mathematics of Data Science
17/42
GLMs
Generalized Linear Models
Component
Linear Predictor
The Mathematics of Data Science
p
X
ηi = β0 + βj xij , i = 1...n
j=1
18/42
GLMs
Generalized Linear Models
Component
Link function
The Mathematics of Data Science
ηi = g (µi )
thỏa mãn hai điều kiện:
Hàm g đơn điệu
Hàm g khả vi
19/42
GLMs
Generalized Linear Models
Component
Tổng kết
The Mathematics of Data Science
Mô hình
1 Y | X = x có phân phối thuộc Exponential family.
2 Y | X = xi có kỳ vọng có liên hệ với biểu thức tuyến tính của
các biến giải thích thông qua hàm liên kết
p
X
g (µi ) = β0 + βj xij = β T xi , i = 1, n.
j=1
20/42
GLMs
Generalized Linear Models
MLE
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
21/42
GLMs
Generalized Linear Models
MLE
General Likelihood
Gọi LL là hàm log-likelihood của phân phối với tham số θ, khi đó
" #
∂LL 2
2
∂LL ∂ LL
E = 0, E +E = 0.
∂θ ∂θ ∂θ
22/42
GLMs
Generalized Linear Models
MLE
Likelihood
Hàm phân phối Y khi biết điều kiện X = xn có dạng như sau
The Mathematics of Data Science
yn θn − b(θn )
f (yn ; θn , φ) = exp + c(yn , φ)
an (φ)
X yn θn − b(θn ) X
LL(β) = + c(yn , φ) = LLn (β)
an (φ)
23/42
GLMs
Generalized Linear Models
MLE
24/42
GLMs
Generalized Linear Models
MLE
Gọi V là ma trận đường chéo của các phương sai quan sát được,
D là ma trận đường chéo của các phần tử ∂µ
∂ηn
n
X> DV−1 (y − µ) = 0
25/42
GLMs
Generalized Linear Models
MLE
Newton-Raphson method
The Mathematics of Data Science
Gọi
g(β) = ∇β LL(β)
là gradient của LL(β),
−1
β (t+1) = β (t) + H(β (t) ) g(t)
26/42
GLMs
Generalized Linear Models
MLE
Fisher-scoring method
The Mathematics of Data Science
. Hay
J = −E[H]
Fisher-scoring method
−1
β (t+1) = β (t) − J (β (t) ) g(t)
27/42
GLMs
Generalized Linear Models
Đánh giá mô hình
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
28/42
GLMs
Generalized Linear Models
Đánh giá mô hình
trong đó, β̂0 kí hiệu là fitted values của tham số trong mô hình
M0 , còn β̂s là fitted tham số trong mô hình saturated.
29/42
GLMs
Generalized Linear Models
Đánh giá mô hình
Ví dụ
Công thức tính sự sai lệch của Poisson distribution.
e −µ µy
p(Y = y ) = .
y!
X
LL(β) = ((yi log(µi ) − µi )
i
Công thức tính sự sai lệch của một số loại phân bố có thể xem ở
bảng sau, trong đó i = 1, 2, . . . , n.
31/42
GLMs
Generalized Linear Models
Đánh giá mô hình
X (yi − µ̂i )2
X2 = ,
V (µ̂i )
trong đó, V (µ̂i ) là hàm ước lượng phương sai cho phân phối được
dùng đến.
32/42
GLMs
Count data
Component
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
33/42
GLMs
Count data
Component
Thành phần
The Mathematics of Data Science
Random Component
Y |X = x tuân theo phân phối Poisson
Linear Predictor
p
X
ηi = θi = log(µi ) = β0 + βj xij
j=1
Link function
Hàm liên kết được sử dụng ở đây còn gọi là Log Function vì
log(µ) = η. Hàm nghịch đảo của nó là: µ = exp(η)
34/42
GLMs
Count data
Đánh giá mô hình
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
35/42
GLMs
Count data
Đánh giá mô hình
The Mathematics of Data Science
Deviance
X
yi
D=2 yi log − (yi − µ̂i ) .
µ̂i
Pearson’s chi-squared
X (yi − µ̂i )2
Xp =
µ̂i
36/42
GLMs
Count data
Ví dụ minh họa
Contents
The Mathematics of Data Science
1 Linear Regression
Định nghĩa
Ước lượng tham số
2 Generalized Linear Models
Motivation
Component
Ước lượng tham số
Đánh giá mô hình
3 Count data
Component
Đánh giá mô hình
Ví dụ minh họa
37/42
GLMs
Count data
Ví dụ minh họa
The Mathematics of Data Science
Bài toán
Từ các thông số về tuổi tác (age), bệnh lý (illness), năng suất
hoạt động (reduced), v.v. của đối tượng được khảo sát, dự đoán số
lần khám bác sĩ của đối tượng trong 2 tuần vừa qua.
38/42
GLMs
Count data
Ví dụ minh họa
The Mathematics of Data Science
Biến y =visits trong dataset trên biểu thị số lần khám bác sĩ
trong 2 tuần vừa qua.
Khảo sát số liệu của biến này, ta thu được:
E(y ) = 0.3, var(y ) = 0.64
39/42
GLMs
Count data
Ví dụ minh họa
The Mathematics of Data Science
Biến y =visits trong dataset trên biểu thị số lần khám bác sĩ
trong 2 tuần vừa qua.
Khảo sát số liệu của biến này, ta thu được:
E(y ) = 0.3, var(y ) = 0.64
40/42
GLMs
Count data
Ví dụ minh họa
The Mathematics of Data Science
41/42
GLMs
Count data
Ví dụ minh họa
References
The Mathematics of Data Science
42/42