You are on page 1of 30

Dự đoán bằng

Hồi quy tuyến tính


Nội dung

• Giới thiệu Mô hình hồi quy


• Giả thiết về dữ liệu
• Ứng dụng
Giới thiệu Hồi quy tuyến tính
• Ví dụ: Hồi quy tuyến tính đơn giản
• Ví dụ: Hồi quy tuyến tính đơn giản
• Ví dụ 2: Hồi quy tuyến tính đơn giản

https://bvag.com.vn/
• Ví dụ 3: Hồi quy tuyến tính đơn giản

https://bvag.com.vn/
https://bvag.com.vn/
 Ví dụ 3

Dữ liệu thu thập được từ chi phí cho quảng cáo và mức
hàng bán được (Hasbro Toys) :
Ad $ Sales (Units)
1 1
2 1
3 2
4 2
5 4

Tìm mối quan hệ (đường thẳng phù hợp


nhất) giữa chi phí quảng cáo và bán hàng?
Biểu đồ
Sales vs. Advertising

Sales
4

0 1 2 3 4 5
Advertising
Đường hồi quy phù hợp với dữ liệu

Sales
4

0 1 2 3 4 5
Advertising

• Phương trình đường thẳng hồi quy?


• Hồi quy tuyến tính đơn giản
• Hồi quy tuyến tính đơn giản
• Đường thẳng phù hợp nhất?
• Đường thẳng phù hợp nhất?
Phương trình Hồi quy tuyến tính
Hồi quy: biến độc lập X, biến phụ thuộc Y.
• Với một ví dụ đầu vào, dự đoán một giá trị đầu ra kiểu số thực
• Một phương pháp học máy đơn-giản-nhưng-hiệu-quả, phù
hợp khi hàm mục tiêu (cần học) là một hàm tuyến tính

 Cần học (xấp xỉ) một hàm mục tiêu f: X → Y


 X: Miền không gian đầu vào (không gian vectơ n chiều, Rn)
 Y: Miền không gian đầu ra (miền các giá trị số thực, R)
 f: Hàm mục tiêu cần học (một hàm ánh xạ tuyến tính)
 Bản chất của bài toán là học một vectơ các trọng số:
w = (w0, w1, w2, …,wn)
Đánh giá lỗi

• Đánh giá mức độ lỗi (sai số) của hệ thống (mô hình hồi
quy) trong giai đoạn huấn luyện.
VD: Đường hồi quy phù hợp với dữ liệu

Sales
4

3 yˆ = −.1 + .7 x
2

0 1 2 3 4 5
Advertising
Các giả thiết về dữ liệu

1. Quan hệ giữa X và Y là quan hệ tuyến tính (linear


relationship)
2. Y có phân bố chuẩn đối với X (is distributed normally at
each value of X)
3. Phương sai không đổi (the variance of Y at every value
of X is the same)
4. Các biến quan sát là độc lập.
Dataset 1: no relationship
Dataset 2: weak relationship
Dataset 3: weak to moderate
relationship
Dataset 4: moderate relationship
The “Best fit” line

Regression
equation:
E(Yi) = 28 + 0*vit
Di (in 10 nmol/L)
The “Best fit” line

Note how the line is


a little deceptive; it
draws your eye,
making the
relationship appear
stronger than it
really is!

Regression
equation:
E(Yi) = 26 + 0.5*vit
Di (in 10 nmol/L)
The “Best fit” line

Regression equation:
E(Yi) = 22 + 1.0*vit
Di (in 10 nmol/L)
The “Best fit” line

Regression equation:
E(Yi) = 20 + 1.5*vit Di
(in 10 nmol/L)

Note: all the lines go


through the point
(63, 28)!
Thực hành và ứng dụng
Q&A

You might also like