Modeling - Linear Regression

Problems: modeling
Data
Bộ data thể hiện sự ảnh hưởng đến doanh số bán hàng từ việc chạy quảng cáo trên ba phương tiện bao gồm:
youtube, facebook và báo chí. Dữ liệu là ngân sách quảng cáo và doanh số bán hàng (đơn vị tính: nghìn đô la).
Thử nghiệm quảng cáo đã được lặp lại 200 lần với các ngân sách khác nhau và doanh số bán hàng quan sát
được. Từ đó dự đoán doanh số trong tương lai đưa trên ngân sách dự chi cho youtube.
Source: https://github.com/kassambara/datarium/blob/master/data/marketing.rda
Formula
Phương trình toán học của hồi quy tuyến tính có thể được viết như sau:
y = b0 + b1*x1 + b2*x2 + ... + bn*x n + e
• y là biến phụ thuộc (được dự đoán),

• x là biến dự đoán (biến độc lập),
• b0 là hệ số chặn (intercept),
• b1, b2,… bn là hệ số tương ứng với biến dự đoán x 1, x2,… xn
• e là sai số (residual errors) hay sai số phần dư, đó là phần của y có thể được giải thích bởi mô hình
hồi quy.
Hình dưới đây mô tả một mô hình hồi quy tuyến tính đơn giản, trong đó:
Đường hồi quy tốt nhất được biểu diễn bằng màu xanh lam.
Hệ số chặn (b0) và hệ số góc (b1) được biểu diễn bằng màu xanh lá cây.
Sai số (e) được biểu diễn bằng các đường dọc màu đỏ.
Package và load data
install.packages("tidyverse")
Xử lý và trực quan hóa dữ liệu dễ dàng, tidyverse là một gói công cụ rất hữu ích. Nó cung cấp một tập hợp các
gói phổ biến như dplyr, ggplot2 và tidyr, cho phép thao tác và biến đổi dữ liệu một cách dễ dàng và hiệu quả.
Tidyverse hỗ trợ việc lọc, sắp xếp, tổng hợp, biến đổi và tạo ra các biểu đồ đẹp từ dữ liệu.
install.packages("caret")
Cung cấp các chức năng để chuẩn bị dữ liệu, chia dữ liệu thành tập huấn luyện và tập kiểm tra, chọn mô hình,
điều chỉnh tham số và đánh giá hiệu suất mô hình. Caret giúp tạo ra quy trình máy học mượt mà và tiết kiệm
thời gian, đồng thời cung cấp các công cụ đánh giá và tối ưu hóa mô hình.
Chúng ta sẽ chia dữ liệu thành hai phần ngẫu nhiên là tập huấn luyện (80% để xây dựng mô hình dự đoán) và
tập kiểm tra (20% để đánh giá mô hình). Đảm bảo thiết lập một số ngẫu nhiên (seed) để có thể tái tạo lại kết
quả.
Visualzation
- Tạo biểu đồ phân tán, hiển thị doanh số bán hàng so với ngân sách quảng cáo youtube.
- Để thêm đường hồi quy vào biểu đồ phân tán, ta sử dụng hàm stat_smooth() [ggplot2]. Theo
mặc định, đường thẳng được trình bày với khoảng tin cậy xung quanh nó. Các dải tin cậy thể hiện
vùng không chắc chắn về đường thẳng. Nếu không muốn hiển thị thì ta dùng tùy chọn se = FALSE
trong hàm stat_smooth().
ggplot(marketing, aes(x = youtube, y = sales)) +

geom_point() + stat_smooth()
ggplot(marketing, aes(x = facebook, y = sales)) +

ggplot(marketing, aes(x = newspaper, y = sales)) +

Biểu đồ trên cho thấy mối quan hệ tăng tuyến tính giữa doanh số bán hàng và các biến youtube. Đây là một
điều tốt, bởi vì, một giả định quan trọng của hồi quy tuyến tính là mối quan hệ giữa kết quả và các biến dự báo
là tuyến tính và cộng gộp.
Training
PHƯƠNG TRÌNH HỒI QUY TUYẾN TÍNH ĐA BIẾN

Hồi quy tuyến đa biến là một sự mở rộng của hồi quy tuyến tính đơn giản để dự đoán một biến kết quả (y)
(doanh số bán hàng) dựa trên nhiều nhân tố dự đoán khác nhau (ngân sách quảng cáo trên các kênh truyền
thông).
Phương trình mô hình tuyến tính có thể được viết như sau:
y = b0 + b1*x1 + b2*x2 + ... + bn*x n + e
sales = b0 + b1* youtube + b2*facebook + b3*newspaper + e
Hàm lm() có thể được sử dụng để xác định các hệ số beta của mô hình tuyến tính:
Ước lượng (Estimate): Giá trị giao cắt trục (b0) và hệ số ước lượng beta của mỗi biến dự đoán.
Sai số chuẩn (Std.Error): Độ sai số chuẩn của hệ số ước lượng. Đây là chỉ số giúp đánh giá độ chính xác của các
hệ số. Sai số chuẩn càng lớn, chúng ta càng nghi ngờ vào ước lượng đó.
T-value: được sử dụng trong kiểm định t để xác định xem nên ủng hộ hay bác bỏ giả thuyết vô hiệu.
Pr(>|t|): Giá trị p tương ứng với t-value. p-value càng nhỏ, ước lượng càng có ý nghĩa thống kê.
Thực hiện dự đoán trên một mô hình học máy đã được huấn luyện trước.
Diagnose
Kiểm định mô hình
Kết quả cho thấy p-value của F-statistic < 2.2e-16, đây là một giá trị rất đáng kể. Điều này có nghĩa là ít nhất một
trong các biến dự đoán có mối quan hệ đáng kể với biến kết quả.
Chỉ sử dụng các biến dự đoán youtube và facebook, RSE (residual standard error) = 2,043, nghĩa là doanh số
bán hàng quan sát sai lệch trung bình khoảng 2,043 đơn vị so với giá trị dự đoán.
R2 điều chỉnh (The adjusted R2 ) là 0.89 -> tốt.
Kiểm định ý nghĩa của các biến dự đoán
Có thể thấy, thay đổi ngân sách quảng cáo youtube và facebook có liên quan đáng kể đến doanh số bán hàng.
Trong khi đó, thay đổi ngân sách báo chí không liên quan nhiều đến doanh số bán hàng. Ta loại bỏ biến báo chí
ra khỏi mô hình hồi quy.
Chuẩn hoá mô hình hồi quy bội

sales = 3.65+ 0.045*youtube + 0.19*facebook.
Nếu chúng ta chạy chiến dịch quảng cáo trên số lượng 1000 lượt và giá một quảng cáo youtube 2000 đô
la/facebook là 1000 (đô la) thì doanh số bán hàng kỳ vọng đạt được:
sales = 3.65+ 0.045*2000 + 0.19*1000= 238.65 (nghìn đô la)
Predict
Tiến hành dự đoán sử dụng dữ liệu kiểm tra để đánh giá hiệu suất của mô hình hồi quy như sau:
- Dự đoán giá trị doanh số dựa trên ngân sách quảng cáo mới trong dữ liệu kiểm tra.
- Đánh giá hiệu suất mô hình bằng cách:
o Dự đoán sai số RMSE (Root Mean Squared Error), đại diện cho sự khác biệt trung bình giữa các giá trị
kết quả quan sát được trong dữ liệu kiểm tra và các giá trị kết quả được dự đoán bởi mô hình. Giá trị
RMSE càng thấp, mô hình càng tốt.
o Hệ số R2, đại diện cho mối tương quan giữa các giá trị kết quả quan sát được và các giá trị kết quả được
dự đoán. Giá trị R2 càng cao, mô hình càng tốt.
[1] 1.949125
[1] 0.9069336
=> Mô hình tốt
Assess
Chạy lại mô hình dự đoán
Gần giống với kết quả hồi quy: sales = 3.65+ 0.045*2000 + 0.19*1000= 238.65 (nghìn đô la)

Modeling - Linear Regression

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modeling - Linear Regression

Uploaded by

Copyright:

Available Formats

Problems: modeling

y = b0 + b1x1 + b2x2 + ... + bn*x n + e

• y là biến phụ thuộc (được dự đoán),

ggplot(marketing, aes(x = youtube, y = sales)) +

ggplot(marketing, aes(x = facebook, y = sales)) +

ggplot(marketing, aes(x = newspaper, y = sales)) +

PHƯƠNG TRÌNH HỒI QUY TUYẾN TÍNH ĐA BIẾN

y = b0 + b1x1 + b2x2 + ... + bn*x n + e

sales = b0 + b1* youtube + b2facebook + b3newspaper + e

R2 điều chỉnh (The adjusted R2 ) là 0.89 -> tốt.

Kiểm định ý nghĩa của các biến dự đoán

Chuẩn hoá mô hình hồi quy bội

sales = 3.65+ 0.0452000 + 0.191000= 238.65 (nghìn đô la)

- Đánh giá hiệu suất mô hình bằng cách:

=> Mô hình tốt

Chạy lại mô hình dự đoán

You might also like