You are on page 1of 25

CHƯƠNG 1

CÁC PHƯƠNG PHÁP THỐNG KÊ CƠ BẢN

1.1 Các thông số thực nghiệm

1.1.1 Biến phụ thuộc và biến độc lập

Biến độc lập (independent variable, x) là biến số tác động tới biến số khác (biến phụ
thuộc) trong một mô hình kinh tế. Chẳng hạn, giá hàng hoá là biến số độc lập ảnh hưởng
tới lượng cầu về nó. Vì các nhà kinh tế dùng hàm ngược khi biểu diễn mối quan hệ giữa
biến độc lập và phụ thuộc trên đồ thị, nên biến độc lập thường được ghi trên trục tung.

Biến phụ thuộc (dependent variable, y) là biến số chịu ảnh hưởng của một biến số khác
trong mô hình. Ví dụ, nhu cầu về một hàng hoá bị ảnh hưởng bởi giá cả của nó.

Thông thường người ta đặt biến số phụ thuộc ở về phía trái của phương trình và
biểu thị nó trên trục tung của một đồ thị. Bởi vậy, nếu nhu cầu (NC) là một hàm của giá
hàng hoá (G), thì G là biến độc lập và NC phụ thuộc vào G. Dưới dạng hàm tổng quát,
chúng ta có thể viết: NC=f(G)

Biến độc lập và biến phụ thuộc thế hiện mối quan hệ nhân quả. Biến độc lập giữ vai
trò nguyên nhân còn biến phụ thuộc là kết quả. Do vậy, khi biến độc lập thay đổi thì biến
phụ thuộc thay đổi.

1.1.2 Giá trị trung bình, phương sai, độ lệch chuẩn và sai số chuẩn

Giá trị trung bình mẫu thực nghiệm

Trong thực tế, giá trị thực của đối tượng cần đo là không được biết đến mà được xem như
giá trị trung bình của các lần đo, nên được gọi là Kỳ vọng mẫu thực nghiệm được xác
định bằng giá trị trung bình của các số liệu quan sát của mỗi phép đo.
Phương sai:

Phương sai mẫu thực nghiệm:

Giả sử x , x ,…x là mẫu thực nghiệm của X, khi đó S gọi là phương sai mẫu thực
nghiệm được tính bằng:

Phương sai tái hiện

Giả sử một thí nghiệm được lặp đi lặp lại m lần với giá trị tương ứng thu được là y1 , y2
,...,ym. Phương sai tái hiện của một mẫu thực nghiệm được

Độ lệch chuẩn (Standard deviation): là thước đo mức độ phân tán của các con số trong
bảng thống kê. Trong thực nghiệm, nó cho thấy độ lệch giữa các lần lặp lại hay mức độ
chính xác của thí nghiệm. Đôi khi nó cho thấy sự khác biệt giữa các mẫu thí nghiệm.
Công thức tính độ lệch chuẩn

Trong đó: s=SD: độ lệch chuẩn


N: tổng số mẫu thí nghiệm
xi: kết quả thu được lần thí nghiệm thứ i
x: giá trị trung bình
Độ lệch chuẩn đo tính biến động của giá trị mang tính thống kê. Nó cho thấy sự
chênh lệch về giá trị của từng thời điểm đánh giá so với giá trị trung bình. Nếu sự chênh
lệch không đáng kể thì độ lệch chuẩn và tính biến động ở mức thấp.

Bài tập:

1/ Phân biệt độ lệch chuẩn của cả toàn bộ quần thể (Population Standard Deviation) và
độ lệch chuẩn mẫu (Sample Standard Deviation).

2/ Tính độ lệch chuẩn trong ví dụ sau: Sam có 20 bụi hồng, số lượng bông trên mỗi bụi là
9, 2, 5, 4, 12, 7, 8, 11, 9, 3, 7, 4, 12, 5, 4, 10, 9, 6, 9, 4. Tính độ lệch chuẩn? (kết quả:).

Sam có 20 bụi hồng nhưng chỉ đếm 6 bụi trong số 20 bụi và số lượng bông là như sau: 9,
2, 5, 4, 12, 7. Tính độ lệch chuẩn mẫu?

Sai số chuẩn

- Là tỷ lệ giữa độ lệch chuẩn trung bình mẫu với căn bậc hai của dung lượng mẫu:

- Là thông số thống kê quan trọng để đánh giá mức độ phân tán của mẫu, nó biểu
thị sai số của số trung bình. Sai số ở đây do sự chênh lệch cơ học có hệ thống của số
liệu mà phương thức chọn mẫu là một trong những nguyên nhân chính gây nên.
- Mục đích chính SE là xác định mức độ phân tán của giá trị trung bình mẫu và giới
hạn tin cậy của mẫu thực nghiệm.
1.1.3 Phân tích thống kê cho một tiêu thức định tính

TÌNH HUỐNG 1
Trong một nhà máy bánh kẹo, một máy tự động sản xuất ra các thanh sô cô la với trọng
lượng qui định 250 ± 5 (g). Trong một ngày bộ phân kiểm tra kỹ thuật chọn một mẫu
ngẫu nhiên gồm 10 thanh sô cô la với trọng lượng lần lượt như sau: 242; 244; 252; 248;
256; 231; 24;233; 240;246 (g). Có thể khẳng định máy tự động sản xuất ra các thanh sô
cô la có trọng lượng nhỏ hơn qui định không? Với mức ý nghĩa α=0,05 kiểm định giả
thuyết thống kê tương ứng.

TÌNH HUỐNG 2
Để nâng cao sản lúa giống lúa A1, một phòng thí nghiệm CNSH đã tiến hành chuyển gen
tạo ra giống lúa lai tạo mới A2. 7 hộ nông dân được chọn để tiến hành trồng thử nghiệm
song song hai giống lúa trên, thu được kết quả như sau:
Giống lúa A1: 33,7 35,4 32,7 36,3 37,3 32,4 30,0 (tạ/ha)
Giống lúa A2: 32,4 31,7 34,5 42,0 33,9 38,1 35,0 (tạ/ha)
Với mức ý nghĩa 1% có thể chấp nhận niềm hy vọng đó hay không, biết rằng năng suất
lúa là một biến ngẫu nhiên có phân phối chuẩn.

TÌNH HUỐNG 3
Lea (1965) đã đưa ra thảo luận về nhiệt độ trung bình hằng năm và số bệnh nhân nữ chết
do ung thư vú. Dư liệu (được thể hiện ở bảng 2.1) được lấy từ nước Anh, Na Uy và Thụy
Điển bao gồm nhiệt độ trung bình hằng năm (ở độ F, Temperature, T) và tỷ lệ tử vong do
ung thư vú ở phụ nữ (Mortality index,M).

Bảng 2.1 Bảng dữ liệu về tỉ lệ tử vong do ung thư vú

Có thể đưa kết luận về mối tương quan giữa nhiệt độ và tỉ lệ tử vong do ung thư vú ở phụ
nữ hay không?
1.1.3.1 Kiểm định giả thuyết thống kê

Có 6 bước để kiểm định giả thuyết thống kê


Bước 1: Thành lập giả thuyết muốn kiểm định (gọi là giả thuyết không, ký hiệu Ho)
Ví dụ : Ho: μ = μo hoặc Ho: μ ≥ μo hoặc Ho: μ ≤ μo
Bước 2: Thành lập giả thuyết ngược lại. Việc bác bỏ giả thuyết không sẽ dẫn đến việc
chấp nhận giả thuyết ngược lại. Giả thuyết ngược lại thường được ký hiệu là H1.
Ví dụ: Kiếm định giả thuyết Ho: μ ≥ μo Với H1: μ < μo
Kiếm định giả thuyết Ho: μ ≤ μo Với H1: μ > μo
Kiếm định giả thuyết Ho: μ = μo Với H1: μ # μo
Bước 3: Chọn mức ý nghĩa α
Bước 4: Chọn các tham số thống kê thích hợp cho việc kiếm định và xác định các miền
bác bỏ, miền chấp nhận và giá trị giới hạn.
Bước 5: Tính toán các giá trị của các tham số thống kê trong việc kiểm định dựa trên số
hiệu của mẫu ngẫu nhiên.
Bước 6: Ra quyết định: Nếu các giá trị tính toán rơi vào miền bác bỏ Ho thì ra quyết định
bác bỏ Ho. Ngược lại sẽ chấp nhận Ho.
Công thức tính các tham số và xác định miền bác bỏ như sau:
Giả sử ta có mẫu ngẫu nhiên cỡ mẫu là n được lấy từ tập hợp chính tuân theo phân phối
chuẩn có số trung bình là µ. Gọi X và  là số trung bình mẫu và độ lệch chuẩn, ta sẽ có 3
trường hợp kiểm định µ với mức ý nghĩa α.
Zα được tra theo bảng Laplace. Các tra bảng như sau:

Kiểm định thống kê thuộc trường hợp 1 và 2:

Kiểm định thống kê thuộc trường 3:

Ví dụ: Quay lại Tình huống 1

1. Giả thuyết Ho: Thanh socola không nhỏ hơn quy định μ ≥ μo= 250 ± 5 (g)

2. Giả thuyết H1: Máy sản xuất thanh socola nhỏ hơn quy định: μ < μo

 trường hợp 1

3. Giá trị trung bình đo được là: 243.4 (g)

Độ lệch chuẩn:  = 5

4. Mức ý nghĩa α=0.05, tra bảng Laplace có: φ (1,645)=1/2-0.05=0.45 Z=1,645

5. Từ công thức tính Ztt= -4.094 < -Zα= -1,64

6. Ra quyết định: Bác bỏ giả thuyết Ho ở mức ý nghĩa 5%. Nghĩa là: máy tự động sản
xuất sô cô la có trọng lượng nhỏ hơn qui định ⇒ Phải điều chỉnh lại máy.

Bài tập:

1. Một máy khoan trong dây chuyền sản xuất dùng để khoan lỗ trên các bản thép. Khi
máy khoan hoạt động đúng chức năng thiết kế đường kính các lỗ khoan sẽ tuân theo phân
phối chuẩn với số trung bình là 2 inches và độ lệch chuẩn là 0,06 inches. Trong quá trình
kiểm tra định kỳ xem máy khoan có hoạt động đúng hay không, người ta lấy đo ngẫu
nhiên các lỗ đã khoan. Giả sử độ lệch chuẩn không thay đổi. Mẫu ngẫu nhiên gồm 9 lỗ
khoan cho ta đường kính trung bình của mẫu là 1,95 inches.

Kiểm định giả thuyết Ho : số trung bình của tập hợp chính là 2 inches.

Với H1 : số trung bình của tập hợp chính khác 2 inches


1.1.3.2 Kiểm định t-test

T test dùng để kiểm định giá trị trung bình của biến định lượng (biến phụ thuộc) có khác
nhau ý nghĩa giữa 2 biến định tính (biến độc lập) hay không.
Điều kiện để áp dụng kiểm định T Test
Để có thể sử dụng kiểm định Paired-Sample T Test, cần đảm bảo các tiêu chí sau:
Kích cỡ 2 mẫu so sánh phải bằng nhau
Chênh lệch giữa các giá trị của 2 mẫu phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn
để xem như xấp xỉ phân phối chuẩn.
Dữ liệu của mẫu thu thập ở dạng thang đo định lượng Ordinal hoặc Scale. Quá trình kiểm
định sẽ bắt đầu với việc tính toán chênh lệch giá trị trên từng cặp quan sát bằng phép trừ
sau đó kiểm nghiệm xem chênh lệch trung bình của tổng thể có = 0 không, nếu = 0 tức là
không có khác biệt. Lợi ích của phép kiểm định mẫu phối hợp từng cặp là loại trừ được
những yếu tố tác động bên ngoài vào nhóm thử.
Các bước khi thực hiện phân tích T-Test bao gồm:

 Bước 1: Đặt giả thuyết Ho: “Không có sự khác nhau về trị hai trung bình tổng
thể”, tức là khác biệt giữa 2 trung bình là bằng 0.
 Bước 2: Thực hiện kiểm định T-Test .
 Bước 3: So sánh giá trị sig của kiểm định t được xác định ở bước 2 với 0.05 (mức
ý nghĩa 5% = 0.05 | độ tin cậy 95%)
o Nếu sig > 0.05 thì ta chấp nhận giả thuyết Ho. Nghĩa là trung bình 2 tổng
thể là bằng nhau, không có sự khác biệt.
o Nếu sig < 0.05 thì ta bác bỏ giả thuyết Ho. Nghĩa là có khác biệt trung
bình 2 tổng thể.

Kiểm định Paired-Sample T Test

 Kiểm định Paired-Sample T Test hay còn gọi là kiểm định giả thuyết về trị trung
bình của 2 tổng thể phụ thuộc dùng để so sánh hai trị trung bình của 2 nhóm tổng
thể riêng biệt.

 Sử dụng kiểm định Paired-Sample T Test trong trường hợp nào? Phương pháp
kiểm định này rất thích hợp với dạng thử nghiệm trước và sau.

 Ví dụ: Công ty thử nghiệm việc thay đổi bao bì sản phẩm mới để xem phản ứng
của một nhóm người dùng trước và sau thay đổi có sự khác biệt như thế nào.

 Ví dụ: Tình huống 2

Kiểm định One-Sample T-Test


Nhằm mục đích so sánh trung bình (mean) của tổng thể với một giá trị cụ thể nào đó.
Chẳng hạn như kiểm tra xem điểm trung bình kỳ thi cuối kỳ của học sinh trong lớp là cao
hơn, thấp hơn hay bằng 8 điểm; kiểm tra xem chiều cao trung bình của các ứng viên tham
dự cuộc thi Hoa hậu Hoàn Vũ là cao hơn, thấp hơn hay bằng 1,7 mét,..v…v…

Independent Samples T-Test

Dùng để kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập, ví dụ: Tình huống
2, nhưng 5 hộ nông dân được giao để trồng giống A1 (đối chứng) và 5 hộ nông dân khác
được chọn để trồng giống A2.

Dùng tương tự như phân tích ANOVA, tuy nhiên hạn chế là chỉ so sánh được 2 nhóm với
nhau. Ví dụ dùng so sánh có sự khác biệt giữa các nhóm giới tính( nam, nữ) với sự hài
lòng (thang đo là 5 điểm) hay không.

1.1.3.2 Kiểm định ANOVA

Phân tích ANOVA 1 chiều (one-way ANOVA)

Trong nhiều trường hợp cần so sánh giá trị trung bình về một chỉ tiêu nghiên cứu nào đó
giữa hai hoặc nhiều đối tượng. Có 2 biến tham gia trong một phép kiểm định trung
bình: một biến định tính (biến độc lập) có nhiều nhóm giá trị để so sánh và một biến định
lượng (biến phụ thuộc) để tính trung bình.

Ví dụ: So sánh hoạt độ trung bình (biến định lượng) của enzyme amylase từ các chủng vi
sinh vật khác nhau (biến định tính) có sự khác biệt hay không?

Điều kiện và các bước thực hiện tương tự t-test

Tuy nhiên, kiểm định Anova yêu cầu là không có sự khác biệt phương sai giữa các biến
định tính. Trường hợp sig Levene Statistic (kiểm định phương sai) nhỏ hơn 0.05, giả
thuyết phương sai đồng nhất giữa các nhóm giá trị biến định tính đã bị vi phạm. Nghĩa là
phương sai giữa các nhóm bộ phận làm việc là không bằng nhau. Chúng ta không thể sử
dụng bảng ANOVA mà sẽ đi vào kiểm định Welch cho trường hợp vi phạm giả định
phương sai đồng nhất.

Phân tích ANOVA 2 chiều (two-way ANOVA) được sử dụng để kiểm chứng sự khác
nhau về giá trị trung bình của biến phụ thuộc theo các nhóm của 2 biến độc lập. Mục đích
chính của phân tích ANOVA 2 chiều là xác định sự tương tác của 2 biến độc lập, cũng
như tác động riêng rẻ của chúng lên biến phụ thuộc.
Chẳng hạn, một công ty nghiên cứu thị trường muốn so sánh độ bền (nghìn km) của 3
nhãn hiệu vỏ xe ô tô (X, Y, Z) trên 3 loại bề mặt đường khác nhau (Rải nhựa, Xi măng và
bề mặt sỏi đá). Các mẫu được chọn theo phương pháp ngẫu nhiên (4 mẫu cho 1 nhãn
hiệu). Các mẫu được chọn được kiểm tra độ bền bằng một loại máy mô phỏng trên các bề
mặt tương ứng. Kết quả được thể hiện như bảng bên dưới.

1.2 Phân tích hồi quy và tương quan


TÌNH HUỐNG DẪN NHẬP

Tên tình huống: Phân tích thị trường xe máy. Giả sử bạn đang nghiên cứu về vấn đề
mua bán xe máy Honda Wave đã qua sử dụng. Bạn nhận thấy giá bán của chiếc
xe do rất nhiều nhân tố quyết định. Đó có thể là số năm sử dụng xe, màu sắc, đối
tượng mua, đối tượng bán, thậm chí cả nhu cầu mua, nhu cầu bán cũng có ảnh
hưởng đến giá cả của nó... Bạn thực hiện một điều tra thống kê trên 11 chiếc xe để tìm
hiểu mối liên hệ giữa các nhân tố ảnh hưởng và giá bán của nó. Số liệu cho thấy, dường
như đúng là có mối liên hệ giữa các nhân tố nêu trên với giá của chiếc xe. Nhưng bạn lại
không biết biểu diễn mối liên hệđó như thế nào.

1.2.1 Nhiệm vụ của phân tích tương quan hồi quy


Liên hệ tương quan
ệm: Liên hệ tương quan là mối liên hệ không hoàn toàn chặt chẽ. Sự thay
đổi của hiện tượng này có thể làm hiện tượng liên quan thay đổi theo nhưng không
có ảnh hưởng hoàn toàn quyết định. Mối liên hệ này rất phổ biến và thường gặp.

ặc điểm: Liên hệ tương quan không được biểu hiện trên từng đơn vị cá biệt mà
phải thông qua hiện tượng số lớn (là tổng thể).
Ví dụ: Mối liên hệ giữa tuổi nghề và NSLĐ. Tuổi nghề có tác động đến NSLĐ
nhưng NSLĐ không chỉ chịu ảnh hưởng của tuổi nghề mà còn chịu ảnh hưởng của
các nhân tố khác. Mặt khác, nếu nghiên cứu riêng lẻ từng đơn vị cá biệt, có những
đơn vị, tuổi nghề hoàn toàn không ảnh hưởng tới NSLĐ. Vì vậy, để có thể nêu lên
được mối liên hệ tương quan cần phải nghiên cứu hiện tượng số lớn.

Nhiệm vụ của phân tích hồi quy và tương quan

Phương pháp phân tích hồi quy và tương quan giải quyết hai nhiệm vụ chủ yếu sau:
1.2.1.1. Xác định mô hình hồi quy phản ánh mối liên hệ
Nhiệm vụ đầu tiên của phân tích hồi quy tương quan là xây dựng mô hình (hay
phương trình) hồi quy và xác định tính chất (thuận – nghịch) cũng như hình thức của mối
liên hệ (loại mô hình).

Để giải quyết nhiệm vụ này, cần phải thực hiện 4 bước sau:
Bước 1: Giải thích sự tồn tại thực tế và bản chất của mối liên hệ bằng phân tích lý
luận. Tuỳ theo mục đích nghiên cứu cụ thể mà xác định trong mối liên hệđó, đâu
là nguyên nhân, đâu là kết quả. Ví dụ: Tuổi nghề có ảnh hưởng tới NSLĐ. Như vậy, tuổi
nghề là nguyên nhân có ảnh hưởng đến NSLĐ. Nhưng nếu xét trong mối liên hệ với khối
lượng sản phẩm sản xuất và giá thành đơn vị, ta thấy: NSLĐ tăng dẫn tới khối lượng sản
phẩm sản xuất tăng. Khi đó, NSLĐ lại là nguyên nhân, khối lượng sản phẩm là kết quả.
Khi khối lượng sản phẩm sản xuất tăng thì giá thành giảm. Khối lượng sản phẩm sản xuất
lại đóng vai trò là nguyên nhân, giá thành là kết quả.
Ví dụ: Mối liên hệ giữa chi phí quảng cáo và doanh thu. Khi nghiên cứu các nhân tố
tác động đến doanh thu thì chi phí quảng cáo là một nguyên nhân. Nhưng khi nghiên
cứu nhân tố tác động đến chi phí quảng cáo thì doanh thu cũng lại là một nguyên nhân.
Trong trường hợp này phải chú ý đến mục đích nghiên cứu là gì để xác định đâu là tiêu
thức nguyên nhân, đâu là tiêu thức kết quả. Trong mối liên hệ này, có thể có nhiều
nguyên nhân nhưng chỉ có một kết quả.
Bước 2: Thăm dò mối liên hệ bằng các phương pháp thống kê: phương pháp đồ thị,
phân tổ, số bình quân, phương pháp quan sát 2 dãy số song song…
Bước 3: Lập phương trình hồi quy biểu hiện mối liên hệ.
Ví dụ: Các phương trình y = a + bx; y = a + bx + cx …
Bước 4: Tính toán các tham số và giải thích ý nghĩa của chúng.

1.2.2.2. Đánh giá mức độ chặt chẽ của mối liên hệ tương quan
Sau khi đã xây dựng được phương trình hồi quy biểu diễn mối liên hệ giữa các hiện
tượng kinh tế – xã hội, nhiệm vụ thứ hai của phân tích hồi quy tương quan là đánh giá
mức độ chặt chẽ của mối liên hệ tương quan và sự phù hợp của mô hình thông qua hệ số
tương quan (tuyến tính) và tỷ số tương quan (phi tuyến tính).

1.2.3. Ý nghĩa của phân tích hồi quy và tương quan


Phân tích hồi quy và tương quan là phương pháp thường được sử dụng để nghiên cứu
mối liên hệ tương quan giữa các hiện tượng, các đối tượng. Bên cạnh đó, nó còn được sử
dụng nhiều trong nghiên cứu thống kê, như phân tích dãy số thời gian, dự đoán thống
kê...

Trong phần tiếp theo, bài giảng sẽ đi vào trình bày cách thức xây dựng và phân tích
một mô hình hồi quy thể hiện mối liên hệ giữa một tiêu thức nguyên nhân và một tiêu
thức kết quả.

1.3. Hồi quy và tương quan giữa hai tiêu thức số lượng
Trước hết là dạng mô hình đơn giản nhất, mô hình hồi quy tuyến tính.

1.3.1. Mô hình hồi quy tuyến tính giữa hai tiêu thức số lượng
1.3.1.1. Mô hình hồi quy
Trước khi đi vào xây dựng mô hình hồi quy, chúng ta hãy xem xét một số khái niệm có
liên quan.

ột số khái niệm liên quan


o Đường hồi quy thực nghiệm: là đường được hình thành bởi các tài liệu thực tế.
o Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ các chênh lệch ngẫu nhiên
vạch ra xu hướng cơ bản của hiện tượng.
1.3.1.2 Hệ số tương quan
1.3.1.3 Hệ số xác định
1.3.1.4 Kiểm định các tham số của phương trình hồi quy tuyến tính
1.3.2. Mô hình hồi quy phi tuyến giữa hai tiêu thức số lượng
1.3.2.1 Một số mô hình hồi quy phi tuyến thường gặp
1.3.2.2 Tỷ số tương quan

You might also like