You are on page 1of 253

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘ T

KHOA KINH TẾ

BÀI GIẢNG:

NGUYÊN LÝ THỐNG


KÊ KINH TẾ

GV: ThS. Nguyễn Thị Thanh Hoa


Nội dung môn học

Kiến thức nền tảng: LT xác suất và thống kê


Nội dung môn học:
Chương 1: Những vấn đề cơ bản về thống kê kinh tế
Chương 2: Thu thập và trình bày dữ liệu thống kê
Chương 3: Mô tả dữ liệu bằng các đặc trưng đo lường
Chương 4: Ước lượng và khoảng tin cậy
Chương 5: Kiểm định giả thiết
Chương 6: Phân tích phương sai
Chương 7: Tương quan và hồi quy
Giáo trình – Tài liệu tham khảo

1. Nguyên lý thống kê kinh tế – Hà Văn Sơn – NXB


Thống Kê.
2. Lý thuyết thống kê – Trần Ngọc Phác & Trần Thị Kim Thu
– NXB Thống Kê.
3. Thống kê ứng dụng trong kinh tế xã hô ̣i – Hoàng Trọng &
Chu Nguyễn Mô ̣ng Ngọc – NXB Thống Kê.
4. Xử lý dữ liệu nghiên cứu với SPSS - Hoàng Trọng - NXB
thống kê.
5. Statistics for Business and Economics - Paul Newbold -
Prentice Hall International.
Cách đánh giá môn học

- 30% kiểm tra trên lớp


+ Thực hành nhóm
+ Bài tâ ̣p cá nhân

- 70% điểm kiểm tra kết thúc học phần


CHƯƠNG I

1 Khái quát về thống kê

2 Một số khái niệm

3 Quá trình nghiên cứu thống kê

4 Các loại thang đo


1. Khái quát về thống kê

Thống kê

Số liệu được Hệ thống các


thu thập để phương pháp
phản ánh các được sử dụng
hiện tượng để nghiên cứu
kinh tế- xã các hiện tượng
hội, tự nhiên, kinh tế - xã hội,
kỹ thuật tự nhiên kỹ
thuật.
1. Khái quát về thống kê

Thống kê là hệ thống các phương pháp dùng để


thu thập, xử lý và phân tích các con số (mặt
lượng) của hiện tượng số lớn nhằm tìm hiểu bản
chất và tính quy luật vốn có của chúng (mặt chất)
trong điều kiện thời gian và không gian cụ thể.
Ví dụ:
Thống kê tình hình sản xuất kinh doanh của công
ty: mỗi tháng bán được bao nhiêu sản phẩm,
doanh thu, lợi nhuận hàng tháng là bao nhiêu?
Thống kê về số tân sinh viên đậu vào các ngành
của 1 trường đại học/cao đẳng…
1. Khái quát về thống kê

Nhiê ̣m vụ của thống kê:


• Cung cấp số liệu cần thiết cho việc xây dựng
các kế hoạch và chương trình phát triển kinh
tế – xã hội của doanh nghiệp, ngành, địa
phương và cả nước, kiểm tra, đánh giá việc
thực hiện kế hoạch qua từng thời kỳ.

• Đảm bảo thông tin tuyên truyền.

• Phản ánh trung thực về các hiện tượng kinh


tế, chính trị, xã hội, nhằm phục vụ tốt cho sự
lãnh đạo và quản lý.
1. Khái quát về thống kê

Thống kê

Thống kê mô tả: Thống kê suy diễn:


Gồm các Gồm các phương
phương pháp thu pháp như ước
thập số liệu, mô lượng, kiểm định,
tả và trình bày số phân tích mối liên
liệu, tính toán hệ, dự đoán.. trên
các đặc trựng đo cơ sở các thông tin
lường. thu thập từ mẫu.
2. Mô ̣t số khái niêm
̣

Tổng thể: tập hợp tất cả các phần tử/đơn vị cần
quan sát, nghiên cứu/phân tích. Phần tử cấu tạo
nên tổng thể gọi là đơn vị tổng thể.

Mẫu: Một số đơn vị được chọn ra từ tổng thể theo
một phương thức nào đó.
2. Mô ̣t số khái niêm
̣

Biến: Đặc điểm của đơn vị tổng thể

Chỉ tiêu thống kê: Tiêu chí mà biểu hiện bằng số


của nó phản ánh quy mô, tốc độ phát triển, cơ
cấu, quan hệ tỷ lệ của hiện tượng kinh tế - xã
hội trong điều kiện không gian và thời gian cụ thể.
2. Mô ̣t số khái niêm
̣

Tổng thể

Tiềm ẩn Đồng Không


Bô ̣c lô ̣ chất đồng chất
2. Mô ̣t số khái niêm
̣

Ngẫu nhiên
Mẫu
Không ngẫu nhiên

Định tính: phản ánh tính chất,


Biến không biểu hiê ̣n bằng số.
Định lượng: biểu hiê ̣n bằng số
(rời rạc/liên tục)
2. Mô ̣t số khái niêm
̣

• Chỉ tiêu khối lượng: là chỉ tiêu biểu hiện quy


mô, khối lượng của hiện tượng nghiên cứu.
Vd: Số sinh viên tại một trường đại học, số
công nhân trong một doanh nghiệp…
Chỉ tiêu

• Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện trình


độ phổ biến, mối quan hệ của tổng thể như:
mức lương công nhân, năng suất lao động,
giá thành đơn vị sản phẩm, …
3. Quá trình nghiên cứu thống kê

1 - Xác định mục đích, đối tượng,


nội dung nghiên cứu
2 – Xây dựng hệ thống chỉ tiêu
thống kê
3 - Điều tra thống kê

4 - Tổng hợp thống kê

5 – Phân tích và dự báo

6 – Báo cáo, giải thích và truyền


đạt kết quả nghiên cứu.
4. Các loại thang đo

Thang đo định danh: dùng cho các biến định tính,


dùng số để biểu hiện các thuộc tính giống nhau
nhưng những số này không biểu hiện quan hệ hơn
kém, cao thấp.

Thang đo thứ bâ ̣c: Đây là thang đo định danh


nhưng giữa các biểu hiện của tiêu thức có quan hệ
hơn kém, cao thấp
4. Các loại thang đo

Thang đo khoảng: Là thang đo thứ bậc có các


khoảng cách đều nhau nhưng không có  giá trị “0”
thực (các phép tính cộng/trừ có ý nghĩa, nhưng tỉ
số không có nghĩa)..
Thang đo tỷ lê ̣: Là thang đo khoảng có giá trị “0”
thực.
4. Các loại thang đo

Ví dụ:
1. Biến giới tính: nhận giá trị 1 nếu là nam và nhận
giá trị 0 nếu là nữ (mặc dù “0 < 1” nhưng ta không
thể so sánh trong trường hợp này là “nữ <
nam”) thang đo định danh.
2. Biến sự hài lòng của sinh viên với giảng viên:
1. Rất không hài lòng
2. Không hài lòng
3. Hài lòng
4. Rất hài lòng
Giá trị số ở đây cũng dùng để đo lường thuộc tính
và có thể so sánh với nhau  thang đo thứ bâ ̣c.
4. Các loại thang đo

Ví dụ:
3. Biến nhiệt độ: có thể nhận giá trị 0oC nhưng điều
này không có nghĩa là không có nhiệt độ 
thang đo khoảng.
4. Thang đo tỷ lệ được sử dụng rất rộng rãi để đo
lường các hiện tượng kinh tế - xã hội, như: thu
nhập, chi tiêu, thời gian lao động, tuổi, số con ... 
**** Thảo luâ ̣n

Chia nhóm:
1. Xác định 1 vấn đề cần nghiên cứu và nêu mục
đích nghiên cứu, xác định tổng thể, mẫu.

2. Xác định những biến cần quan sát và cho biết


biến sử dụng là định tính/định lượng (liên tục/rời
rạc)? Sử dụng loại thang đo nào?
**** Thảo luâ ̣n

Ví dụ:
Nghiên cứu về ảnh hưởng của việc tham gia
công tác Đoàn/Hội đến kết quả học tập của sinh
viên để biết liệu việc tham gia những công tác
này có ảnh hưởng đến kết quả học tập hay
không.

Biến cần thu thập:

1. Có tham gia công tác Đoàn/Hội hay không


Trả lời: 1 (có) 2 (không)
 Biến định tính, thang đo định danh
**** Thảo luâ ̣n

2. Viê ̣c tham gia có thường xuyên hay không?


Trả lời:
1 – không bao giờ
2 – hiếm khi
3 – thỉnh thoảng
3 – thường xuyên
 Biến định tính, thang đo thứ bậc

3. Thời gian tham gia trong một tuần?


 Biến định lượng, thang đo tỉ lệ
**** Thảo luâ ̣n

4. Mục đích tham gia của anh/chị là:


1 – Có sân chơi lành mạnh
2 – Có thêm kiến thức xã hội
3 – Rèn luyện kỹ năng mềm (giao tiếp, thuyết
trình, …)
4 – Mục đích khác (ghi rõ)

 Biến định tính, thang đo định danh


CHƯƠNG II

1 Xác định dữ liệu cần thu thập


2 Sai số thống kê
3 Lý thuyết phân tổ
4 Bảng dữ liệu

5 Các loại biểu đồ


1. Xác định dữ liêụ cần thu thâ ̣p

Căn cứ vào nội dung/vấn đề và mục đích nghiên
cứu mà ta xác định xem cần thu thập những dữ
liệu gì, cách thức thu thập từng dữ liệu, nguồn
thu thập dữ liệu.
Dữ liệu thu thập phải có ý nghĩa đối với vấn đề
đang nghiên cứu, tránh việc thu thập dữ liệu
không cần thiết, gây mất thời gian và kinh phí.
1. Xác định dữ liêụ cần thu thâ ̣p

Ví dụ: Một nghiên cứu nhằm tiếp thị cho sản phẩm
VINAMILK.
Một số dữ liê ̣u có thể thu thâ ̣p:
1. Anh/chị đã từng sử dụng sản phẩm này chưa?
2. Anh/chị biết đến sản phẩm này qua kênh thông tin
nào? (báo, tivi, bạn bè/người thân, …)
3. Điều gì khiến anh/chị hài lòng nhất về sản phẩm
(hương vị, kiểu dáng, thương hiệu, giá, …)
4. Anh/chị thường mua sản phẩm này ở đâu? (Chợ,
siêu thị, cửa hàng bán lẻ)
5. Anh/chị chi bao nhiêu tiền cho sản phầm này hàng
tháng.
6. ……
1. Xác định dữ liêụ cần thu thâ ̣p

Dữ liêụ

Định tính: được Định lượng: được


thu thập từ biến thu thập từ biến
định tính. Phản định lượng. Phản
ánh tính chất, ánh mức độ, giá trị
thuộc tính hoặc thường trả lới câu
loại hình của các hỏi “bao nhiêu”.
đối tượng nghiên
cứu.
1. Xác định dữ liêụ cần thu thâ ̣p

Thang đo định danh hay thứ bậc.


Dữ liê ̣u
định tính Có thể có dạng con số nhưng chúng
không có ý nghĩa số học.

Thang đo khoảng hay tỷ lệ


Dữ liê ̣u Khó thu thập nhưng cung cấp nhiều
định thông tin hơn định tính & dê áp
lượng dụng nhiều phương pháp phân tích
hơn.
1. Xác định dữ liêụ cần thu thâ ̣p
Nguồn
dữ liêụ

Sơ cấp: thu thập Thứ cấp: thu thập


trực tiếp, ban đầu từ những nguồn
từ đối tượng có sẵn, đó chính là
nghiên cứu. những dữ liệu đã
qua tổng hợp, xử
lý.
1. Xác định dữ liêụ cần thu thâ ̣p

Thu thâ ̣p dữ liê ̣u sơ cấp


Trực tiếp: thu thập dữ liệu ban đầu thông qua tiếp xúc
trực tiếp, phỏng vấn đối tượng điều tra, trực tiếp
quan sát hay hỏi, ghi chép, phản ánh các số liệu vào
mẫu biểu điều tra,nghiên cứu thực nghiệm.
Ưu điểm: có thể phát hiện sai sót trong khi cung cấp dữ
liệu của đơn vị điều tra, kịp thời điều chỉnh.
Nhược điểm: đòi hỏi nhiều nhân lực, chi phí cao.

Gián tiếp: thông qua bản viết của đơn vị điều tra, qua
điện thoại; qua sổ sách kế toán có sẵn.
Ưu điểm: ít tốn kém so với phương pháp trực tiếp.
Nên dùng khi không có điều kiện thu thập trực tiếp
1. Xác định dữ liêụ cần thu thâ ̣p

Nguồn dữ liê ̣u thứ cấp


• Nội bộ
• Cơ quan thống kê nhà nước
• Cơ quan chính phủ
• Báo, tạp chí
• Các tổ chức hiệp hội, viện nghiên cứu
• Các công ty nghiên cứu và cung cấp thông tin
2. Sai số thông kê

Khái niê ̣m:


Là chênh lệch giữa thông tin điều tra so với mức
độ thực tế của đơn vị điều tra.
Hâ ̣u quả:
- Giảm chất lượng kết quả điều tra
- Giảm tính chính xác khi phân tích và dự báo
thống kê.
2. Sai số thông kê

Nguyên nhân – Cách khắc phục:


- Do ghi chép
- Do hiệu chỉnh
- Do không hiểu chính xác về câu hỏi điều tra
- Do công cụ đo lường
- Do ý thức trách nhiệm của nhân viên điều
tra/nhập liệu.
- Do chọn mẫu.
….
3. Lý thuyết phân tổ

Khái niê ̣m

là căn cứ vào một hay một số biến (đặc trưng)


nào đó để sắp xếp các đơn vị quan sát vào các
tổ, nhóm có tinh chất khác nhau, hay nói cách
khác là chia tổng thể hay mẫu nghiên cứu thành
các tổ, nhóm có tính chất khác nhau.
3. Lý thuyết phân tổ

Các bước tiến hành phân tổ:


1. Chọn tiêu thức (biến) phân tổ.

2. Xác định số tổ và phạm vi biến thiên của


từng tổ.

3. Lựa chọn các chỉ tiêu giải thích và sắp xếp


các đơn vị vào các tổ tương ứng.
3. Lý thuyết phân tổ

Chọn tiêu thức (biến) phân tổ:


Việc lựa chọn tiêu thức phân tổ phải đảm bảo phản
ánh đúng bản chất của hiện tượng mà mục đích
nghiên cứu đề ra.
Để xác định tiêu thức phân tổ cần dựa vào cơ sở
phân tích lý luận, điều kiện lịch sử cụ thể của hiện
tượng và mục tiêu nghiên cứu.
3. Lý thuyết phân tổ

Xác định số tổ và phạm vi biến thiên của từng tổ
Đối với biến định tính:
- Nếu nhận một vài giá trị có thể chia mỗi giá trị
thành 1 tổ
VD: giới tính, trình độ
- Nếu nhận nhiều giá trị, ta ghép những giá trị giống
hoặc gần giống thành 1 tổ
VD: ghép các quốc gia cùng khu vực thành 1 tổ,
ghép các môn học cùng lĩnh vực thành 1 tổ.
3. Lý thuyết phân tổ

Xác định số tổ và phạm vi biến thiên của từng tổ
Đối với biến định lượng:
- Nếu nhận một vài giá trị có thể chia mỗi giá trị
thành 1 tổ
VD: hệ số lương
- Nếu nhận nhiều giá trị, tùy vào bản chất hiện
tượng nghiên cứu và mục đích nghiên cứu mà ta
có thể phân tổ có khoảng cách đều hoặc không
đều.
3. Lý thuyết phân tổ

Khi phân tổ đều ta cần tính số tổ và khoảng cách
tổ:
- Số tổ (k): dựa vào kinh nghiệm hoặc tính theo
công thức: k = (2n)1/3 với n là số quan sát.
VD: n = 180 thì số tổ là: k = (2.180) 1/3  7,1
Số tổ = 7 tổ
3. Lý thuyết phân tổ
xmax  xmin
- Khoảng cách tổ (h): h
k
VD: xmax = 28; xmin = 11; k = 5

Khi đó: 28  11
h  3, 4
5
Ta lấy h = 4
3. Lý thuyết phân tổ

Một số lưu ý:


- Đối với biến rời rạc, phân tổ sao cho giá trị cận
trên và cận dưới 2 tổ liền kề không trùng nhau.
- Đối với biến liên tục, giá trị cận trên và cận dưới 2
tổ liên tiếp là như nhau, nếu giá trị quan sát bằng
đúng giá trị cận trên thì sẽ được tính vào tổ kế tiếp.
(Điều này không đúng khi thực hiện trên excel)
3. Lý thuyết phân tổ

VD: Phân tổ độ tuổi của công nhân xí nghiê ̣p X
25 25 29 19 20
22 29 30 37 41
37 39 38 40 30
24 32 31 34 42
36 27 26 27 35
19 42 20 42 23
28 32 24 40 30
23 31 31 22 40
25 28 27 34 18
20 40 38 21 31
3. Lý thuyết phân tổ

- Số tổ: k = (2.50) 1/3  4,6 = 5 tổ

- Khoảng cách tổ (h):


42  18
h  4,8
5
Ta lấy h = 5
3. Lý thuyết phân tổ

Phương pháp nhánh và lá.


Trở lại ví dụ trước, ta thấy độ tuổi công nhân chỉ
dao động từ 18 đến 42 nên có thể phân nhóm
theo phương pháp nhánh và lá như sau:

1: 899
2: 000122334455567778899
3: 000111122445677889
4: 0001222
3. Lý thuyết phân tổ

Phân tổ mở


Phân tổ mở là tổ đầu tiên không có giới hạn
dưới và tổ cuối cùng không có giới hạn trên.

Khi khả năng xuất hiện dữ liệu rất nhỏ/rất lớn,
cần mở rộng vùng biến thiên của dữ liệu, ta
thường phân tổ mở.
3. Lý thuyết phân tổ

Trở lại ví dụ trên, ta có thể phân tổ như sau:
< 23
23 – 27
28 – 32
33 – 37
> 37
3. Lý thuyết phân tổ

Cumulative Cumulative
Bin Frequency % Bin Frequency %

22 9 18.00% 32 13 26.00%

27 11 40.00% 27 11 48.00%

32 13 66.00%More 11 70.00%

37 6 78.00% 22 9 88.00%

More 11 100.00% 37 6 100.00%


3. Lý thuyết phân tổ

Histogram
14 120.00%
12 100.00%
10 80.00%
Frequency

8
60.00%
6
4 40.00%
2 20.00%
0 0.00%
32 27 More 22 37
Bin
Frequency Cumulative %
4. Bảng dữ liêụ

Ngành Số sinh viên


Kinh tế 1000
Ngoại ngữ 350
Môi trường 100
Xây dựng 200
Kiến trúc 200
4. Bảng dữ liêụ

Số sinh viên


Ngành
CĐ ĐH
Kinh tế 200 800
Ngoại ngữ 50 300
Môi trường 50 50
Xây dựng 50 150
Kiến trúc 50 150
4. Bảng dữ liêụ

Số sinh viên


Ngành
CĐ ĐH
HL trên 7,0 50 100
Kinh tế
HL dưới 7,0 150 700
HL trên 7,0 15 50
Ngoại ngữ
HL dưới 7,0 35 250
HL trên 7,0 10 15
Môi trường
HL dưới 7,0 40 35
HL trên 7,0 5 25
Xây dựng
HL dưới 7,0 45 125
HL trên 7,0 15 30
Kiến trúc
HL dưới 7,0 35 120
5. Các loại biểu đồ

Biểu đồ tần số hình cột


Số sinh viên
1200
1000
1000
800
600
Số sinh
400 350 viên
200 200
200 100
0
5. Các loại biểu đồ

Biểu đồ cơ cấu

11%

11% Kinh tế


Ngoại ngữ
5% Môi trường
54% Xây dựng
Kiến trúc
19%
5. Các loại biểu đồ

Biểu đồ thời gian


3000000
2500000
2000000
1500000
1000000
500000
0
**** Thảo luâ ̣n

Chia nhóm:
1. Xác định 1 vấn đề cần nghiên cứu, xác định
biến thích hợp.
2. Xác định nguồn dữ liệu (sơ cấp/thứ cấp),
phương pháp thu thập.
3. Xác định biến phân tổ, tiến hành phân tổ
4. Trình bày dưới dạng bảng và đồ thị thích hợp.
CHƯƠNG III

1 Số tuyệt đối
2 Số tương đối
3 Các đặc trưng ĐL khuynh hướng tập trung
4 Các đặc trưng đo lường độ phân tán
5 Biểu đồ hộp và râu
6 Chuẩn hóa dữ liệu
1. Số tuyệt đối

Khái niê ̣m

Số tuyệt đối là chỉ tiêu biểu hiện quy mô, khối


lượng của hiện tượng kinh tế - xã hội.
VD:

Số sinh viên có mặt trong lớp


Số nữ sinh cao trên 1m8
1. Số tuyệt đối

Số tuyệt đối thời kỳ Số tuyệt đối thời điểm

Được đo lường Được đo lường tại


trong 1 khoảng thời 1 thời điểm xác
gian định.
Phép cộng có ý Phép cộng không
nghĩa có ý nghĩa

Doanh thu, số sinh Diện tích, dân số,…


viên bỏ học,…
1. Số tuyệt đối

Đơn vị tính

Đơn vị hiện vật tự nhiên: cái, con, cây, chiếc, người, …


Đơn vị hiện vật quy ước: mét, kg, lít, giờ, …

Đơn vị tiền tệ: đồng, đô la, …


Đơn vị thời gian lao động: giờ công, …
2. Số tương đối

Khái niệm

Số tương đối trong thống kê là chỉ tiêu biểu hiện


quan hệ so sánh giữa hai mức độ của hiện
tượng nghiên cứu
VD: Mật độ dân số: so sánh giữa tổng số dân và
diện tích (người/km2)
Năng suất lúa: so sánh khối lượng lúa thu
hoạch với diện tích (tấn/ha)
2. Số tương đối
Số tương đối động
Số tương đối thái định gốc
động thái
Số tương đối động
thái liên hoàn

Số tương đối kế Số tương đối nhiệm vụ


hoạch kế hoạch
Số
tương
Số tương đối kết Số tương đối hoàn
đối
cấu thành kế hoạch
Số tương đối
cường độ
Số tương đối
không gian
2.1 Số tương đối động thái

Khái niệm:
Số tương đối động thái (tốc độ phát triển) là số
tương đối so sánh mức độ của cùng 1 hiện
tượng ở 2 thời gian khác nhau:
y1
t 
y0
Trong đó:
t: số tương đối động thái
y0: mức độ của hiện tượng kỳ gốc
y1: mức độ của hiện tượng kỳ nghiên cứu
2.1 Số tương đối động thái

Ví dụ:
Năm 2013, địa bàn huyện xảy ra 28 vụ tai nạn
giao thông
Năm 2014, cũng trên địa bàn này xảy ra 35 vụ.
Khi đó, tốc độ gia tăng tai nạn giao thông là

y1 35
t   125%
y0 28
2.1 Số tương đối động thái

Ví dụ:
Doanh thu của DN X trong 6 tháng đầu năm
2013 như sau:
Đơn vị tính: tỷ đồng
T1 T2 T3 T4 T5 T6
1,25 1,40 1,55 1,45 1,45 1,58
Tính tốc độ tăng doanh thu hàng tháng của
doanh nghiệp so với tháng trước đó và so với
tháng 1/2013.
2.2 Số tương đối số kế hoạch

Số tương đối nhiệm vụ kế hoạch


So sánh mức độ kế hoạch so với mức độ thực tế
ở kỳ gốc.

yK
t NK 
y0

Trong đó:
tNK: số tương đối nhiệm vụ kế hoạch
y0: mức độ của hiện tượng kỳ gốc
2.2 Số tương đối kế hoạch

Số tương đối hoàn thành kế hoạch


So sánh mức độ thực tế đạt được với kế hoạch
đề ra.
y1
t HK 
yK
Trong đó:
tHK: số tương đối hoàn thành kế hoạch
y1: mức độ của hiện tượng kỳ nghiên cứu
2.2 Số tương đối kế hoạch

Ví dụ:
Tháng trước, Nam tiết kiệm được 500 ngàn
đồng, Nam lên kế hoạch sẽ tiết kiệm 700 ngàn
vào tháng này, tuy nhiên thực tế anh chỉ tiết kiệm
được 600 ngàn đồng. Tính số tương đối nhiệm
vụ kế hoạch và hoàn thành kế hoạch.
2.3 Số tương đối kết cấu

Khái niệm:
Số tương đối kết cấu là số tương đối xác định tỷ
trọng của mỗi bộ phận cấu thành tổng thể.
yi
di  n

y
i 1
i

Với:
di: tỷ trọng bộ phận thứ i
yi: mức độ bộ phận thứ i
2.3 Số tương đối kết cấu

Ví dụ:
Số sinh viên các ngành của khoa kinh tế tuyển
sinh năm 2015 như sau:
Ngành Số sinh viên
Kế toán 100
Quản trị kinh doanh 200
Quản lý công nghiệp 80
Tài chính ngân hàng 120

Tính tỷ trọng sinh viên mỗi ngành.


2.4 Số tương đối cường độ

Khái niệm:
Số tương đối cường độ là kết quả so sánh mức
độ của 2 hiện tượng khác nhau nhưng có liên
quan với nhau
Ví dụ:
Vận tốc = (đoạn đường/thời gian) km/h
Bao nhiêu hình/giây, …
2.4 Số tương đối cường độ

Số tương đối cường độ thường được sử dụng


để đánh giá năng suất lao động, chất lượng
cuộc sống, trình độ phát triển, … và là cơ sở để
so sánh 2 chủ thể/đối tượng với nhau.
Ví dụ:
Mật độ dân số
Thu nhập bình quân đầu người
Năng suất cây trồng
2.5 Số tương đối không gian

Khái niệm:
Số tương đối không gian là kết quả so sánh giữa
hai mức độ của một hiện tượng nhưng khác
nhau về không gian, hoặc so sánh giữa hai bộ
phận trong cùng một tổng thể
Ví dụ:
Dân số tỉnh Bình Dương/Dân số Tp HCM
Tỷ lệ giới tính nam/nữ
3. Các đặc trưng ĐL kh.hướng tập trung

• Biểu hiện mức độ đại biểu theo tiêu thức số


lượng trong một tổng thể bao gồm nhiều đơn vị
cùng loại

• Tổng hợp và khái quát cao,nêu lên mức độ chung


nhất,phổ biến nhất,có tính chất đại biểu nhất của
tiêu thức nghiên cứu

• Đặc điểm san bằng mọi chênh lệch giữa các trị
số của tiêu thức nghiên cứu
3. Các đặc trưng ĐL kh.hướng tập trung

Các đặc trưng đo lường khuynh hướng tập


trung:
Trung bình cộng
Trung vị
Mốt
Trung bình nhân
3.1 Trung bình cộng

Được tính bằng cách đem tổng tất cả các giá trị
quan sát chia cho tổng số quan sát.

Trung bình cộng giản


đơn

Trung bình cộng

Trung bình cộng gia


quyền
3.1 Trung bình cộng

Trung bình cộng giản đơn của tổng thể:


N

x i
 i 1
N
Trung bình cộng giản đơn của mẫu:

x i
x i 1
n
3.1 Trung bình cộng

Ví dụ:
Điểm môn Toán của các học sinh trong tổ 1 như
sau:
Học sinh Điểm Học sinh Điểm
A 4 E 10
B 7 F 6
C 9 G 7
D 8 H 8

Tính điểm trung bình môn toán của tổ 1.


3.1 Trung bình cộng

Ví dụ:
Một mẫu nghiên cứu gồm 8 công nhân với năng
suất (sản phẩm/ngày) như sau:
CN SP/ngày CN SP/ngày
A 200 E 250
B 190 F 260
C 240 G 255
D 270 H 265

Tính năng suất trung bình của mẫu.


3.1 Trung bình cộng

Trung bình cộng gia quyền của tổng thể:


k

x .f i i
 i 1
k

f
i 1
i

Trung bình cộng gia quyềncủa mẫu:


k

x .f i i
x i 1
k

f
i 1
i
3.1 Trung bình cộng

Ví dụ:
Dữ liệu về số môn học lại trong 1 học kỳ của
sinh viên:
Số môn Số SV
0 250
1 100
2 50
3 30
4 20
Tính số môn học lại trung bình của 1 sinh viên.
3.1 Trung bình cộng

Đối với dữ liệu có trọng số thì trung bình cộng


được tính như là trung bình cộng gia quyền chỉ
thay đổi tần số bằng trọng số.

 x .w i i
x i 1
k

w
i 1
i
3.1 Trung bình cộng

Ví dụ:
Tính điểm trung bình học kỳ của sinh viên biết:
Môn Số tín chỉ Điểm
NNLCB CN Mac -Lenin 5 7,5
Nguyên lý kế toán 4 9,1
Toán cao cấp C1 2 8,5
Môi trường và CN 2 7,6
Quản trị học 3 8,8
3.1 Trung bình cộng

Đối với dữ liệu phân tổ giá trị đại diện cho mỗi tổ
là giá trị trung bình của cận trên và cận dưới của
tổ đó.
Đối với tổ mở: khoảng cách của tổ mở được tính
là khoảng cách của tổ gần nó nhất.
3.1 Trung bình cộng

Ví dụ:
Tính chiều cao trung bình của sinh viên trong lớp
Chiều cao (cm) Số sinh
viên
< 150 5
150 – 160 20
160 – 170 15
170 - 180 5
 180 3
3.2 Trung vị (Me)

Khái niệm: là giá trị đứng giữa trong dãy số đã


được sắp xếp trật tự tăng dần. Số trung vị chia dãy
số làm hai phần, mỗi phần có số đơn vị bằng nhau.

Đặc điểm:
• Mỗi dãy số chỉ có một số trung vị
• Biểu hiện mức độ đại biểu của hiện tượng mà
không san bằng bù trừ chênh lệch giữa các giá
trị.
• Trung vị có thể thay số trung bình cộng. Là một
trong những chỉ tiêu dùng để nêu lên đặc trưng
phân phối của dãy số.
3.2 Trung vị (Me)

 Dữ liệu không có khoảng cách tổ, nếu n lẻ


Me=X(n+1)/2
VD: Điểm môn Xác suất thống kê của tổ 1 như
sau:
4.5 5 6 6.5 7 8 8 8.5 9

Ta có: n = 9
Me=X(n+1)/2 = X5 = 7
3.2 Trung vị (Me)

 Nếu n là số chẵn

VD: Điểm môn Xác suất thống kê của tổ 1 xếp


theo thứ tự tăng dần như sau:

4.5 5 6 6.5 7 7.5 8 8 8.5 9

Ta có: n = 10
3.2 Trung vị (Me)

 Đối với dữ liệu có khoảng cách tổ


Bước 1: Tính tần số tích lũy

Bước 2: Xác định nhóm chứa Me là tổ đầu


f i 1
tiên có tần số tích lũy 
2

Bước 3: Tính Me gần đúng


f i
 S Me1
M e  X Me (min)  hMe 2
f Me
3.2 Trung vị (Me)

Tính Me gần đúng


f i
 S Me1
M e  X Me (min)  hMe 2
f Me

• XMe (min) : giới hạn dưới của tổ có trung vị
• hMe: Trị số khoảng cách tổ có trung vị
• SMe-1: Tổng các tần số của các tổ đứng trước
tổ có trung vị
• fMe: Tần số của tổ có trung vị
• Σfi: Tổng các tần số
3.2 Trung vị (Me)

Ví dụ:
Tính số trung vị của chiều cao:
Chiều cao (cm) Số sinh
viên
< 150 5
150 – 160 20
160 – 170 15
170 - 180 5
 180 3
3.3 Mốt (Yếu vị - Mo)

• Khái niệm: đó là giá trị gặp nhiều lần nhất trong


tập dữ liệu. Sau trung vị, số mode cũng được
dùng mô tả mức độ tập trung của tập dữ liệu.
• Ký hiệu: M0
• Đặc điểm:
Không bị ảnh hường bởi giá trị đột biến
Sử dụng thang đo khác: định danh, thứ bậc
Một dãy có thể có nhiều giá trị mod, có dãy số
không có mod
3.3 Mốt (Yếu vị - Mo)

Dữ liệu không có khoảng cách tổ:


Mốt là giá trị được lặp lại nhiều lần nhất, hay
nói cách khác là giá trị có tần số lớn nhất.
Ví dụ:
Điểm số Số sinh viên
4 10
5 15
6 30
7 52
8 15
9 2
3.3 Mốt (Yếu vị - Mo)

Dữ liệu có khoảng cách tổ:


Xác định tổ chứa yếu vị. Tổ nào có tần số lớn
nhất thì tổ đó chứa mod.
Giá trị Mo được tính như sau:
f M 0  f M 0 1
M 0  X M 0 (min)  hM 0
( f M 0  f M 0 1 )  ( f M 0  f M 0 1 )
3.3 Mốt (Yếu vị - Mo)

f M 0  f M 0 1
M 0  X M 0 (min)  hM 0
( f M 0  f M 0 1 )  ( f M 0  f M 0 1 )

• XMo (min) : giới hạn dưới của tổ chứa mod


• hMo: Trị số khoảng cách tổ chứa mod
• fMo : Tần số của tổ chứa mod
• fMo -1: Tần số của tổ đứng trước tổ chứa
mod
• fMo +1: Tần số của tổ đứng sau tổ chứa
mod
3.3 Mốt (Yếu vị - Mo)

Ví dụ: Xác định chỉ số mod về khối lượng

Trọng lượng Số sản phẩm


(gam)
485 – 490 15
490 – 495 30
495 – 500 55
500 – 550 20
550 – 600 10
3.4 Trung bình nhân

Số trung bình nhân thông thường được sử


dụng để tính trung bình cho tốc độ phát triển
hay tốc độ tăng trưởng.
Tùy vào dạng dữ liệu mà ta có thể áp dụng
công thức tính trung bình nhân giản đơn hay
trung bình nhân có trọng số
3.4 Trung bình nhân

Trung bình nhân giản đơn:

X  n X 1. X 2 . X 3 .... X n

Trung bình nhân có trọng số:


n

 fi n
X  X . X ... X
n
1
f1
2
f2
n
fn
 i 1
X
i 1
i
fi
3.4 Trung bình nhân

Ví dụ:
Tính tốc độ tăng trưởng doanh thu hàng năm
của doanh nghiệp và tốc độ tăng trưởng doanh
thu trung bình

Năm Doanh thu (tỷ đồng)


2000 150
2001 180
2002 200
2003 220
2004 210
4. Các đặc trưng ĐL độ phân tán

Biểu hiện mức độ phân tán của dữ liệu.


Các đặc trưng này bao gồm:
Khoảng biến thiên R
Tứ phân vị
Độ trải giữa RQ
Độ lệch tuyệt đối trung bình
Phương sai
Độ lệch chuẩn
Hệ số biến thiên CV
Hình dáng phân phối của dãy số
4.1 Khoảng biến thiên R

Khái niệm:
Khoảng biến thiên R là chênh lệch giữa giá trị lớn
nhất và giá trị nhỏ nhất của dãy số

Công thức tính:

R  xmax  xmin
4.1 Khoảng biến thiên R

Ví dụ:
Xác định khoảng biến thiên về doanh thu:

Năm Doanh thu (tỷ đồng)


2000 150
2001 180
2002 200
2003 220
2004 210
4.2 Tứ phân vị

Khái niệm:
Tứ phân vị là giá trị mà tại đó nó chia dãy số thành
4 phần, mỗi phần có số đơn vị là như nhau.
Ý nghĩa:
Tứ phân vị thứ nhất Q1: 25% dữ liệu có giá trị nhỏ
hơn hoặc bằng Q1
Tứ phân vị thứ hai Q2: là trung vị
Tứ phân vị thứ ba Q3: 25% dữ liệu có giá trị lớn
hơn hoặc bằng Q3
4.2 Tứ phân vị

Đối với dữ liệu không có khoảng cách tổ

Q1  X ( n1)/4
Q 2  X 2( n1)/4  X ( n1)/2
Q3  X 3( n1)/4
4.2 Tứ phân vị

Ví dụ: Tìm tứ phân vị về điểm của các học sinh


sau:
Học sinh Điểm Học sinh Điểm
A 4.5 G 10
B 7 H 6.5
C 9 I 7
D 6 J 8
E 7.5 K 7.5
F 8.5 L 8
4.2 Tứ phân vị

Đối với dữ liệu có khoảng cách tổ

1
4
 f  SQ1 ( 1)
Q1  X Q1 min  hQ1
f Q1
3
4
 f  SQ3 ( 1)
Q3  X Q3 min  hQ3
f Q3
4.2 Tứ phân vị

Trong đó:
Tổ chứa Q1 là tổ đầu tiên có tần số tích lũy  (n+1)/4
Tổ chứa Q3 là tổ đầu tiên có tần số tích lũy 
3(n+1)/4
X Q1 min
: giá trị nhỏ nhất của tổ chứa Q 1

SQ1 ( :1)tần số tích lũy của tổ trước tổ chứa Q


1

hQ1
: khoảng cách của tổ chứa Q1
f Q1
: tần số của tổ chứa Q1
4.2 Tứ phân vị

Ví dụ: Tìm tứ phân vị về trọng lượng sản phẩm

Trọng lượng Số sản


(gam) phẩm
485 – 490 15
490 – 495 30
495 – 500 55
500 – 550 20
550 – 600 10
4.3 Độ trải giữa RQ

Khái niệm:
Độ trải giữa RQ là chênh lệch giữa tứ phân vị thứ 3
và tứ phân vị thứ nhất.

Công thức:

RQ  Q3  Q1
4.3 Độ trải giữa RQ

Ví dụ:
Xác định độ trải giữa của dữ liệu sau:
Học sinh Điểm Học sinh Điểm
A 4.5 G 10
B 7 H 6.5
C 9 I 7
D 6 J 8
E 7.5 K 7.5
F 8.5 L 8
4.4 Độ lệch tuyệt đối trung bình

Khái niệm:
Độ lệch tuyệt đối trung bình là trung bình cộng tất
cả các giá trị tuyệt đối giữa các giá trị quan sát với
trung bình cộng của tổng thể (hoặc mẫu).
Công thức:
n k

x i x x i  x . fi
d  i 1
; d  i 1
k
n
f
i 1
i
4.4 Độ lệch tuyệt đối trung bình

Ví dụ:
Xác định độ lệch tuyệt đối trung bình của dữ liệu
sau:
Năm Doanh thu (tỷ đồng)
2000 150
2001 180
2002 200
2003 220
2004 210
4.5 Phương sai

Khái niệm:
Phương sai là trung bình cộng tất cả các bình
phương sai số của giá trị từng quan sát với trung
bình tổng thể (hoặc mẫu).
Hay
Phương sai là trung bình của các độ lệch bình
phương giữa các giá trị xi với trung bình số học.
Đo mức độ phân tán của các biến lượng xung
quanh số bình quân.
4.5 Phương sai

Phương sai tổng thể chung


• Trường hợp không có quyền số
N

 (x i  ) 2

2  i 1
N
• Trường hợp có quyền số
k

 i
( x   ) 2
. fi
2  i 1
k

f
i 1
i
4.5 Phương sai

n
Phương sai mẫu
S 2 
 (x
i 1
i  x) 2

• Trường hợp không có quyền số


n
n

• Trường hợp có quyền số S 2 


 i
( x
i 1
 x ) 2
. fi
n

f i 1
i

• Công thức khác S 2   x 2   ( x ) 2


4.5 Phương sai

Phương sai mẫu hiệu chỉnh:


• Trường hợp không có quyền số
n

 (x i  x) 2

s 
2 i 1
n 1
• Trường hợp có quyền số k

 (x i  x) . fi 2

s 
2 i 1
k

f
i 1
i 1
4.6 Độ lệch chuẩn

Độ lệch chuẩn: đo lường sự biến thiên của một tập


dữ liệu, khi hai tập dữ liệu có cùng giá trị trung
bình, tập dữ liệu nào có độ lệch chuẩn lớn hơn sẽ
biên thiên nhiều hơn.
Là căn bậc hai của phương sai cũng tính tương tự
trong trường hợp có quyền số và không quyền số.

• Đối với tổng thể:   2

• Đối với mẫu: s s 2


4.6 Độ lệch chuẩn

Ví dụ:
Xác định phương sai và độ lệch chuẩn hiệu chỉnh
của mẫu nghiên cứu sau:
Năm Doanh thu (tỷ đồng)
2000 150
2001 180
2002 200
2003 220
2004 210
4.6 Độ lệch chuẩn

Ý nghĩa:
Độ lệch chuẩn được sử dụng nhiều hơn phương
sai do có cùng đơn vị với dữ liệu.
Độ lệch chuẩn cũng được sử dụng rộng rãi hơn độ
lệch tuyệt đối trung bình, do độ lệch tuyệt đối trung
bình làm giới hạn các khả năng tính toán về mặt số
học
4.6 Độ lệch chuẩn

Ý nghĩa:
Độ lệch chuẩn cho biết sự phân phối của các giá
trị trong một tập dữ liệu thể hiện trên 2 quy tắc sau:
Quy tắc Tchebychev:
Bất kỳ một tổng thể nào với trung bình là  và độ
lệch chuẩn là , thì có ít nhất 100(1-1/m2)% giá trị
rơi vào khoảng   m với m > 1
Quy tắc thực nghiệm:
Đối với tổng thể lớn, phân phối của các giá trị có
dạng gần giống hình chuông, có thể sử dụng phân
phối chuẩn để mô tả hình dáng của phân phối.
4.6 Độ lệch chuẩn

Quy tắc Tchebychev:

m 1,5 2 2,5 3
100(1-1/m2) 55,6% 75% 84% 88,9%

Bảng trên hàm ý:


- Có ít nhất 55,6% giá trị dữ liệu rơi vào khoảng 
 1,5
- Có ít nhất 75% giá trị rơi vào khoảng   2
4.6 Độ lệch chuẩn

Quy tắc Tchebychev:

 - 2  - 1,5   +1,5  + 2

Ít nhất 55,6% giá trị


nằm trong khoảng này

Ít nhất 75% giá trị nằm trong


khoảng này
4.6 Độ lệch chuẩn

Quy tắc thực nghiệm:


Khoảng 68% giá trị rơi vào khoảng   so với giá
trị trung bình.
Khoảng 95% giá trị rơi vào khoảng  2 so với giá
trị trung bình.
Khoảng 99,3% giá trị rơi vào khoảng  3 so với
giá trị trung bình.
4.6 Độ lệch chuẩn

 - 3  - 2  - 1  +  +2  + 3

68%

95%

99,73%
4.7 Hệ số biến thiên CV

Hệ số biến thiên: đo lường cho hai tập dữ liệu


có trị trung bình khác nhau bằng cách so sánh
giữa độ lệch chuẩn với số trung bình cộng
• Tính bằng độ lệch chuẩn

• Tổng thể CV  .100%

s
• Mẫu CV  .100%
x
• Tính bằng độ lệch tuyệt đối bình quân
d
CV  100
X
4.7 Hệ số biến thiên CV

Ví dụ:
Xác định hệ số biến thiên trong mẫu nghiên cứu
sau:
Năm Doanh thu (tỷ đồng)
2000 150
2001 180
2002 200
2003 220
2004 210
Tính toán trên excel

Vào thẻ Data/Data Analysis/Descriptive/OK


Column1
Mean 6.625
Standard Error 0.239356777
Median 6.75
Mode 7
Standard Deviation 0.478713554
Sample Variance 0.229166667
Kurtosis -1.289256198
Skewness -0.854563038
Range 1
Minimum 6
Maximum 7
Sum 26.5
Count 4
4.8 Hình dáng phân phối của dãy số

Xác định được trung bình, trung vị, yếu vị ta có thể


biết được hình dáng phân phối của dãy số

f(x)

Phân phối đối xứng  = Me = Mo


4.8 Hình dáng phân phối của dãy số

f(x)

 Me Mo

Phân phối lệch trái  < Me < Mo


4.8 Hình dáng phân phối của dãy số

f(x)

Mo Me 

Phân phối lệch phải  > Me > Mo


CHƯƠNG IV

1 Ước lượng điểm

2 Ước lượng khoảng


Ước lượng là gì?

Khái niệm:
Trong nghiên cứu điều tra chọn mẫu, cái ta muốn
kết luận là đặc trưng của tổng thể, nhưng số liệu
tính toán được là số liệu đại diện cho mẫu, việc
sử dụng những hiểu biết về tham số của mẫu để
suy ra cho tổng thể ta gọi là ước lượng.

Tham số mẫu Tham số tổng thể

2
ˆ,s
x, p  , p,  2
1. Ước lượng điểm

Ta có: E( X )  
E(Pˆ)  p
E (S 2 )   2
Vì vậy:
x ước lượng không chệch của 

p̂ ước lượng không chệch của p

s2 là ước lượng không chệch của 2
2. Ước lượng khoảng

Khái niệm:
Trong ước lượng điểm, ta sử dụng đặc trưng của
mẫu để ước lượng cho đặc trưng tổng thể. Và đặc
trưng của tổng thể có khả năng lớn là không trùng
với đặc trưng của mẫu, do đó, để tăng độ tin cậy,
thay vì sử dụng 1 hằng số ta có thể tìm 1 khoảng
chứa đặc trưng tổng thể. Việc làm này gọi là ước
lượng khoảng. Và khoảng tìm được gọi là khoảng
tin cậy.
2. Ước lượng khoảng

Giả sử tổng thể có đặc trưng  chưa biết, căn cứ


vào mẫu nghiên cứu gồm n đơn vị ta tìm khoảng
(1,2) sao cho:
P(1 ≤  ≤ 2) = 1 - 
Khi đó:
(1,2) : gọi là khoảng ước lượng
1 -  :gọi là độ tin cậy của khoảng ước lượng
 :gọi là mức ý nghĩa
|1,2|/2 : gọi là độ chính xác của ước lượng
khoảng.
2. Ước lượng khoảng

/2 1- /2

1 2
Nếu  = 5%, nghĩa là 95% giá trị  nằm trong
khoảng (1,2), hay nói cách khác:
Xác suất giá trị  nằm ngoài khoảng này là 5%
2. Ước lượng khoảng

Ví Dụ:
Ta cần biết điểm trung bình môn Xác suất thống kê
của sinh viên đại học Thủ Dầu Một, nhưng không thể
hỏi hết tất cả 5000 sinh viên đã học môn này, vì vậy
ta chọn ngẫu nhiên trong đó 100 sinh viên để nghiên
cứu. Điểm trung bình của 100 sinh viên nghiên cứu
là 6,5. Vậy dự đoán điểm trung bình của 5000 sinh
viên là bao nhiêu? Việc dự đoán này gọi là ước
lượng.
2. Ước lượng khoảng

Cách 1:
Dự đoán điểm trung bình của 5000 sinh viên (trung
bình tổng thể) là 6,5 (bằng với trung bình mẫu). Đây
là ước lượng điểm.
Cách 2:
Dự đoán điểm trung bình của 5000 sinh viên gần với
6,5, và nằm trong khoảng (6, 7) tức là lớn hơn 6 và
nhỏ hơn 7. Đây là ước lượng khoảng.

Vậy: dự đoán nào đáng tin cậy hơn?


2.1 Ước lượng trung bình tổng thể

* Trường hợp n  30
2
Trung bình mẫu có phân phối chuẩn X ~ N ( , )
n
Do đó:  
x  z /2    x  z /2
n n
Với: z/2 là giá trị của đại lượng Z ~ N(0,1) sao cho:
P(Z > z/2 ) = /2
Nếu chưa biết phương sai tổng thể, ta có thể thay
bằng phương sai mẫu hiệu chỉnh.
2.1 Ước lượng trung bình tổng thể

Ví dụ:
Tìm khoảng ước lượng cho trung bình tổng thể với
độ tin cậy 95%, biết phương sai tổng thể là 70 và
một mẫu ngẫu nhiên gồm 1000 quan sát được chọn
có trung bình là 150.
2.1 Ước lượng trung bình tổng thể

• Trường hợp n < 30, tổng thể có phân phối


chuẩn, đã biết 
 
x  z /2    x  z /2
n n
• Trường hợp n < 30, tổng thể có phân phối
chuẩn, chưa biết 

s s
x  t( n1), /2    x  t( n1), /2
n n
2.1 Ước lượng trung bình tổng thể

Với: t(n-1),/2 là giá trị của đại lượng ngẫu nhiên

  phối theo quy luật Student với


X phân
T
s/ n
n – 1 bậc tự do thỏa mãn điều kiện:
P(|T| > t(n-1),/2 ) = /2
2.1 Ước lượng trung bình tổng thể

Ví dụ:
Ước lượng khoảng cho điểm trung bình của sinh
viên ngành QTKD với mức ý nghĩa 10%, biết một
mẫu ngẫu nhiên được chọn gồm 35 sinh viên có
điểm trung bình là 6,7 và phương sai hiệu chỉnh là 4.
2.1 Ước lượng trung bình tổng thể

Ví dụ:
Ước lượng khoảng cho điểm trung bình của sinh
viên ngành Kế toán với độ tin cậy 90%, biết một mẫu
ngẫu nhiên được chọn có kết quả như sau:

Điểm TB Số SV Điểm TB Số SV
5.0 - 5.4 2 7.0 - 7.4 5
5.4 - 5.8 2 7.4 - 7.8 4
5.8 - 6.2 3 7.8 - 8.2 3
6.2 - 6.6 3 8.2 - 8.6 2
6.6 – 7.0 4 8.6 – 9.0 1
2.2 Ước lượng tỷ lệ tổng thể

Khi n khá lớn, thì tỷ lệ mẫu tuân theo quy luật phân
phối chuẩn:

ˆ pq
P ~ N ( p, )
n
Khi đó, khoảng ước lượng của tỷ lệ tổng thể là:

pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  z /2  p  pˆ  z /2
n n
2.2 Ước lượng tỷ lệ tổng thể

Ví dụ:
Một công ty muốn nghiên cứu về tỷ lệ sản phẩm bị
lỗi. Chọn ngẫu nhiên 300 sản phẩm thấy có 5 sản
phẩm bị lỗi. Với độ tin cậy 95%, hãy ước lượng tỷ lệ
sản phẩm lỗi của công ty.
2.3 Ước lượng phương sai tổng thể

Một tổng thể có phân phối chuẩn, phương sai sẽ


được ước lượng như sau:

(n  1) s 2
(n  1) s 2
  2
2

 n1, /2
2
 n1,1 /2

Trong đó:  2
n có
1 phân phối chi bình phương với n –
1 bậc tự do.
2.3 Ước lượng phương sai tổng thể

Ví dụ:
Một công ty muốn nghiên cứu về sự biến thiên của
năng suất lao động của công nhân. Chọn ngẫu nhiên
41 công nhân ta tính được s2 = 16. Hãy ước lượng
phương sai của năng suất lao động với mức ý nghĩa
5% (biết năng suất lao động có phân phối chuẩn)
2.4 Ước lượng 1 bên

Khái niệm:
Các ước lượng trình bày ở phần 2.1 đến 2.3 được
gọi là ước lượng đối xứng hay ước lượng 2 bên, tức
là ta vừa phải tìm cận trên vừa phải tìm cận dưới của
khoảng ước lượng.
Trường hợp chỉ cần tìm 1 cận trên (hoặc dưới) của
khoảng ước lượng ta gọi là ước lượng 1 bên
2.4 Ước lượng 1 bên

Công thức ước lượng bên trái:



Trung bình tổng thể: x  z 
n

Tỉ lệ tổng thể: pˆ (1  pˆ )
pˆ  z p
n

Phương sai tổng thể: (n  1) s 2


  2

 n1,
2
2.4 Ước lượng 1 bên

Công thức ước lượng bên phải:



Trung bình tổng thể:   x  z
n
pˆ (1  pˆ )
Tỉ lệ tổng thể: p  pˆ  z
n
( n  1) s 2
Phương sai tổng thể: 2  2
 n 1,1
2.1 Ước lượng trung bình tổng thể
*Trường hợp n  30
 
x  z /2    x  z /2
n n
*Trường hợp n < 30, pp chuẩn, đã biết 
 
x  z /2    x  z /2
n n
*Trường hợp n < 30, pp chuẩn, chưa biết 
s s
x  tn 1; /2    x  tn 1; /2
n n
2.4 Ước lượng 1 bên

Ví dụ:
Để theo dõi việc sử dụng điện của các hộ gia đình
trong tháng 6, một cơ quan thống kê thử 100 hộ gia
đình thì thấy lượng điện tiêu thụ trung bình là 150
KW, phương sai mẫu là 144. Với độ tin cậy 90%, hãy
cho biết trung bình 1 hộ gia đình sử dụng ít nhất là
bao nhiêu KW điện.
2.4 Ước lượng 1 bên

Bài tập tổng hợp


Nghiên cứu về độ tuổi công nhân tại một khu công
nghiệp, người ta thu được dữ liệu sau:

Độ tuổi Số công nhân


< 20 10
20 – 25 15
25 – 30 30
≥ 30 6
a/ Tìm khoảng ước lượng cho độ tuổi trung bình của công
nhân với mức ý nghĩa 1%
b/ Tìm khoảng ước lượng cho tỉ lệ công nhân dưới 20 tuổi với
mức ý nghĩa 2%
c/ Tìm khoảng ước lượng cho phương sai tổng thể với độ tin
cậy 95%
d/ Tìm khoảng ước lượng bên trái cho độ tuổi trung bình với
mức ý nghĩa 5%
e/ Tìm ước lượng điểm của phương sai tổng thể
f/ Tỉ lệ công nhân từ 20 đến dưới 30 tuổi nhiều nhất là bao
nhiêu (với độ tin cậy 90%)?
g/ Tìm khoảng ước lượng bên phải của phương sai với độ tin
cậy 95%
h/ Tìm ước lượng điểm cho tỉ lệ công nhân từ 30 tuổi trở lên.
CHƯƠNG V

1 Khái niệm
2 Giả thuyết H0 và giả thuyết H1
3 Kiểm định GT về trung bình tổng thể
4 Kiểm định GT về tỷ lệ tổng thể
5 Kiểm định GT về phương sai tổng thể
1. Khái niệm

Giả thuyết:
Là một phát biểu, một nhận định, một đề xuất về một
tham số hay quy luật phân phối nào đó của tổng thể
(có thể đúng hoặc sai).

Kiểm định giả thuyết:


Là tìm bằng chứng để bác bỏ hay không bác bỏ giả
thuyết đã nêu ra.
1. Khái niệm

Ví dụ:
Hiệu trưởng một trường đại học phát biểu rằng 80%
sinh viên của trường này ra trường có việc làm đúng
chuyên ngành.
Tuy nhiên, ta có quyền nghi ngờ về về điều này, vì
vậy, ta chọn ngẫu nhiên 50 sinh viên đã ra trường để
phỏng vấn, từ đó quyết định chấp nhận hay bác bỏ
giả thuyết ban đầu. Việc làm này gọi là kiểm định giả
thuyết. Giả thuyết ở đây là “80% sinh viên của
trường này ra trường có việc làm đúng chuyên
ngành”.
2. Giả thuyết H0 và giả thuyết H1

Một bài toán kiểm định nào cũng phải có 1 cặp giả
thuyết bao gồm :
Giả thuyết không : Ho (Null Hypothesis)
Giả thuyết đối : H1 (Alternative Hypothesis)
2. Giả thuyết H0 và giả thuyết H1

Giả thuyết H0 được viết như sau:


H0:  = 0
Với  có thể là trung bình tổng thể, phương sai tổng
thể hoặc tỷ lệ tổng thể
0 là một giá trị cho trước
Trong kiểm định 2 bên, miền bác bỏ nằm ở 2 bên
của miền chấp nhận.
Trong kiểm định 1 bên, miền bác bỏ nằm ở 1 bên
miền chấp nhận.
2. Giả thuyết H0 và giả thuyết H1

Giả thuyết H0:


Khi xây dựng H0, trong cấu trúc của nó phải luôn
luôn có dấu “ = ”, dấu bằng này có thể mang ý nghĩa
là :
=


2. Giả thuyết H0 và giả thuyết H1

Giả thuyết H1:


Là kết quả ngược lại của giả thuyết H0, nếu H0 đúng
thì H1 sai và ngược lại, nên H1 còn được gọi là giả
thuyết đối.
 H 0 :   0
Kiểm định 2 bên: 
 H1 :    0

 H 0 :   0  H 0 :   0
Kiểm định 1 bên:  H :    hay 
 1 0  H1 :    0
2. Giả thuyết H0 và giả thuyết H1

Việc kiểm định chỉ có thể đi đến 1 trong 2 quyết


định:
– Bác bỏ Ho (tức chấp nhận H1): có bằng
chứng thống kê để cho rằng H1 là đúng.

– Không bác bỏ Ho (tức loại H1) : tức là không


chứng minh thống kê được H1 là đúng
2. Giả thuyết H0 và giả thuyết H1

Trong kiểm định, ta sử dụng những thông tin từ


đặc trưng của mẫu để kết luận cho 1 giả thuyết
về đặc trưng tổng thể, vì vậy ta có thể phạm sai
lầm nếu đưa ra kết luận sai. Các sai lầm đó là:
 Sai lầm loại 1: giả thuyết H0 đúng nhưng qua
kiểm định ta kết luận là sai, vì vậy bác bỏ H0
 Sai lầm loại 2: giả thuyết H0 sai nhưng qua
kiểm định ta kết luận nó đúng vì vậy không thể
bác bỏ H0.
2. Giả thuyết H0 và giả thuyết H1

Các bước kiểm định:


1. Nhận dạng các tham số của tổng thể cần kiểm
định (vd: trung bình tổng thể, tỷ lệ tổng thể, …)
2. Xây dựng giả thuyết
3. Xác định mức ý nghĩa 
4. Tính toán các giá trị kiểm định
5. Xem xét bác bỏ hay chấp nhận giả thuyết (Ho)
6. Kết luận về bài toán kiểm định
3. Kiểm định GT về trung bình tổng thể

Trường hợp 1: n  30:


 H 0 :   0
Ta có giả thuyết: 
 H1 :    0
x  0
Tính giá trị của tiêu chuẩn kiểm định: z  

n
Dựa vào , tìm z/2

Nếu |z| > z/2 , ta bác bỏ giả thuyết H0, ngược lại
chấp nhận H0
Nếu chưa biết phương sai tổng thể, có thể thay
bằng phương sai mẫu hiệu chỉnh.
3. Kiểm định GT về trung bình tổng thể

Trường hợp 2: n < 30, phân phối chuẩn, đã biết 2


Làm giống trường hợp 1.
Trường hợp 3: n < 30, pp chuẩn, chưa biết 2

x  0
Tính giá trị của tiêu chuẩn kiểm định: t 
s
Dựa vào , tìm t n
n-1,/2

Nếu |t| > tn-1,/2 , ta bác bỏ giả thuyết H0, ngược lại chấp
nhận H0
3. Kiểm định GT về trung bình tổng thể

Chú ý:
Trong cả 3 trường hợp trên, khi bác bỏ H0 tức là
chấp nhận H1:   0 , khi đó:
Nếu x ,  ta0 kết luận  > 0
Nếu x , ta0 kết luận  < 
0
3. Kiểm định GT về trung bình tổng thể

Ví dụ:
Đo chiều cao trung bình của 45 nữ sinh viên ngành sư
phạm ta có kết quả là:
Chiều cao (cm) Số sinh viên
< 150 5
150 – 155 20
155 – 160 15
160 - 165 5

Với độ tin cậy 95%, hãy kiểm định giả thuyết cho rằng
chiều cao trung bình của nữ sinh sư phạm là 157 cm.
3. Kiểm định GT về trung bình tổng thể

Kiểm định 2 bên và kiểm định 1 bên:

Giả thuyết Bác bỏ H0 khi


H0:  = 0
H1:   0 |z| > z/2

H0:  = 0 (hay   0)


H1:  < 0 z < - z

H0:  = 0 (hay  ≤ 0)


H1:  > 0 z > z
3. Kiểm định GT về trung bình tổng thể

Phương pháp p-value:


Về lý thuyết, phương pháp này cũng giống với
kiểm định z (hay kiểm định t), tuy nhiên thay vì
tính giá trị z (hoặc t) thì trong phương pháp p-
value, ta tính toán giá trị kiểm định p.
p (hay p-value) là 2 lần xác suất để đại lượng
ngẫu nhiên có phân phối chuẩn nhận giá trị lớn
hơn giá trị tuyệt đối của z.
3. Kiểm định GT về trung bình tổng thể

Phương pháp p-value:

p/2
/2 1- /2

-z/2 z z/2
3. Kiểm định GT về trung bình tổng thể

Phương pháp p-value:

Giả thuyết Bác bỏ H0 khi


H0:  = 0
H1:   0 p<

H0:  = 0 (hay   0)


H1:  < 0 p/2 < 

H0:  = 0 (hay  ≤ 0)


H1:  > 0 p/2 < 
3. Kiểm định GT về trung bình tổng thể

Ví dụ:
Đo chiều cao trung bình của 45 nữ sinh viên ngành
sư phạm ta có kết quả là:
Chiều cao (cm) Số sinh viên
< 150 5
150 – 155 20
155 – 160 15
160 - 165 5

Với độ tin cậy 90%, hãy kiểm định giả thuyết cho rằng
chiều cao trung bình của nữ sinh sư phạm là 155 cm.
4. Kiểm định GT về tỷ lệ tổng thể

Giá trị kiểm định:

pˆ  p0
z
p0 (1  p0 )
n
4. Kiểm định GT về tỷ lệ tổng thể

Tiêu chuẩn quyết định:

Giả thuyết Bác bỏ H0 khi


H0: p = p0
H1: p  p0 |z| > z/2

H0: p = p0 (hay p  p0)


H1: p < p0 z < - z

H0: p = p0 (hay p ≤ p0)


H1: p > p0 z > z
4. Kiểm định GT về tỷ lệ tổng thể

Ví dụ:
Một dây chuyền sản xuất được quảng cáo là có tỷ lệ
sản phẩm lỗi là 1%. Một công ty chọn ngẫu nhiên
300 sản phẩm thấy có 5 sản phẩm bị lỗi. Với độ tin
cậy 95%, quảng cáo của công ty này có tin cậy
không?
5. Kiểm định GT về phương sai tổng thể

Giá trị kiểm định:

(n  1) s 2
 
2

02
4. Kiểm định GT về phương sai tổng thể

Tiêu chuẩn quyết định:


Giả thuyết Bác bỏ H0 khi
H0:  = 
2
0
2  2   n21,1 /2
H1: 2   0
2

 2   n21, /2
Hoặc

 2   n21,1
H0: 2 = 02 (hay 2  02)
H1: 2 < 02
 
2 2
n 1,

2 2 2 2
5. Kiểm định GT về phương sai tổng thể

Ví dụ:
Một công ty muốn nghiên cứu về sự biến thiên của
năng suất lao động của công nhân. Chọn ngẫu nhiên
41 công nhân ta tính được s2 = 16. Với mức ý nghĩa
10%, có thể cho rằng phương sai của năng suất lao
động là 16,5 không. (biết năng suất lao động có phân
phối chuẩn)
CHƯƠNG VI

1 Khái niệm
2 Phân tích phương sai một yếu tố
3 Phân tích phương sai hai yếu tố
1. Khái niệm

Trong nghiên cứu, dựa vào trung bình mẫu của các
nhóm khác nhau, ta có thể kiểm định xem trung bình
tổng thể của hai nhóm có giống nhau hay không.
Việc làm này gọi là phân tích phương sai.
Thông thường, phân tích phương sai được sử dụng
để kiểm tra ảnh hưởng của một yếu tố này đến một
yếu tố khác.
1. Khái niệm

Ví dụ:
Muốn biết liệu rằng thu nhập của người có bằng đại
học và bằng trung cấp liệu có khác nhau hay không,
hay nói cách khác bằng cấp có ảnh hưởng đến thu
nhập hay không. Ta tiến hành chọn 2 nhóm ngẫu
nhiên, 1 nhóm gồm những người có bằng đại học, 1
nhóm gồm những người có bằng trung cấp. Tính thu
nhập trung bình của 2 nhóm, dựa vào phân tích
phương sai và cho kết luận.
2. Phân tích phương sai một yếu tố

Khái niệm:
Phân tích phương sai một yếu tố là phân tích ảnh
hưởng của một yếu tố (biến nguyên nhân, định tính)
lên một yếu tố khác (biến kết quả, định lượng).
Ví dụ:
Phân tích ảnh hưởng của giới tính đến tuổi thọ
Phân tích ảnh hưởng của giới tính đến chiều cao

2. Phân tích phương sai một yếu tố

Trường hợp k tổng thể có phân phối chuẩn và


phương sai bằng nhau:
Giả thuyết kiểm định: H0: 1=2=3=k

Các bước thực hiện:


Bước 1: tính các trung bình mẫu và trung bình của
k mẫu.
Bước 2: Tính các tổng chênh lệch bình phương
Bước 3: Tính các phương sai
Bước 4: Kiểm định giả thuyết
2. Phân tích phương sai một yếu tố

B1: Tính các trung bình mẫu và trung bình chung


n
Trung bình mẫu: xi   xij
j 1

n x i i
Trung bình chung: x i 1
k

n
i 1
i
2. Phân tích phương sai một yếu tố

B2: Tính các tổng chênh lệch bình phương


Tổng các chênh lệch bình phương nội bộ nhóm
SSW

Tổng chênh lệch bình phương của từng nhóm SSi:


n
SSi   ( xij  xi ) 2
j 1

Tổng chênh lệch bình phương trong nội bộ nhóm


SSW: k
SSW   SSi
i 1
2. Phân tích phương sai một yếu tố

B2: Tính các tổng chênh lệch bình phương


Tổng các chênh lệch bình phương giữa các nhóm
SSG
k
SSG   ni ( xi  x ) 2
i 1

Tổng các chênh lệch bình phương toàn bộ SST

SST  SSW  SSG


2. Phân tích phương sai một yếu tố

B3: Tính các phương sai


Phương sai nội bộ nhóm MSW:

SSW
MSW 
nk
Phương sai giữa các nhóm:

SSG
MSG 
k 1
2. Phân tích phương sai một yếu tố

B4: Kiểm định giả thuyết:


Tính giá trị kiểm định

MSG
F
MSW
Bác bỏ H0 khi: F > Fk-1,n-k,

Với Fk-1,n-k, là giá trị tới hạn tra từ bảng phân phối F
với k-1 bậc tự do ở tử số và n-k bậc tự do ở mẫu số,
mức ý nghĩa .
2. Phân tích phương sai một yếu tố

Phân tích phương sai bằng Excel (hướng dẫn


trên excel 2007):
Chọn thẻ Data -> Data Analysis
(Nếu không có thì vào File/Excel option/Add-ins/Analysis
Toolpak/Go/check vào ô Analysis Toolpak/OK)
2. Phân tích phương sai một yếu tố

Chọn Anova: Single Factor -> OK


2. Phân tích phương sai một yếu tố

Nhập thông tin đầu vào -> OK


2. Phân tích phương sai một yếu tố

Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
Column 1
Column 2
Column 3

ANOVA
Source of
Variation SS df MS F P-value F crit
Between Thống kê
Groups SSG k-1 MSG F p F
Within
Groups SSW n-k MSW

Total SST n-1        


2. Phân tích phương sai một yếu tố

Phân tích sâu ANOVA:


Việc phân tích phương sai dẫn đến 1 trong 2 kết
luận:
Chấp nhận H0, bài toán kiểm định kết thúc.
Bác bỏ H0, tức là trung bình giữa các nhóm là
khác nhau. Vậy thì việc tiếp theo là xác định nhóm
nào khác nhóm nào, nhóm có trung bình lớn hơn
hay nhỏ hơn. Việc làm này gọi là phân tích sâu
ANOVA

Phương pháp được giới thiệu trong chương này gọi


là phương pháp Tukey
2. Phân tích phương sai một yếu tố

Phương pháp Tukey: k!


Nếu có k nhóm nghiên cứu thì sẽ có Ck 
2

2!(k  2)!
cặp nhóm cần so sánh.

Các giả thuyết cần kiểm định:

 H 0 : 1  2  H 0 :  2  3
  ....
 H1 : 1  2  H 1 :  2  3
2. Phân tích phương sai một yếu tố
Phương pháp Tukey:

Giá trị kiểm định: MSW


T  q ,k ,nk
ni
Trong đó:
q ,:là
k ,n giá
k trị tra bảng phân phối kiểm định Tukey ở
mức ý nghĩa , với bậc tự do là k và n-k
n :là tổng số quan sát mẫu
ni :là số quan sát trong 1 nhóm, nếu số quan sát
trong các nhóm khác nhau, sử dụng ni nhỏ nhất.
MSW :là phương sai nội bộ nhóm
2. Phân tích phương sai một yếu tố

Phương pháp Tukey:

Tiêu chuẩn quyết định:


Bác bỏ H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớn hơn hoặc bằng T.
2. Phân tích phương sai một yếu tố

Ví dụ:
Phân tích phương sai và phân tích sâu ANOVA để
kết luận về chiều cao trung bình của người dân 3
nước Việt Nam, Lào, Nhật Bản, giả định rằng chiều
cao của 3 nhóm có phân phối chuẩn và phương sai
bằng nhau. Một mẫu dữ liệu về chiều cao của 3
nhóm được chọn ngẫu nhiên để nghiên cứu như
sau:
2. Phân tích phương sai một yếu tố

Số người Số người
Chiều
cao Việt Nhật Chiều cao Việt Nhật
Lào Lào
Nam Bản Nam Bản
140 - 145 10 20 0170 - 175 40 50 390
145 - 150 200 290 10175 - 180 30 20 100
150 - 155 700 750 50180 - 185 10 10 90
155 - 160 600 550 350185 - 190 10 10 50
160 - 165 300 200 400190 - 195 0 0 10
165 - 170 100 100 550       
2. Phân tích phương sai một yếu tố

Trường hợp các tổng thể có phân phối bất kỳ:


Đọc thêm giáo trình
3. Phân tích phương sai hai yếu tố

Khái niệm:
Phân tích phương sai hai yếu tố là việc xem xét cùng
một lúc sự tác động của 2 yếu tố lên 1 yếu tố khác.
Ví dụ:
Phân tích ảnh hưởng của giới tính và khu vực (nông
thông/thành thị) đến chiều cao của học sinh.
3. Phân tích phương sai hai yếu tố

Trường hợp có 1 quan sát mẫu trong một ô:

Cột (nhóm)
Dòng
1 2 … K
1 x11 x21 xK1
2 x12 x22 xK2

H x1H x2H xKH
3. Phân tích phương sai hai yếu tố

H
Bước 1: Tính các trung bình:
x
j 1
ij
Trung bình riêng của từng nhóm: xi 
H
K

x ij
Trung bình riêng của từng khối: xj  i 1
K
K H K H
 x
i 1 j 1
ij x x i j
Trung bình chung: x  i 1
 i 1
n K H
3. Phân tích phương sai hai yếu tố

Bước 2: Tính tổng các chênh lệch bình phương:

1. Tổng các chênh lệch bình phương chung:


K H
SST  SSG  SSB  SSE   ( xij  x ) 2

i 1 j 1

2. Tổng các chênh lệch bình phương giữa các


nhóm:
K
SSG  H  ( xi  x ) 2
i 1
3. Phân tích phương sai hai yếu tố

3. Tổng các chênh lệch bình phương giữa các khối:


H
SSB  K  ( x j  x ) 2
j 1

4. Tổng các chênh lệch bình phương phần dư:


K H
SSE   ( xij  xi  x j  x )  SST  SSG  SSB
2

i 1 j 1
3. Phân tích phương sai hai yếu tố

Bước 3: Tính các phương sai:


SSG
1. Phương sai giữa các nhóm: MSG 
K 1

SSB
2. Phương sai giữa các khối: MSB 
H 1
SSE
Phương sai dư: MSE 
( K  1)( H  1)
3. Phân tích phương sai hai yếu tố

Bước 4: Giá trị kiểm định F1 và F2:

MSG
F1 
MSE

MSB
F2 
MSE
3. Phân tích phương sai hai yếu tố

Bước 5: Tiêu chuẩn quyết định:

Giả thuyết H0 của giá trị F1: trung bình của K tổng thể
theo yếu tố nguyên nhân thứ nhất (cột) bằng nhau.

Giả thuyết này bị bác bỏ nếu F1 > FK-1,(K-1)(H-1),

Với FK-1,(K-1)(H-1), là giá trị tra trong bảng phân phối F


với K-1 bậc tự do ở tử số và (K-1)(H-1) bậc tự do ở
mẫu số
3. Phân tích phương sai hai yếu tố

Bước 5: Tiêu chuẩn quyết định:

Giả thuyết H0 của giá trị F2: trung bình của H tổng thể
theo yếu tố nguyên nhân thứ hai (dòng) bằng nhau.

Giả thuyết này bị bác bỏ nếu F2 > FH-1,(K-1)(H-1),

Với FH-1,(K-1)(H-1), là giá trị tra trong bảng phân phối F


với H-1 bậc tự do ở tử số và (K-1)(H-1) bậc tự do ở
mẫu số
3. Phân tích phương sai hai yếu tố

Bảng kết quả tính trên Excel:


Anova: Two-Factor Without Replication

SUMMARY Count Sum Average Variance


Row 1
Row 2
Column 1
Column 2

ANOVA
Source of
Variation SS df MS F P-value F crit
Rows SSG K-1 MSG F1 TK F
Columns SSB H-1 MSB F2 TK F
Error SSE (K-1)(H-1) MSE
Total SST N-1        
3. Phân tích phương sai hai yếu tố

Trường hợp có nhiều quan sát mẫu trong một ô:


Các giả thuyết kiểm định:
1. Yếu tố 1 không ảnh hưởng đến kết quả
2. Yếu tố 2 không ảnh hưởng đến kết quả
3. Không có tác động qua lại giữa yếu tố thứ nhất và
yếu tố thứ 2.
3. Phân tích phương sai hai yếu tố

Kết quả tính trên Excel:

ANOVA
Source of
Variation SS df MS F P-value F crit
Sample SSG K-1 MSG F1 P-value T.Kê F
Columns SSB H-1 MSB F2 P-value T.Kê F
Interaction SSI (K-1)(H-1) MSI F3 P-value T.Kê F
Within SSE KH(L-1) MSE

Total SST KHL-1        


Thực hành

Thực hành trên máy, đọc và phân tích kết quả


1. Giới tính có ảnh hưởng đến kết quả học tập
không?
2. Giới tính có ảnh hưởng đến chiều cao không?
3. Giới tính và việc làm thêm có ảnh hưởng đến kết
quả học tập không?
4. Khu vực sống có ảnh hưởng đến kết quả học tập
không?
CHƯƠNG VII

1 Tương quan
2 Hồi quy
3 Hồi quy bội
1. Tương quan

Hệ số tương quan :
Là hệ số đo lường mức độ quan hệ tuyến tính giữa 2
biến ngẫu nhiên.

Gọi là hệ số tương quan giữa 2 biến X và Y:


 < 0, X và Y có mối quan hệ nghịch biến
 = 0, X và Y không có quan hệ tuyến tính
 > 0, X và Y có mối quan hệ đồng biến
1. Tương quan

Hệ số tương quan :
Trên thực tế, khi không thể nghiên cứu tổng thể, ta
có thể chọn mẫu và tính hệ số tương quan mẫu r.
n

 (x i  x )( yi  y )
r i 1
n n

 i
( x
i 1
 x ) 2
 i
( y  y ) 2

i 1

 x .y i i  n.x . y
Hoặc: r i 1

 n 2 
n
2 
  ( xi  n.x )   ( yi  n. y ) 
2 2

 i 1  i 1 
1. Tương quan

Kết quả tính toán trên Excel:

  Column 1 Column 2

Column 1 1

Column 2 -0.29334 1
1. Tương quan

Kiểm định giả thuyết về mối quan hệ tương quan:


Giả thuyết: H0:  = 0 (tức là không có tương quan
giữa 2 biến xem xét)
r
Giá trị kiểm định: t 
1 r2
n2

Tiêu chuẩn quyết định: bác bỏ H0 nếu: | t | > tn-2,/2


1. Tương quan

Hệ số tương quan hạng:


Trường hợp hai biến X, Y không có phân phối chuẩn,
hoặc dữ liệu được thể hiện dưới hình thức xếp hạng,
ta có thể đo lường mối quan hệ giữa X và Y bằng hệ
số tương quan hạng Spearman rs
Cách tính:
Xếp 2 biến X, Y theo thứ tự tăng dần từ 1 trở đi, nếu
giá trị bằng nhau thì xếp đồng hạng và hạng sẽ là
hạng trung bình
1. Tương quan

Hệ số tương quan hạng:


Hệ số tương quan hạng Spearman rs chính là hệ số
tương quan giữa các hạng của xi và yi
n

 (d ( x) i  d ( x))(d ( y )i  d ( y ))
r i 1
n n

 (
i 1
d ( x ) i  d ( x )) 2
 ( d (
i 1
y ) i  d ( y )) 2
1. Tương quan

Kiểm định giả thuyết về mối quan hệ tương quan:


Giả thuyết: H0: s = 0 (tức là không có tương quan
giữa 2 biến xem xét)

Giá trị kiểm định: rs

Tiêu chuẩn quyết định: bác bỏ H0 nếu: | rs | > rn,/2


2. Hồi quy

Khái niệm:
Hồi quy là việc xây dựng mô hình toán học nhằm thể
hiện 1 cách tốt nhất mối quan hệ giữa 2 biến X và Y.
Trong đó, 1 biến đóng vai trò là biến độc lập, 1 biến
đóng vai trò là biến phụ thuộc.
Trong chương này, ta chỉ xem xét hồi quy tuyến tính
2. Hồi quy

Mô hình hồi quy tuyến tính đơn giản của tổng


thể:
Giả sử có 2 biến X và Y, trong đó Y phụ thuộc tuyến
tính vào X, giá trị Yi được thể hiện bằng công thức:

Yi =  + Xi +i

 ,  là các hằng số
i là sai số ngẫu nhiên thể hiện ảnh hưởng của các
yếu tố khác lên Y. Một cách tổng quát, ta có mô hình
hồi quy tuyến tính đơn giản của tổng thể là:
Y =  + X +
2. Hồi quy

Mô hình hồi quy tuyến tính đơn giản của mẫu:

Yˆ  a  bX  e

Giá trị e là sai số giữa giá trị ước lượng và giá trị
thực tế, được tính bởi công thức:

n n n

 e   (Yi Y )   (Yi a  bX i )
i 1
2
i
ˆ
i 1
2

i 1
2
2. Hồi quy

Mô hình hồi quy tuyến tính đơn giản của mẫu:

Mô hình hồi quy cần tìm là mô hình hồi quy sao cho
e là nhỏ nhất.

Với điều kiện này, ta tính được:


n

 X Y  n( X )(Y )
i i
b i 1
n

 i
X 
i 1
n ( X ) 2

a  Y  bX
2. Hồi quy

Ví dụ:
Lập mô hình hồi quy điểm thi môn văn theo điểm thi
môn toán, dữ liệu cho ở bảng sau:
Toán Văn Toán Văn
7 7 6.25 5.75
7 6.5 5.5 7
6.5 6 6.25 6
6 8 5.25 5
7 5.75 6 6
5.75 8 6.5 6
6.25 7 6 6
6.5 5.25 6 5.5
6.75 6.5 4.5 6.5
6 7 5.25 7
2. Hồi quy

Đường hồi quy tuyến tính mẫu có dạng:

Yˆ  a  bX

Ta lần lượt tính các giá trị trung bình mẫu

X  6.1125
Y  6.3875
2. Hồi quy

STT x y x2 xy
1 7 7 49 49
2 7 6.5 49 45.5
3 6.5 6 42.25 39
… … … … …
… … … … …
20 5.25 7 27.5625 36.75
Tổng 122.25 127.75 755.1875 15617.44
2. Hồi quy

Tính toán các hệ số ước lượng:

Hệ số b:
n

 X Y  n( X )(Y )
i i
15617.44  20  6.1125  6.3875
b i 1
  23.738
n
122.25  20  6.1125 2

 i
X 
i 1
n ( X ) 2

Hệ số a:
a  Y  bX  6.3875  23.738  6.1125  151.488
2. Hồi quy

Vậy, mô hình hồi quy mẫu là:

Y  151.488  23.738 X  e

Đường hồi quy mẫu:

Yˆ  151.488  23.738 X
2. Hồi quy

Tính toán trên excel:


8
7
6 f(x) = − 0.07 x + 6.89
R² = 0.46
5
4
3
2
1
0
0 5 10 15 20 25
2. Hồi quy

Hệ số xác định:
Hệ số xác định là hệ số cho biết mô hình hồi quy giải
thích được bao nhiêu phần trăm biến thiên của biến
phụ thuộc.

Ta có, giá trị thực tế: Yi  a  bX i  ei


Giá trị hồi quy: Yˆi  a  bX i
Do đó: Yi  Yˆi  ei
Với ei là sai số giữa giá trị thực tế và giá trị hồi quy
2. Hồi quy

Tổng bình phương sai số:


Tổng bình phương sai số:
n
SST  SSR  SSE   (Yi  Y ) 2

i 1

Tổng bình phương sai số hồi quy:


n
SSR   (Yi  Y )
ˆ 2

i 1

Tổng bình phương sai số ngẫu nhiên:


n
SSE   e 2
i
i 1
2. Hồi quy

Hệ số xác định R2:

Thể hiện tỷ lệ biến thiên của Y được giải thích bới


mối liên hệ tuyến tính của Y theo X:

SSR SSE
R 
2
 1
SST SST
2. Hồi quy

Kiểm định F:
Kiểm định F được sử dụng nhằm kiểm định giả
thuyết về sự tồn tại của mối quan hệ tuyến tính giữa
X và Y.
Giả thuyết H0: không có tương quan giữa X và Y
Giá trị kiểm định: F
Tiêu chuẩn quyết định: p-value nhỏ hơn mức ý
nghĩa thì bác bỏ H0
Kết quả thực hiện trên Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.676294
R Square 0.457373
Adjusted R
Square 0.427227
Standard
Error 0.48907
Observatio
ns 20
ANOVA
Significanc
  df SS MS F eF
Regression 1 3.628971 3.628971 15.17197 0.001061
Residual 18 4.305404 0.239189
Total 19 7.934375     

Coefficient Standard Lower Upper


  s Error t Stat P-value Lower 95% Upper 95% 95.0% 95.0%
Intercept 6.888158 0.227188 30.31917 6.65E-17 6.410853 7.365463 6.410853 7.365463
X Variable
1 -0.07387 0.018965 -3.89512 0.001061 -0.11372 -0.03403 -0.11372 -0.03403
2. Hồi quy

Khoảng tin cậy của các hệ số hồi quy:


Với độ tin cậy 95%, khoảng tin cậy của các hệ số hồi
quy ( và ) là khoảng mà 95% khả năng có chứa hệ
số hồi quy.
Trên thực tế, ta thường quan tâm nhiều đến hệ số 
nhiều hơn, nó mang ý nghĩa là: khi biến độc lập X
thay đổi 1 đơn vị thì biến phụ thuộc Y thay đổi  đơn
vị.
Trong bảng kết quả hồi quy, khoảng này thể hiện ở
giá trị upper và lower của hệ số hồi quy.
3. Hồi quy bội

Khái niệm:
Trong thực tế, một biến Y không chỉ phụ thuộc vào
tác động của 1 biến X mà có thể cùng lúc chịu tác
động của hai hay nhiều biến khác nhau.
Hồi quy bội là hồi quy biến Y theo 2 hay nhiều biến.
Ví dụ:
Kết quả học tập của sinh viên có thể phụ thuộc vào
nhiều yếu tố: số giờ lên lớp, chỉ số IQ, thời gian tự
học, …
3. Hồi quy bội

Mô hình hồi quy bội của tổng thể:


Y =  + 1X1 + 2X2 + … + kXk + 
Trong đó:
Xi là các biến độc lập
Mô hình hồi quy bội của mẫu:
Ŷ = a + b1X1 + b2X2 + … + bkXk + e
Phương trình hồi quy bội của mẫu:
Ŷ = a + b1X1 + b2X2 + … + bkXk
3. Hồi quy bội

Ma trận tương quan:


Là ma trận hệ số tương quan giữa các cặp biến
quan sát.
  Column 1 Column 2 Column 3 Column 4 Column 5

Column 1 1

Column 2 -0.29334 1

Column 3 -0.03985 -0.20069 1

Column 4 0.435685 -0.22773 -0.01194 1

Column 5 0.513304 0.295492 -0.21159 0.005955 1


3. Hồi quy bội

Kiểm định F:
Là kiểm định được sử dụng nhằm kiểm định giả
thuyết về sự tồn tại mối quan hệ tuyến tính giữa biến
phụ thuộc Y với các biến độc lập Xi.
Giả thuyết H0: 1 = 2 = …= k = 0

Chấp nhận H0: không tồn tại quan hệ tuyến tính giữa
biến Y với bất kỳ biến độc lập nào
Bác bỏ H0: tồn tại ít nhất 1 quan hệ tuyến tính giữa
biến Y với các biến độc lập.
3. Hồi quy bội
Regression Statistics   
Multiple R 0.924009168
R Square 0.853792942
Adjusted R Square 0.844655001
Standard Error 0.446326244
Observations 35
ANOVA
df df SS MS F Significance F
Regression 2 37.225 18.613 93.434 0.000
Residual 32 6.375 0.199
Total 34 43.6     

Standard Lower Upper Lower Upper


    Coefficients Error t Stat P-value 95% 95% 95.0% 95.0%
Intercept 14.182 0.849 16.710 0.000 12.453 15.910 12.453 15.910
X Variable 1 -0.991 0.074 -13.481 0.000 -1.141 -0.842 -1.141 -0.842
X Variable 2 -0.946 0.114 -8.268 0.000 -1.179 -0.713 -1.179 -0.713
3. Hồi quy bội

Hệ số hồi quy từng phần:


Là các hệ số bi ước lượng được trong mô hình hồi
quy.
Hệ số này mang ý nghĩa: khi Xi thay đổi 1 đơn vị thì
Y thay đổi bao nhiêu đơn vị.
Trên bảng kết quả excel, hệ số này thể hiện ở cột
coefficients
3. Hồi quy bội

Kiểm định giả thuyết về các hệ số hồi quy:


Giả thuyết H0: i = 0 (nghĩa là biến Xi không ảnh
hưởng đến biến Y).
Có thể quyết định chấp nhận hay bác bỏ H0 dựa vào
thống kê t hoặc giá trị p-value.
p-value <  thì bác bỏ H0
3. Hồi quy bội
Regression Statistics   
Multiple R 0.924009168
R Square 0.853792942
Adjusted R Square 0.844655001
Standard Error 0.446326244
Observations 35
ANOVA
df df SS MS F Significance F
Regression 2 37.225 18.613 93.434 0.000
Residual 32 6.375 0.199
Total 34 43.6     

Standard Lower Upper Lower Upper


    Coefficients Error t Stat P-value 95% 95% 95.0% 95.0%
Intercept 14.182 0.849 16.710 0.000 12.453 15.910 12.453 15.910
X Variable 1 -0.991 0.074 -13.481 0.000 -1.141 -0.842 -1.141 -0.842
X Variable 2 -0.946 0.114 -8.268 0.000 -1.179 -0.713 -1.179 -0.713
3. Hồi quy bội

Hệ số xác định và hệ số xác định hiệu chỉnh:


Khi đánh giá mức độ giải thích của mô hình, số biến
độc lập tăng lên làm cho hệ số xác định R2 cũng tăng
lên. (Việc R2 tăng chỉ là do số biến tăng lên chứ
không phải do mô hình tốt hơn). Do đó, để đánh giá
chính xác hơn mức độ thích hợp của mô hình hồi
quy bội, ta sử dụng hệ số R2 hiệu chỉnh.
SSE / (n  (k  1))
R  1
2

SST / ( n  1)

You might also like