Bai Giang Nguyen Ly Thong Ke

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘ T
KHOA KINH TẾ
BÀI GIẢNG:
NGUYÊN LÝ THỐNG

KÊ KINH TẾ
GV: ThS. Nguyễn Thị Thanh Hoa

Nội dung môn học
Kiến thức nền tảng: LT xác suất và thống kê

Nội dung môn học:
Chương 1: Những vấn đề cơ bản về thống kê kinh tế
Chương 2: Thu thập và trình bày dữ liệu thống kê
Chương 3: Mô tả dữ liệu bằng các đặc trưng đo lường
Chương 4: Ước lượng và khoảng tin cậy
Chương 5: Kiểm định giả thiết
Chương 6: Phân tích phương sai
Chương 7: Tương quan và hồi quy
Giáo trình – Tài liệu tham khảo
1. Nguyên lý thống kê kinh tế – Hà Văn Sơn – NXB

Thống Kê.
2. Lý thuyết thống kê – Trần Ngọc Phác & Trần Thị Kim Thu
– NXB Thống Kê.
3. Thống kê ứng dụng trong kinh tế xã hô ̣i – Hoàng Trọng &
Chu Nguyễn Mô ̣ng Ngọc – NXB Thống Kê.
4. Xử lý dữ liệu nghiên cứu với SPSS - Hoàng Trọng - NXB
thống kê.
5. Statistics for Business and Economics - Paul Newbold -
Prentice Hall International.
Cách đánh giá môn học
- 30% kiểm tra trên lớp

+ Thực hành nhóm
+ Bài tâ ̣p cá nhân
- 70% điểm kiểm tra kết thúc học phần

CHƯƠNG I
1 Khái quát về thống kê
2 Một số khái niệm
3 Quá trình nghiên cứu thống kê
4 Các loại thang đo

1. Khái quát về thống kê
Thống kê
Số liệu được Hệ thống các

thu thập để phương pháp
phản ánh các được sử dụng
hiện tượng để nghiên cứu
kinh tế- xã các hiện tượng
hội, tự nhiên, kinh tế - xã hội,
kỹ thuật tự nhiên kỹ
thuật.
Thống kê là hệ thống các phương pháp dùng để

thu thập, xử lý và phân tích các con số (mặt
lượng) của hiện tượng số lớn nhằm tìm hiểu bản
chất và tính quy luật vốn có của chúng (mặt chất)
trong điều kiện thời gian và không gian cụ thể.
Ví dụ:
Thống kê tình hình sản xuất kinh doanh của công
ty: mỗi tháng bán được bao nhiêu sản phẩm,
doanh thu, lợi nhuận hàng tháng là bao nhiêu?
Thống kê về số tân sinh viên đậu vào các ngành
của 1 trường đại học/cao đẳng…
Nhiê ̣m vụ của thống kê:

• Cung cấp số liệu cần thiết cho việc xây dựng
các kế hoạch và chương trình phát triển kinh
tế – xã hội của doanh nghiệp, ngành, địa
phương và cả nước, kiểm tra, đánh giá việc
thực hiện kế hoạch qua từng thời kỳ.
• Đảm bảo thông tin tuyên truyền.
• Phản ánh trung thực về các hiện tượng kinh

tế, chính trị, xã hội, nhằm phục vụ tốt cho sự
lãnh đạo và quản lý.
Thống kê
Thống kê mô tả: Thống kê suy diễn:

Gồm các Gồm các phương
phương pháp thu pháp như ước
thập số liệu, mô lượng, kiểm định,
tả và trình bày số phân tích mối liên
liệu, tính toán hệ, dự đoán.. trên
các đặc trựng đo cơ sở các thông tin
lường. thu thập từ mẫu.
2. Mô ̣t số khái niêm
̣
Tổng thể: tập hợp tất cả các phần tử/đơn vị cần
quan sát, nghiên cứu/phân tích. Phần tử cấu tạo
nên tổng thể gọi là đơn vị tổng thể.
Mẫu: Một số đơn vị được chọn ra từ tổng thể theo
một phương thức nào đó.
̣
Biến: Đặc điểm của đơn vị tổng thể
Chỉ tiêu thống kê: Tiêu chí mà biểu hiện bằng số

của nó phản ánh quy mô, tốc độ phát triển, cơ
cấu, quan hệ tỷ lệ của hiện tượng kinh tế - xã
hội trong điều kiện không gian và thời gian cụ thể.
̣
Tổng thể
Tiềm ẩn Đồng Không

Bô ̣c lô ̣ chất đồng chất
̣
Ngẫu nhiên
Mẫu
Không ngẫu nhiên
Định tính: phản ánh tính chất,

Biến không biểu hiê ̣n bằng số.
Định lượng: biểu hiê ̣n bằng số
(rời rạc/liên tục)
̣
• Chỉ tiêu khối lượng: là chỉ tiêu biểu hiện quy

mô, khối lượng của hiện tượng nghiên cứu.
Vd: Số sinh viên tại một trường đại học, số
công nhân trong một doanh nghiệp…
Chỉ tiêu
• Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện trình

độ phổ biến, mối quan hệ của tổng thể như:
mức lương công nhân, năng suất lao động,
giá thành đơn vị sản phẩm, …
3. Quá trình nghiên cứu thống kê
1 - Xác định mục đích, đối tượng,

nội dung nghiên cứu
2 – Xây dựng hệ thống chỉ tiêu
thống kê
3 - Điều tra thống kê
4 - Tổng hợp thống kê
5 – Phân tích và dự báo
6 – Báo cáo, giải thích và truyền

đạt kết quả nghiên cứu.
4. Các loại thang đo
Thang đo định danh: dùng cho các biến định tính,

dùng số để biểu hiện các thuộc tính giống nhau
nhưng những số này không biểu hiện quan hệ hơn
kém, cao thấp.
Thang đo thứ bâ ̣c: Đây là thang đo định danh

nhưng giữa các biểu hiện của tiêu thức có quan hệ
hơn kém, cao thấp
Thang đo khoảng: Là thang đo thứ bậc có các

khoảng cách đều nhau nhưng không có giá trị “0”
thực (các phép tính cộng/trừ có ý nghĩa, nhưng tỉ
số không có nghĩa)..
Thang đo tỷ lê ̣: Là thang đo khoảng có giá trị “0”
thực.
Ví dụ:
1. Biến giới tính: nhận giá trị 1 nếu là nam và nhận
giá trị 0 nếu là nữ (mặc dù “0 < 1” nhưng ta không
thể so sánh trong trường hợp này là “nữ <
nam”) thang đo định danh.
2. Biến sự hài lòng của sinh viên với giảng viên:
1. Rất không hài lòng
2. Không hài lòng
3. Hài lòng
4. Rất hài lòng
Giá trị số ở đây cũng dùng để đo lường thuộc tính
và có thể so sánh với nhau  thang đo thứ bâ ̣c.
Ví dụ:
3. Biến nhiệt độ: có thể nhận giá trị 0oC nhưng điều
này không có nghĩa là không có nhiệt độ 
thang đo khoảng.
4. Thang đo tỷ lệ được sử dụng rất rộng rãi để đo
lường các hiện tượng kinh tế - xã hội, như: thu
nhập, chi tiêu, thời gian lao động, tuổi, số con ...
**** Thảo luâ ̣n
Chia nhóm:
1. Xác định 1 vấn đề cần nghiên cứu và nêu mục
đích nghiên cứu, xác định tổng thể, mẫu.
2. Xác định những biến cần quan sát và cho biết

biến sử dụng là định tính/định lượng (liên tục/rời
rạc)? Sử dụng loại thang đo nào?
Ví dụ:
Nghiên cứu về ảnh hưởng của việc tham gia
công tác Đoàn/Hội đến kết quả học tập của sinh
viên để biết liệu việc tham gia những công tác
này có ảnh hưởng đến kết quả học tập hay
không.
Biến cần thu thập:
1. Có tham gia công tác Đoàn/Hội hay không

Trả lời: 1 (có) 2 (không)
 Biến định tính, thang đo định danh
2. Viê ̣c tham gia có thường xuyên hay không?

Trả lời:
1 – không bao giờ
2 – hiếm khi
3 – thỉnh thoảng
3 – thường xuyên
 Biến định tính, thang đo thứ bậc
3. Thời gian tham gia trong một tuần?

 Biến định lượng, thang đo tỉ lệ
4. Mục đích tham gia của anh/chị là:

1 – Có sân chơi lành mạnh
2 – Có thêm kiến thức xã hội
3 – Rèn luyện kỹ năng mềm (giao tiếp, thuyết
trình, …)
4 – Mục đích khác (ghi rõ)
 Biến định tính, thang đo định danh

CHƯƠNG II
1 Xác định dữ liệu cần thu thập

2 Sai số thống kê
3 Lý thuyết phân tổ
4 Bảng dữ liệu
5 Các loại biểu đồ

1. Xác định dữ liêụ cần thu thâ ̣p
Căn cứ vào nội dung/vấn đề và mục đích nghiên
cứu mà ta xác định xem cần thu thập những dữ
liệu gì, cách thức thu thập từng dữ liệu, nguồn
thu thập dữ liệu.
Dữ liệu thu thập phải có ý nghĩa đối với vấn đề
đang nghiên cứu, tránh việc thu thập dữ liệu
không cần thiết, gây mất thời gian và kinh phí.
Ví dụ: Một nghiên cứu nhằm tiếp thị cho sản phẩm
VINAMILK.
Một số dữ liê ̣u có thể thu thâ ̣p:
1. Anh/chị đã từng sử dụng sản phẩm này chưa?
2. Anh/chị biết đến sản phẩm này qua kênh thông tin
nào? (báo, tivi, bạn bè/người thân, …)
3. Điều gì khiến anh/chị hài lòng nhất về sản phẩm
(hương vị, kiểu dáng, thương hiệu, giá, …)
4. Anh/chị thường mua sản phẩm này ở đâu? (Chợ,
siêu thị, cửa hàng bán lẻ)
5. Anh/chị chi bao nhiêu tiền cho sản phầm này hàng
tháng.
6. ……
Dữ liêụ
Định tính: được Định lượng: được

thu thập từ biến thu thập từ biến
định tính. Phản định lượng. Phản
ánh tính chất, ánh mức độ, giá trị
thuộc tính hoặc thường trả lới câu
loại hình của các hỏi “bao nhiêu”.
đối tượng nghiên
cứu.
Thang đo định danh hay thứ bậc.

Dữ liê ̣u
định tính Có thể có dạng con số nhưng chúng
không có ý nghĩa số học.
Thang đo khoảng hay tỷ lệ

Dữ liê ̣u Khó thu thập nhưng cung cấp nhiều
định thông tin hơn định tính & dê áp
lượng dụng nhiều phương pháp phân tích
hơn.
Nguồn
dữ liêụ
Sơ cấp: thu thập Thứ cấp: thu thập

trực tiếp, ban đầu từ những nguồn
từ đối tượng có sẵn, đó chính là
nghiên cứu. những dữ liệu đã
qua tổng hợp, xử
lý.
Thu thâ ̣p dữ liê ̣u sơ cấp

Trực tiếp: thu thập dữ liệu ban đầu thông qua tiếp xúc
trực tiếp, phỏng vấn đối tượng điều tra, trực tiếp
quan sát hay hỏi, ghi chép, phản ánh các số liệu vào
mẫu biểu điều tra,nghiên cứu thực nghiệm.
Ưu điểm: có thể phát hiện sai sót trong khi cung cấp dữ
liệu của đơn vị điều tra, kịp thời điều chỉnh.
Nhược điểm: đòi hỏi nhiều nhân lực, chi phí cao.
Gián tiếp: thông qua bản viết của đơn vị điều tra, qua
điện thoại; qua sổ sách kế toán có sẵn.
Ưu điểm: ít tốn kém so với phương pháp trực tiếp.
Nên dùng khi không có điều kiện thu thập trực tiếp
Nguồn dữ liê ̣u thứ cấp

• Nội bộ
• Cơ quan thống kê nhà nước
• Cơ quan chính phủ
• Báo, tạp chí
• Các tổ chức hiệp hội, viện nghiên cứu
• Các công ty nghiên cứu và cung cấp thông tin
2. Sai số thông kê
Khái niê ̣m:

Là chênh lệch giữa thông tin điều tra so với mức
độ thực tế của đơn vị điều tra.
Hâ ̣u quả:
- Giảm chất lượng kết quả điều tra
- Giảm tính chính xác khi phân tích và dự báo
thống kê.
2. Sai số thông kê
Nguyên nhân – Cách khắc phục:

- Do ghi chép
- Do hiệu chỉnh
- Do không hiểu chính xác về câu hỏi điều tra
- Do công cụ đo lường
- Do ý thức trách nhiệm của nhân viên điều
tra/nhập liệu.
- Do chọn mẫu.
….
3. Lý thuyết phân tổ
Khái niê ̣m
là căn cứ vào một hay một số biến (đặc trưng)

nào đó để sắp xếp các đơn vị quan sát vào các
tổ, nhóm có tinh chất khác nhau, hay nói cách
khác là chia tổng thể hay mẫu nghiên cứu thành
các tổ, nhóm có tính chất khác nhau.
Các bước tiến hành phân tổ:

1. Chọn tiêu thức (biến) phân tổ.
2. Xác định số tổ và phạm vi biến thiên của

từng tổ.
3. Lựa chọn các chỉ tiêu giải thích và sắp xếp

các đơn vị vào các tổ tương ứng.
Chọn tiêu thức (biến) phân tổ:

Việc lựa chọn tiêu thức phân tổ phải đảm bảo phản
ánh đúng bản chất của hiện tượng mà mục đích
nghiên cứu đề ra.
Để xác định tiêu thức phân tổ cần dựa vào cơ sở
phân tích lý luận, điều kiện lịch sử cụ thể của hiện
tượng và mục tiêu nghiên cứu.
Xác định số tổ và phạm vi biến thiên của từng tổ
Đối với biến định tính:
- Nếu nhận một vài giá trị có thể chia mỗi giá trị
thành 1 tổ
VD: giới tính, trình độ
- Nếu nhận nhiều giá trị, ta ghép những giá trị giống
hoặc gần giống thành 1 tổ
VD: ghép các quốc gia cùng khu vực thành 1 tổ,
ghép các môn học cùng lĩnh vực thành 1 tổ.
Xác định số tổ và phạm vi biến thiên của từng tổ
Đối với biến định lượng:
- Nếu nhận một vài giá trị có thể chia mỗi giá trị
thành 1 tổ
VD: hệ số lương
- Nếu nhận nhiều giá trị, tùy vào bản chất hiện
tượng nghiên cứu và mục đích nghiên cứu mà ta
có thể phân tổ có khoảng cách đều hoặc không
đều.
Khi phân tổ đều ta cần tính số tổ và khoảng cách
tổ:
- Số tổ (k): dựa vào kinh nghiệm hoặc tính theo
công thức: k = (2n)1/3 với n là số quan sát.
VD: n = 180 thì số tổ là: k = (2.180) 1/3  7,1
Số tổ = 7 tổ
xmax  xmin
- Khoảng cách tổ (h): h
k
VD: xmax = 28; xmin = 11; k = 5
Khi đó: 28  11
h  3, 4
5
Ta lấy h = 4
Một số lưu ý:

- Đối với biến rời rạc, phân tổ sao cho giá trị cận
trên và cận dưới 2 tổ liền kề không trùng nhau.
- Đối với biến liên tục, giá trị cận trên và cận dưới 2
tổ liên tiếp là như nhau, nếu giá trị quan sát bằng
đúng giá trị cận trên thì sẽ được tính vào tổ kế tiếp.
(Điều này không đúng khi thực hiện trên excel)
VD: Phân tổ độ tuổi của công nhân xí nghiê ̣p X
25 25 29 19 20
22 29 30 37 41
37 39 38 40 30
24 32 31 34 42
36 27 26 27 35
19 42 20 42 23
28 32 24 40 30
23 31 31 22 40
25 28 27 34 18
20 40 38 21 31
- Số tổ: k = (2.50) 1/3  4,6 = 5 tổ
- Khoảng cách tổ (h):

42  18
h  4,8
5
Ta lấy h = 5
Phương pháp nhánh và lá.

Trở lại ví dụ trước, ta thấy độ tuổi công nhân chỉ
dao động từ 18 đến 42 nên có thể phân nhóm
theo phương pháp nhánh và lá như sau:
1: 899
2: 000122334455567778899
3: 000111122445677889
4: 0001222
Phân tổ mở

Phân tổ mở là tổ đầu tiên không có giới hạn
dưới và tổ cuối cùng không có giới hạn trên.
Khi khả năng xuất hiện dữ liệu rất nhỏ/rất lớn,
cần mở rộng vùng biến thiên của dữ liệu, ta
thường phân tổ mở.
Trở lại ví dụ trên, ta có thể phân tổ như sau:
< 23
23 – 27
28 – 32
33 – 37
> 37
Cumulative Cumulative
Bin Frequency % Bin Frequency %
22 9 18.00% 32 13 26.00%
27 11 40.00% 27 11 48.00%
32 13 66.00%More 11 70.00%
37 6 78.00% 22 9 88.00%
More 11 100.00% 37 6 100.00%

Histogram
14 120.00%
12 100.00%
10 80.00%
Frequency
8
60.00%
6
4 40.00%
2 20.00%
0 0.00%
32 27 More 22 37
Bin
Frequency Cumulative %
4. Bảng dữ liêụ
Ngành Số sinh viên

Kinh tế 1000
Ngoại ngữ 350
Môi trường 100
Xây dựng 200
Kiến trúc 200
Số sinh viên

Ngành
CĐ ĐH
Kinh tế 200 800
Ngoại ngữ 50 300
Môi trường 50 50
Xây dựng 50 150
Kiến trúc 50 150
Số sinh viên

Ngành
CĐ ĐH
HL trên 7,0 50 100
Kinh tế
HL dưới 7,0 150 700
HL trên 7,0 15 50
Ngoại ngữ
HL dưới 7,0 35 250
HL trên 7,0 10 15
Môi trường
HL dưới 7,0 40 35
HL trên 7,0 5 25
Xây dựng
HL dưới 7,0 45 125
HL trên 7,0 15 30
Kiến trúc
HL dưới 7,0 35 120
5. Các loại biểu đồ
Biểu đồ tần số hình cột

Số sinh viên
1200
1000
1000
800
600
Số sinh
400 350 viên
200 200
200 100
0
Biểu đồ cơ cấu
11%
11% Kinh tế

Ngoại ngữ
5% Môi trường
54% Xây dựng
Kiến trúc
19%
Biểu đồ thời gian

3000000
2500000
2000000
1500000
1000000
500000
0
Chia nhóm:
1. Xác định 1 vấn đề cần nghiên cứu, xác định
biến thích hợp.
2. Xác định nguồn dữ liệu (sơ cấp/thứ cấp),
phương pháp thu thập.
3. Xác định biến phân tổ, tiến hành phân tổ
4. Trình bày dưới dạng bảng và đồ thị thích hợp.
CHƯƠNG III
1 Số tuyệt đối
2 Số tương đối
3 Các đặc trưng ĐL khuynh hướng tập trung
4 Các đặc trưng đo lường độ phân tán
5 Biểu đồ hộp và râu
6 Chuẩn hóa dữ liệu
1. Số tuyệt đối
Khái niê ̣m
Số tuyệt đối là chỉ tiêu biểu hiện quy mô, khối

lượng của hiện tượng kinh tế - xã hội.
VD:
Số sinh viên có mặt trong lớp

Số nữ sinh cao trên 1m8
Số tuyệt đối thời kỳ Số tuyệt đối thời điểm
Được đo lường Được đo lường tại

trong 1 khoảng thời 1 thời điểm xác
gian định.
Phép cộng có ý Phép cộng không
nghĩa có ý nghĩa
Doanh thu, số sinh Diện tích, dân số,…

viên bỏ học,…
Đơn vị tính
Đơn vị hiện vật tự nhiên: cái, con, cây, chiếc, người, …

Đơn vị hiện vật quy ước: mét, kg, lít, giờ, …
Đơn vị tiền tệ: đồng, đô la, …

Đơn vị thời gian lao động: giờ công, …
2. Số tương đối
Khái niệm
Số tương đối trong thống kê là chỉ tiêu biểu hiện

quan hệ so sánh giữa hai mức độ của hiện
tượng nghiên cứu
VD: Mật độ dân số: so sánh giữa tổng số dân và
diện tích (người/km2)
Năng suất lúa: so sánh khối lượng lúa thu
hoạch với diện tích (tấn/ha)
2. Số tương đối
Số tương đối động
Số tương đối thái định gốc
động thái
Số tương đối động
thái liên hoàn
Số tương đối kế Số tương đối nhiệm vụ

hoạch kế hoạch
Số
tương
Số tương đối kết Số tương đối hoàn
đối
cấu thành kế hoạch
Số tương đối
cường độ
Số tương đối
không gian
2.1 Số tương đối động thái
Khái niệm:
Số tương đối động thái (tốc độ phát triển) là số
tương đối so sánh mức độ của cùng 1 hiện
tượng ở 2 thời gian khác nhau:
y1
t 
y0
Trong đó:
t: số tương đối động thái
y0: mức độ của hiện tượng kỳ gốc
y1: mức độ của hiện tượng kỳ nghiên cứu
Ví dụ:
Năm 2013, địa bàn huyện xảy ra 28 vụ tai nạn
giao thông
Năm 2014, cũng trên địa bàn này xảy ra 35 vụ.
Khi đó, tốc độ gia tăng tai nạn giao thông là
y1 35
t   125%
y0 28
Ví dụ:
Doanh thu của DN X trong 6 tháng đầu năm
2013 như sau:
Đơn vị tính: tỷ đồng
T1 T2 T3 T4 T5 T6
1,25 1,40 1,55 1,45 1,45 1,58
Tính tốc độ tăng doanh thu hàng tháng của
doanh nghiệp so với tháng trước đó và so với
tháng 1/2013.
2.2 Số tương đối số kế hoạch
Số tương đối nhiệm vụ kế hoạch

So sánh mức độ kế hoạch so với mức độ thực tế
ở kỳ gốc.
yK
t NK 
y0
Trong đó:
tNK: số tương đối nhiệm vụ kế hoạch
y0: mức độ của hiện tượng kỳ gốc
2.2 Số tương đối kế hoạch
Số tương đối hoàn thành kế hoạch

So sánh mức độ thực tế đạt được với kế hoạch
đề ra.
y1
t HK 
yK
Trong đó:
tHK: số tương đối hoàn thành kế hoạch
y1: mức độ của hiện tượng kỳ nghiên cứu
2.2 Số tương đối kế hoạch
Ví dụ:
Tháng trước, Nam tiết kiệm được 500 ngàn
đồng, Nam lên kế hoạch sẽ tiết kiệm 700 ngàn
vào tháng này, tuy nhiên thực tế anh chỉ tiết kiệm
được 600 ngàn đồng. Tính số tương đối nhiệm
vụ kế hoạch và hoàn thành kế hoạch.
2.3 Số tương đối kết cấu
Khái niệm:
Số tương đối kết cấu là số tương đối xác định tỷ
trọng của mỗi bộ phận cấu thành tổng thể.
yi
di  n
y
i 1
i
Với:
di: tỷ trọng bộ phận thứ i
yi: mức độ bộ phận thứ i
2.3 Số tương đối kết cấu
Ví dụ:
Số sinh viên các ngành của khoa kinh tế tuyển
sinh năm 2015 như sau:
Ngành Số sinh viên
Kế toán 100
Quản trị kinh doanh 200
Quản lý công nghiệp 80
Tài chính ngân hàng 120
Tính tỷ trọng sinh viên mỗi ngành.

2.4 Số tương đối cường độ
Khái niệm:
Số tương đối cường độ là kết quả so sánh mức
độ của 2 hiện tượng khác nhau nhưng có liên
quan với nhau
Ví dụ:
Vận tốc = (đoạn đường/thời gian) km/h
Bao nhiêu hình/giây, …
2.4 Số tương đối cường độ
Số tương đối cường độ thường được sử dụng

để đánh giá năng suất lao động, chất lượng
cuộc sống, trình độ phát triển, … và là cơ sở để
so sánh 2 chủ thể/đối tượng với nhau.
Ví dụ:
Mật độ dân số
Thu nhập bình quân đầu người
Năng suất cây trồng
2.5 Số tương đối không gian
Khái niệm:
Số tương đối không gian là kết quả so sánh giữa
hai mức độ của một hiện tượng nhưng khác
nhau về không gian, hoặc so sánh giữa hai bộ
phận trong cùng một tổng thể
Ví dụ:
Dân số tỉnh Bình Dương/Dân số Tp HCM
Tỷ lệ giới tính nam/nữ
3. Các đặc trưng ĐL kh.hướng tập trung
• Biểu hiện mức độ đại biểu theo tiêu thức số

lượng trong một tổng thể bao gồm nhiều đơn vị
cùng loại
• Tổng hợp và khái quát cao,nêu lên mức độ chung

nhất,phổ biến nhất,có tính chất đại biểu nhất của
tiêu thức nghiên cứu
• Đặc điểm san bằng mọi chênh lệch giữa các trị
số của tiêu thức nghiên cứu
3. Các đặc trưng ĐL kh.hướng tập trung
Các đặc trưng đo lường khuynh hướng tập

trung:
Trung bình cộng
Trung vị
Mốt
Trung bình nhân
3.1 Trung bình cộng
Được tính bằng cách đem tổng tất cả các giá trị
quan sát chia cho tổng số quan sát.
Trung bình cộng giản

đơn
Trung bình cộng
Trung bình cộng gia

quyền
Trung bình cộng giản đơn của tổng thể:

N
x i
 i 1
N
Trung bình cộng giản đơn của mẫu:
x i
x i 1
n
Ví dụ:
Điểm môn Toán của các học sinh trong tổ 1 như
sau:
Học sinh Điểm Học sinh Điểm
A 4 E 10
B 7 F 6
C 9 G 7
D 8 H 8
Tính điểm trung bình môn toán của tổ 1.

Ví dụ:
Một mẫu nghiên cứu gồm 8 công nhân với năng
suất (sản phẩm/ngày) như sau:
CN SP/ngày CN SP/ngày
A 200 E 250
B 190 F 260
C 240 G 255
D 270 H 265
Tính năng suất trung bình của mẫu.

Trung bình cộng gia quyền của tổng thể:

k
x .f i i
 i 1
k
f
i 1
i
Trung bình cộng gia quyềncủa mẫu:

k
x .f i i
x i 1
k
f
i 1
i
Ví dụ:
Dữ liệu về số môn học lại trong 1 học kỳ của
sinh viên:
Số môn Số SV
0 250
1 100
2 50
3 30
4 20
Tính số môn học lại trung bình của 1 sinh viên.
Đối với dữ liệu có trọng số thì trung bình cộng

được tính như là trung bình cộng gia quyền chỉ
thay đổi tần số bằng trọng số.
 x .w i i
x i 1
k
w
i 1
i
Ví dụ:
Tính điểm trung bình học kỳ của sinh viên biết:
Môn Số tín chỉ Điểm
NNLCB CN Mac -Lenin 5 7,5
Nguyên lý kế toán 4 9,1
Toán cao cấp C1 2 8,5
Môi trường và CN 2 7,6
Quản trị học 3 8,8
Đối với dữ liệu phân tổ giá trị đại diện cho mỗi tổ
là giá trị trung bình của cận trên và cận dưới của
tổ đó.
Đối với tổ mở: khoảng cách của tổ mở được tính
là khoảng cách của tổ gần nó nhất.
Ví dụ:
Tính chiều cao trung bình của sinh viên trong lớp
Chiều cao (cm) Số sinh
viên
< 150 5
150 – 160 20
160 – 170 15
170 - 180 5
 180 3
3.2 Trung vị (Me)
Khái niệm: là giá trị đứng giữa trong dãy số đã

được sắp xếp trật tự tăng dần. Số trung vị chia dãy
số làm hai phần, mỗi phần có số đơn vị bằng nhau.
Đặc điểm:
• Mỗi dãy số chỉ có một số trung vị
• Biểu hiện mức độ đại biểu của hiện tượng mà
không san bằng bù trừ chênh lệch giữa các giá
trị.
• Trung vị có thể thay số trung bình cộng. Là một
trong những chỉ tiêu dùng để nêu lên đặc trưng
phân phối của dãy số.
3.2 Trung vị (Me)
 Dữ liệu không có khoảng cách tổ, nếu n lẻ

Me=X(n+1)/2
VD: Điểm môn Xác suất thống kê của tổ 1 như
sau:
4.5 5 6 6.5 7 8 8 8.5 9
Ta có: n = 9
Me=X(n+1)/2 = X5 = 7
3.2 Trung vị (Me)
 Nếu n là số chẵn
VD: Điểm môn Xác suất thống kê của tổ 1 xếp

theo thứ tự tăng dần như sau:
4.5 5 6 6.5 7 7.5 8 8 8.5 9
Ta có: n = 10
3.2 Trung vị (Me)
 Đối với dữ liệu có khoảng cách tổ

Bước 1: Tính tần số tích lũy
Bước 2: Xác định nhóm chứa Me là tổ đầu

f i 1
tiên có tần số tích lũy 
2
Bước 3: Tính Me gần đúng

f i
 S Me1
M e  X Me (min)  hMe 2
f Me
3.2 Trung vị (Me)
Tính Me gần đúng

f i
 S Me1
M e  X Me (min)  hMe 2
f Me
• XMe (min) : giới hạn dưới của tổ có trung vị
• hMe: Trị số khoảng cách tổ có trung vị
• SMe-1: Tổng các tần số của các tổ đứng trước
tổ có trung vị
• fMe: Tần số của tổ có trung vị
• Σfi: Tổng các tần số
3.2 Trung vị (Me)
Ví dụ:
Tính số trung vị của chiều cao:
Chiều cao (cm) Số sinh
viên
< 150 5
150 – 160 20
160 – 170 15
170 - 180 5
 180 3
3.3 Mốt (Yếu vị - Mo)
• Khái niệm: đó là giá trị gặp nhiều lần nhất trong

tập dữ liệu. Sau trung vị, số mode cũng được
dùng mô tả mức độ tập trung của tập dữ liệu.
• Ký hiệu: M0
• Đặc điểm:
Không bị ảnh hường bởi giá trị đột biến
Sử dụng thang đo khác: định danh, thứ bậc
Một dãy có thể có nhiều giá trị mod, có dãy số
không có mod
Dữ liệu không có khoảng cách tổ:

Mốt là giá trị được lặp lại nhiều lần nhất, hay
nói cách khác là giá trị có tần số lớn nhất.
Ví dụ:
Điểm số Số sinh viên
4 10
5 15
6 30
7 52
8 15
9 2
Dữ liệu có khoảng cách tổ:

Xác định tổ chứa yếu vị. Tổ nào có tần số lớn
nhất thì tổ đó chứa mod.
Giá trị Mo được tính như sau:
f M 0  f M 0 1
M 0  X M 0 (min)  hM 0
( f M 0  f M 0 1 )  ( f M 0  f M 0 1 )
f M 0  f M 0 1
M 0  X M 0 (min)  hM 0
( f M 0  f M 0 1 )  ( f M 0  f M 0 1 )
• XMo (min) : giới hạn dưới của tổ chứa mod

• hMo: Trị số khoảng cách tổ chứa mod
• fMo : Tần số của tổ chứa mod
• fMo -1: Tần số của tổ đứng trước tổ chứa
mod
• fMo +1: Tần số của tổ đứng sau tổ chứa
mod
Ví dụ: Xác định chỉ số mod về khối lượng
Trọng lượng Số sản phẩm

(gam)
485 – 490 15
490 – 495 30
495 – 500 55
500 – 550 20
550 – 600 10
3.4 Trung bình nhân
Số trung bình nhân thông thường được sử

dụng để tính trung bình cho tốc độ phát triển
hay tốc độ tăng trưởng.
Tùy vào dạng dữ liệu mà ta có thể áp dụng
công thức tính trung bình nhân giản đơn hay
trung bình nhân có trọng số
Trung bình nhân giản đơn:
X  n X 1. X 2 . X 3 .... X n
Trung bình nhân có trọng số:

n
 fi n
X  X . X ... X
n
1
f1
2
f2
n
fn
 i 1
X
i 1
i
fi
Ví dụ:
Tính tốc độ tăng trưởng doanh thu hàng năm
của doanh nghiệp và tốc độ tăng trưởng doanh
thu trung bình
Năm Doanh thu (tỷ đồng)

2000 150
2001 180
2002 200
2003 220
2004 210
4. Các đặc trưng ĐL độ phân tán
Biểu hiện mức độ phân tán của dữ liệu.

Các đặc trưng này bao gồm:
Khoảng biến thiên R
Tứ phân vị
Độ trải giữa RQ
Độ lệch tuyệt đối trung bình
Phương sai
Độ lệch chuẩn
Hệ số biến thiên CV
Hình dáng phân phối của dãy số
4.1 Khoảng biến thiên R
Khái niệm:
Khoảng biến thiên R là chênh lệch giữa giá trị lớn
nhất và giá trị nhỏ nhất của dãy số
Công thức tính:
R  xmax  xmin
4.1 Khoảng biến thiên R
Ví dụ:
Xác định khoảng biến thiên về doanh thu:

2000 150
2001 180
2002 200
2003 220
2004 210
4.2 Tứ phân vị
Khái niệm:
Tứ phân vị là giá trị mà tại đó nó chia dãy số thành
4 phần, mỗi phần có số đơn vị là như nhau.
Ý nghĩa:
Tứ phân vị thứ nhất Q1: 25% dữ liệu có giá trị nhỏ
hơn hoặc bằng Q1
Tứ phân vị thứ hai Q2: là trung vị
Tứ phân vị thứ ba Q3: 25% dữ liệu có giá trị lớn
hơn hoặc bằng Q3
4.2 Tứ phân vị
Đối với dữ liệu không có khoảng cách tổ
Q1  X ( n1)/4
Q 2  X 2( n1)/4  X ( n1)/2
Q3  X 3( n1)/4
4.2 Tứ phân vị
Ví dụ: Tìm tứ phân vị về điểm của các học sinh

sau:
A 4.5 G 10
B 7 H 6.5
C 9 I 7
D 6 J 8
E 7.5 K 7.5
F 8.5 L 8
4.2 Tứ phân vị
Đối với dữ liệu có khoảng cách tổ
1
4
 f  SQ1 ( 1)
Q1  X Q1 min  hQ1
f Q1
3
4
 f  SQ3 ( 1)
Q3  X Q3 min  hQ3
f Q3
4.2 Tứ phân vị
Trong đó:
Tổ chứa Q1 là tổ đầu tiên có tần số tích lũy  (n+1)/4
Tổ chứa Q3 là tổ đầu tiên có tần số tích lũy 
3(n+1)/4
X Q1 min
: giá trị nhỏ nhất của tổ chứa Q 1
SQ1 ( :1)tần số tích lũy của tổ trước tổ chứa Q

1
hQ1
: khoảng cách của tổ chứa Q1
f Q1
: tần số của tổ chứa Q1
4.2 Tứ phân vị
Ví dụ: Tìm tứ phân vị về trọng lượng sản phẩm
Trọng lượng Số sản

(gam) phẩm
485 – 490 15
490 – 495 30
495 – 500 55
500 – 550 20
550 – 600 10
4.3 Độ trải giữa RQ
Khái niệm:
Độ trải giữa RQ là chênh lệch giữa tứ phân vị thứ 3
và tứ phân vị thứ nhất.
Công thức:
RQ  Q3  Q1
4.3 Độ trải giữa RQ
Ví dụ:
Xác định độ trải giữa của dữ liệu sau:
A 4.5 G 10
B 7 H 6.5
C 9 I 7
D 6 J 8
E 7.5 K 7.5
F 8.5 L 8
4.4 Độ lệch tuyệt đối trung bình
Khái niệm:
Độ lệch tuyệt đối trung bình là trung bình cộng tất
cả các giá trị tuyệt đối giữa các giá trị quan sát với
trung bình cộng của tổng thể (hoặc mẫu).
Công thức:
n k
x i x x i  x . fi
d  i 1
; d  i 1
k
n
f
i 1
i
4.4 Độ lệch tuyệt đối trung bình
Ví dụ:
Xác định độ lệch tuyệt đối trung bình của dữ liệu
sau:
2000 150
2001 180
2002 200
2003 220
2004 210
4.5 Phương sai
Khái niệm:
Phương sai là trung bình cộng tất cả các bình
phương sai số của giá trị từng quan sát với trung
bình tổng thể (hoặc mẫu).
Hay
Phương sai là trung bình của các độ lệch bình
phương giữa các giá trị xi với trung bình số học.
Đo mức độ phân tán của các biến lượng xung
quanh số bình quân.
4.5 Phương sai
Phương sai tổng thể chung

• Trường hợp không có quyền số
N
 (x i  ) 2
2  i 1
N
• Trường hợp có quyền số
k
 i
( x   ) 2
. fi
2  i 1
k
f
i 1
i
4.5 Phương sai
n
Phương sai mẫu
S 2 
 (x
i 1
i  x) 2

n
n
• Trường hợp có quyền số S 2 

 i
( x
i 1
 x ) 2
. fi
n
f i 1
i
• Công thức khác S 2   x 2   ( x ) 2

4.5 Phương sai
Phương sai mẫu hiệu chỉnh:

n
 (x i  x) 2
s 
2 i 1
n 1
• Trường hợp có quyền số k
 (x i  x) . fi 2
s 
2 i 1
k
f
i 1
i 1
4.6 Độ lệch chuẩn
Độ lệch chuẩn: đo lường sự biến thiên của một tập

dữ liệu, khi hai tập dữ liệu có cùng giá trị trung
bình, tập dữ liệu nào có độ lệch chuẩn lớn hơn sẽ
biên thiên nhiều hơn.
Là căn bậc hai của phương sai cũng tính tương tự
trong trường hợp có quyền số và không quyền số.
• Đối với tổng thể:   2
• Đối với mẫu: s s 2

Ví dụ:
Xác định phương sai và độ lệch chuẩn hiệu chỉnh
của mẫu nghiên cứu sau:
2000 150
2001 180
2002 200
2003 220
2004 210
Ý nghĩa:
Độ lệch chuẩn được sử dụng nhiều hơn phương
sai do có cùng đơn vị với dữ liệu.
Độ lệch chuẩn cũng được sử dụng rộng rãi hơn độ
lệch tuyệt đối trung bình, do độ lệch tuyệt đối trung
bình làm giới hạn các khả năng tính toán về mặt số
học
Ý nghĩa:
Độ lệch chuẩn cho biết sự phân phối của các giá
trị trong một tập dữ liệu thể hiện trên 2 quy tắc sau:
Quy tắc Tchebychev:
Bất kỳ một tổng thể nào với trung bình là  và độ
lệch chuẩn là , thì có ít nhất 100(1-1/m2)% giá trị
rơi vào khoảng   m với m > 1
Quy tắc thực nghiệm:
Đối với tổng thể lớn, phân phối của các giá trị có
dạng gần giống hình chuông, có thể sử dụng phân
phối chuẩn để mô tả hình dáng của phân phối.
m 1,5 2 2,5 3
100(1-1/m2) 55,6% 75% 84% 88,9%
Bảng trên hàm ý:

- Có ít nhất 55,6% giá trị dữ liệu rơi vào khoảng 
 1,5
- Có ít nhất 75% giá trị rơi vào khoảng   2
 - 2  - 1,5   +1,5  + 2
Ít nhất 55,6% giá trị

nằm trong khoảng này
Ít nhất 75% giá trị nằm trong

khoảng này
Quy tắc thực nghiệm:

Khoảng 68% giá trị rơi vào khoảng   so với giá
trị trung bình.
Khoảng 95% giá trị rơi vào khoảng  2 so với giá
trị trung bình.
Khoảng 99,3% giá trị rơi vào khoảng  3 so với
giá trị trung bình.
 - 3  - 2  - 1  +  +2  + 3
68%
95%
99,73%
4.7 Hệ số biến thiên CV
Hệ số biến thiên: đo lường cho hai tập dữ liệu

có trị trung bình khác nhau bằng cách so sánh
giữa độ lệch chuẩn với số trung bình cộng
• Tính bằng độ lệch chuẩn

• Tổng thể CV  .100%

s
• Mẫu CV  .100%
x
• Tính bằng độ lệch tuyệt đối bình quân
d
CV  100
X
4.7 Hệ số biến thiên CV
Ví dụ:
Xác định hệ số biến thiên trong mẫu nghiên cứu
sau:
2000 150
2001 180
2002 200
2003 220
2004 210
Tính toán trên excel
Vào thẻ Data/Data Analysis/Descriptive/OK

Column1
Mean 6.625
Standard Error 0.239356777
Median 6.75
Mode 7
Standard Deviation 0.478713554
Sample Variance 0.229166667
Kurtosis -1.289256198
Skewness -0.854563038
Range 1
Minimum 6
Maximum 7
Sum 26.5
Count 4
4.8 Hình dáng phân phối của dãy số
Xác định được trung bình, trung vị, yếu vị ta có thể

biết được hình dáng phân phối của dãy số
f(x)
Phân phối đối xứng  = Me = Mo

f(x)
 Me Mo
Phân phối lệch trái  < Me < Mo

f(x)
Mo Me 
Phân phối lệch phải  > Me > Mo

CHƯƠNG IV
1 Ước lượng điểm
2 Ước lượng khoảng

Ước lượng là gì?
Khái niệm:
Trong nghiên cứu điều tra chọn mẫu, cái ta muốn
kết luận là đặc trưng của tổng thể, nhưng số liệu
tính toán được là số liệu đại diện cho mẫu, việc
sử dụng những hiểu biết về tham số của mẫu để
suy ra cho tổng thể ta gọi là ước lượng.
Tham số mẫu Tham số tổng thể
2
ˆ,s
x, p  , p,  2
1. Ước lượng điểm
Ta có: E( X )  
E(Pˆ)  p
E (S 2 )   2
Vì vậy:
x ước lượng không chệch của 
là
p̂ ước lượng không chệch của p
là
s2 là ước lượng không chệch của 2
2. Ước lượng khoảng
Khái niệm:
Trong ước lượng điểm, ta sử dụng đặc trưng của
mẫu để ước lượng cho đặc trưng tổng thể. Và đặc
trưng của tổng thể có khả năng lớn là không trùng
với đặc trưng của mẫu, do đó, để tăng độ tin cậy,
thay vì sử dụng 1 hằng số ta có thể tìm 1 khoảng
chứa đặc trưng tổng thể. Việc làm này gọi là ước
lượng khoảng. Và khoảng tìm được gọi là khoảng
tin cậy.
Giả sử tổng thể có đặc trưng  chưa biết, căn cứ

vào mẫu nghiên cứu gồm n đơn vị ta tìm khoảng
(1,2) sao cho:
P(1 ≤  ≤ 2) = 1 - 
Khi đó:
(1,2) : gọi là khoảng ước lượng
1 -  :gọi là độ tin cậy của khoảng ước lượng
 :gọi là mức ý nghĩa
|1,2|/2 : gọi là độ chính xác của ước lượng
khoảng.
/2 1- /2
1 2
Nếu  = 5%, nghĩa là 95% giá trị  nằm trong
khoảng (1,2), hay nói cách khác:
Xác suất giá trị  nằm ngoài khoảng này là 5%
Ví Dụ:
Ta cần biết điểm trung bình môn Xác suất thống kê
của sinh viên đại học Thủ Dầu Một, nhưng không thể
hỏi hết tất cả 5000 sinh viên đã học môn này, vì vậy
ta chọn ngẫu nhiên trong đó 100 sinh viên để nghiên
cứu. Điểm trung bình của 100 sinh viên nghiên cứu
là 6,5. Vậy dự đoán điểm trung bình của 5000 sinh
viên là bao nhiêu? Việc dự đoán này gọi là ước
lượng.
Cách 1:
Dự đoán điểm trung bình của 5000 sinh viên (trung
bình tổng thể) là 6,5 (bằng với trung bình mẫu). Đây
là ước lượng điểm.
Cách 2:
Dự đoán điểm trung bình của 5000 sinh viên gần với
6,5, và nằm trong khoảng (6, 7) tức là lớn hơn 6 và
nhỏ hơn 7. Đây là ước lượng khoảng.
Vậy: dự đoán nào đáng tin cậy hơn?

2.1 Ước lượng trung bình tổng thể
* Trường hợp n  30
2
Trung bình mẫu có phân phối chuẩn X ~ N ( , )
n
Do đó:  
x  z /2    x  z /2
n n
Với: z/2 là giá trị của đại lượng Z ~ N(0,1) sao cho:
P(Z > z/2 ) = /2
Nếu chưa biết phương sai tổng thể, ta có thể thay
bằng phương sai mẫu hiệu chỉnh.
Ví dụ:
Tìm khoảng ước lượng cho trung bình tổng thể với
độ tin cậy 95%, biết phương sai tổng thể là 70 và
một mẫu ngẫu nhiên gồm 1000 quan sát được chọn
có trung bình là 150.
• Trường hợp n < 30, tổng thể có phân phối

chuẩn, đã biết 
 
x  z /2    x  z /2
n n
• Trường hợp n < 30, tổng thể có phân phối
chuẩn, chưa biết 
s s
x  t( n1), /2    x  t( n1), /2
n n
Với: t(n-1),/2 là giá trị của đại lượng ngẫu nhiên
  phối theo quy luật Student với

X phân
T
s/ n
n – 1 bậc tự do thỏa mãn điều kiện:
P(|T| > t(n-1),/2 ) = /2
Ví dụ:
Ước lượng khoảng cho điểm trung bình của sinh
viên ngành QTKD với mức ý nghĩa 10%, biết một
mẫu ngẫu nhiên được chọn gồm 35 sinh viên có
điểm trung bình là 6,7 và phương sai hiệu chỉnh là 4.
Ví dụ:
Ước lượng khoảng cho điểm trung bình của sinh
viên ngành Kế toán với độ tin cậy 90%, biết một mẫu
ngẫu nhiên được chọn có kết quả như sau:
Điểm TB Số SV Điểm TB Số SV
5.0 - 5.4 2 7.0 - 7.4 5
5.4 - 5.8 2 7.4 - 7.8 4
5.8 - 6.2 3 7.8 - 8.2 3
6.2 - 6.6 3 8.2 - 8.6 2
6.6 – 7.0 4 8.6 – 9.0 1
2.2 Ước lượng tỷ lệ tổng thể
Khi n khá lớn, thì tỷ lệ mẫu tuân theo quy luật phân
phối chuẩn:
ˆ pq
P ~ N ( p, )
n
Khi đó, khoảng ước lượng của tỷ lệ tổng thể là:
pˆ (1  pˆ ) pˆ (1  pˆ )
pˆ  z /2  p  pˆ  z /2
n n
2.2 Ước lượng tỷ lệ tổng thể
Ví dụ:
Một công ty muốn nghiên cứu về tỷ lệ sản phẩm bị
lỗi. Chọn ngẫu nhiên 300 sản phẩm thấy có 5 sản
phẩm bị lỗi. Với độ tin cậy 95%, hãy ước lượng tỷ lệ
sản phẩm lỗi của công ty.
2.3 Ước lượng phương sai tổng thể
Một tổng thể có phân phối chuẩn, phương sai sẽ

được ước lượng như sau:
(n  1) s 2
(n  1) s 2
  2
2
 n1, /2
2
 n1,1 /2
Trong đó:  2
n có
1 phân phối chi bình phương với n –
1 bậc tự do.
2.3 Ước lượng phương sai tổng thể
Ví dụ:
Một công ty muốn nghiên cứu về sự biến thiên của
năng suất lao động của công nhân. Chọn ngẫu nhiên
41 công nhân ta tính được s2 = 16. Hãy ước lượng
phương sai của năng suất lao động với mức ý nghĩa
5% (biết năng suất lao động có phân phối chuẩn)
2.4 Ước lượng 1 bên
Khái niệm:
Các ước lượng trình bày ở phần 2.1 đến 2.3 được
gọi là ước lượng đối xứng hay ước lượng 2 bên, tức
là ta vừa phải tìm cận trên vừa phải tìm cận dưới của
khoảng ước lượng.
Trường hợp chỉ cần tìm 1 cận trên (hoặc dưới) của
khoảng ước lượng ta gọi là ước lượng 1 bên
Công thức ước lượng bên trái:


Trung bình tổng thể: x  z 
n
Tỉ lệ tổng thể: pˆ (1  pˆ )
pˆ  z p
n
Phương sai tổng thể: (n  1) s 2

  2
 n1,
2
Công thức ước lượng bên phải:


Trung bình tổng thể:   x  z
n
pˆ (1  pˆ )
Tỉ lệ tổng thể: p  pˆ  z
n
( n  1) s 2
Phương sai tổng thể: 2  2
 n 1,1
*Trường hợp n  30
 
x  z /2    x  z /2
n n
*Trường hợp n < 30, pp chuẩn, đã biết 
 
x  z /2    x  z /2
n n
*Trường hợp n < 30, pp chuẩn, chưa biết 
s s
x  tn 1; /2    x  tn 1; /2
n n
Ví dụ:
Để theo dõi việc sử dụng điện của các hộ gia đình
trong tháng 6, một cơ quan thống kê thử 100 hộ gia
đình thì thấy lượng điện tiêu thụ trung bình là 150
KW, phương sai mẫu là 144. Với độ tin cậy 90%, hãy
cho biết trung bình 1 hộ gia đình sử dụng ít nhất là
bao nhiêu KW điện.
Bài tập tổng hợp

Nghiên cứu về độ tuổi công nhân tại một khu công
nghiệp, người ta thu được dữ liệu sau:
Độ tuổi Số công nhân

< 20 10
20 – 25 15
25 – 30 30
≥ 30 6
a/ Tìm khoảng ước lượng cho độ tuổi trung bình của công
nhân với mức ý nghĩa 1%
b/ Tìm khoảng ước lượng cho tỉ lệ công nhân dưới 20 tuổi với
mức ý nghĩa 2%
c/ Tìm khoảng ước lượng cho phương sai tổng thể với độ tin
cậy 95%
d/ Tìm khoảng ước lượng bên trái cho độ tuổi trung bình với
mức ý nghĩa 5%
e/ Tìm ước lượng điểm của phương sai tổng thể
f/ Tỉ lệ công nhân từ 20 đến dưới 30 tuổi nhiều nhất là bao
nhiêu (với độ tin cậy 90%)?
g/ Tìm khoảng ước lượng bên phải của phương sai với độ tin
cậy 95%
h/ Tìm ước lượng điểm cho tỉ lệ công nhân từ 30 tuổi trở lên.
CHƯƠNG V
1 Khái niệm
2 Giả thuyết H0 và giả thuyết H1
3 Kiểm định GT về trung bình tổng thể
4 Kiểm định GT về tỷ lệ tổng thể
5 Kiểm định GT về phương sai tổng thể
1. Khái niệm
Giả thuyết:
Là một phát biểu, một nhận định, một đề xuất về một
tham số hay quy luật phân phối nào đó của tổng thể
(có thể đúng hoặc sai).
Kiểm định giả thuyết:

Là tìm bằng chứng để bác bỏ hay không bác bỏ giả
thuyết đã nêu ra.
1. Khái niệm
Ví dụ:
Hiệu trưởng một trường đại học phát biểu rằng 80%
sinh viên của trường này ra trường có việc làm đúng
chuyên ngành.
Tuy nhiên, ta có quyền nghi ngờ về về điều này, vì
vậy, ta chọn ngẫu nhiên 50 sinh viên đã ra trường để
phỏng vấn, từ đó quyết định chấp nhận hay bác bỏ
giả thuyết ban đầu. Việc làm này gọi là kiểm định giả
thuyết. Giả thuyết ở đây là “80% sinh viên của
trường này ra trường có việc làm đúng chuyên
ngành”.
2. Giả thuyết H0 và giả thuyết H1
Một bài toán kiểm định nào cũng phải có 1 cặp giả
thuyết bao gồm :
Giả thuyết không : Ho (Null Hypothesis)
Giả thuyết đối : H1 (Alternative Hypothesis)
Giả thuyết H0 được viết như sau:

H0:  = 0
Với  có thể là trung bình tổng thể, phương sai tổng
thể hoặc tỷ lệ tổng thể
0 là một giá trị cho trước
Trong kiểm định 2 bên, miền bác bỏ nằm ở 2 bên
của miền chấp nhận.
Trong kiểm định 1 bên, miền bác bỏ nằm ở 1 bên
miền chấp nhận.
Giả thuyết H0:

Khi xây dựng H0, trong cấu trúc của nó phải luôn
luôn có dấu “ = ”, dấu bằng này có thể mang ý nghĩa
là :
=
≤
≥
Giả thuyết H1:

Là kết quả ngược lại của giả thuyết H0, nếu H0 đúng
thì H1 sai và ngược lại, nên H1 còn được gọi là giả
thuyết đối.
 H 0 :   0
Kiểm định 2 bên: 
 H1 :    0
 H 0 :   0  H 0 :   0
Kiểm định 1 bên:  H :    hay 
 1 0  H1 :    0
Việc kiểm định chỉ có thể đi đến 1 trong 2 quyết

định:
– Bác bỏ Ho (tức chấp nhận H1): có bằng
chứng thống kê để cho rằng H1 là đúng.
– Không bác bỏ Ho (tức loại H1) : tức là không

chứng minh thống kê được H1 là đúng
Trong kiểm định, ta sử dụng những thông tin từ

đặc trưng của mẫu để kết luận cho 1 giả thuyết
về đặc trưng tổng thể, vì vậy ta có thể phạm sai
lầm nếu đưa ra kết luận sai. Các sai lầm đó là:
 Sai lầm loại 1: giả thuyết H0 đúng nhưng qua
kiểm định ta kết luận là sai, vì vậy bác bỏ H0
 Sai lầm loại 2: giả thuyết H0 sai nhưng qua
kiểm định ta kết luận nó đúng vì vậy không thể
bác bỏ H0.
Các bước kiểm định:

1. Nhận dạng các tham số của tổng thể cần kiểm
định (vd: trung bình tổng thể, tỷ lệ tổng thể, …)
2. Xây dựng giả thuyết
3. Xác định mức ý nghĩa 
4. Tính toán các giá trị kiểm định
5. Xem xét bác bỏ hay chấp nhận giả thuyết (Ho)
6. Kết luận về bài toán kiểm định
3. Kiểm định GT về trung bình tổng thể
Trường hợp 1: n  30:

 H 0 :   0
Ta có giả thuyết: 
 H1 :    0
x  0
Tính giá trị của tiêu chuẩn kiểm định: z  
n
Dựa vào , tìm z/2
Nếu |z| > z/2 , ta bác bỏ giả thuyết H0, ngược lại
chấp nhận H0
Nếu chưa biết phương sai tổng thể, có thể thay
bằng phương sai mẫu hiệu chỉnh.
Trường hợp 2: n < 30, phân phối chuẩn, đã biết 2

Làm giống trường hợp 1.
Trường hợp 3: n < 30, pp chuẩn, chưa biết 2
x  0
Tính giá trị của tiêu chuẩn kiểm định: t 
s
Dựa vào , tìm t n
n-1,/2
Nếu |t| > tn-1,/2 , ta bác bỏ giả thuyết H0, ngược lại chấp
nhận H0
Chú ý:
Trong cả 3 trường hợp trên, khi bác bỏ H0 tức là
chấp nhận H1:   0 , khi đó:
Nếu x ,  ta0 kết luận  > 0
Nếu x , ta0 kết luận  < 
0
Ví dụ:
Đo chiều cao trung bình của 45 nữ sinh viên ngành sư
phạm ta có kết quả là:
Chiều cao (cm) Số sinh viên
< 150 5
150 – 155 20
155 – 160 15
160 - 165 5
Với độ tin cậy 95%, hãy kiểm định giả thuyết cho rằng
chiều cao trung bình của nữ sinh sư phạm là 157 cm.
Kiểm định 2 bên và kiểm định 1 bên:
Giả thuyết Bác bỏ H0 khi

H0:  = 0
H1:   0 |z| > z/2
H0:  = 0 (hay   0)

H1:  < 0 z < - z
H0:  = 0 (hay  ≤ 0)

H1:  > 0 z > z
Phương pháp p-value:

Về lý thuyết, phương pháp này cũng giống với
kiểm định z (hay kiểm định t), tuy nhiên thay vì
tính giá trị z (hoặc t) thì trong phương pháp p-
value, ta tính toán giá trị kiểm định p.
p (hay p-value) là 2 lần xác suất để đại lượng
ngẫu nhiên có phân phối chuẩn nhận giá trị lớn
hơn giá trị tuyệt đối của z.
p/2
/2 1- /2
-z/2 z z/2

H0:  = 0
H1:   0 p<
H0:  = 0 (hay   0)

H1:  < 0 p/2 < 
H0:  = 0 (hay  ≤ 0)

H1:  > 0 p/2 < 
Ví dụ:
Đo chiều cao trung bình của 45 nữ sinh viên ngành
sư phạm ta có kết quả là:
Chiều cao (cm) Số sinh viên
< 150 5
150 – 155 20
155 – 160 15
160 - 165 5
Với độ tin cậy 90%, hãy kiểm định giả thuyết cho rằng
chiều cao trung bình của nữ sinh sư phạm là 155 cm.
4. Kiểm định GT về tỷ lệ tổng thể
Giá trị kiểm định:
pˆ  p0
z
p0 (1  p0 )
n
Tiêu chuẩn quyết định:

H0: p = p0
H1: p  p0 |z| > z/2
H0: p = p0 (hay p  p0)

H1: p < p0 z < - z
H0: p = p0 (hay p ≤ p0)

H1: p > p0 z > z
Ví dụ:
Một dây chuyền sản xuất được quảng cáo là có tỷ lệ
sản phẩm lỗi là 1%. Một công ty chọn ngẫu nhiên
300 sản phẩm thấy có 5 sản phẩm bị lỗi. Với độ tin
cậy 95%, quảng cáo của công ty này có tin cậy
không?
5. Kiểm định GT về phương sai tổng thể
Giá trị kiểm định:
(n  1) s 2
 
2
02

H0:  = 
2
0
2  2   n21,1 /2
H1: 2   0
2
 2   n21, /2
Hoặc
 2   n21,1
H0: 2 = 02 (hay 2  02)
H1: 2 < 02
 
2 2
n 1,
2 2 2 2
Ví dụ:
Một công ty muốn nghiên cứu về sự biến thiên của
năng suất lao động của công nhân. Chọn ngẫu nhiên
41 công nhân ta tính được s2 = 16. Với mức ý nghĩa
10%, có thể cho rằng phương sai của năng suất lao
động là 16,5 không. (biết năng suất lao động có phân
phối chuẩn)
CHƯƠNG VI
1 Khái niệm
2 Phân tích phương sai một yếu tố
3 Phân tích phương sai hai yếu tố
1. Khái niệm
Trong nghiên cứu, dựa vào trung bình mẫu của các
nhóm khác nhau, ta có thể kiểm định xem trung bình
tổng thể của hai nhóm có giống nhau hay không.
Việc làm này gọi là phân tích phương sai.
Thông thường, phân tích phương sai được sử dụng
để kiểm tra ảnh hưởng của một yếu tố này đến một
yếu tố khác.
1. Khái niệm
Ví dụ:
Muốn biết liệu rằng thu nhập của người có bằng đại
học và bằng trung cấp liệu có khác nhau hay không,
hay nói cách khác bằng cấp có ảnh hưởng đến thu
nhập hay không. Ta tiến hành chọn 2 nhóm ngẫu
nhiên, 1 nhóm gồm những người có bằng đại học, 1
nhóm gồm những người có bằng trung cấp. Tính thu
nhập trung bình của 2 nhóm, dựa vào phân tích
phương sai và cho kết luận.
2. Phân tích phương sai một yếu tố
Khái niệm:
Phân tích phương sai một yếu tố là phân tích ảnh
hưởng của một yếu tố (biến nguyên nhân, định tính)
lên một yếu tố khác (biến kết quả, định lượng).
Ví dụ:
Phân tích ảnh hưởng của giới tính đến tuổi thọ
Phân tích ảnh hưởng của giới tính đến chiều cao
…
Trường hợp k tổng thể có phân phối chuẩn và

phương sai bằng nhau:
Giả thuyết kiểm định: H0: 1=2=3=k
Các bước thực hiện:

Bước 1: tính các trung bình mẫu và trung bình của
k mẫu.
Bước 2: Tính các tổng chênh lệch bình phương
Bước 3: Tính các phương sai
Bước 4: Kiểm định giả thuyết
B1: Tính các trung bình mẫu và trung bình chung

n
Trung bình mẫu: xi   xij
j 1
n x i i
Trung bình chung: x i 1
k
n
i 1
i
B2: Tính các tổng chênh lệch bình phương

Tổng các chênh lệch bình phương nội bộ nhóm
SSW
Tổng chênh lệch bình phương của từng nhóm SSi:

n
SSi   ( xij  xi ) 2
j 1
Tổng chênh lệch bình phương trong nội bộ nhóm

SSW: k
SSW   SSi
i 1
B2: Tính các tổng chênh lệch bình phương

Tổng các chênh lệch bình phương giữa các nhóm
SSG
k
SSG   ni ( xi  x ) 2
i 1
Tổng các chênh lệch bình phương toàn bộ SST
SST  SSW  SSG

B3: Tính các phương sai

Phương sai nội bộ nhóm MSW:
SSW
MSW 
nk
Phương sai giữa các nhóm:
SSG
MSG 
k 1
B4: Kiểm định giả thuyết:

Tính giá trị kiểm định
MSG
F
MSW
Bác bỏ H0 khi: F > Fk-1,n-k,
Với Fk-1,n-k, là giá trị tới hạn tra từ bảng phân phối F
với k-1 bậc tự do ở tử số và n-k bậc tự do ở mẫu số,
mức ý nghĩa .
Phân tích phương sai bằng Excel (hướng dẫn

trên excel 2007):
Chọn thẻ Data -> Data Analysis
(Nếu không có thì vào File/Excel option/Add-ins/Analysis
Toolpak/Go/check vào ô Analysis Toolpak/OK)
Chọn Anova: Single Factor -> OK

Nhập thông tin đầu vào -> OK

Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Column 1
Column 2
Column 3
ANOVA
Source of
Variation SS df MS F P-value F crit
Between Thống kê
Groups SSG k-1 MSG F p F
Within
Groups SSW n-k MSW
Total SST n-1

Phân tích sâu ANOVA:

Việc phân tích phương sai dẫn đến 1 trong 2 kết
luận:
Chấp nhận H0, bài toán kiểm định kết thúc.
Bác bỏ H0, tức là trung bình giữa các nhóm là
khác nhau. Vậy thì việc tiếp theo là xác định nhóm
nào khác nhóm nào, nhóm có trung bình lớn hơn
hay nhỏ hơn. Việc làm này gọi là phân tích sâu
ANOVA
Phương pháp được giới thiệu trong chương này gọi

là phương pháp Tukey
Phương pháp Tukey: k!

Nếu có k nhóm nghiên cứu thì sẽ có Ck 
2
2!(k  2)!
cặp nhóm cần so sánh.
Các giả thuyết cần kiểm định:
 H 0 : 1  2  H 0 :  2  3
  ....
 H1 : 1  2  H 1 :  2  3
Phương pháp Tukey:
Giá trị kiểm định: MSW

T  q ,k ,nk
ni
Trong đó:
q ,:là
k ,n giá
k trị tra bảng phân phối kiểm định Tukey ở
mức ý nghĩa , với bậc tự do là k và n-k
n :là tổng số quan sát mẫu
ni :là số quan sát trong 1 nhóm, nếu số quan sát
trong các nhóm khác nhau, sử dụng ni nhỏ nhất.
MSW :là phương sai nội bộ nhóm
Phương pháp Tukey:

Bác bỏ H0 khi độ lệch tuyệt đối giữa các cặp trung
bình mẫu lớn hơn hoặc bằng T.
Ví dụ:
Phân tích phương sai và phân tích sâu ANOVA để
kết luận về chiều cao trung bình của người dân 3
nước Việt Nam, Lào, Nhật Bản, giả định rằng chiều
cao của 3 nhóm có phân phối chuẩn và phương sai
bằng nhau. Một mẫu dữ liệu về chiều cao của 3
nhóm được chọn ngẫu nhiên để nghiên cứu như
sau:
Số người Số người
Chiều
cao Việt Nhật Chiều cao Việt Nhật
Lào Lào
Nam Bản Nam Bản
140 - 145 10 20 0170 - 175 40 50 390
145 - 150 200 290 10175 - 180 30 20 100
150 - 155 700 750 50180 - 185 10 10 90
155 - 160 600 550 350185 - 190 10 10 50
160 - 165 300 200 400190 - 195 0 0 10
165 - 170 100 100 550
Trường hợp các tổng thể có phân phối bất kỳ:

Đọc thêm giáo trình
3. Phân tích phương sai hai yếu tố
Khái niệm:
Phân tích phương sai hai yếu tố là việc xem xét cùng
một lúc sự tác động của 2 yếu tố lên 1 yếu tố khác.
Ví dụ:
Phân tích ảnh hưởng của giới tính và khu vực (nông
thông/thành thị) đến chiều cao của học sinh.
Trường hợp có 1 quan sát mẫu trong một ô:
Cột (nhóm)
Dòng
1 2 … K
1 x11 x21 xK1
2 x12 x22 xK2
…
H x1H x2H xKH
H
Bước 1: Tính các trung bình:
x
j 1
ij
Trung bình riêng của từng nhóm: xi 
H
K
x ij
Trung bình riêng của từng khối: xj  i 1
K
K H K H
 x
i 1 j 1
ij x x i j
Trung bình chung: x  i 1
 i 1
n K H
Bước 2: Tính tổng các chênh lệch bình phương:
1. Tổng các chênh lệch bình phương chung:

K H
SST  SSG  SSB  SSE   ( xij  x ) 2
i 1 j 1
2. Tổng các chênh lệch bình phương giữa các

nhóm:
K
SSG  H  ( xi  x ) 2
i 1
3. Tổng các chênh lệch bình phương giữa các khối:

H
SSB  K  ( x j  x ) 2
j 1
4. Tổng các chênh lệch bình phương phần dư:

K H
SSE   ( xij  xi  x j  x )  SST  SSG  SSB
2
i 1 j 1
Bước 3: Tính các phương sai:

SSG
1. Phương sai giữa các nhóm: MSG 
K 1
SSB
2. Phương sai giữa các khối: MSB 
H 1
SSE
Phương sai dư: MSE 
( K  1)( H  1)
Bước 4: Giá trị kiểm định F1 và F2:
MSG
F1 
MSE
MSB
F2 
MSE
Bước 5: Tiêu chuẩn quyết định:
Giả thuyết H0 của giá trị F1: trung bình của K tổng thể
theo yếu tố nguyên nhân thứ nhất (cột) bằng nhau.
Giả thuyết này bị bác bỏ nếu F1 > FK-1,(K-1)(H-1),
Với FK-1,(K-1)(H-1), là giá trị tra trong bảng phân phối F

với K-1 bậc tự do ở tử số và (K-1)(H-1) bậc tự do ở
mẫu số
Bước 5: Tiêu chuẩn quyết định:
Giả thuyết H0 của giá trị F2: trung bình của H tổng thể
theo yếu tố nguyên nhân thứ hai (dòng) bằng nhau.
Giả thuyết này bị bác bỏ nếu F2 > FH-1,(K-1)(H-1),
Với FH-1,(K-1)(H-1), là giá trị tra trong bảng phân phối F

với H-1 bậc tự do ở tử số và (K-1)(H-1) bậc tự do ở
mẫu số
Bảng kết quả tính trên Excel:

Anova: Two-Factor Without Replication
SUMMARY Count Sum Average Variance

Row 1
Row 2
Column 1
Column 2
ANOVA
Source of
Rows SSG K-1 MSG F1 TK F
Columns SSB H-1 MSB F2 TK F
Error SSE (K-1)(H-1) MSE
Total SST N-1
Trường hợp có nhiều quan sát mẫu trong một ô:

Các giả thuyết kiểm định:
1. Yếu tố 1 không ảnh hưởng đến kết quả
2. Yếu tố 2 không ảnh hưởng đến kết quả
3. Không có tác động qua lại giữa yếu tố thứ nhất và
yếu tố thứ 2.
Kết quả tính trên Excel:
ANOVA
Source of
Sample SSG K-1 MSG F1 P-value T.Kê F
Columns SSB H-1 MSB F2 P-value T.Kê F
Interaction SSI (K-1)(H-1) MSI F3 P-value T.Kê F
Within SSE KH(L-1) MSE
Total SST KHL-1

Thực hành
Thực hành trên máy, đọc và phân tích kết quả

1. Giới tính có ảnh hưởng đến kết quả học tập
không?
2. Giới tính có ảnh hưởng đến chiều cao không?
3. Giới tính và việc làm thêm có ảnh hưởng đến kết
quả học tập không?
4. Khu vực sống có ảnh hưởng đến kết quả học tập
không?
CHƯƠNG VII
1 Tương quan
2 Hồi quy
3 Hồi quy bội
1. Tương quan
Hệ số tương quan :
Là hệ số đo lường mức độ quan hệ tuyến tính giữa 2
biến ngẫu nhiên.
Gọi là hệ số tương quan giữa 2 biến X và Y:

 < 0, X và Y có mối quan hệ nghịch biến
 = 0, X và Y không có quan hệ tuyến tính
 > 0, X và Y có mối quan hệ đồng biến
1. Tương quan
Hệ số tương quan :
Trên thực tế, khi không thể nghiên cứu tổng thể, ta
có thể chọn mẫu và tính hệ số tương quan mẫu r.
n
 (x i  x )( yi  y )
r i 1
n n
 i
( x
i 1
 x ) 2
 i
( y  y ) 2
i 1
 x .y i i  n.x . y
Hoặc: r i 1
 n 2 
n
2 
  ( xi  n.x )   ( yi  n. y ) 
2 2
 i 1  i 1 
1. Tương quan
Kết quả tính toán trên Excel:
Column 1 Column 2
Column 1 1
Column 2 -0.29334 1
1. Tương quan
Kiểm định giả thuyết về mối quan hệ tương quan:

Giả thuyết: H0:  = 0 (tức là không có tương quan
giữa 2 biến xem xét)
r
Giá trị kiểm định: t 
1 r2
n2
Tiêu chuẩn quyết định: bác bỏ H0 nếu: | t | > tn-2,/2

1. Tương quan
Hệ số tương quan hạng:

Trường hợp hai biến X, Y không có phân phối chuẩn,
hoặc dữ liệu được thể hiện dưới hình thức xếp hạng,
ta có thể đo lường mối quan hệ giữa X và Y bằng hệ
số tương quan hạng Spearman rs
Cách tính:
Xếp 2 biến X, Y theo thứ tự tăng dần từ 1 trở đi, nếu
giá trị bằng nhau thì xếp đồng hạng và hạng sẽ là
hạng trung bình
1. Tương quan
Hệ số tương quan hạng:

Hệ số tương quan hạng Spearman rs chính là hệ số
tương quan giữa các hạng của xi và yi
n
 (d ( x) i  d ( x))(d ( y )i  d ( y ))
r i 1
n n
 (
i 1
d ( x ) i  d ( x )) 2
 ( d (
i 1
y ) i  d ( y )) 2
1. Tương quan
Kiểm định giả thuyết về mối quan hệ tương quan:

Giả thuyết: H0: s = 0 (tức là không có tương quan
giữa 2 biến xem xét)
Giá trị kiểm định: rs
Tiêu chuẩn quyết định: bác bỏ H0 nếu: | rs | > rn,/2

2. Hồi quy
Khái niệm:
Hồi quy là việc xây dựng mô hình toán học nhằm thể
hiện 1 cách tốt nhất mối quan hệ giữa 2 biến X và Y.
Trong đó, 1 biến đóng vai trò là biến độc lập, 1 biến
đóng vai trò là biến phụ thuộc.
Trong chương này, ta chỉ xem xét hồi quy tuyến tính
2. Hồi quy
Mô hình hồi quy tuyến tính đơn giản của tổng

thể:
Giả sử có 2 biến X và Y, trong đó Y phụ thuộc tuyến
tính vào X, giá trị Yi được thể hiện bằng công thức:
Yi =  + Xi +i
 ,  là các hằng số
i là sai số ngẫu nhiên thể hiện ảnh hưởng của các
yếu tố khác lên Y. Một cách tổng quát, ta có mô hình
hồi quy tuyến tính đơn giản của tổng thể là:
Y =  + X +
2. Hồi quy
Mô hình hồi quy tuyến tính đơn giản của mẫu:
Yˆ  a  bX  e
Giá trị e là sai số giữa giá trị ước lượng và giá trị
thực tế, được tính bởi công thức:
n n n
 e   (Yi Y )   (Yi a  bX i )
i 1
2
i
ˆ
i 1
2
i 1
2
2. Hồi quy
Mô hình hồi quy tuyến tính đơn giản của mẫu:
Mô hình hồi quy cần tìm là mô hình hồi quy sao cho
e là nhỏ nhất.
Với điều kiện này, ta tính được:

n
 X Y  n( X )(Y )
i i
b i 1
n
 i
X 
i 1
n ( X ) 2
a  Y  bX
2. Hồi quy
Ví dụ:
Lập mô hình hồi quy điểm thi môn văn theo điểm thi
môn toán, dữ liệu cho ở bảng sau:
Toán Văn Toán Văn
7 7 6.25 5.75
7 6.5 5.5 7
6.5 6 6.25 6
6 8 5.25 5
7 5.75 6 6
5.75 8 6.5 6
6.25 7 6 6
6.5 5.25 6 5.5
6.75 6.5 4.5 6.5
6 7 5.25 7
2. Hồi quy
Đường hồi quy tuyến tính mẫu có dạng:
Yˆ  a  bX
Ta lần lượt tính các giá trị trung bình mẫu
X  6.1125
Y  6.3875
2. Hồi quy
STT x y x2 xy
1 7 7 49 49
2 7 6.5 49 45.5
3 6.5 6 42.25 39
… … … … …
… … … … …
20 5.25 7 27.5625 36.75
Tổng 122.25 127.75 755.1875 15617.44
2. Hồi quy
Tính toán các hệ số ước lượng:
Hệ số b:
n
 X Y  n( X )(Y )
i i
15617.44  20  6.1125  6.3875
b i 1
  23.738
n
122.25  20  6.1125 2
 i
X 
i 1
n ( X ) 2
Hệ số a:
a  Y  bX  6.3875  23.738  6.1125  151.488
2. Hồi quy
Vậy, mô hình hồi quy mẫu là:
Y  151.488  23.738 X  e
Đường hồi quy mẫu:
Yˆ  151.488  23.738 X
2. Hồi quy
Tính toán trên excel:

8
7
6 f(x) = − 0.07 x + 6.89
R² = 0.46
5
4
3
2
1
0
0 5 10 15 20 25
2. Hồi quy
Hệ số xác định:
Hệ số xác định là hệ số cho biết mô hình hồi quy giải
thích được bao nhiêu phần trăm biến thiên của biến
phụ thuộc.
Ta có, giá trị thực tế: Yi  a  bX i  ei

Giá trị hồi quy: Yˆi  a  bX i
Do đó: Yi  Yˆi  ei
Với ei là sai số giữa giá trị thực tế và giá trị hồi quy
2. Hồi quy
Tổng bình phương sai số:

Tổng bình phương sai số:
n
SST  SSR  SSE   (Yi  Y ) 2
i 1
Tổng bình phương sai số hồi quy:

n
SSR   (Yi  Y )
ˆ 2
i 1
Tổng bình phương sai số ngẫu nhiên:

n
SSE   e 2
i
i 1
2. Hồi quy
Hệ số xác định R2:
Thể hiện tỷ lệ biến thiên của Y được giải thích bới

mối liên hệ tuyến tính của Y theo X:
SSR SSE
R 
2
 1
SST SST
2. Hồi quy
Kiểm định F:
Kiểm định F được sử dụng nhằm kiểm định giả
thuyết về sự tồn tại của mối quan hệ tuyến tính giữa
X và Y.
Giả thuyết H0: không có tương quan giữa X và Y
Giá trị kiểm định: F
Tiêu chuẩn quyết định: p-value nhỏ hơn mức ý
nghĩa thì bác bỏ H0
Kết quả thực hiện trên Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.676294
R Square 0.457373
Adjusted R
Square 0.427227
Standard
Error 0.48907
Observatio
ns 20
ANOVA
Significanc
df SS MS F eF
Regression 1 3.628971 3.628971 15.17197 0.001061
Residual 18 4.305404 0.239189
Total 19 7.934375
Coefficient Standard Lower Upper

s Error t Stat P-value Lower 95% Upper 95% 95.0% 95.0%
Intercept 6.888158 0.227188 30.31917 6.65E-17 6.410853 7.365463 6.410853 7.365463
X Variable
1 -0.07387 0.018965 -3.89512 0.001061 -0.11372 -0.03403 -0.11372 -0.03403
2. Hồi quy
Khoảng tin cậy của các hệ số hồi quy:

Với độ tin cậy 95%, khoảng tin cậy của các hệ số hồi
quy ( và ) là khoảng mà 95% khả năng có chứa hệ
số hồi quy.
Trên thực tế, ta thường quan tâm nhiều đến hệ số 
nhiều hơn, nó mang ý nghĩa là: khi biến độc lập X
thay đổi 1 đơn vị thì biến phụ thuộc Y thay đổi  đơn
vị.
Trong bảng kết quả hồi quy, khoảng này thể hiện ở
giá trị upper và lower của hệ số hồi quy.
3. Hồi quy bội
Khái niệm:
Trong thực tế, một biến Y không chỉ phụ thuộc vào
tác động của 1 biến X mà có thể cùng lúc chịu tác
động của hai hay nhiều biến khác nhau.
Hồi quy bội là hồi quy biến Y theo 2 hay nhiều biến.
Ví dụ:
Kết quả học tập của sinh viên có thể phụ thuộc vào
nhiều yếu tố: số giờ lên lớp, chỉ số IQ, thời gian tự
học, …
3. Hồi quy bội
Mô hình hồi quy bội của tổng thể:

Y =  + 1X1 + 2X2 + … + kXk + 
Trong đó:
Xi là các biến độc lập
Mô hình hồi quy bội của mẫu:
Ŷ = a + b1X1 + b2X2 + … + bkXk + e
Phương trình hồi quy bội của mẫu:
Ŷ = a + b1X1 + b2X2 + … + bkXk
3. Hồi quy bội
Ma trận tương quan:

Là ma trận hệ số tương quan giữa các cặp biến
quan sát.
Column 1 Column 2 Column 3 Column 4 Column 5
Column 1 1
Column 2 -0.29334 1
Column 3 -0.03985 -0.20069 1
Column 4 0.435685 -0.22773 -0.01194 1
Column 5 0.513304 0.295492 -0.21159 0.005955 1

3. Hồi quy bội
Kiểm định F:
Là kiểm định được sử dụng nhằm kiểm định giả
thuyết về sự tồn tại mối quan hệ tuyến tính giữa biến
phụ thuộc Y với các biến độc lập Xi.
Giả thuyết H0: 1 = 2 = …= k = 0
Chấp nhận H0: không tồn tại quan hệ tuyến tính giữa
biến Y với bất kỳ biến độc lập nào
Bác bỏ H0: tồn tại ít nhất 1 quan hệ tuyến tính giữa
biến Y với các biến độc lập.
3. Hồi quy bội
Multiple R 0.924009168
R Square 0.853792942
Adjusted R Square 0.844655001
Observations 35
ANOVA
df df SS MS F Significance F
Regression 2 37.225 18.613 93.434 0.000
Residual 32 6.375 0.199
Total 34 43.6
Standard Lower Upper Lower Upper

Coefficients Error t Stat P-value 95% 95% 95.0% 95.0%
Intercept 14.182 0.849 16.710 0.000 12.453 15.910 12.453 15.910
X Variable 1 -0.991 0.074 -13.481 0.000 -1.141 -0.842 -1.141 -0.842
X Variable 2 -0.946 0.114 -8.268 0.000 -1.179 -0.713 -1.179 -0.713
3. Hồi quy bội
Hệ số hồi quy từng phần:

Là các hệ số bi ước lượng được trong mô hình hồi
quy.
Hệ số này mang ý nghĩa: khi Xi thay đổi 1 đơn vị thì
Y thay đổi bao nhiêu đơn vị.
Trên bảng kết quả excel, hệ số này thể hiện ở cột
coefficients
3. Hồi quy bội
Kiểm định giả thuyết về các hệ số hồi quy:

Giả thuyết H0: i = 0 (nghĩa là biến Xi không ảnh
hưởng đến biến Y).
Có thể quyết định chấp nhận hay bác bỏ H0 dựa vào
thống kê t hoặc giá trị p-value.
p-value <  thì bác bỏ H0
3. Hồi quy bội
Multiple R 0.924009168
R Square 0.853792942
Adjusted R Square 0.844655001
Observations 35
ANOVA
df df SS MS F Significance F
Regression 2 37.225 18.613 93.434 0.000
Residual 32 6.375 0.199
Total 34 43.6
Standard Lower Upper Lower Upper

Coefficients Error t Stat P-value 95% 95% 95.0% 95.0%
Intercept 14.182 0.849 16.710 0.000 12.453 15.910 12.453 15.910
X Variable 1 -0.991 0.074 -13.481 0.000 -1.141 -0.842 -1.141 -0.842
X Variable 2 -0.946 0.114 -8.268 0.000 -1.179 -0.713 -1.179 -0.713
3. Hồi quy bội
Hệ số xác định và hệ số xác định hiệu chỉnh:

Khi đánh giá mức độ giải thích của mô hình, số biến
độc lập tăng lên làm cho hệ số xác định R2 cũng tăng
lên. (Việc R2 tăng chỉ là do số biến tăng lên chứ
không phải do mô hình tốt hơn). Do đó, để đánh giá
chính xác hơn mức độ thích hợp của mô hình hồi
quy bội, ta sử dụng hệ số R2 hiệu chỉnh.
SSE / (n  (k  1))
R  1
2
SST / ( n  1)

Bai Giang Nguyen Ly Thong Ke

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bai Giang Nguyen Ly Thong Ke

Uploaded by

Copyright:

Available Formats

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘ T

KHOA KINH TẾ

NGUYÊN LÝ THỐNG

GV: ThS. Nguyễn Thị Thanh Hoa

Kiến thức nền tảng: LT xác suất và thống kê

1. Nguyên lý thống kê kinh tế – Hà Văn Sơn – NXB

- 30% kiểm tra trên lớp

- 70% điểm kiểm tra kết thúc học phần

1 Khái quát về thống kê

2 Một số khái niệm

3 Quá trình nghiên cứu thống kê

4 Các loại thang đo

Số liệu được Hệ thống các

Thống kê là hệ thống các phương pháp dùng để

Nhiê ̣m vụ của thống kê:

• Đảm bảo thông tin tuyên truyền.

• Phản ánh trung thực về các hiện tượng kinh

Thống kê mô tả: Thống kê suy diễn:

Biến: Đặc điểm của đơn vị tổng thể

Chỉ tiêu thống kê: Tiêu chí mà biểu hiện bằng số

Tiềm ẩn Đồng Không

Định tính: phản ánh tính chất,

• Chỉ tiêu khối lượng: là chỉ tiêu biểu hiện quy

• Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện trình

1 - Xác định mục đích, đối tượng,

4 - Tổng hợp thống kê

5 – Phân tích và dự báo

6 – Báo cáo, giải thích và truyền

Thang đo định danh: dùng cho các biến định tính,

Thang đo thứ bâ ̣c: Đây là thang đo định danh

Thang đo khoảng: Là thang đo thứ bậc có các

2. Xác định những biến cần quan sát và cho biết

Biến cần thu thập:

1. Có tham gia công tác Đoàn/Hội hay không

2. Viê ̣c tham gia có thường xuyên hay không?

3. Thời gian tham gia trong một tuần?

4. Mục đích tham gia của anh/chị là:

 Biến định tính, thang đo định danh

1 Xác định dữ liệu cần thu thập

5 Các loại biểu đồ

Định tính: được Định lượng: được

Thang đo định danh hay thứ bậc.

Thang đo khoảng hay tỷ lệ

Sơ cấp: thu thập Thứ cấp: thu thập

Thu thâ ̣p dữ liê ̣u sơ cấp

Nguồn dữ liê ̣u thứ cấp

Khái niê ̣m:

Nguyên nhân – Cách khắc phục:

là căn cứ vào một hay một số biến (đặc trưng)

Các bước tiến hành phân tổ:

2. Xác định số tổ và phạm vi biến thiên của

3. Lựa chọn các chỉ tiêu giải thích và sắp xếp

Chọn tiêu thức (biến) phân tổ:

Một số lưu ý:

- Số tổ: k = (2.50) 1/3  4,6 = 5 tổ

- Khoảng cách tổ (h):

Phương pháp nhánh và lá.

Phân tổ mở

More 11 100.00% 37 6 100.00%

Ngành Số sinh viên

Số sinh viên

Số sinh viên

Biểu đồ tần số hình cột