Professional Documents
Culture Documents
BÀI GIẢNG:
Thống kê
Thống kê
Tổng thể: tập hợp tất cả các phần tử/đơn vị cần
quan sát, nghiên cứu/phân tích. Phần tử cấu tạo
nên tổng thể gọi là đơn vị tổng thể.
Mẫu: Một số đơn vị được chọn ra từ tổng thể theo
một phương thức nào đó.
2. Mô ̣t số khái niêm
̣
Tổng thể
Ngẫu nhiên
Mẫu
Không ngẫu nhiên
Ví dụ:
1. Biến giới tính: nhận giá trị 1 nếu là nam và nhận
giá trị 0 nếu là nữ (mặc dù “0 < 1” nhưng ta không
thể so sánh trong trường hợp này là “nữ <
nam”) thang đo định danh.
2. Biến sự hài lòng của sinh viên với giảng viên:
1. Rất không hài lòng
2. Không hài lòng
3. Hài lòng
4. Rất hài lòng
Giá trị số ở đây cũng dùng để đo lường thuộc tính
và có thể so sánh với nhau thang đo thứ bâ ̣c.
4. Các loại thang đo
Ví dụ:
3. Biến nhiệt độ: có thể nhận giá trị 0oC nhưng điều
này không có nghĩa là không có nhiệt độ
thang đo khoảng.
4. Thang đo tỷ lệ được sử dụng rất rộng rãi để đo
lường các hiện tượng kinh tế - xã hội, như: thu
nhập, chi tiêu, thời gian lao động, tuổi, số con ...
**** Thảo luâ ̣n
Chia nhóm:
1. Xác định 1 vấn đề cần nghiên cứu và nêu mục
đích nghiên cứu, xác định tổng thể, mẫu.
Ví dụ:
Nghiên cứu về ảnh hưởng của việc tham gia
công tác Đoàn/Hội đến kết quả học tập của sinh
viên để biết liệu việc tham gia những công tác
này có ảnh hưởng đến kết quả học tập hay
không.
Căn cứ vào nội dung/vấn đề và mục đích nghiên
cứu mà ta xác định xem cần thu thập những dữ
liệu gì, cách thức thu thập từng dữ liệu, nguồn
thu thập dữ liệu.
Dữ liệu thu thập phải có ý nghĩa đối với vấn đề
đang nghiên cứu, tránh việc thu thập dữ liệu
không cần thiết, gây mất thời gian và kinh phí.
1. Xác định dữ liêụ cần thu thâ ̣p
Ví dụ: Một nghiên cứu nhằm tiếp thị cho sản phẩm
VINAMILK.
Một số dữ liê ̣u có thể thu thâ ̣p:
1. Anh/chị đã từng sử dụng sản phẩm này chưa?
2. Anh/chị biết đến sản phẩm này qua kênh thông tin
nào? (báo, tivi, bạn bè/người thân, …)
3. Điều gì khiến anh/chị hài lòng nhất về sản phẩm
(hương vị, kiểu dáng, thương hiệu, giá, …)
4. Anh/chị thường mua sản phẩm này ở đâu? (Chợ,
siêu thị, cửa hàng bán lẻ)
5. Anh/chị chi bao nhiêu tiền cho sản phầm này hàng
tháng.
6. ……
1. Xác định dữ liêụ cần thu thâ ̣p
Dữ liêụ
Gián tiếp: thông qua bản viết của đơn vị điều tra, qua
điện thoại; qua sổ sách kế toán có sẵn.
Ưu điểm: ít tốn kém so với phương pháp trực tiếp.
Nên dùng khi không có điều kiện thu thập trực tiếp
1. Xác định dữ liêụ cần thu thâ ̣p
Khái niê ̣m
Xác định số tổ và phạm vi biến thiên của từng tổ
Đối với biến định tính:
- Nếu nhận một vài giá trị có thể chia mỗi giá trị
thành 1 tổ
VD: giới tính, trình độ
- Nếu nhận nhiều giá trị, ta ghép những giá trị giống
hoặc gần giống thành 1 tổ
VD: ghép các quốc gia cùng khu vực thành 1 tổ,
ghép các môn học cùng lĩnh vực thành 1 tổ.
3. Lý thuyết phân tổ
Xác định số tổ và phạm vi biến thiên của từng tổ
Đối với biến định lượng:
- Nếu nhận một vài giá trị có thể chia mỗi giá trị
thành 1 tổ
VD: hệ số lương
- Nếu nhận nhiều giá trị, tùy vào bản chất hiện
tượng nghiên cứu và mục đích nghiên cứu mà ta
có thể phân tổ có khoảng cách đều hoặc không
đều.
3. Lý thuyết phân tổ
Khi phân tổ đều ta cần tính số tổ và khoảng cách
tổ:
- Số tổ (k): dựa vào kinh nghiệm hoặc tính theo
công thức: k = (2n)1/3 với n là số quan sát.
VD: n = 180 thì số tổ là: k = (2.180) 1/3 7,1
Số tổ = 7 tổ
3. Lý thuyết phân tổ
xmax xmin
- Khoảng cách tổ (h): h
k
VD: xmax = 28; xmin = 11; k = 5
Khi đó: 28 11
h 3, 4
5
Ta lấy h = 4
3. Lý thuyết phân tổ
VD: Phân tổ độ tuổi của công nhân xí nghiê ̣p X
25 25 29 19 20
22 29 30 37 41
37 39 38 40 30
24 32 31 34 42
36 27 26 27 35
19 42 20 42 23
28 32 24 40 30
23 31 31 22 40
25 28 27 34 18
20 40 38 21 31
3. Lý thuyết phân tổ
1: 899
2: 000122334455567778899
3: 000111122445677889
4: 0001222
3. Lý thuyết phân tổ
Khi khả năng xuất hiện dữ liệu rất nhỏ/rất lớn,
cần mở rộng vùng biến thiên của dữ liệu, ta
thường phân tổ mở.
3. Lý thuyết phân tổ
Trở lại ví dụ trên, ta có thể phân tổ như sau:
< 23
23 – 27
28 – 32
33 – 37
> 37
3. Lý thuyết phân tổ
Cumulative Cumulative
Bin Frequency % Bin Frequency %
22 9 18.00% 32 13 26.00%
27 11 40.00% 27 11 48.00%
32 13 66.00%More 11 70.00%
37 6 78.00% 22 9 88.00%
Histogram
14 120.00%
12 100.00%
10 80.00%
Frequency
8
60.00%
6
4 40.00%
2 20.00%
0 0.00%
32 27 More 22 37
Bin
Frequency Cumulative %
4. Bảng dữ liêụ
11%
Chia nhóm:
1. Xác định 1 vấn đề cần nghiên cứu, xác định
biến thích hợp.
2. Xác định nguồn dữ liệu (sơ cấp/thứ cấp),
phương pháp thu thập.
3. Xác định biến phân tổ, tiến hành phân tổ
4. Trình bày dưới dạng bảng và đồ thị thích hợp.
CHƯƠNG III
1 Số tuyệt đối
2 Số tương đối
3 Các đặc trưng ĐL khuynh hướng tập trung
4 Các đặc trưng đo lường độ phân tán
5 Biểu đồ hộp và râu
6 Chuẩn hóa dữ liệu
1. Số tuyệt đối
Khái niê ̣m
Đơn vị tính
Khái niệm
Khái niệm:
Số tương đối động thái (tốc độ phát triển) là số
tương đối so sánh mức độ của cùng 1 hiện
tượng ở 2 thời gian khác nhau:
y1
t
y0
Trong đó:
t: số tương đối động thái
y0: mức độ của hiện tượng kỳ gốc
y1: mức độ của hiện tượng kỳ nghiên cứu
2.1 Số tương đối động thái
Ví dụ:
Năm 2013, địa bàn huyện xảy ra 28 vụ tai nạn
giao thông
Năm 2014, cũng trên địa bàn này xảy ra 35 vụ.
Khi đó, tốc độ gia tăng tai nạn giao thông là
y1 35
t 125%
y0 28
2.1 Số tương đối động thái
Ví dụ:
Doanh thu của DN X trong 6 tháng đầu năm
2013 như sau:
Đơn vị tính: tỷ đồng
T1 T2 T3 T4 T5 T6
1,25 1,40 1,55 1,45 1,45 1,58
Tính tốc độ tăng doanh thu hàng tháng của
doanh nghiệp so với tháng trước đó và so với
tháng 1/2013.
2.2 Số tương đối số kế hoạch
yK
t NK
y0
Trong đó:
tNK: số tương đối nhiệm vụ kế hoạch
y0: mức độ của hiện tượng kỳ gốc
2.2 Số tương đối kế hoạch
Ví dụ:
Tháng trước, Nam tiết kiệm được 500 ngàn
đồng, Nam lên kế hoạch sẽ tiết kiệm 700 ngàn
vào tháng này, tuy nhiên thực tế anh chỉ tiết kiệm
được 600 ngàn đồng. Tính số tương đối nhiệm
vụ kế hoạch và hoàn thành kế hoạch.
2.3 Số tương đối kết cấu
Khái niệm:
Số tương đối kết cấu là số tương đối xác định tỷ
trọng của mỗi bộ phận cấu thành tổng thể.
yi
di n
y
i 1
i
Với:
di: tỷ trọng bộ phận thứ i
yi: mức độ bộ phận thứ i
2.3 Số tương đối kết cấu
Ví dụ:
Số sinh viên các ngành của khoa kinh tế tuyển
sinh năm 2015 như sau:
Ngành Số sinh viên
Kế toán 100
Quản trị kinh doanh 200
Quản lý công nghiệp 80
Tài chính ngân hàng 120
Khái niệm:
Số tương đối cường độ là kết quả so sánh mức
độ của 2 hiện tượng khác nhau nhưng có liên
quan với nhau
Ví dụ:
Vận tốc = (đoạn đường/thời gian) km/h
Bao nhiêu hình/giây, …
2.4 Số tương đối cường độ
Khái niệm:
Số tương đối không gian là kết quả so sánh giữa
hai mức độ của một hiện tượng nhưng khác
nhau về không gian, hoặc so sánh giữa hai bộ
phận trong cùng một tổng thể
Ví dụ:
Dân số tỉnh Bình Dương/Dân số Tp HCM
Tỷ lệ giới tính nam/nữ
3. Các đặc trưng ĐL kh.hướng tập trung
• Đặc điểm san bằng mọi chênh lệch giữa các trị
số của tiêu thức nghiên cứu
3. Các đặc trưng ĐL kh.hướng tập trung
Được tính bằng cách đem tổng tất cả các giá trị
quan sát chia cho tổng số quan sát.
x i
i 1
N
Trung bình cộng giản đơn của mẫu:
x i
x i 1
n
3.1 Trung bình cộng
Ví dụ:
Điểm môn Toán của các học sinh trong tổ 1 như
sau:
Học sinh Điểm Học sinh Điểm
A 4 E 10
B 7 F 6
C 9 G 7
D 8 H 8
Ví dụ:
Một mẫu nghiên cứu gồm 8 công nhân với năng
suất (sản phẩm/ngày) như sau:
CN SP/ngày CN SP/ngày
A 200 E 250
B 190 F 260
C 240 G 255
D 270 H 265
x .f i i
i 1
k
f
i 1
i
x .f i i
x i 1
k
f
i 1
i
3.1 Trung bình cộng
Ví dụ:
Dữ liệu về số môn học lại trong 1 học kỳ của
sinh viên:
Số môn Số SV
0 250
1 100
2 50
3 30
4 20
Tính số môn học lại trung bình của 1 sinh viên.
3.1 Trung bình cộng
x .w i i
x i 1
k
w
i 1
i
3.1 Trung bình cộng
Ví dụ:
Tính điểm trung bình học kỳ của sinh viên biết:
Môn Số tín chỉ Điểm
NNLCB CN Mac -Lenin 5 7,5
Nguyên lý kế toán 4 9,1
Toán cao cấp C1 2 8,5
Môi trường và CN 2 7,6
Quản trị học 3 8,8
3.1 Trung bình cộng
Đối với dữ liệu phân tổ giá trị đại diện cho mỗi tổ
là giá trị trung bình của cận trên và cận dưới của
tổ đó.
Đối với tổ mở: khoảng cách của tổ mở được tính
là khoảng cách của tổ gần nó nhất.
3.1 Trung bình cộng
Ví dụ:
Tính chiều cao trung bình của sinh viên trong lớp
Chiều cao (cm) Số sinh
viên
< 150 5
150 – 160 20
160 – 170 15
170 - 180 5
180 3
3.2 Trung vị (Me)
Đặc điểm:
• Mỗi dãy số chỉ có một số trung vị
• Biểu hiện mức độ đại biểu của hiện tượng mà
không san bằng bù trừ chênh lệch giữa các giá
trị.
• Trung vị có thể thay số trung bình cộng. Là một
trong những chỉ tiêu dùng để nêu lên đặc trưng
phân phối của dãy số.
3.2 Trung vị (Me)
Ta có: n = 9
Me=X(n+1)/2 = X5 = 7
3.2 Trung vị (Me)
Nếu n là số chẵn
Ta có: n = 10
3.2 Trung vị (Me)
• XMe (min) : giới hạn dưới của tổ có trung vị
• hMe: Trị số khoảng cách tổ có trung vị
• SMe-1: Tổng các tần số của các tổ đứng trước
tổ có trung vị
• fMe: Tần số của tổ có trung vị
• Σfi: Tổng các tần số
3.2 Trung vị (Me)
Ví dụ:
Tính số trung vị của chiều cao:
Chiều cao (cm) Số sinh
viên
< 150 5
150 – 160 20
160 – 170 15
170 - 180 5
180 3
3.3 Mốt (Yếu vị - Mo)
f M 0 f M 0 1
M 0 X M 0 (min) hM 0
( f M 0 f M 0 1 ) ( f M 0 f M 0 1 )
X n X 1. X 2 . X 3 .... X n
fi n
X X . X ... X
n
1
f1
2
f2
n
fn
i 1
X
i 1
i
fi
3.4 Trung bình nhân
Ví dụ:
Tính tốc độ tăng trưởng doanh thu hàng năm
của doanh nghiệp và tốc độ tăng trưởng doanh
thu trung bình
Khái niệm:
Khoảng biến thiên R là chênh lệch giữa giá trị lớn
nhất và giá trị nhỏ nhất của dãy số
R xmax xmin
4.1 Khoảng biến thiên R
Ví dụ:
Xác định khoảng biến thiên về doanh thu:
Khái niệm:
Tứ phân vị là giá trị mà tại đó nó chia dãy số thành
4 phần, mỗi phần có số đơn vị là như nhau.
Ý nghĩa:
Tứ phân vị thứ nhất Q1: 25% dữ liệu có giá trị nhỏ
hơn hoặc bằng Q1
Tứ phân vị thứ hai Q2: là trung vị
Tứ phân vị thứ ba Q3: 25% dữ liệu có giá trị lớn
hơn hoặc bằng Q3
4.2 Tứ phân vị
Q1 X ( n1)/4
Q 2 X 2( n1)/4 X ( n1)/2
Q3 X 3( n1)/4
4.2 Tứ phân vị
1
4
f SQ1 ( 1)
Q1 X Q1 min hQ1
f Q1
3
4
f SQ3 ( 1)
Q3 X Q3 min hQ3
f Q3
4.2 Tứ phân vị
Trong đó:
Tổ chứa Q1 là tổ đầu tiên có tần số tích lũy (n+1)/4
Tổ chứa Q3 là tổ đầu tiên có tần số tích lũy
3(n+1)/4
X Q1 min
: giá trị nhỏ nhất của tổ chứa Q 1
hQ1
: khoảng cách của tổ chứa Q1
f Q1
: tần số của tổ chứa Q1
4.2 Tứ phân vị
Khái niệm:
Độ trải giữa RQ là chênh lệch giữa tứ phân vị thứ 3
và tứ phân vị thứ nhất.
Công thức:
RQ Q3 Q1
4.3 Độ trải giữa RQ
Ví dụ:
Xác định độ trải giữa của dữ liệu sau:
Học sinh Điểm Học sinh Điểm
A 4.5 G 10
B 7 H 6.5
C 9 I 7
D 6 J 8
E 7.5 K 7.5
F 8.5 L 8
4.4 Độ lệch tuyệt đối trung bình
Khái niệm:
Độ lệch tuyệt đối trung bình là trung bình cộng tất
cả các giá trị tuyệt đối giữa các giá trị quan sát với
trung bình cộng của tổng thể (hoặc mẫu).
Công thức:
n k
x i x x i x . fi
d i 1
; d i 1
k
n
f
i 1
i
4.4 Độ lệch tuyệt đối trung bình
Ví dụ:
Xác định độ lệch tuyệt đối trung bình của dữ liệu
sau:
Năm Doanh thu (tỷ đồng)
2000 150
2001 180
2002 200
2003 220
2004 210
4.5 Phương sai
Khái niệm:
Phương sai là trung bình cộng tất cả các bình
phương sai số của giá trị từng quan sát với trung
bình tổng thể (hoặc mẫu).
Hay
Phương sai là trung bình của các độ lệch bình
phương giữa các giá trị xi với trung bình số học.
Đo mức độ phân tán của các biến lượng xung
quanh số bình quân.
4.5 Phương sai
(x i ) 2
2 i 1
N
• Trường hợp có quyền số
k
i
( x ) 2
. fi
2 i 1
k
f
i 1
i
4.5 Phương sai
n
Phương sai mẫu
S 2
(x
i 1
i x) 2
f i 1
i
(x i x) 2
s
2 i 1
n 1
• Trường hợp có quyền số k
(x i x) . fi 2
s
2 i 1
k
f
i 1
i 1
4.6 Độ lệch chuẩn
Ví dụ:
Xác định phương sai và độ lệch chuẩn hiệu chỉnh
của mẫu nghiên cứu sau:
Năm Doanh thu (tỷ đồng)
2000 150
2001 180
2002 200
2003 220
2004 210
4.6 Độ lệch chuẩn
Ý nghĩa:
Độ lệch chuẩn được sử dụng nhiều hơn phương
sai do có cùng đơn vị với dữ liệu.
Độ lệch chuẩn cũng được sử dụng rộng rãi hơn độ
lệch tuyệt đối trung bình, do độ lệch tuyệt đối trung
bình làm giới hạn các khả năng tính toán về mặt số
học
4.6 Độ lệch chuẩn
Ý nghĩa:
Độ lệch chuẩn cho biết sự phân phối của các giá
trị trong một tập dữ liệu thể hiện trên 2 quy tắc sau:
Quy tắc Tchebychev:
Bất kỳ một tổng thể nào với trung bình là và độ
lệch chuẩn là , thì có ít nhất 100(1-1/m2)% giá trị
rơi vào khoảng m với m > 1
Quy tắc thực nghiệm:
Đối với tổng thể lớn, phân phối của các giá trị có
dạng gần giống hình chuông, có thể sử dụng phân
phối chuẩn để mô tả hình dáng của phân phối.
4.6 Độ lệch chuẩn
m 1,5 2 2,5 3
100(1-1/m2) 55,6% 75% 84% 88,9%
- 2 - 1,5 +1,5 + 2
- 3 - 2 - 1 + +2 + 3
68%
95%
99,73%
4.7 Hệ số biến thiên CV
Ví dụ:
Xác định hệ số biến thiên trong mẫu nghiên cứu
sau:
Năm Doanh thu (tỷ đồng)
2000 150
2001 180
2002 200
2003 220
2004 210
Tính toán trên excel
f(x)
f(x)
Me Mo
f(x)
Mo Me
Khái niệm:
Trong nghiên cứu điều tra chọn mẫu, cái ta muốn
kết luận là đặc trưng của tổng thể, nhưng số liệu
tính toán được là số liệu đại diện cho mẫu, việc
sử dụng những hiểu biết về tham số của mẫu để
suy ra cho tổng thể ta gọi là ước lượng.
2
ˆ,s
x, p , p, 2
1. Ước lượng điểm
Ta có: E( X )
E(Pˆ) p
E (S 2 ) 2
Vì vậy:
x ước lượng không chệch của
là
p̂ ước lượng không chệch của p
là
s2 là ước lượng không chệch của 2
2. Ước lượng khoảng
Khái niệm:
Trong ước lượng điểm, ta sử dụng đặc trưng của
mẫu để ước lượng cho đặc trưng tổng thể. Và đặc
trưng của tổng thể có khả năng lớn là không trùng
với đặc trưng của mẫu, do đó, để tăng độ tin cậy,
thay vì sử dụng 1 hằng số ta có thể tìm 1 khoảng
chứa đặc trưng tổng thể. Việc làm này gọi là ước
lượng khoảng. Và khoảng tìm được gọi là khoảng
tin cậy.
2. Ước lượng khoảng
1 2
Nếu = 5%, nghĩa là 95% giá trị nằm trong
khoảng (1,2), hay nói cách khác:
Xác suất giá trị nằm ngoài khoảng này là 5%
2. Ước lượng khoảng
Ví Dụ:
Ta cần biết điểm trung bình môn Xác suất thống kê
của sinh viên đại học Thủ Dầu Một, nhưng không thể
hỏi hết tất cả 5000 sinh viên đã học môn này, vì vậy
ta chọn ngẫu nhiên trong đó 100 sinh viên để nghiên
cứu. Điểm trung bình của 100 sinh viên nghiên cứu
là 6,5. Vậy dự đoán điểm trung bình của 5000 sinh
viên là bao nhiêu? Việc dự đoán này gọi là ước
lượng.
2. Ước lượng khoảng
Cách 1:
Dự đoán điểm trung bình của 5000 sinh viên (trung
bình tổng thể) là 6,5 (bằng với trung bình mẫu). Đây
là ước lượng điểm.
Cách 2:
Dự đoán điểm trung bình của 5000 sinh viên gần với
6,5, và nằm trong khoảng (6, 7) tức là lớn hơn 6 và
nhỏ hơn 7. Đây là ước lượng khoảng.
* Trường hợp n 30
2
Trung bình mẫu có phân phối chuẩn X ~ N ( , )
n
Do đó:
x z /2 x z /2
n n
Với: z/2 là giá trị của đại lượng Z ~ N(0,1) sao cho:
P(Z > z/2 ) = /2
Nếu chưa biết phương sai tổng thể, ta có thể thay
bằng phương sai mẫu hiệu chỉnh.
2.1 Ước lượng trung bình tổng thể
Ví dụ:
Tìm khoảng ước lượng cho trung bình tổng thể với
độ tin cậy 95%, biết phương sai tổng thể là 70 và
một mẫu ngẫu nhiên gồm 1000 quan sát được chọn
có trung bình là 150.
2.1 Ước lượng trung bình tổng thể
s s
x t( n1), /2 x t( n1), /2
n n
2.1 Ước lượng trung bình tổng thể
Ví dụ:
Ước lượng khoảng cho điểm trung bình của sinh
viên ngành QTKD với mức ý nghĩa 10%, biết một
mẫu ngẫu nhiên được chọn gồm 35 sinh viên có
điểm trung bình là 6,7 và phương sai hiệu chỉnh là 4.
2.1 Ước lượng trung bình tổng thể
Ví dụ:
Ước lượng khoảng cho điểm trung bình của sinh
viên ngành Kế toán với độ tin cậy 90%, biết một mẫu
ngẫu nhiên được chọn có kết quả như sau:
Điểm TB Số SV Điểm TB Số SV
5.0 - 5.4 2 7.0 - 7.4 5
5.4 - 5.8 2 7.4 - 7.8 4
5.8 - 6.2 3 7.8 - 8.2 3
6.2 - 6.6 3 8.2 - 8.6 2
6.6 – 7.0 4 8.6 – 9.0 1
2.2 Ước lượng tỷ lệ tổng thể
Khi n khá lớn, thì tỷ lệ mẫu tuân theo quy luật phân
phối chuẩn:
ˆ pq
P ~ N ( p, )
n
Khi đó, khoảng ước lượng của tỷ lệ tổng thể là:
pˆ (1 pˆ ) pˆ (1 pˆ )
pˆ z /2 p pˆ z /2
n n
2.2 Ước lượng tỷ lệ tổng thể
Ví dụ:
Một công ty muốn nghiên cứu về tỷ lệ sản phẩm bị
lỗi. Chọn ngẫu nhiên 300 sản phẩm thấy có 5 sản
phẩm bị lỗi. Với độ tin cậy 95%, hãy ước lượng tỷ lệ
sản phẩm lỗi của công ty.
2.3 Ước lượng phương sai tổng thể
(n 1) s 2
(n 1) s 2
2
2
n1, /2
2
n1,1 /2
Trong đó: 2
n có
1 phân phối chi bình phương với n –
1 bậc tự do.
2.3 Ước lượng phương sai tổng thể
Ví dụ:
Một công ty muốn nghiên cứu về sự biến thiên của
năng suất lao động của công nhân. Chọn ngẫu nhiên
41 công nhân ta tính được s2 = 16. Hãy ước lượng
phương sai của năng suất lao động với mức ý nghĩa
5% (biết năng suất lao động có phân phối chuẩn)
2.4 Ước lượng 1 bên
Khái niệm:
Các ước lượng trình bày ở phần 2.1 đến 2.3 được
gọi là ước lượng đối xứng hay ước lượng 2 bên, tức
là ta vừa phải tìm cận trên vừa phải tìm cận dưới của
khoảng ước lượng.
Trường hợp chỉ cần tìm 1 cận trên (hoặc dưới) của
khoảng ước lượng ta gọi là ước lượng 1 bên
2.4 Ước lượng 1 bên
Tỉ lệ tổng thể: pˆ (1 pˆ )
pˆ z p
n
n1,
2
2.4 Ước lượng 1 bên
Ví dụ:
Để theo dõi việc sử dụng điện của các hộ gia đình
trong tháng 6, một cơ quan thống kê thử 100 hộ gia
đình thì thấy lượng điện tiêu thụ trung bình là 150
KW, phương sai mẫu là 144. Với độ tin cậy 90%, hãy
cho biết trung bình 1 hộ gia đình sử dụng ít nhất là
bao nhiêu KW điện.
2.4 Ước lượng 1 bên
1 Khái niệm
2 Giả thuyết H0 và giả thuyết H1
3 Kiểm định GT về trung bình tổng thể
4 Kiểm định GT về tỷ lệ tổng thể
5 Kiểm định GT về phương sai tổng thể
1. Khái niệm
Giả thuyết:
Là một phát biểu, một nhận định, một đề xuất về một
tham số hay quy luật phân phối nào đó của tổng thể
(có thể đúng hoặc sai).
Ví dụ:
Hiệu trưởng một trường đại học phát biểu rằng 80%
sinh viên của trường này ra trường có việc làm đúng
chuyên ngành.
Tuy nhiên, ta có quyền nghi ngờ về về điều này, vì
vậy, ta chọn ngẫu nhiên 50 sinh viên đã ra trường để
phỏng vấn, từ đó quyết định chấp nhận hay bác bỏ
giả thuyết ban đầu. Việc làm này gọi là kiểm định giả
thuyết. Giả thuyết ở đây là “80% sinh viên của
trường này ra trường có việc làm đúng chuyên
ngành”.
2. Giả thuyết H0 và giả thuyết H1
Một bài toán kiểm định nào cũng phải có 1 cặp giả
thuyết bao gồm :
Giả thuyết không : Ho (Null Hypothesis)
Giả thuyết đối : H1 (Alternative Hypothesis)
2. Giả thuyết H0 và giả thuyết H1
H 0 : 0 H 0 : 0
Kiểm định 1 bên: H : hay
1 0 H1 : 0
2. Giả thuyết H0 và giả thuyết H1
n
Dựa vào , tìm z/2
Nếu |z| > z/2 , ta bác bỏ giả thuyết H0, ngược lại
chấp nhận H0
Nếu chưa biết phương sai tổng thể, có thể thay
bằng phương sai mẫu hiệu chỉnh.
3. Kiểm định GT về trung bình tổng thể
x 0
Tính giá trị của tiêu chuẩn kiểm định: t
s
Dựa vào , tìm t n
n-1,/2
Nếu |t| > tn-1,/2 , ta bác bỏ giả thuyết H0, ngược lại chấp
nhận H0
3. Kiểm định GT về trung bình tổng thể
Chú ý:
Trong cả 3 trường hợp trên, khi bác bỏ H0 tức là
chấp nhận H1: 0 , khi đó:
Nếu x , ta0 kết luận > 0
Nếu x , ta0 kết luận <
0
3. Kiểm định GT về trung bình tổng thể
Ví dụ:
Đo chiều cao trung bình của 45 nữ sinh viên ngành sư
phạm ta có kết quả là:
Chiều cao (cm) Số sinh viên
< 150 5
150 – 155 20
155 – 160 15
160 - 165 5
Với độ tin cậy 95%, hãy kiểm định giả thuyết cho rằng
chiều cao trung bình của nữ sinh sư phạm là 157 cm.
3. Kiểm định GT về trung bình tổng thể
p/2
/2 1- /2
-z/2 z z/2
3. Kiểm định GT về trung bình tổng thể
Ví dụ:
Đo chiều cao trung bình của 45 nữ sinh viên ngành
sư phạm ta có kết quả là:
Chiều cao (cm) Số sinh viên
< 150 5
150 – 155 20
155 – 160 15
160 - 165 5
Với độ tin cậy 90%, hãy kiểm định giả thuyết cho rằng
chiều cao trung bình của nữ sinh sư phạm là 155 cm.
4. Kiểm định GT về tỷ lệ tổng thể
pˆ p0
z
p0 (1 p0 )
n
4. Kiểm định GT về tỷ lệ tổng thể
Ví dụ:
Một dây chuyền sản xuất được quảng cáo là có tỷ lệ
sản phẩm lỗi là 1%. Một công ty chọn ngẫu nhiên
300 sản phẩm thấy có 5 sản phẩm bị lỗi. Với độ tin
cậy 95%, quảng cáo của công ty này có tin cậy
không?
5. Kiểm định GT về phương sai tổng thể
(n 1) s 2
2
02
4. Kiểm định GT về phương sai tổng thể
2 n21, /2
Hoặc
2 n21,1
H0: 2 = 02 (hay 2 02)
H1: 2 < 02
2 2
n 1,
2 2 2 2
5. Kiểm định GT về phương sai tổng thể
Ví dụ:
Một công ty muốn nghiên cứu về sự biến thiên của
năng suất lao động của công nhân. Chọn ngẫu nhiên
41 công nhân ta tính được s2 = 16. Với mức ý nghĩa
10%, có thể cho rằng phương sai của năng suất lao
động là 16,5 không. (biết năng suất lao động có phân
phối chuẩn)
CHƯƠNG VI
1 Khái niệm
2 Phân tích phương sai một yếu tố
3 Phân tích phương sai hai yếu tố
1. Khái niệm
Trong nghiên cứu, dựa vào trung bình mẫu của các
nhóm khác nhau, ta có thể kiểm định xem trung bình
tổng thể của hai nhóm có giống nhau hay không.
Việc làm này gọi là phân tích phương sai.
Thông thường, phân tích phương sai được sử dụng
để kiểm tra ảnh hưởng của một yếu tố này đến một
yếu tố khác.
1. Khái niệm
Ví dụ:
Muốn biết liệu rằng thu nhập của người có bằng đại
học và bằng trung cấp liệu có khác nhau hay không,
hay nói cách khác bằng cấp có ảnh hưởng đến thu
nhập hay không. Ta tiến hành chọn 2 nhóm ngẫu
nhiên, 1 nhóm gồm những người có bằng đại học, 1
nhóm gồm những người có bằng trung cấp. Tính thu
nhập trung bình của 2 nhóm, dựa vào phân tích
phương sai và cho kết luận.
2. Phân tích phương sai một yếu tố
Khái niệm:
Phân tích phương sai một yếu tố là phân tích ảnh
hưởng của một yếu tố (biến nguyên nhân, định tính)
lên một yếu tố khác (biến kết quả, định lượng).
Ví dụ:
Phân tích ảnh hưởng của giới tính đến tuổi thọ
Phân tích ảnh hưởng của giới tính đến chiều cao
…
2. Phân tích phương sai một yếu tố
n x i i
Trung bình chung: x i 1
k
n
i 1
i
2. Phân tích phương sai một yếu tố
SSW
MSW
nk
Phương sai giữa các nhóm:
SSG
MSG
k 1
2. Phân tích phương sai một yếu tố
MSG
F
MSW
Bác bỏ H0 khi: F > Fk-1,n-k,
Với Fk-1,n-k, là giá trị tới hạn tra từ bảng phân phối F
với k-1 bậc tự do ở tử số và n-k bậc tự do ở mẫu số,
mức ý nghĩa .
2. Phân tích phương sai một yếu tố
SUMMARY
Groups Count Sum Average Variance
Column 1
Column 2
Column 3
ANOVA
Source of
Variation SS df MS F P-value F crit
Between Thống kê
Groups SSG k-1 MSG F p F
Within
Groups SSW n-k MSW
2!(k 2)!
cặp nhóm cần so sánh.
H 0 : 1 2 H 0 : 2 3
....
H1 : 1 2 H 1 : 2 3
2. Phân tích phương sai một yếu tố
Phương pháp Tukey:
Ví dụ:
Phân tích phương sai và phân tích sâu ANOVA để
kết luận về chiều cao trung bình của người dân 3
nước Việt Nam, Lào, Nhật Bản, giả định rằng chiều
cao của 3 nhóm có phân phối chuẩn và phương sai
bằng nhau. Một mẫu dữ liệu về chiều cao của 3
nhóm được chọn ngẫu nhiên để nghiên cứu như
sau:
2. Phân tích phương sai một yếu tố
Số người Số người
Chiều
cao Việt Nhật Chiều cao Việt Nhật
Lào Lào
Nam Bản Nam Bản
140 - 145 10 20 0170 - 175 40 50 390
145 - 150 200 290 10175 - 180 30 20 100
150 - 155 700 750 50180 - 185 10 10 90
155 - 160 600 550 350185 - 190 10 10 50
160 - 165 300 200 400190 - 195 0 0 10
165 - 170 100 100 550
2. Phân tích phương sai một yếu tố
Khái niệm:
Phân tích phương sai hai yếu tố là việc xem xét cùng
một lúc sự tác động của 2 yếu tố lên 1 yếu tố khác.
Ví dụ:
Phân tích ảnh hưởng của giới tính và khu vực (nông
thông/thành thị) đến chiều cao của học sinh.
3. Phân tích phương sai hai yếu tố
Cột (nhóm)
Dòng
1 2 … K
1 x11 x21 xK1
2 x12 x22 xK2
…
H x1H x2H xKH
3. Phân tích phương sai hai yếu tố
H
Bước 1: Tính các trung bình:
x
j 1
ij
Trung bình riêng của từng nhóm: xi
H
K
x ij
Trung bình riêng của từng khối: xj i 1
K
K H K H
x
i 1 j 1
ij x x i j
Trung bình chung: x i 1
i 1
n K H
3. Phân tích phương sai hai yếu tố
i 1 j 1
i 1 j 1
3. Phân tích phương sai hai yếu tố
SSB
2. Phương sai giữa các khối: MSB
H 1
SSE
Phương sai dư: MSE
( K 1)( H 1)
3. Phân tích phương sai hai yếu tố
MSG
F1
MSE
MSB
F2
MSE
3. Phân tích phương sai hai yếu tố
Giả thuyết H0 của giá trị F1: trung bình của K tổng thể
theo yếu tố nguyên nhân thứ nhất (cột) bằng nhau.
Giả thuyết H0 của giá trị F2: trung bình của H tổng thể
theo yếu tố nguyên nhân thứ hai (dòng) bằng nhau.
ANOVA
Source of
Variation SS df MS F P-value F crit
Rows SSG K-1 MSG F1 TK F
Columns SSB H-1 MSB F2 TK F
Error SSE (K-1)(H-1) MSE
Total SST N-1
3. Phân tích phương sai hai yếu tố
ANOVA
Source of
Variation SS df MS F P-value F crit
Sample SSG K-1 MSG F1 P-value T.Kê F
Columns SSB H-1 MSB F2 P-value T.Kê F
Interaction SSI (K-1)(H-1) MSI F3 P-value T.Kê F
Within SSE KH(L-1) MSE
1 Tương quan
2 Hồi quy
3 Hồi quy bội
1. Tương quan
Hệ số tương quan :
Là hệ số đo lường mức độ quan hệ tuyến tính giữa 2
biến ngẫu nhiên.
Hệ số tương quan :
Trên thực tế, khi không thể nghiên cứu tổng thể, ta
có thể chọn mẫu và tính hệ số tương quan mẫu r.
n
(x i x )( yi y )
r i 1
n n
i
( x
i 1
x ) 2
i
( y y ) 2
i 1
x .y i i n.x . y
Hoặc: r i 1
n 2
n
2
( xi n.x ) ( yi n. y )
2 2
i 1 i 1
1. Tương quan
Column 1 Column 2
Column 1 1
Column 2 -0.29334 1
1. Tương quan
(d ( x) i d ( x))(d ( y )i d ( y ))
r i 1
n n
(
i 1
d ( x ) i d ( x )) 2
( d (
i 1
y ) i d ( y )) 2
1. Tương quan
Khái niệm:
Hồi quy là việc xây dựng mô hình toán học nhằm thể
hiện 1 cách tốt nhất mối quan hệ giữa 2 biến X và Y.
Trong đó, 1 biến đóng vai trò là biến độc lập, 1 biến
đóng vai trò là biến phụ thuộc.
Trong chương này, ta chỉ xem xét hồi quy tuyến tính
2. Hồi quy
Yi = + Xi +i
, là các hằng số
i là sai số ngẫu nhiên thể hiện ảnh hưởng của các
yếu tố khác lên Y. Một cách tổng quát, ta có mô hình
hồi quy tuyến tính đơn giản của tổng thể là:
Y = + X +
2. Hồi quy
Yˆ a bX e
Giá trị e là sai số giữa giá trị ước lượng và giá trị
thực tế, được tính bởi công thức:
n n n
e (Yi Y ) (Yi a bX i )
i 1
2
i
ˆ
i 1
2
i 1
2
2. Hồi quy
Mô hình hồi quy cần tìm là mô hình hồi quy sao cho
e là nhỏ nhất.
X Y n( X )(Y )
i i
b i 1
n
i
X
i 1
n ( X ) 2
a Y bX
2. Hồi quy
Ví dụ:
Lập mô hình hồi quy điểm thi môn văn theo điểm thi
môn toán, dữ liệu cho ở bảng sau:
Toán Văn Toán Văn
7 7 6.25 5.75
7 6.5 5.5 7
6.5 6 6.25 6
6 8 5.25 5
7 5.75 6 6
5.75 8 6.5 6
6.25 7 6 6
6.5 5.25 6 5.5
6.75 6.5 4.5 6.5
6 7 5.25 7
2. Hồi quy
Yˆ a bX
X 6.1125
Y 6.3875
2. Hồi quy
STT x y x2 xy
1 7 7 49 49
2 7 6.5 49 45.5
3 6.5 6 42.25 39
… … … … …
… … … … …
20 5.25 7 27.5625 36.75
Tổng 122.25 127.75 755.1875 15617.44
2. Hồi quy
Hệ số b:
n
X Y n( X )(Y )
i i
15617.44 20 6.1125 6.3875
b i 1
23.738
n
122.25 20 6.1125 2
i
X
i 1
n ( X ) 2
Hệ số a:
a Y bX 6.3875 23.738 6.1125 151.488
2. Hồi quy
Y 151.488 23.738 X e
Yˆ 151.488 23.738 X
2. Hồi quy
Hệ số xác định:
Hệ số xác định là hệ số cho biết mô hình hồi quy giải
thích được bao nhiêu phần trăm biến thiên của biến
phụ thuộc.
i 1
i 1
SSR SSE
R
2
1
SST SST
2. Hồi quy
Kiểm định F:
Kiểm định F được sử dụng nhằm kiểm định giả
thuyết về sự tồn tại của mối quan hệ tuyến tính giữa
X và Y.
Giả thuyết H0: không có tương quan giữa X và Y
Giá trị kiểm định: F
Tiêu chuẩn quyết định: p-value nhỏ hơn mức ý
nghĩa thì bác bỏ H0
Kết quả thực hiện trên Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.676294
R Square 0.457373
Adjusted R
Square 0.427227
Standard
Error 0.48907
Observatio
ns 20
ANOVA
Significanc
df SS MS F eF
Regression 1 3.628971 3.628971 15.17197 0.001061
Residual 18 4.305404 0.239189
Total 19 7.934375
Khái niệm:
Trong thực tế, một biến Y không chỉ phụ thuộc vào
tác động của 1 biến X mà có thể cùng lúc chịu tác
động của hai hay nhiều biến khác nhau.
Hồi quy bội là hồi quy biến Y theo 2 hay nhiều biến.
Ví dụ:
Kết quả học tập của sinh viên có thể phụ thuộc vào
nhiều yếu tố: số giờ lên lớp, chỉ số IQ, thời gian tự
học, …
3. Hồi quy bội
Column 1 1
Column 2 -0.29334 1
Kiểm định F:
Là kiểm định được sử dụng nhằm kiểm định giả
thuyết về sự tồn tại mối quan hệ tuyến tính giữa biến
phụ thuộc Y với các biến độc lập Xi.
Giả thuyết H0: 1 = 2 = …= k = 0
Chấp nhận H0: không tồn tại quan hệ tuyến tính giữa
biến Y với bất kỳ biến độc lập nào
Bác bỏ H0: tồn tại ít nhất 1 quan hệ tuyến tính giữa
biến Y với các biến độc lập.
3. Hồi quy bội
Regression Statistics
Multiple R 0.924009168
R Square 0.853792942
Adjusted R Square 0.844655001
Standard Error 0.446326244
Observations 35
ANOVA
df df SS MS F Significance F
Regression 2 37.225 18.613 93.434 0.000
Residual 32 6.375 0.199
Total 34 43.6
SST / ( n 1)