Professional Documents
Culture Documents
02.XLSL - Lecture 2.statistics
02.XLSL - Lecture 2.statistics
CƠ SỞ THỐNG KÊ
www.r-project.org
Một số cơ sở thống kê 1 1
Một số cơ sở thống kê 2
Một số cơ sở thống kê 1
•How to install R
Một số cơ sở thống kê 3
Một số cơ sở thống kê 4
Một số cơ sở thống kê 2
Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?
Phương pháp:
1. Lấy mẫu
2. Đo đạc
Một số cơ sở thống kê 6
Một số cơ sở thống kê 3
Mẫu ngẫu nhiên đơn giản
Một mẫu được lựa chọn theo cách này gọi là mẫu
ngẫu nhiên đơn giản hoặc gọi là mẫu ngẫu nhiên.
Một mẫu ngâu nhiên tuân theo xác suất xác định các
yếu tố của mẫu đó.
Một số cơ sở thống kê 7
Một số cơ sở thống kê 4
Vì sao phải lấy mẫu ?
Một số cơ sở thống kê 9
• Sai sót mà nhà nghiên cứu chấp nhận, cụ thể là sai sót loại I và II;
• Về xác suất sai sót, thông thường một nghiên cứu chấp nhận sai sót loại I khoảng
1% hay 5% (tức α = 0.01 hay 0.05), và xác suất sai sót loại II khoảng β = 0.1 đến
β = 0.2 (tức power phải từ 0.8 đến 0.9).
• Mức độ khác biệt hay ảnh hưởng mà nhà nghiên cứu muốn phát hiện.
• Độ ảnh hưởng, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt
trung bình giữa hai nhóm mà nhà nghiên cứu muốn phát hiện. Chẳng hạn như nhà
nghiên cứu có thể giả thiết rằng sản phẩm khi qua xử lý nhiệt có cường độ mùi
giảm 10% so với sản phẩm placebo. Ở đây, 10% được xem là độ ảnh hưởng.
Chúng ta tạm gọi độ ảnh hưởng là ∆.
Một số cơ sở thống kê 10
Một số cơ sở thống kê 5
Kích thước mẫu ?
Một nghiên cứu có thể có một nhóm đối tượng hay hai (và có khi hơn 2)
nhóm đối tượng.
Trong trường hợp một nhóm đối tượng, số lượng đối tượng (n) cần thiết
cho nghiên cứu có thể tính toán một cách “thủ công” như sau [1]:
C
n=
(∆ /σ )
2
Trong trường hợp có hai nhóm đối tượng, số lượng đối tượng (n) cần thiết
cho nghiên cứu có thể tính toán như sau: [2]
C
n = 2×
(∆ /σ )
2
Một số cơ sở thống kê 11
Một số cơ sở thống kê 12
Một số cơ sở thống kê 6
Kích thước mẫu ?
Ước tính cỡ mẫu cho một giá trị trung bình
Chúng ta muốn ước tính chiều cao ở đàn ông người Việt, và chấp nhận sai số trong vòng
1 cm (∆= 1) với khoảng tin cậy 0.95 (tức α=0.05) và power = 0.8 (hay β = 0.2).
Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao ở người Việt khoảng 4.6 cm.
Chúng ta có thể áp dụng công thức [1] để ước tính cỡ mẫu cần thiết cho nghiên cứu:
C 7.85
n= = = 166
(∆ /σ ) (1/ 4.6 )
2 2
Kích thước mẫu phụ thuộc rất lớn vào sai số chấp nhận !
Một số cơ sở thống kê 13
Trong thực tế, rất nhiều nghiên cứu nhằm so sánh hai nhóm với nhau. Cách ước tính cỡ
mẫu cho các nghiên cứu này chủ yếu dựa vào công thức [2]
Ví dụ: một nhà sản xuất muốn thay đổi phương pháp thanh trùng sản phẩm
bia nhằm nâng cao năng suất của nhà máy, có hai nhóm sản phẩm cần so
sánh, sản phẩm với phương pháp thanh trùng mới và sản phẩm với phương
pháp thanh trùng cũ. Nhà sản xuất không muốn thị hiếu của sản phẩm giảm.
Một trong những tiêu chí để đánh giá hiệu quả của phương pháp là mức độ ưa
thích của người tiêu dùng đối với mùi của sản phẩm. Số liệu thực nghiệm
trước đó cho thấy mức độ ưa thích trung bình của sản phẩm là 8.0, với độ lệch
chuẩn là 1.2. Vấn đề đặt ra là chúng ta phải nghiên cứu trên bao nhiêu đối
tượng để chứng minh rằng, khi thay đổi phương pháp thanh trùng, thị hiếu đối
với sản phẩm mới tăng khoảng 5% so với sản phẩm cũ.
Một số cơ sở thống kê 14
Một số cơ sở thống kê 7
Kích thước mẫu ?
• Trong ví dụ trên, tạm gọi trị số trung bình của sp nhóm 2 là µ2 và
nhóm 1 là µ1, chúng ta có: µ2 = 8*1.05 = 8.4 (tức tăng 5% so với
nhóm 1), và do đó, ∆ = 8.4 – 8.0 = 0.4. Độ lệch chuẩn là s = 1.2.
Với power = 0.90 và α = 0.05, cỡ mẫu cần thiết là:
2C 2 *10.51
n= = = 189
(Λ / σ )2 (0.4 / 1.2)2
Một số cơ sở thống kê 15
Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?
Phương pháp:
1. Lấy mẫu
2. Đo đạc
Một số cơ sở thống kê 8
Một số khái niệm quan trọng : Số liệu - Biến –Thang đo
Định tính- Tần số- Định danh: Định lượng – Đo lường hoặc
đếm được:
Ví dụ:
• Màu sắc Ví dụ
• Giới tính • Nhiệt độ
• Quốc gia • Độ ẩm
• Thành phần hóa học
• Điểm ưa thích trên
thang 100 điểm
Một số cơ sở thống kê 17
Tình huống
THÔNG TIN CHUNG
1.1 Mô tả người trả lời phỏng vấn
1.1.1 Giới tính của người được phỏng vấn?1. Nam 2. Nữ
Tình trạng hôn nhân: 1. Độc thân 2. Có gia đình
1.1.4 Ông/Bà cho biết thu nhập của gia đình Ông/Bà ở mức nào sau đây
1 . Thấp ( ≥ 2 triệu đồng và < 5 triệu)
2 . Trung bình (≥ 5 triệu và <8 triệu)
3 . Cao ( ≥ 8 triệu)
Một số cơ sở thống kê 18
Một số cơ sở thống kê 9
Tình huống
Một số cơ sở thống kê 19
Một số cơ sở thống kê 10
Phân loại phép đo lường
Qualitative Quantitative
(định chất) (định lượng)
Nominal Interval
Ordinal Ratio
Bài tập: Mỗi người tìm 5 ví dụ về mỗi thang đo
Một số cơ sở thống kê 21
Vì sao ???
Một số cơ sở thống kê 22
Một số cơ sở thống kê 11
1-2. Sử dụng thống kê (Hai nhóm phân loại)
Một số cơ sở thống kê 23
Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?
Phương pháp:
1. Lấy mẫu
2. Đo đạc
Một số cơ sở thống kê 12
Thang đo nào???
1.2.2. Ông/Bà cho biết loại pho mát cứng nào mà Ông/Bà thường sử dụng
Cheddar
Gouda
Edam
Emental
Khác (ghi rõ)……………………..
1.2.4. Ông/Bà cho biết mức độ ưa thích chung đối với sản phẩm phó mát
bán cứng
1 2 3 4 5 6 7 8 9
1.2.5. Xin Ông/Bà cho biết tần số sử dụng sản phẩm phó mát bán
cứng.
> 3 lần/tuần
1 – 2 lần/tuần
1-3 lần/tháng
1.2.6. Xin Ông/Bà cho biết lượng phó mát bán cứng sử dụng trong tuần
của Ông/Bà
< 100g
100 – 300g
> 300g
Một số cơ sở thống kê 25
Thang đo nào???
1.2.7. Theo Ông/Bà phó mát cứng ăn với sản phẩm nào thường xuyên?
Bánh mì
Bánh sandwich
Salad
Bánh biscuit
Rượu vang
Khác (ghi rõ tên)………………………………
1.2.8. Khi chọn mua sản phẩm phó mát cứng, Ông/Bà cho biết mức độ quan tâm
đối với những yếu tố sau đây (1=rất không quan tâm, 2=không quan tâm,
3=không ý kiến, 4=quan tâm, 5=rất quan tâm)
Giá cả 1 2 3 4 5 4.5
Tính chất cảm quan của sản phẩm 1 2 3 4 5
Mức độ quen thuộc 1 2 3 4 5 C3.5
Thuận lợi khi sử dụng 1 2 3 4 5 1.5
Có lợi cho sức khoẻ 1 2 3 4 5
a 2.5
Khối lượng sản phẩm 1 2 3 4 5 u 3.0
1
:
Một số cơ sở thống kê 26
Một số cơ sở thống kê 13
Thang đo –Phương thức
Trong một tháng, bạn sử dụng fromage bao nhiêu lần ? một câu hỏi
được xem là một variable (biến số)
1 lần
2 lần
Mỗi lựa chọn được
4 lần
xem là một phương
Mỗi ngày
thức (modality)
Một số cơ sở thống kê 27
Một số cơ sở thống kê 28
Một số cơ sở thống kê 14
Thang đo nào???
Một số cơ sở thống kê 29
Thang đo nào???
Một số cơ sở thống kê 30
Một số cơ sở thống kê 15
Bài tập dữ liệu
Một số cơ sở thống kê 31
Một số cơ sở thống kê 32
Một số cơ sở thống kê 16
Tóm tắt các thông số thống kê Tập hợp – mẫu
1,2,5,9,6,7
Median = ½(5+6) = 5.5
1,2,5,6,7
Một số cơ sở thống kê 33
Một số cơ sở thống kê 34
Một số cơ sở thống kê 17
Trung bình số học - Average
Giá trị mean của một dãy quan sát là giá trị trung bình
của dãy số đó – tổng của các giá trị quan sát chia cho
tổng số quan sát.
x x
µ= i =1
x= i =1
N n
Một số cơ sở thống kê 35
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Means = 5 Means = 6
Một số cơ sở thống kê 36
Một số cơ sở thống kê 18
Trung vị - Median
Thông số mạnh không ảnh hưởng bởi các yếu tố bên ngoài
1,3,5,7,9 1,3,5,7,14
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Median = 5 Median = 5
Một số cơ sở thống kê 37
Số Mode
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
Một số cơ sở thống kê 38
Một số cơ sở thống kê 19
Đo lường khuynh hướng tập trung tại tâm
1 n
x1 + x 2 + K + x n
Mean : x = xi =
n i =1 n
1 k
n1 x 1 + n2 x 2 + K + nk x k
x = nx i i =
n i =1 n
Kích thước mẫu
Median : med ( x ) = x ( p + 1) si n = 2p + 1
x ( p ) + x ( p + 1)
= si n = 2p
2
Một số cơ sở thống kê 39
Mean or Median ?
Một số cơ sở thống kê 40
Một số cơ sở thống kê 20
Các phần tư- Quartiles
Giá trị ở tại các vị trí 25%, 50%, 75% của phân phối chia làm 4 phần chứa vị trí
¼ của tập hợp
( Q1 ) ( Q2 ) ( Q3 )
Vị trí của phần thư thứ i i ( n + 1)
( Qi ) =
4
1 ( 9 + 1) (12 + 13 ) = 12.5
Position of Q1 =
Vị trí của = 2.5 Q1 =
4 2
Data classified in increasing order : 11 12 13 16 16 17 18 21 22
Một số cơ sở thống kê 41
Một số cơ sở thống kê 42
Một số cơ sở thống kê 21
Độ biến thiên- Variation
Giá trị trung bình không phải như số liệu mô tả. Chúng ta cần
biết độ dao động trong số liệu đó
Ví dụ 2: 10, 2, 3, 9, ta có:
SS= (10-6)2 + (2-6)2 + (3-6)2 + (9-6)2 = 50
Một số cơ sở thống kê 22
Phương sai- Variance
Chúng ta lấy SS chia cho kích thước mẫu n. Nhưng trong mỗi
bình phương ta sử dụng giá trị trung bình để tính bình phương,
vì thế giảm đi 1 bậc tự do. Vì thế mẫu số đúng là n-1. Đây gọi
là phương sai (kí hiệu là s2)
s2 =
(x1 − x )2 + (x2 − x )2 + ... + (xn − x )2
n −1
Hoặc:
1 n
s2 = ( xi − x )
2
n − 1 i =1
Một số cơ sở thống kê 45
(x − x)
N 2
(x − µ)2 s = 2 i =1
σ2 = i =1
N (n − 1)
( x) ( )
2 2
N n
x
i =1
N n
− i =1
x −
2
x 2
N = n
i =1
= i =1
N (n − 1)
σ= σ
2
s= s
2
Một số cơ sở thống kê 46
Một số cơ sở thống kê 23
Ví dụ về phương sai
s2 =
(6 − 6 )2 + (7 − 6 )2 + (8 − 6 )2 + (5 − 6 )2 + (6 − 6 )2 =
10
=2
6 −1 5
Ví dụ 2: 10, 2, 3, 9, phương sai là:
s2 =
(10 − 6 )2 + (2 − 6 )2 + (3 − 6 )2 + (9 − 6 )2 =
50
= 16 .7
4 −1 3
Độ lệch chuẩn
Vấn đề là phương sai thể hiện giá trị của một đơn vị bình
phương, trong khi đó giá trị trung bình thể hiện giá trị thực.
Ta cần một cách đổi phương sai trở lại giá trị thực.
Ta lấy căn bậc 2 của phương sai– gọi là “độ lệch chuẩn”
(kí hiệu là s)
Một số cơ sở thống kê 48
Một số cơ sở thống kê 24
Độ lệch chuẩn
Data B
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = .9258
Data C
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.57
Một số cơ sở thống kê 49
Một số cơ sở thống kê 50
Một số cơ sở thống kê 25
Độ lệch chuẩn
0.45
normal(x)
0.4
0.35
0.3
0.25
68 %
0.2
0.15
95 %
0.1
0.05
99.7 %
0
µ -3σ µ -2σ µ -σ µ µ +σ µ +2σ µ +3σ
Một số cơ sở thống kê 51
Phân phối về khối lượng của toàn bộ dân số có thể được thể hiện như sau:
6 1.96SD
5 1SD
Percent (%)
0
22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 92
Weight (kg)
Một số cơ sở thống kê 52
Một số cơ sở thống kê 26
Biến định lượng : đồ thị boxplot
x
x
q 0.75
Median
q 0.25
Boxplot
Một số cơ sở thống kê 53
Form indicators
γ1 < 0 γ1 > 0
Không đối xứng Đối xứng Không đối xứng
Q1 Q 2 Q3 Q1 Q2Q3 Q1 Q2 Q3
Một số cơ sở thống kê 54
Một số cơ sở thống kê 27
Thống kê cho các cặp biến
Dự đoán Nominal level Ordinal Level Interval Level Ration Level
Tiêu chuẩn
Ratio Level ANOVA Spearman Pearson Pearson
Correlation Correlation or Correlation or
Spearman Corr. Spearman Corr.
Nominal Chi-Quare
Level Test
Một số cơ sở thống kê 55
• Chứa thông tin đại diện cho đám mây điểm là chính xác nhưng đơn
giản và dễ tiếp cần trong không gian có ít chiều không gian hơn
Một số cơ sở thống kê 56
Một số cơ sở thống kê 28
Các đại lượng cần nhớ
1.Thang đo
•Nominal/Ordinal/Interval/Ratio
2. Đo lường sự tập trung của dữ liệu
• Giá trị trung bình
• Trung vị
• Mode
3. Đo lường độ phân tán
•Phương sai/Độ lệch chuẩn/Range
Một số cơ sở thống kê 57
Một số cơ sở thống kê 58
Một số cơ sở thống kê 29