You are on page 1of 29

Một số

CƠ SỞ THỐNG KÊ

www.r-project.org

Một số cơ sở thống kê 1 1

Một số cơ sở thống kê 2

Một số cơ sở thống kê 1
•How to install R

Một số cơ sở thống kê 3

Một số khái niệm

• Giả thiết (Hypothesis)

• Giả thuyết, giả định (Assumption)

• P-value (Giá trị P)- Chương 6,7

Một số cơ sở thống kê 4

Một số cơ sở thống kê 2
Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?

Phương pháp:

1. Lấy mẫu

2. Đo đạc

3. Thu thập kết quả *

4. Phân tích và biểu diễn kết quả

* Thí nghiệm cảm quan


Một số cơ sở thống kê 5

1-1. Mẫu và Tập hợp

Một tập hợp: bao gồm các biến đo lường mà


người điều tra quan tâm.
Một mẫu: là tập hợp con được lấy ra từ tập
hợp.
Điều tra dân số?

Một số cơ sở thống kê 6

Một số cơ sở thống kê 3
Mẫu ngẫu nhiên đơn giản

Sampling lấy ra từ tập hợp một cách ngẫu nhiên, và


các mẫu có kích thước n bằng nhau có khả năng
lựa chọn như nhau.

Một mẫu được lựa chọn theo cách này gọi là mẫu
ngẫu nhiên đơn giản hoặc gọi là mẫu ngẫu nhiên.

Một mẫu ngâu nhiên tuân theo xác suất xác định các
yếu tố của mẫu đó.

Một số cơ sở thống kê 7

Mẫu và tập hợp

Tập hợp (N) Mẫu (n)


Một số cơ sở thống kê 8

Một số cơ sở thống kê 4
Vì sao phải lấy mẫu ?

Một cuộc điều tra dân số có thể::


• Không thể
• Phi thực tế
• Quá tốn kém

Một số cơ sở thống kê 9

Kích thước mẫu ?


Vừa đủ ?:

• Sai sót mà nhà nghiên cứu chấp nhận, cụ thể là sai sót loại I và II;
• Về xác suất sai sót, thông thường một nghiên cứu chấp nhận sai sót loại I khoảng
1% hay 5% (tức α = 0.01 hay 0.05), và xác suất sai sót loại II khoảng β = 0.1 đến
β = 0.2 (tức power phải từ 0.8 đến 0.9).

• Độ dao động (variability) của đo lường, mà cụ thể là độ lệch chuẩn


• Độ dao động chính là độ lệch chuẩn (standard deviation) của đo lường mà công
trình nghiên cứu dựa vào để phân tích. Chẳng hạn như nếu nghiên cứu về tính chất
sản phẩm, thì nhà nghiên cứu cần phải có độ lệch chuẩn của cường độ các chỉ tiêu.
Chúng ta tạm gọi độ dao động là σ.

• Mức độ khác biệt hay ảnh hưởng mà nhà nghiên cứu muốn phát hiện.
• Độ ảnh hưởng, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt
trung bình giữa hai nhóm mà nhà nghiên cứu muốn phát hiện. Chẳng hạn như nhà
nghiên cứu có thể giả thiết rằng sản phẩm khi qua xử lý nhiệt có cường độ mùi
giảm 10% so với sản phẩm placebo. Ở đây, 10% được xem là độ ảnh hưởng.
Chúng ta tạm gọi độ ảnh hưởng là ∆.

Một số cơ sở thống kê 10

Một số cơ sở thống kê 5
Kích thước mẫu ?
Một nghiên cứu có thể có một nhóm đối tượng hay hai (và có khi hơn 2)
nhóm đối tượng.
Trong trường hợp một nhóm đối tượng, số lượng đối tượng (n) cần thiết
cho nghiên cứu có thể tính toán một cách “thủ công” như sau [1]:
C
n=
(∆ /σ )
2

Trong trường hợp có hai nhóm đối tượng, số lượng đối tượng (n) cần thiết
cho nghiên cứu có thể tính toán như sau: [2]

C
n = 2×
(∆ /σ )
2

Một số cơ sở thống kê 11

Kích thước mẫu ?


• Bảng số « C magique »....

α= β = 0.20 β = 0.10 β = 0.05


(Power = (Power = (Power =
0.80) 0.90) 0.95)

0.10 6.15 8.53 10.79

0.05 7.85 10.51 13.00

0.01 13.33 16.74 19.84

Một số cơ sở thống kê 12

Một số cơ sở thống kê 6
Kích thước mẫu ?
Ước tính cỡ mẫu cho một giá trị trung bình
Chúng ta muốn ước tính chiều cao ở đàn ông người Việt, và chấp nhận sai số trong vòng
1 cm (∆= 1) với khoảng tin cậy 0.95 (tức α=0.05) và power = 0.8 (hay β = 0.2).
Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao ở người Việt khoảng 4.6 cm.
Chúng ta có thể áp dụng công thức [1] để ước tính cỡ mẫu cần thiết cho nghiên cứu:

C 7.85
n= = = 166
(∆ /σ ) (1/ 4.6 )
2 2

Nếu ∆ = 0.5cm, n= 664; nếu ∆=0.1cm thì n= 16610

 Kích thước mẫu phụ thuộc rất lớn vào sai số chấp nhận !

Một số cơ sở thống kê 13

Kích thước mẫu ?


Ước tính cỡ mẫu cho hai giá trị trung bình:

Trong thực tế, rất nhiều nghiên cứu nhằm so sánh hai nhóm với nhau. Cách ước tính cỡ
mẫu cho các nghiên cứu này chủ yếu dựa vào công thức [2]

Ví dụ: một nhà sản xuất muốn thay đổi phương pháp thanh trùng sản phẩm
bia nhằm nâng cao năng suất của nhà máy, có hai nhóm sản phẩm cần so
sánh, sản phẩm với phương pháp thanh trùng mới và sản phẩm với phương
pháp thanh trùng cũ. Nhà sản xuất không muốn thị hiếu của sản phẩm giảm.
Một trong những tiêu chí để đánh giá hiệu quả của phương pháp là mức độ ưa
thích của người tiêu dùng đối với mùi của sản phẩm. Số liệu thực nghiệm
trước đó cho thấy mức độ ưa thích trung bình của sản phẩm là 8.0, với độ lệch
chuẩn là 1.2. Vấn đề đặt ra là chúng ta phải nghiên cứu trên bao nhiêu đối
tượng để chứng minh rằng, khi thay đổi phương pháp thanh trùng, thị hiếu đối
với sản phẩm mới tăng khoảng 5% so với sản phẩm cũ.

Một số cơ sở thống kê 14

Một số cơ sở thống kê 7
Kích thước mẫu ?
• Trong ví dụ trên, tạm gọi trị số trung bình của sp nhóm 2 là µ2 và
nhóm 1 là µ1, chúng ta có: µ2 = 8*1.05 = 8.4 (tức tăng 5% so với
nhóm 1), và do đó, ∆ = 8.4 – 8.0 = 0.4. Độ lệch chuẩn là s = 1.2.
Với power = 0.90 và α = 0.05, cỡ mẫu cần thiết là:

2C 2 *10.51
n= = = 189
(Λ / σ )2 (0.4 / 1.2)2

Một số cơ sở thống kê 15

Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?

Phương pháp:

1. Lấy mẫu

2. Đo đạc

3. Thu thập kết quả *

4. Phân tích và biểu diễn kết quả

* Thí nghiệm cảm quan


Một số cơ sở thống kê 16

Một số cơ sở thống kê 8
Một số khái niệm quan trọng : Số liệu - Biến –Thang đo

Định tính- Tần số- Định danh: Định lượng – Đo lường hoặc
đếm được:
Ví dụ:
• Màu sắc Ví dụ
• Giới tính • Nhiệt độ
• Quốc gia • Độ ẩm
• Thành phần hóa học
• Điểm ưa thích trên
thang 100 điểm

Một số cơ sở thống kê 17

Tình huống
THÔNG TIN CHUNG
1.1 Mô tả người trả lời phỏng vấn
1.1.1 Giới tính của người được phỏng vấn?1. Nam 2. Nữ
Tình trạng hôn nhân: 1. Độc thân 2. Có gia đình

1.1.2 Tuổi của người được phỏng vấn?


Dưới 25 tuổi
25 – 30 tuổi
31 – 54 tuổi
>55 tuổi

1.1.3 Xin Ông/Bà cho biết nghề nghiệp hiện nay ?


Học sinh, sinh viên
Bác sĩ/giáo viên
Công nhân/ lao động làm thuê/bán hàng
Hưu trí

1.1.4 Ông/Bà cho biết thu nhập của gia đình Ông/Bà ở mức nào sau đây
1 . Thấp ( ≥ 2 triệu đồng và < 5 triệu)
2 . Trung bình (≥ 5 triệu và <8 triệu)
3 . Cao ( ≥ 8 triệu)

Một số cơ sở thống kê 18

Một số cơ sở thống kê 9
Tình huống

•8 phomat (EdamF, EdamH, GoudaH, m1, m2, m3, m4,


m5)
•11 người thử (chuyên gia)
•3 lần lặp lại
•15 thuật ngữ mô tả: sour bitterness umami salty greasiness
butter_odor milk_odor acrid rancid lactic cheese_flavor acetic full
flavor yellow hard
•Thang điểm không cấu trúc từ 0-100 mm

Một số cơ sở thống kê 19

Một số khái niệm quan trọng : Số liệu- Biến- Thang

Biến Thang đo lường


• Gián đoạn • Nominal scales ? (Label)
• Liên tục • Ordinal scales (Ranks in
• Độc lập Army)

• Phụ thuộc • Interval scales (Celsius,


Fahrenheit)
• Ratio scales (true zero
point, ratio)
Y=ax1+bx2
=f(x1,x2) www.statistics.vn
Một số cơ sở thống kê 20

Một số cơ sở thống kê 10
Phân loại phép đo lường

Qualitative Quantitative
(định chất) (định lượng)

Nominal Interval
Ordinal Ratio
Bài tập: Mỗi người tìm 5 ví dụ về mỗi thang đo

Một số cơ sở thống kê 21

Một số khái niệm quan trọng : Số liệu- Biến- Thang

Vì sao ???

Đó là những biến ẩn chúng ta đo lường (e.g., comfort), không phải


là những con số, điều đó quan trọng trong định nghĩa thang đo.

Ví dụ: vị ngọt của dường, cảm giác

Một số cơ sở thống kê 22

Một số cơ sở thống kê 11
1-2. Sử dụng thống kê (Hai nhóm phân loại)

Thống kê mô tả Thống kê suy diễn


– Thu thập – Dự báo và tiên đoán số liệu
– Tổ chức của tập hợp
– Tóm tắt – Kiểm định giả thiết về các
– Thể hiện thông số của tập hợp
– Phân tích – Ra quyết định

Dựa trên thông tin mẫu giới


Không tạo thêm
hạn thông tin của mẫu

Một số cơ sở thống kê 23

Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?

Phương pháp:

1. Lấy mẫu

2. Đo đạc

3. Thu thập kết quả *

4. Phân tích và biểu diễn kết quả

* Thí nghiệm cảm quan


Một số cơ sở thống kê 24

Một số cơ sở thống kê 12
Thang đo nào???
1.2.2. Ông/Bà cho biết loại pho mát cứng nào mà Ông/Bà thường sử dụng
Cheddar
Gouda
Edam
Emental
Khác (ghi rõ)……………………..
1.2.4. Ông/Bà cho biết mức độ ưa thích chung đối với sản phẩm phó mát
bán cứng
1 2 3 4 5 6 7 8 9
1.2.5. Xin Ông/Bà cho biết tần số sử dụng sản phẩm phó mát bán
cứng.
> 3 lần/tuần
1 – 2 lần/tuần
1-3 lần/tháng

1.2.6. Xin Ông/Bà cho biết lượng phó mát bán cứng sử dụng trong tuần
của Ông/Bà
< 100g
100 – 300g
> 300g
Một số cơ sở thống kê 25

Thang đo nào???
1.2.7. Theo Ông/Bà phó mát cứng ăn với sản phẩm nào thường xuyên?
Bánh mì
Bánh sandwich
Salad
Bánh biscuit
Rượu vang
Khác (ghi rõ tên)………………………………

1.2.8. Khi chọn mua sản phẩm phó mát cứng, Ông/Bà cho biết mức độ quan tâm
đối với những yếu tố sau đây (1=rất không quan tâm, 2=không quan tâm,
3=không ý kiến, 4=quan tâm, 5=rất quan tâm)
Giá cả 1 2 3 4 5 4.5
Tính chất cảm quan của sản phẩm 1 2 3 4 5
Mức độ quen thuộc 1 2 3 4 5 C3.5
Thuận lợi khi sử dụng 1 2 3 4 5 1.5
Có lợi cho sức khoẻ 1 2 3 4 5
a 2.5
Khối lượng sản phẩm 1 2 3 4 5 u 3.0

1
:
Một số cơ sở thống kê 26

Một số cơ sở thống kê 13
Thang đo –Phương thức
Trong một tháng, bạn sử dụng fromage bao nhiêu lần ?  một câu hỏi
được xem là một variable (biến số)
1 lần
2 lần
Mỗi lựa chọn được
4 lần
xem là một phương
Mỗi ngày
thức (modality)

Một số cơ sở thống kê 27

Một số cơ sở thống kê 28

Một số cơ sở thống kê 14
Thang đo nào???

•8 phomat (EdamF, EdamH, GoudaH, m1, m2, m3, m4,


m5)
•11 người thử (chuyên gia)
•3 lần lặp lại
•15 thuật ngữ mô tả: sour bitterness umami salty greasiness
butter_odor milk_odor acrid rancid lactic cheese_flavor acetic full
flavor yellow hard
•Thang điểm không cấu trúc từ 0-100 mm

Một số cơ sở thống kê 29

Thang đo nào???

judge session product sour bitterness umami salty


S1 1 m1 50 18 0 40
S2 1 m1 100 65 40 100
S3 1 m1 32 11 35 4
S4 1 m1 30 10 25 1
S5 1 m1 60 23 30 29
S6 1 m1 30 35 25 50
S7 1 m1 50 32 45 64
S8 1 m1 32 23 40 40
S9 1 m1 78 27 45 21
S10 1 m1 55 30 34 18
S11 1 m1 62 21 43 32

Một số cơ sở thống kê 30

Một số cơ sở thống kê 15
Bài tập dữ liệu

Một số cơ sở thống kê 31

Một số cơ sở thống kê 32

Một số cơ sở thống kê 16
Tóm tắt các thông số thống kê Tập hợp – mẫu

Đo lường xu hướng tại tâm Đo lường độ biến thiên


• Median • Range
• Mode • Phương sai
• Mean • Độ lệch chuẩn

1,2,5,9,6,7
Median = ½(5+6) = 5.5
1,2,5,6,7
Một số cơ sở thống kê 33

1-3. Đo lường khuynh hướng tập trung tại tâm

• Median  Giá trị ở giữa khi


sắp xếp theo thứ tự
tăng dần về độ lớn
 50th percentile

• Mode  Giá trị có tần số


xuất hiện nhiều nhất

• Mean  Trung bình

Một số cơ sở thống kê 34

Một số cơ sở thống kê 17
Trung bình số học - Average

Giá trị mean của một dãy quan sát là giá trị trung bình
của dãy số đó – tổng của các giá trị quan sát chia cho
tổng số quan sát.

Trung bình tập hợp Trung bình mẫu


N n

x x
µ= i =1
x= i =1

N n

Một số cơ sở thống kê 35

Trung bình số học - Average

Ảnh hưởng bởi yếu tố bên ngoài

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Means = 5 Means = 6

Một số cơ sở thống kê 36

Một số cơ sở thống kê 18
Trung vị - Median
Thông số mạnh không ảnh hưởng bởi các yếu tố bên ngoài

1,3,5,7,9 1,3,5,7,14
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Median = 5 Median = 5

Một số cơ sở thống kê 37

Số Mode

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

Mode = 9 Không có Mode

Một số cơ sở thống kê 38

Một số cơ sở thống kê 19
Đo lường khuynh hướng tập trung tại tâm

1 n
x1 + x 2 + K + x n
 Mean : x =  xi =
n i =1 n
1 k
n1 x 1 + n2 x 2 + K + nk x k
x = nx i i =
n i =1 n
Kích thước mẫu

 Median : med ( x ) = x ( p + 1) si n = 2p + 1
x ( p ) + x ( p + 1)
= si n = 2p
2
Một số cơ sở thống kê 39

Mean or Median ?

 Khác về phân phối đối xứng


 Yếu tố bên ngoài ảnh hưởng : median
 Tính gián đoạn của số liệu : mean

Một số cơ sở thống kê 40

Một số cơ sở thống kê 20
Các phần tư- Quartiles
Giá trị ở tại các vị trí 25%, 50%, 75% của phân phối chia làm 4 phần chứa vị trí
¼ của tập hợp

25% 25% 25% 25%

( Q1 ) ( Q2 ) ( Q3 )
Vị trí của phần thư thứ i i ( n + 1)
( Qi ) =
4
1 ( 9 + 1) (12 + 13 ) = 12.5
Position of Q1 =
Vị trí của = 2.5 Q1 =
4 2
Data classified in increasing order : 11 12 13 16 16 17 18 21 22

Một số cơ sở thống kê 41

1-3. Đo lường khuynh hướng tập trung tại tâm


 Hãy cho biết các giá trị xu hướng tại tâm của
dãy số sau đây: 6, 7, 8, 4, 5, 6
Trung vị: …4,5,6,6,7,8……………………..
Mode:…………6……………….
Trung bình:……6………………
Range:…………8-4=4…………….

Một số cơ sở thống kê 42

Một số cơ sở thống kê 21
Độ biến thiên- Variation
Giá trị trung bình không phải như số liệu mô tả. Chúng ta cần
biết độ dao động trong số liệu đó

Đo lường hiển nhiên là tính tổng sự khác biệt đó từ


giá trị trung bình:

Ví dụ, dãy số có các số liệu sau: 6, 7, 8, 4, 5 và 6,


Ta có:
(6-6) + (7-6) + (8-6) + (4-6) + (5-6) + (6-6)
=0+1+2–2–1+0
=0
KHÔNG THOẢ MÃN!
Một số cơ sở thống kê 43

Tổng bình phương


Ta cần có sự khác biệt dương bằng cách bình phương sự
khác biệt đó. Gọi là “Tổng bình phương” (SS)
Ví dụ 1 : 6, 7, 8, 4, 5, 6, ta có:
SS = (6-6)2 + (7-6)2 + (8-6)2 + (4-6)2 + (5-6)2 + (6-6)2 = 10

Ví dụ 2: 10, 2, 3, 9, ta có:
SS= (10-6)2 + (2-6)2 + (3-6)2 + (9-6)2 = 50

Cách này thể hiện tốt hơn!


Nhưng chú ý kích thước mẫu n.
Một số cơ sở thống kê 44

Một số cơ sở thống kê 22
Phương sai- Variance
Chúng ta lấy SS chia cho kích thước mẫu n. Nhưng trong mỗi
bình phương ta sử dụng giá trị trung bình để tính bình phương,
vì thế giảm đi 1 bậc tự do. Vì thế mẫu số đúng là n-1. Đây gọi
là phương sai (kí hiệu là s2)

s2 =
(x1 − x )2 + (x2 − x )2 + ... + (xn − x )2
n −1

Hoặc:

1 n
s2 =  ( xi − x )
2
n − 1 i =1
Một số cơ sở thống kê 45

1-5. Phương sai và độ lệch chuẩn

Phương sai tập hợp Phương sai mẫu


n

 (x − x)
N 2

 (x − µ)2 s = 2 i =1

σ2 = i =1

N (n − 1)
( x) ( )
2 2
N n
 x
i =1
N n

− i =1
x −
2
x 2

N = n
i =1
= i =1

N (n − 1)
σ= σ
2

s= s
2

Một số cơ sở thống kê 46

Một số cơ sở thống kê 23
Ví dụ về phương sai

Ví dụ 1: 6, 7, 8, 4, 5 và 6, phương sai là:

s2 =
(6 − 6 )2 + (7 − 6 )2 + (8 − 6 )2 + (5 − 6 )2 + (6 − 6 )2 =
10
=2
6 −1 5
Ví dụ 2: 10, 2, 3, 9, phương sai là:

s2 =
(10 − 6 )2 + (2 − 6 )2 + (3 − 6 )2 + (9 − 6 )2 =
50
= 16 .7
4 −1 3

Giá trị trong ví dụ 2 sai lệch nhiều hơn giá trị


trong ví dụ 1.
Một số cơ sở thống kê 47

Độ lệch chuẩn

Vấn đề là phương sai thể hiện giá trị của một đơn vị bình
phương, trong khi đó giá trị trung bình thể hiện giá trị thực.
Ta cần một cách đổi phương sai trở lại giá trị thực.

Ta lấy căn bậc 2 của phương sai– gọi là “độ lệch chuẩn”
(kí hiệu là s)

Trong ví dụ 1, s = sqrt(2) = 1.41


Trong ví dụ 2, s = sqrt(16.7) = 4.1

Một số cơ sở thống kê 48

Một số cơ sở thống kê 24
Độ lệch chuẩn

Data A Mean = 15.5


s = 3.338
11 12 13 14 15 16 17 18 19 20 21

Data B
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = .9258
Data C
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.57
Một số cơ sở thống kê 49

Ý nghĩa của giá trị trung bình và SD

“Dân số Việt Nam trên 30 tuổi, nặng trung


bình 55.0 kg và độ lệch chuẩn là 8,2 kg.”
Điều này có ý nghĩa gì?

68% dân số trên có cân nặng khoảng từ 55


+/- 8.2*1 = 46.8 đến 63.2 kg

95% dân số trên có cân nặng khoảng từ 55


+/- 8.2*1.96 = 38.9 đến 71.1 kg

Một số cơ sở thống kê 50

Một số cơ sở thống kê 25
Độ lệch chuẩn
0.45
normal(x)
0.4

0.35

0.3

0.25

68 %
0.2

0.15
95 %
0.1

0.05

99.7 %
0
µ -3σ µ -2σ µ -σ µ µ +σ µ +2σ µ +3σ
Một số cơ sở thống kê 51

Ý nghĩa của giá trị trung bình và SD

Phân phối về khối lượng của toàn bộ dân số có thể được thể hiện như sau:

6 1.96SD
5 1SD
Percent (%)

0
22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 92

Weight (kg)

Một số cơ sở thống kê 52

Một số cơ sở thống kê 26
Biến định lượng : đồ thị boxplot
x
x

Giá trị lớn nhất nhỏ hơn


q 0.75 +1.5(q 0.75 - q 0.25)

q 0.75
Median
q 0.25

Giá trị bé nhất lớn hơn


q 0.25 -1.5(q 0.75 - q 0.25)
x

Boxplot
Một số cơ sở thống kê 53

Form indicators

γ1 < 0 γ1 > 0
Không đối xứng Đối xứng Không đối xứng

Q1 Q 2 Q3 Q1 Q2Q3 Q1 Q2 Q3

Một số cơ sở thống kê 54

Một số cơ sở thống kê 27
Thống kê cho các cặp biến
Dự đoán Nominal level Ordinal Level Interval Level Ration Level
Tiêu chuẩn
Ratio Level ANOVA Spearman Pearson Pearson
Correlation Correlation or Correlation or
Spearman Corr. Spearman Corr.

Interval Level ANOVA Spearman Pearson


Correlation Correlation or
Spearman Corr.

Ordinal Level Kruskal- Spearman


Wallis Test Correlation

Nominal Chi-Quare
Level Test

Một số cơ sở thống kê 55

Phân tích đa biến


• Kỹ thuật dùng phân tích đám mây các điểm

• Chứa thông tin đại diện cho đám mây điểm là chính xác nhưng đơn
giản và dễ tiếp cần trong không gian có ít chiều không gian hơn

Phân tích thành phần chính (PCA)


- Bảng số liệu định lượng
- Khoảng cách hình học Euclid

Phân tích nhân tố (FA)


- Bảng số ngẫu nhiên hoặc bảng số định lượng
- Chi-bình phương

Phân nhóm Hierarchical Classification analysis (HCA)


- Bảng giá trị khoảng cách

Một số cơ sở thống kê 56

Một số cơ sở thống kê 28
Các đại lượng cần nhớ
1.Thang đo
•Nominal/Ordinal/Interval/Ratio
2. Đo lường sự tập trung của dữ liệu
• Giá trị trung bình
• Trung vị
• Mode
3. Đo lường độ phân tán
•Phương sai/Độ lệch chuẩn/Range

4. Phân bố dữ liệu bằng đồ thị


•Đồ thị Boxplot

Một số cơ sở thống kê 57

Bài tập thực hành


•0. Tạo thư mục làm việc
•1. File dữ liệu: igf.txt
•2. Import dữ liệu igf.txt
•3 Xác định các biến, kiểm tra dữ liệu
•4. Tạo các tập tin con có giới tính là Female
•5. Trích dữ liệu 5 hàng đầu, 5 cột đầu
•6. Tính các đại lượng: giá trị trung bình,
median, mode ,độ lệch chuẩn, phương sai
•7.Vẽ đồ thị boxplot thể hiện 1 phân bố của dữ
liệu tuổi theo giới tính

Một số cơ sở thống kê 58

Một số cơ sở thống kê 29

You might also like