You are on page 1of 91

Trường Đại Học Công nghiệp Tp.

Hồ Chí Minh
Khoa Quản trị Kinh doanh

PHƯƠNG PHÁP PHÂN TÍCH


DỮ LIỆU
Giáo trình điện tử

Biên soạn bởi: Nguyễn Minh Toàn


Bản chất và chức năng của phân
tích thống kê
Thu thập dữ liệu

Xếp dữ liệu theo thứ tự (lập dãy,


lập bảng, xếp loại, tính %)

Tóm tắt dữ liệu

Chọn phương pháp phân tích thích


hợp (chọn các tiêu chuẩn)

Phân tích các Nghiên cứu các Phân tích dữ liệu


sai biệt mối liên hệ thực nghiệm
Lập bảng
• Lập dãy
• Lập bảng đơn giản (một chiều hoặc một biến)
• Lập bảng so sánh toàn diện để nghiên cứu mối
liên hệ từ hai biến trở lên.
Lập dãy
• Sắp xếp dữ liệu thành chuỗi số theo hướng
tăng dần, hoặc giảm dần.
– Thích hợp với những dãy dữ liệu nhỏ.
– Thấy sự phân bố, tập trung của dãy số.
Lập bảng đơn giản (một chiều hoặc
một biến)
Frequency distribution

Tần số tuyệt đối.  Các giá trị dữ liệu bất


Tần số tương đối thường.
 Các giá trị mã hóa bất
Tần số tích lũy. thường.
Lập bảng chéo (Cross-tabulation)
Bảng thống kê về sự liên quan giữa thu nhập hằng tháng và
mức độ đi du lịch, dã ngoại.
Tiêu chí < 1 triệu Từ 1- 2 Từ 2-3 >3 triệu Tổng
triệu triệu
Không tham gia 11 13 2 0 26

Thinh thoảng 23 76 8 1 108

Thường xuyên 1 14 10 8 33

Tổng 35 103 20 9 167

 Phân tích tương quan


 Phân tích hồi quy  Phát hiện sai sót trong dữ liệu
 … (mối quan hệ giữa các biến).
 Các đại lượng đo lường khuynh hướng tập trung
 Các đặc trưng khảo sát độ phân tán
 Hình dáng phân bố của dãy số

CÁC ĐẠI LƯỢNG ĐO LƯỜNG


CÁC ĐẠI LƯỢNG ĐO LƯỜNG
• Các đại lượng đo lường độ tập trung phổ biến
– Trung bình số học (Arithmetic mean)
• Trung bình đơn giản
• Trung bình có trọng số
– Trung vị (Median) - Me
– Số Mode (Mo)
– Trung bình hình học
CÁC ĐẠI LƯỢNG ĐO LƯỜNG
• Các đặc trưng khảo sát độ phân tán
– Khoảng biến thiên (Range) – R
– Tứ phân vị (Quartiles) & Phân vị (Percentiles)
– Độ trải giữa (Interquartile Range) – RQ
– độ lệch tuyệt đối
– Phương sai
– độ lệch tiêu chuẩn
– Hệ số biến thiên
Các đại lượng đo lường độ tập
trung phổ biến
Trung bình cộng (Arithmetic mean)
– Xác định: cộng gt của các quan sát sau đó chia cho
tổng số quan sát
– Có hai loại:
• trung bình cộng đơn giản (mean),
• trung bình cộng có trọng số (weighted mean)

10
Trung bình cộng
(Arithmetic mean)

11
Trung bình cộng
(Arithmetic mean)
Ví dụ:
• TB tổng thể
Số liệu tỉ lệ lãi trên vốn (%) của một công ty
ghi nhận qua 10 năm:
5.2 6.0 3.8 4.5 7.4 5.0 5.2 6.5 6.2 6.4

• TB mẫu
Số ngày nghĩ trong năm của một mẫu 16
người, được chọn từ số nhân viên cuả 1 công ty lớn:
10 12 15 6 14 2 4 6
11 15 18 10 8 7 10 12
12
Trung bình cộng
• Trung bình có trọng số
Số sản phẩm đạt tiêu chuẩn kỹ thuật trong 60
ngày ở một phân xưởng:
Số sản phẩm đạt tiêu chuẩn Số ngày
kỹ thuật
450 20
500 28
600 12

Sản phẩm đạt tiêu chuẩn kỹ thuật trung bình một ngày?

13
Trung bình cộng
• Trung bình cho trường hợp DL phân nhóm có khoảng
cách
• Trong một đợt sản xuất, chọn ngẫu nhiên 50 sp và ghi
nhận trọng lượng. Sản phẩm được phân nhóm theo
trọng lượng nhu sau:
Trọng lượng Trị số giữa Số sản phẩm
(gam) (m) (f)
484-490 487 5
490-496 493 10
496-502 499 15
502-508 505 13
508-514 511 7
Cộng - 50 14
Một số tính chất TB số học
• Không tính cho dữ liệu định danh
• Nhược điểm: rất nhạy với giá trị ngoại lệ, làm sai
lệch cảm nhận về mức độ tập trung của tập dữ
liệu (số trung vị sẽ “điều chỉnh” sai lệch trong
cảm nhận).
• Tính trị trung bình cho dữ liệu định lượng đo
bằng thang đo khoảng, nên dùng trung vị làm con
số đo lường mức độ tập trung bên cạnh số trung
bình.
• Sử dụng để so sánh giữa hai hay nhiều tổng thể
• Tổng độ lệch: ∑ − =0
15
Trung bình cộng
(Arithmetic mean)
Ví dụ:
• Tập dữ liệu có 5 quan sát với các giá trị sau:

0 1 2 3 4 5 6 7 8 9 10 110

Ngoại lệ

16
Các đại lượng đo lường độ tập
trung phổ biến
• Trung vị (Median) - Me
– Trong 1 tập dữ liệu đã được sắp xếp trật tự tăng
dần thì trung vị là giá trị đứng giữa của tập dữ liệu.
– Chia dãy số ra thành 2 phấn bằng nhau

17
Trung vị (Median) - Me
• Xác định Trung vị
– Số quan sát trong tập (n) là số lẻ thì quan sát ở vị
trí thứ [(n+1)/2] là số trung vị
– N là số chẵn, số trung vị là giá trị trung bình cộng
của hai quan sát ở vị trí n/2 và [(n+2)/2]
– Xác định vị trí trung vị trước, sau đó xem quan sát
đó có giá trị bao nhiêu thì đó là giá trị trung vị

18
Trung vị (Median) - Me
• Số trung vị dùng chủ yếu cho các phân bố lệch,
do nó biểu thị chính xác hơn trung bình cộng.
• Xét tập { 1, 2, 2, 2, 3, 9 }. Trong trường hợp đó,
số trung vị bằng 2 và bằng mode, và nó có thể
được coi là chỉ định tốt hơn về xu hướng trung
tâm (central tendency) hơn là trung bình số học
có giá trị 3,166….
• Tính toán số trung vị cho ra một độ đo tốt hơn giá
trị kỳ vọng trong trường hợp có mặt các giá trị
ngoại lệ (outlier).
19
Các đại lượng đo lường độ tập
trung phổ biến
• Số Mode (Yếu vị) (Mo)
– Giá trị gặp nhiều lần nhất trong tập dữ liệu
– Ví dụ: mode của {1, 3, 6, 6, 6, 7, 7, 12, 12, 17} là
6
– Mode không chịu ảnh hưởng của giá trị ngoại lệ
– Mode là đại lượng thống kê mô tả duy nhất có thể
vận dụng cho dữ liệu định tính

20
Trung bình hình học

21
Trung bình hình học
• Vốn đầu tư trực tiếp nước ngoài của một địa
phương:
năm 2001 so với năm 2000 tăng 10%,
năm 2002 so với năm 2001 tăng 12%, và năm
2003 so với năm 2002 tăng 8%.
• Tốc độ phát triển trung bình về vốn đầu tư trực
tiếp nước ngoài của một địa phương này trong
thời kỳ 2000-2003?

22
Khảo sát độ phân tán
• Vd: CHọn ngẫu nhiên một số DN của 2 ngành
KD A và B, tỉ lệ trên vốn (%) của các DN ghi
nhận:
Ngành A 10.5 9 12 10 8.5 12.5 9.5
Ngành B 8 12 15 10 16 5 6

Tỉ lệ lãi trung bình các doanh nghiệp?

23
Các đại lượng đo lường độ phân
tán

24
Các đại lượng mô tả sự phân bố
của tập dữ liệu

25
Phân vị (Percentiles)

26
Khảo sát độ phân tán

27
Tứ phân vị (Quartiles)

28
Các đại lượng đo lường độ phân
tán

29
Độ lệch tuyệt đối trung bình (MAD)
• Xác định bằng cách cộng tất cả các độ lệch
tuyệt đối giữa các giá trị với trung bình số
học, sau đó chia cho tổng quan sát.
∑ −
=

Kết quả kinh doanh của các doanh nghiệp ở ngành A có đồng đều hơn
các doanh nghiệp ở ngành B?

30
Các đại lượng đo lường độ phân
tán

31
Phương sai và độ lệch chuẩn
• Ví dụ: Tính phương sai và độ lệch chuẩn của
tập dl có 8 quan sát.

10 12 14 15 17 18 24

8
• n =
16
• ̅ = 18.57
• = 4.31
• s =

32
Phương sai và độ lệch chuẩn
• Phân biệt biến thiên và độ lệch chuẩn
– Biến thiên: diễn tả sự chênh lệch giữa các quan sát
riêng lẻ so với trị trung bình của dl
– Độ lệch chuẩn: một thước đo tổng hợp mức độ biến
thiên trong đó có sự tham gia tính toán của tất cả các gt
quan sát. Đo lường mức độ phân tán của số liệu xung
quanh giá trị trung bình
– Sai số chuẩn của gt trung bình (Std error of the mean)
đo lường phạm vị mà giá trị tb của quần thể có thể
xuất hiện với 1 xác suất cho trước dựa trên gt trung
bình của mẫu (mean)

33
Hệ số biến thiên
(Coefficient of Variation)
• Đo lường độ phân tán của dãy số tính một cách
tương đối..
• Được xác định bằng so sánh độ lệch tiêu chuẩn
với trung bình
= × 100%

34
Hình dáng của phân phối
• Một tập dl thuộc 1 trong 2 kiểu là Cân đối
hoặc lệch, trong nhóm phân phối lệch có 2
kiểu là lệch trái hoặc lệch phải.
• Phương pháp 1: So sánh trung bình và trung vị
– Theo quy tắc sau:
• Nếu trung bình = trung vị -> cân đối
• Nếu trung bình < trung vị -> lệch trái
• Nếu trung bình > trung vị -> lệch phải

35
Hình dáng của phân phối
• Khảo sát hình dáng của các đa giác tần số
tương ứng với các kiểu phân phối
Lệch trái Cân đối Lệch phải

Mean < Me< MO Mean = Me =Mo Mo<Me<Mean

36
Hình dáng của phân phối
• Phương pháp 2: Tính hệ số lệch Pearson
– Hai đại lượng Skewness và Kurtosis giúp hình
dung về phân phối

37
Hình dáng của phân phối
• Skewness (hệ số bất đối xứng): đại lượng đo lường mức độ
lệch của phân phối. Quy tắc nhận xét:
– Nếu phân phối cân xứng Skewness = 0
– Nếu phân phối lệch phải Skewness > 0
– Nếu phân phối lệch trái Skewness < 0
• Kurtosis: đại lượng đo mức độ tập trung tương đối của các
quan sát quanh trung tâm của nó trong mối quan hệ so sánh
với hai đuôi:
– Khi phân phối tập trung ở mức độ bình thường thì hệ số
Kurtosis=3
– Nếu phân phân phối tập trung hơn mức bình thường thì hệ số
(tần số trông sẽ khá cao và nhọn với 2 đuôi hẹp) thì Kurtosis>3
– Nếu Kurtosis <3 thì có 1 đa giác tù hơn với 2 đuôi dài.

38
3.2 Thống kê mô tả
Descriptive Statistics
Thống kê mô tả cho biến định tính (thang đo định
danh và thang đo thứ tự)
• Đổ bảng đơn (phân tích một biến): Bảng phân bổ
tần suất (Frequencies)
• Đổ bảng chéo (Phân tích hai biến): Bảng
Crosstabs
• Đối với biến nhiều trả lời: trước khi đổ bảng ta
phải tiến hành nhóm các biến chứa đựng các giá
trị trả lời có được (multiple – responses/define
groups) trước khi tiến hành đổ bảng (frequencies
hoặc crosstabs)
BAÛNG TAÀN SOÁ
• Analyze/ descriptive statistics /frequencies
• Đếm tần số của số đối tượng trong tập tin dữ
liệu có các biểu hiện nào đó ở một thuộc tính
cụ thể là bao nhiêu.
• Bảng tần số với tất cả biến định tính lẫn định
lượng
• Biến định lượng liên tục có nhiều giá trị =>
bảng sẽ rất dài và thông tin phân tán. Đầu tiên
phải phân tổ bằng lệnh Recode
40
BAÛNG TAÀN SOÁ
• Valid cho biết số quan sát hợp lệ
• Missing cho biết số quan sát bị thiếu dữ liệu
• Frequency: tần số của từng biểu hiện (đếm và
cộng dồn)
• Percent: tần suất theo tỉ lệ % (tần số biểu hiện /
tổng số quan sát)
• Valid Percent: phần trăm hợp lệ (tổng phần tử
/(Tổng QS- Missing))
• Cumulative Percent: phần trăm tích lũy do cộng
dồn các phần trăm từ trên xuống
Bảng tần số
• Lập bảng tần số đồng thời tính toán các đại
lượng thống kê mô tả
• Lựa chọn cách thể hiện kết quả
• Vẽ biểu đồ tần số.

42
Frequencies: Statistics
• Percentile Values: Giá trị của biến định
lượng được sắp xếp thành các nhóm.
– Tứ phân vị, cắt điểm n nhóm bằng nhau,
chỉ định percentiles riêng lẻ.
• Central Tendency: Thống kê mô tả vị trí
của phân phối
– trung bình, chế độ, và tổng hợp của tất cả
các giá trị.
• Dispersion: Thống kê khuynh hướng phân
tán
– Độ lệch chuẩn, phương sai, phạm vi, tối
thiểu, tối đa, và sai số chuẩn của trung bình
• Values are group midpoints: Giá trị là
trung điểm nhóm.
• Distribution: thống kê mô tả hình dạng và
tính đối xứng của phân phối. Những số
liệu thống kê được hiển thị với sai số
chuẩn của họ.
Frequencies: Statistics

44
Lựa chọn cách thể hiện kết quả
• Bề ngang của bảng quá rộng khiến khó bao
quát hết số liệu, in hoặc chép bảng.
• Pivot\Transpose Row and Columns.
• Pivoting Trays

45
Vẽ biểu đồ tần số
• Frequencies: Charts…
– Bar: biểu đồ dạng thanh (biến có giá trị rời rạc, dữ
liệu định tính)
– Pie: biểu đồ hình tròn ( mô tả cấu trúc hiện tượng)
– Histograms: biểu đồ phân phối tần số (dữ liệu liên
tục)
• With normal curve: gắn thêm đường phân phối chuẩn

46
Các đại lượng thống kê mô tả
• Chỉ được tính đối với các biến định lượng. Nếu
tính các đại lượng này đối với biến định tính thì
kết quả không có ý nghĩa.
• Analyze\Descriptive Statistics\Descriptives…
• Ý nghĩa các kết quả
– N: tổng số quan sát là cỡ mẫu
– Std Error (Mean): sai số chuẩn khi dùng giá trị trung
bình mẫu để ước lượng giá trị trung bình tổng thể
– Std Deviation: độ lệch chuẩn cho biết mức độ phân tán
của các giá trị

47
Desciptives Options
– Kurtosis: thước đo độ rộng
hình chóp của 1 phân phối.
Phân chuẩn có Kurtosis=3
– Skewness: thước đo mức độ
không đối xứng của một phân
phối. PP chuẩn có
Skewness=0, các quan sát
phân phối đối xứng quanh trị
Trung bình.
Lập bảng tùy biến
(Custom tables)
• Analyze\Tables\Custom Tables
• Bảng tấn số 1 biến phân loại hay thứ bậc
• Bảng kết hợp 2 biến phân loại hay thứ bậc
• Bảng kết hợp 3 biến định tính
• Bảng tóm tắt các biến định lượng
• Bảng tóm tắt các biến ghép từ các biến của câu
hỏi chọn nhiều trả lời
• Xử lý câu hỏi có thể chọn nhiều trả lời (Multiple Answer)

49
Ví dụ: Lập bảng tùy biến
(Custom tables)

• Bảng tấn số 1 biến phân loại hay thứ bậc


– Có bao nhiêu người trong mẫu khảo sát ở 2 khu vực.
(Đếm tần số)
• Bảng kết hợp 2 biến phân loại hay thứ bậc
– Kết hợp với biến giới tính vào
• Bảng kết hợp 3 biến định tính
– Biến trình độ, hiện thị chỉ 1 khu vực.
• Bảng tóm tắt các biến định lượng
– Mức độ hài lòng về 7 khía cạnh nội dung của tờ báo
SGTT. (Mean)
– Thu nhập hộ gia đình, khu vực

50
Lập bảng tùy biến
(Custom tables)
• Summary Statistics_ để tính thêm những cột số
liệu tóm tắt.
– Row N%
– Column N%
–…
• Categories and Totals… - xuất hiện dòng tổng
cộng
• Layers_ chứa biến phân loại mà muốn phân tách
kết quả của bảng thành các lớp (layer) khác nhau
theo từng phân loại
51
Lập bảng tùy biến
(Custom tables)
• Nếu biến khai báo là nominal hay ordinal thì
tự động chọn Count
• Đối với các biến định lượng thì đại lượng tóm
tắt thường dùng trung bình cộng
• Đối với câu hỏi có thể nhiều trả lời, cần phải
kết hợp các biến này lại.
– Analyze\Tables\Multiple Response Set.

52
Lập bảng cho Multiple Answer

• Tables
– Multiple Response Set: Xử lý câu hỏi có thể chọn
nhiều trả lời (Multiple Answer)
• Custom tables
– Number of Response: số trả lời.
– Ví dụ: Biến cho câu hỏi báo thường đọc.
» Kết hợp biến khu vực
– Multiple Response
• Define Variable Sets…
• Frequencies…
• Crosstabs…

53
Dạng bảng chéo (Phân tích hai
biến) Bảng Crosstabs
• Analyze\Multiple Response\Crosstabs
• Giữa 2 biến
– 1 biến với 1 biến có các nhóm.
– 1 biến với biến nhiều trả lời

54
Thống kê mô tả bằng Explore
• Tổng hợp 1 biến định lượng được đo lường đơn
• Muốn tìm ra những khác biệt trong các đại lượng
thống kê mô tả của biến giữa các nhóm đối tượng
khác nhau.
– Các nhóm con: các nhóm được phân chia bởi các biểu
hiện của biến định tính
• Analyze\Descriptive Statistics\Explore
– Nhận diện các giá trị khác biệt (ngoại lệ hay nhầm lẫn)
– Tính toán các giá trị (thập) phân vị của phân phối của
biến
– Tạo biểu đồ, hình dáng cho dữ liệu phân phối.

55
Explore
• Ví dụ: Muốn tìm ra những khác biệt trong các
đại lượng thống kê mô tả của biến tuổi giữa
các nhóm đối tượng khác nhau về giới tính và
khu vực địa lý.
– Dependent list: tuoi
– Factor list: tp, gtinh

56
Explore
• Dependent list: Chứa biến muốn so sánh khác
biệt trong DLTKMT theo nhóm
– DL dạng định lượng.
• Factor list: Chứa biến muốn sử dụng làm điều
kiện phân tách biến định lượng ra so sánh,
dạng categorical.

57
Explore
• Statistic
– Descriptive: Tính toán đủ các ĐLTKMT.
– M-estimators: 1 ước lượng cho khuynh hướng tập
trung có trọng số cho các gt khác nhau tùy theo vi trí.
Nếu DL có các điểm cực trị hay phân tán thì M-e cho
ước lượng tốt hơn trung bình và trung vị
– Outliers: Thể hiện 5 gt lớn nhất và 5 gt nhỏ nhất của
biến trong khung Dependent List, và chỉ ra cả vị trí của
chúng theo hàng.
– Percentile: thể hiện các thập phân vị
5,10,25,50,75,90,95

58
Explore
• Plots (lựa chọn các dạng biểu đồ)
– Boxplots: Sắp xếp lại cách thể hiện hoặc không thể
hiện. Hai tình huống hoán đổi cho nhau:
• Factor levels together
• Dependents together
– Stem and leaf: biểu đồ thân và lá, mô tả phân phối của
biến, cho thấy giá trị gốc.
• Power estimation: ước lượng
• Transformed: thay đổi
– Histogram
– Normality plots with test: vẽ biểu đồ xác chuẩn Q-Q
plot (kiểm tra biến có phân phối chuẩn không)

59
Explore
• Options… xử lý giá trị Missing
– Exclude case listwise: Bỏ qua những trường hợp gt
thiếu ở bất kỳ biến trong Dependent List hay
Factor List.
– Exclude case pairwise: các trường hợp quan sát có
gt thiếu tại 1 biến phụ thuộc sẽ vẫn được tính toán
các con số của biến phụ thuộc khác.

60
MÔ TẢ DỮ LIỆU BẰNG BIỂU
ĐỒ
Mô tả dữ liệu bằng biểu đồ
Loại biểu đồ Chức năng biểu đồ
Cột đứng hoặc ngang So sánh các tần số, tần suất, tỷ lệ giữa các nhóm, loại của 1
(Bar) biến về chất, hoặc giá trị trung bình của các biến liên tục. Có
thể kết hợp 2-3 biến trên cùng 1 biểu đồ
Hình tròn Chỉ ra các tỉ lệ khác nhau giữa các loại trong một nhóm của
(Pie) một biến về chất. Tổng các tỉ lệ phải bằng 100%

Cột chồng nhau So sánh biến giữa 2 hoặc 3 quần thể khác nhau

Cột liên tục Khi một biến liên tục được phân ra các nhóm khác nhau, nó
sẽ trở thành 1 biến định tính (bao gốm nhiều nhóm xếp kế
tiếp nhau)

62
Mô tả dữ liệu bằng biểu đồ
Loại biểu đồ Chức năng biểu đồ
Đa giác Dạng đặc biệt của biểu đồ cột liên tục khi điểm giữa của các cột
này được nối với nhau theo nguyên tắc diện tích các cột bằng
diện tích đa giác

Đường thẳng Chỉ ra sự tương tác của một loại số liệu theo thời gian
(Line Area)

Biểu đồ chấm Chỉ ra sự tương quan giữa 2 biến liên tục. Dựa vào biểu đồ này
cò thể biết được hướng và mức độ tương quan giữa 2 biến liên
tục

63
Mô tả dữ liệu bằng biểu đồ
• Stem & Leaf
– Thấy được cách thức phân tán của dl gốc một cách chi tiết.
– Chỉ phát huy trong trường hợp số quan sát không quá lớn
– Dữ liệu định lượng. Những con số sẽ tách thành 2 phần:
thân và lá.
– Chữ số bên phải dl sẽ đóng vai trò lá là 1 hay 2 chữ số hàng
chục hay đơn vị.
– Bên trái chữ số là 1 hay 2 chữ số hàng trăm hay hàng chục
sẽ đóng vai trò là thân.
– Nếu các gt thể hiện 3 chữ số hoặc số lẻ thì thường làm tròn
2 số rồi mới biểu diễn.

64
Bar
• Summaries for group of
cases: thể hiện 1 con số
thống kê cho những nhóm
trường hợp khác nhau
• Summaries of separate
variables: thể hiện những
con số thống kê tổng hợp
cho những biến khác nhau
• Values of individual
cases: thể hiện giá trị thật
của 1 biến.

65
3.5 Mô tả dữ liệu bằng biểu đồ
• Scatter
– Y-axis, X-axis: biến phải là số.
– Set Markers: số hay chuổi ký tự.
– Cách hiện thị kết quả của biểu đồ
• Simple:hiện thị 1 biến theo biến khác.
• Overlay: hiện thị nhiều biểu đồ giữa nhiều cặp biến
cùng 1 lúc.
• Matrix: hiện thị biểu đồ của nhiều biến so từng cặp với
nhau
• 3-D: biểu đồ của 3 biến trong không gian 3 chiều

66
Scatter

Simple Overlay

Matrix 3-D
67
3.5 Mô tả dữ liệu bằng biểu đồ
• Histogram (Đồ thị phân phối tần số)
– Chuyển hóa thông tin trên bảng tần số thành hình ảnh
trực quan.
– Thể hiện 3 thông tin cơ bản:
• Cảm nhận (1 cách tương đối) về sự tập trung của dl
• Mức độ phân tán tương đối của dl
• Cảm nhận sơ bộ hình dáng của phân phối là bằng phẳng, lệch
hay cân đối.
– Trục ngang biểu hiện của tiêu chí hoặc đặc trưng thống
kê đang quan tâm.
– Trục đứng thể hiện tần số các biểu hiện.

68
Histogram

69
3.5 Mô tả dữ liệu bằng biểu đồ
• P-P Plots
– Biểu diễn phân phối tích lũy của biến theo phân phối
tích lũy của phân phối đã chọn để kiểm tra.
– Nếu các điểm phân bố xung quanh đường thẳng, phân
phối của biến phù hợp với phân phối đã chọn.
– Các phân phối có sẳn để kiểm tra là beta, chi-square,
exponential, gamma, half-normal, laplace, logistic,
lognormal, normal, pareto, Student’s t, Weibull, và
uniform.
– Tùy theo phân phối đã chọn mà xác định độ tự do và
các tham số.

70
P-P Plots

71
3.5 Mô tả dữ liệu bằng biểu đồ
• Q-Q Plot
– Vẽ đồ thị của các điểm phân vị (quantiles) của
phân phối của biến theo các phân vị của một phân
phối muốn kiểm tra.
– Nếu phù hợp các điểm sẽ phân bố quanh 1 đường
thẳng.

72
Q-Q Plot

73
3.5 Mô tả dữ liệu bằng biểu đồ
• Boxplots
– Hình ảnh trực quan khác về vị trí, độ phân tán,
dạng hình, độ dài đuôi và các giá trị bất thường
(outliers) của phân phối.
– Một đối tượng thể hiện đồng thời các thông tin: gt
cực đại, cực tiểu, 3 tứ phân vị và đôi khi cả các
quan sát ngoại lệ.

74
Các giá trị lớn hơn 3 lần so với độ dài của hộp tính từ giá trị

Boxplots tứ phân vị thứ 3 (extremes)

Các giá trị lớn hơn 1.5 lần so với độ dài của hộp tính từ giá
trị tứ phân vị thứ 3 (outliers)

Giá trị lớn nhất quan sát được không


Cực đại phải là giá trị bất thường

50% trường
hợp có giá trị Median
nằm trong hộp

Cực tiểu
75
Boxplots
25% 25% 25% 25%

Cực tiểu
Me Cực đại

• Khi đa giác tần số cân đối: trung bình và trung vị trùnh nhau, Boxplots cân
đối với 2 râu dài bằng nhau, đường thẳng đi qua trung vị sẽ nằm chính giữa
hộp.
• Khi đa giác tần số lệch trái: râu bên trái dài hơn bên phải, 25% số quan sát
sẽ phân bố với mật độ loãng hơn trong khu vực bên trái Q1 và 25% số quan
sát sẽ phân bố với mật độ dày hơn ở khu vực bên phải Q3.
• Khi đa giác tần số lệch phải: râu bênphải dài hơn bên trái, 25% số quan sát
sẽ phân bố với mật độ loãng hơn trong khu vực bên phải Q3 và 25% số
quan sát sẽ phân bố với mật độ dày hơn ở khu vực bên trái Q1 .

76
Boxplots
• Simple
– Summaries for groups of cases: Một biến lấy giá
trị số sẽ được tóm tắt theo kết quả của một biến
khác. Cần có các xác định tối thiểu sau:
• Biến lấy giá trị số cần tóm tắt
• Biến trên trục Category

77
Boxplots

78
Boxplots
• Simple
– Summaries of Separate Variables: Nhiều biến lấy
giá trị số được tóm tắt. Mỗi hộp đại diện cho một
biến cần tóm tắt. Cần có xác định tối thiểu sau:
– Ít nhất 2 biến lấy giá trị số

79
Boxplots

80
Boxplots
• Scattered
– Summaries for Groups of Cases: Một biến lấy giá
trị số sẽ được tóm tắt trong các cụm được xác định
bởi một biến khác. Mỗi hộp trong cụm đại diện
cho một kết quả của biến dùng để định nghĩa cụm.
Cần có các xác định tối thiểu sau:
• Biến lấy giá trị số cần tóm tắt
• Biến trên trục Category (Category Variable 1)
• Biến định nghĩa cụm (Cat Var 2)

81
Boxplots

82
Boxplots
• Scattered
– Summaries of Separate variables: Nhiều biến lấy
giá trị số được tóm tắt. Mỗi hộp trong cụm đại diện
cho một biến cần tóm tắt. Cần có các xác định tối
thiểu sau:
• Ít nhất hai biến lấy giá trị số (Var 1, Var 2,…)
• Một biến trên trục Category (Category Variable)

83
Boxplots

84
Tạo và chỉnh sửa Charts
• Simple bar chart
• Pie chart
• Scatterplot with groups

85
Tạo chart
• Simple bar chart
• Tạo bar chart thể hiện trung bình thu nhập của
những mức khác nhau của sự thoả mãn nghề
nghiệp.
• Graphs
Chart Builder...
There will be a categorical variable on the x
axis and a scale variable on the y axis for
calculating the mean.
86
Chart editing basics
• Change colors.
• • Format numbers in tick labels.
• • Edit text.
• • Display data value labels.
• • Use chart templates.

87
Tạo và chỉnh sửa Charts
• pie chart and a grouped scatterplot
– Hiding categories.
– Moving text.
– Converting a chart to another chart type.
– Adding a fit line to a scatterplot.
– Identifying points in a scatterplot.

88
Tạo và chỉnh sửa Charts
• pie chart
– Biểu diển có bao nhiêu người trả lới có dịch vụ
internet ở nhà.
– Biến Internet là biến xác định số phân chia đường
tròn.

89
Tạo và chỉnh sửa Charts
• Grouped Scatter
– Hiểu quả chất đốt đối với hạn chế trọng lượng
– Đặt biến phụ thuộc trên trục y và biến không phụ
thuộc trên trục x.
– Biến chia nhóm.

90
Tài liệu tham khảo
• [1] Hà Trọng Quang, “Xử lý dữ liệu nghiên cứu với SPSS for windows”, Đại học Công Nghiệp
Tp.HCM, 2008.
• [2] Hoàng Trọng, “Xử lý dữ liệu nghiên cứu với SPSS ”, Đại học Kinh tế tp. HCM, 2008.
• [3] Hoàng Trọng, “Thống kê ứng dụng trong kinh tế - xã hội”, Nhà xuất bản Lao động – xã hội,
2010.
• [4] Susan B. Gerber, Kristin Voelkl Finn, “Using SPSS For Windows Data Analysis and
Graphics”, Springer Science+Business Media, 1999.
• [5] Nguyễn Duy Tâm, “Phân tích dữ liệu”, http://sites.google.com/site/tam0505/spss, 2011.

91

You might also like