Tke SPSS PDF

30/11/2018
ỨNG DỤNG SPSS

PHÂN TÍCH DỮ LIỆU
THỐNG KÊ
NỘI DUNG
1 Giới thiệu chung về phân tích và dự đoán thống kê
2 Mô tả dữ liệu thống kê
3 Ước lượng và kiểm định giả thuyết thống kê
4 Phân tích hồi quy tương quan
5 Phân tích dãy số thời gian và dự đoán
1
30/11/2018
BÀI 1
GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ
I II III
MỘT SỐ KHÁI GIỚI THIỆU QUẢN LÝ DỮ

NIỆM CHUNG PHẦN MỀM LIỆU TRONG
SPSS SPSS
1. Thống kê học:
Thống kê học là khoa học nghiên cứu hệ thống

phương pháp (thu thập, xử lý, phân tích) con số (mặt
lượng) của các hiện tượng số lớn tìm bản chất và tính
quy luật (mặt chất) trong những điều kiện nhất định.
2
30/11/2018
1. Thống kê học:
Thống kê là việc thu thập, trình bày, phân tích và

diễn giải các dữ liệu dưới dạng số (Croxton và ctg)
Các phương pháp thống kê
Phương pháp
thống kê
Thống Thống kê
kê mô tả suy luận
3
30/11/2018
1. Tổng thể thống kê và đơn vị tổng thể
Tổng thể thống kê là hiện tượng số lớn gồm các đơn

vị (phần tử) cần quan sát và phân tích mặt lượng.
Các đơn vị (phần tử) - đơn vị tổng thể.
2. Tiêu thức thống kê

Tiêu thức thống kê - đặc điểm của đơn vị tổng thể
được chọn để nghiên cứu
4
30/11/2018
3. Chỉ tiêu thống kê
Chỉ tiêu thống kê phản ánh mặt lượng gắn với chất
của các hiện tượng trong điều kiện thời gian và địa
điểm cụ thể.
CÁC THANG ĐO TRONG THỐNG KÊ
Đánh số các biểu hiện

cùng loại của tiêu thức
THANG ĐO ĐỊNH DANH Biểu hiệu có

(Nominal Scale) thứ tự hơn kém
Tiêu thức
thuộc tính
THANG ĐO THỨ BẬC Có khoảng cách
(Ordinal Scale) bằng nhau
THANG ĐO KHOẢNG
Có gốc 0
(Interval Scale)
Tiêu thức
Số lượng
THANG ĐO TỶ LỆ
(Ratio Scale)
5
30/11/2018
II. Giới thiệu chung về SPSS
SPSS (Statistical Package for Social Sciences)

Là phần mềm chuyên dụng xử lý thông tin sơ
cấp (thông tin được thu thập trực tiếp từ đối
tượng nghiên cứu thông qua bảng hỏi được
thiết kế sẵn)
11
Các màn hình SPSS

- Màn hình quản lý dữ liệu
- Màn hình quản lý biến
- Màn hình hiển thị kết quả
- Màn hình cú pháp
12
6
30/11/2018
Màn hình quản lý dữ liệu

(data view)
Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao
13
gồm cột, hàng
Màn hình quản lý biến

(variables view)
Dùng để quản lý các biến và các thông tin liên quan đến biến, cơ
sở dữ liệu được lưu trữ dưới dạng *.SAV 14
7
30/11/2018
Màn hình hiện thị kết quả

(output)
Các kết quả có thể copy hoặc copy object hoặc export sang các
phần mềm khác như word hay Excel,... Màn hình này cho phép ta
xem và lưu giữ các kết quả phân tích (*.SPO)
15
Màn hình cú pháp (syntax)
Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnh
phân tích (các câu lệnh). Các cú pháp được lưu trữ với phần
mở rộng (*.SPS) 16
8
30/11/2018
Các menu chính

File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…
Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…
View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…
Data: các vấn đề liên quan đến dữ liệu,…
Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…
Analyze: các phân tích thống kê,…
Graphs: biểu đồ và đồ thị,…
Utilities: thông tin về các biến và file,…
Window: sắp xếp và di chuyển các cửa sổ làm việc
Help: trợ giúp
17
III. Quản lý dữ liệu trong SPSS
1. Tạo lập Cơ sở dữ liệu

2. Tạo biến trong cơ sở dữ liệu
3. Mã hóa lại dữ liệu
4. Lựa chọn các quan sát
5. Tách dữ liệu
6. Gộp dữ liệu
7. Lựa chọn quyền số cho các quan sát
18
9
30/11/2018
1. Tạo lập cơ sở dữ liệu trong SPSS

Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là
một tập hợp thông tin có cấu trúc.
Thành phần của CSDL
• Quan sát (Observation): chứa thông tin về 1

đối tượng điều tra/thời gian nghiên cứu
• Biến (variable): thể hiện các thuộc tính của

quan sát
19
Phân loại biến theo số lượng câu trả lời
Biến một trả lời (câu hỏi lựa chọn)

Biến nhiều trả lời (câu hỏi tuỳ chọn)
20
10
30/11/2018
Biến một trả lời

Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số
những nhóm tuổi sau:
Nhóm tuổi code

Dưới 18 1
18 đến 30 2
31 đến 40 3
41 đến 50 4
Trên 50 5
Mỗi câu hỏi sẽ hình thành một biến với các giá trị tương ứng
21
Biến nhiều trả lời

Câu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệu
nào trong danh sách liệt kê dưới đây:
Nhãn hiệu code

Vinataba 1
Marlboro 2
KENT 3
JET 4
Mỗi biểu hiện sẽ hình thành một biến với 2 giá trị (có và không)
22
11
30/11/2018
Phân loại biến theo kiểu dữ liệu

Biến định tính
• Thang đo định danh (nominal scale)
• Thanh đo thứ bậc (ordinal scale)
Biến định lượng
• Thang đo khoảng (interval scale)
• Thang đo tỷ lệ (ratio scale)
23
Các loại/dạng dữ liệu trong SPSS

Dữ liệu chéo – cross data: Mỗi quan sát là một
đơn vị theo “không gian”
Dữ liệu chuỗi/thời gian – time serial data: Mỗi
quan sát là một đơn vị theo “thời gian”
24
12
30/11/2018
Khai báo biến trong SPSS

Variable Name (tên biến)
Các qui tắc dưới đây được áp dụng cho tên biến:
• Tên phải bắt đầu bằng một chữ.
• Độ dài của tên biến không vượt quá 8 ký tự.
• Tên biến không được kết thúc bằng một dấu chấm.
• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không
được sử dụng
• Tên biến phải duy nhất (không được phép trùng lặp), phân biệt
chữ trong tên biến. Các tên NEWVAR, NewVar, và newvar được xem
là giống nhau.
• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để
tránh xung đột với các biến được tự động lập bởi một số thủ tục)
25

Variable Type (kiểu biến)
26
13
30/11/2018

Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từng
biến và hiện thị kết quả khi chạy dữ liệu
Ví dụ: biến “q1” là biến “giới tính”
27

Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý
nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệu
Ví dụ: 1 là nam
2 là nữ
28
14
30/11/2018

Missing (giá trị khuyết) – dùng để loại những giá trị không
có ý nghĩa
Các giá trị khuyết sẽ không tham gia vào quá trình phân tích
29

Measure (thang đo)
SPSS phân ra 3 loại thang đo
- Nominal (thang đo định danh)
- Ordinal (thang đo thứ bậc)
- Scale (thang đo khoảng và thang đo tỷ lệ)
30
15
30/11/2018
Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có
giá trị với biến String)
Decimals (số lượng số hiện thị sau dấu phẩy)
Column format (Định kích cỡ cho cột- độ rộng của cột)
Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)
31
Ví dụ thực hành
Tạo cơ cở dữ liệu
32
16
30/11/2018
33
Nhập dữ liệu
Thường nhập dữ liệu theo từng đối tượng (từng bản

ghi) hoặc cũng có thể theo từng biến
34
17
30/11/2018
TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC
• File > Open > Data…
• Trong mục File of type chọn định dạng file phù hợp hoặc
chọn All Files (*.*)
35
Mở một tệp tin {file} Excel
-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data...
- Trong hộp thoại Open File, chọn file mà bạn muốn mở
- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại
file (Files of type) và sau đó chọn tên file (File name)
- Nhắp Open
36
18
30/11/2018

Transform > Compute Variable…
Tạo ra một biến mới theo biểu
thức mô tả (Numeric expression)
Biểu thức có thể là một phép tính,
một hàm,…
Nếu tính theo một điều kiện nào

đó thì nhấn vào if (đặt điều kiện
vào tính toán cho biểu thức)
37
Phép toán Toán tử

+ Cộng > Lớn hơn
- Trừ < Nhỏ hơn
* Nhân >= Lớn hơn hoặc bằng
/ Chia <= Nhỏ hơn hoặc bằng
** Luỹ thừa = Bằng
~= Không bằng
& Và
| Hoặc
38
19
30/11/2018
Phép toán Toán tử

+ Cộng > Lớn hơn
- Trừ < Nhỏ hơn
* Nhân >= Lớn hơn hoặc bằng
/ Chia <= Nhỏ hơn hoặc bằng
** Luỹ thừa = Bằng
~= Không bằng
& Và
| Hoặc
39

MỘT SỐ HÀM THÔNG DỤNG:
ABS(numexpr) – Trả về giá trị tuyệt đối

EXP(numexpr) – Trả về luỹ thừa của cơ số e
SQRT(numexpr) – Lấy căn bậc 2 của biểu thức
MIN(value,value[,...]) – Lấy giá trị nhỏ nhất
MAX(value,value[,...]) – Lấy giá trị lớn nhất
SUM(numexpr, numexpr[,...]) – Tính tổng của các số
MEAN(numexpr, numexpr[,...]) – Tính trung bình cộng
MEDIAN(numexpr, numexpr[,...]) – Tính trung vị
VARIAN(numexpr, numexpr[,...]) – Tính phương sai
SD(numexpr, numexpr[,...]) – Tính độ lệch chuẩn
40
20
30/11/2018

LOWER(strexpr) – Viết thường các ký tự
UPCASE(strexpr) – Viết hoa các ký tự
LTRIM(strexpr) – Cắt khoảng trắng phía trái
RTRIM(strexpr) – Cắt khoảng trắng phía phải
STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định
dạng [F##.##]
CONCAT(strexpr, strexpr[,...]) – Nối các chuỗi ký tự
CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào
bên phải strexpr1 với độ ký tự xác định
CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào
bên trái strexpr1 với độ ký tự xác định
CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định
theo độ dài xác định [hoặc đến hết]
41
3. Mã hoá lại dữ liệu

- Mã hoá lại dữ liệu thành một biến khác
Transform > Recode into Different Variables…

• Chọn các biến muốn mã hoá, Nếu
chọn nhiều biến, chúng phải có cùng
dạng (chuỗi hoặc số)
• Click vào Old and New Values và
định rõ cách mã hoá lại trị số.
• Sau đó nhấn Change
Nhấn If để xác định một nhóm các đối

tượng cũng giống như đã được mô tả
trong mục tính toán biến {Compute
Variable}
42
21
30/11/2018
3. Mã hoá lại dữ liệu

- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)
Transform > Recode into Same Variables…
(không khuyến nghị thực hiện theo cách này!)

Thực hiện tương tự như trường hợp trên nhưng biến mới được tạo
ra thay cho biến cũ
43
3. Mã hoá dữ liệu tự động

• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang
dạng số vào trong một biến mới. Biến mới này sẽ chứa các
con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ
đại diện cho các giá trị dạng chuổi giống nhau .
• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.
Transform > Automatic Recode
44
22
30/11/2018
4. Lựa chọn các quan sát

Mặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn
thực hiện trên một số quan sát sẽ tiến hành như sau:
Data > Select cases
- Các quan sát không lựa chọn
được giữ và có dấu gạch chéo
chọn Filtered -> máy sẽ tạo ra
một biến Filter_$ (lần sau nếu
chọn tương tự thì sử dụng biến
này để đưa vào ô Use filter
variable)
- Các quan sát được chọn sẽ
được lưu sang cơ sở dữ liệu mới
chọn Copy selected cases to a
new dataset và đặt tên trong ô
Dataset name
- Các quan sát không lựa chọn
bị xoá, chọn Deleted
unselected cases
45
5. Tách dữ liệu
Theo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theo
từng nhóm nào đó sử dụng công cụ tách dữ liệu
Data > Split File
Đưa biến phân loại đưa sang ô

Groups Based on:
Chọn Compare groups nếu muốn
so sánh giữa các nhóm
Chọn Organize output by groups
nếu muốn tách theo từng nhóm
riêng biệt
46
23
30/11/2018
6. Gộp dữ liệu
Data/ Aggregate Data
Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:
- Chuyển biến được chọn làm cơ sở để tập hợp

dữ liệu sang cửa sổ Break Variable(s)
- Chuyển biến muốn tập hợp sang cửa sổ
Summaries of Variables
- Chọn Funtion để xác định các hàm tập hợp
- Vào Name & Label để đặt tên và nhãn cho
biến mới
Để biến mới tập hợp
trong file dữ liệu hiện tại
Tạo file dữ liệu

mới cho kết quả
tập hợp
47
7. Lựa chọn quyền số cho các quan sát

Mặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện
cho một số lượng các quan sát, sử dụng quyền số.
Data > Weight cases
Chọn Weight case by và đưa

biến làm quyền số vào ô
Frequency variable
48
24
30/11/2018
BÀI 2
MÔ TẢ DỮ LIỆU THỐNG KÊ
I II III
MÔ TẢ DỮ LIỆU MÔ TẢ DỮ LIỆU MÔ TẢ DỮ LIỆU

QUA CÁC THAM QUA BẢNG QUA ĐỒ THỊ
SỐ THỐNG KÊ THỐNG KÊ THỐNG KÊ
1. Các mức độ trung tâm
- Số bình quân (trung bình)

- Mốt (Mo)
- Số trung vị (Me)
50
25
30/11/2018
2. Các phân vị
- Phân vị thứ p là giá trị mà có p% số quan sát có giá trị

nhỏ hơn hoặc bằng giá trị phân vị mức p và tương ứng có
(100 - p)% số quan sát có giá trị lớn hơn hoặc bằng giá
trị phân vị mức p.
- Tứ phân vị
- Thập phân vị
51
3. Các tham số đo độ phân tán
- Khoảng biến thiên: R = Xmax - Xmin

n n
 ( xi  x )2  xi2  nx 2
- Phương sai: S2  i 1
 i 1
n 1 n 1
- Độ lệch tiêu chuẩn: S  S2
S
- Sai số chuẩn trung bình: x 
n
52
26
30/11/2018
4. Các tham số phản ánh phân phối

n 3
x x
n  i 
- Hệ số bất đối xứng: Skewness  i 1  S 
(n  1)(n  2)
Hệ số này có giá trị càng gần 0 thì phân phối của dãy số lại
càng đối xứng qua giá trị μ. Khi hệ số này nhỏ hơn 0, dãy số
phân phối chuẩn lệch trái. Khi hệ số này lớn hơn 0, dãy số
phân phối chuẩn lệch phải.
53
4. Các tham số phản ánh phân phối

4
x x n
n( n  1 )  i 
i 1  S 
- Hệ số độ nhọn: Kurtosis 
( n  1 )( n  2 )( n  3 )
Đối với phân phối chuẩn thì giá trị của hệ số Kurtosis
bằng 3.
4
 n
 xi  x  
 n( n  1 )   
 i 1  S   3( n  1 ) 2
K 
 ( n  1 )( n  2 )( n  3 )  ( n  2 )( n  3 )
 
 
Khi giá trị này bằng 0 thì đó là phân phối chuẩn, nếu
giá trị mang dấu dương thì phân phối nhọn hơn so với
phân phối chuẩn và ngược 54
27
30/11/2018
Sơ đồ hộp (box plot)

• Là sơ đồ biểu diễn cùng lúc các đặc trưng trung
tâm và độ biến thiên (phân tán)
X min Q1 Me Q3 X max
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài

của hộp (khoảng tứ phân vị IQR).
X min Q Me Q X max
1 3
• Nhận biết độ lệch phân phối của dữ liệu
56
28
30/11/2018
Hình dáng của phân phối

và box plot
Lệch trái Đối xứng Lệch phải

Q1 Me Q3 Q1 Me Q3 Q1 Me Q3
57
Tác dụng của box plot
• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài

của hộp (khoảng tứ phân vị IQR).
• Nhận biết độ lệch phân phối của dữ liệu
• Nhận biết lượng biến đột xuất và nghi ngờ là đột
xuất
58
29
30/11/2018
Nhận biết lượng biến đột xuất
Outer Inner hinger Giới hạn Giới hạn

fence fence trong ngoài
IQR
1.5 IQR 1.5 IQR 1.5 IQR 1.5 IQR
Lượng biến Nghi ngờ là Nghi ngờ là Lượng biến

đột xuất lượng biến lượng biến đột xuất
đột xuất Q1 Me Q3 đột xuất
Bài 2 59
30
30/11/2018
Thực hiện bằng SPSS

Trường hợp 1:
Chọn Analyze > Descriptive Statistics > Frequencies…
Đưa các biến cần tính toán các

tham số sang Variable(s)
Nhấn Statistic…
62
31
30/11/2018

Chọn Analyze > Descriptive Statistics > Frequencies…
Chọn các thống kê cần tính toán 63

Trường hợp 2:
Chọn Analyze > Descriptive Statistics > Explore …
Đưa các biến cần tính toán các

tham số sang Dependent List
Muốn phân tích theo biến nào
đó thì đưa sang biến sang
Factor List
Trong mục Display chọn
Statistics hoặc Both
64
32
30/11/2018

Trường hợp 3:
Chọn Analyze > Descriptive Statistics > Descriptives…
Đưa các biến sang Variable(s) và nhấn Options… 65

Chọn Analyze > Descriptive Statistics > Descriptives…
Chọn các thống kê cần tính toán 66
33
30/11/2018
II. Mô tả dữ liệu qua bảng thống kê
Bảng thống kê là một hình thức trình bày các tài liệu thống
kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các
đặc trưng về mặt lượng của hiện tượng nghiên cứu
Cấu trúc bảng thống kê
TIÊU ĐỀ BẢNG
Tiêu đề cột
Tiêu đề
dòng
Dữ liệu
Ghi chú (nếu có)

Nguồn thông tin:
34
30/11/2018
Nguyên tắc khi trình bày bảng thống kê
- Quy mô bảng vừa phải

- Tiêu đề bảng, tiêu mục ghi chính xác, ngắn gọn
- Đơn vị tính – nếu tất cả có cùng đơn vị tính thì ghi góc
phải phía trên bảng
- Các chỉ tiêu được sắp xếp theo thứ tự hợp lý
- Không được để trống ô nào trong bảng, nếu không có
dữ liệu thì ghi bằng các ký hiệu
Nguyên tắc ghi ký hiệu
- Nếu hiện tượng không có số liệu, ghi ( - )

- Nếu số liệu còn thiếu, có thể bổ sung ( … )
- Nếu hiện tượng không liên quan ( x )
35
30/11/2018
Lập bảng thống kê

Lập bảng tần số cho 1 biến thuộc tính
Analyze  Descriptive Statistics  Frequencies…
Đưa các biến cần
lập bảng sang ô
Variable(s)
Hiện thị bảng tần số
Lập bảng tần số cho 1 biến thuộc tính

Analyze > Tables > Custom Tables...
Đưa 1 biến chủ đề vào

Rows hoặc Columns
Chọn các thống kê theo Cột

(Columns) hoặc dòng
(Rows), Ẩn nhãn (tên) các
thống kê (Hide),
36
30/11/2018
Chọn N Summary Statistic…
Chọn các thống kê cần hiện thị chuyển sang mục Display
Đặt lại nhãn (Label) thay đổi định dạng (Format, Decimal)
Nhấn Apply to Selection
Chọn Catagories and Total…

Không muốn hiện thị biểu hiện nào đó ->
chuyển biểu hiện đó sang Exclude
Chọn Total và đặt lại nhãn (Label) nếu
muốn hiện thị dòng tổng số
Hiện thị giá trị khuyết thiếu tích vào
Missing Value
Hiện thị biểu hiện không có quan sát tích
Empty categories
Dòng tổng số để trên (Above) dưới (Below)
Sắp xếp các biểu hiện chọn Sort categories by (value, count,….) và theo thứ tự tang
(Ascending) hoặc giảm (Descending)
Nhấn Apply
37
30/11/2018
Đặt tiêu đề bảng,… (Titles)
Ghi tên bảng vào ô Titles:

Điền ghi chú, nguồn thông tin,… ở dưới bảng vào ô: Caption
Điền tiêu đề (giữa cột và dòng) vào ô Corner
Bảng kết hợp nhiều biến (định tính –

định tính; định tính – định lượng)
Analyze > Tables > Custom Tables...
Đưa các biến (định tính hoặc định lượng)

vào Rows và Columns
38
30/11/2018

Lập bảng cho biến tuỳ chọn (Multiple Answer)
Analyze > Tables > Multiple Response Sets
Đưa các biến của câu trả lời sang ô
Variables in Set
Chọn Dichotomies nếu biến có 2 biểu
hiện hoặc Categories nếu biến có
nhiều biểu hiện
Nhập giá trị cần đếm vào Counted
Value
Đặt tên biến Name và nhãn biến
Label
Nhấn Add -> OK
III. Mô tả dữ liệu qua đồ thị thống kê
Là các hình vẽ hoặc đường nét hình học dùng để

miêu tả có tính chất quy ước các tài liệu thống kê
39
30/11/2018
Các loại đồ thị
- Đồ thị phát triển

- Đồ thị kết cấu
- Đồ thị so sánh
- Đồ thị liên hệ
- Đồ thị “tháp dân số”
Đồ thị thống kê
Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...
Simple đồ thị thanh cho 1 biến
Clustered đồ thị thanh kết hợp 2 biến (theo
nhóm với nhiều cột cạnh nhau)
Stacked Đồ thị thanh kết hợp 2 biến (biến
được biệu hiện trên 1 cột)
Summaries for groups cases Mỗi thanh
của đồ thị thể hiện số lượng các quan sát có
cùng 1 giá trị của biến
Summaries for separate variables Mỗi
thanh của đồ thị thể hiện giá trị thống kê
của biến
Value of individual cases Mỗi thanh của
đồ thị thể hiện giá trị 1 quan sát của biến
40
30/11/2018
Đồ thị thống kê
Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...
Bars Represent tham số thống kê thể

hiện trên đồ thị
Category Axis Trục hoành
Define Clusters by biến phân loại
Có thể vẽ theo dòng hay cột (theo biến
phân loại thứ 2)  đưa biến vào Panel
by Rows (Columns)
BÀI 3
ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
I II III
NHỮNG VẤN ĐỀ ƯỚC LƯỢNG KIỂM ĐỊNH GIẢ

CƠ BẢN VỀ ĐIỀU TRA THUYẾT THỐNG
PHÂN PHỐI KÊ
41
30/11/2018
I. NHỮNG VẤN ĐỀ CƠ BẢN VỀ

PHÂN PHỐI
Biến ngẫu nhiên

• Biến ngẫu nhiên là biến nhận một trong các giá trị có
thể có của nó tuỳ thuộc vào sự tác động của các nhân
tố ngẫu nhiên trong một phép thử.
• Biến ngẫu nhiên là biến mà các giá trị không được xác
định trước qua mỗi lần thực nghiệm (phép thử).
42
30/11/2018
Quy luật phân phối xác suất
• Quy luật phân phối xác suất của biến ngẫu nhiên là sự
tương ứng giữa giá trị có thể có của nó và xác suất
tương ứng với giá trị đó.
85
II. Ước lượng kết quả điều tra

• Với mức ý nghĩa α
• Ước lượng trung bình
Hai phía x  t n / 21. x    x  t n / 21. x
Vế phải x  t n 1. x    
Vế trái      x  t n 1. x
43
30/11/2018
III. Kiểm định giả thuyết thống kê
1 Những vấn đề chung về kiểm định giả thuyết thống kê
2 Kiểm định trung bình
3 Kiểm định Khi bình phương
1. Những vấn đề chung về kiểm định
Là giả thuyết về một vấn đề nào đó của tổng

thể chung (về các tham số như trung bình, tỷ
lệ, phương sai, dạng phân phối,…)
44
30/11/2018
Giả thuyết thống kê
Giả thuyết mà ta muốn kiểm định (H0)

Giả thuyết đối lập (Ha, H1, H)
Giả thuyết thống kê

Ví dụ
H0:  = 0
H1:   0
Bác bỏ H0 Bác bỏ H0
45
30/11/2018
Sai lầm và mức ý nghĩa trong kiểm định
- Sai lầm loại I là bác bỏ H0 khi H0 đúng

- Sai lầm loại II là chấp nhận H0 khi H0 sai
Kết luận
Thực tế Chấp nhận H0 Bác bỏ H0
H0 đúng Kết luận đúng Sai lầm loại I

H0 sai Sai lầm loại II Kết luận đúng
46
30/11/2018
Mức ý nghĩa của kiểm định () là xác suất mắc sai
lầm loại I
 = P(Bác bỏ H0/H0 đúng)
Tiêu chuẩn kiểm định
Tiêu chuẩn kiểm định là quy luật phân phối xác

suất nào đó dùng để kiểm định.
Trong tập hợp các kiểm định thống kê có cùng
mức ý nghĩa , kiểm định nào có xác suất mắc sai
lầm loại 2 nhỏ nhất được xem là “tốt nhất”.
47
30/11/2018
Các bước tiến hành kiểm định

- Xây dựng giả thuyết H0 và giả thuyết đối H1
- Xác định mức ý nghĩa 
- Chọn tiêu chuẩn kiểm định
- Tính giá trị của tiêu chuẩn kiểm định từ mẫu
quan sát
- Kết luận
Phương pháp tiếp cận P-value

trong kiểm định giả thuyết
• Rất nhiều phần mềm thống kê tính P-
value (sig) khi thực hiện kiểm định giả
thuyết.
• P-value là xác suất lớn nhất để có
thể bác bỏ giả thuyết H0. P-value
thường được xem như là mức ý
nghĩa quan sát.
• Các nguyên tắc ra quyết định để bác
bỏ giả thuyết H0 với P-value là:
• Nếu p-value lớn hơn hoặc bằng α,
chưa đủ cơ sở để bác bỏ giả thuyết
H0.
• Nếu p-value nhỏ hơn α, bác bỏ giả
thuyết H0.
48
30/11/2018
2. Kiểm định trung bình
a Kiểm định giả thiết về giá trị trung bình của một tổng thể
b Kiểm định hai giá trị trung bình của hai tổng thể
c Kiểm định trung bình thuộc nhiều tổng thể (ANOVA)
97
Kiểm định giả thiết về giá trị trung

bình của một tổng thể
H0:  = 0
H1:  ≠ 0
( x  0 )
T  ~ t ( n 1)
S/ n
98
49
30/11/2018

Analyze > Compare Means > One-Sample T Test…
Đưa các biến cần kiểm định giá trị

trung bình vào Test Variable(s)
Nhập giá trị cần kiểm định trung
bình vào Test Value
Nhấn Options...
99

Analyze > Compare Means > One-Sample T Test…
Nhập độ tin cậy của kiểm định vào

Confidence Interval
Chỉ kiểm định đối với các quan sát
có ý nghĩa của biến chọn Exclude
cases analysis by analysis
Chỉ kiểm định đối với các quan sát
có đầy đủ trong các biến chọn
Exclude cases listwise (n như
nhau)
100
50
30/11/2018
Kiểm định hai giá trị trung bình của

hai tổng thể
H0: 1 = 2
H1: 1 ≠ 2
- Hai mẫu độc lập
- Hai mẫu phụ thuộc
101
Hai mẫu độc lập
- Phương sai bằng nhau

- Phương sai không bằng nhau
102
51
30/11/2018
Kiểm định phương sai
H0: 12 = 22

H1: 12 ≠ 22
S12
Tiêu chuẩn kiểm định F  2 ~ ( , n1  1, n2  1)
S2
Kiểm định phương sai

Kiểm định phương sai của k tổng thể
(dùng tiêu chuẩn kiểm định Levene)
k
 n (z i i  z ) 2 /( k  1)
i 1
F k ni
~ f ( , k  1, n  k )
 ( z ij  zi ) 2 /( n  k )
i 1 j 1
ni
1 1 k ni
zij  xij  xi zi 
ni
z
j 1
ij z   zij
n i 1 j 1
xij – là giá trị của đơn vị thứ j nhóm thứ i (i=1,k) (j=1,ni)
52
30/11/2018

Trường hợp phương sai bằng nhau:
( x1  x 2 )
T  ~ t ( n1  n 2  2 )
2 2
S S

n1 n2
( n1  1) S12  ( n2  1) S 22
2
Trong đó S 
( n1  1)  ( n2  1) 105

Trường hợp phương sai không bằng nhau:
T 
x1  x 2  ~ t , v
2 2
S S1 2

n1 n 2
2
 S 12 S 22 
  
 1n n 2 
Trong đó v  2 2
1  S 12  1  S 22 
    
n1  1  n1  n 2  1  n 2  106
53
30/11/2018

Analyze > Compare Means > Independent-Samples T Test…
Đưa các biến cần kiểm định giá trị

trung bình vào Test Variable(s)
Đưa biến phân loại vào Grouping
Variable
Nhấn Define Groups... Để định
nghĩa nhóm
107

Analyze > Compare Means > Independent-Samples T Test…
Nếu sử dụng biến phân loại lựa

chọn Use specified values và
nhập giá trị tương ứng
Nếu chọn giá trị của biến lớn hơn
hoặc bằng một giá trị nào đó thì
chọn Cut point rồi nhập giá trị
phân chia
108
54
30/11/2018
Hai mẫu phụ thuộc
H0: d = 0 hay 1 - 2 = 0
H1: d ≠ 0
Trong đó: di = x1i - x2i
( d  0)
T ~ t ( n 1)
Sd / n
109
Hai mẫu phụ thuộc

Analyze > Compare Means > Paired-Samples T Test…
Đưa các cặp biến cần kiểm định giá

trị trung bình vào Paired
Variable(s)
110
55
30/11/2018
Kiểm định nhiều trung bình của tổng thể

Phân tích phương sai - ANOVA
Một số giả thiết:

+ Các tổng thể phải độc lập và được chọn ngẫu nhiên
+ Các tổng thể phải có phân phối chuẩn
+ Phương sai các tổng thể phải đồng nhất
Phân tích phương sai 1 nhân tố

(one-way ANOVA)
Nhân tố
1 2 ... i ... k
x11 x21 ... x11 ... xk1
x12 x22 ... xi2 ... xk2
... ... ... ... ... ...
x1j x2j ... xij ... xkj
... ... ... ... ... ...
x1n1 x2n2 ... xin2 ... xkn2

112
56
30/11/2018

(one-way ANOVA)
 H0 : 1 = 2 = …. = k
 H1: Tồn tại ít nhất 1 cặp khác nhau
MSF
- Tiêu chuẩn kiểm định F ~ f ( k 1, n  k )
MSE
SSF SSE
MSF  MSE 
k 1 nk 113

(one-way ANOVA)
k nj
  x  x
2
SST  ij
Total Sum of Squares)
j 1 i 1
 x  x  .n j (Sum of Squares for Factor)

2
SSF  j
j 1
k nj
  x  x j  (Sum of Squares for Error)

2
SSE  ij
j  1 i 1
SST  SSF  SSE

114
57
30/11/2018

(one-way ANOVA)
ANOVA
Sum of Squares df Mean Square F Sig.
Between Groups SSF k-1 MSF *** P-value
Within Groups SSE n-k MSE
Total SST n-1
115

(one-way ANOVA)
Analyze > Compare Means > One-Way ANOVA…
Đưa các biến cần phân tích vào
Dependent List
Đưa biến nhân tố vào Factor
Nếu bác bỏ H0 thì nhấn vào Post
Hoc... Để phân tích sâu nhằm xác
định trung bình của nhóm nào khác
nhóm nào.
Nhấn Options...
116
58
30/11/2018

(one-way ANOVA)
Lựa chọn Descriptive để tính toán
các thống kê mô tả
Chọn Homogeneity of variance
test để kiểm định phương sai giữa
các nhóm
Chọn tiêu chuẩn kiểm định Brown-

Forsythe nếu phương sai không
đồng nhất
117

(one-way ANOVA)
Lựa chọn các kiểm định tương ứng

Nếu phương sai bằng nhau:
Thường chọn tiêu chuẩn: Tukey
hay Bonferroni
Nếu phương sai không bằng
nhau:
Thường chọn tiêu chuẩn: Games-
Howell
118
59
30/11/2018
3. Kiểm định Khi bình phương (2)

và phân phối
 Kiểm định Khi bình phương

 Kiểm định về dạng phân phối
119
Kiểm định sự độc lập, phụ thuộc 2 mẫu
Có ý kiến cho rằng tỷ lệ nghèo ở 3 địa phương (A, B

và C) là khác nhau? Từ mỗi địa phương chọn ngẫu
nhiên 1 số hộ gia đình và có kết quả như sau:
60
30/11/2018

ĐP
Loại hộ A B C
Hộ nghèo 20 50 25
Hộ không nghèo 180 350 95
-Hãy đưa ra kết luận với mức ý nghĩa 5%

-Bảng trên được gọi là bảng ngẫu nhiên 2 dòng
(i=1,2) và 3 cột (j=1,3)
Gọi tỷ lệ hộ nghèo của địa phương A, B và C lần

lượt là p1, p2 và p3
Cặp giả thuyết cần kiểm định là
H0: p1 = p2 = p3
H1:  pi  pj (i  j)
61
30/11/2018
Gọi nij là tần số thực nghiệm (số quan sát ở dòng

thứ i và cột thứ j)

Tính tần số lý thuyết (n ij )
 tæng dßng i  tæng cét j

nij 
n
n   nij Tổng số đơn vị điều tra

i j

 2
 2  
nij  n ij 
~ 2 ,df

i j nij
df  (sè dßng  1).(sè cét  1)
62
30/11/2018

2 2
Miền bác bỏ W:  qs    , df
Ví dụ
ĐP
Loại hộ A B C Tổng
20 50 25 95
Hộ nghèo 26,39 52,78 15,83
1,547 0,146 5,307
180 350 95 625
Hộ không
173,61 347,22 104,17
nghèo
0,235 0,022 0,807
Tổng 200 400 120 720
63
30/11/2018
Ví dụ
 2
 qs2  
n
ij  n ij 
 8,064

i j nij
2,df   02,05;2  5,991
 qs2  02,05;2
Bác bỏ giả thuyết H0 (->Tỷ lệ hộ nghèo ở các địa
phương là khác nhau)
Kiểm định sự phụ thuộc của 2 mẫu

Analyze > Descriptive Statistics > Crosstabs…
Đưa 1 biến sang Row(s) và 1 biến
sang Column(s)
Nhấn Statistics...
128
64
30/11/2018

Lựa chọn các kiểm định tương ứng
129

130
65
30/11/2018
Kiểm định Khi bình phương 1 mẫu
H0: Tỷ lệ thực tế bằng với tỷ lệ lý thuyết (kỳ vọng)

H1: Tỷ lệ thực tế khác với tỷ lệ lý thuyết (kỳ vọng)
Ví dụ: - Nghiên cứu tỷ lệ nhân viên ở các khu vực như nhau?
- Tỷ lệ nhân viên nam gấp 2 lần tỷ lệ nữ?
- Trình độ đào tạo trung cấp gấp 3 lần đại học và gấp 5 lần sau ĐH
131
Kiểm định Khi bình phương 1 mẫu

Analyze > Nonparametric > Legacy Dialogs >Chi-Square…
Đưa biến cần kiểm định sang Test

Variable List
Sử dụng toàn bộ các quan sát chọn
Get from data
Sử dụng trong một khoảng nào đó
chọn Use specified range và nhập
giá trị nhỏ nhất (Lower) và lớn nhất
(Upper)
Tất cả các lựa chọn có tần số lý thuyết
bằng nhau chọn All catagories equal
Tần số lý thuyết khác nhau chọn
Values
132
66
30/11/2018
Kiểm định về dạng phân phối

(Kiểm định Kolmogorov – Smirnov một mẫu)
Analyze\Nonparametric Tests\Legacy Dialogs\1-Sample K-S…
Chọn các biến cần kiểm định sang

Test Variable List
Chọn các phân phối cần kiểm định:
- Phân phối chuẩn Normal
- Phân phối đều Uniform
- Phân phối luỹ thừa Exponetial
- Phân phối Poisson
133
BÀI 4
PHÂN TÍCH HỒI QUY TƯƠNG QUAN
I II
PHÂN TÍCH PHÂN TÍCH HỒI

TƯƠNG QUAN QUY
67
30/11/2018
I. Phân tích tương quan

Phân tích tương quan nhằm đo mức độ phụ thuộc
tuyến tính giữa hai biến ngẫu nhiên
Hệ số tương quan đơn (Pearson)
cov( x, y ) xy  x. y
r 
 x y  x y
135

Hệ số tương quan hạng (Spearman)
6d i2
rs  1 
n(n 2  1)
136
68
30/11/2018
Liên hệ hàm Không có mối liên Liên hệ hàm

số hệ số
-1 0 +1
Mối liên hệ nghịch càng Mối liên hệ thuận càng

chặt chẽ chặt chẽ
137

Kiểm định hệ số tương quan
H0:  = 0
H1:  ≠ 0
r
Tiêu chuẩn kiểm định t 
1 r2
n2
H0: s = 0
H1: s ≠ 0 rs  0
Tiêu chuẩn kiểm định z  rs n  1
1/ n 1
138
69
30/11/2018

Analyze > Correlate > Bivariate…
Đưa các biến cần phân tích tương
quan sang Variables
Lựa chọn các hệ số tương quan
Hệ số tương quan - Pearson
Hệ số tương quan hạng-Spearman
139
II. PHÂN TÍCH HỒI QUY
1 Hồi quy giữa hai tiêu thức số lượng
Hồi quy tuyến tính giữa nhiều tiêu thức số lượng

2
Hồi quy với biến giả

3
Hồi quy Logistic

4
140
70
30/11/2018
* PHÂN TÍCH HỒI QUY ĐƠN
1 Xây dựng phương trình hồi quy
2 Đánh giá mô hình hồi quy (kiểm định các hệ số)
3 Dự đoán dựa vào mô hình hồi quy
1. Phương trình hồi quy
 Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ các

chênh lệch ngẫu nhiên nêu ra mối liên hệ cơ bản của hiện tượng.
 Phương trình hồi quy: là phương trình xác định vị trí của
đường hồi quy lý thuyết
y

 
 

 


Đường hồi quy lý thuyết
0 x
71
30/11/2018
Phương trình hồi quy tổng thể
Tham số tự do (hệ số chặn) Hệ số hồi quy (hệ số góc)
E ( y / xi )   0   1 xi
Biến độc lập

Biến phụ thuộc
Nguyên nhân
Kết quả
Ý nghĩa các tham số
• β0: phản ánh ảnh hưởng của các nguyên nhân khác
(ngoài nguyên nhân x) tới kết quả y
• β1: phản ánh ảnh hưởng trực tiếp của nguyên nhân x tới
kết quả y. Cụ thể, khi x tăng thêm 1 đơn vị thì giá trị trung
bình của y thay đổi là β1 đơn vị
- β1 > 0: x và y có mối liên hệ thuận (cùng chiều)
- β1 < 0: x và y có mối liên hệ nghịch (ngược chiều)
72
30/11/2018
Phương trình hồi quy mẫu
Với một mẫu ngẫu nhiên kích thước n, chúng ta có phương

trình hồi quy mẫu như sau:
yˆ i  b0  b1 xi
Ước lượng của tham số β0 Ước lượng của tham số β1
Phương pháp bình phương nhỏ nhất

(Ordinary Least Squares- OLS)
y



 
 



x
0
S   ( yˆ i  y i ) 2  min 146
73
30/11/2018
Phương pháp bình phương nhỏ nhất

(Ordinary Least Squares- OLS)
S   ( yi  b0  b1 xi ) 2  min
 S
 2( yi  b0  b1.xi )(1)  0

 b0  yi  n.b0  b1.xi
 S  2
  2( yi  b0  b1.xi )( xi )  0 yi .xi  b0 xi  b1.xi

 b1
147
Các giả thiết cơ bản của OLS

• Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên
• Kỳ vọng toán của sai số bằng không
• Sai số tuân theo quy luật phân bố chuẩn
• Phương sai của sai số không đổi
• Không có tương quan giữa các phần dư (tự tương quan)
• Không có mối tương quan giữa các biến độc lập (đa cộng
tuyến) – đối với hồi quy bội
148
74
30/11/2018

Analyze > Regression > Linear…
Đưa biến phụ thuộc sang
Dependent
Đưa một biến độc lập sang
Independent(s)
149
2. Kiểm định hệ số hồi quy
Giả thuyết: H0: 1 = 0

b1
Tiêu chuẩn kiểm định: T  ~ t ( n  2)
Se (b1 )

Se(b1 ) 
( xi  x ) 2
2
ei  ( yi  yˆ i ) 2
 
n2 n2 150
75
30/11/2018
Ước lượng hệ số hồi quy
• Hai phía: b j  t n2 2  se(b j )   j  b j  tn22  se(b j )
• Phái phải:     j  b j  t n 2  se(b j )
• Phái trái: b j  tn 2  se(b j )   j  
Đánh giá độ phù hợp của mô hình

y
n 
2
SSE   y  yˆ 
i 1
i i
n

  SST   y  y 
i
2
n i 1
SSR   yˆ  y 
1
i
2
 



x
0
76
30/11/2018
Đánh giá độ phù hợp của mô hình

( yi  y ) 2  ( yi  yˆ i ) 2  ( yî  y ) 2
SST  SSE  SSR
SSR SSE
 1 
SST SST
( yi  yî ) 2
R2  1 
 ( yi  y ) 2
R2 phản ánh phần trăm thay đổi của biến phụ thuộc
được giải thích bởi biến độc lập (mức độ phù hợp
của mô hình) 153
Kiểm định ý nghĩa mô hình
Giả thuyết: H0: Mô hình không có ý nghĩa (β1=0)
Tiêu chuẩn kiểm định:
( yˆ i  y ) 2
F ~ F (1, n  2)
( yi  yˆ i ) 2
n2
154
77
30/11/2018
3. Dự đoán dựa vào mô hình hồi quy
yˆ i  b0  b1 x i
Khoảng tin cậy ước lượng giá trị trung bình với độ tin
cậy (1-α)
1 ( x0  x ) 2
yˆ 0  t ( n/ 2 2 ) .  .  n
n
 ( xi  x ) 2
i 1
155
3. Dự đoán dựa vào mô hình hồi quy
Khoảng ước lượng giá trị cá biệt của Y
( n2) 1 ( x0  x ) 2
yˆ 0  t  / 2 . . 1  n
n 2
 i ( x  x )
i 1
156
78
30/11/2018
Ước lượng giá trị dự đoán

Thực hiện Regression -> Nhấn save
Dự đoán điểm
Dự đoán bằng khoảng tin cậy
157
2. Hồi quy tuyến tính giữa nhiều tiêu

thức số lượng
Phương trình hồi quy
Yî  b0  b1x1i  b2 x2i .... bk xki
158
79
30/11/2018
Ý nghĩa các hệ số hồi quy riêng
Phản ánh ảnh hưởng thuần của nguyên nhân xj tới kết
quả y (khi các yếu tố khác không đổi). Cụ thể, khi xj
tăng thêm 1 đơn vị thì y thay đổi trung bình là βj đơn vị
159
Kiểm định hệ số hồi quy
• Giả thuyết: H 0 :  j   *j
b j   *j
• Tiêu chuẩn kiểm định: T
se(b j )
• Nếu H0 đúng thống kê T sẽ tuân theo quy luật phân phối
student với (n-k-1) bậc tự do.
80
30/11/2018
Ước lượng hệ số hồi quy
• Hai phía: b j  tn 2 k 1se(b j )   j  b j  t n 2 k 1se(b j )
• Phái phải:     j  b j  tn  k 1se (b j )

 n  k 1
• Phái trái: b j  t se(b j )   j  
Hệ số hồi quy chuẩn hoá

 xj
• Công thức: Bêta j  b j
y
• Biểu hiện vai trò của từng biến độc lập tới biến thuộc
81
30/11/2018
Đánh giá độ phù hợp của mô hình hồi

quy tuyến tính bội
SSE
R2  1
SST
SSE
( n  1)
Ra2  1  n  k  1  1  (1  R 2 )
SST n  k 1
n 1
Sử dụng R2 điều chỉnh để so sánh độ phù hợp của mô
hình hồi quy có số lượng biến độc lập khác nhau
163
Kiểm định ý nghĩa của mô hình

Ho:   ….p 
Hoặc: Ho: R2 = 0
R 2 /( k  1)
F ~ F ( k  1, ( n  k  1)
(1  R 2 ) /( n  k  1)
164
82
30/11/2018
Hồi quy tuyến tính giữa nhiều tiêu thức số lượng

Analyze > Regression > Linear…
Đưa biến phụ thuộc sang
Dependent
Đưa các biến độc lập sang
Independent(s)
165

Lựa chọn Statistics…
Các lựa chọn
Estimates các ước lượng (lý thuyết)
Confidence intervals khoảng tin
cậyước lượng
Covariance matrix ma trận hiệp
phương sai
Model fit phân tích ANOVA
Descriptives thống kê mô tả
166
83
30/11/2018
3. Hồi quy với biến giả
a Cách đặt biến giả
b Hồi quy với biến giả
167
Đặt biến giả
Khi biến độc lập là biến định danh (biến phân loại)
Biến giả là biến có 2 giá trị 0 và 1 phụ thuộc vào việc các quan sát
có chứa các tính chất được quan tâm hay không.
Ví dụ: tiêu thức giới tính (nam, nữ)
D1 = 0 nếu là nữ
D1 = 1 nếu là nam
168
84
30/11/2018
Đặt biến giả

Khu vực sinh sống (thành thị, nông thôn, miền núi)
D1 = 1 nếu sống ở nông thôn
D1 = 0 nếu không sống ở nông thôn
D2 = 1 nếu sống ở thành thị
D2 = 0 nếu không sống ở thành thị
Khu vực sinh sống D1 D2 D3 =1-D1-D2
Nông thôn 1 0 0
Thành thị 0 1 0
Miền núi 0 0 1
Tiêu thức có k biểu hiện thì sẽ dùng k-1 biến giả, biểu hiện được
gán trị trị 0 ở các biến giả được gọi là cơ sở
169
Hồi quy với biến giả
85
30/11/2018
Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) với
biến tuổi và giới tính (Nam, nữ)
Yî  b0  b1 X 1i  b 2 D1i
Nữ: Yî  b0  b1 X 1i  b 2 .0  b0  b1 X 1i
Nam: Yî  b0  b1 X 1i  b 2 .1  (b0  b 2 )  b1 X 1i
Nam (D1=1)
Nữ (D1=0)
b2
b0
171
biến tuổi và Khu vực (Thành thị, nông thôn, miền núi)
Yî  b0  b1 X 1i  b2 D1i  b3 D 2 i
Miền núi: Yî  b0  b1 X 1i  b2 .0  b3 . 0  b0  b1 X 1i
Nông thôn: Yî  b0  b1 X 1i  b2 .1  b3 .0  ( b0  b2 )  b1 X 1i
Thành thị: Yî  b0  b1 X 1i  b2 .0  b3 . 1  ( b0  b3 )  b1 X 1i
Thành thị (D1=0;
D2=1)
Nông thôn (D1=1; D2=0)
Miền núi (D1=0; D2=0)

b3
b2
b0
172
86
30/11/2018
biến tuổi, bằng cấp (có, không) và biến tương tác (tuổi và bằng cấp)
Yî  b0  b1 X 1i  b2 D1i  b3 X 1i * D1i
Không BC: Yî  b 0  b1 X 1i  b 2 . 0  b3 . X 1i * 0  b 0  b1 X 1i
Có BC: Yˆ  b  b X  b .1  b . X * 1  (b  b )  (b  b ) X
i 0 1 1i 2 3 1i 0 2 1 3 1i
Có bằng cấp (D1=1)
Không có bằng cấp (D1=0)
b2
b0
173
4. Phương trình hồi quy logistic

Phân tích hồi qui logistic là một kỹ thuật thống kê để
xem xét mối liên hệ giữa biến độc lập (biến số hoặc biến
phân loại) với biến phụ thuộc là biến nhị phân (biến có
2 biểu hiện 0 và 1).
174
87
30/11/2018
Phương trình hồi quy
175
Phương trình hồi quy logistic

Nếu gọi p là xác suất để một biến cố xảy ra, thì 1-p
là xác suất để biến cố không xảy ra. Phương trình
hồi qui logistic được xây dựng như sau:
p
ln(odds)  ln( )     xi
1 p
p
 e  xi
1 p
e  xi
p
1  e  xi 176
88
30/11/2018
Phương trình hồi quy logistic

Phương pháp xác định các hệ số hồi quy là phương
pháp hợp lý tối đa - maximum likelihood

 y   1  e (ˆ  ˆxi ) 1
 i


xi yi  xi 1  e  (ˆ  ˆxi )

Yi là biến phụ thuộc (biến nhị phân – 1 là xảy ra biến cố,
0 là không xảy ra biến cố)
177
Ý nghĩa của các hệ số

p
ln(odds)  ln( )     xi
1 p
: Khi x tăng lên một đơn vị thì làm cho ln(odds) tăng lên  lần
Nếu gọi odds0 khi xi=0 thì odds0=e
Nếu gọi odds1 khi xi = 1 thì odds1=e+

 
odds e
Tỷ số chênh (odds ratio - OR) OR  1
   e
odds0 e
Như vậy, khi x tăng lên một đơn vị thì làm cho khả năng (xác
suất) biến cố xảy ra bằng e lần (so với với cũ) 178
89
30/11/2018
Kiểm định hệ số hồi quy

Kiểm định Wald Chi-Square
2
 ˆ 
Wald Chi  Square   
ˆ 
 se(  ) 
.
Quy tắc đưa ra kết luận như quy tắc kiểm định
179
Độ phù hợp của mô hình

Đo lường độ phù hợp tổng quát của mô hình hồi quy
logistic dựa vào chỉ tiêu -2LL
-2LL càng nhỏ thể hiện độ phù hợp mô hình càng cao
(bằng 0 tức là không có sai số)
Cũng có thể đánh giá mô hình dựa vào bảng phân loại
(clasification table)
180
90
30/11/2018
Kiểm định độ phù hợp của mô hình

Dùng kiểm định Chi-Square:
Căn cứ vào mức ý nghĩa quan sát trong bảng Omnibus

Tests of Model
181

Chọn Analysis> Regression> Binary Logistic…
182
91
30/11/2018

Nhấn Options…
183
BÀI 5
PHÂN TÍCH DÃY SỐ THỜI GIAN VÀ DỰ ĐOÁN THỐNG KÊ
I II III IV
KHÁI NIỆM PHÂN TÍCH ĐẶC PHÂN TÍCH CÁC DỰ ĐOÁN

CHUNG VỀ DÃY ĐIỂM BIẾN THÀNH PHẦN THỐNG KÊ
SỐ THỜI GIAN ĐỘNG CỦA HIỆN CỦA DÃY SỐ
TƯỢNG QUA THỜI GIAN
THỜI GIAN
92
30/11/2018
I. Khái niệm chung về DSTG

Dãy số thời gian là một dãy trị số của chỉ tiêu
thống kê được sắp xếp theo thứ tự thời gian
 Ví dụ:
 Có số liệu về giá trị sản xuất (GO) của doanh nghiệp A qua
các năm:
Năm 2013 2014 2015 2016 2017
GO (trđ) 6.000 6.400 7.000 7.200 7.500
 Có số liệu về giá trị hàng hoá dự trữ của một doanh nghiệp
trong năm 2017 như sau:
Ngày 1/1 1/4 1/7 1/10 31/12
Gtrị(trđ) 300 320 360 340 380
II. Các chỉ tiêu phân tích đặc điểm biến

động của hiện tượng qua thời gian
1 Mức độ bình quân qua thời gian
2 Lượng tăng (giảm) tuyệt đối
3 Tốc độ phát triển
4 Tốc độ tăng (giảm)
5 Giá trị tuyệt đối của 1% của tốc độ tăng (giảm)
93
30/11/2018
1. Mức độ bình quân qua thời gian
 Ý nghĩa: Mức độ bình quân theo thời gian phản ánh

mức độ đại biểu của tất cả các mức độ của dãy số.
n
* Cách tính
y1  y2  ...  yn 1  yn 
yi
+ Đối với dãy số thời kỳ: y   i 1
n n

+ Đối với dãy số thời điểm:
y  yCK
* Dãy số biến động đều: y  DK
2
94
30/11/2018

* Dãy số biến động không đều, có số liệu tại thời
điểm có khoảng cách thời gian bằng nhau:
y1 y
 y2  ...  y n 1  n
y 2 2
n 1

* Dãy số biến động không đều, có số liệu tại thời
điểm có khoảng cách thời gian không bằng nhau:
yi ti
y
t i
95
30/11/2018
Chỉ tiêu Liên hoàn Định gốc MLH Bình quân
n
2. Lượng tăng i
(giảm) tuyệt đối  i  yi  yi 1  i  yi  y1 i    i 
i2
i
n y  y1
i2     n
n 1 n 1 n 1
3. Tốc độ phát i
yi y
(100) Ti  i (100) Ti   ti t  n1 ti  n1 Tn  n1 yn
n
triển
ti 
yi 1 y1 i 2 i2 y 1
4 Tốc độ tăng
(giảm) yi  yi 1 y  y1
ai  (100) Ai  i (100)
yi 1 y1 x

 i (100)

 i (100)
a  t (%)  1(100)
yi 1 y1
 t i (%)  1(100)  Ti (%)  1(100)
5. Giá trị tuyệt i i

gi  Gi 
đối của 1% tốc ai (%) Ai (%)
độ tang (giảm) x x
i yi 1 i y
    1
i 100 i 100
100 100
yi 1 y1
Không tính
III. Phân tích các thành phần dãy số thời gian
Thời vụ/chu
Các yếu tố
kỳ (S)
ngẫu
nhiên (I)
Xu hướng (T)
Mô hình kết hợp cộng Y T S I

Mô hình kết hợp nhân Y T SI
96
30/11/2018
1 Phương pháp biểu diễn xu hướng
2 Phương pháp biểu hiện biến động thời vụ
97
30/11/2018
1. Phương pháp biểu diễn xu hướng
a Phương pháp bình quân trượt
b Phương pháp hàm xu thế
a. Phương pháp bình quân trượt
Số bình quân Dãy số bình

trượt quân trượt
số bình quân cộng của một

nhóm nhất định các mức độ
được tính bằng cách lần
lượt loại trừ dần mức độ Dãy số được hình thành
đầu đồng thời thêm vào các bởi các số bình quân trượt
mức độ tiếp theo sao cho
số lượng các mức độ tham
gia tính số bình quân là
không đổi
98
30/11/2018
Yi Bình quân trượt

Y1 - y1  y 2  y 3
y2 
Y2 Ỹ2 3
y2  y3  y4
Y3 Ỹ3 y3 
3
Y4 :
Y5 :
: y n 2  y n 1  y n
y n1 
Yn-1 Ỹn-1 3
yn -

Giả sử có dãy số thời gian: y1, y2, y3,… yn
y k 
 ...  yi  ...  y k 
i 0,5  i 0,5 
2  2  k k
Nếu k lẻ: yi  i  (  0,5; n   0,5)
2 2
k
y k
 ... yi  ... y k
i   i  1
 2  2 k k
Nếu k chẵn: yi  i  ( 1; n  1)
2 2
k
99
30/11/2018

400
350
300
250
200
150
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
b. Hàm xu thế
Khái niệm Một số

dạng hàm
xu thế
yˆ i  b0  b1ti
Hàm số biểu hiện các
mức độ của hiện yˆ i  b0  b1t i  b 2 t i2
tượng qua thời gian
b1
yˆ i  f ( t i ) yˆ i  b 0 
ti
100
30/11/2018
Hàm xu thế tuyến tính
yˆ i  b0  b1ti
 yi  n.b0  b1.ti
 2
ti yi  b0ti  b1.ti
Hàm xu thế parabol
yˆ i  b0  b1ti  b2ti2
n n n
2
 yi  n.b0  b1  ti  b2  ti
 i 1 i 1 i 1
n n n n
 2 3
 ti . yi  b0  ti  b1  ti  b2  ti
 i 1 i 1 i 1 i 1
n 2 n
2
n
3
n
4
 ti . yi  b0  ti  b1  t i  b2  ti
 i 1 i 1 i 1 i 1
101
30/11/2018
Hàm xu thế Hyperbol

b1
yˆ i  b 0 
ti
n n
1
 i y  n.b0  b 1
 
 i 1 i 1  t i 
n n n
  yi   b 1 1
  t  0   t  1   t 2 
   b
 i 1  i  i 1  i  i 1  i 
Tiêu chuẩn lựa chọn hàm xu thế
  y i  yˆ i 
2
SE   min
n p
102
30/11/2018
Định nghĩa yếu tố thời gian

Dữ liệu thời gian (dữ liệu chuỗi) là dữ liệu mà mỗi dòng (quan sát) là
số liệu ở một thời gian nhất định (tháng, quý, năm,...)
Data>Define Dates..
205
Dự đoán dựa vào hàm xu thế

Analyze>Regression > Curve Estimation…
206
103
30/11/2018
2. Phương pháp biểu hiện

biến động thời vụ
Cách xác định
Biến động thời vụ là sự biến động của

hiện tượng có tính chất lặp đi lặp lại
trong từng thời gian nhất định của năm
2. Phương pháp biểu hiện biến động

thời vụ
Chỉ số thời vụ (khi dãy số không có xu thế)

Cách xác định
104
30/11/2018

thời vụ
Chỉ số thời vụ (khi dãy số không có xu thế)

Cáchvụ
Gọi yij là mức độ của hiện tượng ở thời xácthứ
địnhj của năm
thứ i, (i=1,n);(j=1,m)
n n
y
i 1
ij y i 1
ij
yj n n
Sj   m
 m n
y0
y
j 1
j  y
j 1 i 1
ij
m mn

thời vụ
Chỉ số thời vụ (khi dãy số có xu thế)

Cách xác định
105
30/11/2018

thời vụ
Chỉ số thời vụ (khi dãy số có xu thế)

Cách xác định
Tính chỉ số thời vụ lần lượt theo từng bước sau:
- Xác định xu thế (bình quân trượt, hàm xu thế,…)
- Khử yếu tố xu thế
- Khử yếu tố ngẫu nhiên (tính bình quân)
- Điều chỉnh chỉ số thời vụ
B1. Xác định xu thế
Tính bình quân trượt (với k =m)

Cách xác định
- Nếu số liệu theo quý, tính bình quân trượt 4 mức độ (đặt
mức độ đầu tại y3)
- Nếu số liệu theo tháng, tính bình quân trượt 12 mức độ
(đặt mức độ đầu tại y7)
106
30/11/2018
B2. Loại trừ xu thế
- Đối với mô hình cộng: Y –T = S + I

Cách xác định
- Đối với mô hình nhân: Y/T = S * I
B3. Loại bỏ ngẫu nhiên
- Đối với mô hình cộng: Tính bình quân cộng giản đơn
Cách xác định
- Đối với mô hình nhân: Tính bình quân cộng trung tâm
(Medial average – Trung bình cộng của các lượng biến
loại trừ lượng biến nhỏ nhất và lớn nhất)
107
30/11/2018
B4. Điều chỉnh chỉ số thời vụ
- Đối với mô hình cộng: Tổng chỉ số thời vụ bằng không (0).
Cách xác định
Mức độ điều chỉnh bằng tổng chỉ số thời vụ chia cho m
- Đối với mô hình nhân: Tổng chỉ số thời vụ bằng m. Hệ số

điều chỉnh bằng Tổng chỉ số thời vụ chia cho m
Chỉ số thời vụ
Analyze>Forecasting > Seasonal Decomposition…
216
108
30/11/2018
IV. Một số phương pháp dự đoán thống kê
1 Dự đoán dựa vào xu thế
2 Dự đoán dựa vào xu thế kết hợp thời vụ
3 Dự đoán dựa vào san bằng mũ
1. Dự đoán dựa vào hàm xu thế

Analyze>Regression > Curve Estimation…
218
109
30/11/2018
2. Dự đoán dựa vào hàm xu thế

và chỉ số thời vụ
Sử dụng khi dãy số thời gian có xu thế rõ ràng theo thời gian và
biến động mùa vụ:
- Loại bỏ yếu tố thời vụ khỏi dãy số
- Tiến hành biểu diễn xu thế f(t) (dãy số đã loại thời vụ).
Mô hình kết hợp cộng yˆ t  f t   S j
Mô hình kết hợp nhân yˆ t  f t  S j

Trong đó Sj là các chỉ số ở thời vụ thứ j
219
3. Dự đoán dựa vào san bằng mũ

- San bằng mũ giản đơn
- San bằng mũ kết hợp xu hướng
- San bằng mũ kết hợp xu hướng và thời vụ
+ Kết hợp cộng
+ Kết hợp nhân
Lựa chọn mô hình san bằng mũ tốt nhất (dựa
vào RMSE)
220
110
30/11/2018
San bằng mũ giản đơn

ŷ t 1  ŷ t   .( y t  ŷ t ) Trong đó 0    1
Hoặc yˆ t 1   . yt  (1   ). yˆt
Thay yˆt   . yt 1  (1   ).yˆt 1
yˆ t 1   . yt  (1   ). . yt 1  (1   ). yˆ t 1    . yt  (1   ). . yt 1  (1   ) 2 . yˆ t 1
Tiếp tục thay thế, ta có:
ŷt1 .yt .(1 ).yt1 .(1 )2 .yt2 .1 .yt3 .....1 .y1 (1 )t .ŷ1
3 t 1
Vấn đề là việc chọn ŷ1 thông thường chọn yˆ1  y1
221
Dự đoán dựa vào san bằng mũ

250
200
Number
VAR00001-Model_1
150
100
50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000
Date
222
111
30/11/2018
San bằng mũ kết hợp xu hướng – mô hình Holt
yˆt  h  Lt  bt .h
Lt   . yt  (1   )(Lt 1  bt 1)
bt   Lt  Lt 1   (1   ).bt 1
0   1
Thông thường chọn L1  y1 và b1  y 2  y1
223
San bằng mũ kết hợp xu hướng

250
200
Number
VAR00001-Model_1
150
100
50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000
Date
224
112
30/11/2018
San bằng mũ kết hợp xu hướng và thời vụ

(Mô hình Holt – Winters)
Mô hình kết hợp nhân
yˆ t  h  Lt  bt .h .St  s  h
 y 
Lt   . t   (1   ).( Lt 1  bt 1 )

 St  s 
bt   .Lt  Lt 1   (1   ).bt 1
y 
S t   . t   (1   ).S t  s
 Lt 
225

Mô hình kết hợp nhân
1
L4    y1  y 2  y3  y 4 
4
1  y 4 1  y1 y 4  2  y 2 y 4  3  y3 y 4  4  y 4 
b4     
4  4 4 4 4 

y1 y2
S1  S2 
L4 L4
y y4
S3  3 S4 
L4 L4
226
113
30/11/2018

Mô hình kết nhân
250
200
Number
VAR00001-Model_1
150
100
50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000
Date
227

Mô hình kết cộng
yˆ t  h  Lt  bt .h   St  s  h
Lt   . yt  S t  s   (1   ).(Lt 1  bt 1 )
bt   .Lt  Lt 1   (1   ).bt 1
S t   . yt  Lt   (1   ).S t  s
228
114
30/11/2018

Mô hình kết hợp cộng
250
200
Number
VAR00001-Model_1
150
100
50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000
229
Date

Analyze> Forecasting > Create Models…
230
115
30/11/2018

231

232
116
30/11/2018

Analyze>Forecasting > Create Models…
233

Analyze>Forecasting > Create Models…
234
117

Tke SPSS PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tke SPSS PDF

Uploaded by

Copyright:

Available Formats

30/11/2018

ỨNG DỤNG SPSS

3 Ước lượng và kiểm định giả thuyết thống kê

4 Phân tích hồi quy tương quan

5 Phân tích dãy số thời gian và dự đoán

MỘT SỐ KHÁI GIỚI THIỆU QUẢN LÝ DỮ

Thống kê học là khoa học nghiên cứu hệ thống

Thống kê là việc thu thập, trình bày, phân tích và

Các phương pháp thống kê

1. Tổng thể thống kê và đơn vị tổng thể

Tổng thể thống kê là hiện tượng số lớn gồm các đơn

2. Tiêu thức thống kê

3. Chỉ tiêu thống kê

CÁC THANG ĐO TRONG THỐNG KÊ

Đánh số các biểu hiện

THANG ĐO ĐỊNH DANH Biểu hiệu có

II. Giới thiệu chung về SPSS

SPSS (Statistical Package for Social Sciences)

Các màn hình SPSS

Màn hình quản lý dữ liệu

Màn hình quản lý biến

Màn hình hiện thị kết quả

Màn hình cú pháp (syntax)

Các menu chính

III. Quản lý dữ liệu trong SPSS

1. Tạo lập Cơ sở dữ liệu

1. Tạo lập cơ sở dữ liệu trong SPSS

Thành phần của CSDL

• Quan sát (Observation): chứa thông tin về 1

• Biến (variable): thể hiện các thuộc tính của

Phân loại biến theo số lượng câu trả lời

Biến một trả lời (câu hỏi lựa chọn)

Biến một trả lời

Nhóm tuổi code

Biến nhiều trả lời

Nhãn hiệu code

Phân loại biến theo kiểu dữ liệu

Các loại/dạng dữ liệu trong SPSS

Khai báo biến trong SPSS

Khai báo biến trong SPSS

Khai báo biến trong SPSS

Ví dụ: biến “q1” là biến “giới tính”

Khai báo biến trong SPSS

Khai báo biến trong SPSS

Khai báo biến trong SPSS

Khai báo biến trong SPSS

Thường nhập dữ liệu theo từng đối tượng (từng bản

TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC

• File > Open > Data…

Mở một tệp tin {file} Excel

2. Tạo biến trong cơ sở dữ liệu

Nếu tính theo một điều kiện nào

2. Tạo biến trong cơ sở dữ liệu

Phép toán Toán tử

2. Tạo biến trong cơ sở dữ liệu

Phép toán Toán tử

2. Tạo biến trong cơ sở dữ liệu

ABS(numexpr) – Trả về giá trị tuyệt đối

2. Tạo biến trong cơ sở dữ liệu

3. Mã hoá lại dữ liệu

Transform > Recode into Different Variables…

Nhấn If để xác định một nhóm các đối

3. Mã hoá lại dữ liệu