You are on page 1of 117

30/11/2018

ỨNG DỤNG SPSS


PHÂN TÍCH DỮ LIỆU
THỐNG KÊ

NỘI DUNG
1 Giới thiệu chung về phân tích và dự đoán thống kê

2 Mô tả dữ liệu thống kê

3 Ước lượng và kiểm định giả thuyết thống kê

4 Phân tích hồi quy tương quan

5 Phân tích dãy số thời gian và dự đoán

1
30/11/2018

BÀI 1
GIỚI THIỆU CHUNG VỀ PHÂN TÍCH VÀ DỰ ĐOÁN THỐNG KÊ

I II III

MỘT SỐ KHÁI GIỚI THIỆU QUẢN LÝ DỮ


NIỆM CHUNG PHẦN MỀM LIỆU TRONG
SPSS SPSS

1. Thống kê học:

Thống kê học là khoa học nghiên cứu hệ thống


phương pháp (thu thập, xử lý, phân tích) con số (mặt
lượng) của các hiện tượng số lớn tìm bản chất và tính
quy luật (mặt chất) trong những điều kiện nhất định.

2
30/11/2018

1. Thống kê học:

Thống kê là việc thu thập, trình bày, phân tích và


diễn giải các dữ liệu dưới dạng số (Croxton và ctg)

Các phương pháp thống kê

Phương pháp
thống kê

Thống Thống kê
kê mô tả suy luận

3
30/11/2018

1. Tổng thể thống kê và đơn vị tổng thể

Tổng thể thống kê là hiện tượng số lớn gồm các đơn


vị (phần tử) cần quan sát và phân tích mặt lượng.
Các đơn vị (phần tử) - đơn vị tổng thể.

2. Tiêu thức thống kê


Tiêu thức thống kê - đặc điểm của đơn vị tổng thể
được chọn để nghiên cứu

4
30/11/2018

3. Chỉ tiêu thống kê

Chỉ tiêu thống kê phản ánh mặt lượng gắn với chất
của các hiện tượng trong điều kiện thời gian và địa
điểm cụ thể.

CÁC THANG ĐO TRONG THỐNG KÊ

Đánh số các biểu hiện


cùng loại của tiêu thức

THANG ĐO ĐỊNH DANH Biểu hiệu có


(Nominal Scale) thứ tự hơn kém
Tiêu thức
thuộc tính
THANG ĐO THỨ BẬC Có khoảng cách
(Ordinal Scale) bằng nhau

THANG ĐO KHOẢNG
Có gốc 0
(Interval Scale)
Tiêu thức
Số lượng
THANG ĐO TỶ LỆ
(Ratio Scale)

5
30/11/2018

II. Giới thiệu chung về SPSS

SPSS (Statistical Package for Social Sciences)


Là phần mềm chuyên dụng xử lý thông tin sơ
cấp (thông tin được thu thập trực tiếp từ đối
tượng nghiên cứu thông qua bảng hỏi được
thiết kế sẵn)

11

Các màn hình SPSS


- Màn hình quản lý dữ liệu
- Màn hình quản lý biến
- Màn hình hiển thị kết quả
- Màn hình cú pháp

12

6
30/11/2018

Màn hình quản lý dữ liệu


(data view)

Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao
13
gồm cột, hàng

Màn hình quản lý biến


(variables view)

Dùng để quản lý các biến và các thông tin liên quan đến biến, cơ
sở dữ liệu được lưu trữ dưới dạng *.SAV 14

7
30/11/2018

Màn hình hiện thị kết quả


(output)

Các kết quả có thể copy hoặc copy object hoặc export sang các
phần mềm khác như word hay Excel,... Màn hình này cho phép ta
xem và lưu giữ các kết quả phân tích (*.SPO)
15

Màn hình cú pháp (syntax)

Màn hình này cho phép ta xem/soạn thảo cú pháp của các lệnh
phân tích (các câu lệnh). Các cú pháp được lưu trữ với phần
mở rộng (*.SPS) 16

8
30/11/2018

Các menu chính


File: tạo file mới, mở file sẵn có, ghi file, in, thoát,…
Edit: undo, cắt, dán, tìm kiếm thay thế, xác lập các mặc định,…
View: hiện dòng trạng thái, thanh công cụ, chọn font chữ,…
Data: các vấn đề liên quan đến dữ liệu,…
Transform: chuyển đổi dữ liệu, tính toán, mã hóa lại các biến,…
Analyze: các phân tích thống kê,…
Graphs: biểu đồ và đồ thị,…
Utilities: thông tin về các biến và file,…
Window: sắp xếp và di chuyển các cửa sổ làm việc
Help: trợ giúp

17

III. Quản lý dữ liệu trong SPSS

1. Tạo lập Cơ sở dữ liệu


2. Tạo biến trong cơ sở dữ liệu
3. Mã hóa lại dữ liệu
4. Lựa chọn các quan sát
5. Tách dữ liệu
6. Gộp dữ liệu
7. Lựa chọn quyền số cho các quan sát

18

9
30/11/2018

1. Tạo lập cơ sở dữ liệu trong SPSS


Cơ sở dữ liệu (định nghĩa kiểu kĩ thuật): là
một tập hợp thông tin có cấu trúc.

Thành phần của CSDL

• Quan sát (Observation): chứa thông tin về 1


đối tượng điều tra/thời gian nghiên cứu

• Biến (variable): thể hiện các thuộc tính của


quan sát
19

Phân loại biến theo số lượng câu trả lời

Biến một trả lời (câu hỏi lựa chọn)


Biến nhiều trả lời (câu hỏi tuỳ chọn)

20

10
30/11/2018

Biến một trả lời


Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số
những nhóm tuổi sau:

Nhóm tuổi code


Dưới 18 1
18 đến 30 2
31 đến 40 3
41 đến 50 4
Trên 50 5
Mỗi câu hỏi sẽ hình thành một biến với các giá trị tương ứng
21

Biến nhiều trả lời


Câu hỏi 2: Nói đến thuốc lá, bạn biết được những nhãn hiệu
nào trong danh sách liệt kê dưới đây:

Nhãn hiệu code


Vinataba 1
Marlboro 2
KENT 3
JET 4

Mỗi biểu hiện sẽ hình thành một biến với 2 giá trị (có và không)
22

11
30/11/2018

Phân loại biến theo kiểu dữ liệu


Biến định tính
• Thang đo định danh (nominal scale)
• Thanh đo thứ bậc (ordinal scale)
Biến định lượng
• Thang đo khoảng (interval scale)
• Thang đo tỷ lệ (ratio scale)

23

Các loại/dạng dữ liệu trong SPSS


Dữ liệu chéo – cross data: Mỗi quan sát là một
đơn vị theo “không gian”
Dữ liệu chuỗi/thời gian – time serial data: Mỗi
quan sát là một đơn vị theo “thời gian”

24

12
30/11/2018

Khai báo biến trong SPSS


Variable Name (tên biến)
Các qui tắc dưới đây được áp dụng cho tên biến:
• Tên phải bắt đầu bằng một chữ.
• Độ dài của tên biến không vượt quá 8 ký tự.
• Tên biến không được kết thúc bằng một dấu chấm.
• Dấu cách và các ký tự đặc biệt (ví dụ như !, ?, ‘, và *) không
được sử dụng
• Tên biến phải duy nhất (không được phép trùng lặp), phân biệt
chữ trong tên biến. Các tên NEWVAR, NewVar, và newvar được xem
là giống nhau.
• Tránh dùng các tên biến mà kết thúc với một dấu gạch dưới (để
tránh xung đột với các biến được tự động lập bởi một số thủ tục)
25

Khai báo biến trong SPSS


Variable Type (kiểu biến)

26

13
30/11/2018

Khai báo biến trong SPSS


Labels (nhãn biến) – dùng để giải thích rõ ý nghĩa cho từng
biến và hiện thị kết quả khi chạy dữ liệu

Ví dụ: biến “q1” là biến “giới tính”

27

Khai báo biến trong SPSS


Value (giá trị của từng mã hoá) – dùng để giải thích rõ ý
nghĩa từng giá trị và hiện thị kết quả khi chạy dữ liệu
Ví dụ: 1 là nam
2 là nữ

28

14
30/11/2018

Khai báo biến trong SPSS


Missing (giá trị khuyết) – dùng để loại những giá trị không
có ý nghĩa

Các giá trị khuyết sẽ không tham gia vào quá trình phân tích
29

Khai báo biến trong SPSS


Measure (thang đo)
SPSS phân ra 3 loại thang đo
- Nominal (thang đo định danh)
- Ordinal (thang đo thứ bậc)
- Scale (thang đo khoảng và thang đo tỷ lệ)

30

15
30/11/2018

Khai báo biến trong SPSS

Width (Xác định số lượng ký tự hiện thị cho giá trị - chỉ có
giá trị với biến String)
Decimals (số lượng số hiện thị sau dấu phẩy)
Column format (Định kích cỡ cho cột- độ rộng của cột)
Align (Định ra vị trí hiện thị các giá trị - căn phải/trái/giữa)

31

Ví dụ thực hành
Tạo cơ cở dữ liệu

32

16
30/11/2018

33

Nhập dữ liệu

Thường nhập dữ liệu theo từng đối tượng (từng bản


ghi) hoặc cũng có thể theo từng biến
34

17
30/11/2018

TẠO DỮ LIỆU SPSS TỪ PHẦN MỀM KHÁC

• File > Open > Data…

• Trong mục File of type chọn định dạng file phù hợp hoặc
chọn All Files (*.*)
35

Mở một tệp tin {file} Excel

-Tại cửa sổ Data View, từ thanh menu chọn: File / Open / Data...
- Trong hộp thoại Open File, chọn file mà bạn muốn mở
- Trong hộp thoại Open File, chọn nơi lưu giữ file (Look in); chọn loại
file (Files of type) và sau đó chọn tên file (File name)
- Nhắp Open
36

18
30/11/2018

2. Tạo biến trong cơ sở dữ liệu


Transform > Compute Variable…
Tạo ra một biến mới theo biểu
thức mô tả (Numeric expression)
Biểu thức có thể là một phép tính,
một hàm,…

Nếu tính theo một điều kiện nào


đó thì nhấn vào if (đặt điều kiện
vào tính toán cho biểu thức)

37

2. Tạo biến trong cơ sở dữ liệu

Phép toán Toán tử


+ Cộng > Lớn hơn
- Trừ < Nhỏ hơn
* Nhân >= Lớn hơn hoặc bằng
/ Chia <= Nhỏ hơn hoặc bằng
** Luỹ thừa = Bằng
~= Không bằng
& Và
| Hoặc

38

19
30/11/2018

2. Tạo biến trong cơ sở dữ liệu

Phép toán Toán tử


+ Cộng > Lớn hơn
- Trừ < Nhỏ hơn
* Nhân >= Lớn hơn hoặc bằng
/ Chia <= Nhỏ hơn hoặc bằng
** Luỹ thừa = Bằng
~= Không bằng
& Và
| Hoặc

39

2. Tạo biến trong cơ sở dữ liệu


MỘT SỐ HÀM THÔNG DỤNG:

ABS(numexpr) – Trả về giá trị tuyệt đối


EXP(numexpr) – Trả về luỹ thừa của cơ số e
SQRT(numexpr) – Lấy căn bậc 2 của biểu thức
MIN(value,value[,...]) – Lấy giá trị nhỏ nhất
MAX(value,value[,...]) – Lấy giá trị lớn nhất
SUM(numexpr, numexpr[,...]) – Tính tổng của các số
MEAN(numexpr, numexpr[,...]) – Tính trung bình cộng
MEDIAN(numexpr, numexpr[,...]) – Tính trung vị
VARIAN(numexpr, numexpr[,...]) – Tính phương sai
SD(numexpr, numexpr[,...]) – Tính độ lệch chuẩn

40

20
30/11/2018

2. Tạo biến trong cơ sở dữ liệu


LOWER(strexpr) – Viết thường các ký tự
UPCASE(strexpr) – Viết hoa các ký tự
LTRIM(strexpr) – Cắt khoảng trắng phía trái
RTRIM(strexpr) – Cắt khoảng trắng phía phải
STRING(numexpr, format) – Chuyển định dạng số sang chuỗi với định
dạng [F##.##]
CONCAT(strexpr, strexpr[,...]) – Nối các chuỗi ký tự
CHAR.RPAD(strexpr1,length,strexpr2) - Thêm các ký tự strexpr2 vào
bên phải strexpr1 với độ ký tự xác định
CHAR.LPAD(strexpr1,length, strexpr2) - Thêm các ký tự strexpr2 vào
bên trái strexpr1 với độ ký tự xác định
CHAR.SUBSTR(strexpr,pos,[,length]) - Lấy ký tự từ vị trí xác định
theo độ dài xác định [hoặc đến hết]

41

3. Mã hoá lại dữ liệu


- Mã hoá lại dữ liệu thành một biến khác

Transform > Recode into Different Variables…


• Chọn các biến muốn mã hoá, Nếu
chọn nhiều biến, chúng phải có cùng
dạng (chuỗi hoặc số)
• Click vào Old and New Values và
định rõ cách mã hoá lại trị số.
• Sau đó nhấn Change

Nhấn If để xác định một nhóm các đối


tượng cũng giống như đã được mô tả
trong mục tính toán biến {Compute
Variable}

42

21
30/11/2018

3. Mã hoá lại dữ liệu


- Mã hoá lại dữ liệu trên cùng 1 biến (không tạo ra biến mới)
Transform > Recode into Same Variables…

(không khuyến nghị thực hiện theo cách này!)


Thực hiện tương tự như trường hợp trên nhưng biến mới được tạo
ra thay cho biến cũ

43

3. Mã hoá dữ liệu tự động


• Là phương pháp mã hóa tự động các giá trị dạng chuỗi sang
dạng số vào trong một biến mới. Biến mới này sẽ chứa các
con số nguyên liên tục, mỗi con số nguyên trong biến mới sẽ
đại diện cho các giá trị dạng chuổi giống nhau .
• Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe.
Transform > Automatic Recode

44

22
30/11/2018

4. Lựa chọn các quan sát


Mặc định SPSS tính toán dựa trên tất cả các quan sát trong CSDL, muốn
thực hiện trên một số quan sát sẽ tiến hành như sau:
Data > Select cases
- Các quan sát không lựa chọn
được giữ và có dấu gạch chéo
chọn Filtered -> máy sẽ tạo ra
một biến Filter_$ (lần sau nếu
chọn tương tự thì sử dụng biến
này để đưa vào ô Use filter
variable)
- Các quan sát được chọn sẽ
được lưu sang cơ sở dữ liệu mới
chọn Copy selected cases to a
new dataset và đặt tên trong ô
Dataset name
- Các quan sát không lựa chọn
bị xoá, chọn Deleted
unselected cases

45

5. Tách dữ liệu
Theo mặc định SPSS sẽ tính toán trên toàn bộ dữ liệu, muốn tính theo
từng nhóm nào đó sử dụng công cụ tách dữ liệu
Data > Split File

Đưa biến phân loại đưa sang ô


Groups Based on:
Chọn Compare groups nếu muốn
so sánh giữa các nhóm
Chọn Organize output by groups
nếu muốn tách theo từng nhóm
riêng biệt

46

23
30/11/2018

6. Gộp dữ liệu
Data/ Aggregate Data
Lệnh này giúp gộp dữ liệu (các quan sát) theo 1 (một số) biến nào đó:

- Chuyển biến được chọn làm cơ sở để tập hợp


dữ liệu sang cửa sổ Break Variable(s)
- Chuyển biến muốn tập hợp sang cửa sổ
Summaries of Variables
- Chọn Funtion để xác định các hàm tập hợp
- Vào Name & Label để đặt tên và nhãn cho
biến mới
Để biến mới tập hợp
trong file dữ liệu hiện tại

Tạo file dữ liệu


mới cho kết quả
tập hợp

47

7. Lựa chọn quyền số cho các quan sát


Mặc định SPSS coi mỗi bản ghi là một quan sát, khi mỗi quan sát đại diện
cho một số lượng các quan sát, sử dụng quyền số.
Data > Weight cases

Chọn Weight case by và đưa


biến làm quyền số vào ô
Frequency variable

48

24
30/11/2018

BÀI 2
MÔ TẢ DỮ LIỆU THỐNG KÊ

I II III

MÔ TẢ DỮ LIỆU MÔ TẢ DỮ LIỆU MÔ TẢ DỮ LIỆU


QUA CÁC THAM QUA BẢNG QUA ĐỒ THỊ
SỐ THỐNG KÊ THỐNG KÊ THỐNG KÊ

1. Các mức độ trung tâm

- Số bình quân (trung bình)


- Mốt (Mo)
- Số trung vị (Me)

50

25
30/11/2018

2. Các phân vị

- Phân vị thứ p là giá trị mà có p% số quan sát có giá trị


nhỏ hơn hoặc bằng giá trị phân vị mức p và tương ứng có
(100 - p)% số quan sát có giá trị lớn hơn hoặc bằng giá
trị phân vị mức p.
- Tứ phân vị
- Thập phân vị

51

3. Các tham số đo độ phân tán

- Khoảng biến thiên: R = Xmax - Xmin


n n

 ( xi  x )2  xi2  nx 2
- Phương sai: S2  i 1
 i 1

n 1 n 1

- Độ lệch tiêu chuẩn: S  S2

S
- Sai số chuẩn trung bình: x 
n

52

26
30/11/2018

4. Các tham số phản ánh phân phối


n 3
x x
n  i 
- Hệ số bất đối xứng: Skewness  i 1  S 
(n  1)(n  2)

Hệ số này có giá trị càng gần 0 thì phân phối của dãy số lại
càng đối xứng qua giá trị μ. Khi hệ số này nhỏ hơn 0, dãy số
phân phối chuẩn lệch trái. Khi hệ số này lớn hơn 0, dãy số
phân phối chuẩn lệch phải.

53

4. Các tham số phản ánh phân phối


4
x x n
n( n  1 )  i 
i 1  S 
- Hệ số độ nhọn: Kurtosis 
( n  1 )( n  2 )( n  3 )

Đối với phân phối chuẩn thì giá trị của hệ số Kurtosis
bằng 3.
4
 n
 xi  x  
 n( n  1 )   
 i 1  S   3( n  1 ) 2
K 
 ( n  1 )( n  2 )( n  3 )  ( n  2 )( n  3 )
 
 
Khi giá trị này bằng 0 thì đó là phân phối chuẩn, nếu
giá trị mang dấu dương thì phân phối nhọn hơn so với
phân phối chuẩn và ngược 54

27
30/11/2018

Sơ đồ hộp (box plot)


• Là sơ đồ biểu diễn cùng lúc các đặc trưng trung
tâm và độ biến thiên (phân tán)
X min Q1 Me Q3 X max

Tác dụng của box plot

• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài


của hộp (khoảng tứ phân vị IQR).
X min Q Me Q X max
1 3

• Nhận biết độ lệch phân phối của dữ liệu

56

28
30/11/2018

Hình dáng của phân phối


và box plot

Lệch trái Đối xứng Lệch phải


Q1 Me Q3 Q1 Me Q3 Q1 Me Q3

57

Tác dụng của box plot

• Nhận biết sự dàn trải của dữ liệu trên cơ sở độ dài


của hộp (khoảng tứ phân vị IQR).
• Nhận biết độ lệch phân phối của dữ liệu
• Nhận biết lượng biến đột xuất và nghi ngờ là đột
xuất

58

29
30/11/2018

Nhận biết lượng biến đột xuất

Outer Inner hinger Giới hạn Giới hạn


fence fence trong ngoài

IQR
1.5 IQR 1.5 IQR 1.5 IQR 1.5 IQR

Lượng biến Nghi ngờ là Nghi ngờ là Lượng biến


đột xuất lượng biến lượng biến đột xuất
đột xuất Q1 Me Q3 đột xuất

Bài 2 59

Nhận biết lượng biến đột xuất

30
30/11/2018

Nhận biết lượng biến đột xuất

Thực hiện bằng SPSS


Trường hợp 1:
Chọn Analyze > Descriptive Statistics > Frequencies…

Đưa các biến cần tính toán các


tham số sang Variable(s)
Nhấn Statistic…

62

31
30/11/2018

Thực hiện bằng SPSS


Chọn Analyze > Descriptive Statistics > Frequencies…

Chọn các thống kê cần tính toán 63

Thực hiện bằng SPSS


Trường hợp 2:
Chọn Analyze > Descriptive Statistics > Explore …

Đưa các biến cần tính toán các


tham số sang Dependent List
Muốn phân tích theo biến nào
đó thì đưa sang biến sang
Factor List
Trong mục Display chọn
Statistics hoặc Both
64

32
30/11/2018

Thực hiện bằng SPSS


Trường hợp 3:
Chọn Analyze > Descriptive Statistics > Descriptives…

Đưa các biến sang Variable(s) và nhấn Options… 65

Thực hiện bằng SPSS


Chọn Analyze > Descriptive Statistics > Descriptives…

Chọn các thống kê cần tính toán 66

33
30/11/2018

II. Mô tả dữ liệu qua bảng thống kê

Bảng thống kê là một hình thức trình bày các tài liệu thống
kê một cách có hệ thống, hợp lý và rõ ràng, nhằm nêu lên các
đặc trưng về mặt lượng của hiện tượng nghiên cứu

Cấu trúc bảng thống kê

TIÊU ĐỀ BẢNG

Tiêu đề cột

Tiêu đề
dòng
Dữ liệu

Ghi chú (nếu có)


Nguồn thông tin:

34
30/11/2018

Nguyên tắc khi trình bày bảng thống kê

- Quy mô bảng vừa phải


- Tiêu đề bảng, tiêu mục ghi chính xác, ngắn gọn
- Đơn vị tính – nếu tất cả có cùng đơn vị tính thì ghi góc
phải phía trên bảng
- Các chỉ tiêu được sắp xếp theo thứ tự hợp lý
- Không được để trống ô nào trong bảng, nếu không có
dữ liệu thì ghi bằng các ký hiệu

Nguyên tắc ghi ký hiệu

- Nếu hiện tượng không có số liệu, ghi ( - )


- Nếu số liệu còn thiếu, có thể bổ sung ( … )
- Nếu hiện tượng không liên quan ( x )

35
30/11/2018

Lập bảng thống kê


Lập bảng tần số cho 1 biến thuộc tính
Analyze  Descriptive Statistics  Frequencies…
Đưa các biến cần
lập bảng sang ô
Variable(s)

Hiện thị bảng tần số

Lập bảng thống kê

Lập bảng tần số cho 1 biến thuộc tính


Analyze > Tables > Custom Tables...

Đưa 1 biến chủ đề vào


Rows hoặc Columns

Chọn các thống kê theo Cột


(Columns) hoặc dòng
(Rows), Ẩn nhãn (tên) các
thống kê (Hide),

36
30/11/2018

Chọn N Summary Statistic…

Chọn các thống kê cần hiện thị chuyển sang mục Display
Đặt lại nhãn (Label) thay đổi định dạng (Format, Decimal)
Nhấn Apply to Selection

Chọn Catagories and Total…


Không muốn hiện thị biểu hiện nào đó ->
chuyển biểu hiện đó sang Exclude
Chọn Total và đặt lại nhãn (Label) nếu
muốn hiện thị dòng tổng số
Hiện thị giá trị khuyết thiếu tích vào
Missing Value
Hiện thị biểu hiện không có quan sát tích
Empty categories
Dòng tổng số để trên (Above) dưới (Below)

Sắp xếp các biểu hiện chọn Sort categories by (value, count,….) và theo thứ tự tang
(Ascending) hoặc giảm (Descending)
Nhấn Apply

37
30/11/2018

Đặt tiêu đề bảng,… (Titles)

Ghi tên bảng vào ô Titles:


Điền ghi chú, nguồn thông tin,… ở dưới bảng vào ô: Caption
Điền tiêu đề (giữa cột và dòng) vào ô Corner

Lập bảng thống kê

Bảng kết hợp nhiều biến (định tính –


định tính; định tính – định lượng)
Analyze > Tables > Custom Tables...

Đưa các biến (định tính hoặc định lượng)


vào Rows và Columns

38
30/11/2018

Lập bảng thống kê


Lập bảng cho biến tuỳ chọn (Multiple Answer)
Analyze > Tables > Multiple Response Sets
Đưa các biến của câu trả lời sang ô
Variables in Set
Chọn Dichotomies nếu biến có 2 biểu
hiện hoặc Categories nếu biến có
nhiều biểu hiện
Nhập giá trị cần đếm vào Counted
Value
Đặt tên biến Name và nhãn biến
Label
Nhấn Add -> OK

III. Mô tả dữ liệu qua đồ thị thống kê

Là các hình vẽ hoặc đường nét hình học dùng để


miêu tả có tính chất quy ước các tài liệu thống kê

39
30/11/2018

Các loại đồ thị

- Đồ thị phát triển


- Đồ thị kết cấu
- Đồ thị so sánh
- Đồ thị liên hệ
- Đồ thị “tháp dân số”

Đồ thị thống kê
Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...
Simple đồ thị thanh cho 1 biến
Clustered đồ thị thanh kết hợp 2 biến (theo
nhóm với nhiều cột cạnh nhau)
Stacked Đồ thị thanh kết hợp 2 biến (biến
được biệu hiện trên 1 cột)
Summaries for groups cases Mỗi thanh
của đồ thị thể hiện số lượng các quan sát có
cùng 1 giá trị của biến
Summaries for separate variables Mỗi
thanh của đồ thị thể hiện giá trị thống kê
của biến
Value of individual cases Mỗi thanh của
đồ thị thể hiện giá trị 1 quan sát của biến

40
30/11/2018

Đồ thị thống kê
Đồ thị thanh (Bar) Graphs > Lagacy > Dialogs > Bar...

Bars Represent tham số thống kê thể


hiện trên đồ thị
Category Axis Trục hoành
Define Clusters by biến phân loại
Có thể vẽ theo dòng hay cột (theo biến
phân loại thứ 2)  đưa biến vào Panel
by Rows (Columns)

BÀI 3
ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

I II III

NHỮNG VẤN ĐỀ ƯỚC LƯỢNG KIỂM ĐỊNH GIẢ


CƠ BẢN VỀ ĐIỀU TRA THUYẾT THỐNG
PHÂN PHỐI KÊ

41
30/11/2018

I. NHỮNG VẤN ĐỀ CƠ BẢN VỀ


PHÂN PHỐI

Biến ngẫu nhiên


• Biến ngẫu nhiên là biến nhận một trong các giá trị có
thể có của nó tuỳ thuộc vào sự tác động của các nhân
tố ngẫu nhiên trong một phép thử.
• Biến ngẫu nhiên là biến mà các giá trị không được xác
định trước qua mỗi lần thực nghiệm (phép thử).

42
30/11/2018

Quy luật phân phối xác suất

• Quy luật phân phối xác suất của biến ngẫu nhiên là sự
tương ứng giữa giá trị có thể có của nó và xác suất
tương ứng với giá trị đó.

85

II. Ước lượng kết quả điều tra


• Với mức ý nghĩa α
• Ước lượng trung bình
Hai phía x  t n / 21. x    x  t n / 21. x
Vế phải x  t n 1. x    
Vế trái      x  t n 1. x

43
30/11/2018

III. Kiểm định giả thuyết thống kê

1 Những vấn đề chung về kiểm định giả thuyết thống kê

2 Kiểm định trung bình

3 Kiểm định Khi bình phương

1. Những vấn đề chung về kiểm định

Là giả thuyết về một vấn đề nào đó của tổng


thể chung (về các tham số như trung bình, tỷ
lệ, phương sai, dạng phân phối,…)

44
30/11/2018

Giả thuyết thống kê

Giả thuyết mà ta muốn kiểm định (H0)


Giả thuyết đối lập (Ha, H1, H)

Giả thuyết thống kê


Ví dụ
H0:  = 0
H1:   0

Bác bỏ H0 Bác bỏ H0

45
30/11/2018

Sai lầm và mức ý nghĩa trong kiểm định

- Sai lầm loại I là bác bỏ H0 khi H0 đúng


- Sai lầm loại II là chấp nhận H0 khi H0 sai

Sai lầm và mức ý nghĩa trong kiểm định

Kết luận
Thực tế Chấp nhận H0 Bác bỏ H0

H0 đúng Kết luận đúng Sai lầm loại I


H0 sai Sai lầm loại II Kết luận đúng

46
30/11/2018

Sai lầm và mức ý nghĩa trong kiểm định

Mức ý nghĩa của kiểm định () là xác suất mắc sai
lầm loại I
 = P(Bác bỏ H0/H0 đúng)

Tiêu chuẩn kiểm định

Tiêu chuẩn kiểm định là quy luật phân phối xác


suất nào đó dùng để kiểm định.
Trong tập hợp các kiểm định thống kê có cùng
mức ý nghĩa , kiểm định nào có xác suất mắc sai
lầm loại 2 nhỏ nhất được xem là “tốt nhất”.

47
30/11/2018

Các bước tiến hành kiểm định


- Xây dựng giả thuyết H0 và giả thuyết đối H1
- Xác định mức ý nghĩa 
- Chọn tiêu chuẩn kiểm định
- Tính giá trị của tiêu chuẩn kiểm định từ mẫu
quan sát
- Kết luận

Phương pháp tiếp cận P-value


trong kiểm định giả thuyết
• Rất nhiều phần mềm thống kê tính P-
value (sig) khi thực hiện kiểm định giả
thuyết.
• P-value là xác suất lớn nhất để có
thể bác bỏ giả thuyết H0. P-value
thường được xem như là mức ý
nghĩa quan sát.
• Các nguyên tắc ra quyết định để bác
bỏ giả thuyết H0 với P-value là:
• Nếu p-value lớn hơn hoặc bằng α,
chưa đủ cơ sở để bác bỏ giả thuyết
H0.
• Nếu p-value nhỏ hơn α, bác bỏ giả
thuyết H0.

48
30/11/2018

2. Kiểm định trung bình

a Kiểm định giả thiết về giá trị trung bình của một tổng thể

b Kiểm định hai giá trị trung bình của hai tổng thể

c Kiểm định trung bình thuộc nhiều tổng thể (ANOVA)

97

Kiểm định giả thiết về giá trị trung


bình của một tổng thể

H0:  = 0
H1:  ≠ 0
Tiêu chuẩn kiểm định
( x  0 )
T  ~ t ( n 1)
S/ n

98

49
30/11/2018

Kiểm định giả thiết về giá trị trung


bình của một tổng thể
Analyze > Compare Means > One-Sample T Test…

Đưa các biến cần kiểm định giá trị


trung bình vào Test Variable(s)
Nhập giá trị cần kiểm định trung
bình vào Test Value
Nhấn Options...

99

Kiểm định giả thiết về giá trị trung


bình của một tổng thể
Analyze > Compare Means > One-Sample T Test…

Nhập độ tin cậy của kiểm định vào


Confidence Interval
Chỉ kiểm định đối với các quan sát
có ý nghĩa của biến chọn Exclude
cases analysis by analysis
Chỉ kiểm định đối với các quan sát
có đầy đủ trong các biến chọn
Exclude cases listwise (n như
nhau)

100

50
30/11/2018

Kiểm định hai giá trị trung bình của


hai tổng thể

H0: 1 = 2
H1: 1 ≠ 2
- Hai mẫu độc lập
- Hai mẫu phụ thuộc

101

Hai mẫu độc lập

- Phương sai bằng nhau


- Phương sai không bằng nhau

102

51
30/11/2018

Kiểm định phương sai

H0: 12 = 22


H1: 12 ≠ 22

S12
Tiêu chuẩn kiểm định F  2 ~ ( , n1  1, n2  1)
S2

Kiểm định phương sai


Kiểm định phương sai của k tổng thể
(dùng tiêu chuẩn kiểm định Levene)
k

 n (z i i  z ) 2 /( k  1)
i 1
F k ni
~ f ( , k  1, n  k )
 ( z ij  zi ) 2 /( n  k )
i 1 j 1
ni
1 1 k ni
zij  xij  xi zi 
ni
z
j 1
ij z   zij
n i 1 j 1
xij – là giá trị của đơn vị thứ j nhóm thứ i (i=1,k) (j=1,ni)

52
30/11/2018

Hai mẫu độc lập


Trường hợp phương sai bằng nhau:
Tiêu chuẩn kiểm định
( x1  x 2 )
T  ~ t ( n1  n 2  2 )
2 2
S S

n1 n2
( n1  1) S12  ( n2  1) S 22
2
Trong đó S 
( n1  1)  ( n2  1) 105

Hai mẫu độc lập


Trường hợp phương sai không bằng nhau:
Tiêu chuẩn kiểm định

T 
x1  x 2  ~ t , v
2 2
S S1 2

n1 n 2
2
 S 12 S 22 
  
 1n n 2 
Trong đó v  2 2
1  S 12  1  S 22 
    
n1  1  n1  n 2  1  n 2  106

53
30/11/2018

Hai mẫu độc lập


Analyze > Compare Means > Independent-Samples T Test…

Đưa các biến cần kiểm định giá trị


trung bình vào Test Variable(s)
Đưa biến phân loại vào Grouping
Variable
Nhấn Define Groups... Để định
nghĩa nhóm

107

Hai mẫu độc lập


Analyze > Compare Means > Independent-Samples T Test…

Nếu sử dụng biến phân loại lựa


chọn Use specified values và
nhập giá trị tương ứng
Nếu chọn giá trị của biến lớn hơn
hoặc bằng một giá trị nào đó thì
chọn Cut point rồi nhập giá trị
phân chia

108

54
30/11/2018

Hai mẫu phụ thuộc

H0: d = 0 hay 1 - 2 = 0
H1: d ≠ 0
Trong đó: di = x1i - x2i
Tiêu chuẩn kiểm định
( d  0)
T ~ t ( n 1)
Sd / n
109

Hai mẫu phụ thuộc


Analyze > Compare Means > Paired-Samples T Test…

Đưa các cặp biến cần kiểm định giá


trị trung bình vào Paired
Variable(s)

110

55
30/11/2018

Kiểm định nhiều trung bình của tổng thể


Phân tích phương sai - ANOVA

Một số giả thiết:


+ Các tổng thể phải độc lập và được chọn ngẫu nhiên
+ Các tổng thể phải có phân phối chuẩn
+ Phương sai các tổng thể phải đồng nhất

Phân tích phương sai 1 nhân tố


(one-way ANOVA)
Nhân tố

1 2 ... i ... k

x11 x21 ... x11 ... xk1

x12 x22 ... xi2 ... xk2

... ... ... ... ... ...

x1j x2j ... xij ... xkj

... ... ... ... ... ...

x1n1 x2n2 ... xin2 ... xkn2


112

56
30/11/2018

Phân tích phương sai 1 nhân tố


(one-way ANOVA)
 H0 : 1 = 2 = …. = k
 H1: Tồn tại ít nhất 1 cặp khác nhau

MSF
- Tiêu chuẩn kiểm định F ~ f ( k 1, n  k )
MSE
SSF SSE
MSF  MSE 
k 1 nk 113

Phân tích phương sai 1 nhân tố


(one-way ANOVA)
k nj

  x  x
2
SST  ij
Total Sum of Squares)
j 1 i 1

 x  x  .n j (Sum of Squares for Factor)


2
SSF  j
j 1

k nj

  x  x j  (Sum of Squares for Error)


2
SSE  ij
j  1 i 1

SST  SSF  SSE


114

57
30/11/2018

Phân tích phương sai 1 nhân tố


(one-way ANOVA)
ANOVA

Sum of Squares df Mean Square F Sig.

Between Groups SSF k-1 MSF *** P-value

Within Groups SSE n-k MSE

Total SST n-1

115

Phân tích phương sai 1 nhân tố


(one-way ANOVA)
Analyze > Compare Means > One-Way ANOVA…
Đưa các biến cần phân tích vào
Dependent List
Đưa biến nhân tố vào Factor
Nếu bác bỏ H0 thì nhấn vào Post
Hoc... Để phân tích sâu nhằm xác
định trung bình của nhóm nào khác
nhóm nào.
Nhấn Options...

116

58
30/11/2018

Phân tích phương sai 1 nhân tố


(one-way ANOVA)
Analyze > Compare Means > One-Way ANOVA…
Lựa chọn Descriptive để tính toán
các thống kê mô tả
Chọn Homogeneity of variance
test để kiểm định phương sai giữa
các nhóm

Chọn tiêu chuẩn kiểm định Brown-


Forsythe nếu phương sai không
đồng nhất

117

Phân tích phương sai 1 nhân tố


(one-way ANOVA)
Analyze > Compare Means > One-Way ANOVA…

Lựa chọn các kiểm định tương ứng


Nếu phương sai bằng nhau:
Thường chọn tiêu chuẩn: Tukey
hay Bonferroni
Nếu phương sai không bằng
nhau:
Thường chọn tiêu chuẩn: Games-
Howell

118

59
30/11/2018

3. Kiểm định Khi bình phương (2)


và phân phối

 Kiểm định Khi bình phương


 Kiểm định về dạng phân phối

119

Kiểm định sự độc lập, phụ thuộc 2 mẫu

Có ý kiến cho rằng tỷ lệ nghèo ở 3 địa phương (A, B


và C) là khác nhau? Từ mỗi địa phương chọn ngẫu
nhiên 1 số hộ gia đình và có kết quả như sau:

60
30/11/2018

Kiểm định sự độc lập, phụ thuộc 2 mẫu


ĐP
Loại hộ A B C

Hộ nghèo 20 50 25

Hộ không nghèo 180 350 95

-Hãy đưa ra kết luận với mức ý nghĩa 5%


-Bảng trên được gọi là bảng ngẫu nhiên 2 dòng
(i=1,2) và 3 cột (j=1,3)

Kiểm định sự độc lập, phụ thuộc 2 mẫu

Gọi tỷ lệ hộ nghèo của địa phương A, B và C lần


lượt là p1, p2 và p3
Cặp giả thuyết cần kiểm định là
H0: p1 = p2 = p3
H1:  pi  pj (i  j)

61
30/11/2018

Kiểm định sự độc lập, phụ thuộc 2 mẫu

Gọi nij là tần số thực nghiệm (số quan sát ở dòng


thứ i và cột thứ j)

Tính tần số lý thuyết (n ij )

 tæng dßng i  tæng cét j


nij 
n

n   nij Tổng số đơn vị điều tra


i j

Kiểm định sự độc lập, phụ thuộc 2 mẫu

Tiêu chuẩn kiểm định


 2
 2  
nij  n ij 
~ 2 ,df

i j nij

df  (sè dßng  1).(sè cét  1)

62
30/11/2018

Kiểm định sự độc lập, phụ thuộc 2 mẫu


2 2
Miền bác bỏ W:  qs    , df

Ví dụ
ĐP
Loại hộ A B C Tổng

20 50 25 95
Hộ nghèo 26,39 52,78 15,83
1,547 0,146 5,307
180 350 95 625
Hộ không
173,61 347,22 104,17
nghèo
0,235 0,022 0,807
Tổng 200 400 120 720

63
30/11/2018

Ví dụ

 2
 qs2  
n
ij  n ij 
 8,064

i j nij

2,df   02,05;2  5,991

 qs2  02,05;2
Bác bỏ giả thuyết H0 (->Tỷ lệ hộ nghèo ở các địa
phương là khác nhau)

Kiểm định sự phụ thuộc của 2 mẫu


Analyze > Descriptive Statistics > Crosstabs…
Đưa 1 biến sang Row(s) và 1 biến
sang Column(s)
Nhấn Statistics...

128

64
30/11/2018

Kiểm định sự phụ thuộc của 2 mẫu


Analyze > Descriptive Statistics > Crosstabs…
Lựa chọn các kiểm định tương ứng

129

Kiểm định sự phụ thuộc của 2 mẫu


Analyze > Descriptive Statistics > Crosstabs…

130

65
30/11/2018

Kiểm định Khi bình phương 1 mẫu

H0: Tỷ lệ thực tế bằng với tỷ lệ lý thuyết (kỳ vọng)


H1: Tỷ lệ thực tế khác với tỷ lệ lý thuyết (kỳ vọng)

Ví dụ: - Nghiên cứu tỷ lệ nhân viên ở các khu vực như nhau?
- Tỷ lệ nhân viên nam gấp 2 lần tỷ lệ nữ?
- Trình độ đào tạo trung cấp gấp 3 lần đại học và gấp 5 lần sau ĐH

131

Kiểm định Khi bình phương 1 mẫu


Analyze > Nonparametric > Legacy Dialogs >Chi-Square…

Đưa biến cần kiểm định sang Test


Variable List
Sử dụng toàn bộ các quan sát chọn
Get from data
Sử dụng trong một khoảng nào đó
chọn Use specified range và nhập
giá trị nhỏ nhất (Lower) và lớn nhất
(Upper)
Tất cả các lựa chọn có tần số lý thuyết
bằng nhau chọn All catagories equal
Tần số lý thuyết khác nhau chọn
Values

132

66
30/11/2018

Kiểm định về dạng phân phối


(Kiểm định Kolmogorov – Smirnov một mẫu)
Analyze\Nonparametric Tests\Legacy Dialogs\1-Sample K-S…

Chọn các biến cần kiểm định sang


Test Variable List
Chọn các phân phối cần kiểm định:
- Phân phối chuẩn Normal
- Phân phối đều Uniform
- Phân phối luỹ thừa Exponetial
- Phân phối Poisson

133

BÀI 4
PHÂN TÍCH HỒI QUY TƯƠNG QUAN

I II

PHÂN TÍCH PHÂN TÍCH HỒI


TƯƠNG QUAN QUY

67
30/11/2018

I. Phân tích tương quan


Phân tích tương quan nhằm đo mức độ phụ thuộc
tuyến tính giữa hai biến ngẫu nhiên

Hệ số tương quan đơn (Pearson)

cov( x, y ) xy  x. y
r 
 x y  x y

135

I. Phân tích tương quan


Hệ số tương quan hạng (Spearman)
6d i2
rs  1 
n(n 2  1)

136

68
30/11/2018

I. Phân tích tương quan

Liên hệ hàm Không có mối liên Liên hệ hàm


số hệ số

-1 0 +1

Mối liên hệ nghịch càng Mối liên hệ thuận càng


chặt chẽ chặt chẽ

137

I. Phân tích tương quan


Kiểm định hệ số tương quan
H0:  = 0
H1:  ≠ 0
r
Tiêu chuẩn kiểm định t 
1 r2
n2
H0: s = 0
H1: s ≠ 0 rs  0
Tiêu chuẩn kiểm định z  rs n  1
1/ n 1
138

69
30/11/2018

I. Phân tích tương quan


Analyze > Correlate > Bivariate…
Đưa các biến cần phân tích tương
quan sang Variables
Lựa chọn các hệ số tương quan
Hệ số tương quan - Pearson
Hệ số tương quan hạng-Spearman

139

II. PHÂN TÍCH HỒI QUY

1 Hồi quy giữa hai tiêu thức số lượng

Hồi quy tuyến tính giữa nhiều tiêu thức số lượng


2

Hồi quy với biến giả


3

Hồi quy Logistic


4

140

70
30/11/2018

* PHÂN TÍCH HỒI QUY ĐƠN

1 Xây dựng phương trình hồi quy

2 Đánh giá mô hình hồi quy (kiểm định các hệ số)

3 Dự đoán dựa vào mô hình hồi quy

1. Phương trình hồi quy

 Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ các


chênh lệch ngẫu nhiên nêu ra mối liên hệ cơ bản của hiện tượng.

 Phương trình hồi quy: là phương trình xác định vị trí của
đường hồi quy lý thuyết
y

 
 

 


Đường hồi quy lý thuyết

0 x

71
30/11/2018

Phương trình hồi quy tổng thể

Tham số tự do (hệ số chặn) Hệ số hồi quy (hệ số góc)

E ( y / xi )   0   1 xi

Biến độc lập


Biến phụ thuộc
Nguyên nhân
Kết quả

Ý nghĩa các tham số

• β0: phản ánh ảnh hưởng của các nguyên nhân khác
(ngoài nguyên nhân x) tới kết quả y
• β1: phản ánh ảnh hưởng trực tiếp của nguyên nhân x tới
kết quả y. Cụ thể, khi x tăng thêm 1 đơn vị thì giá trị trung
bình của y thay đổi là β1 đơn vị
- β1 > 0: x và y có mối liên hệ thuận (cùng chiều)
- β1 < 0: x và y có mối liên hệ nghịch (ngược chiều)

72
30/11/2018

Phương trình hồi quy mẫu

Với một mẫu ngẫu nhiên kích thước n, chúng ta có phương


trình hồi quy mẫu như sau:
yˆ i  b0  b1 xi
Ước lượng của tham số β0 Ước lượng của tham số β1

Phương pháp bình phương nhỏ nhất


(Ordinary Least Squares- OLS)
y




 

 


x
0

S   ( yˆ i  y i ) 2  min 146

73
30/11/2018

Phương pháp bình phương nhỏ nhất


(Ordinary Least Squares- OLS)

S   ( yi  b0  b1 xi ) 2  min

 S
 2( yi  b0  b1.xi )(1)  0

 b0  yi  n.b0  b1.xi
 S  2
  2( yi  b0  b1.xi )( xi )  0 yi .xi  b0 xi  b1.xi

 b1

147

Các giả thiết cơ bản của OLS


• Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên
• Kỳ vọng toán của sai số bằng không
• Sai số tuân theo quy luật phân bố chuẩn
• Phương sai của sai số không đổi
• Không có tương quan giữa các phần dư (tự tương quan)
• Không có mối tương quan giữa các biến độc lập (đa cộng
tuyến) – đối với hồi quy bội

148

74
30/11/2018

Thực hiện bằng SPSS


Analyze > Regression > Linear…
Đưa biến phụ thuộc sang
Dependent
Đưa một biến độc lập sang
Independent(s)

149

2. Kiểm định hệ số hồi quy

Giả thuyết: H0: 1 = 0


b1
Tiêu chuẩn kiểm định: T  ~ t ( n  2)
Se (b1 )

Se(b1 ) 
( xi  x ) 2

2
ei  ( yi  yˆ i ) 2
 
n2 n2 150

75
30/11/2018

Ước lượng hệ số hồi quy

• Hai phía: b j  t n2 2  se(b j )   j  b j  tn22  se(b j )

• Phái phải:     j  b j  t n 2  se(b j )

• Phái trái: b j  tn 2  se(b j )   j  

Đánh giá độ phù hợp của mô hình


y
n 
2
SSE   y  yˆ 
i 1
i i
n

  SST   y  y 
i
2

n i 1
SSR   yˆ  y 
1
i
2

 


x
0

76
30/11/2018

Đánh giá độ phù hợp của mô hình


( yi  y ) 2  ( yi  yˆ i ) 2  ( yˆi  y ) 2
SST  SSE  SSR
SSR SSE
 1 
SST SST
( yi  yˆi ) 2
R2  1 
 ( yi  y ) 2
R2 phản ánh phần trăm thay đổi của biến phụ thuộc
được giải thích bởi biến độc lập (mức độ phù hợp
của mô hình) 153

Kiểm định ý nghĩa mô hình

Giả thuyết: H0: Mô hình không có ý nghĩa (β1=0)

Tiêu chuẩn kiểm định:

( yˆ i  y ) 2
F ~ F (1, n  2)
( yi  yˆ i ) 2
n2
154

77
30/11/2018

3. Dự đoán dựa vào mô hình hồi quy

yˆ i  b0  b1 x i
Khoảng tin cậy ước lượng giá trị trung bình với độ tin
cậy (1-α)

1 ( x0  x ) 2
yˆ 0  t ( n/ 2 2 ) .  .  n
n
 ( xi  x ) 2
i 1
155

3. Dự đoán dựa vào mô hình hồi quy

Khoảng ước lượng giá trị cá biệt của Y

( n2) 1 ( x0  x ) 2
yˆ 0  t  / 2 . . 1  n
n 2
 i ( x  x )
i 1

156

78
30/11/2018

Ước lượng giá trị dự đoán


Thực hiện Regression -> Nhấn save
Dự đoán điểm

Dự đoán bằng khoảng tin cậy

157

2. Hồi quy tuyến tính giữa nhiều tiêu


thức số lượng

Phương trình hồi quy

Yˆi  b0  b1x1i  b2 x2i .... bk xki

158

79
30/11/2018

Ý nghĩa các hệ số hồi quy riêng

Phản ánh ảnh hưởng thuần của nguyên nhân xj tới kết
quả y (khi các yếu tố khác không đổi). Cụ thể, khi xj
tăng thêm 1 đơn vị thì y thay đổi trung bình là βj đơn vị

159

Kiểm định hệ số hồi quy

• Giả thuyết: H 0 :  j   *j
b j   *j
• Tiêu chuẩn kiểm định: T
se(b j )
• Nếu H0 đúng thống kê T sẽ tuân theo quy luật phân phối
student với (n-k-1) bậc tự do.

80
30/11/2018

Ước lượng hệ số hồi quy

• Hai phía: b j  tn 2 k 1se(b j )   j  b j  t n 2 k 1se(b j )

• Phái phải:     j  b j  tn  k 1se (b j )


 n  k 1
• Phái trái: b j  t se(b j )   j  

Hệ số hồi quy chuẩn hoá


 xj
• Công thức: Bêta j  b j
y
• Biểu hiện vai trò của từng biến độc lập tới biến thuộc

81
30/11/2018

Đánh giá độ phù hợp của mô hình hồi


quy tuyến tính bội
SSE
R2  1
SST
SSE
( n  1)
Ra2  1  n  k  1  1  (1  R 2 )
SST n  k 1
n 1
Sử dụng R2 điều chỉnh để so sánh độ phù hợp của mô
hình hồi quy có số lượng biến độc lập khác nhau

163

Kiểm định ý nghĩa của mô hình


Ho:   ….p 
Hoặc: Ho: R2 = 0

R 2 /( k  1)
F ~ F ( k  1, ( n  k  1)
(1  R 2 ) /( n  k  1)

164

82
30/11/2018

Hồi quy tuyến tính giữa nhiều tiêu thức số lượng


Analyze > Regression > Linear…
Đưa biến phụ thuộc sang
Dependent
Đưa các biến độc lập sang
Independent(s)

165

Thực hiện bằng SPSS


Lựa chọn Statistics…
Các lựa chọn
Estimates các ước lượng (lý thuyết)
Confidence intervals khoảng tin
cậyước lượng
Covariance matrix ma trận hiệp
phương sai
Model fit phân tích ANOVA
Descriptives thống kê mô tả

166

83
30/11/2018

3. Hồi quy với biến giả

a Cách đặt biến giả

b Hồi quy với biến giả

167

Đặt biến giả

Khi biến độc lập là biến định danh (biến phân loại)
Biến giả là biến có 2 giá trị 0 và 1 phụ thuộc vào việc các quan sát
có chứa các tính chất được quan tâm hay không.
Ví dụ: tiêu thức giới tính (nam, nữ)
D1 = 0 nếu là nữ
D1 = 1 nếu là nam

168

84
30/11/2018

Đặt biến giả


Khu vực sinh sống (thành thị, nông thôn, miền núi)
D1 = 1 nếu sống ở nông thôn
D1 = 0 nếu không sống ở nông thôn
D2 = 1 nếu sống ở thành thị
D2 = 0 nếu không sống ở thành thị
Khu vực sinh sống D1 D2 D3 =1-D1-D2
Nông thôn 1 0 0
Thành thị 0 1 0
Miền núi 0 0 1

Tiêu thức có k biểu hiện thì sẽ dùng k-1 biến giả, biểu hiện được
gán trị trị 0 ở các biến giả được gọi là cơ sở
169

Hồi quy với biến giả

85
30/11/2018

Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) với
biến tuổi và giới tính (Nam, nữ)

Yˆi  b0  b1 X 1i  b 2 D1i
Nữ: Yˆi  b0  b1 X 1i  b 2 .0  b0  b1 X 1i
Nam: Yˆi  b0  b1 X 1i  b 2 .1  (b0  b 2 )  b1 X 1i

Nam (D1=1)

Nữ (D1=0)

b2

b0

171

Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) với
biến tuổi và Khu vực (Thành thị, nông thôn, miền núi)
Yˆi  b0  b1 X 1i  b2 D1i  b3 D 2 i
Miền núi: Yˆi  b0  b1 X 1i  b2 .0  b3 . 0  b0  b1 X 1i
Nông thôn: Yˆi  b0  b1 X 1i  b2 .1  b3 .0  ( b0  b2 )  b1 X 1i
Thành thị: Yˆi  b0  b1 X 1i  b2 .0  b3 . 1  ( b0  b3 )  b1 X 1i
Thành thị (D1=0;
D2=1)

Nông thôn (D1=1; D2=0)

Miền núi (D1=0; D2=0)


b3
b2

b0
172

86
30/11/2018

Giả sử nghiên cứu phương trình giữa thu nhập (biến phụ thuộc) với
biến tuổi, bằng cấp (có, không) và biến tương tác (tuổi và bằng cấp)
Yˆi  b0  b1 X 1i  b2 D1i  b3 X 1i * D1i
Không BC: Yˆi  b 0  b1 X 1i  b 2 . 0  b3 . X 1i * 0  b 0  b1 X 1i

Có BC: Yˆ  b  b X  b .1  b . X * 1  (b  b )  (b  b ) X
i 0 1 1i 2 3 1i 0 2 1 3 1i

Có bằng cấp (D1=1)

Không có bằng cấp (D1=0)

b2

b0
173

4. Phương trình hồi quy logistic


Phân tích hồi qui logistic là một kỹ thuật thống kê để
xem xét mối liên hệ giữa biến độc lập (biến số hoặc biến
phân loại) với biến phụ thuộc là biến nhị phân (biến có
2 biểu hiện 0 và 1).

174

87
30/11/2018

Phương trình hồi quy

175

Phương trình hồi quy logistic


Nếu gọi p là xác suất để một biến cố xảy ra, thì 1-p
là xác suất để biến cố không xảy ra. Phương trình
hồi qui logistic được xây dựng như sau:
p
ln(odds)  ln( )     xi
1 p
p
 e  xi
1 p
e  xi
p
1  e  xi 176

88
30/11/2018

Phương trình hồi quy logistic


Phương pháp xác định các hệ số hồi quy là phương
pháp hợp lý tối đa - maximum likelihood


 y   1  e (ˆ  ˆxi ) 1
 i


xi yi  xi 1  e  (ˆ  ˆxi )

Yi là biến phụ thuộc (biến nhị phân – 1 là xảy ra biến cố,
0 là không xảy ra biến cố)

177

Ý nghĩa của các hệ số


p
ln(odds)  ln( )     xi
1 p
: Khi x tăng lên một đơn vị thì làm cho ln(odds) tăng lên  lần

Nếu gọi odds0 khi xi=0 thì odds0=e

Nếu gọi odds1 khi xi = 1 thì odds1=e+


 
odds e
Tỷ số chênh (odds ratio - OR) OR  1
   e
odds0 e

Như vậy, khi x tăng lên một đơn vị thì làm cho khả năng (xác
suất) biến cố xảy ra bằng e lần (so với với cũ) 178

89
30/11/2018

Kiểm định hệ số hồi quy


Kiểm định Wald Chi-Square
2
 ˆ 
Wald Chi  Square   
ˆ 
 se(  ) 
.

Quy tắc đưa ra kết luận như quy tắc kiểm định

179

Độ phù hợp của mô hình


Đo lường độ phù hợp tổng quát của mô hình hồi quy
logistic dựa vào chỉ tiêu -2LL

-2LL càng nhỏ thể hiện độ phù hợp mô hình càng cao
(bằng 0 tức là không có sai số)

Cũng có thể đánh giá mô hình dựa vào bảng phân loại
(clasification table)

180

90
30/11/2018

Kiểm định độ phù hợp của mô hình


Dùng kiểm định Chi-Square:

Căn cứ vào mức ý nghĩa quan sát trong bảng Omnibus


Tests of Model

181

Thực hiện bằng SPSS


Chọn Analysis> Regression> Binary Logistic…

182

91
30/11/2018

Thực hiện bằng SPSS


Nhấn Options…

183

BÀI 5
PHÂN TÍCH DÃY SỐ THỜI GIAN VÀ DỰ ĐOÁN THỐNG KÊ

I II III IV

KHÁI NIỆM PHÂN TÍCH ĐẶC PHÂN TÍCH CÁC DỰ ĐOÁN


CHUNG VỀ DÃY ĐIỂM BIẾN THÀNH PHẦN THỐNG KÊ
SỐ THỜI GIAN ĐỘNG CỦA HIỆN CỦA DÃY SỐ
TƯỢNG QUA THỜI GIAN
THỜI GIAN

92
30/11/2018

I. Khái niệm chung về DSTG


Dãy số thời gian là một dãy trị số của chỉ tiêu
thống kê được sắp xếp theo thứ tự thời gian
 Ví dụ:
 Có số liệu về giá trị sản xuất (GO) của doanh nghiệp A qua
các năm:
Năm 2013 2014 2015 2016 2017
GO (trđ) 6.000 6.400 7.000 7.200 7.500

 Có số liệu về giá trị hàng hoá dự trữ của một doanh nghiệp
trong năm 2017 như sau:
Ngày 1/1 1/4 1/7 1/10 31/12
Gtrị(trđ) 300 320 360 340 380

II. Các chỉ tiêu phân tích đặc điểm biến


động của hiện tượng qua thời gian

1 Mức độ bình quân qua thời gian

2 Lượng tăng (giảm) tuyệt đối

3 Tốc độ phát triển

4 Tốc độ tăng (giảm)

5 Giá trị tuyệt đối của 1% của tốc độ tăng (giảm)

93
30/11/2018

1. Mức độ bình quân qua thời gian

 Ý nghĩa: Mức độ bình quân theo thời gian phản ánh


mức độ đại biểu của tất cả các mức độ của dãy số.
n
* Cách tính
y1  y2  ...  yn 1  yn 
yi
+ Đối với dãy số thời kỳ: y   i 1
n n

1. Mức độ bình quân qua thời gian


+ Đối với dãy số thời điểm:
y  yCK
* Dãy số biến động đều: y  DK
2

94
30/11/2018

1. Mức độ bình quân qua thời gian

+ Đối với dãy số thời điểm:


* Dãy số biến động không đều, có số liệu tại thời
điểm có khoảng cách thời gian bằng nhau:
y1 y
 y2  ...  y n 1  n
y 2 2
n 1

1. Mức độ bình quân qua thời gian

+ Đối với dãy số thời điểm:


* Dãy số biến động không đều, có số liệu tại thời
điểm có khoảng cách thời gian không bằng nhau:
yi ti
y
t i

95
30/11/2018

Chỉ tiêu Liên hoàn Định gốc MLH Bình quân

n
2. Lượng tăng i
(giảm) tuyệt đối  i  yi  yi 1  i  yi  y1 i    i 
i2
i
n y  y1
i2     n
n 1 n 1 n 1
3. Tốc độ phát i
yi y
(100) Ti  i (100) Ti   ti t  n1 ti  n1 Tn  n1 yn
n
triển
ti 
yi 1 y1 i 2 i2 y 1

4 Tốc độ tăng
(giảm) yi  yi 1 y  y1
ai  (100) Ai  i (100)
yi 1 y1 x

 i (100)

 i (100)
a  t (%)  1(100)
yi 1 y1
 t i (%)  1(100)  Ti (%)  1(100)

5. Giá trị tuyệt i i


gi  Gi 
đối của 1% tốc ai (%) Ai (%)
độ tang (giảm) x x
i yi 1 i y
    1
i 100 i 100
100 100
yi 1 y1
Không tính

III. Phân tích các thành phần dãy số thời gian

Thời vụ/chu
Các yếu tố
kỳ (S)
ngẫu
nhiên (I)

Xu hướng (T)

Mô hình kết hợp cộng Y T S I


Mô hình kết hợp nhân Y T SI

96
30/11/2018

III. Phân tích các thành phần dãy số thời gian

III. Phân tích các thành phần dãy số thời gian

1 Phương pháp biểu diễn xu hướng

2 Phương pháp biểu hiện biến động thời vụ

97
30/11/2018

1. Phương pháp biểu diễn xu hướng

a Phương pháp bình quân trượt

b Phương pháp hàm xu thế

a. Phương pháp bình quân trượt

Số bình quân Dãy số bình


trượt quân trượt

số bình quân cộng của một


nhóm nhất định các mức độ
được tính bằng cách lần
lượt loại trừ dần mức độ Dãy số được hình thành
đầu đồng thời thêm vào các bởi các số bình quân trượt
mức độ tiếp theo sao cho
số lượng các mức độ tham
gia tính số bình quân là
không đổi

98
30/11/2018

a. Phương pháp bình quân trượt

Yi Bình quân trượt


Y1 - y1  y 2  y 3
y2 
Y2 Ỹ2 3
y2  y3  y4
Y3 Ỹ3 y3 
3
Y4 :
Y5 :
: y n 2  y n 1  y n
y n1 
Yn-1 Ỹn-1 3
yn -

a. Phương pháp bình quân trượt


Giả sử có dãy số thời gian: y1, y2, y3,… yn

y k 
 ...  yi  ...  y k 
i 0,5  i 0,5 
2  2  k k
Nếu k lẻ: yi  i  (  0,5; n   0,5)
2 2
k

y k
 ... yi  ... y k
i   i  1
 2  2 k k
Nếu k chẵn: yi  i  ( 1; n  1)
2 2
k

99
30/11/2018

a. Phương pháp bình quân trượt


400

350

300

250

200

150

100

50

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

b. Hàm xu thế

Khái niệm Một số


dạng hàm
xu thế

yˆ i  b0  b1ti
Hàm số biểu hiện các
mức độ của hiện yˆ i  b0  b1t i  b 2 t i2
tượng qua thời gian
b1
yˆ i  f ( t i ) yˆ i  b 0 
ti

100
30/11/2018

Hàm xu thế tuyến tính

yˆ i  b0  b1ti
 yi  n.b0  b1.ti
 2
ti yi  b0ti  b1.ti

Hàm xu thế parabol

yˆ i  b0  b1ti  b2ti2
n n n
2
 yi  n.b0  b1  ti  b2  ti
 i 1 i 1 i 1
n n n n
 2 3
 ti . yi  b0  ti  b1  ti  b2  ti
 i 1 i 1 i 1 i 1
n 2 n
2
n
3
n
4
 ti . yi  b0  ti  b1  t i  b2  ti
 i 1 i 1 i 1 i 1

101
30/11/2018

Hàm xu thế Hyperbol


b1
yˆ i  b 0 
ti
n n
1
 i y  n.b0  b 1
 
 i 1 i 1  t i 
n n n
  yi   b 1 1
  t  0   t  1   t 2 
   b
 i 1  i  i 1  i  i 1  i 

Tiêu chuẩn lựa chọn hàm xu thế

  y i  yˆ i 
2
SE   min
n p

102
30/11/2018

Định nghĩa yếu tố thời gian


Dữ liệu thời gian (dữ liệu chuỗi) là dữ liệu mà mỗi dòng (quan sát) là
số liệu ở một thời gian nhất định (tháng, quý, năm,...)

Data>Define Dates..

205

Dự đoán dựa vào hàm xu thế


Analyze>Regression > Curve Estimation…

206

103
30/11/2018

2. Phương pháp biểu hiện


biến động thời vụ

Cách xác định

Biến động thời vụ là sự biến động của


hiện tượng có tính chất lặp đi lặp lại
trong từng thời gian nhất định của năm

2. Phương pháp biểu hiện biến động


thời vụ

Chỉ số thời vụ (khi dãy số không có xu thế)


Cách xác định

104
30/11/2018

2. Phương pháp biểu hiện biến động


thời vụ

Chỉ số thời vụ (khi dãy số không có xu thế)


Cáchvụ
Gọi yij là mức độ của hiện tượng ở thời xácthứ
địnhj của năm
thứ i, (i=1,n);(j=1,m)
n n

y
i 1
ij y i 1
ij

yj n n
Sj   m
 m n
y0
y
j 1
j  y
j 1 i 1
ij

m mn

2. Phương pháp biểu hiện biến động


thời vụ

Chỉ số thời vụ (khi dãy số có xu thế)


Cách xác định

105
30/11/2018

2. Phương pháp biểu hiện biến động


thời vụ

Chỉ số thời vụ (khi dãy số có xu thế)


Cách xác định
Tính chỉ số thời vụ lần lượt theo từng bước sau:
- Xác định xu thế (bình quân trượt, hàm xu thế,…)
- Khử yếu tố xu thế
- Khử yếu tố ngẫu nhiên (tính bình quân)
- Điều chỉnh chỉ số thời vụ

B1. Xác định xu thế

Tính bình quân trượt (với k =m)


Cách xác định
- Nếu số liệu theo quý, tính bình quân trượt 4 mức độ (đặt
mức độ đầu tại y3)
- Nếu số liệu theo tháng, tính bình quân trượt 12 mức độ
(đặt mức độ đầu tại y7)

106
30/11/2018

B2. Loại trừ xu thế

- Đối với mô hình cộng: Y –T = S + I


Cách xác định
- Đối với mô hình nhân: Y/T = S * I

B3. Loại bỏ ngẫu nhiên

- Đối với mô hình cộng: Tính bình quân cộng giản đơn
Cách xác định
- Đối với mô hình nhân: Tính bình quân cộng trung tâm
(Medial average – Trung bình cộng của các lượng biến
loại trừ lượng biến nhỏ nhất và lớn nhất)

107
30/11/2018

B4. Điều chỉnh chỉ số thời vụ

- Đối với mô hình cộng: Tổng chỉ số thời vụ bằng không (0).
Cách xác định
Mức độ điều chỉnh bằng tổng chỉ số thời vụ chia cho m

- Đối với mô hình nhân: Tổng chỉ số thời vụ bằng m. Hệ số


điều chỉnh bằng Tổng chỉ số thời vụ chia cho m

Chỉ số thời vụ
Analyze>Forecasting > Seasonal Decomposition…

216

108
30/11/2018

IV. Một số phương pháp dự đoán thống kê

1 Dự đoán dựa vào xu thế

2 Dự đoán dựa vào xu thế kết hợp thời vụ

3 Dự đoán dựa vào san bằng mũ

1. Dự đoán dựa vào hàm xu thế


Analyze>Regression > Curve Estimation…

218

109
30/11/2018

2. Dự đoán dựa vào hàm xu thế


và chỉ số thời vụ
Sử dụng khi dãy số thời gian có xu thế rõ ràng theo thời gian và
biến động mùa vụ:
- Loại bỏ yếu tố thời vụ khỏi dãy số
- Tiến hành biểu diễn xu thế f(t) (dãy số đã loại thời vụ).

Mô hình kết hợp cộng yˆ t  f t   S j

Mô hình kết hợp nhân yˆ t  f t  S j


Trong đó Sj là các chỉ số ở thời vụ thứ j
219

3. Dự đoán dựa vào san bằng mũ


- San bằng mũ giản đơn
- San bằng mũ kết hợp xu hướng
- San bằng mũ kết hợp xu hướng và thời vụ
+ Kết hợp cộng
+ Kết hợp nhân
Lựa chọn mô hình san bằng mũ tốt nhất (dựa
vào RMSE)

220

110
30/11/2018

San bằng mũ giản đơn


ŷ t 1  ŷ t   .( y t  ŷ t ) Trong đó 0    1

Hoặc yˆ t 1   . yt  (1   ). yˆt
Thay yˆt   . yt 1  (1   ).yˆt 1

yˆ t 1   . yt  (1   ). . yt 1  (1   ). yˆ t 1    . yt  (1   ). . yt 1  (1   ) 2 . yˆ t 1
Tiếp tục thay thế, ta có:

ŷt1 .yt .(1 ).yt1 .(1 )2 .yt2 .1 .yt3 .....1 .y1 (1 )t .ŷ1
3 t 1

Vấn đề là việc chọn ŷ1 thông thường chọn yˆ1  y1

221

Dự đoán dựa vào san bằng mũ


250

200
Number

VAR00001-Model_1
150

100

50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000

Date
222

111
30/11/2018

San bằng mũ kết hợp xu hướng – mô hình Holt

yˆt  h  Lt  bt .h
Lt   . yt  (1   )(Lt 1  bt 1)

bt   Lt  Lt 1   (1   ).bt 1
0   1
Thông thường chọn L1  y1 và b1  y 2  y1

223

San bằng mũ kết hợp xu hướng


250

200
Number

VAR00001-Model_1
150

100

50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000

Date
224

112
30/11/2018

San bằng mũ kết hợp xu hướng và thời vụ


(Mô hình Holt – Winters)
Mô hình kết hợp nhân

yˆ t  h  Lt  bt .h .St  s  h
 y 
Lt   . t   (1   ).( Lt 1  bt 1 )

 St  s 

bt   .Lt  Lt 1   (1   ).bt 1

y 
S t   . t   (1   ).S t  s
 Lt 

225

San bằng mũ kết hợp xu hướng và thời vụ


Mô hình kết hợp nhân

1
L4    y1  y 2  y3  y 4 
4

1  y 4 1  y1 y 4  2  y 2 y 4  3  y3 y 4  4  y 4 
b4     
4  4 4 4 4 

y1 y2
S1  S2 
L4 L4
y y4
S3  3 S4 
L4 L4

226

113
30/11/2018

San bằng mũ kết hợp xu hướng và thời vụ


Mô hình kết nhân

250

200
Number

VAR00001-Model_1
150

100

50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000
Date
227

San bằng mũ kết hợp xu hướng và thời vụ


Mô hình kết cộng

yˆ t  h  Lt  bt .h   St  s  h
Lt   . yt  S t  s   (1   ).(Lt 1  bt 1 )
bt   .Lt  Lt 1   (1   ).bt 1
S t   . yt  Lt   (1   ).S t  s

228

114
30/11/2018

San bằng mũ kết hợp xu hướng và thời vụ


Mô hình kết hợp cộng

250

200
Number

VAR00001-Model_1
150

100

50
Q1 1996
Q2 1996
Q3 1996
Q4 1996
Q1 1997
Q2 1997
Q3 1997
Q4 1997
Q1 1998
Q2 1998
Q3 1998
Q4 1998
Q1 1999
Q2 1999
Q3 1999
Q4 1999
Q1 2000
Q2 2000
Q3 2000
Q4 2000
229
Date

Dự đoán dựa vào san bằng mũ


Analyze> Forecasting > Create Models…

230

115
30/11/2018

Dự đoán dựa vào san bằng mũ


Analyze> Forecasting > Create Models…

231

Dự đoán dựa vào san bằng mũ


Analyze> Forecasting > Create Models…

232

116
30/11/2018

Dự đoán dựa vào san bằng mũ


Analyze>Forecasting > Create Models…

233

Dự đoán dựa vào san bằng mũ


Analyze>Forecasting > Create Models…

234

117

You might also like