TRƢỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN
---o0o---

BÁO CÁO BÀI TẬP LỚN
MÔN: PHÂN TÍCH THỐNG KÊ SỐ LIỆU
ĐỀ TÀI: DIỆN TÍCH GIEO TRỒNG MỘT SỐ CÂY HÀNG NĂM
GV hƣớng dẫn: Th.S Nguyễn Thị Thanh Huyền
Lớp: KHMT1 – K5
Nhóm thực hiện: Nhóm 10
STT Họ Tên
1 Nguyễn Trọng Nghĩa
2 Bùi Văn Nội
3 Lê Văn Vinh




Hà Nội, tháng 08 năm 2013
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 2
MỤC LỤC
LỜI NÓI ĐẦU..................................................................................................... 4
BẢNG PHÂN CÔNG CÔNG VIỆC ................................................................. 5
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT .................................................................. 6
1.1. Mô hình hồi quy đơn biến .................................................................. 6
1.1.1. Khái niệm ........................................................................................ 6
1.1.2. Tính hệ số tự do(A), độ nghiêng(B) theo phƣơng pháp bình
phƣơng cực tiểu .......................................................................................... 6
1.1.3. Đánh giá phƣơng sai () .............................................................. 7
1.1.4. Kiểm định về năng lực mô hình .................................................... 8
1.2. Mô hình hồi quy đa biến .................................................................... 8
1.2.1. Giới thiệu các mô hình tuyến tính tổng quát ............................... 8
1.2.2. Hồi quy đa biến .............................................................................. 9
1.3. Mô hình tƣơng quan ......................................................................... 11
1.3.1. Tổng quan ..................................................................................... 11
1.3.2. Ví dụ .............................................................................................. 15
1.3.3. Khoảnh tin cậy 95 % của hệ số tƣơng quan .............................. 17
1.3.4. Kiểm định 2 hệ số tƣơng quan .................................................... 18
1.4. Chuỗi thời gian ................................................................................. 19
1.4.1 Định Nghĩa ..................................................................................... 19
1.4.2 Phƣơng pháp phân rã ................................................................... 19
CHƢƠNG 2: THU THẬP DỮ LIỆU ĐỂ PHÂN TÍCH ............................... 22
2.1 . Dữ liệu thu thập ................................................................................. 22
2.2 .Chọn phƣơng pháp để phân tích dữ liệu .......................................... 22
CHƢƠNG 3: PHÂN TÍCH VÀ DỰ BÁO QUA PHẦN MỀM
STARTGRAPHIC ............................................................................................ 24
3.1 Sử dụng phƣơng pháp phân tích đặc trƣng trong StatGraphics. ... 24
3.1.1 Đặc trƣng diện tích gieo trồng Ngô ............................................. 24
3.1.2 Đặc trƣng diện tích gieo trồng Mía ............................................. 25
3.1.3 Diện tích gieo trồng Bông ............................................................. 27
3.1.4 Diện tích gieo trồng Lạc ............................................................... 28
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 3
3.1.5 Diện tích gieo trồng Đậu tƣơng .................................................... 29
3.1.6 Diện tích gieo trồng Lúa ............................................................... 30
3.2 Sử dụng phƣơng pháp hồi quy đơn biến trong StatGraphics. ........ 30
3.2.1 Áp dụng hồi quy đơn biến xét sự thay đổi diện tích gieo trồng
ngô qua cá năm. ........................................................................................ 30
3.2.2 Áp dụng hồi quy đơn biến xét sự thay đổi diện tích gieo trồng
Ngô qua các năm. ...................................................................................... 33
3.3 Sử dụng phƣơng pháp hồi quy đa biến trong StatGraphics. ........... 36
3.4 Sử dụng phƣơng pháp phân tích chuỗi thời gian trong
StatGraphics. ................................................................................................ 38
3.4.1 Phân tích chuỗi thời gian dự báo diện tích Ngô ......................... 38
3.4.2 Phân tích chuỗi thời gian dự báo diện tích Mía ......................... 40
3.4.3 Phân tích chuỗi thời gian dự báo diện tích Bông ....................... 42
3.4.4 Phân tích chuỗi thời gian dự báo diện tích Lạc.......................... 43
3.4.5 Phân tích chuỗi thời gian dự báo diện tích đậu tƣơng .............. 44
3.4.6 Phân tích chuỗi thời gian dự báo diện tích lúa ........................... 45
TÀI LIỆU THAM KHẢO ............................................................................... 47















PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 4
LỜI NÓI ĐẦU
“Phân tích thống kê số liệu” là một ngành khoa học có ứng dụng
tương đối rộng rãi trong các lĩnh vực của đời sống như nông nghiệp, kinh
tế, y học, các ngành khoa học…. Nó giúp chúng ta có những đánh giá, dự
báo về một sự kiện, một đối tượng nào đó, từ đó giúp chúng ta đưa ra
được những giải pháp đúng đắn để phát huy cũng như hạn chế, khắc phục
những ưu và nhược điểm của sự kiện, đối tượng đó.
Đối với Nhóm 10- ĐH Khoa Học Máy Tính 1-K5 thì “Phân
tích thống kê số liệu” là một môn mới và xa lạ. Tuy nhiên trong quá trình
học và nghiên cứu môn nhóm đã được tìm hiểu và được sự hướng dẫn của
cô giáo Nguyễn Thị Thanh Huyền. Do vậy nhóm đã quyết định chọn đề
tài bài tập lớn là: “Phân tích diện tích gieo trồng một số cây hàng năm” để
nghiên cứu. Vận dụng những kiến thức đã học được nhóm đã nghiên cứu
và đưa ra những dự báo, đánh giá về tình hình diện tích gieo trồng các loại
cây hàng năm của các vùng miền trên cả nước, thấy được sự chênh lệch
giữa các loại cây, từ đó sẽ đưa ra các dự báo thích hợp.
Nhóm 10 xin chân thành cảm ơn cô giáo Nguyễn Thị Thanh Huyền
đã tận tình giúp nhóm hoàn thành bài tập lớn này.

Hà Nội, tháng 08 năm 2013
Nhóm thực hiện: Nhóm 10-khmt1k5










PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 5
BẢNG PHÂN CÔNG CÔNG VIỆC



Mã Sv Họ tên Công việc đƣợc phân
0541060034



Nguyễn Trọng
Nghĩa
-Thực hiện phân tích dữ
liệu thu thập.
-Dự báo bằng chuỗi thời
gian, mô hình hồi quy đơn
biến.
Thực hiện trên phần
mềm StatGraphics.
-Tổng hợp báo cáo
05410600



Bùi Văn Nội
-Thực hiện phân tích dữ
liệu thu thập.
-Phân tích dữ liệu bằng
mô hình hồi quy đơn biến, đa
biến.
-Thực hiện trên phần
mềm StatGraphics
0541060052


Lê Văn Vinh
-Thực hiện phân tích dữ
liệu thu thập.
-Phân tích dữ liệu bằng
mô hình hồi quy đơn biến, đa
biến.
-Làm báo cáo chương 1.
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 6
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT
1.1. Mô hình hồi quy đơn biến
1.1.1. Khái niệm
Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách
tuyến tính khi tăng x, ta có thể chọn một mô hình biểu diễn quan hệ của y
theo x bằng cách vẽ một đường cũng được “làm khớp ” cho một tập dữ liệu.
Tuy nhiên vấn đề là: Làm thế nào vẽ một đường đi qua tất cả các điểm, ít
nhất là một điểm sẽ lệch đáng kể so với đường thẳng được làm khớp.
Các giải pháp cho vẫn đề:
Xây dựng một mô hình hồi quy tuyến tính đơn giản, sao cho giá trị
trung bình của y tương ứng với giá trị của x. Đồ thị là đường thẳng và các
điểm đi chệch so với đường thẳng này do ngẫu nhiên, và bằng e, tức là:
y=A+Bx+e
Trong đó: A và B là các tham số chưa biết trong xác định mô hình. Nếu ta
giả xử giá trị kỳ vọng E(e)=0, thì giá trị trung bình của y là:
y= A+Bx
Do đó, xét giá trị trung bình của y tương ứng giá trị xác định của x, đồ thị
là đường thẳng.
Viết dạng tổng quát, với một mô hình tuyến tính đơn giản, ta có
y= A+Bx+e
Trong đó :
- y là biến phụ thuộc (biến được mô hình hóa, còn gọi là biến đáp
ứng)
- x là biến độc lập
- e là lỗi ngẫu nhiên
- A hệ số tự do
- B độ nghiêng của đường thẳng
1.1.2. Tính hệ số tự do(A), độ nghiêng(B) theo phƣơng pháp bình
phƣơng cực tiểu
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 7
Vấn đề đầu tiên của phân tích hồi quy đơn giản là tìm ước lượng của A và B
của mô hình hồi quy dựa trên một dữ liệu mẫu.
Giả sử chúng ta có một mẫu của n điểm dữ liệu (x1,y1), (x2,y2),.., (xn,yn). Mô
hình đường thẳng cho các y tương ứng với x là:
y=AB + x+e
Đường thẳng của các trung bình là E(y) = A+Bx và đường được làm khớp với
dữ liệu mẫu ̂ . Như vậy, ̂ là một ước lượng của các giá trị trung bình
của y, và a, b là ước lượng của A và B tương ứng. Đối với một điểm số liệu, nói
rằng các điểm (xi,yi), giá trị quan sát của y là yi và các giá trị dự đoán của y sẽ
là:
̂

và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:

(

)

Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo
phương pháp bình phương cực tiểu của các tham số quần thể A và B và phương
trình dự báo được gọi là đường bình phương cực tiểu.
Công thức tính toán cho đường bình phương cực tiểu:


1.1.3. Đánh giá phƣơng sai (

)
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 8
Trong hầu hết các tình huống thực tế, phương sai

của số ngẫu nhiên e
chưa biết và phải được ước tính từ dữ liệu mẫu. Với đo phương sai của cá
giá trị y về đường hồi quy, trực giác ta ước tính bằng cách chia tổng số lỗi
SSE cho một số thích hợp.
1.1.4. Kiểm định về năng lực mô hình
 Kiểm định 1 phía

( )
Kiểm định thống kê:



Vùng bác bỏ




(


(

dựa trên bậc tự do df = (n-2))
 Kiểm định 2 phía

Kiểm định thống kê:



Vùng bác bỏ




(


(

dựa trên bậc tự do df = (n-2))
1.2. Mô hình hồi quy đa biến
1.2.1. Giới thiệu các mô hình tuyến tính tổng quát
 Một số mô hình:
()

()

()

 Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:
Mô hình bậc hai:
()

Đặt

PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 9
Trở thành mô hình bậc nhất:
()

Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến.
 Mô hình tuyến tính đa biến tổng quát

Trong đó:
- y: biến phụ thuộc (biến được mô hình hóa)
- x
1
, x
2
, ….., x
k
: biến độc lập
- e: lỗi ngẫu nhiên
- B
i
: xác định sự đóng góp của các biến độc lập x
i

1.2.2. Hồi quy đa biến
a) Giả định
Các giả định cần thiết cho một mô hình hồi quy tuyến tính đa biến

Trong đó e là sai số ngẫu nhiên :
 Đối với các giá trị bất kỳ của x
1
, x
2
,…, x
k
lỗi ngẫu nhiên e có
phân bố chuẩn với trung bình bằng 0 và phương sai bằng

 Các lỗi ngẫu nhiên là độc lập
b) Phƣơng pháp bình phƣơng tối thiểu
Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản.
Giả sử ta có bảng dữ liệu mẫu:
Điểm dữ
liệu

Giá trị
y
x
1
x
2
… x
k
1
y
1
x
11
x
21
… x
k1

2
y
2
x
12
x
22
… x
k2

.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
N
y
n
x
1n
x
2n
… x
kn

Ta sẽ sử dụng phương pháp bình phương tối thiểu và tính B
0
, B
1
, B
2
,….,
B
k
sao cho cực tiểu.
SSE = ∑

PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 10
=∑

(

)

Chúng ta có có thể viết ngắn gọn:
Y=[

], X=
[

]

, b=[

]
Sau đó chúng ta viết biểu biểu thức dưới dạng ma trận sau:
(X‟X)b = X‟Y
Trong đó X‟ là chuyển vị của X
Suy ra : b = (X‟X)
-1
XY
c) Đánh giá phƣơng sai
Vì phương sai

sẽ hiếm khi được biết trước, chúng ta phải sử dụng các dữ
liệu mẫu để ước tính giá trị của nó
Ước lượng của

, phương sai trong mô hình hồi quy đa biến

Trong đó
∑ (

̂

)

d) Đánh giá và kiểm định
 Kiểm định một phía:
H
0
: B
i
=0; H
a
: B
i
<0 (hoặc B
i
>0)
Kiểm định thống kê
t =

Vùng loại bỏ
t < -tα (hoặc t > t α)
 Kiểm định hai phía:
H
0
: B
i
=0; H
a
: B
i
≠0
Kiểm định thống kê
t =

Vùng loại bỏ
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 11
t < -tα/2 (hoặc t > tα/2
e) Kiểm tra năng lực của mô hình
Kiểm tra năng lực của mô hình:
E(y) = B
0
+ B
1x1
+ … + B
kxk
H
0
: B
i
=0; H
a
: B
i
≠0
Kiểm định thống kê:
F=

(

)()

()
()

Vùng bác bỏ: F > Fα
f) Sử dụng mô hình để ƣớc lƣợng và dự báo
 Một khoảng tin cậy(1-α)100% đối với E(y)
̂ t
α/2
s√(

)(

)

Trong đó:
̂ = b
0
+b
1
x
1
*
+b
2
x
2
*
+…+b
χ
x
χ
*

x*=(1 x
1
*

x
2
*
… x
χ
*
)‟ là một giá trị cụ thể của x
s và (X‟X)
-1
đạt được từ phân tích bình phương cực tiểu
t
α/2
dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
 Một khoảng dự báo(1-α)100% đối với E(y)
̂ t
α/2
s√ (

)(

)

Trong đó:
̂ = b
0
+b
1
x
1
*
+b
2
x
2
*
+…+b
χ
x
χ
*

x*=(1 x
1
*

x
2
*
… x
χ
*
)‟ là một giá trị cụ thể của x
s và (X‟X)
-1
đạt được từ phân tích bình phương cực tiểu
t
α/2
dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
1.3. Mô hình tƣơng quan
1.3.1. Tổng quan
Để mô tả độ tương quan giữa hai biến, chúng ta cần phải ước tính hệ số
tương quan (coefficient of correlation). Và, để hiểu “cơ chế” của hệ số tương
quan, chúng ta cần làm quen với khái niệm hiệp biến(covariance). Chúng ta biết
rằng với một biến X hay Y, có ba thông số thống kê mô tả: số cỡ mẫu, số trung
(mean), và phương sai (variance), mà tôi đã bàn qua trong bài „Độ lệch chuẩn
hay sai số chuẩn?‟. Nhưng để mô tả mối tương quan giữa hai
biến X và Y, chúng ta cần đến hiệp biến.
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 12
Có thể hiểu hiệp biến qua hình học lượng giác như sau. Chúng ta biết rằng
cho một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b,
Định lí Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai
cạnh kia:
Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai
cạnh a và b phức tạp hơn với mối liên hệ được định lượng bằng hàm cosine của
góc C như sau:

Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc
lập với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng
phương sai của X cộng với phương sai của Y:
var(X + Y) = var(X) + var(Y)
trong đó, “var” là viết tắt của phương sai (tức variance). Chú ý rằng X+Y là một
biến mới. Chúng ta cũng chú ý rằng công thức này tương đương với Định lí
Pythagoras cho tam giác vuông.
Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế
bằng một công thức khác với hiệp biến:
var(X + Y) = var(X) + var(Y) + 2×Cov(X,Y)
trong đó, “Cov” là viết tắt của hiệp biến (tức covariance). Chúng ta chú ý rằng
công thức này tương đương với công thức của tam giác thường, và cũng chú ý
rằng công thức trên giống như nhị thức:
Trên đây là khái niệm. Bây giờ để đi vào chi tiết toán, chúng ta cần một
số kí hiệu để viết tắt các chỉ số trên. Gọi x
i
và y
i
là hai biến quan sát được
của X và Y cho cá nhân i. Giả sử chúng ta có n đối tượng thì i = 1, 2, 3,
…., n. Gọi và là hai số trung bình của biến quan sát
được x và y; và lần lược là phương sai của hai biến, được định nghĩa như
sau:

Do đó, nếu X và Y độc lập, chúng ta có thể viết:

Nhưng nếu X và Y có liên hệ với nhau, công thức trên không đáp ứng
được vấn đề mô tả. Chúng ta cần tìm một chỉ số khác mô tả mối liên hệ giữa hai
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 13
biến, bằng cách nhân độ lệch của biến x từ số trung bình, , cho độ lệch
của biến y, , thay vì bình phương độ lệch từng biến riêng lẻ như công
thức [1]. Nói cách khác, tích số hai độ lệch chính là hiệp biến. Đối với mỗi cá
nhân, hiệp biến là:

Nhưng ở đây chúng ta có n đối tượng, cho nên cần phải cộng tất cả lại và
chia cho số đối tượng:

Công thức [2] chính là định nghĩa của hiệp biến. Từ hai công thức trên, chúng
ta có thể rút ra vài nhận xét sơ khởi:
o Phương sai lúc nào cũng là số dương, bởi vì chúng được tính toán từ bình
phương, nhưng hiệp biến có thể âm mà cũng có thể dương vì được ước tính từ
tích của hai độ lệch.
o Một hiệp biến là số dương có nghĩa là độ lệch từ số trung bình của x tuân theo
chiều hướng thuận với y.
o Một hiệp biến là số âm có nghĩa là độ lệch từ số trung bình của x tuân theo chiều
hướng nghịch với y.
o Nếu hiệp biến là 0, thì hai biến x và y độc lập nhau, tức không có tương quan gì
với nhau.
Một cách để “chuẩn hóa” hiệp biến và phương sai là lấy tỉ số của hai chỉ số này,
và đó chính là định nghĩa củahệ số tương quan. Hệ số tương quan thường được
kí hiệu bằng r:

(Chú ý rằng căn số bậc hai của phương sai là độ lệch chuẩn, tức
là: , cho nên công thức trên được mô tả bằng độ lệch chuẩn,
thay vì phương sai). Với vài thao tác đại số, có thể viết lại công thức [3] như
sau:

Công thức còn được biết đến như là hệ số Pearson (Pearson‟s correlation
coefficient) để ghi nhận cống hiến của nhà thống kê học nổi tiếng Karl Pearson,
người đầu tiên phát triển lí thuyết về tương quan vào đầu thế kỉ 20.
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 14
Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng; nếu
giá trị của r là âm, x và y liên hệ đảo ngược: tức khi khi x tăng thì y giảm, và
ngược lại. Nếu r = 1 hay r = -1 (Biểu đồ 1a và 1b), mối liên hệ củay và x được
hoàn toàn xác định; có nghĩa là cho bất cứ giá trị nào của x, chúng ta có thể xác
định giá trị của y.Nếu r = 0 (Biểu đồ 1c), hai biến x và y hoàn toàn độc lập, tức
không có liên hệ với nhau.


Biểu đồ 1: Mối liên hệ giữa x và y: (a) r = 1, (b) r = -1, và (c) r = 0
(độc lập).

Biểu đồ 1: Mối liên hệ giữa x và y: (d) r = 0.80; (e) r = -0.80, và (f) r =
0.001
Tất nhiên, trong thực tế khoa học thực nghiệm, ít khi nào chúng ta có
những mối liên hệ xác định như vừa trình bày. Vì sai số trong đo lường, vì các
lí do dao động sinh học, mối liên hệ giữa x và y thường dao động cao hơn -1 và
thấp hơn 1, như Biểu đồ 1d, 1e và 1f.
Vấn đề đặt ra là diễn dịch ý nghĩa của hệ số tương quan như thế nào? Có
thể xem hệ số tương quan như là một “hệ số ảnh hưởng” (effect size). Nếu hệ số
ảnh hưởng càng cao, thì mối liên hệ có ý nghĩa lâm sàng thực tế. Tuy nhiên, vì
ý nghĩa lâm sàng còn tùy thuộc vào bộ môn khoa học. Chẳng hạn như đối với
các bộ môn khoa học đòi hỏi độ chính xác cao, hệ số tương quan phải trên 0.8
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 15
mới có thể xem là “có ý nghĩa”; nhưng đối với các bộ môn khoa học lâm sàng
và y tế công cộng, một hệ số tương quan 0.6 cũng có thể là có ý nghĩa.
Sau đây là những qui ước chung về cách diễn dịch hệ số tương quan trong
lâm sàng và y tế công cộng.
Bảng 2. Ý nghĩa của hệ số tƣơng quan
Hệ số tƣơng quan Ý nghĩa
±0.01 đến ±0.1 Mối tương quan quá thấp, không đáng
kể
±0.2 đến ±0.3 Mối tương quan thấp
±0.4 đến ±0.5 Mối tương quan trung bình
±0.6 đến ±0.7 Mối tương quan cao
±0.8 trở lên Mối tương quan rất cao
Cần nhấn mạnh một lần nữa, đây chỉ là những giá trị tham chiếu, nó không
có nghĩa là những “tiêu chuẩn vàng” để ứng dụng.

1.3.2. Ví dụ


Ví dụ 1 – Cân nặng và vòng eo. Số liệu sau đây được trích ra từ một
nghiên cứu qui mô (trên 3000 người) ở Việt Nam về mối liên hệ giữa
các chỉ số nhân trắc và bệnh tiểu đường. Trọng lượng và vòng eo của
15 đối tượng được đo lường và kết quả như sau:







Trọng lượng
(weight; kg)
Vòng eo (waist;
cm)
51.0 71.0
66.0 89.0
47.0 64.0
54.0 74.0
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 16
64.0 87.0
75.0 93.0
54.0 66.0
52.0 74.0
53.0 75.0
52.0 72.0
48.0 70.0
46.0 66.0
63.0 81.0
40.0 57.0
90.0 94.0

Chú ý rằng cân nặng được tính bằng kg và vòng eo bằng cm. Biểu đồ 2 sau đây
thể hiện mối liên hệ giữa hai biến:

Biểu đồ 2. Mối tương quan giữa vòng eo
(waist) và cân nặng (weight) ở 15 đối tượng
người Việt được chọn ngẫu nhiên
Áp dụng công thức [1] trên chúng ta có thể mô tả hai biến này qua các chỉ số
thống kê như sau:
Trọng lượng trung bình:
Phương sai của trọng lượng trung bình:

PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 17
Vòng eo trung bình:
Phương sai vòng eo:

Và hiệp biến:

Tóm lại:
o n = 15
o Trọng lượng trung bình: = 57.0, độ lệch chuẩn: s
x
= 12.8 kg
o Vòng eo trung bình: = 75.5, độ lệch chuẩn: s
y
= 11.1 cm
o Hiệp biến của hai trọng lượng và vòng eo: Cov(x, y) = 71.2
Do đó, hệ số tương quan giữa trọng lượng và vòng eo (theo công thức [3]) là:

Dựa vào qui ước vừa đề cập trong phần trên, chúng ta có thể nói trong nhóm đối
tượng này, mối tương quan giữa cân nặng và vòng eo rất cao. Nếu mối tương
quan này được lặp lại ở một hay nhiều nhóm đối tượng khác, có thể sử dụng
vòng eo để tiên đoán trọng lượng.

1.3.3. Khoảnh tin cậy 95 % của hệ số tƣơng quan
Cũng như các thông số thống kê khác như số trung bình và độ lệch
chuẩn, hệ số tương quan cũng chịu ảnh hưởng của dao động giữa các
mẫu. Do đó, chúng ta cần phải ước tính khoảng tin cậy 95% của hệ số
tương quan. Xin nhắc lại rằng, chúng ta không biết hệ số tương quan thật
(tức là hệ số trong quần thể, và hãy gọi hệ số này là ρ) là bao nhiêu, nên
phải sử dụng hệ số r để ước tính ρ.
Muốn ước tính khoảng tin cậy 95% của ρ, chúng ta cần phải ước tính độ
lệch chuẩn của r.


PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 18
Lý thuyết thống kê cho biết độ lệch chuẩn của r là: . Khó khăn ở đây, như
công thức này cho thấy, là độ lệch chuẩn của r tùy thuộc vào r, tức là mất tính
độc lập. Do đó, cần phải tìm một phương pháp khác sao cho khách quan
hơn. Nhà thống kê học (và cũng là cha đẻ của khoa học thống kê hiện đại và
cha đẻ của lí thuyết di truyền hiện đại) Ronald A. Fisher chứng minh rằng thay
vì tính độ lệch chuẩn của r, có thể tính độ lệch chuẩn của một hàm số của r và sẽ
đạt được mục tiêu khách quan.
Theo phương pháp của Fisher, trước hết chúng ta cần phải hoán
chuyển r sang một chỉ số mới z, qua công thức sau đây:

Và, có thể chứng minh rằng độ lệch chuẩn của z là:

Do đó, khoảng tin cậy 95% của z là: z ± 1.96*s
z
. Tất nhiên, sau khi đã
ước tính được khoảng tin cậy 95% của z, chúng ta có thể hoán chuyển ngược lại
cho khoảng tin cậy 95% của ρ.

1.3.4. Kiểm định 2 hệ số tƣơng quan
Giả sử chúng ta có hai hệ số tương quan r1 và r2, là ước số của hai hệ số
ρ1 và ρ2 trong một quần thể. Hai hệ số r1 và r2 được ước tính từ hai
mẫu độc lập n1 và n2 đối tượng. Để kiểm định giả định rằng ρ1=ρ2
và giả định ρ1≠ρ2 , chúng ta trước hết cần phải hoán chuyển r thành
chỉ số z:

Gọi d = z
1
-z
2
, chúng ta có thể chứng minh rằng phương sai của d là:

Hay, nói cách khác, độ lệch chuẩn của d là:
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 19

Và kiểm định cho giả thuyết ρ
1

2
có thể tính toán chỉ số t như sau:

Có thể chứng minh rằng nếu giả thuyết ρ
1

2
là đúng thì t tuân theo luật
phân phối chuẩn với trung bình 0 và phương sai 1. Điều này có nghĩa là nếu giá
trị của t thấp hơn -2 hay cao hơn +2, chúng ta có thể nói hai hệ số tương quan
khác nhau có ý nghĩa thống kê.
1.4. Chuỗi thời gian
1.4.1 Định Nghĩa
- Chuỗi thời gian là tập hợp các giá trị của một biến ngẫu nhiên được sắp
xếp theo thứ tự thời gian
- Chuỗi thời gian còn được gọi là dãy số thời gian. Đơn vị thời gian có thế
là ngày, tháng, quý, năm
- Phân tích chuỗi thời gian có mục đích là làm rõ cấu trúc của chuỗi thời
gian( túc là các thành phần của nó) trong sự biến động của bản thân no.
Trên cơ sở đó có thể thẩy rõ bản chất cũng như quy luật của các hiện
tượng thông qua một chỉ tiêu cụ thể, từ đó có thể dự báo ngắn hạn giá trị
của chuôi đó.
- Phương pháp phân tích chuỗi thời gian có:
 Phương pháp phân rã
 Phương pháp Box – Renkins

1.4.2 Phƣơng pháp phân rã
 Phân tích xu thế
Đây là một phân tích liên quan đến chuỗi nhiều năm, do đó ta sẽ sử dụng
số liệu hàng năm để phân tích. Một cách tổng quát ta cần phải có một chuỗi
dài ra ít ra là 10-15 năm.
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 20

Để đánh giá yếu tố xu thế , phương pháp sử dụng phổ biến là:Phương pháp
bình phương tối thiểu (BPTT)
Đây là phương pháp cho phép xác định được đường cong ( thẳng ) hoặc
mặt phẳng ( Siêu mặt phẳng ) biểu thị xu thế số liệu, giới thiệu “tốt nhất “ số
liệu trong quá khứ ( “ gần với số liệu quan sát “).
Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời
gian dài là tuyến tính , phương trình sẽ xác định bởi
Y=a+bt
Trong đó t biểu thị thời gian ( năm ) và a,b chỉ các thong số được xác định
đường thẳng tính được từ phương án BPTT

Gọi Δy
i
là khoảng cách thẳng đứng từ điểm quan sát (t
i, ,
Y
i
) đến đường thẳng
cần xác định .Ta định nghĩa hàm mục tiêu
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 21
D =
1
N
i =
¿
ΔY
i
2 =
2
1
[ ( )]
N
i
i
Y a bt
=
÷ +
¿
->min
Đây là một hàm 2 biến a và b , để cho D cực trị ( với ý nghĩa vật lí của bài
toán ta biết đó là cực tiểu ) ta phải có
0
0
D
a
D
b
c
¦
=
¦
¦ c
´
c
¦
=
¦
c ¹

Từ đó:
[1]
0 )]. ( [ 2 = + ÷
¿ i i
i
i
t bt a y
[2]
Giải hệ phương trình trên ta có:
¿
¿
÷
÷
=
i
i
i
i
i
t N t
y t N y t
b
2 2
. ) (
. .

i i
t b y a ÷ =

N
t
N
t
t
n
t
N
i
i
+ +
=
= =
¿
.. 1
1

N-> tổng số quan trắc
Chú ý : Trong trường hợp xu thế không phải là tuyến tính , ta có thể xét đến
dạng đường cong hàm mũ y=ab
t
hoặc dạng parabol y = a + bt + ct
2

Các thông số a , b, c vẫn xác định dựa vào khái niệm bình phương tối thiểu
mà ta vừa nghiên cứu ở trên.


0 )] ( [ 2 = + ÷
¿ i
i
i
bt a y
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 22
CHƢƠNG 2: THU THẬP DỮ LIỆU ĐỂ PHÂN TÍCH
2.1 . Dữ liệu thu thập


Bảng diện tích gieo trồng một số cây hang năm từ năm 2000-2011


2.2 .Chọn phƣơng pháp để phân tích dữ liệu
- Đề tài : Phân tích diện tích gieo trồng một số cây hàng năm
- Tập dữ liệu nhóm 10 sưu tập gồm 7 đối tượng , 12 bộ dữ liệu được
lấy từ tổng cục thống kê .
- Lựa chọn phương pháp phân tích bài toán
+ Phương pháp phân tích đặc trưng
+ Phân tích hồi quy tuyến tính đơn, đa biến
+ Phân tích chuỗi thời gian
a) Phương pháp phân tích đặc trưng
Chúng ta tiến hành phân tích từng thành phần số liệu riêng của từng sản
lượng của từng yếu tốvà rút ra các bảng kết quả sau:
 Chú thích
- Count: Số lượng mẫu.
- Average: Số trung bình.
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 23
- Median: Trung vị.
- Mode: Số trội.
- Variance: Phương sai.
- Standard deviation: Độ lệch chuẩn.
- Coeff. of variation: Hệ số biến thiên.
- Standard Error: Sai số chuẩn.
- Minimum: Trị số quan sát bé nhất.
- Maximum: Trị số quan sát lớn nhất.
- Range: Độ biến thiên.
- Skewness: Độ lệch của phân bố.
- Kurtosis: Độ nhọn của phân bố.
Sum: Tổng các trị số quan sát
b) Phương pháp hồi quy tuyến tính đơn
Xét độ nghiêng của đồ thị để xem mô hình có thể chấp nhận Ho hay
Ha.
Tức là ta phải tính giá trị ttính và so sánh với giá trị t bảng :
- Nếu t tính> t bảng : chấp nhận Ha và kết luận mô hình đưa ra khá
thích hợp với dự báo
- Ngược lại nếu t tính< t bảng : chấp nhận Ho và kết luận mô hình
không có ý nghĩa, không đủ năng lực dự báo.
c) Phương pháp hồi quy tuyến tính đa biến
- Hàm hồi quy bộ tổng thể(PRF) : Y=

Trong đó:
+

: là hệ số tự do( hệ số chặn)
+

: là hệ số hồi qui riêng
: sai số ngẫu nhiên
- Hàm hồi quy mẫu(SRF):

̂

̂

̂

̂

̂

Trong đó:
+
̂

là ước lượng của giá trị trung bình của

đối với biến

đã biết
+
̂

là ước lượng của

ứng dụng trong StatGraphic -> Chương 3
d) Phân tích chuỗi thời gian
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 24
Dùng phương pháp chuỗi thời gian để dự đoán diện tích gieo trồng năm
tiếp theo của Ngô, Mía , Lạc …..
Sử dụng mô hình tuyến tính đơn và phân tích chuỗi thời gian để dự báo.
CHƢƠNG 3: PHÂN TÍCH VÀ DỰ BÁO QUA PHẦN MỀM
STARTGRAPHIC
3.1 Sử dụng phƣơng pháp phân tích đặc trƣng trong StatGraphics.
Bảng 3.1 phân tích đặc trưng diện tích gieo trồng của tất cả các loại cây
Y1 Y2 Y3 Y4 Y5 Y6
Count(Số lượng) 12 12 12 12 12 12
Average(TBC) 986.133 287.233 19.075 247.492 172.325 7450.03
Standard
deviation(Độ
lệch chuẩn)
152.392 18.0166 9.59385 12.5145 25.0367 129.848
Coeff. of
variation(Hệ số
phương sai)
15.4535% 6.27247% 50.2954% 5.05652% 14.5288% 1.74292%
Minimum(Giá trị
nhỏ nhất)
729.5 265.6 5.8 223.7 124.1 7207.4
Maximum(Giá trị
lớn nhất)
1140.2 320.0 34.1 269.6 204.1 7666.3
Range(Khoảng
nghiệm)
410.7 54.4 28.3 45.9 80.0 458.9
Stnd. Skewness
(Độ lệch của
phân bố)
-1.20044 0.696334 0.0508847 -0.146241 -0.980436 0.0310297
Stnd.
Kurtosis(Độ
nhọn của phân
bố)
-0.57605 -0.466673 -1.13117 0.336368 -0.410447 0.196333


3.1.1 Đặc trƣng diện tích gieo trồng Ngô

PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 25


Biểu đồ diện tích gieo trồng Ngô .
Quan sát hai biểu biểu đồ, ta thấy:
 Diện tích gieo trồng Ngô trải rộng từ hơn 729.5 (nghìn ha) tới gần
1140.2 (nghìn ha)
 Diện tích gieo trồng Ngô tập trung chủ yếu trong khoảng 870
(nghìn ha) đến 1110(nghìn ha)
 Diện tích gieo trồng Ngô chủ yếu là 1000(nghìn ha) cho đến
1100(nghìn ha)
 Điều này cho thấy diện tích gieo trồng ngô cao dần .
Dựa vào bảng mô tả đặc trưng của vùng(Cột 1, Bảng 3.1), ta thấy:
 Giá trị của độ lệch chuẩn khá lớn điều đó cho thấy diện tích gieo
trồng có xu hướng tản ra xung quanh giá trị trung bình.
 Giá trị độ lệch của phân bố có giá trị < 0 nên tập số liệu có xu
hướng lớn hơn giá trị trung bình và đồ thị phân bố có xu hướng
lệch trái so với giá trị trung bình.
 Giá trị độ nhọn của phân bố có giá trị < 0 nên tập số liệu có xu
hướng phân bố xung quanh giá trị trung bình.

3.1.2 Đặc trƣng diện tích gieo trồng Mía
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 26


Biểu đồ diện tích gieo trồng Mía.
Quan sát hai biểu biểu đồ, ta thấy:
 Diện tích gieo trồng Mía trải rộng từ hơn 265.6 (nghìn ha) tới gần
320.0 (nghìn ha)
 Diện tích gieo trồng Mía tập trung chủ yếu trong khoảng 270
(nghìn ha) đến 298(nghìn ha)
 Diện tích gieo trồng Mía chủ yếu là 260(nghìn ha) cho đến
288(nghìn ha)
 Điều này cho thấy diện tích gieo trồng Mía giảm dần .
Dựa vào bảng mô tả đặc trưng của vùng(Cột 2, Bảng 3.1), ta thấy:
 Giá trị của độ lệch chuẩn cũng tương đối nhỏ so với Ngô, điều đó
cho thấy diện tích gieo trồng có xu hướng tản ra xung quanh giá trị
trung bình không nhiều.
 Giá trị độ lệch của phân bố có giá trị> 0 nên tập số liệu có xu
hướng nhỏ hơn giá trị trung bình và đồ thị phân bố có xu hướng
lệch phải so với giá trị trung bình.
 Giá trị độ nhọn của phân bố có giá trị < 0 nên tập số liệu có xu
hướng phân bố xung quanh giá trị trung bình




PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 27
3.1.3 Diện tích gieo trồng Bông


Biểu đồ diện tích gieo trồng Bông .
Quan sát hai biểu biểu đồ, ta thấy:
 Diện tích gieo trồng Bông trải rộng từ hơn 5.8 (nghìn ha) tới gần
34.1 (nghìn ha)
 Diện tích gieo trồng Bôngtrung chủ yếu trong khoảng 10 (nghìn ha)
đến 32(nghìn ha)
 Diện tích gieo trồng Bông chủ yếu là 10(nghìn ha) cho đến
17(nghìn ha)
 Điều này cho thấy diện tích gieo trồng Bông không ổn định .
Dựa vào bảng mô tả đặc trưng của vùng(Cột 3, Bảng 3.1), ta thấy:
 Giá trị của độ lệch chuẩn cũng tương đối nhỏ so với Ngô và Mía,
điều đó cho thấy diện tích gieo trồng có xu hướng tản ra xung
quanh giá trị trung bình rất ít.
 Giá trị độ lệch của phân bố có giá trị xấp xỉ 0.06 nên tập số liệu có
xu hướng cân bằng với giá trị trung bình và đồ thị phân bố có xu
hướng cân bằng so với giá trị trung bình.
 Giá trị độ nhọn của phân bố có giá trị < 0 nên tập số liệu có xu
hướng phân bố xung quanh giá trị trung bình



PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 28
3.1.4 Diện tích gieo trồng Lạc


Biểu đồ diện tích gieo trồng Lạc
Quan sát hai biểu biểu đồ, ta thấy:
 Diện tích gieo trồng Lạc trải rộng từ hơn 223.7 (nghìn ha) tới gần
269.6 (nghìn ha)
 Diện tích gieo trồng Lạc trung chủ yếu trong khoảng 246 (nghìn ha)
đến 256(nghìn ha)
 Diện tích gieo trồng Lạc chủ yếu là 244(nghìn ha) cho đến
258(nghìn ha)
 Điều này cho thấy diện tích gieo trồng Lạc không ổn định .
Dựa vào bảng mô tả đặc trưng của vùng(Cột 4, Bảng 3.1), ta thấy:
 Giá trị của độ lệch chuẩn cũng tương đối nhỏ so với Ngô và Bông,
điều đó cho thấy diện tích gieo trồng có xu hướng tản ra xung
quanh giá trị trung bình rất ít.
 Giá trị độ lệch của phân bố có giá trị < 0 nên tập số liệu có xu
hướng lớn hơn giá trị trung bình và đồ thị phân bố có xu hướng
lệch trái so với giá trị trung bình.
 Giá trị độ nhọn của phân bố có giá trị > 0 nên tập số liệu có xu
hướng phân bố tản ra xa giá trị trung bình .



PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 29
3.1.5 Diện tích gieo trồng Đậu tƣơng

Biểu đồ diện tích gieo trồng Đậu tương
Quan sát hai biểu biểu đồ, ta thấy:
 Diện tích gieo trồng Đậu tương trải rộng từ hơn 124.1 (nghìn ha)
tới gần 204.1 (nghìn ha)
 Diện tích gieo trồng Đậu tương trung chủ yếu trong khoảng 155
(nghìn ha) đến 190(nghìn ha)
 Diện tích gieo trồng Đậu tương chủ yếu là 180(nghìn ha) cho đến
200(nghìn ha)
 Điều này cho thấy diện tích gieo trồng Đậu tương tăng dần rùi lại
giảm mạnh .
Dựa vào bảng mô tả đặc trưng của vùng(Cột 5, Bảng 3.1), ta thấy:
 Giá trị của độ lệch chuẩn cũng khá lớn so với Lạc và Bông, điều đó
cho thấy diện tích gieo trồng có xu hướng tản ra xung quanh giá trị
trung bình cũng khá cao.
 Giá trị độ lệch của phân bố có giá trị < 0 nên tập số liệu có xu
hướng lớn hơn giá trị trung bình và đồ thị phân bố có xu hướng
lệch trái so với giá trị trung bình.
 Giá trị độ nhọn của phân bố có giá trị < 0 nên tập số liệu có xu
hướng phân bố xung quanh giá trị trung bình .



PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 30
3.1.6 Diện tích gieo trồng Lúa

Biểu đồ diện tích gieo trồng Lúa
Quan sát hai biểu biểu đồ, ta thấy:
 Diện tích gieo trồng Lúa trải rộng từ hơn 7207.4 (nghìn ha) tới gần
7666.3 (nghìn ha)
 Diện tích gieo trồng Lúa chủ yếu là 7367(nghìn ha) cho đến
7532(nghìn ha)
 Điều này cho thấy diện tích gieo trồng Lúa tăng dần rùi lại giảm
nhẹ .
Dựa vào bảng mô tả đặc trưng của vùng(Cột 5, Bảng 3.1), ta thấy:
 Giá trị của độ lệch chuẩn rất lớn, điều đó cho thấy diện tích gieo
trồng có xu hướng tản ra xung quanh giá trị trung bình.
 Giá trị độ lệch của phân bố có giá trị > 0 nên tập số liệu có xu
hướng lớn hơn giá trị trung bình và đồ thị phân bố có xu hướng
lệch trái so với giá trị trung bình.
 Giá trị độ nhọn của phân bố có giá trị > 0 nên tập số liệu có xu
hướng phân bố xung quanh giá trị trung bình .

3.2 Sử dụng phƣơng pháp hồi quy đơn biến trong StatGraphics.
3.2.1 Áp dụng hồi quy đơn biến xét sự thay đổi diện tích gieo trồng
ngô qua cá năm.
Trong STATGRAPHIC:
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 31
Để phân tích hồi quy đơn biến ta làm như sau: vào Improve
=>Regression Analysis => One factor => Simple Regression
Chọn biến Tổng Diện Tích và Diện Tích Lúa ta được kết quả:
Dependent variable: Y (Tong Dien Tich)
Independent variable: X1 (Lúa)
Linear model: Y = a + b*X

Coefficients
Least
Squares
Standar
d
T
Paramete
r
Estimate Error Statistic P-Value
Intercept 6466,46 2402,61 2,69144 , 226
Slope ,361854 ,322451 1,1222 ,2880

Analysis of Variance
Source Sum of
Squares
Df Mean
Square
F-
Ratio
P-Value
Model 24284,5 1 24284,5 1,26 ,2880
Residual 192837, 10 19283,7
Total
(Corr.)
217122, 11

Correlation Coefficient = ,334436
R-squared = 11,1848 percent
R-squared (adjusted for d.f.) = 2,30324 percent
Standard Error of Est. = 138,866
Mean absolute error = 99,6254
Durbin-Watson statistic = ,473955 (P=, 1)
Lag 1 residual autocorrelation = ,565032

The StatAdvisor
The output shows the results of fitting a linear model to describe
the relationship between Y and X1. The equation of the fitted
model is

Y = 6466,46 + ,361854*X1
Trong đó :
- Correlation Coefficient: Hệ số tương quan
- R-squared: hệ số xác định (bình phương R)
- Standard Error of Est: độ lệch chuẩn
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 32
- Mean absolute erro: Sai số trung bình tuyệt đối.


Từ kết quả trên, ta thấy mô hình tương quan Diện tích Lúa và Tổng
Diện Tích có dạng:
Y = 6466,46 + ,361854*X1

hệ số tương quan R = 0,334436, cho thấy “Diện Tích Ngô” và “Tổng
Diện Tích” có dấu hiệu tương quan với nhau.

Ta sẽ sử dụng phân tích hổi quy đơn bội để xét khả năng dự báo của
mô hình:
Giả Thiết:
+ Ho : B=0
+ Ha : B #0
Sử dụng chuẩn t với : độ tin cậy 95%
+ df = (n-2) =(12-2)= 10
+ α/2 = 0.025
+ Sử dụng bảng tra ta được giá trị
T tính = 1,1222
T bảng = 2.228
So sánh ttính với tbảng
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 33
Ta thấy Ttính < Tbảng --> chấp nhận H0
Kết Luận : Mô hình không có ý nghĩa, không đủ năng lực dự báo.

3.2.2 Áp dụng hồi quy đơn biến xét sự thay đổi diện tích gieo
trồng Ngô qua các năm.
Dependent variable: Y (Tong Dien Tich)
Independent variable: X2 (Ngô)
Linear model: Y = a + b*X

Coefficients
Least
Squares
Standard T
Parame
ter
Estimate Error Statistic P-Value
Intercep
t
8534,63 210,247 40,5933 , 0
Slope ,636483 ,210908 3,01783 , 129

Analysis of Variance
Source Sum of
Squares
Df Mean
Square
F-
Ratio
P-Value
Model 103489, 1 103489, 9,11 , 129
Residual 113633, 10 11363,3
Total
(Corr.)
217122, 11

Correlation Coefficient = ,690391
R-squared = 47,6639 percent
R-squared (adjusted for d.f.) = 42,4303 percent
Standard Error of Est. = 106,599
Mean absolute error = 73,2264
Durbin-Watson statistic = 1,08382 (P=, 161)
Lag 1 residual autocorrelation = ,214159

The StatAdvisor
The output shows the results of fitting a linear model to describe the
relationship between Y and X2. The equation of the fitted model is

Y = 8534,63 + ,636483*X2

Trong đó :
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 34
- Correlation Coefficient: Hệ số tương quan
- R-squared: hệ số xác định (bình phương R)
- Standard Error of Est: độ lệch chuẩn
- Mean absolute erro: Sai số trung bình tuyệt đối.


Từ kết quả trên, ta thấy mô hình tương quan Diện tích Lạc và năm có
dạng:
Y = 8534,63 + ,636483*X2

hệ số tương quan R = 0,690391, cho thấy “Diện Tích Ngô” và “Tổng
Diện Tích Gieo Trồng” Có dấu hiệu tương quan.

Ta sẽ sử dụng phân tích hổi quy đơn bội để xét khả năng dự báo của
mô hình:
Giả Thiết:
+ Ho : B=0
+ Ha : B #0
Sử dụng chuẩn t với : độ tin cậy 95%
+ df = (n-2) =(12-2)= 10
+ α/2 = 0.025
+ Sử dụng bảng tra ta được giá trị
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 35
T tính = 3,01783
T bảng = 2.228
So sánh ttính với t bảng
Ta thấy T tính > T bảng --> chấp nhận Ha
Kết luận: “Tổng Diện Tích Gieo Trồng” góp phần dự báo tới “Diện
Tích Ngô”, mô hình trên có năng lực dự báo tốt.

Bây giờ ta sẽ sử dụng mô hình này để đưa ra 1 số dự báo về Diện tích
gieo trồng ngô.
Sử dụng Statgraphics
+ Trong thanh chọn : chọn Table -> chọn bảng forecasts
Xuất hiện bảng Predicted Values
Muốn dự báo cho giá trị nào thì click chuột phải, chọn Pane Option
hiện ra cửa sổ Forecasts Options, Nhập giá trị của tham số vào để
nhận được giá trị dự báo tương ứng.



Sau khi nhập vào 767,0 và 1180,0 vào ta có kết quả dự đoán sau:
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 36

3.3 Sử dụng phƣơng pháp hồi quy đa biến trong StatGraphics.
Sử dụng StatGraphics ta bấm chọn như sau :


Multiple Regression - Y
Dependent variable: Y (Tong Dien Tich)
Independent variables:
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 37
X1 (Ngo)
X2 (Mia)
X3 (Bong)
X4 (Lac)
X5 (Dau Tuong)
X6 (Lua)

Standard T
Parameter Estimate Error Statistic P-Value
CONSTANT 7.7307E-11 0.00325501 2.37502E-8 1.0000
X1 1.0 5.0346E-7 1.98625E6 0.0000
X2 1.0 0.00000221619 451225. 0.0000
X3 1.0 0.00000
543244
184079. 0.0000
X4 1.0 0.00000
313083
319404. 0.0000
X5 1.0 0.00000
215615
463791. 0.0000
X6 1.0 3.00924
E-7
3.3231E6 0.0000

Analysis of Variance

Source Sum of
Squares
Df Mean
Square
F-Ratio P-Value
Model 217122. 6 36186.9 55781657
96490.75
0.0000
Residual 3.24362E-8 5 6.48724E-
9

Total
(Corr.)
21712
2.
11




R-squared = 100.0 percent
R-squared (adjusted for d.f.) = 100.0 percent
Standard Error of Est. = 0.0000805434
Mean absolute error = 0.0
Durbin-Watson statistic =
Lag 1 residual autocorrelation =

The StatAdvisor
The output shows the results of fitting a multiple linear regression model
to describe the relationship between Y and 6 independent variables. The
equation of the fitted model is
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 38

Y = 7.7307E-11 + 1.0*X1 + 1.0*X2 + 1.0*X3 + 1.0*X4 + 1.0*X5 +
1.0*X6
Từ kết quả trên ta thấy mô hình tương quan giữa Diện tích các loại cây
và độ ẩm ảnh hưởng tới tổng có dạng :
Y = 7.7307E-11 + 1.0*X1 + 1.0*X2 + 1.0*X3 + 1.0*X4 + 1.0*X5 +
1.0*X6
Hệ số xác định R-squared = 100 percent. Cho thấy mô hình có năng lực
dự báo tốt
Ta sẽ đi kiểm tra năng lực dự báo của mô hình như sau:

Giả thiết:
Ho : B1 = B2 =…=Bk = 0
Ha : Tại ít nhất 1 Bi # 0
Sử dụng chuẩn F: với độ tin cậy 95%
Fα = 0,05
n1 = k = 2
n2 = n -(k+1) = 12 –(2+1) = 9
Ftính = 5578165796490.75
Fbảng = 4.26
So sánh Ftính với Fbảng:
Ftính >>Fbảng  bác bỏ Ho, chấp nhận Ha
Kết luận:
Có ít nhất một trong các hệ số mô hình B1 và B2 khác 0.Do đó, kiểm tra
này cho thấy F mô hình bậc hai
rất hữu ích để dự đoán tổng diện tích các năm.
3.4 Sử dụng phương pháp phân tích chuỗi thời gian trong StatGraphics.
3.4.1 Phân tích chuỗi thời gian dự báo diện tích Ngô

PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 39

Biểu đồ diện tích gieo trồng Ngô từ năm 2000-2011
Nhận định: Dựa vào biểu đồ ta nhận thấy số diện tích gieo trồng
Ngô có biến đổi theo tuần tự chu kỳ. Ta có thể dử dụng mô hình
phân tích chuỗi thời gian để dự báo diện tích Ngô vào một năm
tiếp theo.
Sử dụng phân tích chuỗi thời gian để dự báo diện tích gieo trồng
Ngô 2 năm tiếp theo.

PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 40


Dựa vào kết quả phân tích chuỗi thời gian sử dụng StatGraphics ta có
được:
 Diện tích gieo trồng Ngô dự báo năm 2012 là: 1152.39 nghìn ha .
 Với độ tin cậy 95%, số giờ nắng dự báo có thể dao động trong
khoảng từ 1044.9-1260.27(nghìn ha).

3.4.2 Phân tích chuỗi thời gian dự báo diện tích Mía
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 41

Biểu đồ diện tích gieo trồng Mía từ năm 2000-2011
Nhận định: Dựa vào biểu đồ ta nhận thấy số diện tích gieo trồng
Mía có biến đổi theo tuần tự chu kỳ. Ta có thể dử dụng mô hình
phân tích chuỗi thời gian để dự báo diện tích Ngô vào một năm
tiếp theo.
Sử dụng phân tích chuỗi thời gian để dự báo diện tích gieo trồng
Mía 2 năm tiếp theo.


Dựa vào kết quả phân tích chuỗi thời gian sử dụng StatGraphics ta có
được:
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 42
 Diện tích gieo trồng Mía dự báo năm 2012 là: 279.391 nghìn ha .
 Với độ tin cậy 95%, số giờ nắng dự báo có thể dao động trong
khoảng từ 238.723-320.059(nghìn ha).
3.4.3 Phân tích chuỗi thời gian dự báo diện tích Bông

Biểu đồ diện tích gieo trồng Bông từ năm 2000-2011
Nhận định: Dựa vào biểu đồ ta nhận thấy số diện tích gieo trồng
Bông có biến đổi theo tuần tự chu kỳ. Ta có thể dử dụng mô hình
phân tích chuỗi thời gian để dự báo diện tích Bông vào một năm
tiếp theo.
Sử dụng phân tích chuỗi thời gian để dự báo diện tích gieo trồng
Bông 2 năm tiếp theo.

PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 43
Dựa vào kết quả phân tích chuỗi thời gian sử dụng StatGraphics ta có
được:
 Diện tích gieo trồng Bông dự báo năm 2012 là: 8.56364 nghìn ha
 Với độ tin cậy 95%, số giờ nắng dự báo có thể dao động trong
khoảng từ -3.97283-21.1001 (nghìn ha).


3.4.4 Phân tích chuỗi thời gian dự báo diện tích Lạc

Biểu đồ diện tích gieo trồng Lạc từ năm 2000-2011
Nhận định: Dựa vào biểu đồ ta nhận thấy số diện tích gieo trồng
Lạc có biến đổi theo tuần tự chu kỳ. Ta có thể dử dụng mô hình
phân tích chuỗi thời gian để dự báo diện tích Lạc vào một năm tiếp
theo.
Sử dụng phân tích chuỗi thời gian để dự báo diện tích gieo trồng
Lạc 2 năm tiếp theo.
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 44

Dựa vào kết quả phân tích chuỗi thời gian sử dụng StatGraphics ta có
được:
 Diện tích gieo trồng Bông dự báo năm 2012 là: 221.773nghìn ha
 Với độ tin cậy 95%, số giờ nắng dự báo có thể dao động trong
khoảng từ 195.989 -247.577 (nghìn ha).

3.4.5 Phân tích chuỗi thời gian dự báo diện tích đậu tƣơng

Biểu đồ diện tích gieo trồng đậu tương
Nhận định: Dựa vào biểu đồ ta nhận thấy số diện tích gieo trồng
đậu tương có biến đổi theo tuần tự chu kỳ. Ta có thể dử dụng mô
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 45
hình phân tích chuỗi thời gian để dự báo diện tích đậu tương vào
một năm tiếp theo.
Sử dụng phân tích chuỗi thời gian để dự báo diện tích gieo trồng
đậu tương 2 năm tiếp theo.

Dựa vào kết quả phân tích chuỗi thời gian sử dụng StatGraphics ta có
được:
 Diện tích gieo trồng Bông dự báo năm 2012 là: 186.718nghìn ha
 Với độ tin cậy 95%, số giờ nắng dự báo có thể dao động trong
khoảng từ 130.624 -242.813 (nghìn ha).


3.4.6 Phân tích chuỗi thời gian dự báo diện tích lúa
PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 46

Biểu đồ diện tích gieo trồng Lúa từ năm 2000-2011

Nhận định: Dựa vào biểu đồ ta nhận thấy số diện tích gieo trồng
Lúa có biến đổi theo tuần tự chu kỳ. Ta có thể dử dụng mô hình
phân tích chuỗi thời gian để dự báo diện tích Lúa vào một năm tiếp
theo.
Sử dụng phân tích chuỗi thời gian để dự báo diện tích gieo trồng
Lúa 2 năm tiếp theo.




PHÂN TÍ CH THỐNG KÊ SỐ LI ỆU...DI ỆN TÍ CH GI EO TRỒNG MỘT SỐ CÂY HÀNG NĂM
NHÓM 10… KHMT1_K5 47
Dựa vào kết quả phân tích chuỗi thời gian sử dụng StatGraphics ta có
được:
 Diện tích gieo trồng Bông dự báo năm 2012 là: 7650.05nghìn ha
 Với độ tin cậy 95%, số giờ nắng dự báo có thể dao động trong
khoảng từ 7398.15 -7901.94 (nghìn ha).



TÀI LIỆU THAM KHẢO
[1]. Website Tổng cục thống kê:
[2]. Hướng dẩn sử dụng StatGraphics – Võ tấn thành (Đại học cần thơ)
[3] .Bài giảng Phương pháp định lượng trong quản lý – TS. Phạm Cảnh Duy