You are on page 1of 10

CÁC ĐẶC TRƯNG SỐ CỦA BIẾN NGẪU NHIÊN

Định nghĩa 1. Biến ngẫu nhiên


Là 1 biến, mà giá trị biến này nhận không chắc chắn là bao nhiêu. Biến này nhận mỗi giá trị với
1 xác suất nhất định.
Ví dụ 1: Tung 1 con xúc xắc, gọi X là số chấm xuất hiện. Ta không biết chắc X nhận giá trị nào
nhưng ta biết X  1,2, 3, 4, 5, 6 và nếu con xúc xắc cân đối và đồng chất thì
1
 
P X  i  , i  1,2,..., 6 .
6

Định nghĩa 2. Biến ngẫu nhiên liên tục và Biến ngẫu nhiên rời rạc
Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà tập giá trị của nó là hữu hạn hoặc đếm đươc.
Trong ví dụ 1, X chỉ nhận 1 trong 6 giá trị nên X là BNN rời rạc.
Nếu ta gọi X là số lần tung con xúc xắc cho đến khi xuất hiện mặt 6 chấm:

 
X  1,2, 3, 4,5,6,.... . Khi đó tập giá trị của X là đếm được vì vậy X là BNN rời rạc.

Biến ngẫu nhiên liên tục là BNN mà tập giá trị của nó lấp đầy 1 khoảng nào đó của trục số.
Ví dụ 2. Tuổi thọ của những chiếc bóng đèn, tuổi thọ của một người nào đó, tầm bay xa của
một tên lửa, đạn pháo, nhiệt độ trong phòng 1 ngày nào đó trong tuần là các BNN liên tục.
ĐO XU HƯỚNG TRUNG TÂM CỦA DỮ LIỆU
Dữ liệu vốn tản mát và phân bố xung quanh một số điểm nhất định, những điểm đó được gọi là
những đặc tính trung tâm của dữ liệu ngoài ra người ta cũng quan tâm mức độ phân tán của dữ
liệu xung quanh các điểm trung tâm đó.
n

x i x 1  x 2  ...  x n  x
Giá trị trung bình (Mean): x  i 1
 
n n n

Nếu dữ liệu cho dưới dạng bản tần số

Dữ liệu x Tần số
x1 f1
x2 f2
x3 f3
… …
xk fk
Khi đó giá trị trung bình được tính bởi công thức:
k

fx i i f1x 1  f2x 2  ...  fk x k


x  i 1

k
f1  f2  ...  fk
f
i 1
i

Ví dụ 3. Tính giá trị trung bình trong các dãy số liệu sau:

Giải:
23  46  45  45  29  51  36  41  37  47  45  44  41  31  33
i. x 
15
Casio 570 Mode 3 1
Nhập dữ liêu
Nhấn on
Shift 1 4 2 = Ta thu được x  39, 6
ii. và iii. Làm tương tự
Giá trị trung bình là đại diện trung tâm cho tập dữ liệu. Khi không có thông tin khác về giá
trị của một biến ngẫu nhiên thì ta có thể lấy giá trị trung bình làm giá trị của biến ngẫu nhiên
đó.
Trung vị (Median)
- Sắp xếp tập dữ liệu theo thứ tự tăng dần, giá trị nằm giữa của tập dữ liệu đó được gọi là
Trung vị
- Nếu có n dữ liệu mà n lẻ thì giá trị trung vị sẽ là m  x n 1 , nếu n chẵn thì trung vị sẽ là
2

xn  xn
1
trung bình cộng của 2 giá trị nằm giữa x n và x n : m  2 2

2 2
1 2
Ví dụ 4. Tính giá trị trung vị trong các dãy số liệu sau:
Giải:
i. Sắp xếp dữ liệu theo thứ tự tăng dần:
23 29 31 33 36 37 41 41 44 45 45 45 46 47 51
n  1 15  1
n=15, giá trị trung vị sẽ ở vị trí thứ   8 tức là giá trị 41
2 2
ii. Sắp xếp dữ liệu theo thứ tự tăng dần:

xn  xn x 20  x 20
1 1 x 10  x 11 122  122
n=20, giá trị trung vị m  2 2
 2 2
   122
2 2 2 2
iii. Sắp xếp dữ liệu theo thứ tự tăng dần:

11222233334455555566666666677777777888 99
n=40, nên giá trị trung vị được tính bởi:
xn  xn x 40  x 40
1 1 x 20  x 21 6  6
m 2 2
 2 2
  6
2 2 2 2

Mode là 1 đặc trưng trung tâm, nó cho biết giá trị nào được xuất hiện nhiều nhất trong mẫu
Ví dụ 5. Tìm mode trong các dãy số liệu sau:
Giải:
i. Mode của dãy số liệu là 45 với tần suất xuất hiện là 3
ii. Dãy số này có 2 mode là 116 và 132
iii. Mode là giá trị 6 với tần suất xuất hiện là 6.
Bài tập số 2.
a. Tìm Mode, trung bình, trung vị cho các dãy số liệu dưới đây.
b. Hãy cho biết giá trị nào (Mode, trung bình, trung vị), nêu lý do tại sao, đại diện phù hợp
nhất cho phân bố của dữ liệu.

Giải:
i. Dữ liệu cho dưới dạng năm và tháng nên giá trị trung bình không khả thi vì 14.11 về
mặt ý nghĩa lớn hơn 14.9 nhưng về mặt số học thì 14.11<14.9 cho nên giá trị trung
bình không đại diện cho phân bố.
Giá trị trung vị cũng vậy, vì dữ liệu là năm và tháng nên trung bình cộng giữa 2 giá trị
thứ 15 và 16 không có ý nghĩ. Vì vậy tập dữ liệu này lấy Mode để đại diện cho giá trị
trung tâm. Mode =14.8

ii. Giá trị trung bình: x  52, 833 , giá trị trung vị: n=30
xn  xn x 30  x 30
1 1 x 15  x 16 57  59
m 2 2
 2 2
   58
2 2 2 2
Mode của dữ liệu là 0.
Rõ ràng Mode không đại diện cho tập dữ liệu
Vì có nhiều giá trị ngoại lai (4 giá trị 0, 1 giá trị 100 – bị lệch phân bố) nên giá trị
trung bình có xu hướng lệch về giá trị nhỏ vì vậy trung bình cũng không đại diện cho
dữ liệu. Trong tập dữ liệu này thì median là đại diện tốt nhất cho phân bố của dữ liệu

iii.
Giá trị trung bình: x  29, 4 , giá trị trung vị: n=30
xn  xn x 30  x 30
1 1 x 15  x 16 19  21
m 2 2
 2 2
   20
2 2 2 2
Mode của dãy số liệu là 0 và 21 với tần suất xuất hiện là 3.
Ta thấy các dữ liệu nhỏ chiếm số lượng nhiều, tuy nhiên lại có 2 giá trị rất lớn so với
phần dữ liệu còn lại làm giá trị trung bình lệch hẳn sang bên phải (29,4) so với trung
vị (20). Ngoài ra trung vị và mode khá gần nhau cho nên trong tập số liệu này thì
trung vị và mode sẽ đại diện cho phân bố.
PHƯƠNG SAI VÀ ĐỘ LỆCH TIÊU CHUẨN
Để đại diện cho mức độ phân tán xung quanh giá trị trung bình thì người ta đưa ra 2
khái niệm là Phương sai và độ lệch tiêu chuẩn
n

 x 
2
i
x
Phương sai được kí hiệu bởi s 2  i 1
n
Căn bậc 2 của phương sai người ta gọi là độ lệch tiêu chuẩn s
Ví dụ
x  1.1
     
2 2 2
2. 0  1.1  5 1  1.1  3 2  1.1
s2 
253
2.1,21  5.0, 01  3.0, 81
  0, 49
10
s  0, 7

Phương sai là 0,49 độ lệch tiêu chuẩn là 0,7

Độ lệch tiêu chuẩn có thể được tính bởi:

Khi đó trung bình (mean):

x 
x 960
  16
n 60
Độ lệch tiêu chuẩn:
s x 2
f
x2 
18000
 162  300  256  44
n 60
Ví dụ 1.8. Là một phần công việc của người kiểm soát chất lượng, Stella đã thu thập dữ
liệu liên quan đến tuổi thọ của một mẫu gồm 60 bóng đèn do công ty của cô sản xuất.
Tuổi thọ trung bình là 650 giờ và độ lệch chuẩn là 8 giờ. Mẫu thứ hai gồm 80 bóng đèn
được Sol lấy và cho kết quả tuổi thọ trung bình là 660 giờ và độ lệch chuẩn là 7 giờ.
Tìm giá trị trung bình tổng thể và độ lệch chuẩn.
Giải:
Mẫu thứ nhất: n1  60; x 1  650, s1  8
Mẫu thứ nhất: n2  80; x 2  660, s2  7
Bài toán đặt ra: Mẫu gộp gồm 140 bóng đèn, cần phải tính giá trị trung bình và độ lệch
tiêu chuẩn của mẫu gộp.
Ta có
n1  60; x 1  650, s1  8
60

x i 60
i 1

60

 650 
i 1
x i  60 * 650

n2  80; x 2  660, s2  7
140

x i 140
i 61

80
 660  x
i 61
i
 80 * 660
140 60 140

 xi 
i 1
x
i 1
i
  x i  60 * 650  80 * 660  91800
i 61
140

x i
91800
x  i 1
  655, 714
140 140
60 60 60

x 2
x 2
x 2

   
i 2 i 2 i 60
s1  8  i 1

60
 x 1
8 i 1

60
 x 1
 64  i 1

60
 64  650 
2
x
i 1
2
i
 25353840
140 140 140

 x i2  x i2 x 2

   
2 2 i 140
s2  7  i 61

80
 x2 7 i 61

80
 x2  49  i 61

80
 49  6602  x
i 61
2
i
 34851920
140 60 140
 x
i 1
2
i
 x
i 1
2
i
  x i2  25353840  34851920  60205760
i 61
140

x 2
i
60205760
 
2
s i 1
 x   655, 7142  8, 96
140 140
Các tập dữ liệu có thể chứa các giá trị cực hạn (các giá trị quá lớn hoặc quá nhỏ) và khi
điều này xảy ra, bạn sẽ phải đối mặt với vấn đề làm thế nào để xử lý chúng.
Nhiều bộ dữ liệu là các mẫu được lấy từ quần thể cha mẹ có phân phối chuẩn. Bạn sẽ
tìm hiểu thêm về phân phối chuẩn trong Chương 7. Trong những trường hợp này, xấp
xỉ:
● 68% giá trị nằm trong khoảng 1 độ lệch chuẩn so với giá trị trung bình (68% các giá
trị thống kê được nằm trong khoảng x  s; x  s  ) – Quy tắc 1 sigma
● 95% nằm trong khoảng 2 độ lệch chuẩn của giá trị trung bình
(95% các giá trị thống kê được nằm trong khoảng x  2s; x  2s  )- Quy tắc 2 sigma

● 99,75% nằm trong khoảng 3 độ lệch chuẩn so với giá trị trung bình.
(95% các giá trị thống kê được nằm trong khoảng x  3s; x  3s  ) – Quy tắc 3 sigma
Nếu một giá trị cụ thể lớn hơn hai độ lệch chuẩn so với giá trị trung bình thì giá trị đó
cần được điều tra vì có thể không thuộc tập dữ liệu. Nếu nó lớn hơn ba độ lệch chuẩn
so với giá trị trung bình thì trường hợp điều tra thậm chí còn mạnh hơn.

Áp dụng trong biểu đồ giá cả: Nếu ta quan sát dải Bollinger band 3 sigma, thì khi giá
cả chạm band dưới thì 99,75% sẽ đi lên trong 1-2 phiên tới, khi giá cả chạm band trên
thì 99,75% sẽ đi xuống trong 1-2 phiên tới.
Bài tập 8. Ở một huyện nọ, lượng mưa trung bình hàng năm là 80 cm, với độ lệch chuẩn
4 cm.
(i) Một năm nó là 90 cm. Đây có phải là một năm đặc biệt?
(ii) Năm tiếp theo có tổng cộng 78 cm. Điều đó có đặc biệt không?
Jake, một nhà khí tượng học nghiệp dư ở địa phương, đã ghi lại lượng mưa hàng tuần
trong khu vườn của mình. Bộ dữ liệu đầu tiên của ông, bao gồm số liệu của 20 tuần,
cho kết quả lượng mưa trung bình hàng tuần là 1,5 cm. Độ lệch chuẩn là 0,1 cm.
Bộ dữ liệu thứ hai của ông, trong 32 tuần, cho kết quả trung bình là 1,7 cm và độ lệch
chuẩn là 0,09 cm.
(iii) Tính giá trị trung bình chung và độ lệch chuẩn chung cho cả năm.
(iv) Ước tính lượng mưa hàng năm trong khu vườn của Jake.
Giải
i. Theo đề bài lượng mưa trung bình hàng năm là x  80, s  4
Và như vậy 95% lượng mưa của một năm sẽ thuộc khoảng

x  2s; x  2s    80  2.4; 80  2.4   72, 88  , lượng mưa là 90 sẽ là 1 năm đặc biệt.


ii. Khi lượng mưa 1 năm là 78 thuộc khoảng đã xét ở trên nên năm này là 1 năm
bình thường.
iii. Tính giá trị trung bình chung và độ lệch chuẩn chung (theo tuần) cho cả năm.
x 1 * n1  x 2 * n 2 1, 5 * 20  1, 7 * 32
x    1, 62 cm
n1  n 2 20  32
20 52

 xi2 x 2

   
20 i 52
s1 = i 1

n1
 x 12   xi2  n1 s12  x12 ; s2 =
i 1
i 21

n2
 x 22  x
i 21
2
i
 n2 s22  x 22

52

x 2
 x * n1  x 2 * n2 
2

   n s  x   s 
52 i

x 2
i
 n1 s  x 2
1
2
1 2
2
2
2
2
i 1
 1
n1  n2  n1  n 2

i 1 



n1 s12  x 12   n s  x    x * n  x
2
2
2
2
2 1 1 2
* n2 

2

n1  n 2  n1  n 2
 

 
20 0,12  1, 52  32 0, 092  1, 72  
1, 62
2
Thay số: s   0,168
52
iv. Một năm có 52 tuần, nên lượng mưa trung bình hàng năm của vườn nhà jake là
52*1,62=84,24 cm
Bài 12
Giải
i. ii.

 x  26,231 * 120  3174.72


 x  n s  x   120  4, 023 
n
2
i
2 2 2
 26,2312  84509, 99
i 1

iii.
n=120+80=200

 x  n x  n x  120 * 26,231  80 * 25,214  5164, 84


1 1 2 2

 x  n s  x   n s  x   120  4, 023  26,231   80  3, 841 


n
2
i 1
2
1
2
1 2
2
2
2
2
2 2 2
 25,2142  136549, 913
i 1

5164, 84
x   25, 8242
200
n

x 2
i
136549, 913  5164, 84 
2

 
2
s i 1
 x     3, 98
n1  n 2 200  200 

You might also like