You are on page 1of 28

Statistics

Đỗ Xuân Anh

Đại học Khoa học Tự nhiên


doxuananh99@gmail.com

Ngày 20 tháng 4 năm 2019

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 1 / 28


Overview

Describe a Single Set


Central Tendencies
Dispersion
Correlation

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 2 / 28


Describing a Single Set of Data

Liệt kê

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 3 / 28


Describing a Single Set of Data

Liệt kê
1 from c o l l e c t i o n s i m p o r t C o u n t e r
2
3 #C r e a t e a l i s t
4 num_friends =
[100 ,49 ,41 ,40 ,25 ,21 ,21 ,19 ,19 ,18 ,18 ,16 ,15 ,15 ,15 ,15 ,14 ,14 ,13 ,1

5 f r i e n d s _ c o u n t s= C o u n t e r ( n u m _ f r i e n d s )
6 print ( friends_counts )

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 4 / 28


Counter(6: 22, 1: 22, 4: 20, 3: 20, 9: 18, 5: 17, 2: 17, 10: 15, 7: 15, 8: 13,
15: 4, 13: 4, 21: 2, 19: 2, 18: 2, 14: 2, 12: 2, 100: 1, 49: 1, 41: 1, 40: 1,
25: 1, 16: 1, 11: 1)

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 5 / 28


1 xs = range (101)
2 ys = [ friend_counts [ x ] f o r x in xs ]
3 p l t . b a r ( xs , y s )
4 plt . axis ([0 ,101 ,0 ,25])
5 p l t . t i t l e ( " H i s t o g r a m o f F r i e n d Co un ts " )
6 p l t . x l a b e l ( "# o f f r i e n d s " )
7 p l t . y l a b e l ( "# o f p e o p l e " )
8 p l t . show ( )

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 6 / 28


Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 7 / 28
1 #l e n g t h o f t h e l i s t
2 num_points = l e n ( n u m _ f r i e n d s ) # 204
3 #f i n d t h e maximal
4 l a r g e s t _ v a l u e = max ( n u m _ f r i e n d s ) # 100
5 #f i n d t h e m i n i m a l
6 s m a l l e s t _ v a l u e = min ( n u m _ f r i e n d s ) # 1
7 #s o r t i n g t h e l i s t
8 s o r t e d _ v a l u e s = s o r t e d ( num_friends )
9 smallest_value = sorted_values [0] # 1
10 second_smallest_value = sorted_values [ 1 ] # 1
11 s e c o n d _ l a r g e s t _ v a l u e = s o r t e d _ v a l u e s [ −2] # 49

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 8 / 28


Central Tendencies

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 9 / 28


Central Tendencies

Mean
1 d e f mean ( x ) :
2 r e t u r n sum ( x ) / l e n ( x )

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 10 / 28


Central Tendencies

Median
1 d e f median ( v ) :
2 """ f i n d s t h e ’ m i d d l e −most ’ v a l u e o f v """
3 n = len (v)
4 sorted_v = s o r t e d ( v )
5 m i d p o i n t = n // 2
6
7 i f n % 2 == 1 :
8 # i f odd , r e t u r n t h e m i d d l e v a l u e
9 r e t u r n sorted_v [ midpoint ]
10 else :
11 # i f even , r e t u r n t h e a v e r a g e o f t h e m i d d l e v a l u e s
12 lo = midpoint − 1
13 hi = midpoint
14 r e t u r n ( sorted_v [ l o ] + sorted_v [ h i ] ) / 2

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 11 / 28


- Để tìm giá trị trung vị, trước tiên ta phải sắp xếp lại các phần tử thuộc
tập ban đầu, sau đó mới tìm được giá trị này.
- Khác với giá trị trung bình, giá trị trung vị khá ổn định.

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 12 / 28


Central Tendencies

Mode
1 d e f mode ( x ) :
2 """ r e t u r n s a l i s t , mi g h t be more t h a n one mode """
3 counts = Counter ( x )
4 max_count = max ( c o u n t s . v a l u e s ( ) )
5 r e t u r n [ x_i f o r x_i , c o u n t i n c o u n t s . i t e r i t e m s ( )
6 i f c o u n t == max_count ]

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 13 / 28


Dispersion - Sự phân tán

Range -Khoảng biến thiên


1 d e f data_range ( x ) :
2 r e t u r n max ( x ) − min ( x )

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 14 / 28


Dispersion - Sự phân tán

Nếu như giá trị của range bằng 0, thì tất cả các phần tử trong tập ban
đầu là bằng nhau.

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 15 / 28


Dispersion - Sự phân tán

Variance - Phương sai


1 d e f de_mean ( x ) :
2 """ t r a n s l a t e x by s u b t r a c t i n g i t s mean ( s o t h e r e s u l t h a s
mean 0 ) """
3 x_bar = mean ( x )
4 r e t u r n [ x_i − x_bar f o r x_i i n x ]
5
6 def variance ( x ) :
7 """ a s s u m e s x h a s a t l e a s t two e l e m e n t s """
8 n = len (x)
9 d e v i a t i o n s = de_mean ( x )
10 r e t u r n sum_of_squares ( d e v i a t i o n s ) / ( n − 1 )

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 16 / 28


Dispersion - Sự phân tán

Variance - Phương sai


Khi muốn đo lường sự phân tán của dữ liệu so với giá trị trung tâm, ta đo
lường độ lệch phần tử so với giá trị trung tâm.
Câu hỏi. Tại sao ta không tính phương sai bằng công thức
sum(xi − mean(x))

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 17 / 28


Dispersion - Sự phân tán

Variance - Phương sai


Phương sai là hàm rất tốt để đo lường sự biến thiên (hay phân tán) của
dữ liệu trong mẫu vì - nó đã quan tâm đến độ lệch của mỗi phần tử so với
số trung bình
- loại bỏ ảnh hưởng của kích thước mẫu
- nó là một hàm mịn

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 18 / 28


Dispersion - Sự phân tán

Standard Deviation - Độ lệch chuẩn


1 def standard_deviation ( x ) :
2 r e t u r n math . s q r t ( v a r i a n c e ( x ) )

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 19 / 28


Correlation - Sự tương quan

Covariance - Hiệp phương sai


- Độ đo sự biến thiên cùng nhau của hai biến ngẫu nhiên
- Khác với phương sai, đo mức độ biến thiên của một biến.

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 20 / 28


Correlation - Sự tương quan

Covariance - Hiệp phương sai


1 def covariance (x , y ) :
2 n = len (x)
3 r e t u r n d o t ( de_mean ( x ) , de_mean ( y ) ) / ( n − 1 )

Note dot: tổng của tích các thành phần tương ứng của các phần tử.

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 21 / 28


Correlation - Sự tương quan

Correlation
1 def c o r r e l a t i o n (x , y ) :
2 stdev_x = s t a n d a r d _ d e v i a t i o n ( x )
3 stdev_y = s t a n d a r d _ d e v i a t i o n ( y )
4 i f s t d e v _ x > 0 and s t d e v _ y > 0 :
5 r e t u r n c o v a r i a n c e ( x , y ) / stdev_x / stdev_y
6 else :
7 r e t u r n 0 # i f no v a r i a t i o n , c o r r e l a t i o n i s z e r o

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 22 / 28


Correlation - Sự tương quan

Ví dụ

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 23 / 28


Correlation - Sự tương quan

Source: Internet

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 24 / 28


Correlation - Sự tương quan

Nhận xét −1 ≤ Correlation ≤ 1

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 25 / 28


Correlation - Sự tương quan

Nhận xét Một số tương quan bằng 0 thể hiện không có một quan hệ
tuyến tính nào giữa chúng. Tuy nhiên, có nhiều loại quan hệ.
Ví dụ. x = [−2, −1, 0, 1, 2] y = [2, 1, 0, 1, 2]
Khi đó correlation(x, y ) = 0, tuy nhiên, giữa x và y có quan hệ với nhau,
đó là yi = |xi |.
Việc correlation = 0 thể hiện không cho ta thông tin về mối quan hệ giữa
xi với mean(x) và giữa yi với mean(y )

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 26 / 28


References

JOEL GRUS (2015),


Chapter 5, Data Science from Scratch.

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 27 / 28


The End

Đỗ Xuân Anh (HUS) Statistics Ngày 20 tháng 4 năm 2019 28 / 28

You might also like