You are on page 1of 17

We are drowning in Data but starved for knowledge - John Naisbitt.

Fundamental Statistics for


Data Analytics
Nguyen Van Chuc– chuc180@gmail.com
Danang, 6/2020

http://bis.net.vn
Data types

http://bis.net.vn
2
Scales of measurement

http://bis.net.vn
2
Scales of measurement

http://bis.net.vn
2
Scales of measurement

http://bis.net.vn
2
Data Analysis Process

http://bis.net.vn
2
Descriptive Statistics
Measure of central tendency
Trung bình cộng điều hòa
Trung bình cộng (Arithmetic Mean)
(Harmonic Mean)

Trung bình cộng có trọng số


(Weighted Mean)
Trung vị (Median)

Trung bình hình học (Geometric Mean)


Yếu vị (Mode): Là giá trị có tần
suất xuất hiện nhiều nhất trong
Trung tầm (Midrange)
dãy số quan sát
http://bis.net.vn
3
Descriptive Statistics
Distribution description:
Tứ phân vị (Quartiles): Chia tập dữ liệu quan sát thành 4 nhóm:
Từ phân vị thứ nhất (Q1): Giá trị sao cho có 25% số quan sát nhỏ hơn
nó và 75% số quan sát lớn hơn nó
Từ phân vị thứ hai(Q2): Giá trị sao cho có 50% số quan sát nhỏ hơn
nó và 50% số quan sát lớn hơn nó
Từ phân vị thứ ba (Q3):
Giá trị sao cho có 75% số quan sát
nhỏ hơn nó và 25% số quan sát lớn hơn nó
Distribution shape:
Mean =Median= Mode: Cân đối
Mean>Median>Mode: Lệch phải
Mean<Median<Mode: Lệch trái
http://bis.net.vn
4
Descriptive Statistics

http://bis.net.vn
5
Descriptive Statistics
Chuẩn hóa dữ liệu (z score)
z score dùng để so sánh các dữ liệu không cùng thang đo, đơn vị đo.
Công thức tính giá trị chuẩn hóa z cho dữ liệu tổng thể:
z: gần bằng 0 có nghĩa là quan sát
x ở rất gần giá trị TB.
z= -1: nghĩa là giá trị quan sát x ở
vị trí lệch 1 độ lệch chuẩn so với
TB về bên trái.
z= +1: nghĩa là giá trị quan sát x
ở vị trí lệch 1 độ lệch chuẩn so
với TB về bên phải.

http://bis.net.vn
6
Normal distribution

http://bis.net.vn
7
Descriptive Statistics

http://bis.net.vn
8
Data Skewness

http://bis.net.vn
8
Data Skewness

http://bis.net.vn
8
Kurtosis
Kurtosis là một chỉ số để đo lường về đặc điểm hình dáng của một
phân phối xác suất. Chú ý: Phân phối chuẩn có kurtosis =3

Phân phối chuẩn có kurtosis 3.0,


hay zero excess kurtosis.
Phân phối leptokurtic có kurtosis
4.0, hay excess kurtosis +1.0 (= 4.0
– 3.0).
Phân phối platykurtic có kurtosis of
2.7, hay excess kurtosis -0.3 (= 2.7
– 3.0).

http://bis.net.vn
8
Correlation and Regression Analysis
Công thức chung để tính hệ số tương quan giữa 2 đại lượng ngẫu
nhiên x và y là

http://bis.net.vn
10
Bayes' theorem

P(A|B): Xác suất xảy ra biến cố A khi biến cố B xảy ra (posterior


probability)
P(B|A): Xác suất xảy ra biến cố B khi biến cố A xảy ra (Likelihood)
P(A): Xác suất xảy ra biến cố A (prior probability)
P(B): Xác suất xảy ra biến cố B
Ứng dụng của Bayes rule: Naive Bayes Classification (NBC)
• Multiclass Prediction
• Text classification
• Spam Filtering
• Sentiment Analysis
• Recommendation System

http://bis.net.vn
9

You might also like