Professional Documents
Culture Documents
File2 Session2
File2 Session2
Introduction to descriptive
analysis and mean comparison
Central Measures
Summary Measures
Central Tendency
Mean Mode
Median
The most frequently
occurring value in a set
Average of the group of data
of numbers
Middle value in an
ordered array of
numbers
0
Mean (Arithmetic Mean)
0
Mean (Arithmetic Mean)
• Mean (arithmetic mean) of data values
– Sample mean
Sample Size
– Population mean
Population Size
0
Median
• Step 1: Calculate the position i (Where?)
n = # of data points
0
Median
• Example 1:
Ordered array: 21, 33, 37, 42
0
Median
• Example 2:
Ordered array: 21, 33, 37, 42, 48
0
Mode
• Value that occurs most often
• A measure of central tendency
• Not affected by extreme values
• Used for either numerical or categorical data
• There may be no mode
• There may be several modes
0
Summary Measures
Summary Measures
0
Phần trăm-Percentiles
• Xếp hạng số liệu từ nhỏ nhất đến lớn nhất
• Chia số liệu của bạn vào 100 phần riêng biệt
• Có 99 phần trăm trong trường hợp này
• Dãy số thứ tự của 87 phần trăm nói lên rằng, ít nhất có
87% số liệu nằm trong khoảng này, còn lại 13% thuộc
khoảng còn lại.
– Nếu i không là số nguyên, làm tròn tăng i và giá trị của nó sẽ là giá
trị của Xi làm tròn tăng
Ví dụ: tính giá trị của phần trăm
Pk trong dãy số
• Tiền lương (triệu đồng/tháng) của 11 người như sau
• Thứ tự theo
X4dãy số từ nhỏ đến lớn như sau:
• Yêu cầu xác định vị trí 30% trong dãy số liệu nêu trên(Pk =P30)
(ở đâu) :
➢ 3.3 không là số chẵn, vì thế chúng ta sẽ làm tròn tăng. Như vậy giá trị
của số có vị trí 30% trong dãy sẽ là P30 (bao nhiêu?) = giá trị của
X3.3lamtron = X4 . Tức là giá trị của 30% trong dãy số là số có thứ tự thứ
4 đó là 8
➢ Kết luận giá trị của thứ tự ở 60 có giá trị P60 = 14.5
Tứ phân vị-Quartiles
• Dãy số được xếp thứ tự đi vào 4 phần như nhau Quarters
Q1: 25% của dãy thứ tự nằm ở vị trí ở sau của phân vị đầu tiên
Q2: 50% của dãy số thứ tự nằm vị trí ở sau của phân vị thứ hai
Q3: 75% của dãy số tứ tự nằm vị trí ở sau của phân vị thứ ba
Vị trí của P75 là số nguyên, chúng ta sẽ tính giá trị trị của nó là trung bình của X6 và X6+1
Chênh lệch
• Đo lường sự biến đổi
• Là chênh lệch giữa giá trị lớn nhất và nhỏ nhất:
7 8 9 10 11 12 7 8 9 10 11 12
Chênh lệch tứ phân vị
Interquartile Range (IQR)
• Đo lường sự biến đổi
• Xác định được độ rộng ½ khoảng cách
– Độ rộng điểm giữa 50%
• Là chênh lệch giữa từ phân vị thứ nhất (Q1) và từ phân
vị thứ ba (Q3)
• Không bị ảnh hưởng bởi các giá trị bất thường
IQR = Q3 – Q1
Số liệu theo dãy thứ tự: 11 12 13 16 16 17 17 18 21
IQR = Q3 – Q1 = 17 - 13 = 4
Chênh lệch tứ phân vị
• Giới hạn dưới vừa phải-Reasonable Lower Bound =
Những giá trị dưới điểm RLB and trên điểm RUB được xem như
Là những giá trị bất thường vừa phải (mild outliers).
•
Giới hạn trên đặc biệt-Extreme Upper Bound =
Những giá trị dưới điểm ELB and những giá trị trên điểm EUB
Được xem như là những giá trị bất thường đặc biệt (extreme outliers).
Range
• Measure of variation
• Difference between the largest and the smallest
observations:
Range = 12 - 7 = 5 Range = 12 - 7 = 5
7 8 9 10 11 12 7 8 9 10 11 12
0
Interquartile Range (IQR)
• Measure of variation
• Also known as midspread
– Spread in the middle 50%
• Difference between the first and third quartiles
• Not affected by extreme values
IQR = Q3 – Q1
IQR = Q3 – Q1 = 17 - 13 = 4
0
Interquartile Range (Cont.)
• Reasonable Lower Bound =
•
Extreme Upper Bound =
– Population variance:
0
Standard Deviation
• Most important measure of variation
• Shows variation about the mean
• Has the same units as the original data
– Sample standard deviation:
0
Comparing Standard Deviations
Data A Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21
s = 3.338
Data B
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = .9258
Data C
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.57
0
Compare means and test
hypothesis
• Compare means and itst introduction to
testing hypothesis
• Independent samples T test: two
independent groups
• Paired samples T test: Paired variables
• Comparing more than two independent
groups: Analysis of Variance (ANOVA) or
Kruskal Wallis test
https://statistics.laerd.com/statistical-guides/independent-t-test-statistical-guide.php
https://statistics.laerd.com/spss-tutorials/independent-t-test-using-spss-statistics.php
Samples of hypothesis
Prob.2 H0: The energy (working hours) of female is equal to that of male
H1: Reject H0
Prob.3 H0: Sleeping hours of male and female are the same
H1: Reject H0
Level of Significance:
and the Rejection Region
H0: 1- = non-rejection region
Ha: Upper-tail
test
0
H0:
H0: = Rejection region 1- = non-rejection region
Ha: Lower-tail
test
0
= level of significance
= Critical Value
Large sample test of hypothesis
Ha: Ha:
Rejection region:
Table value Rejection region:
Table value
Assumption: or
α
Compare means and test
• Calculate means of values, percent
• Show different between two groups
• Test significant differences
• Significant level
– Value of Sig. < 0.01 Significant at 1%
Reject H0
– 0.01 ≤ Value of Sig. < 0.05 Significant at 5%
Reject H0
– 0.05 ≤ Value of Sig. < 0.1 Significant at 10%
Reject H0
Compare means - SPSS
• File: dataspss2.2-Electronic
• Compare two groups of male and female
with satisfaction on Electronic
Supermarkets (Q9) (Q9.1)
• Discussion on empirical result
• Conclusion how different between two
groups
Manual Guide
Empirical result
H0:
Assumptions:
1. All p population probability distribution are normal
2. The p population variances equal
3. Samples are selected randomly and independently from
respective populations
Application to test satisfaction on
supermarkets (Q9) regarding to income
(Q19)