You are on page 1of 29

Chương 1: Tổng quan về thống kê ứng dụng

1. Một số khái niệm cơ bản


- Thống kê ứng dụng là môn học nghiên cứu phương pháp thu thập, tổ chức, trình bày,
phân tích và diễn giải dữ liệu thu thập được nhằm hỗ trợ cho việc ra quyết định trong
kinh doanh.
- Trong lĩnh vực kinh doanh, người ta thường dùng thống kê để hỗ trợ cho việc ra quyết
định.
 Thí dụ, để đánh giá hiệu quả của chương trình khuyến mãi, giám đốc kinh doanh
của một chuỗi cửa hàng tiện lợi cần thu thập và phân tích dữ liệu bán hàng của tất
cả các cửa hàng và phân tích theo khu vực, theo mặt hàng và các tiêu chí khác. Kết
quả phân tích dữ liệu và những khám phá được rút ra sẽ giúp ông ta có cơ sở để
quyết định kế hoạch khuyến mãi cho đợt sau này.
- Khái niệm cơ bản đầu tiên là tổng thể:
 Tổng thể là tập hợp toàn bộ các cá nhân, các đối tượng có liên quan đến vấn đề
đang nghiên cứu.
 Việc xác định tổng thể thường gắn chặt với một phạm vi không gian và thời gian.
Thí dụ, khi xác định tổng thể cho một nghiên cứu là sinh viên năm thứ nhất của
trường Đại học Mở Thành phố Hồ Chí Minh, cần phải trình bày rõ ràng phạm vi
thuộc năm học nào? Có giới hạn nào về loại hình đào tạo, nơi đào tạo không? Bởi
vì, mỗi năm học thì đối tượng sinh viên năm thứ nhất là khác nhau. Và điều này
cũng tương tự như đối với các loại hình đào tạo và nơi đào tạo.
- Khái niệm mẫu:
 Như đã tìm hiểu về tổng thể, rõ ràng không phải lúc nào trong lĩnh vực kinh doanh,
người ta cũng tiếp cận nghiên cứu toàn bộ tổng thể. Chẳng hạn, nếu một người
nghiên cứu muốn tìm hiểu hành vi học ngoại ngữ của sinh viên năm thứ nhất của
trường đại học Mở Thành phố Hồ Chí Minh. Ta gần như không thể tiếp xúc toàn
bộ số sinh viên này. Trong thống kê, người ta đề xuất phương pháp điều tra theo
mẫu. Tức là dựa vào việc khảo sát đối với một nhóm đối tượng sinh viên năm thứ
nhất chứ không phải là tất cả sinh viên năm nhất. Nhóm sinh viên năm thứ nhất
liên quan đến cuộc điều tra này được gọi là một mẫu.
 Mẫu là tập hợp con của tổng thể bao gồm những cá nhân, đối tượng mà ta thật sự
tiếp cận nghiên cứu
 Rõ ràng, mối quan hệ giữa mẫu và tổng thể nghiên cứu là rất quan trọng. Làm sao
cho một mẫu có thể đại diện được cho tổng thể trong một nghiên cứu là công việc
đòi hỏi vận dụng hợp lý những kiến thức cơ bản của thống kê và đảm bảo tính
khách quan khoa học trong nghiên cứu.
- Khái niệm tiếp theo là thống kê mô tả:
 Về cơ bản, nghiên cứu thống kê được chia ra làm hai lĩnh vực: thống kê mô tả và
thống kê suy diễn.
o Thống kê mô tả bao gồm các phương pháp tổ chức, tóm tắt và trình bày dữ
liệu liên quan đến vấn đề nghiên cứu.
 Trong lĩnh vực thống kê mô tả, người ta chú trọng đến việc tổ chức và
trình bày dữ liệu sao cho thể hiện được vấn đề nghiên cứu. Những tính
toán tóm tắt dữ liệu sẽ làm lộ ra bản chất của dữ liệu thu thập được.
 Thí dụ trong một nghiên cứu về hành vi sử dụng và bảo dưỡng xe
máy, phương pháp thống kê mô tả sẽ cung cấp một số thông tin quan
trọng như: số lần khách hàng bảo dưỡng xe trong một năm, số km xe
hoạt động giữa 2 lần thay nhớt máy, tỷ lệ người tiêu dùng mang xe
đến trạm bảo dưỡng được phân chia theo giới tính, nghề nghiệp, thu
nhập… Thông thường, người ta sẽ trình bày dữ liệu thông qua các
biểu đồ thích hợp.
o Thống kê suy diễn có cách tiếp cận khác với thống kê mô tả đối với dữ liệu
thu thập được.
 Thống kê suy diễn bao gồm các phương pháp thống kê xử lý dữ liệu
thu thập từ mẫu để đưa ra các kết luận về tổng thể nghiên cứu.
 Thí dụ, từ dữ liệu thu thập được từ 500 người sử dụng xe máy, người
nghiên cứu đưa ra kết luận có sự khác nhau về số lần mang xe đến
trạm bảo dưỡng xe máy đối với giới tính của người sử dụng xe. Từ dữ
liệu thu thập được qua mẫu, người nghiên cứu rút ra kết luận: những
người chủ xe phái nam thực hiện bảo dưỡng xe nhiều lần trong năm
hơn người chủ xe phái nữ. Kết luận này được thực hiện dựa trên thống
kê suy diễn. Đương nhiên, người nghiên cứu này phải đảm bảo quá
trình thu thập và phân tích dữ liệu thống kê phù hợp với các yêu cầu
của phương pháp thống kê suy diễn.
2. Biến và phân loại dữ liệu
- Quan sát trong thống kê:
 Phân tích thống kê bắt đầu từ dữ liệu, từ yêu cầu của nghiên cứu. Trong nghiên cứu
hành vi sử dụng và bảo dưỡng xe máy của người tiêu dùng, người nghiên cứu cần
tiếp cận đối tượng khảo sát để thu thập dữ liệu. Đối tượng khảo sát ở đây là người
đang sử dụng xe máy. Việc thu thập dữ liệu từ đối tượng khảo sát trong thống kê
thường được gọi là quan sát. Tuy nhiên, từ quan sát ở đây không chỉ giới hạn trong
việc “nhìn”, mà nên hiểu theo nghĩa đa dạng hơn, bao gồm hỏi trực tiếp đối tượng
khảo sát, ghi chép, cân, đo, đong, đếm…
 Quan sát trong thống kê bao gồm tất cả các hoạt động liên quan đến việc thu thập
dữ liệu từ đối tượng khảo sát.
 Tuy nhiên, trước khi tiến hành thu thập dữ liệu, người ta thường có mô tả chi tiết
về dữ liệu thu thập. Những mô tả chi tiết này liên quan đến đặc điểm của đối tượng
khảo sát, đặc trưng của vấn đề nghiên cứu.
o Thí dụ: trong một nghiên cứu, người ta cần thu thập tên, địa chỉ, số điện
thoại, thu nhập bình quân tháng, giới tính, số lần bảo dưỡng xe trong năm…
 Mỗi đặc điểm này trong thống kê được gọi là biến
- Biến là đặc điểm của đối tượng cần thu thập dữ liệu và nghiên cứu trong tổng thể.
 Việc xác định biến trong thống kê rất quan trọng vì nó ảnh hưởng đến quá trình
tính toán và xử lý tiếp theo.
- Dữ liệu về tất cả các biến của tất cả các đối tượng trong mẫu điều tra được gọi là một tập
dữ liệu.
 Tập dữ liệu thường được trình bày dưới dạng bảng. Trong đó, mỗi hàng là thông
tin của 1 đối tượng khảo sát (mỗi hàng này còn có tên mang tính “kỹ thuật” là mẫu
tin) và mỗi cột là một biến, tức là một đặc điểm của đối tượng khảo sát.
 Tập dữ liệu là một bảng dữ liệu gồm các giá trị tương ứng với từng biến của mỗi
đối tượng khảo sát.
 Tập dữ liệu đóng vai trò quan trọng trong phân tích thống kê. Nó được coi như là
nguồn nguyên liệu chính cho các xử lý thống kê tiếp theo cho dù trong lĩnh vực
thống kê mô tả hay thống kê suy diễn.
- Số lượng biến đưa vào một phân tích thống kê ảnh hưởng lớn đến phương pháp thống kê
được lựa chọn.
- Nếu chỉ dùng 1 biến trong phân tích, người ta sẽ dùng phương pháp phân tích đơn biến.
- Trong trường hợp dùng đến 2 biến trong một phân tích, ta sẽ dùng kỹ thuật phân tích nhị
biến. Và tương tự như thế, còn có phân tích đa biến dùng trong trường hợp có nhiều biến
được đưa vào phân tích.
 Thí dụ: lập biểu đồ cột cho biến thu nhập là kỹ thuật phân tích đơn biến. Phân tích
mối tương quan giữa thu nhập và tuổi thuộc kỹ thuật phân tích nhị biến. Phân tích
hồi quy giữa các biến thu nhập, tuổi và giới tính thuộc kỹ thuật phân tích đa biến.
- Dữ liệu trong thống kê được chia làm 2 loại: dữ liệu định tính và dữ liệu định lượng. Dữ
liệu định lượng được chia làm 2 loại: dữ liệu liên tục và dữ liệu rời rạc.
- Kiểu dữ liệu định tính là kiểu dữ liệu có giá trị được biểu diễn bằng ký tự và không có ý
nghĩa trong các phép tính số học hay các tính toán liên quan đến con số.
 Các biến có dữ liệu kiểu dữ liệu định tính được gọi là biến định tính. Giới tính là
biến định tính. Giá trị của biến này là “nam” hoặc “nữ”. Ta có thể mã hóa “nam” là
“M” và “nữ” là “W”. Nó hoàn toàn không có nghĩa số học. Ngay cả khi ta mã hóa
“nam” là “1” và nữ là “2” như trong một số phần mềm xử lý thống kê thì bản chất
của nó cũng không đổi. Kể cả khi dùng ký số để mã hóa cho các giá trị “nam” và
“nữ” thì cũng không làm thay đổi bản chất định tính của dữ liệu. Và ta không nên
tính giá trị trung bình cho biến giới tính vì giới tính trung bình là giá trị không có ý
nghĩa.
 Kiểu dữ liệu định tính được dùng nhiều nhất là kiểu nhị phân. Kiểu nhị biến chỉ
gồm hai giá trị.
o Thí dụ: biến giới tính, tình trạng hôn nhân, tình trạng làm việc là các biến
nhị phân. Cụ thể như sau :
Giới tính: nam, nữ
Tình trạng việc làm: đang thất nghiệp, đang có việc làm
o Kiểu dữ liệu có nhiều hơn 2 biến được gọi là kiểu phân loại.
Thí dụ: các biến kiểu xe và loại phim là các biến phân loại.
Loại phim: hành động, tâm lý, hài, kinh dị, khác.
- Kiểu dữ liệu định lượng là kiểu dữ liệu có giá trị được biểu diễn bằng con số và có bản
chất giá trị số. Dữ liệu định lượng thường là kết quả của việc cân, đo, đong, đếm.
- Các biến có kiểu dữ liệu định lượng được gọi là biến định lượng.
 Thí dụ: biến số nhân khẩu trong hộ, số khách hàng bảo trì máy iPad trong ngày là
các biến định lượng
 Số nhân khẩu trong hộ #1: 4
 Số khách hàng bảo trì máy iPad ngày 21/4/2022: 6
- Tùy thuộc vào đặc điểm của miền giá trị trong biến mà biến định lượng được chia làm 2
loại: biến rời rạc và biến liên tục.
- Biến rời rạc là biến có các giá trị đếm được hay còn gọi là các giá trị rời rạc.
 Thí dụ: số bệnh nhân cấp cứu trong 1 ca là biến rời rạc.
- Biến liên tục là biến có giá trị bất kỳ nằm trong 1 khoảng. Nó thường là kết quả của
phép đo.
 Thí dụ: thời gian chờ của khách hàng, độ dày của tấm thép thành phẩm, tỷ số ROA
(thu nhập trên tiền đầu tư).
- Dữ liệu trong phân tích thống kê được chia làm 2 loại: dữ liệu thời gian và dữ liệu thời
điểm. việc xác định loại như vậy rất quan trọng vì mỗi loại dữ liệu ta áp dụng các phân
tích đặc thù khác nhau.
 Thí dụ, ta tiến hành phân tích tăng trưởng trên dữ liệu thời gian chứ không thực
hiện phân tích tăng trưởng trên dữ liệu thời điểm.
- Trong hoạt động thương mại, dữ liệu thời gian rất được ưa chuộng.
 Thí dụ, giám đốc bán hàng của một doanh nghiệp theo dõi doanh số bán hàng hàng
ngày của siêu thị A. Chỉ số giá tiêu dùng (CPI) trong 12 tháng năm 2021 của Việt
Nam là dữ liệu thời gian.
- Dữ liệu thời gian là dữ liệu được thu thập định kỳ trong một khoảng thời gian: hàng
ngày, hàng tuần, hàng tháng, hàng quý, hàng năm. đặc điểm chính của dữ liệu thời gian là
vào mỗi kỳ thì dữ liệu xuất hiện. Như thí dụ trên, mỗi tháng ta có số liệu chỉ số giá tiêu
dùng của tháng đó.
- Dữ liệu thời điểm là dữ liệu được thu thập tại một thời điểm hay tại một khoảng thời
gian ngắn. Người ta còn gọi dữ liệu thời điểm là dữ liệu chéo, dữ liệu cắt ngang.
 Ví dụ: Để khảo sát hiện trạng sử dụng học liệu điện tử của sinh viên hệ từ xa của
khoa Quản trị kinh doanh trường Đại học Mở Thành phố Hồ Chí Minh, nhóm
nghiên cứu tiến hành thu thập dữ liệu thông qua một mẫu nghiên cứu và bảng câu
hỏi điều tra. Dữ liệu thu thập được trong trường hợp này là dữ liệu thời điểm. Dữ
liệu này phản ánh hiện trạng của các đặc trưng của đối tượng nghiên cứu tại thời
điểm tiến hành khảo sát.
- Khi thực hiện nghiên cứu có ứng dụng thống kê, việc nhận diện dữ liệu thời gian hoặc dữ
liệu thời điểm đóng vai trò quan trọng vì người ta sử dụng các phương pháp khác nhau
đối với 2 loại dữ liệu này. Trong thực tế, đôi khi người ta cũng kết hợp sử dụng dữ liệu
vừa là dữ liệu thời gian, vừa là dữ liệu thời điểm trong một số nghiên cứu đặc thù.
3. Thang đo và phân loại thang đo
- Thang đo là những qui định về đặc điểm của dữ liệu và các phép tính có thể thực hiện
tương ứng.
- Ta có 4 loại thang đo: thang đo định danh, thang đo thứ tự, thang đo khoảng và thang đo
tỷ lệ. Trong đó, thang đo định danh và thang đo thứ tự thuộc về thang đo của biến định
tính, còn thang đo khoảng và thang đo tỷ lệ thuộc về thang đo của biến định lượng.
1. Thang đo định danh:
 Thang đo định danh là thang đo được dùng để phân loại dữ liệu. Đây là thang đo
định tính và ta không được thực hiện các phép tính số học đối với dữ liệu thuộc
thang đo này. Thông thường, người ta dùng các phép phân tích tần số để phân tích
dữ liệu thuộc thang đo định danh. Nó được dùng để phân loại dữ liệu. Người ta còn
gọi nó là thang đo danh nghĩa
 Thí dụ: Giới tính thuộc thang đo định danh. Sau khi thu thập dữ liệu về giới tính
của 100 đối tượng trong mẫu khảo sát, ta có thể xác định tần số của phái nam, phái
nữ trong mẫu này.
Trong một nghiên cứu, người ta phỏng vấn khách hàng qua câu hỏi sau:
Loại máy tính xách tay nào đang được ông/bà sử dụng?
1: Acer 2: Apple 3: Compaq 4: Dell 5: HP 6: Lenovo 7: Sony 8: Toshiba 9:
hiệu khác 10: không có
Loại máy tính trong câu hỏi trên thuộc về thang đo định danh. Trong trường
hợp này, ta thấy vai trò dùng tên thương hiệu để phân loại máy tính đang sử dụng
là rất rõ ràng. Sau khi thu thập dữ liệu trong mẫu điều tra, ta sẽ tính được tần số
tương đối (tức là tỷ lệ) của các thương hiệu máy tính xách tay để biết được so sánh
tương đối giữa các thương hiệu được khách hàng sử dụng.
2. Thang đo thứ tự
 Thang đo thứ tự là thang đo định tính. Nó được dùng để phân loại và cho biết mức
độ hơn kém của các mục dữ liệu. Người ta còn gọi nó là thang đo thứ bậc. Thang
đo thứ tự là sự mở rộng của thang đo định danh. Trong thang đo thứ tự, các giá trị
dữ liệu có ý nghĩa hơn kém.
 Thí dụ, trong một khảo sát hành vi sử dụng xe máy của người tiêu dùng, có câu hỏi
sau:
Ông/bà có thường xuyên kiểm tra đèn tín hiệu của xe trước khi chạy không?
1. Thường xuyên 2. Thỉnh thoảng 3. Ít khi 4. Chưa bao giờ
Rõ ràng, các mục dữ liệu trả lời có mối quan hệ hơn kém trong mức độ
thường xuyên kiểm tra đèn tín hiệu như sau:
Thường xuyên > thỉnh thoảng > ít khi > chưa bao giờ
 Dữ liệu xếp hạng của sinh viên trong lớp cũng là dữ liệu thứ tự thường thấy. Rõ
ràng trong trường hợp này, có vẻ như các giá trị dữ liệu có dạng con số. Nhưng nếu
có suy xét, ta sẽ thấy đó là các “ký số” chứ không phải là “con số”. Tức là nếu ta
tính hạng trung bình của các sinh viên trong lớp thì ta sẽ có kết quả vô nghĩa.
3. Thang đo khoảng
 Thang đo khoảng là thang đo định lượng. Các giá trị của thang đo có ý nghĩa trong
1 khoảng. Trong lĩnh vực kinh doanh, người ta thường dùng khoảng 5 hoặc 7 giá
trị trong thang đo.
 Thang đo khoảng là thang đo được dùng khá phổ biến trong các nghiên cứu ứng
dụng thống kê trong lĩnh vực kinh doanh. Đây là thang đo định lượng, các giá trị số
học thu thập được thường có ý nghĩa kinh tế. Trong các bảng câu hỏi khảo sát, bạn
thường gặp các câu hỏi tương tự như sau:
o Theo bạn, học viên nên tham dự kỳ thi xếp lớp trước khi đăng ký học tiếng
Anh tại trung tâm.
o Trong thang đo này, người ta mã hóa 1: hoàn toàn không đồng ý, 2: không
đồng ý, 3: có thể đồng ý hoặc không đồng ý, 4: đồng ý và 5: hoàn toàn đồng
ý.
 Thang đo này có tên là thang đo Likert.
 Dữ liệu trong thang đo là khoảng giá trị từ 1 đến 5 biểu diễn mức độ tán thành hay
không về một quan điểm của người được khảo sát. Đặc điểm nổi bật của thang đo
khoảng là ta có thể tính được giá trị trung bình thể hiện quan điểm chung của các
đối tượng trong mẫu khảo sát.
 Đôi khi, người ta trình bày thang đo khoảng như sau:
o Theo Ông/Bà, thái độ phục vụ của thợ bảo trì như thế nào?
o Trong thí dụ trên, người ta chỉ dùng các mục từ cho điểm đầu và cuối. Trong
lúc xử lý dữ liệu, người ta sẽ dùng 5 mức để mã hóa. 1 ứng với rất kém và 5
ứng với rất tốt, ba mức trung gian sẽ có tương ứng các giá trị là 2, 3 và 4.
Nên nhớ rằng, các giá trị trong thang đo khoảng có quan hệ số học. Tức là ta
có: 1 nhỏ hơn 2, 2 nhỏ hơn 3, 3 nhỏ hơn 4, 4 nhỏ hơn 5.
 Và ta hoàn toàn có thể tính giá trị trung bình số học các giá trị trong thang đo
khoảng.
4. Thang đo tỷ lệ
 Thang đo tỷ lệ là thang đo định lượng. Nó là sự mở rộng của thang đo khoảng.
Trong thang đo tỷ lệ, số 0 có nghĩa và nhờ đó ta xác định được quan hệ tỷ số giữa
các giá trị.
 Ta có thể hình dung thang đo tỷ lệ là sự mở rộng của thang đo khoảng. Trong
thang đo tỷ lệ, số 0 là giá trị có nghĩa. Nhờ đó, tỷ lệ giữa hai giá trị có thể so sánh
được với nhau. Các giá trị trong thang đo tỷ lệ là các con số có ý nghĩa con số đầy
đủ. Giá trị 0 có nghĩa là không có gì.
o Thí dụ, câu hỏi số lần đến khu vui chơi giải trí trong tuần vừa qua được trả
lời là không. Điều này có nghĩa người được hỏi không có đến khu vui chơi
giải trí trong tuần vừa qua.
o Giả sử trong một bảng câu hỏi khảo sát, người ta nêu câu sau:
Ông/Bà vui lòng cho biết trung bình mỗi ngày đọc báo bao nhiều lần? _____
lần.
o Dữ liệu thu thập được trong thí dụ trên thuộc thang đo tỷ lệ. Tức là nếu ông
Quang trả lời là 0 thì có nghĩa là ông ta chẳng bao giờ đọc báo. Và nếu ông
Nhàn trả lời đọc báo 4 lần trong ngày và ông Thành trả lời đọc báo 2 lần
trong ngày thì ta có thể kết luận ông Nhàn đọc báo nhiều hơn ông Thành 2
lần.

CHƯƠNG 2: THỐNG KÊ MÔ TẢ
1. Trình bày dữ liệu bằng bảng
 Bảng tần số là bảng được lập bằng cách nhóm các dữ liệu các nhóm hoàn toàn xung khắc và
trình bày số quan sát tương ứng ở mỗi nhóm. Hoàn toàn xung khắc có nghĩa là không có giá
trị nào vừa nằm ở nhóm này vừa nằm ở nhóm kia. Mỗi giá trị của biến chỉ được đặt vào 1
nhóm nào đó.
 Ta xem bảng tần số biến giới tính trong thí dụ trên hình

Trong bảng tần số, ta có 2 nhóm tương ứng với 2 giá trị của biến giới tính. Tần số của mỗi nhóm được gọi
là tần số nhóm. Trong thí dụ trên, tần số của nhóm “Nam” là 11 và tần số của nhóm “Nữ” là 9.
Tổng quát hơn, ta có bảng tần số như sau:
 Gọi Xi là trị số của biến X
 Số lần xuất hiện của Xi trong tập dữ liệu của biến X là tần số của Xi, ký hiệu fi.
 n là tổng số quan sát.
 Lưu ý là khi tính tổng các giá trị tần số fi, ta sẽ có n, tức là tổng số quan sát bằng
tổng tần số.
 Bảng tần số không chỉ có tần số mà còn có các giá trị như tần số tương đối và tần
số phần trăm.
 Tần số tương đối được tính bằng cách lấy tần số chia cho tổng số quan sát, tức là
lấy fi chia cho n.
o Thí dụ tần số tương đối của nam là 0,55 được tính bằng cách lấy 11 chia cho
20
o Thí dụ tần số tương đối của nữ là 0,45 được tính bằng cách lấy 9 chia cho 20
o Ta có tổng tần số tương đối bằng 1. Trong thí dụ, 0,55 cộng 0,45 bằng 1.
 Tần số phần trăm được tính tương tự tần số tương đối, được tính bằng cách lấy tần
số chia cho tổng số quan sát và nhân cho 100, tức là lấy fi chia cho n và nhân 100.
o Thí dụ tần số phần trăm của nam là 55% được tính bằng cách lấy 11 chia
cho 20 rồi nhân cho 100
o Thí dụ tần số phần trăm của nữ là 45% được tính bằng cách lấy 9 chia cho
20 nhân cho 100%
o Ta có tổng tần số phần trăm bằng 100. Trong thí dụ, 55% cộng 45% bằng
100%.

Đối với biến định lượng, ta có thể lập bảng tần số như biến định tính nếu số giá trị của biến định
lượng ít. Khi số giá trị này nhiều ta sẽ lập nhóm các giá trị khi lập bảng tần số.
Cách làm như sau:
Bước 1: Sắp dữ liệu theo thứ tự tăng dần
Bước 2: Xác định số nhóm
Bước 3: Xác định độ rộng của mỗi nhóm
Bước 4: Đặt dữ liệu vào các nhóm tương ứng

Bước 5: Tính tần số tương đối và các


giá trị khác
Bước 1: ta sắp xếp dữ liệu theo thứ tự
tăng dần như hình, ta có 57 giá trị
Bước 2: Xác định số nhóm
Số nhóm trong bảng tần số thường nằm trong khoảng từ 5 đến 11 nhóm.
Ta có thể xác định số nhóm theo công thức sau:
k = 1 + 3,3log(n) với n = 57
Trong đó: k: số nhóm
n: số quan sát trong nhóm
Trong thí dụ, ta có số nhóm:
k = 1 + 3,3log(57) = 1 + 3,3(1,7559) = 6,79
Ta chọn số nhóm là 6 (lấy phần nguyên của k = 6,79)
Bước 3: Xác định độ rộng mỗi nhóm
x max−x min
Ta có công thức tính độ rộng mỗi nhóm như sau: w= k

Trong đó: w: độ rộng mỗi nhóm


xmax: giá trị dữ liệu lớn nhất trong tập dữ liệu
xmin: giá trị nhỏ nhất trong tập dữ liệu
k: số nhóm được xác định ở bước 2
Trong thí dụ, ta có: xmin = 8 xmax = 29 k=6
w theo công thức tính ra bằng 3,5
Làm tròn w = 4 vì dữ liệu trong thí dụ là những số nguyên.
Như vậy, ta sẽ có các nhóm như sau:
Từ 8 đến nhỏ hơn 12
Từ 12 đến nhỏ hơn 16
Từ 16 đến nhỏ hơn 20
Từ 20 đến nhỏ hơn 24
Từ 24 đến nhỏ hơn 28
Từ 28 đến nhỏ hơn 32
Ta thấy các nhóm này chứa toàn bộ dữ liệu trong thí dụ: từ 8 đến 29.
Bước 4: Đặt dữ liệu vào các nhóm tương ứng
Ta có bảng tần số như hình

Bước 5: Tính tần số tương đối và các gía trị khác


Trong bảng trên, ta có tần số tích lũy được tính bằng cách cộng dồn tần số của các nhóm
trên cho đến nhóm đó. Tức là tần số tích lũy ứng với nhóm 12-16 sẽ là 10+14 = 24.
Tần số tương đối tích lũy cũng được tính tương tự. Tần số tương đối tích lũy nhóm 12 –
16 là 0,1754 + 0,2456 = 0,4210.
Cách sử dụng bảng 2 biến
Thí dụ: ta có bảng 2 biến với biến giới tính với 2 giá trị: nam, nữ và biến ngành học có 6 giá trị
là ngành quản trị kinh doanh, kinh tế, xã hội, công nghệ thông tin, ngoại ngữ.
Bảng tần số của 2 biến như hình
Trong bảng 2 biến, ta có thể dùng tần số phần trăm thay vì tần số. Bảng sau trình bày tần số
phần trăm theo cột.

Ta có thể tính tần số phần trăm theo hàng cho bảng 2 biến như hình

Ta có thể tính tần số phần trăm theo tổng số quan sát. Trong thí dụ này, tổng số quan sát là tổng
số sinh viên, tức là 220+240 = 460.
2. Các giá trị đại lượng đặc trưng
a. Biểu đồ thanh
Biểu đồ thanh là biểu đồ mà trong đó, các nhóm được biểu diễn ở trục ngang. Tần số các nhóm
được biểu diễn ở trục đứng. Chiều cao của thanh biểu diễn tần số của mỗi nhóm.
Ta có biểu đồ thanh của biến giới tính như hình bên trái
Đối với biến định lượng, ta có thể dùng biểu đồ trình bày tần số của các giá trị hay các khoảng
giá trị của biến như hình bên phải.
b. Biểu đồ tròn
Biểu đồ tròn là biểu đồ mà trong đó, tần số của mỗi nhóm tương ứng với một phần diện tích của
hình tròn. Người ta thường dùng tần số phần trăm để biểu diễn trên biểu đồ tròn.

Biểu đồ thí dụ trong hình là cơ cấu nghề nghiệp của khách hàng.
Ta thấy có 35% khách hàng có nghề công nhân
25% khách hàng có nghề nhân viên
15% khách hàng có nghề tự do
10% khách hàng có nghề kinh doanh
10% khách hàng có nghề buôn bán
5% khách hàng là sinh viên
c. Biểu đồ đường
Biểu đồ đường là biểu đồ dùng đường nối các điểm dữ liệu biểu diễn hình dạng của dữ liệu.
Biểu đồ này thích hợp với dữ liệu thời gian.
Biểu đồ đường giúp ta phát hiện xu hướng biến động của dữ liệu theo thời gian.

Trong hình thí dụ, ta thấy tỷ suất lợi nhuận của trái phiếu có xu hướng giảm theo thời
gian
d. Đa giác tần số
Người ta thường dùng biểu đồ dạng đường thẳng để biểu diễn các giá trị tần số trong bảng tần
số,biểu đồ này thường được gọi là Đa giác tần số.

Hình dáng của đa giác tần số, nó trình bày biến Biểu đồ tần số tích lũy, để biểu diễn tần số
động của tần số của các khoảng giá trị của tương đối phần trăm tích lũy, người ta cũng
biến. dùng biểu đồ đường thẳng để biểu diễn. Biểu
đồ này có thuật ngữ là “Ogive”. Điểm cuối
cùng của biểu đồ luôn ở mức 100, tức là có tần
số tích lũy là 100%.

e. Biểu đồ nhánh và lá
Biểu đồ nhánh và lá là dạng biểu đồ đặc biệt được dùng để thể hiện hình dạng phân bố của dữ
liệu một cách nhanh chóng.
Các bước tạo biểu đồ nhánh và lá:
Bước 1: Khảo sát tập dữ liệu và chọn đơn vị cho nhánh và lá. Thông thường, bạn nên
chọn sao cho số nhánh ít hơn 20.
Bước 2: Đặt các giá trị vào nhánh theo thứ tự từ nhỏ đến lớn theo chiều từ trên xuống.
Bước 3: Đặt các giá trị vào phần lá, tức là các hàng tương ứng trong biểu đồ.
Bước 4: Sắp xếp dữ liệu từ nhỏ đến lớn theo chiều từ trái sang phải cho các lá.
Thí dụ:
Đây là số liệu thu thập của 31 ngày về số lượt khách hàng mang máy điện thoại di động đến bảo
hành trong 1 ngày tại một trung tâm chăm sóc khách hàng.

 Trước hết, nên sắp dữ liệu theo chiều tăng dần, còn gọi là tạo dãy dữ liệu. Biểu đồ
nhánh và lá của tập số liệu trên như hình.
 Ta thấy, phần nhánh là các số 0, 1, 2, 3. Đây chính là phần ký số hàng chục trong
bộ dữ liệu.
 Trong khi đó, phần bên phải được gọi là phần lá biểu diễn các ký số của hàng đơn
vị.
Xét dòng đầu của biểu đồ: 0| 6 9 biểu diễn các giá trị 6 và 9 trong tập dữ
liệu.
Dòng tiếp theo của biểu đồ: 1| 2 2 4 4 4 5 6 8 8 8 9 9 biểu diễn các giá trị 12,
12, 14, 14, 14, 15, 16, 18, 18, 18, 19, 19 trong tập dữ liệu.
Dòng tiếp theo của biểu đồ: 2| 0 0 1 1 1 2 2 2 3 8 8 9 biểu diễn các giá trị 20,
20, 21, 21, 21, 22, 22, 22, 23, 28, 28, 29 trong tập dữ liệu.
Dòng cuối cùng: 3| 2 3 3 7 biểu diễn các giá trị: 32, 33, 33, 37 trong tập dữ
liệu.
 Cái hay của biểu đồ này là phần lá biểu diễn được hình dạng phân phối của tập dữ
liệu. Ta thấy như trong thí dụ trên, dữ liệu tập trung nhiều ở khoảng giá trị từ 12
đến 29.

f. Biểu đồ phân tán


Biểu đồ phân tán là biểu đồ biểu diễn các cặp giá trị (x1, y1), (x2, y2),…, (xn, yn) trên 2 trục
X,Y. Mỗi cặp giá trị được biểu diễn bằng 1 điểm trên biểu đồ. Khác với các biểu đồ trước,
biểu đồ phân tán được dùng để biểu diễn mối liên hệ giữa 2 biến với nhau.

Ta xét thí dụ mối liên hệ giữa biến số năm sử dụng và giá bán như bảng bên trái.
Ta có dữ liệu số năm sử dụng và giá bán của 12 xe trong bảng dữ liệu.
Ta biểu diễn mỗi cặp số giữa số năm sử dụng và giá bán thành 1 điểm trên biểu đồ bên phải.
Kết quả ta có 12 điểm.
Biểu đồ bên phải là biểu đồ phân tán biểu diễn mối liên hệ giữa 2 biến số năm sử dụng và giá
bán.
Một cách tổng quát, ta có 3 dạng tương quan tương ứng với 3 hình

- Dạng tương quan thuận cho thấy 2


biến có biến thiên cùng chiều, tức là
biến này tăng thì biến kia cũng tăng,
hay biến này giảm thì biến kia cũng
giảm.

Dạng tương quan nghịch cho thấy 2


biến có biến thiên ngược chiều, tức là
biến này tăng thì biến kia giảm,
hay biến này giảm thì biến kia tăng

Không tương quan, tức là mối liên


hệ tương quan giữa 2 biến gần như
không có
3. Tóm tắt các chỉ tiêu thống kê
a. Các giá trị của khuynh hướng trung tâm
 Giá trị trung bình
- Để tính giá trị trung bình tổng thể, ta dùng công thức
N

∑ xi
𝜇= i=1
N

Trong đó:  là giá trị trung bình của tổng thể


N là số phần tử của tổng thể
xi là giá trị dữ liệu thứ i trong tổng thể
- Trong thực tế, người ta thường tính giá trị trung bình của mẫu hơn là tính giá trị trung
bình tổng thể.
 Giá trị trung bình của mẫu
- Giá trị trung bình của mẫu được tính theo công thức
n

∑ xi
x= i=1
n
Trong đó: x là giá trị trung bình của mẫu
n là số phần tử của mẫu
x i là giá trị dữ liệu thứ i trong mẫu
Thí dụ: tính trung bình mẫu với số liệu 42,60,70,75,78 ta có
42+60+70+75+ 78
x= =65
5
 Trung bình số học
- Trung bình số học có trọng số được tính theo công thức
k

∑ xi w i
x = i=1
k

∑ wi
i=1

Trong đó: wi là trọng số của giá trị quan sát thứ i


xi là giá trị quan sát thứ i
k là số nhóm
Thí dụ: Khảo sát số cuộc gọi điện thoại đặt dịch vụ của khách hàng trong 30 ngày đến
một trạm dịch vụ được cho trong bảng trên hình

 Yêu cầu: tính số cuộc gọi đặt dịch vụ trung bình trong một ngày.
 Trường hợp dữ liệu phân nhóm có độ rộng nhóm, ta dùng công thức:
k

∑ mi f i
x = i=1
k

∑ fi
i=1

Trong đó: mi là giá trị giữa của nhóm i


fi là tần số của nhóm i
Thí dụ: Số liệu trọng lượng của 50 thỏi nhôm nguyên liệu được phân nhóm theo
trọng lượng của thỏi nguyên liệu trình bày trong bảng trên hình.
Để tính trọng lượng trung bình của 50 thỏi nhôm trên, trước hết, ta cần tính giá trị
giữa cho các nhóm.
Trọng lượng trung bình của 50 thỏi nhôm:

 Trung vị
- Trung vị là giá trị nằm giữa của một tập dữ liệu được sắp thứ tự. Trung vị chia tập dữ liệu
ra thành 2 phần bằng nhau
- Tức là có 50% giá trị dữ liệu nhỏ hơn nó và 50% lớn hơn nó. Ta có thể thấy qua hình
Ta có 2 công thức tìm trung vị tùy theo tổng số quan sát n

n là số dữ liệu trong mẫu


Me là số trung vị
Trong trường hợp số giá trị dữ liệu trong tập dữ liệu là số lẻ thì giá trị nằm giữa tập dữ liệu là số
trung vị.
Trong trường hợp số giá trị dữ liệu là số chẵn thì ta sẽ lấy giá trị trung bình cộng của 2 giá trị ở
giữa làm số trung vị. Số trung vị có ký hiệu là Me
Ví dụ:
- Trong thí dụ thứ nhất, ta
thấy n = 7, lẻ, theo công
thức ta có Me= X(7+1)/2 =
X4. Vậy Me là giá trị ở vị trí
thứ 4, tức là 25.

- Trong thí dụ thứ hai, ta thấy


n = 6, chẵn, theo công thức
ta có Me= (X3 + X4)/2 =
(15 + 17)/2 = 16. Vậy Me là 16.
Ta khảo sát trường hợp dữ liệu trong bảng:

Khảo sát số cuộc gọi điện thoại đặt dịch vụ của khách hàng
trong 30 ngày đến một trạm dịch vụ được cho trong bảng
trên hình.
Yêu cầu: tính số cuộc gọi trung vị trong một ngày.
Để tìm giá trị này, ta tiến hành tính cột tần số tích lũy (trong thí dụ này là số ngày)
Tổng số quan sát trong trường hợp này là 30. Giá trị số cuộc gọi trung vị sẽ tương ứng với

tần số tích lũy 15,5 (= ( 30


2 ) 30
+( +1)
2
=31/2
). Vậy số cuộc gọi trung vị trong một ngày là 8 vì
2
nhóm này chứa các giá trị từ vị trí thứ 14 đến 22 trong đó có chứa giá trị thứ 15,5.
 Trường hợp tìm trung vị khi dữ liệu được phân nhóm có độ rộng nhóm
Số liệu trọng lượng của 50 thỏi nhôm nguyên liệu được phân
nhóm theo trọng lượng của thỏi nguyên liệu trình bày trong
bảng.
Yêu cầu: tính trung vị của trọng lượng 50 thỏi nhôm.

Để tính trung vị trong trường hợp dữ liệu phân nhóm có độ rộng nhóm, ta dùng công thức sau:

Trong đó: X Me(min): giới hạn dưới của nhóm chứa Me

W Me(min): độ rộng nhóm chứa Me

C Me−1: : tần số tích lũy của nhóm đứng trên nhóm chứa Me

f Me : tần số của nhóm chứa Me

Nhóm chứa Me là nhóm có tần số tích lũy lớn hơn hoặc bằng (n+1)/2.
Trong thí dụ này, nhóm chứa Me là nhóm 45 – 50.
Vậy, ta có giá trị của các số hạng như sau:
X Me(min)= 45

W Me(min)= 5

C Me−1= 19

f Me = 15

Thay vào công thức, ta có:


50
−19
M e= 45 + 5 × 2 = 47 (kg)
15
 Số mốt
- Mốt là giá trị dữ liệu xuất hiện nhiều nhất trong tập dữ liệu.

Trong thí dụ thứ nhất, ta thấy giá trị 117 xuất hiện 3 lần là nhiều nhất nên mốt bằng 117.

Trong thí dụ thứ hai, ta thấy có 2 giá trị có số lần xuất hiện nhiều nhất bằng nhau là 117
và 129. Vậy mốt bằng 117 và mốt bằng 129. Trường hợp này dữ liệu có 2 số mốt. như
vậy, ta có thể có nhiều giá trị mốt.

Trong thí dụ thứ 3, ta thấy không tồn tại số mốt nào. Do đó, trong trường hợp này không
có số mốt.
- Tóm lại, ta có thể gặp trường hợp không có số mốt, một số mốt và nhiều số mốt khi tính
toán trong thực tế.
- Bây giờ ta xét trường hợp dữ liệu trong một bảng
Thí dụ: Khảo sát số cuộc gọi điện thoại đặt dịch vụ của khách hàng trong 30 ngày đến một trạm
dịch vụ được cho trong bảng như sau
Yêu cầu: tính số cuộc gọi mốt
trong một ngày.
Từ bảng dữ liệu ta có số cuộc gọi
mốt = 8
Vì giá trị 8 có tần số lớn nhất là 9
Trong trường hợp này, số cuộc
gọi là biến và số ngày là tần số.

Bây giờ ta xét một thí dụ khác


Thí dụ: Số liệu trọng lượng của 50 thỏi nhôm nguyên liệu được phân nhóm theo trọng lượng
của thỏi nguyên liệu trình bày trong bảng như sau

Để tính số mốt trong trường hợp dữ liệu phân nhóm có độ rộng nhóm, ta dùng công thức sau:
f Mo−f Mo−1
M 0= x Mo (min) +w Mo ×
( f Mo −f Mo−1 ) +¿ ¿
Trong đó: xMo(min): giới hạn dưới của nhóm chứa mốt
wMo : độ rộng nhóm của nhóm chứa mốt
fMo: tần nhóm của nhóm chứa mốt
fMo-1 : tần số của nhóm đứng trên nhóm chứa mốt
fMo+1: tần số của nhóm đứng dưới nhóm chứa mốt
Lưu ý: các nhóm có độ rộng bằng nhau.
Trong thí dụ này, ta có: xMo(min) = 45
wMo = 5
fMo = 15
fMo-1 = 12
fMo+1 = 10
15−12
Thay vào công thức, ta có: M 0= 45 + 5 × = 46,9 (kg)
( 15−12 ) +(15−10)

b. Hình dáng dữ liệu


Hình dáng tập dữ liệu có thể được đánh giá
thông qua biểu đồ dạng thanh hoặc so
sánh giá trị trung bình và trung vị. Nếu
giá trị trung bình bằng trung vị, ta có hình
dáng đối xứng. Nếu giá trị trung bình lớn
hơn trung vị, ta có hình dáng dữ liệu
nghiêng phải. Khi giá trị trung bình nhỏ
hơn trung vị, dữ liệu có hình dáng nghiêng
trái.
c. Độ phân tán của dữ liệu
Có nhiều giá trị giúp ta đánh giá độ phân tán của dữ liệu.
 Khoảng biến thiên
- Khoảng biến thiên là sự chênh lệch giữa giá trị lớn nhất và nhỏ nhất trong tập dữ liệu. ký
hiệu của khoảng biến thiên là R.
- Thí dụ, xác định khoảng biến thiên của dữ liệu sau

Ta thấy giá trị dữ liệu nhỏ nhất là 91, giá trị dữ liệu lớn nhất là 134.
Vậy khoảng biến thiên R = 134 – 91 = 43
- Khoảng biến thiên càng lớn thì độ phân tán càng lớn.

 Ngoài khoảng biến thiên, người ta thường dùng phương sai và độ lệch chuẩn
để đánh giá độ phân tán
- Phương sai tổng thể được tính bằng công thức
N

∑ (x i−μ)2
σ
2
= i=1
N
Trong đó: σ là phương sai tổng thể
2

N là số phần tử của tổng thể


xi là giá trị dữ liệu thứ i
μ là giá trị trung bình của tổng thể
- Đối với dữ liệu từ mẫu, phương sai của mẫu được tính theo công thức
n

∑ (x i−x )2
s
2
= i=1
n−1

Trong đó: s là phương sai mẫu


2

n là số phần tử của mẫu


x i i là giá trị dữ liệu thứ i

x là giá trị trung bình của mẫu


- Phương sai đóng vai trò quan trọng khi thể hiện sự phân tán của tập dữ liệu. Tuy nhiên,
do đơn vị của phương sai thường là bình phương của đơn vị của giá trị dữ liệu trong tập
dữ liệu, nên người ta thường dùng độ lệch chuẩn.

- Độ lệch chuẩn tổng thể


σ =√ σ 2
Trong đó: σ là phương sai tổng thể
2

 là độ lệch chuẩn tổng thể


- Độ lệch chuẩn mẫu
s = √s 2

- Phương sai và độ lệch chuẩn càng lớn thì độ phân tán của dữ liệu càng lớn.
Thí dụ: tính phương sai và độ lệch chuẩn trong thí dụ sau

 Hệ số biến thiên, ký hiệu CV


- Hệ số biến thiên được tính bằng công thức
s
CV = 100 × x

Trong đó: CV: hệ số biến thiên


s: độ lệch chuẩn mẫu
x là giá trị trung bình của mẫu

- Hệ số biến thiên thường được dùng để so sánh sự phân tán giữa các tập dữ liệu khác nhau.
- Hệ số biến thiên càng cao thì độ phân tán càng cao.
- Thí dụ:
Trong xưởng may, người ta thu được kết quả lỗi phát sinh trong các phân xưởng 1 và 2
như sau:
Phân xưởng 1: 𝑥̄= 134,51 và s=24,94
Phân xưởng 2: 𝑥̄= 22,72 và s=14,08
Tính CV của 2 phân xưởng trên, ta có:
Phân xưởng 1: CV = 100×(24,94)/(134,51) = 19%
Phân xưởng 2: CV = 100×(14,08)/(22,72) = 62%
Ta thấy hệ số biến thiên của phân xưởng 2 cao hơn các phân xưởng 1 hay độ phân tán
tương đối của các lỗi phát sinh trong quá trình sản xuất của phân xưởng 2 cao hơn phân
xưởng 1.

 Độ lệch tuyệt đối trung bình


- Độ lệch tuyệt đối trung bình được tính bằng công thức
n

MAD = ∑ | x i−x|
i=1
n

Trong đó: MAD: Độ lệch tuyệt đối trung bình mẫu


xi: giá trị dữ liệu thứ i trong mẫu
x ̄là giá trị trung bình của mẫu

- Độ lệch tuyệt đối trung bình cho ta cách tính đơn giản và nhanh chóng về giá trị trung
bình của các độ lệch của các giá trị trong tập dữ liệu so với giá trị trung bình.
- Thí dụ: ta khảo sát số lượng chai trà xanh bán được tại 2 cửa hàng bán nước giải khát đặt
tại cửa hàng Bắc và cửa hàng Nam. Số chai trà xanh thu thập cùng thời điểm tại 2 nơi
trong 5 ca bán hàng cho kết quả như sau:
Cửa hàng Nam: 20, 40, 50, 60, 80
Cửa hàng Bắc: 20, 49, 50, 51, 80
Yêu cầu tính độ lệch tuyệt đối trung bình của 2 mẫu khảo sát trên.
Ta thấy, đối với cửa hàng Bắc:
20+40+ 50+60+80
Trung bình: x = 5
= 50
Đối với cửa hàng Nam:
20+49+50+ 51+ 80
Trung bình: x = 5
= 50
Độ lệch tuyệt đối trung bình của cửa hàng Bắc:
|20−50|+|40−50|+|50−50|+|60−50|+|80−50|
MAD = = 16
5
Độ lệch tuyệt đối trung bình của cửa hàng Nam:
|20−50|+|49−50|+|50−50|+|51−50|+|80−50|
MAD = = 12,4
5
Ta thấy dù 2 cửa hàng có cùng doanh số trung bình theo ngày là 50 chai. Tuy nhiên, dựa
vào độ lệch tuyệt đối trung bình thì doanh số bán hàng cửa hàng Nam có độ phân tán ít
hơn doanh số bán hàng của cửa hàng Bắc.
4. Tóm tắt các chỉ tiêu thống kê
a. Quy tắc thực nghiệm của dữ liệu
- Hình trên cho thấy:

68% dữ liệu nằm trong khoảng [-sigma,+sigma]


95% dữ liệu nằm trong khoảng [-2sigma,+2sigma]
99,7% dữ liệu nằm trong khoảng [-3sigma,+3sigma]

- Qui tắc thực nghiệm: Đối với tập dữ liệu có dạng phân phối đối xứng, tức là phân phối có
dạng hình quả chuông thì có khoảng 68% giá trị quan sát nằm trong khoảng cộng trừ độ
lệch chuẩn từ giá trị trung bình, có khoảng 95% giá trị quan sát nằm trong khoảng cộng
trừ 2 lần độ lệch chuẩn từ giá trị trung bình và có khoảng 99,7% giá trị quan sát nằm
trong khoảng cộng trừ 3 lần độ lệch chuẩn từ giá trị trung bình.
Ta ứng dụng quy tắc thực nghiệm để tìm các giá trị dị biệt trong dữ liệu được cho
như trên hình.

Trước tiên, ta tính giá trị trung bình và độ lệch chuẩn của dữ liệu.
Ta tính được:
𝑥̄= 22,72 và s = 14,08
Theo qui tắc thực nghiệm, ta có:
𝑥̄± 2𝑠 = 22,72 ± 2(14,08). Tức là có 95,44% số giá trị dữ liệu nằm trong
khoảng -5,4 đến 50,9.
5% số dữ liệu nằm ngoài khoảng này được coi như là giá trị dị biệt. Do đó,
các giá trị như 55, 68, 91 là các giá trị dị biệt của tập dữ liệu trên.

b. Tứ phân vị
- Về định nghĩa, tứ phân vị là bộ ba số Q1, Q2, Q3 chia tập dữ liệu ra làm 4 phần bằng
nhau. Trong đó, Q2 chính là trung vị. Q1 là trung vị của dãy dữ liệu từ Xmin đến Q2 và
Q3 là trung vị của dãy dữ liệu từ Q2 đến Xmax. 3 giá trị Q1, Q2, Q3 chia dãy dữ liệu
Xmin, Xmax thành 4 phần bằng nhau.
- Gọi L1, L2 và L3 là vị trí của Q1, Q2 và Q3 trong tập dữ liệu.
Ta có công thức tính L1, L2 và L3 như sau:
25
L1= (n+1)
100
50
L2= (n+1)
100
75
L3= (n+1)
100

Sau khi xác định được vị trí của các tứ phân vị thì giá trị của dữ liệu tại các vị trí đó là
các tứ phân vị.
Lưu ý, dữ liệu phải được sắp xếp trước khi dùng vị trí xác định giá trị của các tứ phân vị.

Xét thí dụ với dữ liệu như hình, ta có


L1 = (15 + 1)x0,25 = 4
L2 = (15 + 1)x0,5 = 8
L3 = (15 + 1)x0,75 = 12
Ta thấy giá trị ứng với vị trí 4 là 1721. Vậy Q1 = 1721
Ta thấy giá trị ứng với vị trí 8 là 2038. Vậy Q2 = 2038
Ta thấy giá trị ứng với vị trí 12 là 2205. Vậy Q1 = 2205
c. Biểu đồ hộp
- Biểu đồ hộp là biểu diễn bằng hình của bộ 5 giá trị: Xmin, Q1, Q2, Q3 và Xmax như trên
hình

- Trong biểu đồ hộp, có độ trải giữa. độ trải giữa được tính bằng công thức Q3 – Q1.
- Biểu đồ hộp được dùng để trình bày hình dáng của phân phối của dữ liệu. khi khoảng
cách giữa Xmin, Q1, Q2, Q3 và Q4 gần bằng nhau, ta có dữ liệu có hình dáng cân đối.
- Biểu đồ hộp được dùng để so sánh hình dáng của dữ liệu giữa các biến với nhau.
- Ta có thể dùng độ trãi giữa của biểu đồ hộp để phát hiện dữ liệu dị biệt.
- Độ trải giữa chứa 50% giá trị dữ liệu nằm ở giữa tập dữ liệu.
- Để xác định các giá trị dị biệt, ta thiết lập cận dưới và cận trên cho tập dữ liệu. Các giá trị
nằm ngoài 2 cận này là các giá trị dị biệt.
Cận dưới = Q1 – 1,5 × độ trải giữa
Cận trên = Q3 + 1,5 × độ trải giữa
Xét dữ liệu thí dụ sau

Ta có n = 68, các tứ phân vị:


25 25
L1= (n+1) = (68 + 1) = 17,25
100 100

Do đó: Q1 = 14 + 0,25(14-14) = 14
50 50
L2= (n+1) = (68 + 1) 100 = 34,5
100

Do đó: Q2 = 19 + 0,5(19-19) = 19
75 75
L3= (n+1) = (68 + 1) = 51,75
100 100

Do đó: Q3 = 26 + 0,75(26-26) = 26
Tóm lại: tứ phân vị của tập dữ liệu là: Q1 = 14, Q2 = 19, Q3 = 26
Xmin = 7, xmax = 91
Biểu đồ hộp được trình bày như hình.

Để xác định cận dưới và cận trên, ta áp dụng công thức


Cận dưới = 14 – 1,5 × (26 – 14) = -22
Cận trên = 26 + 1,5 × (26 – 14) = 62
Như vậy, các giá trị 68 và 91 là các giá trị dị biệt do các giá trị này lớn hơn cận trên là 62.

CHƯƠNG 3: ỨNG DỤNG THỐNG KÊ MÔ TẢ


1. Trình bày dữ liệu bằng bảng và biểu đồ

You might also like