You are on page 1of 122

Chương 1: THỐNG KÊ

NGUYỄN THỊ THU THỦY(1)

VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC


ĐẠI HỌC BÁCH KHOA HÀ NỘI

HÀ NỘI–2023

(1)
Email: thuy.nguyenthithu2@hust.edu.vn
Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 1 / 122
GIỚI THIỆU HỌC PHẦN

1 Vai trò của học phần: Thống kê suy diễn đóng vai trò trung tâm của ứng dụng toán học, là bài toán xử
lý số liệu cần thiết cho nhiều vấn đề thực tiễn kinh tế và xã hội.
2 Mô tả học phần:
1 Cung cấp cách tiếp cận tổng quan về suy luận và phân tích định lượng dựa trên các số liệu
mẫu thống kê.
2 Cung cấp các ý tưởng và thuật toán tính toán tương ứng.
3 Nội dung học phần:
1 Thống kê
2 Ước lượng tham số
3 Kiểm định giả thuyết với một mẫu và nhiều mẫu. Kiểm định phi tham số
4 Phân tích tương quan và hồi quy
5 Mở đầu về phân tích chuỗi thời gian

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 2 / 122


MỤC TIÊU CỦA HỌC PHẦN

1 Trang bị các kiến thức lý thuyết và kỹ năng tính toán về mẫu thống kê trong thống kê mô tả và thống kê
suy diễn nhằm phân tích các số liệu kinh tế. Sau học phần này sinh viên biết:
1 Biểu diễn, sử dụng số liệu thống kê.
2 Ước lượng tham số.
3 Kiểm định giả thuyết cho các bài toán một và nhiều mẫu. Kiểm định giả thuyết phi tham số.
4 Phân tích tương quan và hồi quy đơn biến và đa biến.
5 Phân tích chuỗi thời gian.
2 Sinh viên biết vận dụng ngôn ngữ R để giải quyết các vấn đề liên quan với nội dung học phần và tiếp cận
nghiên cứu các bài toán thực tế trong kinh tế, kỹ thuật.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 3 / 122


GIỚI THIỆU CHƯƠNG 1

Chương này trình bày về mẫu ngẫu nhiên và phân phối mẫu. Nội dung bao gồm
Khái niệm cơ bản về thống kê; Tổng thể và mẫu; Trình bày mẫu dữ liệu; Đặc trưng mẫu.
Mẫu ngẫu nhiên và phân phối mẫu.
Hướng dẫn sử dụng phần mềm thống kê R.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 4 / 122


MỤC TIÊU CHƯƠNG 1

Giúp sinh viên:


1 Giải thích các khái niệm chung về thống kê; tổng thể và mẫu; mẫu ngẫu nhiên.
2 Biết cách tính các đặc trưng mẫu.
3 Giải thích các khái niệm chung về phân phối mẫu.
4 Biết cách áp dụng định lý giới hạn trung tâm.
5 Biết sử vận dụng ngôn ngữ R để biểu diễn và làm việc với dữ liệu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 5 / 122


1.1 Một số khái niệm cơ bản của thống kê

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 6 / 122


1.1 Một số khái niệm cơ bản của thống kê 1.1.1 Thống kê là gì?

Thống kê là gì?

Thống kê (Statistics) gần gũi với những người đang học, nghiên cứu, hoạt động làm việc ở các ngành
nghề, lĩnh vực liên quan đến dữ liệu: Data Alalytics, Data Science.
Thống kê, được nhiều chuyên gia cho rằng, là kiến thức nền tảng, cơ sở để ta bắt đầu tìm hiểu được, học
được, trích xuất được những thông tin hữu ích, có giá trị từ bộ dữ liệu.
Thống kê đã ra đời từ lâu, nhưng gần đây mới nhận được nhiều sự quan tâm của các tổ chức, doanh
nghiệp. Nguyên nhân từ sự phát triển của khoa học công nghệ Big Data; I.o.T (Internet of Things); xu
hướng ứng dụng phổ biến những thành tựu Al (Trí tuệ nhân tạo), Machine Learning (máy học) vào hoạt
động kinh doanh, đời sống xã hội. . . đang gia tăng.
Định hướng dữ liệu đã dần trở thành chiến lược cốt lõi, khi nhiều công ty dựa vào dữ liệu để ra quyết
định, coi dữ liệu là tài sản quan trọng nhất.
Thống kê giúp các nhà phân tích có cái nhìn chi tiết, sâu sắc về dữ liệu, cũng như các biến, các đối tượng
có trong dữ liệu hỗ trợ nhiều trong việc ra quyết định và dự báo trong tương lai.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 7 / 122


1.1 Một số khái niệm cơ bản của thống kê 1.1.1 Thống kê là gì?

Thống kê là gì?

“Thống kê là một khoa học đồng thời là một công nghệ cung cấp cho ta những phương pháp, công cụ để
thu thập và tạo dữ liệu, trình bày và phân tích dữ liệu để hiểu nội dung ẩn chứa trong dữ liệu. Từ đó rút
ra những thông tin, tri thức hữu ích và đưa ra những quyết định, chính sách thích hợp”.(2)
“Thống kê là nghệ thuật và khoa học của thiết kế các nghiên cứu và phân tích dữ liệu mà những nghiên
cứu đó tạo ra. Mục tiêu cuối cùng của nó là chuyển dữ liệu thành kiến thức và hiểu biết về thế giới xung
quanh chúng ta. Thống kê là khoa học học hỏi từ dữ liệu liên quan đến việc thu thập, phân loại, tóm tắt,
tổ chức, phân tích, trình bày và giải thích thông tin dữ liệu” (3) .

(2)
Đặng Hùng Thắng, Trần Mạnh Cường (2019), Thống kê cho Khoa học xã hội và Khoa học sự sống, NXB Đại học Quốc gia Hà Nội
(3)
"Statistics: The Art and Science of Learning from Data" (4th Global Edition 2018) – NXB Pearson
Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 8 / 122
1.1 Một số khái niệm cơ bản của thống kê 1.1.1 Thống kê là gì?

Thống kê là gì?

“Thống kê là khoa học của việc thu thập, tổ chức, trình bày, phân tích và diễn giải dữ liệu để giúp đưa ra
quyết định hiệu quả hơn” (4) .
“Thống kê là nghệ thuật và khoa học của việc thu thập, phân tích, trình bày và giải thích dữ liệu. Riêng
trong kinh doanh và kinh tế, thông tin được cung cấp bằng cách thu thập, phân tích, trình bày và giải
thích dữ liệu giúp nhà quản lý và người ra quyết định hiểu rõ hơn về môi trường kinh doanh và kinh tế và
do đó cho phép họ đưa ra quyết định sáng suốt hơn và tốt hơn” (5) .

(4)
"Basic Statistics for Business and Economics" (9th Edition 2019), NXB Mc Graw Hill
(5)
"Statistics for Business and Economics" (13th Edition 2017) của Senpage Learning
Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 9 / 122
1.1 Một số khái niệm cơ bản của thống kê Tầm quan trọng của thống kê

Tầm quan trọng của thống kê

Dữ liệu sau khi thu thập cần được áp dụng kiến thức thống kê để chuyển đổi thành các thông tin hữu ích.
Các kỹ thuật thống kê được sử dụng không chỉ để đưa ra các quyết định chuyên nghiệp (ví dụ kết luận
kinh doanh ở một công ty) mà còn ở các quyết định cá nhân.
Bất kể làm công việc gì cũng cần có kiến thức về thống kê để hiểu thêm về thế giới xung quanh và hỗ trợ
tăng sự hiệu quả, năng suất cho công việc.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 10 / 122


1.1 Một số khái niệm cơ bản của thống kê Tầm quan trọng của thống kê

Tầm quan trọng của thống kê

Việc nghiên cứu một hiện tượng xã hội thường được bắt đầu bằng một giả thuyết. Tiếp theo, để kiểm
nghiệm giả thuyết đó. Một quy trình phải được tiến hành với các bước:
1. Thiết kế, thu thập dữ liệu (loại dữ liệu nào cần thu thập; dùng cách nào để thu thập; cần bao nhiêu dữ
liệu).
2. Tổng hợp, phân tích, diễn dịch ý nghĩa của dữ liệu để hiểu nội dung dữ liệu.
3. Trên cơ sở nhận thức nội dung dữ liệu đã thu thập và phân tích đưa ra những nhận định về giả thuyết đó.
Mỗi một quy trình trên đều cần sử dụng các phương pháp thống kê. Các phương pháp thống kê giúp cho
các nhà nghiên cứu trong lĩnh vực này thu thập dữ liệu và thiết kế thí nghiệm đúng đắn. Sau khi hoàn
thành một thí nghiệm, nhà nghiên cứu cần sử dụng thống kê để đánh giá kết quả thí nghiệm là có ý nghĩa
hay chỉ mang tính ngẫu nhiên, ăn may.
✍ Một nhà xã hội học nổi tiếng có nói một cách hình ảnh rằng: “Thiếu khoa học thống kê, nhà nghiên cứu xã
hội học chẳng khác nào một người mù mò mẫm trong căn nhà kho tối đen để tìm được một con mèo đen mà
có khi nó đã không còn ở trong đó nữa”.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 11 / 122


1.1 Một số khái niệm cơ bản của thống kê Tầm quan trọng của thống kê

Ví dụ

Ví dụ 1

Wal–Mart, một hãng bán lẻ hàng đầu trên thế giới, đã thu thập thông tin về tất cả các giao dịch
hành vi mua sắm của khách hàng một cách tự động bằng cách quét mã vạch trên các sản phẩm
khách hàng mua.
Hãng sử dụng đội ngũ các nhà thống kê để phân tích khối dữ liệu khổng lồ đó.
Những thông tin rút ra được giúp các nhà quản lý đưa ra các biện pháp để tăng doanh số bán hàng.
Ví dụ, Wal-Mark đã quyết định sắp mặt hàng bia và mặt hàng tã lót dùng một lần gần nhau khi phân
tích dữ liệu cho thấy nhiều khách hàng nam cũng mua bia khi họ đến cửa hàng mua tã lót cho con.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 12 / 122


1.1 Một số khái niệm cơ bản của thống kê Tầm quan trọng của thống kê

Ví dụ

Ví dụ 2

Để chứng minh rằng việc hút thuốc lá có liên quan đến bệnh ung thư phổi, nhà nghiên cứu khảo sát
hai nhóm người, một nhóm hút thuốc và một nhóm không hút thuốc và so sánh tỷ lệ mắc ung thư
phổi của hai nhóm này.
Nếu thấy rằng tỷ lệ ung thư phổi trong nhóm hút thuốc cao hơn thì cần chứng tỏ rằng sự khác biệt
này có ý nghĩa thống kê chứ không đơn thuần là ngẫu nhiên.
Nếu sự khác biệt này chưa đủ lớn để có ý nghĩa thống kê thì nhà nghiên cứu phải tiếp tục khảo sát,
nghiên cứu thêm.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 13 / 122


1.1 Một số khái niệm cơ bản của thống kê 1.1.2 Thống kê mô tả. Thống kê suy luận

Thống kê mô tả. Thống kê suy luận

1 Thống kê mô tả (Descriptive Statistics): Một nhiệm vụ quan trọng của thống kê là thu thập, tổ chức
và trình bày dữ liệu. Công nghệ hiện đại đang cho phép có khả năng thu thập dữ liệu với số lượng rất lớn
với chi phí rất thấp. Tuy nhiên “núi” dữ liệu thu thập được nói chung sẽ rất ít giá trị nếu ta không biết
cách sắp xếp, tổ chức thích hợp. Thống kê mô tả cung cấp cho ta những phương pháp để tổ chức, mô tả
và trình bày các dữ liệu thu thập được sao cho người đọc sẽ hiểu được các dữ liệu này một cách tốt nhất.
2 Thống kê suy luận (Inferential Statistics): Nhiệm vụ quan trọng thứ hai của thống kê là phân tích dữ
liệu để hiểu được nội dung ẩn chứa trong dữ liệu. Nhà nghiên cứu rất ít khi có khả năng xem xét toàn bộ
các cá thể của tổng thể. Thống kê suy luận có nhiệm vụ xây dựng các phương pháp cho phép ta suy diễn
ra các kết luận, lập các dự báo (với một độ chính xác nào đó) về toàn bộ tổng thể căn cứ trên một mẫu
dữ liệu thu thập.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 14 / 122


1.2 Tổng thể và mẫu

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 15 / 122


1.2 Tổng thể và mẫu

Tổng thể và mẫu

Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên có tính chất số lớn trên
cơ sở thu thập và xử lý số liệu thống kê các kết quả quan sát về những hiện tượng ngẫu nhiên này.
Nếu ta thu thập được các số liệu liên quan đến tất cả đối tượng cần nghiên cứu thì ta có thể biết được đối
tượng này (phương pháp toàn bộ).
Tuy nhiên trong thực tế điều đó không thể thực hiện được vì quy mô của các đối tượng cần nghiên cứu quá
lớn hoặc trong quá trình nghiên cứu đối tượng nghiên cứu bị phá hủy. Vì vậy cần lấy mẫu để nghiên cứu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 16 / 122


1.2 Tổng thể và mẫu 1.2.1 Tổng thể

Khái niệm tổng thể

Khi nghiên cứu các vấn đề về kinh tế - xã hội, cũng như nhiều vấn đề thuộc các lĩnh vực vật lý, sinh vật, quân
sự . . . thường dẫn đến khảo sát một hay nhiều dấu hiệu (định tính hoặc định lượng) thể hiện bằng số lượng trên
nhiều phần tử.
Tập hợp tất cả các phần tử này gọi là tổng thể hay đám đông (population).
Số phần tử trong tổng thể có thể rất lớn (tổng thể là loài người) cũng có thể rất nhỏ (tổng thể các con
gấu trúc).
Cần nhấn mạnh rằng ta không nghiên cứu trực tiếp bản thân tổng thể mà chỉ nghiên cứu dấu hiệu nào đó
của nó.
Ký hiệu N là số phần tử của tổng thể; X là dấu hiệu cần khảo sát.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 17 / 122


1.2 Tổng thể và mẫu 1.2.1 Tổng thể

Ví dụ

Ví dụ 3

(a) Muốn điều tra thu nhập bình quân của các hộ gia đình ở Hà Nội thì
Tổng thể cần nghiên cứu là toàn bộ các hộ gia đình ở Hà Nội;
Dấu hiệu nghiên cứu là thu nhập của từng hộ gia đình (dấu hiệu định lượng).
(b) Một doanh nghiệp muốn nghiên cứu các khách hàng của mình. Tổng thể là toàn bộ các khách hàng
của doanh nghiệp.
Dấu hiệu định tính có thể là mức độ hài lòng của khách hàng đối với sản phẩm hoặc dịch vụ của
doanh nghiệp;
Dấu hiệu định lượng là số lượng sản phẩm mà khách hàng mua của doanh nghiệp.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 18 / 122


1.2 Tổng thể và mẫu 1.2.1 Tổng thể

Ví dụ

Ví dụ 4

Một nhà máy sản xuất 5.000.000 sản phẩm. Ta muốn đánh giá tỷ lệ phế phẩm trong các sản phẩm của nhà
máy.
Tổng thể cần nghiên cứu là 5.000.000 sản phẩm của nhà máy.
Dấu hiệu nghiên cứu là một sản phẩm có phải là phế phẩm hay không.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 19 / 122


1.2 Tổng thể và mẫu 1.2.1 Tổng thể

Một số lý do không thể khảo sát toàn bộ tổng thể

Do quy mô của tổng thể cần nghiên cứu quá lớn nên việc nghiên cứu toàn bộ sẽ đòi hỏi nhiều kinh phí và
thời gian.
Trong nhiều trường hợp không thể biết được toàn bộ các phần tử của tổng thể cần nghiên cứu.
Có thể trong quá trình điều tra sẽ phá hủy đối tượng nghiên cứu. . .

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 20 / 122


1.2 Tổng thể và mẫu 1.2.2 Tập mẫu

Khái niệm tập mẫu

Thay vì khảo sát tổng thể, ta chỉ cần chọn ra một tập nhỏ để khảo sát và đưa ra quyết định. Việc chọn ra
từ tổng thể một tập hợp con nào đó được gọi là phép lấy mẫu.
Tập hợp con được chọn được gọi là tập mẫu.
Số phần tử trong tập mẫu được gọi là kích thước mẫu hoặc cỡ mẫu, ký hiệu là n.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 21 / 122


1.2 Tổng thể và mẫu 1.2.2 Tập mẫu

Ví dụ

Ví dụ 5

Với số liệu trong Ví dụ 4, ta không có đủ thời gian và tiền bạc để xem xét toàn bộ 5.000.000 sản phẩm.
Ta chọn ra một mẫu gồm 500 sản phẩm để kiểm tra và phát hiện có 20 sản phẩm mắc lỗi.
Tỷ lệ phế phẩm trong mẫu kiểm tra này là 20/500 = 0, 04 = 4%. Từ đó, ta nhận định tỷ lệ phế phẩm
của nhà máy này khoảng 4%.

Ví dụ 6
Ta muốn đánh giá số giờ trong một ngày mà một kỹ sư các ngành kỹ thuật sử dụng điện thoại. Vì số kỹ sư
các ngành kỹ thuật rất lớn, nên ta không thể điều tra trên tất cả các kỹ sư được.
Ta chọn ngẫu nhiên một mẫu gồm n = 50 kỹ sư để khảo sát và tìm được số giờ trung bình dùng điện
thoại của 50 kỹ sư này, chẳng hạn, là 2,7 giờ.
Con số 2,7 giờ cho ta một thông tin về việc sử dụng điện thoại của các kỹ sư các ngành kỹ thuật.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 22 / 122


1.2 Tổng thể và mẫu 1.2.3 Vấn đề chọn mẫu

Tại sao phải chọn mẫu?

Trong các chương tiếp theo ta sẽ nghiên cứu tổng thể thông qua mẫu.
Nói nghiên cứu tổng thể có nghĩa là nghiên cứu một hoặc một số đặc trưng nào đó của tổng thể. Ta
không thể đem tất cả các phần tử trong tổng thể ra nghiên cứu (vì số lượng lớn và các phần tử bị hỏng
nên vừa không đạt mục đích vừa không kinh tế) mà chỉ lấy một số phần tử trong tổng thể ra nghiên cứu
và làm sao qua việc nghiên cứu này có thể kết luận được về một hoặc một số đặc trưng của tổng thể mà
ta quan tâm ban đầu.
Các kết luận suy diễn từ mẫu có đáng tin cậy không?
Câu nói nổi tiếng của Mark Twain, nhà văn Anh “Có ba kiểu nói dối: Nói dối, nói dối trắng trợn và thống
kê” (“Thera are three kinds of lies: Lies, Damned lies and Statistics”).
Lý do không đáng tin cậy: Kết quả sai (mà ta gọi là dối trá) do thống kê đưa ra là do phương pháp lấy
mẫu không đúng: Việc lấy mẫu đã được tiến hành không khách quan, theo hướng có lợi cho người nghiên
cứu; Mẫu được chọn không đại diện.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 23 / 122


1.2 Tổng thể và mẫu 1.2.3 Vấn đề chọn mẫu

Tại sao phải chọn mẫu?

Ví dụ 7
Để điều tra mức thu nhập trung bình của sinh viên tốt nghiệp đại học mới ra trường, nếu mẫu được chọn
trong số các sinh viên tốt nghiệp ngành Công nghệ thông tin thì rõ ràng mức lương trung bình trong mẫu
không phản ánh trung thực mức lương trung bình của sinh viên mới ra trường nói chung.


Các kết luận suy diễn từ mẫu có đáng tin cậy chỉ đạt được nếu mẫu được chọn phản ánh trung thực, thực
sự đại diện cho tổng thể. Do đó, vấn đề chọn mẫu là một vấn đề rất quan trọng của thống kê.
Các kỹ thuật chọn mẫu đúng đắn sẽ giúp ta đảm bảo được tính đại diện trung thực cho tổng thể.
Để trả lời cho câu hỏi “làm sao chọn được tập mẫu có tính chất tương tự như tổng thể để các kết luận
của tập mẫu có thể dùng cho tổng thể” ta sử dụng một trong những cách chọn mẫu sau.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 24 / 122


1.2 Tổng thể và mẫu 1.2.3 Vấn đề chọn mẫu

Một số kỹ thuật chọn mẫu cơ bản

Lấy mẫu ngẫu nhiên: mỗi cá thể của tổng thể được chọn một cách độc lập với xác suất như nhau.
Lấy mẫu theo khối: Tổng thể được chia làm M khối. Chọn ngẫu nhiên ra m khối trong M khối đó. Tập
hợp tất cả các cá thể của m khối được chọn sẽ được lập thành một mẫu để khảo sát.
Phương pháp này được áp dụng khi ta không liệt kê danh sách tất cả các cá thể trong tổng thể.
Lấy mẫu phân tầng: Chia tổng thể ra một số tầng, sao cho các phần tử trong mỗi tầng khác nhau càng ít
càng tốt. Mỗi tầng được coi là một tổng thể con. Trong mỗi tầng ta sẽ thực hiện việc lấy mẫu ngẫu nhiên.
Phương pháp này được sử dụng khi các cá thể quá khác nhau về vấn đề mà nhà nghiên cứu đang quan
tâm khảo sát.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 25 / 122


1.2 Tổng thể và mẫu 1.2.3 Vấn đề chọn mẫu

Ví dụ

Ví dụ 8
Một doanh nghiệp có 20.000 kỹ sư được tuyển chọn từ các hệ đào tạo khác nhau, trong đó có 10.000 học
đại học chính quy, 2.000 học hệ liên thông, 2.000 học văn bằng hai, 5.000 học tại chức và 1.000 học sau đại
học. Để tiến hành khảo sát về mức độ hài lòng của doanh nghiệp đối với chất lượng công việc của các kỹ
sư, người ta chọn ngẫu nhiên 1.000 kỹ sư tham gia khảo sát. Bảng dưới đây trình bày một ví dụ về việc
chọn mẫu theo tầng, ở đó mỗi hệ đào tạo được xem là một tầng.

Hệ đào tạo Số kỹ sư Tỷ lệ % Số kỹ sư được chọn


Đại học chính quy 10.000 50 500
Đại học liên thông 2.000 10 200
Đại học văn bằng hai 2.000 10 200
Đại học tại chức 2.000 10 200
Sau đại học 1.000 5 50
Tổng 20.000 100 1.000

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 26 / 122


1.3 Biến và dữ liệu

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 27 / 122


1.3 Biến và dữ liệu 1.3.1 Biến và dữ liệu định lượng

Biến định lượng

Biến: là một dấu hiệu ta đang quan tâm nghiên cứu trên tổng thể. Ta gọi nó là biến vì nó thay đổi từ cá
thể này sang cá thể khác. Biến có thể là định lượng hay định tính.
Biến định lượng: Biến gọi là biến định lượng nếu nó có thể đo được trên mỗi cá thể và có giá trị là một
số. Ta gọi đó là giá trị của biến.

Ví dụ 9
Nghiên cứu số giờ làm thêm trong một tuần của sinh viên Đại học Bách khoa Hà Nội.
Đối tượng nghiên cứu là số giờ làm thêm trong một tuần của sinh viên Đại học Bách khoa Hà Nội.
Tổng thể ở đây là tập hợp toàn bộ sinh viên Đại học Bách khoa Hà Nội.
Mỗi sinh viên Đại học Bách khoa Hà Nội là một cá thể.
Biến ở đây là số giờ làm thêm trong một tuần.
Giá trị của biến là số thực không âm.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 28 / 122


1.3 Biến và dữ liệu 1.3.1 Biến và dữ liệu định lượng

Dữ liệu định lượng

Tập hợp các giá trị của biến định lượng trên toàn bộ tổng thể cho ta dữ liệu định lượng.
Theo ngôn ngữ toán học, biến định lượng là một ánh xạ X từ tổng thể P vào tập hợp số thực R.
Tập giá trị X(P ) là dữ liệu định lượng.
Tập hợp các giá trị của biến định lượng trên một mẫu lấy ra từ tổng thể gọi là mẫu số liệu.

Ví dụ 10
Để tìm hiểu mức lương hằng năm của các nhân viên trong các công ty nhỏ ở địa phương A, chọn ngẫu
nhiên một mẫu gồm 20 nhân viên làm việc trong các công ty nhỏ trong một năm. Biến định lượng ở đây là
thu nhập của nhân viên trong một năm. Kết quả cho ta mẫu số liệu sau (đơn vị: nghìn đô la)

48 23 27 46 24 28 17 39 43 35
53 45 14 24 21 41 31 23 18 19

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 29 / 122


1.3 Biến và dữ liệu 1.3.1 Biến và dữ liệu định lượng

Đơn vị đo biến định lượng

Đơn vị đo cho biến định lượng bao gồm đơn vị đo khoảng (interval scale) và đơn vị đo tỷ lệ (ratio scale).
Ở đơn vị đo khoảng, giá trị 0 (điểm gốc của đơn vị đo) có thể lấy tùy ý; Ở đơn vị đo tỷ lệ, giá trị 0 là
một trị số thật.
Cả hai đơn vị đo đều cho phép ta đo lường chính xác sự khác nhau giữa hai giá trị bất kỳ.
Trong đơn vị đo tỷ lệ, tỷ lệ giữa hai giá trị không thay đổi khi thay đổi đơn vị đo tỷ lệ; trong khi ở đơn vị
đo khoảng tỷ lệ giữa hai giá trị sẽ thay đổi khi thay đổi đơn vị đo khoảng.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 30 / 122


1.3 Biến và dữ liệu 1.3.1 Biến và dữ liệu định lượng

Ví dụ về giá trị 0 trong đơn vị đo cho biến định lượng

Ví dụ 11

Giả sử biến định lượng là nhiệt độ ngày 01/01 hằng năm. Ta có thể lấy đơn vị đo là: độ C (Celsius);
độ F (Fahrenheit); độ K (nhiệt độ tuyệt đối). Giá trị 0 độ ở ba đơn vị này là khác nhau:

0◦ C = 32◦ F ; 0◦ C = 273, 15◦ K; 1◦ C = 33, 8◦ F ; 1◦ C = 274, 15◦ K.

Giả sử biến định lượng là số tiền trong tài khoản của bạn ngày 01/01 hằng năm. Ta có thể lấy đơn vị
đo là: VNĐ hoặc USD. Bạn có thể có trong tài khoản 5 triệu hay 10 triệu VNĐ hoặc có 5000 hay
10000 USD. Tuy nhiên giá trị 0 dù ở đơn vị tiền tệ nào cũng có nghĩa là tài khoản của bạn không có
đồng nào.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 31 / 122


1.3 Biến và dữ liệu 1.3.1 Biến và dữ liệu định lượng

Ví dụ về tỷ lệ trong đơn vị đo cho biến định lượng

Ví dụ 12

Giả sử tài khoản bạn A có 5 triệu VNĐ, tài khoản bạn B có 10 triệu VNĐ. Như vậy tài khoản bạn B
có giá trị gấp đôi tài khoản bạn A. Nếu đổi đơn vị đo là đô la Mỹ, Bảng Anh, Yên Nhật thì giá trị tài
sản bạn B vẫn gấp đôi giá trị tài sản bạn A.
Nhiệt độ ngày 01/01 năm nay là 12◦ C = 53, 6◦ F và nhiệt độ ngày 01/01 năm ngoái là 6◦ C = 42, 8◦ F .
Như vậy nhiệt độ ngày 01/01 năm nay gấp đôi năm ngoái nếu theo đơn vị ◦ C, nhưng chỉ gấp
53,6
42,8
= 1, 252 nếu theo đơn vị ◦ F .

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 32 / 122


1.3 Biến và dữ liệu 1.3.2 Biến và dữ liệu định tính

Biến định tính

Biến định tính: Trên thực tế có những biến mà không thể gán giá trị bằng số cho nó tức là không thể đo
đạc bằng số. Chẳng hạn như màu mắt, màu tóc, cảm giác hạnh phúc. . . Biến này gọi là biến định tính.
Biến được gọi là biến định tính nếu giá trị của biến đó trên mỗi cá thể là việc gán cho cá thể đó một
thuộc tính hay gán nó vào một phạm trù, mức độ nào đó. Giá trị của biến định tính là một trong các
phạm trù (thuộc tính) mà nhà nghiên cứu đưa ra.

Ví dụ 13
Đối tượng nghiên cứu là nơi ở của sinh viên Đại học Bách khoa Hà Nội. Tổng thể ở đây là tập hợp tất các
sinh viên Đại học Bách khoa Hà Nội. Mỗi sinh viên Đại học Bách khoa Hà Nội là một cá thể. Biến ở đây là
nơi ở của sinh viên. Về nơi ở của sinh viên có thể gán vào một trong bốn phạm trù: ở nhà cha mẹ; ở ký túc
xá; ở nhà trọ; ở nhờ nhà bà con.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 33 / 122


1.3 Biến và dữ liệu 1.3.2 Biến và dữ liệu định tính

Dữ liệu định tính

Tập hợp các giá trị của biến định tính trên toàn bộ tổng thể cho ta dữ liệu định tính.
Giả sử nhà nghiên cứu đưa ra k phạm trù (thuộc tính) C1 , C2 , . . . , Ck . Theo ngôn ngữ toán học, biến
định tính là một ánh xạ X từ tổng thể P vào tập hợp {C1 , C2 , . . . , Ck }.
Tập hợp các giá trị của biến định tính trên một mẫu lấy ra từ tổng thể gọi là mẫu dữ liệu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 34 / 122


1.3 Biến và dữ liệu 1.3.2 Biến và dữ liệu định tính

Các loại biến định tính

Biến định tính bao gồm biến định danh (nomial variable) và biến định tính có thứ bậc (ordinal variable).
1 Đối với biến định danh, các phạm trù (thuộc tính) của biến chỉ dùng để phân loại các cá thể. Người ta có
thể mã hóa các phạm trù (thuộc tính) này bằng cách gán cho các phạm trù (thuộc tính) một trị số, nhưng
các số này chỉ có ý nghĩa là sự mã hóa các phạm trù (thuộc tính) mà không thể hiện quan hệ hơn kém.
2 Đối với biến định tính có thứ bậc, các phạm trù (thuộc tính) có thể so sánh với nhau và xếp hạng hơn
kém, cao thấp. Ta có thể mã hóa các phạm trù này bằng cách gán cho các phạm trù một con số thể hiện
quan hệ hơn kém.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 35 / 122


1.3 Biến và dữ liệu 1.3.2 Biến và dữ liệu định tính

Ví dụ về biến định danh

Ví dụ 14
Đối tượng nghiên cứu là màu sắc áo khoác mà các nam sinh viên Đại học Bách khoa Hà Nội ưa thích nhất.
Tổng thể ở đây là tập hợp tất cả các nam sinh Đại học Bách khoa Hà Nội.
Biến định tính là màu sắc áo khoác mà họ yêu thích nhất.
Người được hỏi có năm sự lựa chọn: Xanh; Vàng; Nâu; Trắng; Màu khác.
Đây là một biến định danh với 5 phạm trù. Ta mã hóa 5 phạm trù này như sau: “Xanh” gán số 1,
“Vàng” gán số 2, “Nâu” gán số 3, “Trắng” gán số 4, “Màu khác” gán số 5. Các con số này chỉ có ý
nghĩa là sự mã hóa, chúng không thể hiện quan hệ hơn kém. Do đó có thể mã hóa năm phạm trù này
bằng năm số bất kỳ khác.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 36 / 122


1.3 Biến và dữ liệu 1.3.2 Biến và dữ liệu định tính

Ví dụ về biến định tính có thứ bậc

Ví dụ 15
Một công ty thăm dò ý kiến khách hàng về một sản phẩm mà công ty mới tung ra.
Biến định tính ở đây là ý kiến của khách hàng về sản phẩm.
Khách hàng được yêu cầu đánh dấu vào một trong bốn ô trong phiếu thăm dò: Rất không thích;
Không thích; Thích; Rất thích.
Đây là một biến thứ bậc có bốn phạm trù. Ta mã hóa bốn phạm trù này như sau: “Rất thích” gán số
4; “Thích” gán số 3; “Không thích” gán số 2; “Rất không thích” gán số 1. Trong cách mã hóa này mức
độ thỏa mãn càng lớn thì được gán số càng cao.
Ta cũng có thể mã hóa bốn phạm trù này theo cách mức độ không thỏa mãn càng lớn thì được gán
số càng cao.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 37 / 122


1.4 Trình bày một mẫu dữ liệu

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 38 / 122


1.4 Trình bày một mẫu dữ liệu

Ví dụ

Thống kê mô tả được sử dụng để cung cấp những thông tin định lượng phức tạp của một bộ dữ liệu lớn thành
các mô tả đơn giản.

Ví dụ 16
Điểm trung bình của sinh viên (GPA) là một dạng thông tin có được từ ứng dụng thống kê mô tả trong
thực tiễn.
GPA là trung bình của dữ liệu từ một loạt các bài kiểm tra, lớp học và điểm số với nhau để xem xét
khả năng học tập chung của sinh viên.
Điểm trung bình cá nhân của sinh viên phản ánh kết quả học tập trung bình của sinh viên đó.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 39 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.1 Thu thập dữ liệu

Thu thập dữ liệu

Việc thu thập dữ liệu đòi hỏi nhiều thời gian, công sức và chi phí. Cho nên việc thu thập dữ liệu cần phải
tiến hành một cách khoa học, bài bản và có hệ thống.
Cần xác định rõ loại dữ liệu nào cần thu thập xuất phát từ vấn đề nghiên cứu.
Có hai nguồn dữ liệu:
- Nguồn dữ liệu thứ cấp (secondary data): nguồn có sẵn đã hoặc chưa công bố.
- Nguồn dữ liệu sơ cấp (primary data): nguồn do nhà nghiên cứu tự thu thập theo quy trình bài bản phục
vụ một mục tiêu và nội dung nghiên cứu đã xác định.
Những phương pháp để thu thập số liệu sơ cấp thường dùng
- Tiến hành thí nghiệm.
- Tiến hành quan sát, điều tra, khảo sát.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 40 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.1 Thu thập dữ liệu

Nhược điểm của các số liệu trong nghiên cứu kinh tế - xã hội

Hầu hết các dữ liệu đều có thể có sai số trong quan sát hoặc bỏ sót quan sát hoặc cả hai.
Với các dữ liệu được thu thập bằng thực nghiệm cũng có sai số của phép đo.
Trong các cuộc điều tra bằng câu hỏi, vấn đề không nhận được câu trả lời hoặc có trả lời nhưng không trả
lời hết các câu hỏi có thể gây ra các sai lầm nghiêm trọng, gây ra tính chệch của mẫu.
Các mẫu được thu thập trong các cuộc điều tra rất khác nhau cho nên rất khó khăn trong việc so sánh
kết quả giữa các đợt điều tra.
Ngoài ra còn có những dữ liệu thuộc bí mật quốc gia mà không phải ai cũng có thể sử dụng được.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 41 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.2 Phân loại dữ liệu

Phân loại dữ liệu

Phân loại dữ liệu là cơ sở quan trọng trong việc lựa chọn mô hình, phương pháp ước lượng và phân tích cho
phù hợp. Căn cứ vào phạm vi không gian và thời gian của dữ liệu, ta chia dữ liệu thành ba loại:
1 Chuỗi thời gian (Time Series Data): là chuỗi các dữ liệu được thu thập trong một thời kỳ hay một
khoảng thời gian lặp lại như nhau trên cùng một không gian, một địa điểm.
2 Dữ liệu chéo (Cross Data): là các dữ liệu về một hay nhiều biến được thu thập tại cùng một thời điểm
(thời kỳ) ở các không gian (địa phương, đơn vị. . . ) khác nhau.
3 Dữ liệu hỗn hợp (Panel Data): Các dữ liệu được thu thập theo thời gian và không gian.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 42 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.3 Tổng kết dữ liệu

Tổng kết dữ liệu

Một trong những nhiệm vụ của thống kê là miêu tả là tổng kết dữ liệu.
Một tập dữ liệu lớn, lộn xộn thường không đem lại thông tin gì, vì vậy ta cần tìm cách để trích xuất được
những thông tin chính, quan trọng từ đống dữ liệu này và biểu diễn chúng dưới dạng gọn nhẹ hơn, trực
quan hơn và dễ thấy được các xu thế, tính chất. . .

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 43 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Tại sao cần biểu diễn dữ liệu?

Trong thống kê, sau khi thu thập dữ liệu, bước tiếp theo là biểu diễn, mô tả và tổng kết dữ liệu.
Việc biểu diễn dữ liệu sẽ giúp trực quan hóa; dễ dàng hơn trong việc trích xuất thông tin quan trọng so
với việc sử dụng tập dữ liệu thô ban đầu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 44 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Ví dụ
Ví dụ 17

Giả sử điểm thi của 100 sinh viên theo thang điểm 100 được cho như sau

22 65 49 56 59 34 09 56 48 62 55 52 78 61 50 62 45 51 61 60 54 58 59 47 50
62 44 55 52 80 51 49 58 46 32 59 57 57 45 56 90 53 56 53 55 55 41 64 33 00
54 60 50 54 59 67 58 60 43 37 54 59 63 68 60 46 52 56 32 75 57 58 47 45 52
55 51 50 50 09 63 64 49 56 52 37 60 71 26 30 57 56 55 58 61 38 57 62 15 48

Các yêu cầu, câu hỏi đặt ra có thể là


1 Hãy miêu tả, đánh giá ngắn gọn về phổ điểm của kỳ thi này?
2 Điểm trung bình là bao nhiêu?
3 Mức độ chênh lệch giữa các thí sinh tham dự kỳ thi thế nào?
4 Điểm cao nhất và thấp nhất?
5 So với kỳ thi năm trước thì kết quả kỳ thi này thế nào?

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 45 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Bảng phân phối tần số

Bảng phân phối tần số là bảng dùng để biểu diễn một tập dữ liệu cho biết các giá trị xuất hiện và số lần
xuất hiện mỗi giá trị đó.
Giả sử trong mẫu kích thước n có k giá trị khác nhau x1 < x2 < · · · < xk và số lần lặp lại giá trị xi là ni
(gọi là tần số) thì bảng sau đây gọi là bảng phân phối tần số:

Giá trị x1 x2 ... xk


(1)
Tần số n1 n2 ... nk

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 46 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Bảng phân phối thực nghiệm

Đôi khi ta cần đưa thêm các thông tin về tần suất, tần suất tích lũy vào bảng phân phối tần số và gọi là
bảng phân phối thực nghiệm
Giá trị x1 x2 ... xk Tổng
Tần số n1 n2 ... nk n
Tần suất f1 f2 ... fk 1
Tần suất tích lũy F1 F2 ... Fk
ni
trong đó, tỷ số giữa ni và cỡ mẫu n được gọi là tần suất và ký hiệu là fi , fi = n
.
Tần suất tích lũy Fi là tổng cộng dồn của các tần suất f1 , f2 , . . . , fi ,

Fi = f1 + f2 + · · · + fi .

Chú ý rằng f1 + f2 + · · · + fk = 1.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 47 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Bảng phân phối ghép lớp

✍ Trong nhiều trường hợp, bảng phân phối tần số như trên không còn phù hợp.
Khi điều tra với mẫu kích thước lớn, các giá trị mẫu nhận nhiều giá trị khác nhau song lại khá gần
nhau.
Khi dữ liệu điều tra không phải dạng số (khi thống kê điểm thi nhưng chỉ quan tâm đến tỷ lệ khá
giỏi. . . )
Khi đó, ta sử dụng bảng phân phối ghép lớp (grouped frequency distribution):
Dạng tần số:
Khoảng giá trị (a0 − a1 ] (a1 − a2 ] ... (ak−1 − ak ]
Tần số n1 n2 ... nk

Dạng tần suất:


Khoảng giá trị (a0 , a1 ] (a1 , a2 ] ... (ak−1 , ak ]
Tần suất f1 f2 ... fk

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 48 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Bảng phân phối ghép lớp

✍ Câu hỏi đặt ra là chia dữ liệu (nếu cần) thành bao nhiêu lớp là phù hợp?
Theo quy ước truyền thống. Chẳng hạn khi xét điểm của sinh viên cần lưu ý đến quy định trên từ 90% trở
lên ứng với điểm A+ ; từ 85% đến dưới 90% là điểm A. . . , dưới 40% tương ứng với điểm F .
Khi không có quy ước, việc chia lớp là tùy ý, tuy nhiên ta không nên chia quá ít hoặc quá nhiều khoảng vì
như vậy việc biểu diễn sẽ không giúp gì nhiều trong việc nắm bắt thông tin về dữ liệu. Ngoài ra độ rộng
các khoảng cũng không nhất thiết phải bằng nhau mà nên điều chỉnh để số quan sát rơi vào mỗi khoảng
không quá chênh lệch. Lưu ý là các khoảng trung tâm thường chứa nhiều quan sát hơn các khoảng biên.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 49 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Bảng phân phối ghép lớp

Ví dụ 18
Bảng phân phối ghép lớp cho số liệu điểm thi trong Ví dụ 17 với các khoảng điểm được chia theo điểm chữ
A+ , A, B + , B, C + , C, D+ , D và F

Khoảng Tần số Tần suất Độ rộng khoảng


< 40 13 0,13 40
[40; 50) 15 0,15 10
[50; 55) 19 0,19 5
[55; 65) 44 0,44 10
[65; 70) 4 0,04 5
[70; 80) 3 0,03 10
[80; 85) 1 0,01 5
[85; 100) 1 0,01 10

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 50 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.4 Bảng dữ liệu

Các dạng bảng dữ liệu

Từ việc trình bày một mẫu số liệu ở trên, ta thấy các số liệu có thể cho ở các dạng sau đây:
1 Dạng liệt kê: Các số liệu thu được được ghi lại thành dãy x1 , x2 , . . . , xn .
2 Dạng rút gọn: Các số liệu ghi ở bảng phân phối tần số/tần suất.
3 Dạng khoảng: Các số liệu cho ở bảng phân phối ghép lớp.
Nếu độ dài các khoảng chia bằng nhau, ta có thể chuyển về dạng rút gọn:
Giá trị x1 x2 ... xk
Tần số n1 n2 ... nk

trong đó xi là điểm đại diện cho (ai−1 , ai ] thường được xác định là trung điểm của đoạn đó:
1
xi = (ai−1 + ai ).
2

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 51 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.5 Biểu đồ

Biểu đồ hình cột, biểu đồ hình quạt

Một câu ngạn ngữ Trung Hoa “Một hình ảnh có tác dụng bằng một nghìn lời nói”. Để có được một hình ảnh rõ
ràng và dễ nhớ về mẫu các giá trị của biến ngẫu nhiên X, ta dùng các đồ thị và các biểu đồ để thể hiện chúng.
Biểu đồ hình cột (bar chart): là biểu đồ nhằm biểu diễn cho dữ liệu được phân nhóm (thường dùng cho
dữ liệu định tính) như các tháng trong năm, các nhóm tuổi. . . Các nhóm được biểu diễn thường xuất hiện
theo trục hoành, trục tung là chiều cao của các hình chữ nhật tỷ lệ với giá trị được biểu diễn. Mục tiêu
của việc dùng biểu đồ hình cột là đưa ra so sánh giữa các nhóm.
Biểu đồ hình quạt (pie chart): cũng được dùng để biểu diễn dữ liệu được phân nhóm, nhưng các nhóm
được biểu diễn bằng các hình quạt trong hình tròn. Số lượng hoặc tỷ lệ của mỗi hạng mục (mỗi nhóm) tỷ
lệ với diện tích hình quạt biểu diễn nó. Biểu đồ này thường dùng để phân tích hoặc so sánh ở mức độ tổng
thể.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 52 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.5 Biểu đồ

Tổ chức đồ. Đa giác tần số, tần suất

Tổ chức đồ (histogram): thường được dùng để biểu thị tần số hay tần suất các giá trị trong mỗi khoảng
giá trị.
- Nếu độ rộng các khoảng bằng nhau, thì chiều cao của hình chữ nhật dựng trên mỗi khoảng chính là tần
số hay tần suất tương ứng của khoảng.
- Nếu độ rộng các khoảng không bằng nhau, chiều cao của hình chữ nhật dựng trên mỗi khoảng được tính
toán sao cho diện tích mỗi hình chữ nhật tỷ lệ với tần số hoặc tần suất của khoảng đó.
Đa giác tần số, tần suất: dùng khi dữ liệu là liên tục và khoảng dữ liệu rất rộng. Tại mỗi giá trị của dữ
liệu xi và tần số ni ta chấm một điểm có tọa độ (xi , ni ). Nối các điểm này với nhau ta được đa giác tần
số. Nếu muốn có đa giác tần suất ta thay ni bằng fi = ni /n.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 53 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.5 Biểu đồ

Ví dụ

Ví dụ 19

Khảo sát 400 nhà quản lý giáo dục về đánh giá chất lượng giáo dục công ở Hoa Kỳ, ta nhận được bảng dữ
liệu

Xếp hạng A B C D
Tần số 35 260 93 12

Giải.
Tổng số nhà quản lý giáo dục được khảo sát n = 400.
35 người xếp hạng A chiếm 9%; 260 người xếp hạng B chiếm 65%; 93 người xếp hạng C chiếm 23%; 12
người xếp loại C chiếm 3%.
Biểu đồ hình cột cho tập dữ liệu này biểu diễn ở Hình 1
Biểu đồ hình quạt cho tập dữ liệu này biểu diễn ở Hình 2

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 54 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.5 Biểu đồ

Ví dụ

Hình 1: Biểu đồ hình cột cho dữ liệu trong Ví dụ 19

Hình 2: Biểu đồ hình quạt cho dữ liệu trong Ví dụ 19


Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 55 / 122
1.4 Trình bày một mẫu dữ liệu 1.4.5 Biểu đồ

Ví dụ

Ví dụ 20

25 khách hàng của Starbucks được thăm dò ý kiến trong một cuộc khảo sát tiếp thị “Trong một tuần bạn
đến Starbucks bao nhiêu lần?”. Số liệu được cho trong bảng sau:

6 7 1 5 6 4 6 4 6 8 6 5
6 3 4 5 5 5 7 6 3 5 7 5 5

Giải. Biến được đo lường là “số lần đến Starbucks”, một biến rời rạc chỉ nhận các giá trị nguyên. Trong trường
hợp này, cách đơn giản nhất là chọn các lớp hoặc khoảng con dưới dạng giá trị nguyên trên phạm vi giá trị
quan sát: 1, 2, 3, 4, 5, 6, 7 và 8. Bảng dưới đây cho thấy các lớp và tần số tương ứng của chúng cùng tần số.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 56 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.5 Biểu đồ

Ví dụ

Tổ chức đồ của số liệu cho trong Ví dụ 20:

Số lượt đến Starbucks Tần số Tần suất


1 1 0,04
2 0 0,00
3 2 0,08
4 3 0,12
5 8 0,32
6 7 0,28
7 3 0,12
8 1 0,04

Biểu đồ tần suất tương đối được thể hiện trong Hình 3.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 57 / 122


1.4 Trình bày một mẫu dữ liệu 1.4.5 Biểu đồ

Ví dụ

Hình 3: Biểu đồ tổ chức đồ cho dữ liệu trong Ví dụ 20

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 58 / 122


1.5 Các đặc trưng mẫu

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 59 / 122


1.5 Các đặc trưng mẫu

Các đặc trưng mẫu

Để có thể cô đọng và nhanh chóng nắm bắt được những thông tin quan trọng chứa đựng trong mẫu, người ta
đưa ra một vài chỉ số gọi là các số đặc trưng (hay giá trị đặc trưng của mẫu). Có hai nhóm đặc trưng quan
trọng:
Các số đặc trưng cho ta hình ảnh về vị trí trung tâm của mẫu, tức là về xu thế các số liệu trong mẫu tụ
tập xung quanh những con số nào đó.
Các số đặc trưng cho ta hình ảnh về mức độ phân tán của các số liệu, độ biến động của các số liệu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 60 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Trung bình mẫu

Trung bình mẫu là trung bình cộng các giá trị mà ta quan sát được. Nếu ta có mẫu kích thước n về biến ngẫu
nhiên X, thì trung bình mẫu, ký hiệu là x, được xác định như sau.
Nếu mẫu cho dưới dạng liệt kê x1 , x2 , . . . , xn kích thước n, thì
n
1X
x= xi . (2)
n i=1

Nếu mẫu cho ở dạng rút gọn (1), thì


k
1X
x= ni xi . (3)
n i=1

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 61 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Trung bình mẫu


1 Ta cần phân biệt trung bình mẫu x và trung bình tổng thể µ.
Chẳng hạn, ta quan tâm đến chiều cao của sinh viên Việt Nam, thì tổng thể là tất cả các sinh viên Việt
Nam. Để tìm trung bình của tổng thể ta cần tiến hành đo chiều cao của tất cả các sinh viên Việt Nam và
µ (chiều cao trung bình của sinh viên Việt Nam) là trung bình cộng của số đo này. Tuy nhiên ta chỉ đo
chiều cao của 500 sinh viên thì trung bình mẫu x là trung bình cộng của 500 số đo này.
2 Giá trị trung bình mẫu thường được dùng để đo vị trí trung tâm của mẫu. Tuy nhiên, trong một số trường
hợp, việc dùng đặc trưng này sẽ không còn chính xác.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 62 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Trung bình mẫu

Ví dụ 21

Ta muốn biết trung bình một sinh viên Đại học Bách khoa Hà Nội tiêu tốn bao nhiêu thời gian cho lướt
web trong một tuần. Hỏi ngẫu nhiên 9 sinh được kết quả sau

Sinh viên được hỏi Thời gian (giờ) Sinh viên được hỏi Thời gian (giờ)
1 0 6 3
2 1 7 4
3 4 8 1
4 1 9 0
5 31

Giá trị trung bình mẫu x = 5. Nếu dựa vào kết quả này để nói rằng sinh viên Đại học Bách khoa Hà Nội dành 5
giờ mỗi tuần cho việc lướt web thì sẽ rất không chính xác, vì trong tất cả sinh viên được hỏi, trừ sinh viên số 5,
đều có thời gian lướt web dưới 5 giờ.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 63 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Trung vị mẫu

✍ Giá trị trung bình mẫu thường được dùng để đo vị trí trung tâm của mẫu. Tuy nhiên, trong một số trường
hợp, việc dùng đặc trưng này sẽ không còn chính xác. Trong bộ dữ liệu xuất hiện các giá trị bất thường, người
ta thường dùng giá trị trung vị thay cho giá trị trung bình.
Trung vị (median) mẫu, ký hiệu là x e, là một số thỏa mãn số các giá trị của mẫu bé hơn hay bằng x
e bằng số
các giá trị của mẫu lớn hơn hay bằng x e.
✍ Với một mẫu kích thước n cho ở dạng liệt kê, ta sắp xếp các giá trị theo thứ tự tăng dần
x1 ≤ x2 ≤ · · · ≤ xn . Khi đó, trung vị mẫu được xác định bởi công thức:
(
x(n+1)/2 , nếu n lẻ,
x
e= 1 (4)
2
(x n/2 + xn/2+1 ), nếu n chẵn.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 64 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Trung vị mẫu

Ví dụ 22
Với số liệu trong Ví dụ 21,
Ta thấy có xuất hiện các giá trị “bất thường” khi đó ta dùng giá trị trung vị thay cho giá trị trung
bình.
Sắp xếp các giá trị theo thứ tự tăng dần 0 0 1 1 1 3 4 4 31. Do cỡ mẫu n = 9 lẻ nên trung vị mẫu
bằng 1.
Nếu hỏi thêm 1 sinh viên nữa, sinh viên này lướt web 5 giờ một tuần thì ta có cỡ mẫu n = 10 và dãy
số liệu 0 0 1 1 1 3 4 4 5 31. Trong trường hợp này trung vị mẫu bằng 31 (1 + 3) = 2.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 65 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Trung vị mẫu


Trung vị không bị ảnh hưởng bởi các giá trị bất thường.
Trung vị thường được dùng khi có một nhóm con các giá trị kéo theo giá trị trung bình lệch đi (tăng lên
hoặc giảm đi).
Trung vị được dùng trong các phân bố lệch (skewwed distributions) ví dụ như dữ liệu về điểm thi khi đáp
án của đề thi bị rò rỉ, hay dữ liệu về tiền thắng cuộc của người chơi trong một sòng bạc. . .

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 66 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Trung vị mẫu

Ví dụ 23
Cuộc điều tra ở Nam Phi năm 1996 cho thấy thu nhập trung bình theo tháng của người dân là 140 đô la.
Ở đất nước này phần lớn người dân có thu nhập rất thấp nhưng có một nhóm nhỏ lại rất giàu có nên
đã kéo mức thu nhập trung bình lên 140 đô la (một con số không hề thấp vào năm 1996).
Tuy nhiên giá trị trung vị là 50 đô la nghĩa là 50% người dân có mức thu nhập theo tháng nhỏ hơn
hay bằng 50 đô la.
Như vậy bức tranh về thu nhập ở Nam Phi khi nhìn vào trung vị khác hẳn khi nhìn vào giá trị trung
bình.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 67 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Mốt

Mốt là giá trị trong mẫu xuất hiện với tần số lớn nhất.

Đa phần các tập dữ liệu có một mốt. Một số tập dữ liệu có hai mốt.
Các mẫu có hai mốt thường là dấu hiệu cho ta biết ta đang có hai tổng thể khác nhau.
Trong ví dụ về thời gian lướt web của sinh viên nếu có hai mốt ta cần nghĩ đến hai tổng thể, một tổng thể
là tập sinh viên lướt web rất ít và tổng thể kia là tập các sinh viên lướt web rất nhiều.
Mốt có thể dùng làm số đo vị trí trung tâm của nhiều loại dữ liệu khác nhau song nó phù hợp nhất với dữ
liệu phân nhóm.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 68 / 122


1.5 Các đặc trưng mẫu 1.5.1 Các số đo xu thế trung tâm

Mốt

Ví dụ 24
Bảng sau đây cho biết hoạt động được ưu tiên của 9 sinh viên được chọn ngẫu nhiên

Sinh viên Hoạt động


1 Tình nguyện
2 Học lập trình
3 Học tiếng Anh
4 Tình nguyện
5 Tình nguyện
6 Học tiếng Pháp
7 Học võ
8 Học vẽ
9 Tình nguyện

Mốt của các hoạt động của sinh viên là Tình nguyện với tần số là 4.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 69 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Các số đo mức độ phân tán

Các số đo xu thế trung tâm cho ta biết trung tâm của dữ liệu nằm ở đâu nhưng không cho biết cách mà các giá
trị của mẫu phân bố xung quanh giá trị trung tâm này. Người ta muốn định nghĩa một số đại lượng đặc trưng
để đo đọ phân tán hay độ biến động của mẫu số liệu.

Ví dụ 25

Điểm thi của hai nhóm sinh viên


Nhóm 1: 6; 8; 5; 7; 6; 5; 7; 6
Nhóm 2: 10; 3; 9; 6; 5; 4; 1; 6; 9; 10
Hai nhóm sinh viên có điểm thi trung bình là 6,5 nhưng trong nhóm 2 có những sinh viên điểm rất cao, có
những sinh viên điểm rất thấp; còn trong nhóm 1 điểm thi của sinh viên tương đối đồng đều.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 70 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Các số đo mức độ phân tán

1 Biên độ mẫu
2 Khoảng tứ phân vị
3 Độ lệch trung bình mẫu
4 Phương sai mẫu

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 71 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Biên độ mẫu

Hiệu số giữa giá trị lớn nhất và giá trị bé nhất của mẫu được gọi là biên độ mẫu.
Các giá trị biên trong nhiều trường hợp cho ta những thông tin quan trọng, nhưng cũng có nhiều trường
hợp trong đó các giá trị biên chỉ là “giá trị bất thường” hay “ngoại lệ” (outlier) do đó cho ta rất ít thông
tin.

Ví dụ 26
Với số liệu trong Ví dụ 25, biên độ của của nhóm 1 là 8 - 5 = 3; còn biên độ của nhóm 2 là 10 - 1 = 9.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 72 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Khoảng tứ phân vị
Để giảm ảnh hưởng của các giá trị bất thường ta dùng khoảng tứ phân vị.
Khoảng tứ phân vị được định nghĩa bởi Q3 − Q1 , trong đó Q1 là giá trị 25% số liệu nhỏ hơn Q1 và Q3 là
giá trị mà 75% của số liệu nhỏ hơn Q3 .
Như vậy 50% số liệu nằm trong khoảng (Q1 , Q3 ) với độ dài là khoảng tứ phân vị.

Ví dụ 27
Thống kê số đĩa CD mà sinh viên sở hữu trong một nhóm sinh viên được kết quả

Số đĩa CD 35 36 37 38 39
Tần số 3 17 29 34 12

Ta có
n = 95; (0, 25)(95) = 23, 75 ≃ 24 nên Q1 = 37 là số liệu đứng thứ 24;
(0, 75)(95) = 71, 25 ≃ 72 nên Q3 = 38 là số liệu đứng thứ 72.
Vậy khoảng tứ phân vị là 38 − 37 = 1.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 73 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Sử dụng biểu đồ hộp phát hiện quan sát bất thường

Biểu đồ hộp cho biết 3 điểm tứ phân vị Q1 , Q2 , Q3 , giá trị bé nhất, giá trị lớn nhất trên một hộp chữ
nhật.
Một cạnh của hình chữ nhật nằm tại vị trí Q1 , cạnh đối diện ở vị trí Q3 , như vậy chiều dài của hình chữ
nhật là độ dài khoảng tứ phân vị IQR = Q3 − Q1 , chiều rộng của hình chữ nhật được chọn sao cho hình
chữ nhật nhìn cân đối.
Từ điểm Q1 vẽ đoạn thẳng theo hướng đi ra hướng giá trị nhỏ nhất của dữ liệu với độ dài 1, 5IQR, từ
điểm Q3 vẽ đoạn thẳng đi ra hướng giá trị lớn nhất của dữ liệu với độ dài 1, 5IQR (các đoạn thẳng này
được gọi là "đuôi dưới" và "đuôi trên").
Các điểm nằm ngoài hình chữ nhật và hai đuôi được xem là các quan sát bất thường.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 74 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Ví dụ

Ví dụ 28

Cho dãy số liệu 199, 201, 236, 269, 271, 278, 283, 291, 301, 303, 371.
Tính Q1 = 252, 5; Q2 = 278; Q3 = 296; IQR = 43, 5.
Tính Q1 − 1, 5IQR = 187, 25; Q3 + 1, 5IQR = 361, 25.
Giá trị 371 lớn hơn 361,25 nên giá trị này được xem là quan sát bất thường.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 75 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Độ lệch trung bình mẫu


Một cách khác để đo độ biến động của mẫu số liệu là tính giá trị trung bình của khoảng cách từ mỗi giá trị đến
trung bình mẫu.

Ví dụ 29
Độ lệch trung bình mẫu của dãy số liệu biểu diễn số môn học phải học lại (xi ) trong một học kỳ của 8 sinh
viên được cho như sau:

Sinh viên Số môn học lại xi − x |xi − x| Sinh viên Số môn học lại xi − x |xi − x|
1 0 -2 2 5 2 0 0
2 1 -1 1 6 3 1 1
3 1 -1 1 7 3 1 1
4 2 0 0 8 4 2 2

Giá trị trung bình của dãy số là x = 2. Như vậy về trung bình số môn học lại của sinh viên có sai khác 1 so
với giá trị trung bình 2. Giả sử sinh viên thứ hai không học lại môn nào còn sinh viên thứ 8 học lại 5 môn
thì trung bình số môn học lại vẫn là 2 trong đó độ lệch trung bình của dãy số liệu tăng lên là 1,25.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 76 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Phương sai mẫu. Độ lệch chuẩn mẫu

Trong thống kê, số đặc trưng thông dụng để đo mức độ phân tán của số liệu là phương sai mẫu. Phương sai
mẫu, ký hiệu là se2 , là trung bình của bình phương độ lệch giữa các giá trị mẫu với trung bình mẫu.
Nếu mẫu cho dưới dạng liệt kê, thì
n
1X
se2 = (xi − x)2 . (5)
n i=1

Nếu mẫu cho ở dạng rút gọn (1), thì


k
1X
se2 = ni (xi − x)2 . (6)
n i=1

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 77 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Phương sai mẫu. Độ lệch chuẩn mẫu

Dạng tương đương của các công thức (5) và (6) lần lượt là
n n
1 X 2  1 X 2
se2 = xi − xi , (7)
n i=1 n i=1


k k
1X 1 X 2
se2 = ni x2i − ni xi . (8)
n i=1 n i=1

Độ lệch chuẩn mẫu, ký hiệu là se, là căn bậc hai số học của phương sai mẫu,

se = se2 . (9)

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 78 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Phương sai mẫu. Độ lệch chuẩn mẫu

Ví dụ 30

Kiểm tra số lỗi trên sản phẩm đúc do một nhà máy sản xuất ta thu được dữ liệu sau đây:

Số lỗi ở mỗi sản phẩm 0 1 2 3 4 5 6


Số sản phẩm kiểm tra 8 20 12 40 30 25 15

Hãy tính trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu của mẫu trên.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 79 / 122


1.5 Các đặc trưng mẫu 1.5.2 Các số đo mức độ phân tán

Phương sai mẫu. Độ lệch chuẩn mẫu

Giải.
Áp dụng công thức (3), trung bình mẫu là
n
1X 499
x= ni xi = ≈ 3, 3267.
n i=1 150

Áp dụng công thức (5), phương sai mẫu là


n n
1X 1 X 2 2073  499 2
se2 = ni x2i − ni xi = − ≈ 2, 7533.
n i=1 n i=1 150 150

Độ lệch chuẩn mẫu là p


se = 2, 7533 ≈ 1, 6593.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 80 / 122


1.6 Mẫu ngẫu nhiên

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 81 / 122


1.6 Mẫu ngẫu nhiên 1.6.1 Phân phối của tổng thể

Phân phối của tổng thể

Giả sử ta cần nghiên cứu dấu hiệu X nào đó của tổng thể. Ta có thể mô hình hóa X bởi một biến ngẫu
nhiên, ký hiệu là X, bằng cách coi X là giá trị của dấu hiệu X trên các phần tử của tổng thể.
Phân phối xác suất của X được gọi là phân phối xác suất của tổng thể.
Biến ngẫu nhiên X được gọi là biến ngẫu nhiên gốc. Giá trị µ = E(X) và σ 2 = V (X) được gọi là kỳ vọng
và phương sai của tổng thể.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 82 / 122


1.6 Mẫu ngẫu nhiên 1.6.2 Khái niệm mẫu ngẫu nhiên

Mẫu ngẫu nhiên

Dãy biến ngẫu nhiên: Giả sử tiến hành n phép thử độc lập. Gọi Xi là “giá trị của dấu hiệu X đo lường
được trên phần tử thứ i của mẫu”, i = 1, 2, . . . , n. Khi đó, X1 , X2 , . . . , Xn là n biến ngẫu nhiên độc lập
có cùng phân phối xác suất với X.
Mẫu ngẫu nhiên: Xét biến ngẫu nhiên X từ tổng thể có phân phối xác suất FX (x). Bộ (X1 , . . . , Xn )
được gọi là một mẫu ngẫu nhiên có kích thước n, ký hiệu là WX = (X1 , X2 , . . . , Xn ), nếu X1 , . . . , Xn là
các biến ngẫu nhiên độc lập và có cùng phân phối xác suất FX (x).
Mẫu cụ thể: Thực hiện một phép thử đối với mẫu ngẫu nhiên WX tức là thực hiện một phép thử đối với
mỗi thành phần Xi của mẫu. Giả sử X1 nhận giá trị x1 , X2 nhận giá trị x2 , . . . , Xn nhận giá trị xn ta
thu được một mẫu cụ thể Wx = (x1 , x2 , . . . , xn ).

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 83 / 122


1.6 Mẫu ngẫu nhiên 1.6.2 Khái niệm mẫu ngẫu nhiên

Ví dụ

Ví dụ 31

Giả sử tuổi thọ X (giờ) của loại pin A là biến ngẫu nhiên có phân phối chuẩn N (µ; σ 2 ). Chọn ngẫu
nhiên n = 10 quả pin loại này và gọi Xi là tuổi thọ của quả pin thứ i, i = 1, 2, . . . , 10. Khi đó,
X1 , . . . , X10 là độc lập và có cùng phân phối chuẩn N (µ; σ 2 ). Tức là, ta có một mẫu ngẫu nhiên
WX = (X1 , . . . , X10 ) kích thước n = 10.
Nếu ghi lại tuổi thọ của mỗi quả pin, ta thu được một mẫu cụ thể, chẳng hạn như sau:

Wx = (1000; 1001; 1002; 1003; 1004; 1005; 1006; 1007; 1008; 1009).

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 84 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Đại lượng thống kê

Trong thống kê toán học, việc tổng hợp thông tin từ mẫu ngẫu nhiên WX = (X1 , X2 , . . . , Xn ) thường dẫn đến
việc xác định một hàm nào đó của các biến ngẫu nhiên X1 , X2 , . . . , Xn . Một hàm như thế được gọi là một đại
lượng thống kê, gọi tắt là thống kê.
Thống kê là một hàm của mẫu ngẫu nhiên WX = (X1 , X2 , . . . , Xn ), ký hiệu là

Θ
b = g(X1 , X2 , . . . , Xn ). (10)


Thống kê Θ b là một hàm của các biến ngẫu nhiên X1 , X2 , . . . , Xn nên nó cũng là một biến ngẫu nhiên.
Nếu mẫu ngẫu nhiên có giá trị Wx = (x1 , x2 , . . . , x2 ), thì ta tính được giá trị cụ thể của Θ,
b ký hiệu là
θ = g(x1 , x2 , . . . , xn ) và gọi là giá trị quan sát của thống kê Θ.
b b

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 85 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Trung bình mẫu ngẫu nhiên

Cho mẫu ngẫu nhiên kích thước n, WX = (X1 , X2 , . . . , Xn ).


Trung bình mẫu ngẫu nhiên là một thống kê, ký hiệu là X, được định nghĩa bởi
n
1X
X= Xi . (11)
n i=1

Nếu biến ngẫu nhiên X có E(X) = µ và V (X) = σ 2 thì thống kê X có kỳ vọng và phương sai được xác
định bởi:
1
µX = (µ + · · · + µ) = µ
n

2 1 σ2
σX = 2 (σ 2 + · · · + σ 2 ) = .
n n

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 86 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Trung bình mẫu ngẫu nhiên


Phương sai V (X) của X nhỏ hơn phương sai V (X) của X là n lần, nghĩa là các giá trị có thể có của X
ổn định quanh kỳ vọng µ hơn các giá trị có thể có của X.
Nếu một giá trị của mẫu ngẫu nhiên WX là Wx = (x1 , x2 , . . . , xn ) thì thống kê X nhận giá trị là trung
bình mẫu
n
1X
x= xi .
n i=1

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 87 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Phương sai mẫu ngẫu nhiên

Phương sai mẫu ngẫu nhiên là một thống kê, ký hiệu là Se2 , được định nghĩa bởi
n
1X
Se2 = (Xi − X)2 . (12)
n i=1

Giá trị của Se2 khi cho một mẫu cụ thể Wx = (x1 , x2 , . . . , xn ), ký hiệu là se2 , là phương sai mẫu
n
1X
se2 = (xi − x)2 .
n i=1

Từ (12), ta tính được


n−1 2
E(Se2 ) = σ với σ 2 = V (X). (13)
n

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 88 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Phương sai mẫu ngẫu nhiên hiệu chỉnh



Để kỳ vọng của phương sai mẫu ngẫu nhiên Se2
 trùng với phương sai của biến ngẫu nhiên gốc X ta cần
một sự hiệu chỉnh. Từ (13) suy ra E n−1 S = σ 2 .
n e2

Đặt
n
n e2 1 X 2
S2 = S = Xi − X (14)
n−1 n − 1 i=1

thì E(S 2 ) = σ 2 và ta gọi S 2 là phương sai mẫu ngẫu nhiên đã hiệu chỉnh, hay phương sai mẫu ngẫu
nhiên hiệu chỉnh.
Giá trị của S 2 khi cho một mẫu cụ thể Wx = (x1 , x2 , . . . , xn ) là
n
1 X
s2 = (xi − x)2 (15)
n − 1 i=1

và gọi là phương sai mẫu đã hiệu chỉnh, hay phương sai mẫu hiệu chỉnh.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 89 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Ví dụ

Ví dụ 32

So sánh giá thành của một loại sản phẩm tại 4 siêu thị được chọn ngẫu nhiên ở thành phố Hà Nội cho thấy
các mức tăng so với tháng trước là 12, 15, 17 và 20 nghìn đồng cho một kilôgam. Tìm phương sai mẫu hiệu
chỉnh của mẫu giá tăng này.

Giải.
Tính trung bình mẫu
1
x= (12 + 15 + 17 + 20) = 16 nghìn đồng.
4
Áp dụng công thức (15), phương sai mẫu hiệu chỉnh là
4
1X 1
s2 = (xi − 16)2 = (12 − 16)2 + (15 − 16)2 + (17 − 16)2 + (20 − 16)2

3 i=1 3
34
= .
3

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 90 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Độ lệch chuẩn mẫu ngẫu nhiên

Độ lệch chuẩn mẫu ngẫu nhiên ký hiệu là Se và được xác định bởi
v
u n
p u1 X
Se = Se2 = t (Xi − X)2 . (16)
n i=1

Độ lệch chuẩn mẫu ngẫu nhiên hiệu chỉnh ký hiệu là S và được xác định bởi
v
n

u
u 1 X
S= S =t 2 (Xi − X)2 . (17)
n − 1 i=1

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 91 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Độ lệch chuẩn mẫu ngẫu nhiên

Giá trị của Se và S khi cho một mẫu cụ thể Wx = (x1 , x2 , . . . , xn ) lần lượt là
v
n

u
u1 X
se = se2 = t (xi − x)2 (18)
n i=1


v
n

u
2
u 1 X
s= s =t (xi − x)2 (19)
n − 1 i=1

và được gọi là độ lệch chuẩn mẫu và độ lệch chuẩn mẫu hiệu chỉnh tương ứng.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 92 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Sử dụng máy tính để tính các đặc trưng mẫu

✍ Ta có thể sử dụng máy tính bỏ túi, chẳng hạn máy CASIO FX570VN PLUS, để tính x và s theo các bước
sau.
1 Bước 1: Chuyển đổi máy tính về chương trình thống kê MODE → 3 → AC
2 Bước 2: Bật chức năng cột tần số/tần suất SHIFT → MODE → Mũi tên đi xuống → 4(STAT) →
1(ON)
3 Bước 3: Bật chế độ màn hình để nhập dữ liệu, Nhập số liệu SHIFT → 1 → 1(TYPE) → 1(1-VAR)
Chú ý nhập xong số liệu thì bấm AC để thoát.
4 Bước 4: Xem kết quả:
Trung bình mẫu x: SHIFT → 1 → 4(VAR) → 2
Độ lệch tiêu chuẩn mẫu hiệu chỉnh s: SHIFT → 1 → 4 → 4

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 93 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Tần suất mẫu ngẫu nhiên

Ký hiệu p là tỷ lệ cá thể trong tổng thể mang một dấu hiệu A định tính nào đó.
Ta có thể mô hình hóa sự kiện một cá thể có hoặc không có dấu hiệu A bởi một biến ngẫu nhiên X được
định nghĩa như sau:
X = 0 nếu cá thể không có dấu hiệu A;
X = 1 nếu có thể có dấu hiệu A.
Khi đó X ∼ B(p), tức X là biến ngẫu nhiên có phân phối Bernoulli với tham số p.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 94 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Tần suất mẫu ngẫu nhiên


Từ tổng thể, P
lấy một mẫu ngẫu nhiên kích thước n, WX = (X1 , X2 , . . . , Xn ). Số cá thể có dấu hiệu A trong
mẫu là X = n i=1 Xi . Tần suất mẫu ngẫu nhiên là một thống kê được ký hiệu và xác định bởi

X
Pb = . (20)
n

Dễ thấy,
p(1 − p)
E(Pb) = p và V (Pb) = . (21)
n

Khi có mẫu cụ thể Wx = (x1 , x2 , . . . , xn ), giá trị quan sát của Pb là


x
pb = , (22)
n
ở đây, x là số cá thể có dấu hiệu A trong mẫu.
pb được gọi là tần suất mẫu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 95 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Tần suất mẫu ngẫu nhiên

Ví dụ 33
Phỏng vấn ngẫu nhiên 1600 cử tri thấy 960 người ủng hộ cho ứng cử viên A. Khi đó, tỷ lệ cử tri ủng hộ
cho ứng cử viên A trong mẫu này là
x 960
pb = = = 0, 6.
n 1600

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 96 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Sử dụng độ lệch chuẩn hiệu chỉnh phát hiện quan sát bất thường

Cơ sở của phương pháp này là nếu dữ liệu tuân theo phân phối chuẩn thì
khoảng 95% số quan sát nằm trong khoảng (x − 2s; x + 2s);
khoảng 99,73% số quan sát nằm trong khoảng (x − 3s; x + 3s);
trong đó s là độ lệch tiêu chuẩn hiệu chỉnh mẫu.

Ta xem các quan sát có giá trị không nằm trong khoảng (x − 2s; x + 2s) là quan sát bất thường.
Một số tài liệu coi quan sát bất thường là quan sát không thuộc khoảng (x − 3s; x + 3s).
Việc sử dụng khoảng (x − 2s; x + 2s) (có độ rộng 4s) hay khoảng (x − 3s; x + 3s) (có độ rộng 6s) tùy
thuộc vào người dùng và tập dữ liệu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 97 / 122


1.6 Mẫu ngẫu nhiên 1.6.3 Một số thống kê thông dụng

Ví dụ

Ví dụ 34
Từ số liệu trong Ví dụ 28,
Tính được x = 273 và s = 48, 77.
Khoảng (x − 2s ; x + 2s) là (175,46 ; 370,54). Do đó quan sát 371 được xem là quan sát bất thường.
Tuy nhiên nếu ta sử dụng khoảng (x − 3s ; x + 3s), tức là (126, 69 ; 419, 31) thì 371 lại không coi là
quan sát bất thường.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 98 / 122


1.7 Phân phối mẫu

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 99 / 122


1.7 Phân phối mẫu 1.7.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

Phân phối mẫu

✍ Vì thống kê Θ
b là một biến ngẫu nhiên nên nó có phân phối xác suất.

Định nghĩa 1
Phân phối xác suất của một thống kê được gọi là phân phối mẫu.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 100 / 122


1.7 Phân phối mẫu 1.7.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

Phân phối mẫu của X

✍ Phân phối xác suất của X là một phân phối mẫu và được gọi là phân phối của trung bình mẫu ngẫu nhiên.

Định lý 1

Nếu biến ngẫu nhiên X có phân phối chuẩn N (µ; σ 2 ) thì trung bình mẫu X của mẫu ngẫu nhiên
WX = (X1 , X2 , . . . , Xn ) có phân phối chuẩn N (µ; σ 2 /n).

Ví dụ 35

Giả sử điện trở X (Ω) do một công ty sản xuất là biến ngẫu nhiên có phân phối chuẩn với trung bình 100
Ω và độ lệch chuẩn là 8 Ω. Tính xác suất để một mẫu ngẫu nhiên gồm 16 điện trở sẽ có điện trở trung bình
nhỏ hơn 95 Ω.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 101 / 122


1.7 Phân phối mẫu 1.7.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

Phân phối mẫu của X


Giải.
q
64
Theo Định lý 1 thì X có phân phối chuẩn (Hình 4) với µX = 100 và σX = 16
= 2.

Do đó,  95 − 100 
P (X < 95) = Φ = Φ(−2, 5) = 1 − Φ(2, 5) ≈ 1 − 0, 99379 = 0, 00621.
2

σX = 2

95 100 x

Hình 4: Phân phối của X trong Ví dụ 35

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 102 / 122


1.7 Phân phối mẫu 1.7.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

Định lý giới hạn trung tâm

Định lý 2

Nếu mẫu ngẫu nhiên kích thước n, WX = (X1 , X2 , . . . , Xn ), được xây dựng từ biến ngẫu nhiên X có kỳ
vọng E(X) = µ và phương sai V (X) = σ 2 hữu hạn và X là trung bình của mẫu ngẫu nhiên, thì giới hạn
(theo nghĩa phân phối) của phân phối xác suất của

X −µ
Z= √ (23)
σ/ n

khi n → ∞, là phân phối chuẩn tắc.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 103 / 122


1.7 Phân phối mẫu 1.7.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

Định lý giới hạn trung tâm


Sự chính xác của xấp xỉ chuẩn của X phụ thuộc vào kích thước mẫu n.
Trong thực hành, nếu n ≥ 30, thống kê Z trong (23) sẽ xấp xỉ phân phối chuẩn tắc N (0; 1).

Hình 5: Phân phối của số chấm trung bình khi tung 1, 2, 3 hoặc 5 con xúc sắc

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 104 / 122


1.7 Phân phối mẫu 1.7.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

Định lý giới hạn trung tâm

Ví dụ 36

Cho X là biến ngẫu nhiên liên tục có phân phối đều trên đoạn [2; 4]. Tìm phân phối xác suất của trung
bình mẫu của mẫu ngẫu nhiên WX = (X1 , X2 , . . . , Xn ) với kích thước n = 40 được xây dựng từ biến ngẫu
nhiên X.

Giải.
Kỳ vọng và phương sai của X lần lượt là

2+4 2 (4 − 2)2 1
µX = =3 và σX = = .
2 12 3

Theo Định lý 2, X có phân phối xấp xỉ phân phối chuẩn với


2
2 σX 1 1
µX = 3 và σX = = = .
n 3 × 40 120

Phân phối xác suất của X và phân phối mẫu của X cho trong Hình 6.
Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 105 / 122
1.7 Phân phối mẫu 1.7.1 Phân phối mẫu của trung bình mẫu và Định lý giới hạn trung tâm

Định lý giới hạn trung tâm

2 4 x 2 3 4 x

Hình 6: Phân phối của X và X trong Ví dụ 36

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 106 / 122


1.7 Phân phối mẫu 1.7.2 Phân phối mẫu của X 1 − X 2

Phân phối mẫu của X 1 − X 2

Giả sử X1 và X2 là hai biến ngẫu nhiên tương ứng với hai tổng thể khác nhau và X1 và X2 có phân phối
chuẩn N (µ1 ; σ12 ) và N (µ2 ; σ22 ).
Xét hai mẫu ngẫu nhiên độc lập WX1 = (X11 , X12 , . . . , X1n1 ) và WX2 = (X21 , X22 , . . . , X2n2 ) kích
thước n1 và n2 tương ứng. Khi đó, X 1 − X 2 là biến ngẫu nhiên có phân phối chuẩn với kỳ vọng và
phương sai là

µX 1 −X 2 = µX 1 − µX 2 = µ1 − µ2 (24)

2 2 2 σ12 σ2
σX 1 −X 2
= σX + σX = + 2. (25)
1 2 n1 n2

✍ Nếu X1 và X2 không có phân phối chuẩn và nếu n1 ≥ 30 và n2 ≥ 30 thì ta có thể sử dụng Định lý giới hạn
trung tâm, X 1 và X 2 có phân phối xấp xỉ phân phối chuẩn. Khi đó, X 1 − X 2 là biến ngẫu nhiên có phân phối
xấp xỉ phân phối chuẩn với kỳ vọng và phương sai được xác định bởi các công thức (24) và (25).

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 107 / 122


1.7 Phân phối mẫu 1.7.2 Phân phối mẫu của X 1 − X 2

Phân phối mẫu của X 1 − X 2

Định lý 3

Giả sử hai mẫu ngẫu nhiên độc lập WX1 = (X11 , X12 , . . . , X1n1 ) và WX2 = (X21 , X22 , . . . , X2n2 ) được xây
dựng từ hai biến ngẫu nhiên X1 và X2 độc lập có kỳ vọng E(X1 ) = µ1 , E(X2 ) = µ2 và phương sai
V (X1 ) = σ12 , V (X2 ) = σ22 . Khi đó, phân phối xác suất của

(X 1 − X 2 ) − (µ1 − µ2 )
Z= q 2 (26)
σ1 σ2
n1
+ n22

xấp xỉ phân phối chuẩn tắc, nếu các điều kiện của Định lý giới hạn trung tâm được thỏa mãn.
Ngoài ra, nếu X1 và X2 có phân phối chuẩn N (µ1 ; σ12 ) và N (µ2 ; σ22 ) thì thống kê Z trong (26) có phân
phối chuẩn tắc N (0; 1).

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 108 / 122


1.7 Phân phối mẫu 1.7.3 Phân phối mẫu của một số thống kê khác

Phân phối Khi-bình phương với phương sai mẫu hiệu chỉnh

Định lý 4

Nếu S 2 là phương sai hiệu chỉnh của mẫu ngẫu nhiên kích thước n, WX = (X1 , X2 , . . . , Xn ), được thành
lập từ biến ngẫu nhiên X có phân phối chuẩn N (µ; σ 2 ), thì thống kê
n
(n − 1)S 2 X (Xi − X)2
χ2 = 2
= (27)
σ i=1
σ2

có phân phối Khi-bình phương với n − 1 bậc tự do.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 109 / 122


1.7 Phân phối mẫu 1.7.3 Phân phối mẫu của một số thống kê khác

Phân phối Student với thống kê mẫu

Định lý 5

Giả sử WX = (X1 , X2 , . . . , Xn ) là một mẫu ngẫu nhiên kích thước n được xây dựng từ biến ngẫu nhiên X
có phân phối chuẩn với kỳ vọng E(X) = µ và phương sai V (X) = σ 2 chưa biết. Khi đó, thống kê

X −µ
T = √ (28)
S/ n

có phân phối Student với n − 1 bậc tự do.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 110 / 122


1.7 Phân phối mẫu 1.7.3 Phân phối mẫu của một số thống kê khác

Phân phối Fisher với hai phương sai mẫu hiệu chỉnh

Giả sử hai mẫu ngẫu nhiên kích thước n1 và n2 được chọn từ hai tổng thể có phân phối chuẩn với phương sai
σ12 và σ22 . Từ Định lý 4,
(n1 − 1)S12 (n2 − 1)S22
χ21 = 2
và χ22 =
σ1 σ22
là các biến ngẫu nhiên có phân phối Khi-bình phương với số bậc tự do tương ứng là n1 − 1 và n2 − 1. Hơn nữa,
vì các mẫu được chọn ngẫu nhiên, nên chúng độc lập. Do đó, ta nhận được kết quả dưới đây.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 111 / 122


1.7 Phân phối mẫu 1.7.3 Phân phối mẫu của một số thống kê khác

Phân phối Fisher với hai phương sai hiệu chỉnh mẫu

Định lý 6

Nếu S12 và S22 là hai phương sai hiệu chỉnh của hai mẫu ngẫu nhiên độc lập được chọn từ hai tổng thể có
phân phối chuẩn với phương sai σ12 và σ22 tương ứng, thì

S12 /σ12 σ2 S 2
F = 2 2
= 22 12
S2 /σ2 σ1 S 2

có phân phối Fisher với ν1 = n1 − 1 và ν2 = n2 − 1 bậc tự do.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 112 / 122


1.8 Hướng dẫn sử dụng phần mềm thống kê R

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 113 / 122


1.8 Hướng dẫn sử dụng phần mềm thống kê R

Yêu cầu đối với sinh viên

1 R là phần mềm thống kê miễn phí, được phát triển tại phòng thí nghiệm AT&T bởi Rick Becker, John
Chambers và các cộng sự. Phiên bản đầu tiên của R được viết vào năm 1976. Tham khảo tại (6) .
2 Yêu cầu đối với sinh viên:
1 Tìm hiểu, cài đặt.
2 Nhập dữ liệu (trực tiếp; ghi nhập dữ liệu với file).
3 Thao tác với dữ liệu (chiết, xuất dữ liệu, ghép nối dữ liệu, chia nhóm dữ liệu).
4 Thực hành viết hàm trong R;
5 Thực hành lập bảng tần số, bảng chia khoảng trong R;
6 Thực hành vẽ các loại biểu đồ trong R;
7 Thực hành tính các đặc trưng mẫu trong R.

(6)
Nguyễn Văn Tuấn (2015). Phân tích dữ liệu với R. NXB tổng hợp thành phố Hồ Chí Minh.
Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 114 / 122
Bài tập

Nội dung

1 1.1 Một số khái niệm cơ bản của thống kê

2 1.2 Tổng thể và mẫu

3 1.3 Biến và dữ liệu

4 1.4 Trình bày một mẫu dữ liệu

5 1.5 Các đặc trưng mẫu

6 1.6 Mẫu ngẫu nhiên

7 1.7 Phân phối mẫu

8 1.8 Hướng dẫn sử dụng phần mềm thống kê R

9 Bài tập

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 115 / 122


Bài tập

Bài tập

Bài tập 1

Một hãng sản xuất chip máy tính quảng cáo rằng dưới 5% sản phẩm của họ bị lỗi. Kiểm tra ngẫu nhiên
1000 con chip do hãng sản xuất thì phát hiện thấy 3, 5% số chip bị lỗi. Hãy cho biết:
(a) Tổng thể muốn nghiên cứu là gì?
(b) Mẫu thu thập được là gì?
(c) Tham số quan tâm trong nghiên cứu này là gì?
(d) Giá trị thống kê trong nghiên cứu là gì?
(e) Giá trị 5% chỉ tham số hay giá trị thống kê?
(f) Giá trị 3, 5% chỉ tham số hay giá trị thống kê?

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 116 / 122


Bài tập

Bài tập

Bài tập 2

Quan sát thời gian khô (đơn vị: giờ) của 15 mẫu sơn Latex, chúng ta thu được số liệu như sau:

3, 4; 2, 5; 4, 8; 2, 9; 3, 6; 2, 8; 3, 3; 5, 6; 3, 7; 2, 8; 4, 4; 4, 0; 5, 2; 3, 0; 4, 8

(a) Hãy biểu diễn tập dữ liệu trên dưới dạng bảng tần số với 4 khoảng trong đó cận trái của khoảng đầu
tiên là 2.
(b) Hãy vẽ biểu đồ tổ chức đồ cho tập dữ liệu trên dựa trên cách biểu diễn ở ý (a).

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 117 / 122


Bài tập

Bài tập

Bài tập 3

Quan sát thời gian khô (đơn vị: giờ) của 15 mẫu sơn Latex, chúng ta thu được số liệu như sau:

3, 4; 2, 5; 4, 8; 2, 9; 3, 6; 2, 8; 3, 3; 5, 6; 3, 7; 2, 8; 4, 4; 4, 0; 5, 2; 3, 0; 4, 8

(a) Hãy tính các đặc trưng mẫu đo trung tâm của dữ liệu: trung bình mẫu, trung vị mẫu.
(b) Hãy tính các đặc trưng mẫu đo độ phân tán của dữ liệu: phương sai mẫu và độ lệch chuẩn mẫu hiệu
chỉnh.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 118 / 122


Bài tập

Bài tập

Bài tập 4

Giả sử chiều dài của một chi tiết máy là biến ngẫu nhiên có phân phối chuẩn với trung bình là 25 centimét
độ lệch chuẩn là 0,2 centimét. Đo chiều dài của 10 chi tiết máy.
(a) Hãy tìm phân phối xác suất của chiều dài trung bình của 10 chi tiết máy được đo.
(b) Tính xác suất để chiều dài trung bình của 10 chi tiết máy được đo lớn hơn 25,06 centimét.

Bài tập 5

Giả sử tuổi thọ (đơn vị: năm) của một loại thiết bị là biến ngẫu nhiên có phân phối mũ với tham số
λ = 0, 2. Quan sát tuổi thọ của 50 thiết bị.
(a) Hãy tìm phân phối xác suất xấp xỉ của tuổi thọ trung bình của 50 thiết bị được quan sát.
(b) Tính xác suất để tuổi thọ trung bình của 50 thiết bị được quan sát nhỏ hơn 4,9 năm.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 119 / 122


Bài tập

Bài tập

Bài tập 6

Giả sử tỷ lệ khách hàng yêu thích sản phẩm của một công ty công nghệ là 55%. Phỏng vấn 100 khách
hàng, gọi X là số khách hàng trả lời “yêu thích” sản phẩm của công ty.
(a) Hãy tìm phân phối xác suất của X.
(b) Hãy tìm phân phối xác suất xấp xỉ của tỷ lệ khách hàng yêu thích sản phẩm của công ty trong 100
người được phỏng vấn.
(c) Tính xác suất để tỷ lệ khách hàng yêu thích sản phẩm của công ty trong 100 người được phỏng vấn
lớn hơn 50%

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 120 / 122


Bài tập

Bài tập

Bài tập 7

Giả sử tỷ lệ thiết bị bị lỗi trong dây chuyển công nghệ cũ là 1% và trong dây chuyền công nghệ mới là
0, 5%. Quan sát ngẫu nhiên 100 thiết bị được sản xuất theo dây chuyền công nghệ cũ và 120 thiết bị được
sản xuất theo dây chuyền công nghệ mới.
(a) Hãy tìm phân phối xác suất xấp xỉ của hiệu 2 tỷ lệ thiết bị bị lỗi trong 2 mẫu trên.
(b) Tính xác suất để tỷ lệ thiết bị bị lỗi trong mẫu sản xuất theo công nghệ cũ cao hơn trong mẫu sản
xuất theo công nghệ mới.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 121 / 122


Bài tập

Bài tập

Bài tập 8

Giả sử thu nhập (X) của sinh viên tốt nghiệp Ngành Công nghệ thông tin (CNTT) Đại học A trung bình
là 15000 USD/năm và độ lệch chuẩn là 1500 USD; còn thu nhập (Y ) của sinh viên tốt nghiệp Ngành
CNTT Đại học B trung bình là 13000 USD/năm và độ lệch chuẩn là 1200 USD.
(a) Giả sử X và Y có phân phối chuẩn. Quan sát thu nhập của 10 sinh viên tốt nghiệp Ngành CNTT của
Đại học A và 12 sinh viên Ngành CNTT của Đại học B. Hãy tính xác suất để thu nhập trung bình
của 10 sinh viên Đại học A cao hơn 12 sinh viên Đại học B ít nhất 1500 USD.
(b) Giả sử không biết X và Y có phân phối gì. Quan sát thu nhập của 50 sinh viên tốt nghiệp Ngành
CNTT của Đại học A và 60 sinh viên của Đại học B. Hãy tính xác suất để thu nhập trung bình của 50
sinh viên của Đại học A cao hơn thu nhập trung bình của 60 sinh viên Đại học B ít nhất 1500 USD.

Nguyễn Thị Thu Thủy (SAMI-HUST) MI3031–CHƯƠNG 1 HÀ NỘI–2023 122 / 122

You might also like