You are on page 1of 49

CHƯƠNG I : DỮ LIỆU VÀ THỐNG KÊ

I. Thống kê:
1. Khái niệm:
- Thống kê có thể là những con số tính toán từ sự kiện thực tế như trung bình, trung vị, tần
suất và chỉ số, sẽ giúp ta hiểu về các tình huống trong kinh tế và kinh tế.
- Thống kê cũng có thể là nghệ thuật và khoa học của việc thu thập, phân tích, trình bày và
diễn giải dữ liệu
2. Ứng dụng của thống kê:
- Kế toán : Công ty kiểm toán sử dụng các thủ tục lấy mẫu thống kê khi tiến hành kiểm
toán cho khách hàng
- Kinh tế học : Các nhà kinh tế thường xuyên đưa ra các dự báo về tương lai của nền kinh
tế hoặc về một khía cạnh nào đó của nền kinh tế.
- Tài chính : Chuyên gia tài chính sử dụng một loạt các thông tin để hướng dẫn khuyến
nghị đầu tư.
- Marketing : Máy quét điện tử tại quầy tính tiền bán lẻ thu thập dữ liệu cho một loạt các
ứng dụng nghiên cứu thị trường.
- Sản xuất : Một loạt các kiểm soát chất lượng là ứng dụng quan trọng của thống kê sản
xuất.
- Kinh tế học : Để dự báo về tương lai của nền kinh tế hoặc khía cạnh nào đó của kinh tế,
các nhà kinh tế học đã và đang sử dụng một loạt các thông tin thống kê
VD : trong dự báo lạm phát, họ đã sử dụng thông tin thống kê về các chỉ số như chỉ số giá
sản xuất, tỷ lệ thất nghiệp và sử dụng năng lực sản xuất
II. Dữ liệu và tập tin:
- Một loạt các kiểm soát chất lượng là ứng dụng quan trọng của thống kê sản xuất.
- Tất cả các dữ liệu thu thập trong một nghiên cứu cụ thể được gọi là tập dữ liệu nghiên
cứu.
III. Phần tử, biến và quan sát
- Phần tử là các thực thể mà từ đó dữ liệu được thu thập
- Biến là một đặc tính của phần tử cần quan tâm.
- Tập hợp các số đo thu được của một phần tử được gọi là một quan sát.
- Một tập dữ liệu với n phần tử có n quan sát.
- Tổng số giá trị của dữ liệu trong một tập dữ liệu hoàn chỉnh là số phần tử nhân với số
biến.
IV. Thang đo
- Thang đo xác định lượng thông tin chứa trong dữ liệu
- Thang đo cho biết cách tóm tắt dữ liệu và phân tích thống kê nào là phù hợp.
- Các loại thang đo:
 Thang đo danh nghĩa:
- Dữ liệu có nhãn hoặc tên được sử dụng để xác định một thuộc tính của phần tử.
- Nhãn ký tự hoặc mã số có thể được sử dụng
-  Trong thang đo này các con số chỉ dùng để phân loại các đối tượng, chúng không mang
ý nghĩa nào khác. Về thực chất thang đo danh nghĩa là sự phân loại và đặt tên cho các
biểu hiện và ấn định cho chúng một ký số tương ứng
VD : - Vui lòng cho biết giới tính của bạn?
1. Nam
2. Nữ
- Sinh viên đại học được phân loại theo trường, trong đó chúng ta sử dụng nhãn ký tự như
Kinh tế, Nhân văn, Sư phạm…
- Hoặc mã số được dùng cho biến trường ( ví dụ 1 là Kinh tế, 2 là Nhân Văn, 3 là Sư
phạm…)
 Thang đo thứ bậc:
- Dữ liệu thể hiện tính chất của dữ liệu danh nghĩa và thứ tự hoặc xếp hạng của dữ liệu này
có ý nghĩa
- Nhãn ký tự hoặc mã số có thể được sử dụng
- Là thang đo mà các con số ở thang đo danh nghĩa được sắp xếp theo một quy ước nào đó
về thứ bậc hay sự hơn kém, nhưng ta không biết được khoảng cách giữa chúng. Điều này
có nghĩa là bất cứ thang đo thứ bậc nào cũng là thang đo danh nghĩa nhưng không thể suy
ngược lại.
- Thang đo thứ bậc có ưu điểm : cho thấy sự khác biệt, sự hơn kém giữa các biểu hiện của
dữ liệu của biến nhưng sự hơn kém đó không nhất thiết phải bằng nhau và không biết cụ
thể là bao nhiêu nên không thực hiện được các phép tính thống kê đối với chúng
VD : - Sinh viên đại học được phân loại theo niên khóa và chúng ta thường sử dụng
nhãn kí tự như năm 1, năm 2, năm 3, năm 4. Ngoài ra mã số có thể được dùng cho biến
niên khóa học ( 1 là năm nhất, 2 là năm 2, tương tự)
Thu nhập theo tháng, trình độ học vấn
 Thang đo khoảng :
- Dữ liệu có thuộc tính của dữ liệu thức bậc và khoảng cách giữa các giá trị được thể hiện
dưới dạng đơn vị đo lường cố định.
- Dữ liệu khoảng luôn là dữ liệu số.
- là một dạng đặc biệt của thang đo thứ bậc vì nó cho biết khoảng cách giữa các thứ bậc.
Thông thường thang đo khoảng có dạng là một dãy các chữ số liên tục và đều đặn từ 1
đến 5, từ 1 đến 7 hoặc từ 1 đến 10
VD :

- Melissa có điểm SAT là 1205, Kevin có điểm SAT là 1090. Điểm số của Melissa cao
hơn Kevin 115 điểm.
 Thang đo tỉ lệ:
- Dữ liệu có đầy đủ tính chất của dữ liệu khoảng và tỷ lệ giữa 2 giá trị có ý nghĩa.
- Các biến như khoảng cách, chiều cao, trọng lượng và thời gian đều sử dụng thang đo Tỷ
lệ.
- Thang đo này phải có giá trị 0 chỉ ra rằng không có gì tồn tại trong biến tại điểm 0.
- Thang đo tỉ lệ có tất cả các đặc tính khoảng cách và thứ tự của thang đo khoảng, điểm 0
trong thang đo tỉ lệ là một trị số thật nên ta có thể thực hiện được phép chia để tính tỉ lệ
nhằm mục đích so sánh. Thang đo tỉ lệ cho phép thực hiện mọi phép toán phân tích thống
kê.
- Thang đo tỉ lệ là thang đo mạnh nhất trong hệ thống thang đo
VD : Hồ sơ đại học cho biết Melissa tích lũy được 36 tín chỉ, trong khi Kevin tích lũy
được 72 credit tín chỉ. Kevin tích lũy được số tín chỉ gấp đôi số tín chỉ của Melissa.

BẢNG TÓM TẮT:


V. Dữ liệu phân loại và dữ liệu định lượng, dữ liệu thời điểm và dữ liệu chuỗi thời
giản:
- Dùng phân tích thống kê nào phụ thuộc vào dữ liệu là phân loại hay định lượng
- Nói chung, có nhiều lựa chọn phân tích thống kê hơn khi dữ liệu là định lượng.
 Dữ liệu phân loại :
- Nhãn hay tên được dùng để xác định thuộc tính của mỗi phần tử.
- Thường được gọi là dữ liệu định tính
- Thường dùng thang đo danh nghĩa hoặc thứ bậc
- Có thể là số hoặc không phải là số
- Phân tích thống kê thường bị hạn chế
 Dữ liệu định lượng:
- Rời rạc, nếu là số nguyên
- Liên tục, nếu là số thực
- Luôn là số
- Những phép tính số học thông thường phù hợp với dữ liệu định lượng
 Dữ liệu thời điểm:
- Dữ liệu thời điểm được thu thập ở cùng hoặc xấp xỉ vào cùng một thời điểm.
- Ví dụ: Dữ liệu chi tiết số lượng giấy phép xây dựng đã ban bành vào tháng hai năm 2010
của mỗi quận ở Ohio
 Dữ liệu chuỗi thời gian:
- Dữ liệu chuỗi thời gian được thu thập qua nhiều giai đoạn thời gian.
Ví dụ: Dữ liệu chi tiết số lượng giấy phép xây dựng được ban hành ở quận Lucas, Ohio
trong 36 tháng qua
VI. Phân loại biến :
a. Biến định tính:
- Biến không thể nhận giá trị bằng số nhưng có thể phân thành hai hay nhiều nhóm không
bằng số nói lên đặc điểm hay loại hình của phần tử hay đơn vị tổng thể
- Một cách ngắn gọn : biến định tính là biến với dự liệu định tính
- Còn gọi là biến phân loại giúp cho việc phân loại các đối tượng nghiên cứu thành các
nhóm khác nhau. 
VD : màu tó, giới tính, quốc tịch, tôn giáo, nhãn hiệu của PC,..
b. Biến định lượng:
- Là biến có biểu hiện trực tiếp bằng con số. Đó là kết quả của quá trình cân,đong,đo,đếm
- Các giá trị của chúng là các con số giá trị thực.
VD: Số nhân khẩu trong một gia đình, tuổi thọ của sản phẩm, thu nhập, chi tiêu cho giáo
dục,..
- Biến định lượng được phân thành hai loại :
 Biến định lượng rời rạc:
- Các giá trị có thể có của nó là hữu hạn hay vô hạn và có thể điếm được
- Chỉ nhận các giá trị nguyên.
- Có thể chấp nhận các giá trị của một tập hợp số đã cho. Đó là, nó chỉ có được các giá trị
của một tập hợp, không phải bất kỳ giá trị nào.
VD : Số cuộc gọi trong mỗi 15 phút, số lỗi trong một trang sách, số con của cặp vợ
chồng,…
 Biến định lượng liên tục:
- Các giá trị có thể có của nó có thể lấp kín cả một khoảng trên trục số
- Có thể nhận bất kỳ giá trị nào trong một khoảng nhất định, tức biến thiên mà không bị
gián đoạn.
VD : trọng lượng, chiều cao, năng suất, thuế thu nhập,..
- Phân tích thống kê phù hợp phụ thuộc vào biến định tính hay biến định lượng
- Nếu là biến định tính : phân tích thống kê bị hạn chế
VII. Nguồn dữ liệu
1. Nguồn có sẵn
- Các công ty duy trì nhiều cơ sở dữ liệu về nhân viên, khách hàng ( tuổi, giới tính, mức
thu nhập, sở thích, qui mô hộ) về các hoạt động kinh doanh ( doanh số bán hàng, chi phí
quãng cáo, chi phí phân phối, lượng tồn kho, lượng sản xuất)
2. Nghiên cứu thống kê-thử nghiệm
- Trong một nghiên cứu thử nghiệm biến quan tâm được xác định đầu tiên. Sau đó một
hoặc nhiều biến khác được xác định và kiểm soát sao cho dữ liệu thu được phản ánh cách
chúng ảnh hưởng đến biến quan tâm.
VD : công ty dược phẩm đang thực hiện một thử nghiệm về loại thuốc mới ảnh hưởng
đến huyết áp. Huyết áp là biến quan tâm. Liều lượng thuốc mới là biến được hi vọng có
ảnh hưởng nhân quả len huyết áp
- Trong nghiên cứu quan sát (phi thực nghiệm) không cần kiểm soát hay tác động đến biến
quan tâm.
- Khảo sát là một ví dụ điển hình : Nghiên cứu về người hút thuốc và không hút thuốc là
nghiên cứu quan sát bởi vì nhà nghiên cứu không xác định hoặc kiểm soát ai sẽ hút thuốc
ai sẽ không hút thuốc.
VIII. Lưu ý khi thu thập dữ liệu
 Thời gian yêu cầu
- Tìm kiếm thông tin phải tính đến thời gian.
- Thông tin có thể không mang tính thời sự vì nó có sẵn
 Chi phí thu thập:
- Công ty thường phải trả phí cho thông tin ngay cả khi nó không phải là hoạt động kinh
doanh chính của họ.
 Dữ liệu lỗi
- Sử dụng bất kỳ dữ liệu có sẵn hay thu thập mà không cẩn thận đều có thể dẫn đến thông
tin sai lệch
 Lỗi trong thu thập dữ liệu
- Sử dụng dữ liệu sai còn tồi tệ hơn không sử dụng bất kì dữ liệu nào
- Xảy ra khi giá trị dữ liệu thu thập được không bằng giá trị thực sự
- Xảy ra trong một số trường hợp:
+ Người phỏng vấn có thể mắc lỗi nghe
+ Người trả lời phỏng vấn hiểu sai câu hỏi và cung cấp câu trả lời không đúng
- Khắc phục : kiểm tra tính nhất quán của nội bộ dữ liệu
IX. Thống kê mô tả
- Hầu hết thông tin thống kê trong báo, tạp chí, báo cáo công ty và các ấn phẩm khác chứa
dữ liệu được tổng hợp và trình bày theo một hình thức dễ dàng cho người đọc hiểu
- Tóm tắt dữ liệu có thể là bảng, đồ họa, hoặc số được gọi là thống kê mô tả.
- Thống kê mô tả phổ biến nhất là mức trung bình nó cho thấy một thước đo xu hướng
trung tâm hoặc vị trí trung tâm của dữ liệu của biến đó
X. Thống kê suy diễn
- Nhiều tình huống đòi hỏi thông tin về đặc điểm nhóm lớn phần tử, tổng thể ( cá nhân,
công ty, hộ gia đình,…) những do thời gian, chi phí, điều kiện khác có hạn chỉ có thẻ thu
thập dữ liệu được từ một phần nhỏ của nhóm này.
- Đóng góp lớn của thống kê là sử dụng dữ liệu từ một mẫu đại diện thực hiện ước lượng
và kiểm định giải quyết về các đặc tính của một tổng thể thông qua một quá trình gọi là
suy diễn thống kê
- Tổng thể: Tập hợp tất cả phần tử được quan tâm trong một nghiên cứu cụ thể
- Mẫu: Là tập con của tổng thể
- Suy diễn thống kê: Là quá trình sử dụng dữ liệu từ một mẫu ước lượng và kiểm định giả
thuyết về các đặc tính của một tổng thể thống kê
- Điều tra toàn bộ: Thu thập dữ liệu trong toàn bộ tổng thể
- Điều tra mẫu: Thu thập dữ liệu cho một mẫu
XI. Các bước suy diễn thống kê
1. Tổng thể của tất cả nhu cầu điều chỉnh động cơ. Chi phí trung bình là chưa biết
2. Một mẫu 50 động cơ đã diều chỉnh được kiểm tra
3. Dữ liệu mẫu cho biết chi phí trung bình là 79 đô la một động cơ.
4. Trung bình mẫu được dùng để ước lượng cho trung bình tổng thể
XII. Máy tính và phân tích thống kê
- Các nhà thống kê thường sử dụng các phần mềm máy tính để tính toán chỉ tiêu thống kê
đối với bộ dữ liệu lớn.
- Đề thuận lợi cho việc sử dụng máy tính, nhiều bộ dữ liệu nói đến trong cuốn sách này
được để trên website.
- Các tập tin dữ liệu có thể tải về dưới dạng Minitab hoặc Excel
- Ngoài ra, công cụ thống kê để thêm vào trong Excel cũng có thể tải về từ Website.
- Các phụ lục cuối chương hướng dẫn việc sử dụng Minitab, Excel, và các công cụ thống
kê.
XIII. Kho dữ liệu
- Các tổ chức thu được dữ liệu lớn hàng ngày bằng các đầu đọc thẻ từ, máy quét mã vạch,
các điểm kết nối bán hàng và màn hình cảm ứng
- Thu thập, lưu trữ và duy trì dữ liệu, gọi là kho dữ liệu, một công việc có ý nghĩa
XIV. Khai thác dữ liệu
- Phân tích các dữ liệu trong kho dữ liệu có thể giúp cho việc ra quyết định cho chiến lược
mới và mang lại lợi nhuận cao hơn cho tổ chức
- Sử dụng kết hợp các thủ tục thống kê, toán học, và kho học máy tính, phân tích “mỏ dữ
liệu ” để chuyển đổi nó thành thông tin hữu ích
- Các hệ thống khai thác dữ liệu hiệu quả nhất sử dụng các thủ tục tự động để khám phá
các mối quan hệ trong dữ liệu và dự đoán kết quả tương lai,…thông qua những yêu cầu
có vẻ là chung chung, thậm chí là mơ hồ bởi người dùng.
- Các ứng dụng chính của khai thác dữ liệu đã được thực ở nhiều công ty chủ yếu là ở
mảng khách hàng như bán lẻ, tài chính, và truyền thông
- Khai thác dữ liệu được sử dụng đề tìm hiểu các sản phẩm liên quan có khả năng mua
cùng khi khách hàng mua một sản phẩm cụ thể (và sau đó cửa sổ pop-ups được dùng để
thu hút sữ chú ý cho những sản phẩm liên quan) giúp bán được nhiều hàng hơn.
- Một ví dụ khác, khai thác dữ liệu được sử dụng để xác định khách hàng nào sẽ nhận
được những ưu đãi đặc biệt dựa trên lịch sử mua hàng trong quá khứ.
XV. Những yêu cầu khai thác dữ liệu
- Phương pháp thống kê như hồi quy, hồi quy logistic, tương quan thường được dùng nhiều
- Cũng cần đến khoa học máy tính liên quan đến trí tuệ nhân tạo và học máy
- Một sự đầu tư đáng kể về thời gian và tiền bạc là xứng đáng
- Tìm được một mô hình thống kê hiệu quả cho một mẫu dữ liệu cụ thể không nhất thiết nó
sẽ phù hợp, đáng tin cậy khi áp dụng cho bộ dữ liệu khác.
- Với lượng dữ liệu lớn có sẵn, có thể chia dữ liệu thành hai tập con, một tập dữ liệu thực
hiện ( để xây dựng mô hình) và một tập dữ liệu kiểm tra (để kiểm tra lại mô hình)
- Tuy nhiên thật nguy hiểm khi dùng mô hình bám
- thật sát các điểm dữ liệu có thể dẫn đến gợi ý sai mối liên hệ
- Giải thích cẩn thận kết quả và thử nghiệm rộng rãi là rất quan trọng
XVI. Mô hình khai thác dữ liệu đáng tin cậy
- Tìm được một mô hình thống kê hiệu quả cho một mẫu dữ liệu cụ thể không nhất thiết nó
sẽ phù hợp, đáng tin cậy khi áp dụng cho bộ dữ liệu khác
- Với lượng dữ liệu lớn có sẵn, có thể chia dữ liệu thành hai tập con, một tập dữ liệu thực
hiện ( để xây dựng mô hình) và một tập dữ liệu kiểm tra (để kiểm tra lại mô hình)
- Tuy nhiên thật nguy hiểm khi dùng mô hình bám
- thật sát các điểm dữ liệu có thể dẫn đến gợi ý sai mối liên hệ
- Giải thích cẩn thận kết quả và thử nghiệm rộng rãi là rất quan trọng
XVII. Nguyên tắc đạo đức trong thực hành thống kê
- Báo cáo gồm 67 nguyên tắc chia thành 8 lĩnh vực:
- Tính chuyên nghiệp
- Trách nhiệm nhà tài trợ, khách hàng, nhà tuyển dụng lao động
- Trách nhiệm trong các ấn phẩm và các bằng chứng
- Trách nhiệm của đối tượng nghiện cứu
- Trách nhiệm của các nhóm nghiên cứu nhiệm của các nhà thống kê/học viên
- Trách nhiệm tố giác các hành vi sai trái
- Trách nhiệm của nhà tuyền dụng bao gồm: Tổ chức, cá nhân, luật sư, khách hàng

CHƯƠNG II: THỐNG KÊ MÔ TẢ : TRÌNH BÀY BẰNG BẲNG VÀ ĐỒ THỊ


I. Dữ liệu định tính và dữ liệu định lượng
- Dữ liệu định tính : sử dụng nhãn hoặc tên để xác định các phân loại của yếu tố đó.
- Dữ liệu định lượng : là giá trị số chỉ ra bao nhiêu.
a) Tóm tắt dữ liệu định tính
 Phân phối tần số
- Là một bảng tóm tắt dữ liệu thể hiện tần số (số lượng) của các phần tử trong mỗi nhóm
không chồng lấn
- Mục đích là cung cấp cái nhìn sâu hơn về dữ liệu mà chúng ta không thể thấy được ngay
trên dữ liệu ban đầu.
VD : Khách lưu trú tại Marada Inn được yêu cầu đánh giá chất lượng phòng với các mức
như: tuyệt vời, trên trung bình, trung bình, dưới trung bình, tệ . Bảng đánh giá của 20 du
khách như sau:
 Phân phối tần suất ( tần số tương đối )
- Phân phối tần suất của một nhóm bằng tỷ số hoặc tỷ lệ các phần tử thuộc về một nhóm.
- Phân phối tần suất là bảng tóm tắt dữ liệu thể hiện tần suất của mỗi nhóm
- Cho tập dữ liệu với n quán sát, tần suất của mỗi nhóm được xác định:
Tần suất = tần số/n
- Tần suất phần trăm bằng tần suất nhân với 100
- Phân phối tần suất phần trăm là bảng tóm tắt dữ liệu thể hiện tần suất phần trăm của mỗi
nhóm
VD :
 Biểu đồ thanh
- Biểu đồ thanh là một kỹ thuật đồ họa để mô tả dữ liệu định tính
- Trên 1 trục của biểu đồ (thường là trục ngang), chúng ta đặt các nhãn đại diện cho các
nhóm.
- Tần số, tần suất, hoặc tần suất phần trăm được thể hiện trên trục còn lại của biểu đồ
(thường là trục đứng).
- Dùng 1 thanh có chiều rộng cố định đại diện cho mỗi nhóm, mở rộng chiều dài thanh
cho phù hợp.
- Các thanh được tách ra để nhấn mạnh thực tế rằng mỗi nhóm là riêng biệt.
 Đồ thị Pareto
- Trong kiểm soát chất lượng, biểu đồ thanh được dùng để xác định nguyên nhân quan
trọng của vấn đề.
- Khi các thanh được xếp theo thứ tự từ cao đến thấp từ trái sang phải (với các nguyên
nhân thường xảy ra nhất được xếp đầu tiên) biểu đồ thanh này còn gọi là đồ thị Pareto.
- Đồ thị này được đặt tên theo tên người sáng lập ra nó, Vilfredo Pareto, một nhà kinh tế
người Ý.
 Biểu đồ tròn
- Biểu đồ tròn là kỹ thuật đồ họa để biểu diễn phân phối tần suất hoặc tần suất phần trăm
cho dữ liệu định tính
- Đầu tiên vẽ 1 vòng tròn; sau đó dùng tần suất để chia vòng tròn thành các phần tương
ứng với tần suất của mỗi nhóm.
- Vì 1 vòng tròn là 360 độ, 1 nhóm có tần suất là 0,25 sẽ có độ là 0,25(360) = 90 độ.
b) Tóm tắt dữ liệu định lượng
 Phân phối tần số:
- Ba bước cần thiết để xác định các nhóm cho một phân phối tần số với dữ liệu định lượng:
1. Xác định số lượng các nhóm riêng biệt.
2. Xác định độ rộng của mỗi nhóm
3. Xác định các giới hạn nhóm
- Hướng dẫn xác định số lượng nhóm:
+ Nên dùng khoảng 5 đến 20 nhóm.
+ Tập dữ liệu với sô lượng lớn các phần tử thì đòi hỏi nhiều nhóm
+ Tập dữ liệu nhỏ thì cần ít nhóm hơn.
Mục đích là số nhóm vừa đủ để thể hiện được sự thay đổi của dữ liệu, nhưng không nên
có quá nhiều nhóm mà một nhóm chỉ chứa một vài phần tử.
- Hướng dẫn xác định độ rộng mỗi nhóm:
Các nhóm có độ rộng bằng nhau giá trị lớn nhất
Giá trị lớn nhất−giá trị nhỏ nhất
+ Độ rộng nhóm xấp xỉ =
số nhóm
+ Các nhóm có cùng độ rộng giúp giảm thiểu những cái nhìn không phù hợp về dữ liệu.
+ Độ rộng của nhóm có thể làm tròn đến một giá trị thuận tiện hơn dựa trên sở thích của
người xây dựng tần số
*Chú ý: Chênh lệch giữa giới hạn dưới của 2 nhóm liền kề là độ rộng nhóm
*Lưu ý về số lượng nhóm và độ rộng nhóm
+ Trong thực hành, số lượng nhóm và độ rộng nhóm thích hợp được xác định bằng cách
thử và sai
+ Một khi số lượng nhóm được chọn, sẽ tính toán được độ rộng nhóm tương ứng.
+ Quá trình này có thể lặp lại với số lượng nhóm khác nhau.
+ Cuối cùng, nhà phân tích dùng phán đoán để xác định sự kết hợp số lượng nhóm và độ
rộng nhóm để có một phân phối tần số tốt nhất cho tóm tắt dữ liệu
- Hướng dẫn xác định giới hạn nhóm
+ Giới hạn nhóm: phải được xác định sao cho mỗi giá trị quán sát thuộc về một và chỉ
một nhóm
+ Giới hạn dưới : là giá trị nhỏ nhất được gắn cho nhóm
+ Giới hạn trên : là giá trị lớn nhất được gắn cho nhóm
+ Các giá trị thích hợp cho giới hạn nhóm phụ thuộc vào độ chính xác của dữ liệu
+ Các giá trị thích hợp cho giới hạn nhóm phụ thuộc vào độ chính xác của dữ liệu.
+ Nhóm mở chỉ được dùng cho nhóm đầu tiên hoặc nhóm cuối cùng.
- Không có một phân phối tần số tốt nhất cho một tập dữ liệu
- Trị số giữa các nhóm = ( giá trị giới hạn dưới + giá trị giới hạn trên)/2

 Đồ thị điểm :
- Một trong những đồ thị tóm tắt đơn giản nhất cho dữ liệu là đổ thị điểm.
- Trục ngang thể hiện phạm vi biến thiên của dữ liệu.
- Mỗi giá trị dữ liệu được đại diện bởi một điểm trên trục
 Biểu đồ phân phối Histogram
- Một loại biểu đồ phổ biến dùng cho dữ liệu định lượng là biểu đồ phân phối histogram
- Biến quan tâm được đặt ở trục ngang.
- Một hình chữ nhật được vẽ trên mỗi nhóm với chiều cao tương ứng tần số, tần suất, hoặc
tần suất phần trăm( đặt trên trục thẳng đứng )
- Không giống như biểu đồ thanh, biểu đồ phân phối histogram không có sự tách biệt giữa
các hình chữ nhật của các nhóm liền kề
 Đồ thị phân phối tần số
- Khái quát về sự tập trung của dữ liệu
- Mức độ phân tán tương đối của tập dữ liệu
- Nhận dạng hình dáng của phân phối
+ Đối xứng

+ Hơi lệch trái


+ Hơi lệch phải

+ Lệch phải nhiều


 Phân phối tích lũy
- Tần số tích lũy, tần suất, tần suất phần trăm tích lũy được bằng cách cộng dồn các , tần
suất, tần suất phần trăm trong phân phối tần số, tần suất, tần suất phần trăm
- Thể hiện số lượng dữ liệu có giá trị nhỏ hơn hoặc bằng với giới hạn trên của mỗi nhóm.
- Thể hiện tỷ lệ dữ liệu có giá trị nhỏ hơn hoặc bằng giới hạn trên của mỗi nhóm.
- Thể hiện phần trăm của dữ liệu có giá trị nhỏ hơn hoặc bằng giới hạn trên của mỗi nhóm.
- Nhóm cuối cùng của một phân phối tần số tích lũy luôn bằng tổng số quan sát.
- Nhóm cuối cùng của một phân phối tần suất tích lũy luôn bằng 1,0.
- Nhóm cuối cùng của một phân phối tần suất phần trăm tích lũy luôn bằng 100

 Đồ thị Ogive
- Là một đồ thị phân phối tích lũy
- Giá trị dữ liệu đặt ở trục ngang.
- Trục đứng biểu diễn:
+ Tần số tích lũy, hoặc
+ Tần suất tích lũy, hoặc
+ Tần suất phần trăm tích lũy
- Tần số (hoặc một trong các chỉ tiêu trên) của mỗi nhóm là một điểm.
- Các điểm đuộc nối lại với nhau bằng một đường thẳng
PHẦN B: THỐNG KÊ MÔ TẢ ; TRÌNH BÀY BẰNG BẢNG VÀ ĐỒ THỊ

I. Phân tích dữ liệu thăm dò: Biểu đồ nhánh lá


- Kỹ thuật phân tích dữ liệu thăm dò là biểu đồ nhánh lá
- Nó hiển thị cả thứ tự và hình dạng của một tập dữ liệu cùng một lúc
- Biểu đồ nhánh lá thể hiện thứ tự xếp hạng và hình dáng phân phối của dữ liệu.
- Nó giống với phân phối tần số histogram về hình dáng, nhưng có thêm một ưu điểm là
thể hiện cả giá trị của dữ liệu
- Các chữ số đầu tiên của mỗi giá trị được đặt bên trái của đường thẳng đứng.
- Bên phải đường thẳng, chúng ta ghi các chữ số cuối của từng giá trị theo thứ tự từ nhỏ
đến lớn.
- Mỗi chữ số bên trái đường thẳng là 1 nhánh.
- Mỗi chữ số cuối cùng bên phải mỗi giá trị là 1 lá.
- Biểu đồ nhánh lá mở rộng:
+ Nếu thấy biểu đồ nhánh là ban đầu của chúng ta có quá nhiều dữ liệu, chúng ta có thể
kéo dài cách hiển thị bằng cách sử dụng 2 nhánh cho mỗi chữ số đầu.
+ Khi 1 giá trị nhánh được viết 2 lần, thì nhánh đầu sẽ gồm các giá trị của lá từ 0 – 4,
nhánh 2 gồm các giá trị của lá từ 5-9

- Hai lợi thế của biểu đồ nhánh lá so với biểu đồ histogram:


+ Dễ dàng xây dựng bằng tay
+ Trong một nhóm, cung cấp nhiều thông tin hơn biểu đồ histogram bời vì nhánh lá cho
thấy giá trị dữ liệu cụ thể
- Đơn vị lá:
+ Mỗi chữ số được dùng để đại diện một lá.
+ Trong ví dụ trước, đơn vị lá là 1
+ Đơn vị của lá có thề là 100, 10, 1, 0,1,...
+ Trường hợp nếu không khai báo đơn vị lá, nó quy ước là 1.
+ Đơn vị của lá dùng để nhân với nhánh và lá để có được giá trị gần đúng ban đầu của dữ
liệu.
II. Bảng chéo và đồ thị phân tán
1. Bảng chéo
- Sử dụng để tóm tắt dữ liệu cho thấy mối liên hệ giữa hai biến
- Bảng chéo là bảng tóm tắt dữ liệu cho hai biến đồng thời
- Bảng chéo được dùng khi:
+ Một biến là định tính và một biến là định lượng,
+ Cả hai biến là định tính, hoặc
+ Cả hai biến là định lượng
- Các nhãn bên trái và bên trên xác định các nhóm của hai biến .

Thông tin từ bảng chéo:


+ Phần lớn các căn hộ (19) trong mẫu có kiểu split-level và giá dưới 200.000 USD.
+ Chỉ có 3 căn hộ kiểu A-Frame và giá cao hơn hoặc bằng 200.000USD
- Bảng chéo phần trăm hàng và cột: Chuyển đổi các giá trị trong bảng thành tỷ lệ phần
trăm theo cột hoặc tỷ lệ phần trăm theo hàng có thể cung cấp cái nhìn sâu hơn về mối
quan hệ giữa hai biến.

- Bảng chéo nghịch lí Simpson:


+ Dữ liệu trong 2 hoặc 3 bảng chéo là thường được gom lại để tạo ra một bảng chéo tổng
hợp.
+ Dữ liệu trong 2 hoặc 3 bảng chéo là thường được gom lại để tạo ra một bảng chéo tổng
hợp.
+ Trong một số trường hợp, các kết luận dựa trên một bảng tổng hợp có thể sẽ ngược lại
hoàn toàn so với dữ liệu ban đầu . Các kết luận nghịch lý dựa trên bảng tổng hợp so với
dữ liệu ban đầu gọi là Nghịch lý Simpson.
2. Đồ thị phân tán và đường xu hướng
- Đồ thị phân tán là trình bày đồ họa về mối quan hệ giữa hai biến định lượng.
- Một biến được biểu diễn ở trục hoành và biến còn lại trên trục tung
- Những điểm giá trị vẽ trên đồ thị thể hiện mới quan hệ tổng quát giữa 2 biến
- Đường xu hướng cung cấp một xấp xỉ về mối quan hệ.
 Quan hệ thuận
 Quan hệ nghịch

 Không có mối quan hệ


VD:
Đồ thị phân tán cho biết mối quan hệ dương giữa số lần chặn bóng và điểm ghi bàn
Điểm ghi bàn cao hơn liên hệ với số lần chặn nhiều
Mối quan hệ không phải là hoàn hảo các điểm trên đồ thị phân tán không nằm trên cùng
một đường thẳng.
CHƯƠNG 3. PHẦN A
THỐNG KÊ MÔ TẢ : CÁC ĐẠI LƯỢNG SỐ

I. Đại lượng đo lường vị trí


- Nếu các tính toán cho dữ liệu từ một mẫu , gọi là thống kê mẫu.
- Nếu các tính toán cho dữ liệu từ tổng thể, gọi là tham số tổng thể.
- Thống kê mẫu được gọi là ước lượng điểm của tham số tổng thể tương ứng
a) Trung bình
- Đại lượng quan trọng nhất để đo lường vị trí là trung bình .
- Trung bình là đại lượng đo lường vị trí trung tâm.
- Trung bình của tập dữ liệu là trung bình của tất các các giá trị dữ liệu
- Trung bình mẫu x là ước lượng điểm của trung bình tổng thể μ
VD :
b) Trung vị
- Trung vị của dữ liệu là giá trị đứng ở vị trí giữa khi các giá trị của dữ liệu được xếp theo
thứ tự tăng dần
- Khi tập dữ liệu có những giá trị bất thường, trung vị là thước đo ưu tiên cho vị trí trung
tâm
- Trung vị thường được dùng làm thước đo vị trí cho dữ liệu về thu nhập vá giá trị tài sản
hàng năm
- Một vài giá trị thu nhập hoặc tài sản rất lớn có thể ảnh hưởng đến trung bình.
- Một đại lượng khác, thỉnh thoảng đượcdùng khi xuất hiện những giá trị ngoại lệ đó là
trimmed mean
- Nó được tính bằng cách loại đi phần trăm những giá trị nhỏ nhất và giá trị lớn nhất của
tập dữ liệu sau đó tính trung bình cho những giá trị còn lại.
VD : Ví dụ, the 5% trimmed mean có nghĩa là bỏ đi 5% giá trị nhỏ nhất và 5% giá trị lớn
nhất của dữ liệu sau đó tính trung bình các giá trị còn lại
c) Mode
- Mode của tập dữ liệu là giá trị có tần số xuất hiện lớn nhất
- Tần số lớn nhất có thể ở 2 hai nhiều giá trị khác nhau.
- Nếu dữ liệu có 2 mode, dữ liệu là bimodal
- Nếu dữ liệu có nhiều hơn 2 mode, dữ liệu là multimodal.
- Lưu ý: Nếu dữ liệu có hai hay nhiều mode , thì hàm MODE trong excel sẽ chỉ xác định
được 1 mode.
VD:

d) Phân vị
- Phân vị cung cấp thông tin về cách thức dữ liệu được trải ra trong một khoảng từ giá trị
nhỏ nhất đến giá trị lớn nhất.
- Các trường Cao đẳng và đại học thường xuyên báo cáo kết quả kiểm tra đầu vào dưới
dạng phân vị.
- Phân vị thứ p của tập dữ liệu là một giá trị mà ít nhất p phần trăm các quan sát có giá trị
nhỏ hơn hoặc bằng giá trị này và ít nhất có (100 - p) phần trăm các quan sát có giá trị lớn
hơn hoặc bằng giá trị này.
- Xếp dữ liệu theo thứ tự tăng dần
- Tính chỉ số i, vị trí của phân vị thứ p: i = (p/100)n
- Nếu i không phải là số nguyên, làm tròn nó. Phân vị thứ p là giá trị ở vị trí i.
- Nếu i là một số nguyên, phân vị thứ p là trung bình của hai giá trị ở vị trí i và i +1.
e) Tứ phân vị
- Tứ phân vị là một phân vị đặc biệt
- Tứ phân vị thứ nhất = phân vị thứ 25
- Tứ phân vị thứ hai = Phân vị thứ 50 = Trung vị
- Tứ phân vị = Phân vị thứ 75

II. Đo lường độ phân tán


- Chúng ta thường mong muốn xem xét các đại lượng đo lường sự phân tán (biến thiên),
cũng như là đo lường vị trí.
Ví dụ: trong việc chọn lưa nhà cung cấp dịch vụ giao hàng A hoặc B, chúng ta không chỉ
xem xét thời gian giao hàng trung bình, mà còn xem xét biến thiên thời gian giao hàng
của mỗi nhà cung cấp.
a) Khoảng biến thiên ( Range )
- Khoảng biến thiên của một tập dữ liệu là chênh lệch giữa giá trị lớn nhất và giá trị nhỏ
nhất.
- Nó là đại lượng đơn giản nhất để đo lường độ phân tán
- Nó rất nhạy với giá trị dữ liệu nhỏ nhất và lớn nhất.
b) Độ trải giữa (Interquartile Range)
- Độ trải giữa của tập dữ liệu là chênh lệch giữa tứ phân vị thứ ba và tứ phân vị thứ nhất.
- Nó là khoảng biến thiên của 50% dữ liệu ở giữa của dãy số.
- Nó không bị ảnh hưởng bởi giá trị ngoại lệ.

c) Phương sai (Variance)


- Phương sai là một đại lượng đo lường phân tán mà sử dụng tất cả dữ liệu.
- Nó dựa trên chênh lệch giữa giá trị của mỗi quan sát (xi) và trung bình ( x dùng cho mẫu
, μ cho tổng thể).
- Phương sai rất hữu ích trong việc so sánh độ phân tán của hai hay nhiều biến.
- Phương sai là trung bình của bình phương sai lệch giữa mỗi giá trị dữ liệu với trung
bình.

d) Độ lệch chuẩn (Standard Deviation)


- Độ lệch chuẩn của tập dữ liệu là căn bậc hai của phương sai
- Nó được đo bằng đơn vị giống với dữ liệu, nên sẽ dễ dàng giải thích hơn so với phương
sai.
PHẦN B.
I. Các đại lượng đo lường hình dáng phân phối, vị trí tương đối, phát hiện các giá
trị bất thường
a) Hình dáng phân phối: Hệ số bất đối xứng (Skewness)
- Một đại lượng số quan trọng đo lường hình dáng của một phân phối gọi là Hệ số bất đối
xứng (Skewness
- Công thức hệ số bất đối xứng cho mẫu:
b) Giá trị chuẩn hóa z
- Giá trị z thường gọi là giá trị chuẩn hóa
- Hàm STANDARDIZE trong Excel có thể tính được giá trị z.
- Giá trị z của một quan sát đo lường vị trí tương đối của quan sát trong một tập dữ liệu..
- Một giá trị dữ liệu nhỏ hơn trung bình mẫu sẽ có giá trị z nhỏ hơn 0.
- Một giá trị dữ liệu lớn hơn trung bình mẫu sẽ có giá trị z lớn hơn 0.
- Một giá trị dữ liệu bằng với trung bình mẫu sẽ có giá trị z bằng 0.

c) Quy tắc Chebyshev


- Ít nhất (1 - 1/z2) số lượng giá trị dữ liệu nằm trong z độ lệch chuẩn so với trung bình,
trong đó z là giá trị bất kỳ lớn hơn 1.
- Quy tắc Chebyshev yêu cầu z > 1, nhưng z không bắt buộc phải là số nguyên.
- Ít nhất 75% giá trị dữ liệu phải nằm trong khoảng z = 2 độ lệch chuẩn so với trung bình
- Ít nhất 89% giá trị dữ liệu phải nằm trong khoảng z = 3 độ lệch chuẩn so với trung bình
- Ít nhất 94% giá trị dữ liệu phải nằm trong khoảng z = 4 độ lệch chuẩn so với trung bình
VD : Với z = 1,5 và x = 490,80 và s = 54,74
Ít nhất (1 - 1/(1,5)2) = 1 - 0,44 = 0,56 hoặc 56%
Căn hộ có giá thuê nằm trong khoảng
x - z(s) = 490,80 - 1,5(54,74) = 409
x + z(s) = 490,80 + 1,5(54,74) = 573
Thực tế, 86% giá thuê căn hộ nằm trong khoảng 409 và 573
d) Qui tắc thực nghiệm
*Khi dữ liệu được cho là xấp xỉ phân phối chuẩn
- Quy tắc thực nghiệm có thể được dùng để xác định tỷ lệ phần trăm của giá trị dữ liệu năm
trong một khoảng xác định của độ lệch chuẩn so vói trung bình
- Quy tắc thực nghiệm dựa trên phân phối chuẩn, sẽ được thảo luận trong Chương 6
*Dữ liệu xấp xỉ phân phối chuẩn
- 68,26% giá trị của một biến ngẫu nhiên nằm trong khoảng +/- 1 độ lệch chuẩn so với
trung bình
- 95,44% giá trị của một biến ngẫu nhiên nằm trong khoảng +/- 2 độ lệch chuẩn so với
trung bình
- 99,72% giá trị của một biến ngẫu nhiên nằm trong khoảng +/- 3 độ lệch chuẩn so với
trung bình

e) Phát hiện các giá trị bất thường


- Giá trị bất thường là giá trị nhỏ bất thường hoặc lớn bất thường trong tập dữ liệu
- Một giá trị dữ liệu có giá trị z nhỏ hơn -3 hoặc lớn +3 có thể được xem là giá trị bất
thường
- Nó có thể là
 Được ghi chép không chính xác
 Một giá trị dữ liệu không nằm trong tập dữ liệu
 Một giá trị dữ liệu bất thường đã được ghi lại một cách chính xác và thuộc trong tập dữ
liệu.
f) Phân tích dữ liệu thăm dò
- Phân tích dữ liêu thăm dò cho phép chúng ta dùng các tính toán số học đơn giản và dễ
dàng vẽ các hình ảnh để tóm tắt dữ liệu.
- Chúng ta chỉ đơn giản xếp dữ liệu theo thứ tự tăng dần và xác định bộ tóm tắt 5 số và xây
dựng biểu đồ hộp.

II. Bộ tóm tắt 5 số


III. Biểu đồ hộp
- Biểu đồ hộp là một tóm tắt bằng hình vẽ của dữ liệu dựa trên bộ tóm tắt 5 số.
- Chìa khóa để xây dựng một biểu đồ hộp là tính toán trung vị và các tứ phân vị Q1 và Q3.
- Biểu đô hộp cũng là một cách để phất hiện giá trị bất thường

- Giới hạn là vị trí (không được vẽ) bằng việc sử dụng độ trải giữa (IQR).
- Dữ liệu bên ngoài giới hạn này được xem là giá trị bất thường
- Các điểm của mỗi giá trị bất thường sẽ được hiển thị một biểu tượng dấu sao * .
VD :
IV. Các đại lượng đo lường mối liên hệ giữa hai biến
- Đại lương để mô tả mối liên hệ giữa hai biến là hiệp phương sai và hệ số tương quan
a) Hiệp phương sai
- đo lường liên hệ tuyến tính giữa hai biến
- Một giá trị dương thể hiện mối liên hệ thuận
- Một giá trị âm thể hiện mối liên hệ nghịch

b) Hệ số tương quan
- Tương quan là thước đo mối liên hệ tuyến tính và không nhất thiết phải là liên hệ nhân
quả
- Chỉ cho biết là hai biến có tương quan chặt chẽ hay không, chứ không có nghĩa một biến
là nguyên nhân của biến còn lại

- Hệ số tương quan có thể nhận giá trị từ -1 đến +1.


- Giá trị gần -1 cho biết tương quan tuyến tính nghịch chặc chẽ
- Giá trị gần +1 cho biết tương quan tuyến tính thuận chặc chẽ.
- Tương quan càng gần 0, cho biết tương quan yếu
V. Trung bình có trọng số và Làm việc với dữ liệu đã được phân nhóm
a) Trung bình có trọng số
- Khi giá trị trung bình được tính bằng cách mỗi giá trị dữ liệu được gán trọng số phản ánh
mức độ quan trọng của nó, gọi là trung bình trọng số
- Trong việc tính điểm trung bình (GPA), trọng số là số tín chỉ của mỗi môn học
- Khi giá trị dữ liệu khác nhau về tầm quan trọng, các nhà phân tích phải chọn trọng số sao
cho phản ánh tầm quan trọng của mỗi giá trị.

b) Làm việc với dữ liệu đã được phân nhóm


- Trung bình có trọng số có thể được dùng để tính xấp xỉ trung bình, phương sai, độ lệch
chuẩn cho dữ liệu đã được phân nhóm.
- Để tính trung bình trọng số, chúng ta phải xem các giá trị giữa của mỗi nhóm như thể
đó là trung bình các quán sát trong nhóm.
- Chúng ta tính trung bình trọng số của một giá trị giữa của nhóm sử dụng tần số của
nhóm làm trọng số.
- Tương tự như vậy, trong tính toàn phương sai và độ lệch chuẩn , tần số các nhóm được
dùng làm trọng số.

You might also like