Professional Documents
Culture Documents
Chương I
Chương I
I. Thống kê:
1. Khái niệm:
- Thống kê có thể là những con số tính toán từ sự kiện thực tế như trung bình, trung vị, tần
suất và chỉ số, sẽ giúp ta hiểu về các tình huống trong kinh tế và kinh tế.
- Thống kê cũng có thể là nghệ thuật và khoa học của việc thu thập, phân tích, trình bày và
diễn giải dữ liệu
2. Ứng dụng của thống kê:
- Kế toán : Công ty kiểm toán sử dụng các thủ tục lấy mẫu thống kê khi tiến hành kiểm
toán cho khách hàng
- Kinh tế học : Các nhà kinh tế thường xuyên đưa ra các dự báo về tương lai của nền kinh
tế hoặc về một khía cạnh nào đó của nền kinh tế.
- Tài chính : Chuyên gia tài chính sử dụng một loạt các thông tin để hướng dẫn khuyến
nghị đầu tư.
- Marketing : Máy quét điện tử tại quầy tính tiền bán lẻ thu thập dữ liệu cho một loạt các
ứng dụng nghiên cứu thị trường.
- Sản xuất : Một loạt các kiểm soát chất lượng là ứng dụng quan trọng của thống kê sản
xuất.
- Kinh tế học : Để dự báo về tương lai của nền kinh tế hoặc khía cạnh nào đó của kinh tế,
các nhà kinh tế học đã và đang sử dụng một loạt các thông tin thống kê
VD : trong dự báo lạm phát, họ đã sử dụng thông tin thống kê về các chỉ số như chỉ số giá
sản xuất, tỷ lệ thất nghiệp và sử dụng năng lực sản xuất
II. Dữ liệu và tập tin:
- Một loạt các kiểm soát chất lượng là ứng dụng quan trọng của thống kê sản xuất.
- Tất cả các dữ liệu thu thập trong một nghiên cứu cụ thể được gọi là tập dữ liệu nghiên
cứu.
III. Phần tử, biến và quan sát
- Phần tử là các thực thể mà từ đó dữ liệu được thu thập
- Biến là một đặc tính của phần tử cần quan tâm.
- Tập hợp các số đo thu được của một phần tử được gọi là một quan sát.
- Một tập dữ liệu với n phần tử có n quan sát.
- Tổng số giá trị của dữ liệu trong một tập dữ liệu hoàn chỉnh là số phần tử nhân với số
biến.
IV. Thang đo
- Thang đo xác định lượng thông tin chứa trong dữ liệu
- Thang đo cho biết cách tóm tắt dữ liệu và phân tích thống kê nào là phù hợp.
- Các loại thang đo:
Thang đo danh nghĩa:
- Dữ liệu có nhãn hoặc tên được sử dụng để xác định một thuộc tính của phần tử.
- Nhãn ký tự hoặc mã số có thể được sử dụng
- Trong thang đo này các con số chỉ dùng để phân loại các đối tượng, chúng không mang
ý nghĩa nào khác. Về thực chất thang đo danh nghĩa là sự phân loại và đặt tên cho các
biểu hiện và ấn định cho chúng một ký số tương ứng
VD : - Vui lòng cho biết giới tính của bạn?
1. Nam
2. Nữ
- Sinh viên đại học được phân loại theo trường, trong đó chúng ta sử dụng nhãn ký tự như
Kinh tế, Nhân văn, Sư phạm…
- Hoặc mã số được dùng cho biến trường ( ví dụ 1 là Kinh tế, 2 là Nhân Văn, 3 là Sư
phạm…)
Thang đo thứ bậc:
- Dữ liệu thể hiện tính chất của dữ liệu danh nghĩa và thứ tự hoặc xếp hạng của dữ liệu này
có ý nghĩa
- Nhãn ký tự hoặc mã số có thể được sử dụng
- Là thang đo mà các con số ở thang đo danh nghĩa được sắp xếp theo một quy ước nào đó
về thứ bậc hay sự hơn kém, nhưng ta không biết được khoảng cách giữa chúng. Điều này
có nghĩa là bất cứ thang đo thứ bậc nào cũng là thang đo danh nghĩa nhưng không thể suy
ngược lại.
- Thang đo thứ bậc có ưu điểm : cho thấy sự khác biệt, sự hơn kém giữa các biểu hiện của
dữ liệu của biến nhưng sự hơn kém đó không nhất thiết phải bằng nhau và không biết cụ
thể là bao nhiêu nên không thực hiện được các phép tính thống kê đối với chúng
VD : - Sinh viên đại học được phân loại theo niên khóa và chúng ta thường sử dụng
nhãn kí tự như năm 1, năm 2, năm 3, năm 4. Ngoài ra mã số có thể được dùng cho biến
niên khóa học ( 1 là năm nhất, 2 là năm 2, tương tự)
Thu nhập theo tháng, trình độ học vấn
Thang đo khoảng :
- Dữ liệu có thuộc tính của dữ liệu thức bậc và khoảng cách giữa các giá trị được thể hiện
dưới dạng đơn vị đo lường cố định.
- Dữ liệu khoảng luôn là dữ liệu số.
- là một dạng đặc biệt của thang đo thứ bậc vì nó cho biết khoảng cách giữa các thứ bậc.
Thông thường thang đo khoảng có dạng là một dãy các chữ số liên tục và đều đặn từ 1
đến 5, từ 1 đến 7 hoặc từ 1 đến 10
VD :
- Melissa có điểm SAT là 1205, Kevin có điểm SAT là 1090. Điểm số của Melissa cao
hơn Kevin 115 điểm.
Thang đo tỉ lệ:
- Dữ liệu có đầy đủ tính chất của dữ liệu khoảng và tỷ lệ giữa 2 giá trị có ý nghĩa.
- Các biến như khoảng cách, chiều cao, trọng lượng và thời gian đều sử dụng thang đo Tỷ
lệ.
- Thang đo này phải có giá trị 0 chỉ ra rằng không có gì tồn tại trong biến tại điểm 0.
- Thang đo tỉ lệ có tất cả các đặc tính khoảng cách và thứ tự của thang đo khoảng, điểm 0
trong thang đo tỉ lệ là một trị số thật nên ta có thể thực hiện được phép chia để tính tỉ lệ
nhằm mục đích so sánh. Thang đo tỉ lệ cho phép thực hiện mọi phép toán phân tích thống
kê.
- Thang đo tỉ lệ là thang đo mạnh nhất trong hệ thống thang đo
VD : Hồ sơ đại học cho biết Melissa tích lũy được 36 tín chỉ, trong khi Kevin tích lũy
được 72 credit tín chỉ. Kevin tích lũy được số tín chỉ gấp đôi số tín chỉ của Melissa.
Đồ thị điểm :
- Một trong những đồ thị tóm tắt đơn giản nhất cho dữ liệu là đổ thị điểm.
- Trục ngang thể hiện phạm vi biến thiên của dữ liệu.
- Mỗi giá trị dữ liệu được đại diện bởi một điểm trên trục
Biểu đồ phân phối Histogram
- Một loại biểu đồ phổ biến dùng cho dữ liệu định lượng là biểu đồ phân phối histogram
- Biến quan tâm được đặt ở trục ngang.
- Một hình chữ nhật được vẽ trên mỗi nhóm với chiều cao tương ứng tần số, tần suất, hoặc
tần suất phần trăm( đặt trên trục thẳng đứng )
- Không giống như biểu đồ thanh, biểu đồ phân phối histogram không có sự tách biệt giữa
các hình chữ nhật của các nhóm liền kề
Đồ thị phân phối tần số
- Khái quát về sự tập trung của dữ liệu
- Mức độ phân tán tương đối của tập dữ liệu
- Nhận dạng hình dáng của phân phối
+ Đối xứng
Đồ thị Ogive
- Là một đồ thị phân phối tích lũy
- Giá trị dữ liệu đặt ở trục ngang.
- Trục đứng biểu diễn:
+ Tần số tích lũy, hoặc
+ Tần suất tích lũy, hoặc
+ Tần suất phần trăm tích lũy
- Tần số (hoặc một trong các chỉ tiêu trên) của mỗi nhóm là một điểm.
- Các điểm đuộc nối lại với nhau bằng một đường thẳng
PHẦN B: THỐNG KÊ MÔ TẢ ; TRÌNH BÀY BẰNG BẢNG VÀ ĐỒ THỊ
d) Phân vị
- Phân vị cung cấp thông tin về cách thức dữ liệu được trải ra trong một khoảng từ giá trị
nhỏ nhất đến giá trị lớn nhất.
- Các trường Cao đẳng và đại học thường xuyên báo cáo kết quả kiểm tra đầu vào dưới
dạng phân vị.
- Phân vị thứ p của tập dữ liệu là một giá trị mà ít nhất p phần trăm các quan sát có giá trị
nhỏ hơn hoặc bằng giá trị này và ít nhất có (100 - p) phần trăm các quan sát có giá trị lớn
hơn hoặc bằng giá trị này.
- Xếp dữ liệu theo thứ tự tăng dần
- Tính chỉ số i, vị trí của phân vị thứ p: i = (p/100)n
- Nếu i không phải là số nguyên, làm tròn nó. Phân vị thứ p là giá trị ở vị trí i.
- Nếu i là một số nguyên, phân vị thứ p là trung bình của hai giá trị ở vị trí i và i +1.
e) Tứ phân vị
- Tứ phân vị là một phân vị đặc biệt
- Tứ phân vị thứ nhất = phân vị thứ 25
- Tứ phân vị thứ hai = Phân vị thứ 50 = Trung vị
- Tứ phân vị = Phân vị thứ 75
- Giới hạn là vị trí (không được vẽ) bằng việc sử dụng độ trải giữa (IQR).
- Dữ liệu bên ngoài giới hạn này được xem là giá trị bất thường
- Các điểm của mỗi giá trị bất thường sẽ được hiển thị một biểu tượng dấu sao * .
VD :
IV. Các đại lượng đo lường mối liên hệ giữa hai biến
- Đại lương để mô tả mối liên hệ giữa hai biến là hiệp phương sai và hệ số tương quan
a) Hiệp phương sai
- đo lường liên hệ tuyến tính giữa hai biến
- Một giá trị dương thể hiện mối liên hệ thuận
- Một giá trị âm thể hiện mối liên hệ nghịch
b) Hệ số tương quan
- Tương quan là thước đo mối liên hệ tuyến tính và không nhất thiết phải là liên hệ nhân
quả
- Chỉ cho biết là hai biến có tương quan chặt chẽ hay không, chứ không có nghĩa một biến
là nguyên nhân của biến còn lại