Professional Documents
Culture Documents
Thống Kê Ứng Dụng
Thống Kê Ứng Dụng
THỐNG KÊ MÔ TẢ
Phần mềm sử dụng: Stata
1. Mô tả bộ dữ liệu: gồm bao nhiêu biến? bao nhiêu quan sát? Dữ liệu của các
biến là định tính hay định lượng? Nếu là định lượng --> liên tục hay rời rạc.
2. Dữ liệu của các biến được thu thập theo thang đo nào? Các dữ liệu được thu
thập theo đơn vị gì?
Liên tục /
Tên biến Tính chất Thang đo Đơn vị
Rời rạc
* Note:
i. Biến liên tục (continuous variable) là biến số có thể nhận bất kỳ giá trị nào
trong một khoảng nhất định.
ii. Biến rời rạc (discrete variable) là biến số chỉ nhận các giá trị nguyên.
3. Mã hóa lại các thuộc tính của các biến định tính bằng các số (chẳng hạn: 1, 2,
3,…)
- Manufacturer:
tostringManufacturerMH,gen(Manufacturerer)
- Model:
tostring ModelMH,gen(Modelly)
- Vehicle_Type:
• tostring Vehicle_typeMH,gen(Vehicle_typel)
c. Mô tả các biến trong bộ dữ liệu
1. Lập các bảng tần số của từng biến sau: Manufacturer; Vehicle Type; Model.
tab Manufacturerer
→ Các quan sát của biến Model có độ phổ biến như nhau.
tab Vehicle_typel
→ Bảng dữ liệu của biến Sales _in_ Thousands theo Manufacturer có tổng 30
quan sát, thể hiện được sự so sánh tương quan về doanh số của các hãng xe,
trong đó:
- Dodge và Ford, tức giá trị 8 và 9 có tần số xuất hiện nhiều nhất là 11.
Trong đó, Dodge, tần số xuất hiện trong khoảng (0;78) là 6 lần, (78;1560 là 3
lần và 2 lần ở khoảng (154;234).
Ford với tần số xuất hiện trong khoảng từ (0;78) và (78;156) đều là 3 lần, và 2
lần ở các khoảng (156;234) và (234;268), 1 lần ở khoảng lớn hơn 468.
- Doanh số của Infiniti (giá trị 12) và Jaguar ( giá trị 13) có tần số xuất hiện ít
nhất với tần số là 1 đều ở khoảng (0;78).
- Các thuộc tính còn lại được phân bố đồng đều, xuất hiện nhiều ở khoảng
(0;78) với các tần số thường rơi vào 3,4,5,6.
tabulate Manufacturerer Vehicle_typel
→ Bảng dữ liệu của biến Vehicle_Typel theo Manufacturerer có tổng 30 quan
sát, thể hiện được sự so sánh tương quan về 2 loại phương tiện Car (giá trị 1) và
Passenger (giá trị 2) của các hãng xe, trong đó:
- Phương tiện Car: Hãng Dodge, tức giá trị 8 có tần số cao nhất với số lần xuất
hiện là 6, và các hãng Acura (1), Audi (2), BMW (3), Buick (4),... có tần số thấp
nhất với số lần xuất hiện là 0 vì các hãng này đều không có phương tiện Car
(thiếu dữ liệu). Xuất hiện nhiều giá trị 0, và khá ít các giá trị cao. Các giá trị
phân bố không đồng đều.
- Phương tiện Passenger: Hãng Chevrolet, tức giá trị 6 có tần số cao nhất với số
lần xuất hiện là 6, và Jeep tức giá trị 14 có tấn số ít nhất là 0. Các giá trị phân bố
đồng đều hơn, chỉ có 1 giá trị 0, và các giá trị thường rơi vào khoảng 3 và 4.
→ Với 2 trường hợp, ta sẽ có các giá trị tần số khác nhau của cùng 1 biến.
tabulate Modelly Price_in_thousands_groups
→ Bảng dữ liệu của biến Price_in_thousands theo Model có tổng 157 quan sát
nhưng có 2 missing values generated nên chỉ còn 155, thể hiện được sự so sánh
tương quan về giá của từng kiểu mẫu xe, trong đó:
- Kiểu mẫu CL500, tức giá trị 27, có giá cao nhất trên 75.
- Các kiểu mẫu Alero (14), Avenger (18), Beetle (19) có giá thấp nhất từ 9 đến
20.
- Giá các kiểu mẫu dao động phổ biến trong khoảng từ 9 đến 31.
3. Dùng đồ thị phù hợp mô tả tất cả các biến có trong bộ dữ liệu và cho nhận
xét.
graph pie, over(Vehicle_typel) title(Vehicle_type)
→ Biểu đồ biểu thị cho biến Vehicle Type gồm 2 yếu tố, trong đó yếu tố
Passenger (2) có giá trị gấp gần bằng 1,5 lần Car (1).
(start=15, width=1)
→ Biểu đồ biểu thị tần suất xuất hiện của Fuel_efficiency, trong đó Mode của
biểu đồ nằm trong khoảng từ 25 đến 30. Các giá trị ít xuất hiện thường xuyên
nhất rơi vào khoảng biên bên phải của biểu đồ.
+ Price In Thousands: Dữ liệu lệch phải (Mean > Med (27,39075 > 22,799))
+ Engine Size: Dữ liệu lệch phải (Mean > Med > Mode (3,060897 > 3 > 2))
+ Horsepower: Dữ liệu lệch phải (Mean > Med > Mode (185,9487 > 177,5 >
150 v 170))
+ Wheelbase: Dữ liệu lệch phải
+ Width: Dữ liệu lệch phải ( Mean > Med (71,15 > 70,55))
+ Length: Dữ liệu gần như không lệch ( Mean, Med, Mode xấp xỉ nhau)
+ Curb Weight: Dữ liệu lệch phải (Mean > Med > Mode (3,378026 > 3,343 >
2,769 v 2,998))
+ Fuel Capacity: Dữ liệu lệch phải
+ Fuel Efficiency: Dữ liệu lệch trái ( Mean < Med < Mode (23,84416 < 24 <
25))
+ Power Perf Factor: Dữ liệu lệch phải (Mean > Med > Mode (77,04359 >
72,03092 > 52,085))
+ Sales in Thousands: Dữ liệu lệch phải (Mean > Med (52,99808 > 29,45))