You are on page 1of 47

BÀI TẬP THỰC HÀNH NHÓM

THỐNG KÊ MÔ TẢ
Phần mềm sử dụng: Stata

STT Họ và tên MSSV Mức độ đóng góp (%)

1 Hồ Hải Âu K214071766 100

2 Nguyễn Hồ Ngọc Trâm K214100728 100

3 Phạm Thị Bích Hạnh K214100680 100

4 Tống Thị Diễm Trinh K214100730 100

5 Nguyễn An Quỳnh K214100715 100


BÀI LÀM
a. Tải bộ dữ liệu Car Sales ở đường link trên LMS
b. Mô tả bộ dữ liệu:

1. Mô tả bộ dữ liệu: gồm bao nhiêu biến? bao nhiêu quan sát? Dữ liệu của các
biến là định tính hay định lượng? Nếu là định lượng --> liên tục hay rời rạc.
2. Dữ liệu của các biến được thu thập theo thang đo nào? Các dữ liệu được thu
thập theo đơn vị gì?

+ Số biến: 15, Số quan sát: 157

Liên tục /
Tên biến Tính chất Thang đo Đơn vị
Rời rạc

Sales_in_thousands Định lượng Liên tục Tỉ lệ Chiếc

Price_in_thousands Định lượng Liên tục Tỉ lệ dollar

Engine_size Định lượng Liên tục Tỉ lệ Cubic Centimeters (cc)

Horsepower Định lượng Rời rạc Tỉ lệ kW

Wheelbase Định lượng Liên tục Tỉ lệ cm

Width Định lượng Liên tục Tỉ lệ cm

Length Định lượng Liên tục Tỉ lệ cm

Curb_weight Định lượng Liên tục Tỉ lệ kg

Fuel _ Capacity Định lượng Rời rạc Tỉ lệ liter

Fuel_efficiency Định lượng Rời rạc Tỉ lệ liter


Power_perf_factor Định lượng Liên tục Tỉ lệ

Manufacturer Định tính Định danh

Model Định tính Định danh

Vehicle _ Type Định tính Định danh

Latest _ Launch Định lượng Liên tục Tỉ lệ

* Note:
i. Biến liên tục (continuous variable) là biến số có thể nhận bất kỳ giá trị nào
trong một khoảng nhất định.
ii. Biến rời rạc (discrete variable) là biến số chỉ nhận các giá trị nguyên.

3. Mã hóa lại các thuộc tính của các biến định tính bằng các số (chẳng hạn: 1, 2,
3,…)
- Manufacturer:
 tostringManufacturerMH,gen(Manufacturerer)
- Model:
 tostring ModelMH,gen(Modelly)
- Vehicle_Type:

• tostring Vehicle_typeMH,gen(Vehicle_typel)
c. Mô tả các biến trong bộ dữ liệu

1. Lập các bảng tần số của từng biến sau: Manufacturer; Vehicle Type; Model.

→ Nhận xét chi tiết về các bảng tần số trên.

 tab Manufacturerer

→Bảng dữ liệu biến Manufactures có tổng 30 quan sát, trong đó:


- Dodge (giá trị 8) và Ford (giá trị 9) xuất hiện nhiều lần nhất với tần suất
7,01%.
- Infinity (giá trị 12) và Jaguar (giá trị 13) xuất hiện ít nhất với tần suất 0,64% .
- Sự chênh lệch là 6, 57%.
→ Dodge và Ford là 2 hãng có nhiều dòng xe nhất.
 tab Modelly
→ Bảng dữ liệu biến Modelly có tổng 157 quan sát, trong đó:
- Carrera Coupe (giá trị 105) xuất hiện nhiều nhất với tần suất 1,27%.
- Các giá trị còn lại đều xuất hiện với tần suất 0,64%.
- Sự chênh lệch là 0,63%.

→ Các quan sát của biến Model có độ phổ biến như nhau.
 tab Vehicle_typel

→ Bảng dữ liệu biến Vehicle type có tổng 2 quan sát, trong đó:


- Giá trị lớn nhất Passenger, tức giá trị 2 với tần suất là 73,89%.
- Giá trị nhỏ nhất là Car, tức giá trị 1 với tần suất là 26,11%.
- Sự chênh lệch là 47, 78%.

-> Loại phương tiện Passenger phổ biến nhất.


2. Lập các bảng tần số đồng thời của: Sales _in_ Thousands theo
Manufacturer; Vehicle Type theo Manufacturer; Price_in_thousands theo
Model. → Nhận xét chi tiết về các bảng tần số trên.
 tabulate Manufacturerer Sales_in_thousands_groups

→ Bảng dữ liệu của biến Sales _in_ Thousands theo Manufacturer có tổng 30
quan sát, thể hiện được sự so sánh tương quan về doanh số của các hãng xe,
trong đó:
- Dodge và Ford, tức giá trị 8 và 9 có tần số xuất hiện nhiều nhất là 11.
Trong đó, Dodge, tần số xuất hiện trong khoảng (0;78) là 6 lần, (78;1560 là 3
lần và 2 lần ở khoảng (154;234).
Ford với tần số xuất hiện trong khoảng từ (0;78) và (78;156) đều là 3 lần, và 2
lần ở các khoảng (156;234) và (234;268), 1 lần ở khoảng lớn hơn 468.
- Doanh số của Infiniti (giá trị 12) và Jaguar ( giá trị 13) có tần số xuất hiện ít
nhất với tần số là 1 đều ở khoảng (0;78).
- Các thuộc tính còn lại được phân bố đồng đều, xuất hiện nhiều ở khoảng
(0;78) với các tần số thường rơi vào 3,4,5,6.
 tabulate Manufacturerer Vehicle_typel
→ Bảng dữ liệu của biến Vehicle_Typel theo Manufacturerer có tổng 30 quan
sát, thể hiện được sự so sánh tương quan về 2 loại phương tiện Car (giá trị 1) và
Passenger (giá trị 2) của các hãng xe, trong đó:
- Phương tiện Car: Hãng Dodge, tức giá trị 8 có tần số cao nhất với số lần xuất
hiện là 6, và các hãng Acura (1), Audi (2), BMW (3), Buick (4),... có tần số thấp
nhất với số lần xuất hiện là 0 vì các hãng này đều không có phương tiện Car
(thiếu dữ liệu). Xuất hiện nhiều giá trị 0, và khá ít các giá trị cao. Các giá trị
phân bố không đồng đều.
- Phương tiện Passenger: Hãng Chevrolet, tức giá trị 6 có tần số cao nhất với số
lần xuất hiện là 6, và Jeep tức giá trị 14 có tấn số ít nhất là 0. Các giá trị phân bố
đồng đều hơn, chỉ có 1 giá trị 0, và các giá trị thường rơi vào khoảng 3 và 4.
→ Với 2 trường hợp, ta sẽ có các giá trị tần số khác nhau của cùng 1 biến.
 tabulate Modelly Price_in_thousands_groups
→ Bảng dữ liệu của biến Price_in_thousands theo Model có tổng 157 quan sát
nhưng có 2 missing values generated nên chỉ còn 155, thể hiện được sự so sánh
tương quan về giá của từng kiểu mẫu xe, trong đó:
- Kiểu mẫu CL500, tức giá trị 27, có giá cao nhất trên 75.
- Các kiểu mẫu Alero (14), Avenger (18), Beetle (19) có giá thấp nhất từ 9 đến
20.
- Giá các kiểu mẫu dao động phổ biến trong khoảng từ 9 đến 31.
3. Dùng đồ thị phù hợp mô tả tất cả các biến có trong bộ dữ liệu và cho nhận
xét.
 graph pie, over(Vehicle_typel) title(Vehicle_type)

→ Biểu đồ biểu thị cho biến Vehicle Type gồm 2 yếu tố, trong đó yếu tố
Passenger (2) có giá trị gấp gần bằng 1,5 lần Car (1). 

 graph hbar (count), over(Manufacturer)


→ Biểu đồ biểu thị cho các biến của Manufacturer gồm 30 yếu tố, trong đó
Dodge và Ford chiếm tỉ lệ cao nhất với 10,1% và thấp nhất là Infiniti và Jaguar
với tỉ lệ 1%. 

histogram Sales_in_thousands, frequency normal ytitle(Frequency)


xtitle(Sales_in_thousands) title(Sales_in_thousands) (bin=12, start=.11,
width=45.037583)
→ Biểu đồ biểu thị tần suất xuất hiện của Sales_in_thousands, trong đó Mode
của biểu đồ nằm trong khoảng từ 0 đến 50. Giá trị xuất hiện nhiều nhất của
thanh đạt được là 100, rơi vào biên bên trái biểu đồ và giá trị ít xuất hiện thường
xuyên nhất rơi vào biên phải biểu đồ.

 histogram Engine_size, frequency normal ytitle(Frequency)


xtitle(Engine_size) title(Engine_size) (bin=12, start=1, width=.58333333)
→ Biểu đồ biểu thị tần suất xuất hiện của Engine_size, trong đó Mode của biểu
đồ nằm trong khoảng từ 2 đến 4 và các giá trị ít xuất hiện thường xuyên nhất rơi
vào khoảng biên của biểu đồ.

 histogram Price_in_thousands, frequency normal ytitle(Frequency)


xtitle(Price_in_thousands) title(Price_in_thousands) (bin=12, start=9.235,
width=6.3554167)
→ Biểu đồ biểu thị tần suất xuất hiện của Price_in_Thousands, trong đó Mode
của biểu đồ nằm trong khoảng từ 20 đến 40 và giá trị ít xuất hiện nhất rơi vào
vùng biên bên phải biểu đồ. 

 histogram Horsepower, discrete frequency normal ytitle(Frequency)


xtitle(Horsepower) title(Horsepower) (start=55, width=1)
→ Biểu đồ biểu thị tần suất xuất hiện của Horsepower, trong đó Mode của biểu
đồ nằm trong khoảng từ 100 đến 200.  

 histogram Fuel_capacity, discrete frequency normal ytitle(Frequency)


xtitle(Fuel_capacity) title(Fuel_capacity) (start=10.3, width=.09999943)
→ Biểu đồ biểu thị tần suất xuất hiện của Fuel_capacity, trong đó Mode của
biểu đồ nằm trong khoảng từ 15 đến 20. 

 histogram Fuel_efficiency, discrete frequency normal ytitle(Frequency)


xtitle(Fuel_efficiency) title(Fuel_efficiency)

(start=15, width=1)
→ Biểu đồ biểu thị tần suất xuất hiện của Fuel_efficiency, trong đó Mode của
biểu đồ nằm trong khoảng từ 25 đến 30. Các giá trị ít xuất hiện thường xuyên
nhất rơi vào khoảng biên bên phải của biểu đồ.

histogram Latest_Launch, frequency normal ytitle(Frequency)


xtitle(latest_launch) title(latest_launch)

(bin=12, start=17575, width=148.41667)


→ Biểu đồ biểu thị tần suất của Lastest_Launch, trong đó Mode của biểu đồ
nằm trong khoảng từ 1/1/2011 đến 1/1/2013 và các giá trị ít xuất hiện thường
xuyên nhất rơi vào khoảng biên bên trái của biểu đồ. 

 histogram Power_perf_factor, frequency normal ytitle(Frequency)


xtitle(Power_perf_factor) title(Power_perf_factor) (bin=12, start=23.276272,
width=13.739004)
→ Biểu đồ biểu thị tần suất của Power_perf_factor, trong đó Mode của biểu đồ
nằm trong khoảng từ 50 đến 100 và các giá trị ít xuất hiện thường xuyên nhất
rơi vào khoảng biên bên phải của biểu đồ. 

 histogram Width, frequency normal ytitle(Frequency) xtitle(Width)


title(Width) (bin=12, start=62.6, width=1.4416667)
→ Biểu đồ biểu thị tần suất của Width, trong đó Mode của biểu đồ nằm trong
khoảng từ 70 đến 75 và các giá trị ít xuất hiện thường xuyên nhất rơi vào
khoảng biên bên trái của biểu đồ. 

 histogram Length, frequency normal ytitle(Frequency) xtitle(Length)


title(Length) (bin=12, start=149.4, width=6.2583333)
→ Biểu đồ biểu thị tần suất của Length, trong đó Mode của biểu đồ nằm trong khoảng
từ 175 đến 195 và các giá trị ít xuất hiện thường xuyên nhất rơi vào khoảng biên của
biểu đồ.

 histogram Wheelbase, frequency normal ytitle(Frequency)


xtitle(Wheelbase) title(Wheelbase)

(bin=12, start=92.6, width=3.8416667)


→ Biểu đồ biểu thị tần suất của Wheelbase, trong đó Mode của biểu đồ nằm trong
khoảng từ 100 đến 110 và giá trị ít xuất hiện nhất rơi vào vùng biên bên phải biểu đồ.
Giá trị chiều dài cơ sở thường nằm trong khoảng 100 đến 110 cm.

4. Phát hiện các Missing value (nếu có).


 ssc install mdesc
 mdesc
- Xác định vị trí của Missing values:
5. Tính toán các trị thống kê mô tả đặc trưng của tất cả các biến có trong dữ
liệu. → Từ đó, nhận xét về hình dáng phân phối dữ liệu của các biến trên?
- Tính Mode của các biến:
- Tính các trị thống kê khác:
→ Nhận xét về hình dáng phân phối dữ liệu của các biến trên:

+ Price In Thousands: Dữ liệu lệch phải (Mean > Med (27,39075 > 22,799))
+ Engine Size: Dữ liệu lệch phải (Mean > Med > Mode (3,060897 > 3 > 2))
+ Horsepower: Dữ liệu lệch phải (Mean > Med > Mode (185,9487 > 177,5 >
150 v 170))
+ Wheelbase: Dữ liệu lệch phải
+ Width: Dữ liệu lệch phải ( Mean > Med (71,15 > 70,55))
+ Length: Dữ liệu gần như không lệch ( Mean, Med, Mode xấp xỉ nhau)
+ Curb Weight: Dữ liệu lệch phải (Mean > Med > Mode (3,378026 > 3,343 >
2,769 v 2,998))
+ Fuel Capacity: Dữ liệu lệch phải
+ Fuel Efficiency: Dữ liệu lệch trái ( Mean < Med < Mode (23,84416 < 24 <
25))
+ Power Perf Factor: Dữ liệu lệch phải (Mean > Med > Mode (77,04359 >
72,03092 > 52,085))
+ Sales in Thousands: Dữ liệu lệch phải (Mean > Med (52,99808 > 29,45))

You might also like