You are on page 1of 2

Trong video này, chúng ta sẽ tìm hiểu

về thống kê mô tả. Khi bạn bắt đầu phân tích dữ liệu,


điều quan trọng trước tiên là khám phá dữ liệu của bạn trước khi bạn dành thời gian
xây dựng các mô hình phức tạp. Một cách dễ dàng để làm điều đó là tính toán
một vài thống kê mô tả cho dữ liệu của bạn. Phân tích thống kê mô tả giúp
mô tả các đặc trưng cơ bản của bộ dữ liệu để có được một bản tóm tắt ngắn về mẫu
và các measure của dữ liệu. Tôi sẽ cho bạn xem một vài
phương pháp hữu ích khác nhau. Một cách để làm điều này
là sử dụng hàm describe trong Pandas. Hãy sử dụng hàm describe và áp dụng
nó trên khung dữ liệu của bạn. Hàm describe tự động tính toán thống kê
cơ bản cho tất cả các biến số. Nó hiển thị giá trị trung bình, tổng số
điểm dữ liệu, độ lệch chuẩn, tứ phân vị và cực trị. Mọi giá trị NAN đều bị tự động
bỏ qua
trong các thống kê này. Hàm này sẽ cung cấp cho bạn hình dung rõ ràng
về việc phân phối các biến số. và biến số như thế nào. Có thể bạn sẽ có các biến
lập nhóm
trong bộ dữ liệu của mình. Đây là những biến có thể được chia thành
các danh mục hoặc các nhóm khác nhau và có giá trị rời rạc. Ví dụ: trong bộ dữ liệu
của chúng ta,
có hệ thống dẫn động là một biến lập nhóm, trong đó bao gồm các nhóm:
dẫn động cầu trước, dẫn động cầu sau và dẫn động bốn bánh. Một cách để tóm tắt dữ
liệu lập nhóm là sử dụng hàm value_counts. Chúng ta có thể thay đổi tên của cột
để dễ đọc hơn. Chúng ta thấy rằng có 118 xe ô tô
trong nhóm dẫn động cầu trước, 75 ô tô thuộc nhóm dẫn động cầu sau và 8 xe thuộc
dẫn động bốn bánh. Biểu đồ hộp là một cách tuyệt vời
để trực quan hóa dữ liệu số vì bạn có thể trực quan hóa
các phân phối khác nhau của dữ liệu. Các đặc trưng chính mà biểu đồ hộp hiển thị
là Median (trung vị) của dữ liệu, đại diện cho vị trí điểm dữ liệu chính giữa.
Upper Quartile (tứ phân vị trên) hiển thị
vị trí của điểm phần trăm thứ 75. Lower Quartile (tứ phân vị dưới) hiển thị
vị trí của điểm phần trăm thứ 25. Dữ liệu giữa tứ phân vị trên và dưới đại diện cho
độ trải giữa. Tiếp theo, bạn có Lower (cực tiểu)
và Upper Extreme (cực đại). Chúng được tính bằng 1,5
lần độ trải giữa trên điểm phần trăm thứ 75 và bằng 1,5
lần độ trải giữa dưới điểm phần trăm thứ 25. Cuối cùng, các biểu đồ hộp cũng hiển
thị
điểm ngoại lai dưới dạng các chấm riêng lẻ nằm bên ngoài Upper và Lower Extreme.
Với biểu đồ hộp,
bạn có thể dễ dàng phát hiện ra các điểm ngoại lai và cũng thấy được sự phân phối
và độ lệch của dữ liệu. Biểu đồ hộp giúp ta dễ dàng so sánh
giữa các nhóm. Trong ví dụ này, sử dụng biểu đồ hộp giúp chúng ta có thể thấy
sự phân bổ các nhóm khác nhau của đặc trưng dẫn động
so với đặc trưng giá. Chúng ta có thể thấy rằng sự phân bổ giá
giữa dẫn động cầu sau và các nhóm còn lại khác biệt khá lớn. Nhưng giá của dẫn động
cầu trước và dẫn động bốn bánh gần như
không mấy khác biệt. Thông thường, chúng ta có xu hướng nhìn vào
biến liên tục trong dữ liệu của mình. Các điểm dữ liệu này là các số
trong một phạm vi nào đó. Ví dụ, trong bộ dữ liệu của chúng ta,
giá và kích cỡ động cơ là các biến liên tục. Nếu chúng ta muốn tìm hiểu
mối quan hệ giữa kích cỡ động cơ và giá cả thì sao? giá cả (price) Kích cỡ động cơ
có thể
dự đoán giá của một chiếc xe hơi không? Một cách hay để trực quan hóa
là sử dụng biểu đồ phân tán. Mỗi quan sát trong biểu đồ phân tán
được biểu diễn dưới dạng một điểm. Biểu đồ này cho thấy mối quan hệ
giữa hai biến: biến dự báo, là biến bạn sử dụng
để dự đoán kết quả. Trong trường hợp này, biến dự báo
của chúng ta là kích cỡ động cơ. Biến mục tiêu là biến
mà bạn đang cố gắng dự đoán. Trong trường hợp này,
biến mục tiêu của chúng ta là giá vì đây sẽ là kết quả. Trong biểu đồ phân tán,
chúng ta thường đặt
biến dự báo trên trục x hay trục hoành và đặt biến mục tiêu
trên trục y hay trục tung. Trong trường hợp này, chúng ta sẽ biểu diễn
kích cỡ động cơ trên trục x và giá trên trục y. Chúng ta sử dụng các hàm Matplotlib
scatter ở đây, lấy biến x và y làm tham số. Một điều cần lưu ý và là một việc quan
trọng
là luôn phải gắn nhãn các trục của bạn và viết tiêu đề chung cho biểu đồ
để bạn biết mình đang xem gì. Biến kích cỡ động cơ
liên quan như thế nào đến giá? Từ biểu đồ phân tán,
chúng ta thấy rằng khi kích cỡ động cơ tăng lên, giá xe cũng tăng theo. Điều này
cho chúng ta một nhận định ban đầu rằng có mối quan hệ tuyến tính thuận
giữa hai biến này. [ÂM NHẠC]

You might also like