You are on page 1of 13

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN


KHOA THÔNG TIN – THƯ VIỆN

--------

TIỂU LUẬN CUỐI KỲ


HỌC PHẦN: KHOA HỌC DỮ LIỆU

Giảng viên: TS. Nguyễn Hoàng Long


Sinh viên: Lê Lan Nhi
K67 Quản lý thông tin CLC
MSSV: 22031885
Ngày sinh: 29/05/2004
MỤC LỤC
I. GIỚI THIỆU VỀ FILE DỮ LIỆU UNIVERSITY RANKING 2......................3

II. VẤN ĐỀ TỒN TẠI TRONG FILE DỮ LIỆU VÀ QUÁ TRÌNH THỰC
HIỆN XỬ LÝ, TỔNG HỢP..................................................................................4

1. Vấn đề tồn tại trong file dữ liệu UNIVERSITY RANKING 2:....................4

2. Quá trình thực hiện xử lý, tổng hợp:.............................................................4

2.1. Quá trình thực hiện xử lý:......................................................................4

2.2. Tổng hợp thông tin và xây dựng biểu đồ:..............................................5

III. BIỂU ĐỒ, TÁC DỤNG CỦA BIỂU ĐỒ........................................................5

1. Dữ liệu để xây dựng biểu đồ:........................................................................5

a, Top 10 quốc gia có số lần các Trường Đại Học lọt bảng xếp hạng nhiều
nhất. ..............................................................................................................6

b, Số lượng các Trường Đại Học ở Đông Nam Á thuộc bảng xếp hạng năm
2012...............................................................................................................6

c, Số lần lọt top 5 của các Trường Đại Học năm 2011-2016........................6

d, Tổng điểm của các trường top 1 năm 2011-2016......................................6

e, Sự tương quan giữa hoạt động nghiên cứu và số lượng trích dẫn của top
10 Trường Đại Học năm 2016.......................................................................7

f, Mối quan hệ giữa tỷ lệ sinh viên/giảng viên và chất lượng giảng dạy tại
top 10 Trường Đại Học năm 2013................................................................7

g, Số lượng Trường Đại Học của các quốc gia thuộc bảng xếp hạng năm
2011...............................................................................................................8

h, Thể hiện tổng số sinh viên và số sinh viên quốc tế của top 10 Trường Đại
Học có số sinh vên nhiều nhất năm 2011......................................................8

2. Biểu đồ:.........................................................................................................8

IV. GIỚI THIỆU VỀ DASH BOARD................................................................12


1. Giới thiệu:....................................................................................................12

2. Tác dụng:.....................................................................................................13

I. GIỚI THIỆU VỀ FILE DỮ LIỆU UNIVERSITY RANKING 2.


UNIVERSITY RANKING là một hệ thống bảng xếp hạng các Trường Đại Học
trên thế giới hàng năm.
UNIVERSITY RANKING là 1 file dữ liệu xếp hạng các Trường Đại Học trên
thế giới giai đoạn từ năm 2011 đến năm 2016.
File dữ liệu được thể hiện dưới dạng bảng, bao gồm các mục xếp hạng sau:
1. World rank: Thứ tự xếp hạng của các Trường Đại Học trên thế giới qua
các năm 2011-2016 trong bảng xếp hạng.
2. University name: Tên các Trường Đại Học thuộc bảng xếp hạng qua các
năm 2011-2016.
3. Country: Quốc gia của các Trường Đại Học thuộc bảng xếp hạng.
4. Teaching: Chất lượng giảng dạy tại các Trường Đại Học trong bảng xếp
hạng qua các năm 2011-2016.
5. International: Điểm đánh giá sự đa quốc gia của các Trường Đại Học, bao
gồm cả sinh viên, giảng viên.
6. Research: Các hoạt động nghiên cứu, chất lượng các công trình nghiên
cứu của các Trường Đại Học qua các năm 2011-2016.
7. Citations: Số lượng những trích dẫn có liên quan đến Trường Đại Học đó.
8. Income: Mức thu nhập, nguồn tài chính của Trường Đại Học.
9. Total score: Tổng số điểm được tính toán dựa trên nhiều yếu tố khác nhau
như: giảng dạy, nghiên cứu, trích dẫn, quốc tế...
10. Num students: Tổng số lượng sinh viên của trường.
11. Student staff ratio: Tỷ lệ sinh viên / giảng viên của trường.
12. International students: Tổng số lượng sinh viên quốc tế của trường.
13. Female male ratio: Tỷ lệ giới tính giữa số lượng sinh viên nam và số
lượng sinh viên nữ tại trường.
14. Year: Năm thực hiện xếp hạng: 2011-2016

II. VẤN ĐỀ TỒN TẠI TRONG FILE DỮ LIỆU VÀ QUÁ TRÌNH THỰC
HIỆN XỬ LÝ, TỔNG HỢP.
1. VẤN ĐỀ TỒN TẠI TRONG FILE DỮ LIỆU UNIVERSITY RANKING:
- Dữ liệu cột University_name bị lỗi font chữ một số ô.
- Dữ liệu cột Female_male_ratio bị sai kiểu dữ liệu ví dụ: half/half,
0.602083333, 0.110416667, 0.847916667,..
- Dữ liệu cột Total_score, Female_male_ratio bị thiếu, bỏ trống nhiều chỗ.
- Dữ liệu các cột Income, Num_students, Student_staff_ratio bị thiếu, bỏ trống.
- Dữ liệu cột International_students bị bỏ trống 1 vài chỗ, nhiều dữ liệu không
hợp lý như: 200%, 150%, 789%.
- Dữ liệu tại cột International bị thiếu, bỏ trống và sai kiểu dữ liệu: ninety, sáu
mươi chín.
- Dữ liệu cột Teaching có dữ liệu không hợp lý: 999,7.
- Dữ liệu các cột còn lại có bị thiếu, bỏ trống nhưng không nhiều.

2. QUÁ TRÌNH THỰC HIỆN XỬ LÝ, TỔNG HỢP:


2.1. Quá trình thực hiện xử lý:
Kiểm tra lại các lỗi sai, thực hiện sửa, xử lý:
- Sửa dữ lệu bị sai ở các cột: Female_male_ratio, Teaching, International,
International_students:
+ half/half, 0.602083333, 0.110416667, 0.847916667,.. thành
50:50:00, 46:54:00,...
+ ninety, sáu mươi chín thành 90, 69.
+ 999,7 thành 99,7.
+ 200%, 150%, 789% thành 21%, 22%, 38% ( các số liệu tìm hiểu
được từ google.)
+ Các dữ liệu bị thiếu, bỏ trống ở cột Country bổ sung nhờ tìm hiểu
qua tên Trường Đại Học.
+ Các dữ liệu bị thiếu, bỏ trống ở các cột còn lại dùng “-“.
+ Sửa font chữ cho cột University_name.

2.2. Tổng hợp thông tin và xây dựng biểu đồ:


Qua file dữ liệu, em có thể tổng hợp được một vài thông tin để xây dựng
biểu đồ như sau:
- Top các Quốc gia có số lượng các lần có Trường Đại Học thuộc bảng xếp hạng
nhiều nhất trong các năm từ 2011-2016.
- Số lượng các Trường Đại Học ở khu vực Đông Nam Á thuộc bảng xếp hạng.
- Số lượng các Trường Đại Học ở USA thuộc bảng xếp hạng.
- Tổng điểm của các Trường Đại Học thuộc top 1 trong bảng xếp hạng.
- Mối liên hệ, mỗi tương quan giữa các thành phần trong bảng xếp hạng, ví dụ
như: + Mối quan hệ giữa tỷ lệ sinh viên/giảng viên và chất lượng giảng dạy.
+ Sự tương quan giữa hoạt động nghiên cứu và số lượng trích dẫn.
+ Tổng số sinh viên và số sinh viên quốc tế.
+ Tỷ lệ sinh viên nam và sinh viên nữ.
- Số lần lọt vào top 5 của các Trường Đại Học qua các năm 2011-2016.
- Top các trường có thu nhập cao giai đoạn 2011-2016.

III. BIỂU ĐỒ, TÁC DỤNG CỦA BIỂU ĐỒ


1. DỮ LIỆU ĐỂ XÂY DỰNG BIỂU ĐỒ:

- Sử dụng công cụ Pivot Table trong Excel để thực hiện phân loại, sắp xếp,
đếm, tính tổng, top và hiển thị.
a, Top 10 quốc gia có số lần các Trường Đại Học lọt bảng xếp hạng nhiều nhất.

b, Số lượng các Trường Đại Học ở c, Số lần lọt top 5 của các Trường Đại
Đông Nam Á thuộc bảng xếp hạng Học năm 2011-2016.
năm 2012.
d, Tổng điểm của các trường top 1 năm 2011-2016.

e, Sự tương quan giữa hoạt động nghiên cứu và số lượng trích dẫn của top 10
Trường Đại Học năm 2016.

f, Mối quan hệ giữa tỷ lệ sinh viên/giảng viên và chất lượng giảng dạy tại top 10
Trường Đại Học năm 2013.
g, Số lượng Trường Đại h, Thể hiện tổng số sinh viên và số sinh viên quốc
Học của các quốc gia tế của top 10 Trường Đại Học có số sinh vên
thuộc bảng xếp hạng nhiều nhất năm 2011.
năm 2011.

2. BIỂU ĐỒ:
Phần lớn sử dụng biểu đồ dạng Bar Chart, Columm Chart. Ngoài ra, còn có các
biểu đồ Line, Combo(Line – Columm), Stacked Columm:
- Biểu đồ Bar Chart: Thể hiện sụ thay đổi, xu hướng thay đổi, so sánh, được sắp
xếp theo thứ tự nên sẽ dễ nhìn hơn, dễ tìm ra thông tin mình cần.
- Columm Chart: Là một dạng biểu đồ thông dụng, đơn giản, dễ nhìn, tìm ra
được thông tin mình cần, cũng có thể dễ dàng so sánh.
- Line Chart: Thể hiện rõ sự biến đổi của các số liệu theo thời gian.
- Combo(Line – Columm): Là dạng biểu đồ kết hợp giữa Cột và Đường, giúp dễ
dàng so sánh sự tương quan, mối quan hệ giữa 2 thông tin với nhau.
- Stacked Columm: Biểu đồ cột chồng giúp nhấm mạnh được tổng số và thành
phần có liên quan trong tổng số đó.
IV. GIỚI THIỆU VỀ DASH BOARD
1. GIỚI THIỆU:
Sau quá trình tìm hiểu, xử lý và tổng hợp thông tin thì Dash Board University
Ranking 2 là tổng hợp toàn bộ những nội dung mà em đã thu thập được bao
gồm:
- Top 10 quốc gia có số lần các Trường Đại Học lọt bảng xếp hạng nhiều nhất.
- Top các trường khu vực đông nam á 2012.
- Số lần lọt top 5 của các Trường Đại Học năm 2011-2016.
- Tổng điểm của các trường top 1 năm 2011-2016.
- Sự tương quan giữa hoạt động nghiên cứu và số lượng trích dẫn của top 10
Trường Đại Học năm 2016.
- Mối quan hệ giữa tỷ lệ sinh viên/giảng viên và chất lượng giảng dạy tại top 10
Trường Đại Học năm 2013.
- Số lượng Trường Đại Học của các quốc gia thuộc bảng xếp hạng năm 2011.
- Tổng số sinh viên và số sinh viên quốc tế của top 10 Trường Đại Học có số
sinh vên nhiều nhất năm 2011.
Tất cả đều là các thông tin được hiện thị dưới dạng biểu đồ, được sắp xếp cùng
nhau để người xem có thể so sánh được nhiều tiêu chí với nhau.
2. TÁC DỤNG:
Qua Dash Board chúng ta có thể có 1 cái nhìn tổng quát hơn về một file dữ liệu
lớn:
- Đánh giá chất lượng giáo dục: Điều này có thể giúp các phụ huynh, sinh viên,..
dễ dàng tìm hiểu, lựa chọn và đặc biệt có thể dễ dàng so sánh các thông tin giữa
các Trường Đại Học với nhau.
- Được hiển thị trực quan dưới dạng hình ảnh là các biểu đồ nên việc tìm kiếm
thông tin cần rấ dễ dàng.
- Biểu đồ được tổng hợp với những thông tin: Top 1, Top 5, Top 10,... giúp
chung ta có thể xác định được sự phát triển của các Trường Đại Học và mức độ
phố biến của Trường Đại Học đó.
- Ngoài ra còn có thể giúp các doanh nghiệp dễ dàng tìm kiếm được những
nguồn nhân lực chất lượng cao cho họ.

You might also like