You are on page 1of 17

Tổ chức dữ liệu tốt là yếu tố thành công quan trọng nhất trong phân tích dữ

liệu. Nếu cấu trúc dữ liệu không đúng sẽ không thực hiện những phân tích tốt.
Nếu dữ liệu có cấu trúc phù hợp, mọi phân tích trong Excel sẽ trở nên dễ dàng.
Hãy xem Power Query sẽ giúp gì trong trường hợp này qua một số ví dụ.
Down dữ liệu tử trang web của tổng cục thống kê theo địa chỉ
http://thongke.tourism.vn/index.php/statistic/stat/6?
share=99&type=type1&rowcode=17&input-type=4&row-
list=17_1701,17_1702,17_1703&nam=2016,2010,2011,2012,2013,2014,2015,2
017,2008,2009,2018,2019,2020
Màn hình down dữ liệu

Sau khi down dữ liệu về, chúng ta có bảng dữ liệu như sau:

Với cấu trúc dữ liệu này rất khó cho phân tích nên cần làm sạch nó và tổ chức
nó theo dạng phù hợp.
Trước tiên nên bỏ dữ liệu 6 tháng đầu năm vì như thế rất khó so sánh được với
những liệu khác.
Tiếp theo nên bỏ hàng tổng, vì nó không cần thiết lưu trữ trong cơ sở dữ liệu.
Nên bổ sung những ô trống cho những dữ liệu năm phù hợp, như sau:

Chuyển hàng thành cột


Chúng ta cần chuyển dữ liệu dạng hàng sang dạng cột, bằng cách dùng lệnh
copy và dán đặt biệt để chuyển về đổi dữ liệu:

Kết quả như sau:


Ghép nhiều cột thành một cột
Dữ liệu hiển thị một cột riêng cho mỗi phương tiện. Tuy nhiên, thay vì một cột
cho mỗi phương tiện thì cần đưa các phương tiện đó vào 1 cột riêng và đặt tên
tiêu đề cột là Phương tiện.
Vậy làm như thế nào để thiết kế lại dữ liệu như đã mô tả trên?
Các em sẽ làm điều đó trong Excel như thế nào?
Nếu các em Copy và Paste một cách thủ công thì rất dễ sai sót, nhầm lẫn,…và
mỗi lần dữ liệu gốc thay đổi lại Copy lại???.
Nên dùng công cụ Power Query để xử lý việc đó.
Đầu tiên, các em nên đưa dữ liệu trên về dạng Table (Ctrl + T) và đặt tên cho
Bảng (ở đây đã đặt tên là DataPL).
Tiếp theo, các em chỉ cần chọn 1 ô bất kỳ trong bảng đó vào chọn Data>From
Table/Range
Lúc này, cửa sổ Power Query Editor sẽ mở lên như sau:
Ở mục Applied Steps, các em có thể thấy có 2 bước:
Source: Đây là nguồn dữ liệu mà bạn Input vào Power Query (trong bài viết này
là từ Excel)
Changed Type: Đây là bước mà Power Query tự nhận kiểu định dạng cho mỗi
trường thông tin (cột) khi nào Input dữ liệu vào. Nếu bạn không muốn Power
Query Editor tự động thay đổi định dạng như vậy thì bạn có thể bỏ bước này
bằng cách ấn vào dấu X phía trước bước đó.
Quay lại với mục đích ban đầu là đưa dữ liệu về dạng phù hợp.
Tại cửa sổ Power Query Editor, các em chọn các cột Đường Biển, Đường
Bộ, Đường Hàng không bằng cách ấn giữ nút Ctrl và chọn các cột muốn chọn
(1).
Tiếp theo các em chọn tab Transform (2)
Chọn Unpivot Colunms (3) > Unpivot Colunm (4).
Kết quả như sau:

Sau đó, các em đổi tên cột Attribute thành cột tên Phương tiện, Cột Value
thành cột tên Lượt khách, kết quả như sau:
Tiếp theo, lưu kết quả như sau:
Chọn File > Chọn Close and Load hay Close and Load to…
Nếu chọn Close and Load thì kết quả sẽ lưu vào một Sheet trong Worksheet
dang có (File hiện có).
Nên đổi tên Sheet mới theo tên sao cho thuận tiện ví dụ DataMoi.
Cụm hàng thành cột
https://uniace.vn/huong-dan-su-dung-power-query-de-chuan-hoa-du-lieu/
Trong thực tiễn, đôi khi chúng ta có nguồn dữ liệu có cấu trúc không phù hợp cho phân tích,
cụ thể có dữ liệu có cấu trúc như sau:
Chúng ta cần thay đổi cấu trúc này để thuận tiện cho các phân tích, cụ thể như sau:

Bước 1: Dữ liệu phải ở dạng Table, đặt tên cho Table là Cautrucbandau, cách thực hiện như
sau:
Đưa con trỏ vào bất kỳ ô nào trong vùng dữ liệu, nhấn tổ hợp phím Ctr+T, cửa sổ Create
Table xuất hiện. Trong đó, nhập địa chỉ dữ liệu và chú ý họp check My table has headers.
Thực tế địa chỉ dữ liệu, Excel tự nhận diện.
Đặt tên cho table là Cautrucbandau:

Bước 2: Tải dữ liệu vào Power Query, chọn tab Data (1) và chọn From Table/Range (2)

Kết quả sẽ xuất hiện cửa sổ Power Query Editor như sau:
Bước 3: Trong cửa sổ Power Query Editor, chọn tab Add Column (1) , chọn Index Column
(2), sau đó chọn From 0 (3).

Kết quả như sau:


Bước 4: Sau đó, chuyển đổi cột dữ liệu số này thành số hiệu duy nhất cho mỗi record. Để
làm được điều đó hãy chọn Transform (1), Standard (2) và chọn Integer-Divide (3).

Khi đó, cửa sổ Integer - Drive sẽ xuất hiện


Hãy điền giá trị 5 vào ô Value vì đó là số lượng dòng trong table dữ liệu gốc hiện cần dùng
để chuyển thành 1 dòng.
Bây giờ, cột giá trị mới sẽ hiển thị số hiệu định danh mỗi record. ( xem 0, 1, 2, 3, 4, 5) trong
bảng bên dưới.
Bước 5: Chọn cột Bien (1), chọn Transform (2) và chọn Pivot Column (3), chọn Dulieu cho
Value Column (4), và sau đó tiếp tục chọn Advanced Options (5) và thiết lập Don’t
Aggregate (6) và chọn OK (7).

Dữ liệu sau khi xoay sẽ trông như thế này.


Bước 6: Không cần dùng cột Index nên xóa: Chọn cột Index (1), chọn nút phải và chọn
Remove (2).

Bước 7: Bước chỉnh format. Tùy biến mà chọn dạng thích hợp. Chọn cột thích hợp và chọn
Transform, chọn Data Type (2), chọn dạng thích hợp, trong trường hợp này, chọn Text (3).

Sau đó các bạn vào Home (1), chọn Close & Load (2), chọn Close & Load (3).
Kết quả sẽ được dạng như mong muốn như sau:

Tuy nhiên, các biến nên ghi theo dạng không dấu như sau:

You might also like