You are on page 1of 26

KHOA MÔI TRƯỜNG

CHUYÊN NGÀNH QUẢN LÝ TÀI NGUYÊN VÀ MÔI TRƯỜNG ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

TIN HỌC ỨNG DỤNG QUẢN LÝ


TÀI NGUYÊN VÀ MÔI TRƯỜNG

ThS. Nguyễn Thanh Ngân


 +84-090 2382 799
 ntngan@hcmunre.edu.vn

TP.HCM, Tháng 01 năm 2024 1


ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

Chương 3
CHẤT LƯỢNG DỮ LIỆU TRONG GIS

 ntngan@hcmunre.edu.vn 2
GIỚI THIỆU VỀ CHẤT LƯỢNG DỮ LIỆU ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Trong quá trình thực hiện công việc, người ta thường đưa ra những phán
đoán về chất lượng dữ liệu.
- Biết được chất lượng dữ liệu là vấn đề quan trọng trong việc phán đoán
có hay không dữ liệu có thể được sử dụng cho một ứng dụng cụ thể.
- Không nắm được chất lượng dữ liệu có thể dẫn đến những tổn hại
nghiêm trọng trong quá trình sử dụng dữ liệu.
* Theo Stan Aronoff, một chủ đất ở Wisconsin của Mỹ đã thành công trong việc kiện
các tổ chức liên quan trong việc thể hiện không chính xác đường mực nước của một
hồ nước trên bản đồ địa hình chuẩn dẫn đến đất của người kiện đã nằm trong
phạm vi hồ nước và do vậy theo luật sẽ bị tịch thu bởi nhà nước. Trong trường hợp
này người sử dụng đã không nhận thức được rằng có sự khác biệt về độ chính xác
của dữ liệu địa hình (có độ chính xác cao) và dữ liệu độ cao mực nước (độ chính xác
không xác định) thể hiện. Mặc dù sai số biểu diễn đã được hiệu chỉnh, chủ đất đã
thành công trong việc kiện cho những tổn hại về tinh thần gây ra do lo sợ đất của
họ sẽ bị tịch thu.
 ntngan@hcmunre.edu.vn 3
GIỚI THIỆU VỀ CHẤT LƯỢNG DỮ LIỆU ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Chất lượng dữ liệu thường chỉ được xem xét sau khi những quyết định
không chính xác đã được đưa ra và những thiệt hại về tài chính hoặc tinh
thần của con người đã xảy ra.
- Ở các nước phát triển, các cơ quan tạo ra dữ liệu địa lý thường phải chịu
trách nhiệm khi sản phẩm của họ được phát hiện là có chứa sai số hoặc
được sử dụng bằng những cách thức và mục đích không đúng như dự định
của phía nhà sản xuất dữ liệu.
- Do vậy, nếu các tiêu chuẩn về chất lượng dữ liệu được định nghĩa rõ ràng,
được kiểm tra và thông báo đến người sử dụng có thể giúp bảo vệ cả phía
nhà sản xuất cũng như phía người sử dụng dữ liệu địa lý.

 ntngan@hcmunre.edu.vn 4
GIỚI THIỆU VỀ CHẤT LƯỢNG DỮ LIỆU ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Khi dữ liệu được cung cấp theo một định dạng chuẩn và theo những tiêu
chuẩn chất lượng được định nghĩa và được chấp nhận, nhà sản xuất sẽ
được bảo vệ khỏi trách nhiệm do việc sử dụng không thích hợp bởi phía
người sử dụng.
- Những tiêu chuẩn như vậy cũng sẽ bảo vệ người sử dụng khỏi việc sử
dụng không thích hợp dữ liệu.

 ntngan@hcmunre.edu.vn 5
NGUỒN GỐC SAI SỐ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Luôn có sai số sinh ra trong mỗi bước của quá trình tạo và sử dụng thông
tin địa lý.
- Nắm vững nguồn gốc của các loại sai số là cần thiết cho việc giám sát,
kiểm tra, nhằm đảm bảo chất lượng dữ liệu GIS là cao nhất.
- Các nguồn sai số thường gặp trong GIS được minh họa trong bảng các
nguồn sai số.

 ntngan@hcmunre.edu.vn 6
NGUỒN GỐC SAI SỐ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

Các nguồn sai số trong GIS


Giai đoạn Nguồn gốc sai số
Thu thập dữ - Sai số thu thập dữ liệu ngoài thực địa.
liệu - Sai số trong các bản đồ hiện hữu được sử dụng như dữ liệu nguồn.
- Sai số trong phân tích dữ liệu viễn thám.
Nhập dữ liệu - Không chính xác trong số hoá gây ra bởi kỹ thuật viên hoặc thiết bị.
- Không chính xác vốn có trong yếu tố địa lý (ranh thực không rõ).
Lưu trữ dữ liệu - Độ chính xác biểu diễn số không đủ.
- Độ chính xác vị trí không đủ.
Xử lý dữ liệu - Sai số đường biên của đối tượng trên các lớp thông tin khác nhau.
- Lan truyền sai số trong sản phẩm tổng hợp.
Xuất dữ liệu - Tỉ lệ xuất không phù hợp.
- Sai số do thiết bị xuất.
- Sai số do môi trường xuất.
Sử dụng kết quả - Hiểu thông tin không chính xác.
- Sử dụng thông tin không thích hợp.

 ntngan@hcmunre.edu.vn 7
NGUỒN GỐC SAI SỐ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Do nguồn sai số trong GIS đa dạng như vậy nên việc đánh giá mức độ mà
chất lượng dữ liệu GIS đạt được là vấn đề quan trọng.
- Chất lượng dữ liệu là yếu tố quan trọng trong quyết định tính phù hợp
của dữ liệu đối với một ứng dụng cụ thể, do đó cần xác định và thông báo
cho người sử dụng biết rõ chất lượng của dữ liệu GIS.
- Cần lưu ý rằng sản phẩm nhận được từ GIS là sản phẩm tổng hợp từ
nhiều đại lượng thông tin không gian và thuộc tính khác nhau, do vậy cần
đánh giá chất lượng của dữ liệu sản phẩm tổng hợp trên cơ sở xem xét
chất lượng của các thông tin dữ liệu thành phần.

 ntngan@hcmunre.edu.vn 8
NGUỒN GỐC SAI SỐ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Các thành phần của chất lượng dữ liệu một khi được định nghĩa, kiểm
tra, thông báo rõ ràng, có thể giúp bảo vệ quyền lợi của cả người sản xuất
lẫn người sử dụng.
- Tầm quan trọng của mỗi thành phần và mức độ chi tiết cần thiết để
thông báo tới người sử dụng thay đổi theo từng ứng dụng GIS.
- Để dùng trong quá trình ra quyết định, chất lượng dữ liệu phải được biết
hoặc dự đoán trước.
- Chất lượng dữ liệu có thể được phân vào hai nhóm thành phần:
(1) Thành phần chất lượng cấp vi mô.
(2) Thành phần chất lượng cấp vĩ mô.

 ntngan@hcmunre.edu.vn 9
THÀNH PHẦN CHẤT LƯỢNG CẤP VI MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Đánh giá thành phần chất lượng cấp vi mô là đánh giá các yếu tố chất
lượng dữ liệu gắn với từng phần tử dữ liệu.
1. Độ chính xác vị trí:
- Đánh giá độ chính xác vị trí là đánh giá độ lệch vị trí của phần tử trong
tập dữ liệu đối với vị trí thực của nó ngoài mặt đất.
+ Đánh giá bằng cách kiểm tra một số mẫu theo quy phạm đã quy định.
+ Độ chính xác vị trí được xác định thông qua đánh giá sai số trung
phương hoặc độ lệch chuẩn (standard deviation).
- Độ chính xác càng cao, dữ liệu càng đáng tin cậy.

 ntngan@hcmunre.edu.vn 10
THÀNH PHẦN CHẤT LƯỢNG CẤP VI MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

2. Độ chính xác thuộc tính:


- Đánh giá độ chính xác thuộc tính có thể được nhóm vào một trong hai
nhóm chính, tùy thuộc vào mức độ đo lường thuộc tính.
- Trường hợp 1:
+ Thang đo lường thuộc tính là thang giá trị liên tục, đánh giá độ chính xác
thuộc tính cũng giống như đánh giá độ chính xác vị trí.
+ Ví dụ dễ hình dung nhất là dữ liệu độ cao của bề mặt địa hình được mã
hóa trong mô hình độ cao số raster.
+ Độ chính xác thuộc tính bề mặt có thể được đánh giá bằng cách đo lường
độ lệch giữa độ cao thực của bề mặt và độ cao ghi nhận được.

 ntngan@hcmunre.edu.vn 11
THÀNH PHẦN CHẤT LƯỢNG CẤP VI MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Trường hợp 2:
+ Thang đo lường thuộc tính là thang chủng loại hoặc danh xưng như được
sử dụng trong điều tra về sử dụng đất, thổ nhưỡng và thực phủ.
+ Với dữ liệu chủng loại, thuộc tính được kiểm tra và cho kết quả là đúng
hay là sai. Kết quả kiểm định được sắp xếp dưới dạng một ma trận trong đó
hàng thể hiện thuộc tính quan sát được còn cột thể hiện thuộc tính có được
từ nguồn có chất lượng cao hơn (có thể là số liệu thực ngoài thực tế).
+ Giá trị trên đường chéo của ma trận thể hiện sự nhất quán giữa thuộc
tính quan sát và thuộc tính thực. Nếu tính toán đơn giản, độ chính xác đạt
được có thể được xem như tỉ số giữa số lượng giá trị thuộc tính nhất quán
trên tổng số lượng giá trị thuộc tính quan sát được.
+ Một phương pháp đo lường độ chính xác thuộc tính đạt được độ tin cậy
cao thường được sử dụng là hệ số Kappa.
 ntngan@hcmunre.edu.vn 12
THÀNH PHẦN CHẤT LƯỢNG CẤP VI MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

3. Nhất quán về logic:


- Đề cập đến mối quan hệ logic giữa các yếu tố được duy trì.
+ Ví dụ rìa của một mảnh đất cạnh hồ nên trùng với ranh giới của hồ, ranh
giới của hồ chứa không nên thay đổi mà phải có một định nghĩa chung.
+ Hai tập dữ liệu có thể chính xác về mặt vị trí theo cấp độ của nó, tuy nhiên
lại không nhất quán về mặt logic. Quá trình điều chỉnh các lớp dữ liệu cho
có ranh giới đồng nhất được gọi là conflation.
+ Không có phương pháp đo lường chuẩn về tính nhất quán logic. Tuy nhiên
sự thiếu nhất quán có thể phát hiện khi hiển thị.

 ntngan@hcmunre.edu.vn 13
THÀNH PHẦN CHẤT LƯỢNG CẤP VI MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

4. Độ phân giải:
- Đơn vị nhỏ nhất có thể phân biệt hoặc thể hiện của tập dữ liệu. Độ phân
giải được chọn dựa vào các yếu tố:
+ Mục đích sử dụng.
+ Tỉ lệ.
+ Độ chính xác dữ liệu nguồn.
+ Lượng thông tin được biểu diễn.
+ Khả năng lưu trữ.
- Trong GIS, việc lưu trữ thông tin và thể hiện thông tin được tách rời
nhau, như vậy dữ liệu lưu trữ trong GIS có thể được thể hiện ở tỉ lệ bất kỳ.
- Tuy nhiên phải nhớ rằng dữ liệu thường được tạo ra với một mức độ
chính xác và độ phân giải thích hợp chỉ tương ứng với một tỉ lệ nhất định.
 ntngan@hcmunre.edu.vn 14
THÀNH PHẦN CHẤT LƯỢNG CẤP VĨ MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Đánh giá thành phần chất lượng cấp vĩ mô là đánh giá các yếu tố chất
lượng dữ liệu gắn với tập dữ liệu. Việc đánh giá được thực hiện theo ba
cấp độ: tính toàn vẹn, tính thời gian, nguồn gốc dữ liệu.
1. Tính toàn vẹn: được phân ra làm ba nhóm:
- Hoàn chỉnh vùng phủ:
+ Vùng phủ phải phủ toàn bộ khu vực nghiên cứu.
+ Dữ liệu thuộc tính phải đầy đủ cho toàn khu vực nghiên cứu.
- Hệ thống phân loại hoàn chỉnh: mức độ thích hợp của hệ thống phân
loại trong việc thể hiện dữ liệu bao gồm:
+ Tuân theo hệ thống phân loại chuẩn nào đó.
+ Phân loại đầy đủ mọi trường hợp.
+ Tránh định nghĩa trùng lập về chủng loại, thống nhất định nghĩa về chủng
loại giữa các tổ chức khác nhau.
 ntngan@hcmunre.edu.vn 15
THÀNH PHẦN CHẤT LƯỢNG CẤP VĨ MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Mức độ kiểm định: đề cập đến lượng và phân bổ của đo lường ngoài
thực địa hoặc các nguồn thông tin độc lập khác đã được sử dụng để kiểm
định dữ liệu.
+ Trong tập dữ liệu cung cấp thường không có thông tin về mức độ kiểm
định, ví dụ dữ liệu số địa hình được cung cấp bởi một số công ty thường chỉ
chứa dữ liệu chuyên ngành, ví dụ độ cao, vị trí địa vật chứ không cung cấp
thông tin dữ liệu đã được kiểm định với mức độ chính xác bao nhiêu.
+ Đánh giá tính toàn vẹn thường chỉ giới hạn đến mức độ hoàn chỉnh của
vùng phủ. Các thông báo về hệ thống phân loại hoặc mức độ kiểm định
thường bị bỏ qua. Tuy nhiên, các thông tin này lại có ý nghĩa quan trọng
trong quyết định mức độ có hay không sử dụng dữ liệu là phù hợp cho ứng
dụng cụ thể đang xem xét.

 ntngan@hcmunre.edu.vn 16
THÀNH PHẦN CHẤT LƯỢNG CẤP VĨ MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

2. Tính thời gian:


- Là tiêu chuẩn quan trọng trong sử dụng thông tin địa lý.
+ Do dữ liệu thay đổi theo thời gian cho nên cần xác định rõ dữ liệu GIS
được xác lập vào thời gian nào.
+ Dữ liệu thường được thông báo theo thời gian thu thập dữ liệu nguồn.
Tuy nhiên do trong quá trình cập nhật dữ liệu thường chỉ có khả năng cập
nhật dữ liệu từng phần, cho nên thời gian cập nhật dữ liệu cho từng khu
vực cũng cần được thông báo rõ.
- Yếu tố thời gian thường bị bỏ qua khi nhiều tập dữ liệu cùng được sử
dụng và điều này có thể dẫn đến những sai sót trong ứng dụng.

 ntngan@hcmunre.edu.vn 17
THÀNH PHẦN CHẤT LƯỢNG CẤP VĨ MÔ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

3. Nguồn gốc dữ liệu: là lịch sử về dữ liệu nguồn và phương pháp xử


lý dùng để tạo ra nó.
- Ví dụ về dữ liệu nguồn gốc (metadata):
+ Dữ liệu nguồn: các báo cáo, ghi chép thực địa, ảnh chụp.
+ Phương pháp xử lý: sơ họa, phương pháp lập thể ảnh để tạo đường đồng
mức, phương pháp đo dùng các điểm khống chế mặt đất.
- Mỗi loại dữ liệu nguồn và phương pháp xử lý sẽ đưa đến mức độ sai số
nhất định trong sản phẩm tạo ra. Do đó nếu nắm rõ phương pháp thu thập
và xử lý có thể dự đoán được mức độ chính xác của dữ liệu thành lập. Trên
cơ sở đó người ta sẽ quyết định dữ liệu có ích cho công việc gì.
- Dữ liệu nguồn gốc thường trình bày ở dạng các sổ tay, chứ không đặt
trong tập dữ liệu.

 ntngan@hcmunre.edu.vn 18
ƯỚC TÍNH ĐỘ CHÍNH XÁC VỊ TRÍ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

- Trong trường hợp bản đồ, độ chính xác vị trí là xác suất để vị trí của một
điểm xác định trên bản đồ trùng với vị trí thực của nó.
- Trong trường hợp phân loại, độ chính xác phân loại là xác suất để một
lớp chỉ định tới một vị trí trên bản đồ chính là lớp sẽ tìm thấy ngoài thực
địa tại chính vị trí đó.
- Các phát biểu như “khoảng cách đo là 150 m với sai số ± 0,5 m” hoặc “độ
chính xác phân loại là 90%” là không hoàn chỉnh vì đã không kể đến xác
suất dựa vào đó việc đánh giá độ chính xác được xây dựng.

 ntngan@hcmunre.edu.vn 19
ƯỚC TÍNH ĐỘ CHÍNH XÁC VỊ TRÍ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM
- Ví dụ về cách đánh giá và phát biểu về độ chính xác vị trí của một bản đồ:

Quan hệ giữa vị trí kiểm tra và vị trí thực (Trần Trọng Đức, 2011)
 ntngan@hcmunre.edu.vn 20
ƯỚC TÍNH ĐỘ CHÍNH XÁC VỊ TRÍ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

* Công thức tính độ chính xác của các điểm kiểm tra:
+ Sai số khoảng cách:

𝐷𝐸𝑟𝑟𝑜𝑟 = 𝑋 − 𝑋𝑜 2 + 𝑌 − 𝑌𝑜 2

+ Sai số khoảng cách trung bình:


𝐷𝐸𝑟𝑟𝑜𝑟
𝐷𝐸𝑟𝑟𝑜𝑟𝑇𝐵 =
𝑛
+ Độ lệch chuẩn của sai số khoảng cách:

2
𝑛 𝐷𝐸𝑟𝑟𝑜𝑟 − 𝐷𝐸𝑟𝑟𝑜𝑟𝑇𝐵
𝑆𝑇𝐷 =
𝑛
 ntngan@hcmunre.edu.vn 21
ƯỚC TÍNH ĐỘ CHÍNH XÁC VỊ TRÍ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

* Độ chính xác của các điểm kiểm tra được tính toán như trong bảng:
Bảng đánh giá độ chính xác của các điểm kiểm tra (Trần Trọng Đức, 2011)
Tọa độ thực Tọa độ bản đồ Sai số
khoảng
Điểm X Y Xo Yo cách DError
A 50 50 49 51 1,41
B 150 35 148 35 2
C 170 130 170 131 1
D 100 170 101 169 1,41
Sai số khoảng cách trung bình = 1,46.
Độ lệch chuẩn của sai số khoảng cách = 0,36.

 ntngan@hcmunre.edu.vn 22
ƯỚC TÍNH ĐỘ CHÍNH XÁC VỊ TRÍ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

* Đánh giá độ chính xác vị trí sử dụng phân bố chuẩn:


+ Giả thuyết sai số khoảng cách tuân theo phân bố chuẩn.
+ Dùng phân bố chuẩn để dự báo về sự phân bố sai số trên bản đồ.
1 − 𝑥−𝜇 2 /2𝜎 2
f(𝑥) = 𝑒
2𝜋𝜎 2
Trong đó:
x là sai số khoảng cách.
µ là sai số khoảng cách trung bình.
σ là độ lệch chuẩn của sai số khoảng cách.

 ntngan@hcmunre.edu.vn 23
ƯỚC TÍNH ĐỘ CHÍNH XÁC VỊ TRÍ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

+ Việc tính toán f(x) phụ thuộc vào rất nhiều tham số nên thường chúng ta
không tính toán trực tiếp f(x) mà tính dựa vào bảng hàm phân bố tích lũy
của phân bố chuẩn N(0,1) bằng cách sử dụng z = (x – μ)/σ. Các bảng tra sẽ
cho chúng ta giá trị Fz(z) = P(Z ≤ z).

Phân bố chuẩn (Trần Trọng Đức, 2011)

 ntngan@hcmunre.edu.vn 24
ƯỚC TÍNH ĐỘ CHÍNH XÁC VỊ TRÍ ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

+ Theo hình phân bố chuẩn, ta có 95% của diện tích dưới đường cong có
giá trị Z nhỏ hơn 1,645 hay là:
F(z) = P(Z ≤ 1,645) = 0,95.
Ta có z = 1,645 = (x – μ)/σ = (x – 1,46)/0,36
Suy ra x = 2,05 m
+ Đối với bản đồ này, sai số vị trí của một điểm bất kỳ nhỏ hơn hoặc bằng
2,05 m sẽ xảy ra 95%. Trong việc chọn 95% giá trị, chúng ta đang chọn
một mức độ chắc chắn hay tin cậy. Chúng ta tin cậy rằng 95% thời gian sai
số quan sát được sẽ là 2,05 m hoặc ít hơn.
+ Mức độ chính xác dự báo của một tờ bản đồ sẽ lệ thuộc vào độ tin cậy đã
chọn. Do vậy, một thông báo bất kỳ về độ chính xác đo lường phải đi kèm
với một phát biểu về mức độ tin cậy.

 ntngan@hcmunre.edu.vn 25
ĐH TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM

Question
 ntngan@hcmunre.edu.vn 26

You might also like