Phần 1. Báo cáo nhóm

ĐẠI HỌC CÔNG NGHỆ GIAO THÔNG VẬN TẢI
KHOA CÔNG NGHỆ THÔNG TIN
HỌC PHẦN: CÁC VẤN ĐỀ HIỆN ĐẠI CỦA MẠNG

MÁY TÍNH
Đề tài 41: Nghiên cứu sử dụng dữ liệu lớn để ngăn chặn

rò rỉ dữ liệu
Sinh viên thực hiện:
Sin Việt Hưng
Phạm Công Minh
Nguyễn Xuân Hải
Giảng viên hướng dẫn:
Ths.Lương Hoàng Anh

MỤC LỤC
Phần 1. KIẾN THỨC TỔNG QUAN VỀ NỘI DUNG BÀI BÁO CÁO........................................................3
1. Khái quát về Big Data (Dữ liệu lớn)...........................................................................................3
2. Sự quan trọng của Dữ liệu lớn..................................................................................................4
3. Thách thức trong bảo vệ thông tin............................................................................................5
4. Phương pháp bảo vệ thông tin sử dụng Dữ liệu lớn................................................................7
5. Data Leak Prevention là gì?.......................................................................................................8
6. Kiến trúc đa lớp (Multi-Layered Architecture)........................................................................10
7. Sử dụng kiến trúc đa lớp để đảm bảo bảo mật thông tin.......................................................11
Phần 2: NỘI DUNG BÁO CÁO........................................................................................................13
REFERENCES – TÀI LIỆU THAM KHẢO...................................................................................24
Phần 1. KIẾN THỨC TỔNG QUAN VỀ NỘI DUNG
BÀI BÁO CÁO
1. Khái quát về Big Data (Dữ liệu lớn)
Big Data là thuật ngữ được sử dụng để miêu tả lượng lớn dữ liệu phức
tạp, đa dạng và nhanh chóng tăng trưởng mà không thể được xử lý bằng các
công cụ và phương pháp truyền thống. Big Data có ba yếu tố chính: khối
lượng lớn, tốc độ nhanh và đa dạng.
- Khối lượng lớn: Big Data được tạo ra từ nhiều nguồn khác nhau như cơ
sở dữ liệu, mạng xã hội, máy móc và cảm biến. Dữ liệu này có thể có kích
thước từ terabyte đến petabyte hoặc thậm chí exabyte.
- Tốc độ nhanh: Big Data được tạo ra và truyền tải với tốc độ nhanh. Ví dụ,
một trang web có thể tạo ra hàng triệu dữ liệu mới trong một giây. Để xử
lý dữ liệu này, cần có các công nghệ và công cụ phù hợp để đảm bảo tính
thời gian thực.
- Đa dạng: Big Data không chỉ bao gồm dữ liệu cấu trúc như trong cơ sở dữ
liệu truyền thống, mà còn bao gồm dữ liệu phi cấu trúc như văn bản, hình
ảnh, âm thanh và video. Đa dạng này đòi hỏi các công nghệ và phương
pháp phân tích dữ liệu phức tạp để tìm ra thông tin hữu ích.
Big Data có thể được sử dụng để phân tích xu hướng, dự đoán, tối ưu hóa
quy trình, tăng cường quyết định và nhiều ứng dụng khác. Tuy nhiên, việc xử
lý và phân tích Big Data đòi hỏi các công nghệ và kỹ thuật mới như Hadoop,
Spark, máy học và trí tuệ nhân tạo.
Big Data cũng đặt ra nhiều thách thức như bảo mật, quyền riêng tư và đạo
đức. Việc sử dụng Big Data cần tuân thủ các quy định và quyền riêng tư để
đảm bảo sự an toàn và đáng tin cậy của dữ liệu.
2. Sự quan trọng của Dữ liệu lớn
Dữ liệu lớn đóng vai trò quan trọng trong nhiều lĩnh vực và có ảnh hưởng lớn
đến cuộc sống hàng ngày của chúng ta. Dưới đây là một số điểm quan trọng về
sự quan trọng của dữ liệu lớn:
– Giúp đưa ra quyết định thông minh: Dữ liệu lớn cung cấp thông tin và
thông số cần thiết để đưa ra quyết định thông minh và dự đoán xu
hướng tương lai. Các công ty và tổ chức có thể sử dụng dữ liệu lớn để
tối ưu hóa quy trình, tăng cường hiệu suất và nâng cao chất lượng dịch
vụ.
– Phát hiện xu hướng và mô hình: Dữ liệu lớn cho phép chúng ta phát
hiện ra những xu hướng và mô hình tiềm năng mà chúng ta có thể sử
dụng để cải thiện công việc và cuộc sống. Ví dụ, trong lĩnh vực y tế,
dữ liệu lớn có thể giúp phát hiện ra những mô hình bệnh lý và phòng
ngừa bệnh tật.
– Tạo ra giá trị kinh tế: Dữ liệu lớn là một nguồn tài nguyên quý giá và
có thể tạo ra giá trị kinh tế lớn. Các công ty có thể sử dụng dữ liệu lớn
để tìm hiểu về thị trường, khách hàng và đối thủ cạnh tranh, từ đó tạo
ra các chiến lược kinh doanh hiệu quả.
– Cải thiện dịch vụ khách hàng: Dữ liệu lớn giúp các doanh nghiệp hiểu
rõ hơn về khách hàng của mình, từ đó cải thiện dịch vụ và tương tác
với khách hàng. Các công ty có thể sử dụng dữ liệu lớn để tùy chỉnh
sản phẩm và dịch vụ, tạo ra trải nghiệm tốt hơn cho khách hàng và
tăng cường sự hài lòng của họ.
– Nghiên cứu khoa học và phát triển công nghệ: Dữ liệu lớn đóng vai trò
quan trọng trong việc nghiên cứu khoa học và phát triển công nghệ
mới. Các nhà nghiên cứu và nhà phát triển có thể sử dụng dữ liệu lớn
để tìm hiểu về vấn đề phức tạp, phát hiện ra các mô hình và tạo ra
những giải pháp sáng tạo.
Tóm lại, dữ liệu lớn đóng vai trò quan trọng trong nhiều lĩnh vực và có
thể mang lại nhiều lợi ích và cơ hội mới. Việc hiểu và sử dụng hiệu quả dữ
liệu lớn sẽ giúp chúng ta tận dụng tối đa tiềm năng của nó và đạt được sự
phát triển bền vững.
3. Thách thức trong bảo vệ thông tin
Bảo vệ thông tin là một thách thức quan trọng trong thời đại số hiện nay.
Dưới đây là một số thách thức chính trong việc bảo vệ thông tin:
– Tấn công mạng: Hacker và kẻ xâm nhập có thể tấn công vào hệ thống
mạng và truy cập trái phép vào thông tin quan trọng. Các hình thức tấn
công mạng bao gồm vi rút, phần mềm độc hại, tấn công từ chối dịch
vụ (DDoS) và phishing.
– Rò rỉ dữ liệu: Rò rỉ dữ liệu xảy ra khi thông tin quan trọng bị tiết lộ

cho bên thứ ba không được ủy quyền. Rò rỉ dữ liệu có thể xảy ra thông
qua việc mất mát thiết bị lưu trữ, lỗi trong quá trình truyền dẫn dữ liệu
hoặc do hành vi bất cẩn của nhân viên.
– Quản lý truy cập: Quản lý truy cập là một thách thức quan trọng trong
việc đảm bảo rằng chỉ những người được ủy quyền mới có thể truy cập
vào thông tin quan trọng. Việc quản lý truy cập không hiệu quả có thể
dẫn đến việc người không được ủy quyền truy cập vào thông tin nhạy
cảm.
– Pháp lý và tuân thủ quy định: Việc tuân thủ các quy định và quy tắc
pháp lý liên quan đến bảo vệ thông tin là một thách thức. Các tổ chức
phải đảm bảo rằng họ tuân thủ các quy định về bảo vệ thông tin, bảo
vệ quyền riêng tư của khách hàng và xử lý thông tin theo cách an toàn
và đúng quy định.
– Xử lý dữ liệu lớn: Với sự phát triển của dữ liệu lớn, việc bảo vệ thông
tin trở nên phức tạp hơn. Xử lý và bảo mật dữ liệu lớn đòi hỏi các công
nghệ và quy trình phức tạp để đảm bảo tính toàn vẹn, sẵn sàng và bảo
mật của dữ liệu.
Để vượt qua thách thức trong bảo vệ thông tin, ta cần thực hiện các biện
pháp sau:
– Xác định và đánh giá rủi ro: Phân tích và đánh giá các nguy cơ bảo mật
thông tin để nhận biết các điểm yếu và lỗ hổng trong hệ thống.
– Xây dựng chính sách và quy trình bảo mật: Thiết lập các quy định và quy
trình bảo mật để đảm bảo tuân thủ và thực hiện các biện pháp bảo vệ.
– Sử dụng công nghệ bảo mật: Áp dụng các công nghệ bảo mật như mã hóa
dữ liệu, xác thực hai yếu tố, tường lửa và phần mềm chống malware để
bảo vệ thông tin.
– Đào tạo nhân viên: Cung cấp đào tạo và nâng cao nhận thức về bảo mật
thông tin cho nhân viên để họ có kiến thức và kỹ năng cần thiết để đối
phó với các mối đe dọa.
– Kiểm tra và đánh giá định kỳ: Thực hiện kiểm tra và đánh giá định kỳ để
xác định sự tuân thủ và hiệu quả của các biện pháp bảo vệ thông tin.
– Giám sát và phản ứng nhanh: Theo dõi và giám sát liên tục để phát hiện
và phản ứng nhanh chóng đối với các sự cố bảo mật thông tin.
– Tăng cường ý thức về bảo mật thông tin: Nâng cao ý thức và giáo dục
người dùng về tầm quan trọng của bảo mật thông tin và cách thức bảo vệ
thông tin cá nhân và tổ chức.
4. Phương pháp bảo vệ thông tin sử dụng Dữ liệu lớn
Có một số phương pháp và công nghệ được sử dụng để bảo vệ thông tin
khi làm việc với dữ liệu lớn. Dưới đây là một số phương pháp phổ biến:
– Mã hóa dữ liệu: Mã hóa là quá trình chuyển đổi thông tin thành một
định dạng không đọc được cho bên thứ ba. Mã hóa dữ liệu lớn giúp
đảm bảo rằng dữ liệu chỉ có thể được đọc và hiểu bởi những người có
chìa khóa mã hóa thích hợp.
– Quản lý quyền truy cập: Xác định và quản lý quyền truy cập vào dữ
liệu lớn là một yếu tố quan trọng của bảo mật thông tin. Chỉ cho phép
những người được ủy quyền truy cập vào dữ liệu và thiết lập các cơ
chế kiểm soát truy cập để đảm bảo tính bảo mật.
– Giám sát và phân tích hành vi: Sử dụng công cụ giám sát và phân tích
hành vi để phát hiện các hoạt động đáng ngờ hoặc không thường
xuyên. Điều này giúp phát hiện và ngăn chặn các hành vi xâm nhập
hoặc lạm dụng dữ liệu lớn.
– Bảo vệ dữ liệu trong truyền: Sử dụng các giao thức bảo mật như
SSL/TLS để bảo vệ dữ liệu khi truyền qua mạng. Điều này đảm bảo
rằng dữ liệu không bị đánh cắp hoặc thay đổi trong quá trình truyền.
– Xác thực và phân quyền: Sử dụng các cơ chế xác thực và phân quyền
để kiểm soát quyền truy cập của người dùng vào dữ liệu lớn. Điều này
đảm bảo rằng chỉ những người được ủy quyền mới có thể truy cập vào
dữ liệu.
– Sao lưu và phục hồi dữ liệu: Thực hiện việc sao lưu dữ liệu định kỳ và
thiết lập kế hoạch phục hồi dữ liệu để đảm bảo rằng dữ liệu lớn có thể
được khôi phục sau khi xảy ra sự cố.
– Tuân thủ quy định pháp luật: Đảm bảo tuân thủ các quy định pháp luật
về bảo vệ thông tin và quyền riêng tư, chẳng hạn như GDPR, CCPA và
các quy định về bảo vệ dữ liệu cá nhân.
– Kiểm soát truy cập từ xa: Áp dụng các biện pháp kiểm soát truy cập từ
xa như VPN và các cơ chế xác thực để đảm bảo rằng chỉ những người
được ủy quyền mới có thể truy cập vào dữ liệu từ xa.
– Tạo ra các báo cáo và ghi nhật ký: Thực hiện việc tạo ra các báo cáo
và ghi nhật ký về các hoạt động truy cập và sử dụng dữ liệu lớn. Điều
này giúp theo dõi và phân tích các hoạt động và phát hiện các hành vi
bất thường.
– Đảm bảo tính liên tục: Xây dựng các kế hoạch và biện pháp để đảm
bảo tính liên tục của dịch vụ và bảo vệ thông tin trong trường hợp xảy
ra sự cố hoặc tấn công.
5. Data Leak Prevention là gì?
Phòng chống rò rỉ dữ liệu (Data Leak Prevention - DLP) là một tập hợp
công nghệ và thực tiễn được thiết kế để ngăn chặn việc tiết lộ hoặc rò rỉ dữ
liệu nhạy cảm một cách trái phép. Các giải pháp DLP giúp tổ chức xác định,
giám sát và bảo vệ dữ liệu nhạy cảm trong suốt quá trình hoạt động của nó, cả
bên trong tổ chức và khi được chia sẻ với bên thứ ba.
Các giải pháp DLP thường bao gồm các thành phần sau:
– Phát hiện dữ liệu: Các giải pháp DLP quét và phân tích các kho dữ liệu,
mạng và thiết bị cuối để xác định dữ liệu nhạy cảm. Điều này bao gồm
thông tin cá nhân (PII), dữ liệu tài chính, sở hữu trí tuệ, bí mật thương mại
và các loại thông tin nhạy cảm khác.
– Phân loại dữ liệu: Các giải pháp DLP phân loại dữ liệu dựa trên các chính
sách và quy tắc đã được định nghĩa trước. Điều này giúp tổ chức xác định
mức độ nhạy cảm của dữ liệu và áp dụng các biện pháp bảo mật phù hợp.
Phân loại có thể dựa trên nội dung, ngữ cảnh và siêu dữ liệu.
– Giám sát dữ liệu: Các giải pháp DLP giám sát dữ liệu theo thời gian thực
để phát hiện và ngăn chặn việc truy cập, sử dụng hoặc truyền dữ liệu nhạy
cảm một cách trái phép. Điều này bao gồm giám sát lưu lượng mạng, giao
tiếp qua email, truyền tải tập tin và hoạt động của người dùng. Các giải
pháp DLP cũng có thể phát hiện và ngăn chặn các nỗ lực rò rỉ dữ liệu qua
các kênh khác nhau, chẳng hạn như ổ đĩa USB, lưu trữ đám mây và ứng
dụng web.
– Thi hành chính sách: Các giải pháp DLP thi hành các chính sách và quy
tắc bảo mật để ngăn chặn rò rỉ dữ liệu. Điều này bao gồm áp dụng các
biện pháp bảo mật để ngăn chặn việc vi phạm chính sách và xử lý các
trường hợp vi phạm.
– Xử lý sự cố và quản lý quy trình: Các giải pháp DLP tạo ra và quản lý các
sự cố thông qua quá trình vận hành, bao gồm xác nhận sự cố, báo cáo,
thông báo và báo cáo.
– Mã hóa dữ liệu: Bảo vệ dữ liệu nhạy cảm bằng cách làm cho nó không thể
đọc được đối với người dùng không được ủy quyền.
– Giám sát hoạt động người dùng: Theo dõi các hành động mà người dùng
thực hiện với dữ liệu nhạy cảm.
6. Kiến trúc đa lớp (Multi-Layered Architecture)
Kiến trúc đa lớp (Multi-Layered Architecture) là một kiến trúc phần mềm
được sử dụng để phân chia ứng dụng thành các lớp riêng biệt, mỗi lớp có
trách nhiệm cụ thể và giao tiếp với các lớp khác thông qua các giao diện.
Kiến trúc đa lớp thường được sử dụng để tạo ra các ứng dụng phức tạp và
dễ bảo trì. Nó giúp tách biệt logic kinh doanh, giao diện người dùng và lưu trữ
dữ liệu thành các lớp riêng biệt, giúp dễ dàng mở rộng và thay đổi các phần
của hệ thống mà không ảnh hưởng đến các phần khác.
Các lớp trong kiến trúc đa lớp thường bao gồm:
– Lớp giao diện người dùng (Presentation Layer): Đây là lớp tương tác trực
tiếp với người dùng. Nó chịu trách nhiệm hiển thị thông tin và thu thập dữ
liệu từ người dùng thông qua các giao diện người dùng như giao diện đồ
họa, trang web, ứng dụng di động, vv. Lớp này không xử lý logic kinh
doanh mà chỉ chuyển tiếp yêu cầu và dữ liệu đến các lớp phía sau.
– Lớp logic kinh doanh (Business Logic Layer): Đây là lớp chứa logic kinh
doanh của ứng dụng. Nó xử lý các yêu cầu từ lớp giao diện người dùng,
thực hiện các tính toán, kiểm tra điều kiện, và tương tác với lớp lưu trữ dữ
liệu để truy xuất và cập nhật dữ liệu.
– Lớp lưu trữ dữ liệu (Data Access Layer): Đây là lớp chịu trách nhiệm truy
xuất và lưu trữ dữ liệu. Nó cung cấp các phương thức để kết nối và tương
tác với cơ sở dữ liệu, thực hiện các truy vấn và cập nhật dữ liệu. Lớp này
giúp che giấu chi tiết về cơ sở dữ liệu và cung cấp một giao diện đồng
nhất cho các lớp khác.
– Lớp hạ tầng (Infrastructure Layer): Đây là lớp cung cấp các dịch vụ hạ
tầng cần thiết cho ứng dụng, chẳng hạn như quản lý phiên, bảo mật, ghi
nhật ký, vv. Nó giúp tách biệt các yếu tố không liên quan đến logic kinh
doanh khỏi các lớp khác và cung cấp các dịch vụ chung cho toàn bộ hệ
thống.
Kiến trúc đa lớp giúp tăng tính linh hoạt, khả năng mở rộng và dễ bảo trì
của ứng dụng. Nó tách biệt các phần của hệ thống thành các lớp độc lập, giúp
giảm sự phụ thuộc và tăng khả năng tái sử dụng mã nguồn.
7. Sử dụng kiến trúc đa lớp để đảm bảo bảo mật thông tin
Sử dụng kiến trúc đa lớp có thể giúp đảm bảo bảo mật thông tin trong ứng
dụng. Dưới đây là một số cách mà kiến trúc đa lớp có thể hỗ trợ bảo mật
thông tin:
– Tách biệt trách nhiệm: Kiến trúc đa lớp cho phép tách biệt các lớp và
chức năng khác nhau trong ứng dụng. Điều này có nghĩa là bạn có thể xác
định rõ ràng các lớp có truy cập vào thông tin nhạy cảm và áp dụng các
biện pháp bảo mật phù hợp cho các lớp đó.
– Lớp giao diện người dùng: Lớp này chịu trách nhiệm xử lý và hiển thị
thông tin cho người dùng. Khi thiết kế lớp này, bạn có thể áp dụng các
biện pháp bảo mật như xác thực người dùng, kiểm tra đầu vào, mã hóa dữ
liệu và xử lý lỗi một cách an toàn.
– Lớp logic kinh doanh: Lớp này chứa logic kinh doanh và xử lý các yêu
cầu từ lớp giao diện người dùng. Bạn có thể áp dụng các biện pháp bảo
mật như kiểm tra quyền truy cập, xác thực dữ liệu và xử lý lỗi một cách
an toàn trong lớp này.
– Lớp lưu trữ dữ liệu: Lớp này chịu trách nhiệm truy cập và lưu trữ dữ liệu.
Bạn có thể áp dụng các biện pháp bảo mật như mã hóa dữ liệu, kiểm tra
quyền truy cập và xử lý lỗi một cách an toàn trong lớp này. Ngoài ra, việc
sử dụng các giao thức bảo mật như SSL/TLS khi truyền dữ liệu giữa ứng
dụng và cơ sở dữ liệu cũng là một biện pháp bảo mật quan trọng.
– Lớp hạ tầng: Lớp này chịu trách nhiệm cung cấp các dịch vụ hạ tầng như
quản lý phiên, bảo mật và ghi nhật ký. Bạn có thể áp dụng các biện pháp
bảo mật như xác thực và ủy quyền, kiểm soát truy cập và giám sát hoạt
động hệ thống trong lớp này.
Sử dụng kiến trúc đa lớp không đảm bảo bảo mật thông tin một cách tự
động, nhưng nó cung cấp một cơ sở để triển khai các biện pháp bảo mật phù
hợp trong các lớp khác nhau của ứng dụng. Điều này giúp tăng cường bảo
mật và giảm rủi ro xâm nhập và lộ thông tin nhạy cảm.
Phần 2: NỘI DUNG BÁO CÁO
Using Big Data for Data Leak Prevention Sử dụng dữ liệu lớn để ngăn chặn rò rỉ dữ liệu
Ivan Gaidarski, Pavlin Kutinchev Ivan Gaidarski, Pavlin Kutinchev
Institute of Information and Communication Technologies Bulgarian Academy of Sciences Viện Công nghệ Thông tin và Truyền thông Viện hàn lâm Bulgaria
Sofia, Bulgaria i.gaidarski@isdip.bas.bg Sofia, Bulgaria i.gaidarski@isdip.bas.bg
kutinchev@isdip.bas.bg kutinchev@isdip.bas.bg
Abstract— The paper present our approach for protecting sensitive data, using the methods of Big Tóm tắt— Bài báo trình bày cách tiếp cận của chúng tôi trong việc bảo vệ dữ liệu nhạy cảm, sử dụng các
Data. To effectively protect the valuable information within the organization, the following steps phương pháp của Big Data. Để có hiệu quả bảo vệ những thông tin có giá trị trong tổ chức, cần thực hiện
are needed: Employing a holistic approach for data classification, identifying sensitive data of the các bước sau: Sử dụng cách tiếp cận toàn diện để phân loại dữ liệu, xác định dữ liệu nhạy cảm của tổ
organization, Identifying critical exit points – communication channels, applications and connected chức, Xác định các điểm thoát quan trọng – các kênh truyền thông, các ứng dụng và thiết bị được kết nối
devices and protecting the sensitive data by controlling the critical exit points. Our approach is cũng như bảo vệ những thông tin nhạy cảm dữ liệu bằng cách kiểm soát các điểm thoát quan trọng. Cách
based on creating of component-based architecture framework for ISS, conceptual models for data tiếp cận của chúng tôi là dựa trên việc tạo khung kiến trúc dựa trên thành phần cho ISS, các mô hình
protection and implementation with COTS IT security products as Data Leak Prevention (DLP) khái niệm để bảo vệ dữ liệu và triển khai với các sản phẩm bảo mật CNTT COTS như Rò rỉ dữ liệu Giải
solutions. Our approach is data centric, which is holistic by its nature to protect the meaningful data pháp phòng ngừa (DLP). Cách tiếp cận của chúng tôi là tập trung vào dữ liệu, về bản chất là toàn diện để
of the organization. bảo vệ dữ liệu có ý nghĩa của tổ chức.
Keywords— Big Data, Protection, Sensitive, Personal Information, Holistic Approach, Data Leak Từ khóa— Dữ liệu lớn, Bảo vệ, Nhạy cảm, Cá nhân Thông tin, Phương pháp tiếp cận toàn diện, Ngăn
Prevention, DLP chặn rò rỉ dữ liệu, DLP.
I. INTRODUCTION I. GIỚI THIỆU

Nowadays data is everywhere. Every day we generate 2.5 quintilion bytes of data [3, 19]. Ngày nay dữ liệu có ở khắp mọi nơi. Mỗi ngày chúng tôi tạo ra 2,5
This means that 90% of the data in the world has been created in the last two years. By 2020, triệu byte dữ liệu [3, 19]. Điều này có nghĩa là 90% dữ liệu trên thế giới đã được tạo ra trong
about 1.7 megabytes of new data will be created every second, for every human being on the hai năm qua. Qua đến năm 2020, khoảng 1,7 megabyte dữ liệu mới sẽ được tạo ra mỗi năm
planet. [4] thứ hai, cho mỗi con người trên hành tinh này. [4]
One of the most valuable assets of the organizations is the information they access or
possess. It is one of the crucial factors for good performance on the market and it provides Một trong những tài sản quý giá nhất của tổ chức là thông tin họ truy cập hoặc sở hữu. Đó
competitive advantages for success. The information includes know-how, patents, marketing là một trong những điều quan trọng yếu tố mang lại hiệu quả tốt trên thị trường và nó cung
and sales information, legal and financial records, customer data, day-to-day correspond- ence cấp lợi thế cạnh tranh để thành công. Thông tin bao gồm bí quyết, bằng sáng chế, thông tin
– all these are from vital importance for the organizations. The modern organizations are data- tiếp thị và bán hàng, pháp lý và hồ sơ tài chính, dữ liệu khách hàng, thư từ hàng ngày – tất cả
driven – all of its activities are related or dependent from the data. những thứ này đều có tầm quan trọng sống còn đối với các tổ chức. Các tổ chức hiện đại đều
In the recent years, there were dramatic changes in the way the companies use their data. dựa trên dữ liệu - tất cả các hoạt động của nó có liên quan hoặc phụ thuộc vào dữ liệu.
The mass cloud adoption, boom of the mobile devices used to access business information Trong những năm gần đây đã có những thay đổi mạnh mẽ trong cách thức các công ty sử
along with the BYOD concept, removed the data of the organization outside the boundaries of dụng dữ liệu của họ. Việc áp dụng đám mây đại chúng, bùng nổ của các thiết bị di động được
the organization and protected data-centers. The massive flow of data from/to the cloud, sử dụng để truy cập thông tin doanh nghiệp cùng với khái niệm BYOD, đã loại bỏ dữ liệu của
workstations or mobile devices led to the emergence of new data formats, new tổ chức bên ngoài ranh giới của tổ chức và trung tâm dữ liệu được bảo vệ. Luồng dữ liệu
communication channels and also new data sources inside and outside the organization, such khổng lồ từ/đến đám mây, máy trạm hoặc thiết bị di động dẫn đến sự xuất hiện của định dạng
as IoT sensors, social media streams, geolocation information, third- party content and so on. dữ liệu mới, các kênh truyền thông mới và cả những nguồn dữ liệu bên trong và bên ngoài tổ
Increased volumes of the data and adoption of the data- driven approach in the chức, chẳng hạn như IoT cảm biến, luồng truyền thông xã hội, thông tin định vị địa lý, nội
organizations led to emerge of the new concept – the Big Data. dung của bên thứ ba, v.v.
Khối lượng dữ liệu ngày càng tăng và việc áp dụng phương pháp tiếp cận dựa trên dữ liệu
trong các tổ chức đã dẫn đến sự xuất hiện của phương pháp mới niệm – Dữ liệu lớn.
What Is Big Data? Big Data is a way to describe a data question, a degree of difficulty, Dữ liệu lớn là gì? Dữ liệu lớn là một cách để mô tả dữ liệu câu hỏi, mức độ khó, công cụ
data management tools, data science problems, and the data sets themselves [1]. quản lý dữ liệu, dữ liệu các vấn đề khoa học và dữ liệu tự thiết lập [1].
Gartner’s definition is “Big data is data that contains greater variety arriving in increasing Định nghĩa của Gartner là “Dữ liệu lớn là dữ liệu chứa sự đa dạng hơn với số lượng ngày
volumes and with ever- higher velocity. This is known as the “3V’s.” [1, 8]. The “3V’s” is càng tăng và với tốc độ cao hơn bao giờ hết. Điều này được gọi là “3V”. [1, 8]. Các “3V’s”
defined by Doug Laney [7] in 2001 to describe the data management in 3-dimension. The được Doug Laney [7] định nghĩa vào năm 2001 để mô tả quản lý dữ liệu trong không gian 3
3V’s where Volume, Velocity and Variety. Nowadays, more V’s are added to the Big Data, chiều. 3V là nơi Âm lượng, Tốc độ và sự đa dạng. Ngày nay, nhiều chữ V được thêm vào
as Value, Variability, Virtual or other. Dữ liệu lớn, dưới dạng Giá trị, Tính biến đổi, Ảo hoặc loại khác.
McKinsey and Company describing “Big Data” as: “Datasets whose size is beyond the McKinsey và Company mô tả “Dữ liệu lớn” là: “Các tập dữ liệu có kích thước vượt quá khả
ability of typical database software tools to capture, store, manage, and analyse. The năng của cơ sở dữ liệu thông thường công cụ phần mềm để nắm bắt, lưu trữ, quản lý và phân
definition can vary by sector, depending on what kinds of software tools are commonly tích. Các định nghĩa có thể khác nhau tùy theo lĩnh vực, tùy thuộc vào loại các công cụ phần
available and what size of datasets are common in a particular industry.” So, in essence, mềm thường có sẵn và kích thước của các bộ dữ liệu là phổ biến trong một ngành cụ thể.” Vì
when an organization’s data gets so voluminous that it starts to cause problems, then it vậy, về bản chất, khi dữ liệu của một tổ chức trở nên quá lớn đến mức nó bắt đầu gây ra vấn
becomes “Big Data.” [5, 6] đề thì nó sẽ trở thành “Dữ liệu lớn”. [5, 6]
Now we can gather, store and analyse data in ways that was impossible few years ago. Bây giờ chúng ta có thể thu thập, lưu trữ và phân tích dữ liệu theo những cách là điều
There are two important points không thể cách đây vài năm. Có hai điểm quan trọng
– more data on everything and improved abilities to store and analyse data [4]: – nhiều dữ liệu hơn về mọi thứ và cải thiện khả năng lưu trữ và
phân tích dữ liệu [4]:
1. More data on everything 1. Thêm dữ liệu về mọi thứ

Everything we do in our digitized world leaves a data trail. Every second we send tens of Mọi thứ chúng ta làm trong thế giới số hóa đều để lại dấu vết dữ liệu. Mỗi giây chúng ta
millions of emails and messages in Facebook and Twitter or instant messengers as Viber, gửi hàng chục triệu email và tin nhắn trên Facebook và Twitter hoặc các ứng dụng nhắn tin
every single minute we uploading about 300 hours of new video to YouTube and almost tức thời như Viber, mọi chỉ một phút chúng tôi tải lên khoảng 300 giờ video mới YouTube và
three million videos on Facebook and we take each year one trillion digital photos. We are gần ba triệu video trên Facebook và chúng tôi chụp mỗi năm một nghìn tỷ bức ảnh kỹ thuật
surrounded by sensors, all of them collecting different kind of data – GPS, accelerometers, số. Chúng tôi bị bao vây bằng các cảm biến, tất cả chúng đều thu thập các loại dữ liệu khác
barometers, thermometers, light and touch sensors in our smartphones, smart TVs, smart nhau – GPS, gia tốc kế, phong vũ biểu, nhiệt kế, ánh sáng và cảm ứng cảm biến trong điện
watches, smart meters and so on. By 2020 there will have over 50 billion devices, connected thoại thông minh, TV thông minh, đồng hồ thông minh, thiết bị thông minh mét và như vậy.
to the Internet. All this means vast amount of collected data. Đến năm 2020 sẽ có trên 50 tỷ các thiết bị, được kết nối với Internet. Tất cả điều này có nghĩa
2. Ability to analyse everything là số lượng lớn của dữ liệu được thu thập.
All that data is worthless until we are able to turn it into knowledge. The captured data must 2. Khả năng phân tích mọi thứ
be stored and analysed. The increased amounts of the data require new techniques for storing Tất cả dữ liệu đó đều vô giá trị cho đến khi chúng ta có thể biến nó thành kiến thức. Dữ liệu
and analysing such as distributed computing – huge amounts of data are stored across multiple thu được phải được lưu trữ và phân tích. Lượng dữ liệu tăng lên đòi hỏi các kỹ thuật mới để
databases and are being analysed by sharing the tasks between different server, each lưu trữ và phân tích như điện toán phân tán – rất lớn lượng dữ liệu được lưu trữ trên nhiều cơ
performing part of the analysis. Good example are distributed search technology of Google or sở dữ liệu và được phân tích bằng cách chia sẻ nhiệm vụ giữa các máy chủ khác nhau, mỗi
technology tools as Hadoop, which can scale petabytes of data, manage the storage and phần thực hiện phân tích. Ví dụ điển hình là công nghệ tìm kiếm phân tán của Google hay các
analysis of Big Data across connected databases and servers. công cụ công nghệ như Hadoop, có thể mở rộng quy mô petabyte dữ liệu, quản lý bộ nhớ và
The Algorithms for analysing data also are also vastly improved – they can identify who is phân tích Dữ liệu lớn trên cơ sở dữ liệu được kết nối và may chủ.
on the taken photos, to understand spoken words and translate them into written text and Các thuật toán để phân tích dữ liệu cũng rất đa dạng được cải thiện – họ có thể xác định ai
analyse the content of the text and so on. Machine learning and artificial intelligence are có mặt trong ảnh đã chụp, để hiểu lời nói và dịch chúng thành văn bản viết và phân tích nội
constantly improving to help handle the data. dung của văn bản, v.v. Máy móc học tập và trí tuệ nhân tạo không ngừng được cải thiện để
Nowadays Big Data storage and analysis technology is even available to rent as software- giúp xử lý dữ liệu.
as-a-service (SAAS) model, which makes it accessible to anyone [4]. Ngày nay công nghệ lưu trữ và phân tích Big Data đang thậm chí có sẵn để thuê dưới dạng
The term Big Data, can be described also with the large volumes of structured and mô hình phần mềm dưới dạng dịch vụ (SAAS), giúp mọi người có thể truy cập được [4].
unstructured data –that overflows the day-to-day business operations. The important thing Thuật ngữ Dữ liệu lớn cũng có thể được mô tả bằng số lượng lớn khối lượng dữ liệu có cấu
here are not the volumes, but what organizations do with that data. One of the main trúc và không có cấu trúc – tràn ngập các hoạt động kinh doanh hàng ngày. Điều quan trọng ở
advantages of the big data is the fact that it can be analysed in ways that can lead to better and đây không phải là khối lượng mà là những gì tổ chức làm với dữ liệu đó.
faster decisions and strategic business moves for creating competitive advantages of the Một trong những ưu điểm chính của dữ liệu lớn là nó có thể được phân tích theo những
organization. There are new advanced analytics techniques such as text analytics, machine cách có thể dẫn đến kết quả tốt hơn và nhanh hơn các quyết định và động thái kinh doanh
learning, predictive analytics, data mining, statistics and natural language processing to gain chiến lược để tạo ra lợi thế cạnh tranh của tổ chức. Có mới các kỹ thuật phân tích nâng cao
new insights from previously untapped data sources independently or together with existing như phân tích văn bản, phân tích máy học, phân tích dự đoán, khai thác dữ liệu, thống kê và
enterprise data. xử lý ngôn ngữ tự nhiên để đạt được những hiểu biết mới từ các nguồn dữ liệu chưa được khai
Increased data flows require new approaches to processing, storing and analysing them, as thác trước đó một cách độc lập hoặc cùng nhau với dữ liệu doanh nghiệp hiện có.
well as new data management platforms. Some of the biggest concerns of the data-driven Luồng dữ liệu tăng lên đòi hỏi những cách tiếp cận mới để xử lý, lưu trữ và phân tích
organizations are related with the security and privacy of the information. [2] The modern chúng, cũng như dữ liệu mới các nền tảng quản lý. Một số mối quan tâm lớn nhất của các tổ
organization must take new ways to handle and protect their valuable data. chức điều khiển dữ liệu có liên quan đến an ninh và sự riêng tư của thông tin. [2] Tổ chức hiện
In the following sections of the paper we will present our approach for employing the đại phải thực hiện những cách mới để xử lý và bảo vệ dữ liệu có giá trị của họ.
methods of the Big Data for protection of the sensitive information in modern organization. Trong các phần tiếp theo của bài báo, chúng tôi sẽ trình bày cách tiếp cận để sử dụng các
After that we will look at a method for protecting sensitive information across an organization phương pháp của Dữ liệu lớn cho bảo vệ thông tin nhạy cảm trong thời hiện đại tổ chức. Sau
using DLP /Data Leak Prevention/ solutions. đó chúng ta sẽ xem xét một phương pháp để bảo vệ thông tin nhạy cảm trong toàn tổ chức sử
dụng DLP /Data Phòng chống rò rỉ/giải pháp.
II. PHƯƠNG PHÁP BẢO VỆ DỮ LIỆU NHẠY CẢM

II. METHOD FOR PROTECTION OF THE SENSITIVE DATA IN AN ORGANIZATION TRONG MỘT TỔ CHỨC An ninh mạng là một thách thức lớn mà thế giới hiện đại phải
Cybersecurity is a major challenge, faced by the modern organization. While the đối mặt tổ chức. Trong khi các biện pháp an ninh mạng truyền thống có thể không đạt được sự
traditional cybersecurity measures may fail to achieve the effective protection of the valuable bảo vệ hiệu quả các tài sản có giá trị thông tin và tài sản, các phương pháp của Dữ liệu lớn có
information and assets, the methods of Big Data can be very effective. Different security thể rất hiệu quả. Các biện pháp kiểm soát bảo mật khác nhau (các công cụ bảo mật CNTT và
controls (IT security tools and solutions) generate huge amounts of information related to the giải pháp) tạo ra lượng thông tin khổng lồ liên quan đến luồng thông tin qua các đầu vào và
flow of information through various input and output channels, internal or external to the đầu ra khác nhau các kênh, nội bộ hoặc bên ngoài tổ chức, thông tin được thu thập bởi các
organization, information gathered by different security sensors, monitoring of channels and cảm biến bảo mật khác nhau, giám sát các kênh và cổng, rò rỉ dữ liệu, giám sát chu vi bên
ports, data leaks, external perimeter monitoring and etc. By analyzing the data, the ngoài, v.v. Bằng cách phân tích dữ liệu, các lỗ hổng và mối đe dọa đối với Cơ sở hạ tầng của
vulnerabilities and threats to the organization infrastructure can be identified and help to tổ chức có thể được xác định và giúp đỡ giảm thiểu/loại bỏ các điểm yếu và lỗ hổng của hệ
mitigate/eliminate the system weaknesses and vulnerabilities, i.e. the weak points. The thống, tức là những điểm yếu. Việc phân tích dữ liệu bảo mật cũng cách tốt nhất để phát triển
analytics of the security data is also the best way for development of pro-active IT bảo mật CNTT chủ động các biện pháp bảo vệ cơ sở hạ tầng và dữ liệu của tổ chức [5].
security measures for protection of the infrastructure and data of the organization [5].
Để bảo vệ hiệu quả các thông tin có giá trị trong tổ chức cần thực hiện các bước sau:
To effectively protect the valuable information within the organization, the following 1. Sử dụng cách tiếp cận toàn diện để phân loại dữ liệu
steps are needed: 2. Xác định dữ liệu nhạy cảm của tổ chức
1. Employing a holistic approach for data classification 3. Xác định các điểm thoát quan trọng – giao tiếp kênh, ứng dụng, thiết bị được kết nối, v.v.
4. Bảo vệ dữ liệu nhạy cảm bằng cách kiểm soát dữ liệu quan trọng
2. Identifying sensitive data of the organization điểm thoát
3. Identifying critical exit points – communication channels, applications, connected
devices etc.
Để có được biện pháp bảo vệ dữ liệu hiệu quả, chúng tôi phải sử dụng một cách tiếp cận
4. Protection the sensitive data by controlling the critical exit points toàn diện đối với dữ liệu của tổ chức. Cách tiếp cận đó sẽ đảm bảo rằng dữ liệu có giá trị nhất
của tổ chức được xác định và bảo vệ hiệu quả với sự kết hợp của các biện pháp và biện pháp
kiểm soát an ninh, đồng thời duy trì các quy định tuân thủ và tính liên tục của quá trình kinh
To gain an effective data protection, we must employ a holistic approach to the doanh [9].
organization’s data. That approach will ensure that the organization’s most valuable data is
identified and effectively protected with combination of security controls and measures, Chúng ta phải xem xét tất cả các dữ liệu có thể - cả bên trong vàbên ngoài tổ chức. Những
while keeping regulatory compliance and continuity of the business process [9]. cân nhắc sau đây phải đã được theo dõi:
We have to consider all the possible data - both inside and outside the organization. The • Tổ chức nắm giữ những dữ liệu gì?
following considerations must be followed: • Dữ liệu sẽ đi đâu?
• Ai đang truy cập dữ liệu?
• What data the organization hold?
• Dữ liệu của tổ chức nằm ở đâu?
• Where the data is going? • Nghĩa vụ của tổ chức đối với dữ liệu là gì bảo vệ – Quy định, tiêu chuẩn và chính sách.
• Who is accessing the data? Để hiểu được đâu là dữ liệu quan trọng nhất, tổ chức lưu giữ những dữ liệu nhạy cảm nào,
• Where does organization’s data resides? ở đâu dữ liệu nhạy cảm được lưu trữ - cả trong nội bộ và với bên thứ ba và những dữ liệu đó
sẽ đi đâu, hoạt động quản trị dữ liệu phải được trình diễn. Điều quan trọng không chỉ là đánh
• What are the organization’s obligations for data protection – Regulations, standards dấu dữ liệu,mà là để phân loại nó từ góc độ kinh doanh cho từng lĩnh vực cụ thể tổ chức.
and policies.
To gain understanding what is the most important data, what sensitive data the Bằng cách xác định chính xác dữ liệu nào là quan trọng đối với mục tiêu của tổ chức, nó
organization holds, where do the sensitive data reside - both internally and with third parties trở nên rõ ràng dữ liệu nào nó không thể có khả năng bị mất và phải được bảo vệ.
and where is those data going, a data governance activities must be performed. It is important
not only to mark the data, but to classify it from a business perspective for the specific Sau khi phân loại dữ liệu xong, điều quan trọng là phải xác định cái gọi là “dữ liệu nhạy
organization. cảm” của tổ chức. Các vấn đề là việc bảo vệ toàn bộ dữ liệu tổ chức sử dụng hoặc sở hữu là
không thể - nó cũng sẽ tốn kém nhiều nỗ lực, con người, nguồn lực tính toán và thời gian. Và
By identifying what exactly data is vital to the organization’s goals it becomes clear ít nhất, các hoạt động hàng ngày của tổ chức sẽ bị bối rối. Mục tiêu chính của bảo mật CNTT
which data it cannot afford to lose and must be protected. hiện đại là bảo vệ tài sản của tổ chức nhưng không can thiệp vào với các quá trình kinh doanh.
After data classification is done, it is very important to identify the so called “sensitive Bước tiếp theo là xác định các điểm yếu và lỗ hổng của hệ thống bảo mật CNTT và để kiểm
data” of the organization. The problem is that the protection of the whole data that soát các điểm thoát quan trọng – các kênh liên lạc, ứng dụng, thiết bị được kết nối, v.v. [9]
organization use or possess is impossible – it would cost too much efforts, human, Phương pháp đề xuất để bảo vệ vùng nhạy cảm thông tin trong tổ chức dựa trên mô hình
computational recourses and time. And not at least, the day-to-day operations of the của chúng tôi Phương pháp thiết kế hệ thống an ninh thông tin (ISS) từ [10] và [11]. Cách tiếp
organization will be embarrassed. The main goal of the modern IT security is to protect the cận đó dựa trên việc chuyển đổi một mô hình khái niệm của kiến trúc hệ thống thành mô hình
assets of the organization, but not to interfere with the business processes. Next step is to thiết kế của ISS, được mô tả bằng UML.
identify the weaknesses and vulnerabilities of the IT security systems and to control the Chúng tôi đang sử dụng các siêu mô hình bảo mật tập trung vào dữ liệu, trọng tâm chính là
critical exit points – communication channels, applications, connected devices and so on. [9] dữ liệu. Những mô hình này là kết quả của Conceptual mô hình hóa ISS và liên quan đến các
The proposed method of protecting the sensitive information in the organization is based on khía cạnh khác nhau của dữ liệu và sự bảo vệ của họ. Mỗi siêu mô hình thể hiện sự khác nhau
our model driven approach for designing of information security system (ISS) from [10] and quan điểm từ các bên liên quan. Trên Hình 1 được hiển thị một
[11]. That approach is based on transforming a conceptual model of system architecture into siêu mô hình từ quan điểm “bảo mật thông tin”, từ mà ISS phải trả lời những câu hỏi sau: Cái
design model of the ISS, described with UML. gì phải được bảo vệ, Tại sao nó phải được bảo vệ và Làm thế nào nó có thể được bảo vệ. Để
We are using data centric security meta-models, which main focus is data. These models trả lời những câu hỏi này, siêu mô hình bao gồm từ các khái niệm khác nhau, như bảo vệ điểm
are result from Conceptual modelling of ISS and concerns different aspects of the data and cuối và bảo vệ thông tin liên lạc và kết nối (Cái gì); bảo vệ giám sát, phân tích bảo mật và
their protection. Each meta-model represents different viewpoint from the stakeholders. On quản lý bảo mật (Làm sao); mô hình và chính sách bảo vệ dữ liệu và bảo mật (Tại sao).
Figure 1 is shown a meta-model from the “information security” viewpoint, from which the
ISS has to answer to the following questions: What must be protected, Why it has to be
protected and How it can be protected. To answer these questions the meta-model consists
from different concepts, as endpoint protection and communications & connectivity
protection (What); security monitoring, security analysis, and security management (How);
data protection and security model and policy (Why).
Hình 1. Quan điểm siêu mô hình “bảo mật thông tin”
Mỗi khái niệm này đều có vai trò vàđặc trưng. Ví dụ: Bảo vệ điểm cuối (Hình 2) cung cấp
khả năng bảo vệ cho các điểm cuối, Dữ liệu Bảo vệ đại diện cho tất cả dữ liệu trong hệ thống:
được bảo vệ dữ liệu, Dữ liệu ở trạng thái nghỉ và Dữ liệu đang sử dụng ở các điểm cuối,
Figure 1. Meta-model of “information security” viewpoint
Chuyển động dữ liệu trong truyền thông, dữ liệu được thu thập như một phần của mô-đun
Each of these concepts have specific role and characteristics. For example, Endpoint giám sát và phân tích, chính sách bảo mật dữ liệu và tất cả dữ liệu từ quản lý hệ thống [12].
Protection (Figure 2) delivers protection capabilities for the endpoints, Data Protection Siêu mô hình thứ hai (Hình 3) thể hiện quan điểm “Xử lý thông tin”, tập trung vào các
represents all data in the system: the protected data, Data-at-Rest and Data-in-Use in the trạng thái khác nhau của dữ liệu và quá trình xử lý chúng. Nó bao gồm tất cả dữ liệu có thể có
endpoints, Data-in- Motion in the communications, data gathered as part of monitoring and trong hệ thống - dữ liệu đã được xử lý (vận hành), dữ liệu cấu hình và giám sát. Nói chung, dữ
analysis modules, the data security policy and all data from the system management [12]. liệu có thể ở một trong các trạng thái sau: Dữ liệu ở trạng thái nghỉ, Dữ liệu đang sử dụng
hoặc Dữ liệu chuyển động [13, 14].
The second meta-model (Figure 3) represents the viewpoint “Information processing”, Hình 2: Khái niệm bảo vệ điểm cuối
which focuses on the different states of the data and their processing. It covers all possible
data in the system - the processed (operational) data, the configuration and monitoring data.
In general, the data can be in one of the following states: Data-at-Rest, Data-in-Use or Data-
in-Motion [13, 14].
Figure 2. Endpoint protection concept.
Hình 3. Quan điểm siêu mô hình “xử lý thông tin”.
Tất cả các siêu mô hình của ISS có thể được kết hợp trong mô hình khái niệm Nhiều lớp
(Hình 4).
Để đạt được các mục tiêu về bảo mật thông tin, mỗi thành phần (khái niệm) được hiện thực
hóa thông qua công cụ – Kỹ thuật bảo mật thông tin (IST), trong đó bao gồm các công cụ và
quy trình bảo mật nhằm giải quyết và giảm các mối đe dọa đối với hệ thống và giúp các thành
phần ISS để thực hiện các chức năng cơ bản của mình.
Figure 3. Meta-model of “information processing” viewpoint.
All of the meta-models of ISS can be combined in a Multi- Layered conceptual model
(Figure 4).
To achieve the goals of information security, each component (concept) is realized Hình 4. Mô hình khái niệm nhiều lớp của ISS.
through appropriate instruments – Information Security Techniques (IST), which include
Bước tiếp theo là chuyển đổi mô hình khái niệm thành mô hình thiết kế hệ thống với sự trợ
security tools and procedures that addresses and reduces the threats to the system and helps
giúp của UML – lớp, hoạt động, sơ đồ trạng thái và triển khai (Hình 5, 6). Kết quả là ISS
ISS components to perform their basic functions.
trong thế giới thực, trong đó các giải pháp bảo vệ khác nhau và các công cụ như Tường lửa,
thiết bị Hệ thống phát hiện xâm nhập (IDS), Hệ thống ngăn chặn xâm nhập (IPS), Ngăn ngừa
mất dữ liệu (DLP), các công cụ pháp y và các công cụ khác được triển khai và được thực hiện
nhằm đáp ứng mọi yêu cầu của các bên liên quan và quản lý của tổ chức [10, 11].
Figure 4. Multi-Layered Conceptual Model of ISS.
The next step is to transform the conceptual model to system design model with the help
of UML – class, activity, state and deployment diagrams (Figures 5, 6). The results is real-
world ISS, in which different protection solutions and tools as Firewalls, Intrusion Detection
System devices (IDS), Intrusion Prevention System (IPS), Data Loss Prevention (DLP),
Forensic tools and others are deployed and implemented to meet the requirements of all of the
stakeholders and management of the organizations [10, 11].
Hình 5. Sơ đồ trạng thái UML

Figure 5. UML State Diagram.
Hình 6. Sơ đồ triển khai UML.
III. GIẢI PHÁP NGĂN NGỪA RÒ RỈ DỮ LIỆU

Các giải pháp bảo mật truyền thống là không đủ khi nó đề cập đến việc bảo vệ thông tin
nhạy cảm. Một loại mới cần có các công cụ có khả năng bảo vệ dữ liệu khỏi hướng từ trong ra
ngoài và để xử lý lượng lớn dữ liệu [15]. Những giải pháp như vậy, thúc đẩy cách tiếp cận tập
trung vào dữ liệu, là các hệ thống Ngăn chặn Rò rỉ Dữ liệu (DLP) [16, 17].
Các giải pháp DLP được thiết kế để ngăn chặn rò rỉ dữ liệu hướng từ trong ra ngoài, có chủ
ý hoặc vô ý do lỗi của con người. Hệ thống DLP được có thể kiểm soát tất cả các kênh truyền
thông (USB, Wi-Fi, LAN, Bluetooth, cổng máy in, v.v.), tất cả các thiết bị được kết nối và tất
cả các ứng dụng ở điểm cuối – máy trạm và máy tính xách tay. DLP có khả năng dừng rò rỉ dữ
liệu bằng cách thực thi các hành động bảo vệ, dựa trên chính sách bảo vệ dữ liệu và kết hợp
bối cảnh và nội dung các phương pháp phân tích. Để bảo vệ dữ liệu bằng mọi cách có thể
tuyên bố, giải pháp DLP có thể kiểm soát tất cả thông tin liên lạc toàn cầu và các kênh dữ liệu
Figure 6. UML Deployment Diagram. của tổ chức, nhận biết và kiểm soát ba loại dữ liệu: Data-In-Use, Data-In-Motion và Dữ liệu ở
trạng thái nghỉ – Hình 7 [18]. Hệ thống DLP thu thập và xử lý lượng lớn dữ liệu khác nhau từ
III. DATA LEAK PREVENTION SOLUTIONS các kênh dữ liệu – cổng, dữ liệu mạng, dữ liệu được chia sẻ, sao chép, nhận và gửi dữ liệu,
The traditional security solutions are not enough when it comes to protection of sensitive v.v. Tất cả dữ liệu có thể được quét và so sánh với các từ khóa được xác định trước và biểu
information. A new kind of tools is needed, which are capable on protecting the data from thức RegEx, để xác định thông tin nhạy cảm, Thông tin nhận dạng cá nhân (PII) hoặc các loại
inside-outside direction and to deal with big amounts of data [15]. Such solutions, which thông tin khác có thể được kiểm soát, bị chặn, đăng nhập và vv
leverages data-centric approach, are the Data Leak Prevention (DLP) systems [16, 17].
The DLP solutions are designed to prevent data leakages from inside to the outside
direction, being intentional or unintentional as a result of a human errors. DLP systems are
able to control all of the communication channels (USB, Wi-Fi, LAN, Bluetooth, printer
ports and etc.), all of the connected devices and all of the applications on the endpoints –
workstations and laptops. DLP are capable to stop data leakages by enforcing protective
actions, based on the data protection policy, and combining contextual and content analysis
methods. In order to protect the data in all possible states, DLP solutions can control all
global communications and data channels of the organization, recognizing and controlling the
three data types: Data-In-Use, Data-In-Motion and Data-at-Rest – Figure 7 [18]. DLP
systems collecting and processing vast amount of various data from the data channels
– ports, network data, shared data, copied, received and sent data and etc. All of the data can
be scanned and compared with predefined key words and RegEx expressions, to identify
sensitive information, Personal Identifiable Information (PII) or other kinds of information,
which can be controlled, blocked, logged and etc.
Hình 7. Giải pháp ngăn chặn rò rỉ dữ liệu (DLP).
IV. KẾT LUẬN

Phương pháp đề xuất để bảo vệ thông tin nhạy cảmtrong tổ chức, sử dụng các nguyên tắc
Dữ liệu lớn có hiệu quả vàlinh hoạt.
Trong nghiên cứu trước đây của chúng tôi [21], việc cài đặt lớp DLP hệ thống của
DeviceLock Inc – DeviceLock DLP Suite v8.2 [18] được thực hiện để theo dõi luồng dữ liệu
tại các điểm cuối (máy trạm và máy tính xách tay) của 18 tổ chức, bao gồm cảlĩnh vực an ninh
quốc gia.
Một số kết quả tổng quát từ quá trình xác nhận là được cung cấp trong Hình 8:
• Giảm sự cố rò rỉ thông tin nhạy cảm;
• Hạn chế các kênh rò rỉ dữ liệu;
• Tăng khả năng hiển thị thông tin nhạy cảm bằng cách chức năng khám phá của DLP (Data-
in-Rest);
• Cải thiện việc tuân thủ an ninh nội bộ chính sách, quy định pháp luật và chỉ thị về quyền
riêng tư;
Figure 7. Data Leak Prevention (DLP) solution.
I. CONCLUSIONS
The proposed method for protecting sensitive information in the organization, using Big
Data principles is effective and versatile.
In our previous study [21], an installation of a DLP-class system by DeviceLock Inc –
DeviceLock DLP Suite v8.2 [18] was performed for monitoring the dataflows at the
endpoints (workstations and laptops) of 18 organizations, including the national security
sector.
Some generalized results from the validation process are provided in Figure 8:
• Reducing the sensitive information leak incidents;
• Limiting data leak channels;
• Increasing the visibility of sensitive information, by the discovery function of the
DLP (Data-in-Rest);
• Improving compliance with the internal security policies, legal regulations and
privacy directives;
Hình 8. Kết quả tổng quát từ việc triển khai DLP.
Phương pháp đề xuất cho phép đảm bảo an toàn thông tin trong các doanh nghiệp được đặt
trên cơ sở ổn định – thông qua thống các khái niệm, mô hình và quan điểm, chúng ta thực hiện
nó có thể xác định các yêu cầu và thực hiện chúng với các hệ thống thực với sự trợ giúp của
các mẫu, dành riêng cho các ngành và tổ chức khác nhau, đồng thời duy trì khả năng tương tác
và đảm bảo tính lặp lại.
SỰ NHÌN NHẬN
Nghiên cứu được hỗ trợ bởi Dự án KoMEIN (Mô hình hóa khái niệm và mô phỏng Internet
of Things Hệ sinh thái) được tài trợ bởi Khoa học Quốc gia Bulgaria Quỹ, Cuộc thi hỗ trợ tài
chính của nghiên cứu cơ bản (2016) với các chuyên đề ưu tiên: Khoa học toán học và tin học,
hợp đồng № DN02/1/13.12.2016. Ngoài ra còn có lời cảm ơn sâu sắc dành cho Chương trình
khoa học quốc gia “Thông tin và Công nghệ truyền thông cho một thị trường kỹ thuật số duy
nhất ở Khoa học, Giáo dục và An ninh (ICTinSES) 2018-2020”, được tài trợ bởi Bộ Giáo dục
và Khoa học.
Figure 8. Generalized results from DLP implementation.
The proposed approach enables the information security in the enterprises to be placed on
a stable basis – through system of concepts, models and viewpoints, we make it possible to
define the requirements and to implement them with real systems with the help of templates,
specific for different industries and organizations, while maintaining interoperability and
ensuring repeatability.
ACKNOWLEDGEMENTS
The research is supported by the KoMEIN Project (Conceptual Modeling and Simulation
of Internet of Things Ecosystems) funded by the Bulgarian National Science Foundation,
Competition for financial support of fundamental research (2016) under the thematic priority:
Mathematical Sciences and Informatics, contract № DN02/1/13.12.2016. Additional gratitude
is also given to the National Scientific Program “Information and Communication
Technologies for a Single Digital Market in Science, Education and Security (ICTinSES)
2018-2020”, financed by the Ministry of Education and Science.
REFERENCES – TÀI LIỆU THAM KHẢO Paradigm, 2016 IEEE 18th International Conference on High
[1] https://www.oracle.com/big-data/guide/what-is-big-data.html Performance Computing and Communications, ” December 2016
[2] https://www.ibm.com/analytics/hadoop/big-data-analytics [9] I. Gaydarski, P. Kutinchev, R. Andreev, “Holistic Approach to Data
[3] B. Baesens, “Analytics in a big data world : the essential guide to data protection - identifying the weak points in the organization”, The
science and its applications “, John Wiley & Sons, Inc., Hoboken, New Jersey, International Conference “Big Data, Knowledge and Control Systems
2014 Engineering” (BdKCSE’2017), 6.12.2017, Sofia, Bulgaria
[4] B. Marr, “Big Data in practice”, John Wiley and Sons Ltd, The Atrium, [10] I. Gaydarski, Z. Minchev, R. Andreev, “Model Driven Architectural
Southern Gate, Chichester, West Sussex, PO19 8SQ, United Kingdom, 2016 Design of Information Security System”, 14th International Conference
[5] C. L. Stimmel, “Big Data Analytics Strategies for the Smart Grid”, on Information Assurance and Security (IAS 2018), 13-15.12.2018,
CRC Press is an imprint of Taylor & Francis Group, 2015 Porto, Portugal, Advances in Intelligence Systems and Computing,
[6] J. Manyika, M. Chui, B. Brown, J. Bughin, “Big data: The next frontier Springer, 2019
for innovation, competition, and productivity”, McKinsey and Company, May [11] I.Gaidarski,“Challenges to Data Protection in Corporate Environment”,
2011 In the Book “Future Digital Society Resilience in the Informational Age”, Sofia,
[7] D. Laney, “3D Data Management: Controlling Data Volume, Velocity, Institute of ICT, Bulgarian Academy of Sciences, SoftTrade, December, 2018
and Variety”, Gartner, file No. 949. 6 February 2001, [12] Industrial Internet of Things Volume G4: Security Framework:
https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-DataManagement- http://www.iiconsortium.org/pdf/IIC_PUB_G4_V1.00_PB.pdf, May
Controlling-Data-Volume-Velocity-and-Variety.pdf 2017, pp. 46-61, last accessed 2019/04/08.
[8] R. Patgiri, A. Ahmed, “Big Data: The V’s of the Game Changer [13] M. Rhodes-Ousley, “Information Security the Complete Reference”,
2nd Edition, pp. 303, 234-238.The McGraw-Hill ,2013 Environment, Chapter 8”, In Z. Minchev, (Ed) Future Digital Society
[14] M. Whitman, H. Mattord. “Principles of Information Security, Fifth Resilience in the Informational Age, Institute of ICT, Bulgarian
Edition”. Course Technology, Cengage Learning, 2016 Academy of Sciences
[15] I. Gaydarski, Z. Minchev, “Virtual Enterprise Data ProtectionFramework [19] IBM, www.ibm.com/big-data/us/en, 2013.
Implementation with Practical Validation”, Proceedings of [20] www.gartner.com/technology/topics/big-data.jsp.
BISEC 2018, Belgrade Metropolitan University, 20.10.2018, Belgrade, Serbia, [21] I. Gaydarski, Z. Minchev, “Conceptual Modeling of Information
DOI:10.13140/RG.2.2.19996.33925 Security System and Its Validation through DLP systems”, Proceedings
[16] DeviceLock www.devicelock.com/products, last accessed 2019/10/05. of BISEC 2017, October 18, Belgrade Metropolitan University, 2017,
[17] CoSoSys Endpoint Protector www.endpointprotector.com, last accessed ISBN:978-86-89755-14-5, DOI: 10.13140/RG.2.2. 32836.53123, pp.
2019/10/05. 36-40
[18] I. Gaydarski, “Challenges to Data Protection in Corporate

Phần 1. Báo cáo nhóm

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Phần 1. Báo cáo nhóm

Uploaded by

Copyright:

Available Formats

ĐẠI HỌC CÔNG NGHỆ GIAO THÔNG VẬN TẢI

KHOA CÔNG NGHỆ THÔNG TIN

HỌC PHẦN: CÁC VẤN ĐỀ HIỆN ĐẠI CỦA MẠNG

Đề tài 41: Nghiên cứu sử dụng dữ liệu lớn để ngăn chặn

Sinh viên thực hiện:

Sin Việt Hưng

Phạm Công Minh

Nguyễn Xuân Hải

Giảng viên hướng dẫn:

Ths.Lương Hoàng Anh

3. Thách thức trong bảo vệ thông tin

– Rò rỉ dữ liệu: Rò rỉ dữ liệu xảy ra khi thông tin quan trọng bị tiết lộ

4. Phương pháp bảo vệ thông tin sử dụng Dữ liệu lớn

5. Data Leak Prevention là gì?

Các lớp trong kiến trúc đa lớp thường bao gồm:

I. INTRODUCTION I. GIỚI THIỆU

1. More data on everything 1. Thêm dữ liệu về mọi thứ

II. PHƯƠNG PHÁP BẢO VỆ DỮ LIỆU NHẠY CẢM

Hình 1. Quan điểm siêu mô hình “bảo mật thông tin”

Hình 3. Quan điểm siêu mô hình “xử lý thông tin”.

Figure 3. Meta-model of “information processing” viewpoint.

Figure 4. Multi-Layered Conceptual Model of ISS.

Hình 5. Sơ đồ trạng thái UML

Hình 6. Sơ đồ triển khai UML.

III. GIẢI PHÁP NGĂN NGỪA RÒ RỈ DỮ LIỆU

IV. KẾT LUẬN

Hình 8. Kết quả tổng quát từ việc triển khai DLP.

Figure 8. Generalized results from DLP implementation.

You might also like