Professional Documents
Culture Documents
Big Data là thuật ngữ được sử dụng để miêu tả lượng lớn dữ liệu phức
tạp, đa dạng và nhanh chóng tăng trưởng mà không thể được xử lý bằng các
công cụ và phương pháp truyền thống. Big Data có ba yếu tố chính: khối
lượng lớn, tốc độ nhanh và đa dạng.
- Khối lượng lớn: Big Data được tạo ra từ nhiều nguồn khác nhau như cơ
sở dữ liệu, mạng xã hội, máy móc và cảm biến. Dữ liệu này có thể có kích
thước từ terabyte đến petabyte hoặc thậm chí exabyte.
- Tốc độ nhanh: Big Data được tạo ra và truyền tải với tốc độ nhanh. Ví dụ,
một trang web có thể tạo ra hàng triệu dữ liệu mới trong một giây. Để xử
lý dữ liệu này, cần có các công nghệ và công cụ phù hợp để đảm bảo tính
thời gian thực.
- Đa dạng: Big Data không chỉ bao gồm dữ liệu cấu trúc như trong cơ sở dữ
liệu truyền thống, mà còn bao gồm dữ liệu phi cấu trúc như văn bản, hình
ảnh, âm thanh và video. Đa dạng này đòi hỏi các công nghệ và phương
pháp phân tích dữ liệu phức tạp để tìm ra thông tin hữu ích.
Big Data có thể được sử dụng để phân tích xu hướng, dự đoán, tối ưu hóa
quy trình, tăng cường quyết định và nhiều ứng dụng khác. Tuy nhiên, việc xử
lý và phân tích Big Data đòi hỏi các công nghệ và kỹ thuật mới như Hadoop,
Spark, máy học và trí tuệ nhân tạo.
Big Data cũng đặt ra nhiều thách thức như bảo mật, quyền riêng tư và đạo
đức. Việc sử dụng Big Data cần tuân thủ các quy định và quyền riêng tư để
đảm bảo sự an toàn và đáng tin cậy của dữ liệu.
2. Sự quan trọng của Dữ liệu lớn
Dữ liệu lớn đóng vai trò quan trọng trong nhiều lĩnh vực và có ảnh hưởng lớn
đến cuộc sống hàng ngày của chúng ta. Dưới đây là một số điểm quan trọng về
sự quan trọng của dữ liệu lớn:
– Giúp đưa ra quyết định thông minh: Dữ liệu lớn cung cấp thông tin và
thông số cần thiết để đưa ra quyết định thông minh và dự đoán xu
hướng tương lai. Các công ty và tổ chức có thể sử dụng dữ liệu lớn để
tối ưu hóa quy trình, tăng cường hiệu suất và nâng cao chất lượng dịch
vụ.
– Phát hiện xu hướng và mô hình: Dữ liệu lớn cho phép chúng ta phát
hiện ra những xu hướng và mô hình tiềm năng mà chúng ta có thể sử
dụng để cải thiện công việc và cuộc sống. Ví dụ, trong lĩnh vực y tế,
dữ liệu lớn có thể giúp phát hiện ra những mô hình bệnh lý và phòng
ngừa bệnh tật.
– Tạo ra giá trị kinh tế: Dữ liệu lớn là một nguồn tài nguyên quý giá và
có thể tạo ra giá trị kinh tế lớn. Các công ty có thể sử dụng dữ liệu lớn
để tìm hiểu về thị trường, khách hàng và đối thủ cạnh tranh, từ đó tạo
ra các chiến lược kinh doanh hiệu quả.
– Cải thiện dịch vụ khách hàng: Dữ liệu lớn giúp các doanh nghiệp hiểu
rõ hơn về khách hàng của mình, từ đó cải thiện dịch vụ và tương tác
với khách hàng. Các công ty có thể sử dụng dữ liệu lớn để tùy chỉnh
sản phẩm và dịch vụ, tạo ra trải nghiệm tốt hơn cho khách hàng và
tăng cường sự hài lòng của họ.
– Nghiên cứu khoa học và phát triển công nghệ: Dữ liệu lớn đóng vai trò
quan trọng trong việc nghiên cứu khoa học và phát triển công nghệ
mới. Các nhà nghiên cứu và nhà phát triển có thể sử dụng dữ liệu lớn
để tìm hiểu về vấn đề phức tạp, phát hiện ra các mô hình và tạo ra
những giải pháp sáng tạo.
Tóm lại, dữ liệu lớn đóng vai trò quan trọng trong nhiều lĩnh vực và có
thể mang lại nhiều lợi ích và cơ hội mới. Việc hiểu và sử dụng hiệu quả dữ
liệu lớn sẽ giúp chúng ta tận dụng tối đa tiềm năng của nó và đạt được sự
phát triển bền vững.
Bảo vệ thông tin là một thách thức quan trọng trong thời đại số hiện nay.
Dưới đây là một số thách thức chính trong việc bảo vệ thông tin:
– Tấn công mạng: Hacker và kẻ xâm nhập có thể tấn công vào hệ thống
mạng và truy cập trái phép vào thông tin quan trọng. Các hình thức tấn
công mạng bao gồm vi rút, phần mềm độc hại, tấn công từ chối dịch
vụ (DDoS) và phishing.
– Quản lý truy cập: Quản lý truy cập là một thách thức quan trọng trong
việc đảm bảo rằng chỉ những người được ủy quyền mới có thể truy cập
vào thông tin quan trọng. Việc quản lý truy cập không hiệu quả có thể
dẫn đến việc người không được ủy quyền truy cập vào thông tin nhạy
cảm.
– Pháp lý và tuân thủ quy định: Việc tuân thủ các quy định và quy tắc
pháp lý liên quan đến bảo vệ thông tin là một thách thức. Các tổ chức
phải đảm bảo rằng họ tuân thủ các quy định về bảo vệ thông tin, bảo
vệ quyền riêng tư của khách hàng và xử lý thông tin theo cách an toàn
và đúng quy định.
– Xử lý dữ liệu lớn: Với sự phát triển của dữ liệu lớn, việc bảo vệ thông
tin trở nên phức tạp hơn. Xử lý và bảo mật dữ liệu lớn đòi hỏi các công
nghệ và quy trình phức tạp để đảm bảo tính toàn vẹn, sẵn sàng và bảo
mật của dữ liệu.
Để vượt qua thách thức trong bảo vệ thông tin, ta cần thực hiện các biện
pháp sau:
– Xác định và đánh giá rủi ro: Phân tích và đánh giá các nguy cơ bảo mật
thông tin để nhận biết các điểm yếu và lỗ hổng trong hệ thống.
– Xây dựng chính sách và quy trình bảo mật: Thiết lập các quy định và quy
trình bảo mật để đảm bảo tuân thủ và thực hiện các biện pháp bảo vệ.
– Sử dụng công nghệ bảo mật: Áp dụng các công nghệ bảo mật như mã hóa
dữ liệu, xác thực hai yếu tố, tường lửa và phần mềm chống malware để
bảo vệ thông tin.
– Đào tạo nhân viên: Cung cấp đào tạo và nâng cao nhận thức về bảo mật
thông tin cho nhân viên để họ có kiến thức và kỹ năng cần thiết để đối
phó với các mối đe dọa.
– Kiểm tra và đánh giá định kỳ: Thực hiện kiểm tra và đánh giá định kỳ để
xác định sự tuân thủ và hiệu quả của các biện pháp bảo vệ thông tin.
– Giám sát và phản ứng nhanh: Theo dõi và giám sát liên tục để phát hiện
và phản ứng nhanh chóng đối với các sự cố bảo mật thông tin.
– Tăng cường ý thức về bảo mật thông tin: Nâng cao ý thức và giáo dục
người dùng về tầm quan trọng của bảo mật thông tin và cách thức bảo vệ
thông tin cá nhân và tổ chức.
Có một số phương pháp và công nghệ được sử dụng để bảo vệ thông tin
khi làm việc với dữ liệu lớn. Dưới đây là một số phương pháp phổ biến:
– Mã hóa dữ liệu: Mã hóa là quá trình chuyển đổi thông tin thành một
định dạng không đọc được cho bên thứ ba. Mã hóa dữ liệu lớn giúp
đảm bảo rằng dữ liệu chỉ có thể được đọc và hiểu bởi những người có
chìa khóa mã hóa thích hợp.
– Quản lý quyền truy cập: Xác định và quản lý quyền truy cập vào dữ
liệu lớn là một yếu tố quan trọng của bảo mật thông tin. Chỉ cho phép
những người được ủy quyền truy cập vào dữ liệu và thiết lập các cơ
chế kiểm soát truy cập để đảm bảo tính bảo mật.
– Giám sát và phân tích hành vi: Sử dụng công cụ giám sát và phân tích
hành vi để phát hiện các hoạt động đáng ngờ hoặc không thường
xuyên. Điều này giúp phát hiện và ngăn chặn các hành vi xâm nhập
hoặc lạm dụng dữ liệu lớn.
– Bảo vệ dữ liệu trong truyền: Sử dụng các giao thức bảo mật như
SSL/TLS để bảo vệ dữ liệu khi truyền qua mạng. Điều này đảm bảo
rằng dữ liệu không bị đánh cắp hoặc thay đổi trong quá trình truyền.
– Xác thực và phân quyền: Sử dụng các cơ chế xác thực và phân quyền
để kiểm soát quyền truy cập của người dùng vào dữ liệu lớn. Điều này
đảm bảo rằng chỉ những người được ủy quyền mới có thể truy cập vào
dữ liệu.
– Sao lưu và phục hồi dữ liệu: Thực hiện việc sao lưu dữ liệu định kỳ và
thiết lập kế hoạch phục hồi dữ liệu để đảm bảo rằng dữ liệu lớn có thể
được khôi phục sau khi xảy ra sự cố.
– Tuân thủ quy định pháp luật: Đảm bảo tuân thủ các quy định pháp luật
về bảo vệ thông tin và quyền riêng tư, chẳng hạn như GDPR, CCPA và
các quy định về bảo vệ dữ liệu cá nhân.
– Kiểm soát truy cập từ xa: Áp dụng các biện pháp kiểm soát truy cập từ
xa như VPN và các cơ chế xác thực để đảm bảo rằng chỉ những người
được ủy quyền mới có thể truy cập vào dữ liệu từ xa.
– Tạo ra các báo cáo và ghi nhật ký: Thực hiện việc tạo ra các báo cáo
và ghi nhật ký về các hoạt động truy cập và sử dụng dữ liệu lớn. Điều
này giúp theo dõi và phân tích các hoạt động và phát hiện các hành vi
bất thường.
– Đảm bảo tính liên tục: Xây dựng các kế hoạch và biện pháp để đảm
bảo tính liên tục của dịch vụ và bảo vệ thông tin trong trường hợp xảy
ra sự cố hoặc tấn công.
Phòng chống rò rỉ dữ liệu (Data Leak Prevention - DLP) là một tập hợp
công nghệ và thực tiễn được thiết kế để ngăn chặn việc tiết lộ hoặc rò rỉ dữ
liệu nhạy cảm một cách trái phép. Các giải pháp DLP giúp tổ chức xác định,
giám sát và bảo vệ dữ liệu nhạy cảm trong suốt quá trình hoạt động của nó, cả
bên trong tổ chức và khi được chia sẻ với bên thứ ba.
Các giải pháp DLP thường bao gồm các thành phần sau:
– Phát hiện dữ liệu: Các giải pháp DLP quét và phân tích các kho dữ liệu,
mạng và thiết bị cuối để xác định dữ liệu nhạy cảm. Điều này bao gồm
thông tin cá nhân (PII), dữ liệu tài chính, sở hữu trí tuệ, bí mật thương mại
và các loại thông tin nhạy cảm khác.
– Phân loại dữ liệu: Các giải pháp DLP phân loại dữ liệu dựa trên các chính
sách và quy tắc đã được định nghĩa trước. Điều này giúp tổ chức xác định
mức độ nhạy cảm của dữ liệu và áp dụng các biện pháp bảo mật phù hợp.
Phân loại có thể dựa trên nội dung, ngữ cảnh và siêu dữ liệu.
– Giám sát dữ liệu: Các giải pháp DLP giám sát dữ liệu theo thời gian thực
để phát hiện và ngăn chặn việc truy cập, sử dụng hoặc truyền dữ liệu nhạy
cảm một cách trái phép. Điều này bao gồm giám sát lưu lượng mạng, giao
tiếp qua email, truyền tải tập tin và hoạt động của người dùng. Các giải
pháp DLP cũng có thể phát hiện và ngăn chặn các nỗ lực rò rỉ dữ liệu qua
các kênh khác nhau, chẳng hạn như ổ đĩa USB, lưu trữ đám mây và ứng
dụng web.
– Thi hành chính sách: Các giải pháp DLP thi hành các chính sách và quy
tắc bảo mật để ngăn chặn rò rỉ dữ liệu. Điều này bao gồm áp dụng các
biện pháp bảo mật để ngăn chặn việc vi phạm chính sách và xử lý các
trường hợp vi phạm.
– Xử lý sự cố và quản lý quy trình: Các giải pháp DLP tạo ra và quản lý các
sự cố thông qua quá trình vận hành, bao gồm xác nhận sự cố, báo cáo,
thông báo và báo cáo.
– Mã hóa dữ liệu: Bảo vệ dữ liệu nhạy cảm bằng cách làm cho nó không thể
đọc được đối với người dùng không được ủy quyền.
– Giám sát hoạt động người dùng: Theo dõi các hành động mà người dùng
thực hiện với dữ liệu nhạy cảm.
6. Kiến trúc đa lớp (Multi-Layered Architecture)
Kiến trúc đa lớp (Multi-Layered Architecture) là một kiến trúc phần mềm
được sử dụng để phân chia ứng dụng thành các lớp riêng biệt, mỗi lớp có
trách nhiệm cụ thể và giao tiếp với các lớp khác thông qua các giao diện.
Kiến trúc đa lớp thường được sử dụng để tạo ra các ứng dụng phức tạp và
dễ bảo trì. Nó giúp tách biệt logic kinh doanh, giao diện người dùng và lưu trữ
dữ liệu thành các lớp riêng biệt, giúp dễ dàng mở rộng và thay đổi các phần
của hệ thống mà không ảnh hưởng đến các phần khác.
– Lớp giao diện người dùng (Presentation Layer): Đây là lớp tương tác trực
tiếp với người dùng. Nó chịu trách nhiệm hiển thị thông tin và thu thập dữ
liệu từ người dùng thông qua các giao diện người dùng như giao diện đồ
họa, trang web, ứng dụng di động, vv. Lớp này không xử lý logic kinh
doanh mà chỉ chuyển tiếp yêu cầu và dữ liệu đến các lớp phía sau.
– Lớp logic kinh doanh (Business Logic Layer): Đây là lớp chứa logic kinh
doanh của ứng dụng. Nó xử lý các yêu cầu từ lớp giao diện người dùng,
thực hiện các tính toán, kiểm tra điều kiện, và tương tác với lớp lưu trữ dữ
liệu để truy xuất và cập nhật dữ liệu.
– Lớp lưu trữ dữ liệu (Data Access Layer): Đây là lớp chịu trách nhiệm truy
xuất và lưu trữ dữ liệu. Nó cung cấp các phương thức để kết nối và tương
tác với cơ sở dữ liệu, thực hiện các truy vấn và cập nhật dữ liệu. Lớp này
giúp che giấu chi tiết về cơ sở dữ liệu và cung cấp một giao diện đồng
nhất cho các lớp khác.
– Lớp hạ tầng (Infrastructure Layer): Đây là lớp cung cấp các dịch vụ hạ
tầng cần thiết cho ứng dụng, chẳng hạn như quản lý phiên, bảo mật, ghi
nhật ký, vv. Nó giúp tách biệt các yếu tố không liên quan đến logic kinh
doanh khỏi các lớp khác và cung cấp các dịch vụ chung cho toàn bộ hệ
thống.
Kiến trúc đa lớp giúp tăng tính linh hoạt, khả năng mở rộng và dễ bảo trì
của ứng dụng. Nó tách biệt các phần của hệ thống thành các lớp độc lập, giúp
giảm sự phụ thuộc và tăng khả năng tái sử dụng mã nguồn.
7. Sử dụng kiến trúc đa lớp để đảm bảo bảo mật thông tin
Sử dụng kiến trúc đa lớp có thể giúp đảm bảo bảo mật thông tin trong ứng
dụng. Dưới đây là một số cách mà kiến trúc đa lớp có thể hỗ trợ bảo mật
thông tin:
– Tách biệt trách nhiệm: Kiến trúc đa lớp cho phép tách biệt các lớp và
chức năng khác nhau trong ứng dụng. Điều này có nghĩa là bạn có thể xác
định rõ ràng các lớp có truy cập vào thông tin nhạy cảm và áp dụng các
biện pháp bảo mật phù hợp cho các lớp đó.
– Lớp giao diện người dùng: Lớp này chịu trách nhiệm xử lý và hiển thị
thông tin cho người dùng. Khi thiết kế lớp này, bạn có thể áp dụng các
biện pháp bảo mật như xác thực người dùng, kiểm tra đầu vào, mã hóa dữ
liệu và xử lý lỗi một cách an toàn.
– Lớp logic kinh doanh: Lớp này chứa logic kinh doanh và xử lý các yêu
cầu từ lớp giao diện người dùng. Bạn có thể áp dụng các biện pháp bảo
mật như kiểm tra quyền truy cập, xác thực dữ liệu và xử lý lỗi một cách
an toàn trong lớp này.
– Lớp lưu trữ dữ liệu: Lớp này chịu trách nhiệm truy cập và lưu trữ dữ liệu.
Bạn có thể áp dụng các biện pháp bảo mật như mã hóa dữ liệu, kiểm tra
quyền truy cập và xử lý lỗi một cách an toàn trong lớp này. Ngoài ra, việc
sử dụng các giao thức bảo mật như SSL/TLS khi truyền dữ liệu giữa ứng
dụng và cơ sở dữ liệu cũng là một biện pháp bảo mật quan trọng.
– Lớp hạ tầng: Lớp này chịu trách nhiệm cung cấp các dịch vụ hạ tầng như
quản lý phiên, bảo mật và ghi nhật ký. Bạn có thể áp dụng các biện pháp
bảo mật như xác thực và ủy quyền, kiểm soát truy cập và giám sát hoạt
động hệ thống trong lớp này.
Sử dụng kiến trúc đa lớp không đảm bảo bảo mật thông tin một cách tự
động, nhưng nó cung cấp một cơ sở để triển khai các biện pháp bảo mật phù
hợp trong các lớp khác nhau của ứng dụng. Điều này giúp tăng cường bảo
mật và giảm rủi ro xâm nhập và lộ thông tin nhạy cảm.
Phần 2: NỘI DUNG BÁO CÁO
Using Big Data for Data Leak Prevention Sử dụng dữ liệu lớn để ngăn chặn rò rỉ dữ liệu
Ivan Gaidarski, Pavlin Kutinchev Ivan Gaidarski, Pavlin Kutinchev
Institute of Information and Communication Technologies Bulgarian Academy of Sciences Viện Công nghệ Thông tin và Truyền thông Viện hàn lâm Bulgaria
Sofia, Bulgaria i.gaidarski@isdip.bas.bg Sofia, Bulgaria i.gaidarski@isdip.bas.bg
kutinchev@isdip.bas.bg kutinchev@isdip.bas.bg
Abstract— The paper present our approach for protecting sensitive data, using the methods of Big Tóm tắt— Bài báo trình bày cách tiếp cận của chúng tôi trong việc bảo vệ dữ liệu nhạy cảm, sử dụng các
Data. To effectively protect the valuable information within the organization, the following steps phương pháp của Big Data. Để có hiệu quả bảo vệ những thông tin có giá trị trong tổ chức, cần thực hiện
are needed: Employing a holistic approach for data classification, identifying sensitive data of the các bước sau: Sử dụng cách tiếp cận toàn diện để phân loại dữ liệu, xác định dữ liệu nhạy cảm của tổ
organization, Identifying critical exit points – communication channels, applications and connected chức, Xác định các điểm thoát quan trọng – các kênh truyền thông, các ứng dụng và thiết bị được kết nối
devices and protecting the sensitive data by controlling the critical exit points. Our approach is cũng như bảo vệ những thông tin nhạy cảm dữ liệu bằng cách kiểm soát các điểm thoát quan trọng. Cách
based on creating of component-based architecture framework for ISS, conceptual models for data tiếp cận của chúng tôi là dựa trên việc tạo khung kiến trúc dựa trên thành phần cho ISS, các mô hình
protection and implementation with COTS IT security products as Data Leak Prevention (DLP) khái niệm để bảo vệ dữ liệu và triển khai với các sản phẩm bảo mật CNTT COTS như Rò rỉ dữ liệu Giải
solutions. Our approach is data centric, which is holistic by its nature to protect the meaningful data pháp phòng ngừa (DLP). Cách tiếp cận của chúng tôi là tập trung vào dữ liệu, về bản chất là toàn diện để
of the organization. bảo vệ dữ liệu có ý nghĩa của tổ chức.
Keywords— Big Data, Protection, Sensitive, Personal Information, Holistic Approach, Data Leak Từ khóa— Dữ liệu lớn, Bảo vệ, Nhạy cảm, Cá nhân Thông tin, Phương pháp tiếp cận toàn diện, Ngăn
Prevention, DLP chặn rò rỉ dữ liệu, DLP.
What Is Big Data? Big Data is a way to describe a data question, a degree of difficulty, Dữ liệu lớn là gì? Dữ liệu lớn là một cách để mô tả dữ liệu câu hỏi, mức độ khó, công cụ
data management tools, data science problems, and the data sets themselves [1]. quản lý dữ liệu, dữ liệu các vấn đề khoa học và dữ liệu tự thiết lập [1].
Gartner’s definition is “Big data is data that contains greater variety arriving in increasing Định nghĩa của Gartner là “Dữ liệu lớn là dữ liệu chứa sự đa dạng hơn với số lượng ngày
volumes and with ever- higher velocity. This is known as the “3V’s.” [1, 8]. The “3V’s” is càng tăng và với tốc độ cao hơn bao giờ hết. Điều này được gọi là “3V”. [1, 8]. Các “3V’s”
defined by Doug Laney [7] in 2001 to describe the data management in 3-dimension. The được Doug Laney [7] định nghĩa vào năm 2001 để mô tả quản lý dữ liệu trong không gian 3
3V’s where Volume, Velocity and Variety. Nowadays, more V’s are added to the Big Data, chiều. 3V là nơi Âm lượng, Tốc độ và sự đa dạng. Ngày nay, nhiều chữ V được thêm vào
as Value, Variability, Virtual or other. Dữ liệu lớn, dưới dạng Giá trị, Tính biến đổi, Ảo hoặc loại khác.
McKinsey and Company describing “Big Data” as: “Datasets whose size is beyond the McKinsey và Company mô tả “Dữ liệu lớn” là: “Các tập dữ liệu có kích thước vượt quá khả
ability of typical database software tools to capture, store, manage, and analyse. The năng của cơ sở dữ liệu thông thường công cụ phần mềm để nắm bắt, lưu trữ, quản lý và phân
definition can vary by sector, depending on what kinds of software tools are commonly tích. Các định nghĩa có thể khác nhau tùy theo lĩnh vực, tùy thuộc vào loại các công cụ phần
available and what size of datasets are common in a particular industry.” So, in essence, mềm thường có sẵn và kích thước của các bộ dữ liệu là phổ biến trong một ngành cụ thể.” Vì
when an organization’s data gets so voluminous that it starts to cause problems, then it vậy, về bản chất, khi dữ liệu của một tổ chức trở nên quá lớn đến mức nó bắt đầu gây ra vấn
becomes “Big Data.” [5, 6] đề thì nó sẽ trở thành “Dữ liệu lớn”. [5, 6]
Now we can gather, store and analyse data in ways that was impossible few years ago. Bây giờ chúng ta có thể thu thập, lưu trữ và phân tích dữ liệu theo những cách là điều
There are two important points không thể cách đây vài năm. Có hai điểm quan trọng
– more data on everything and improved abilities to store and analyse data [4]: – nhiều dữ liệu hơn về mọi thứ và cải thiện khả năng lưu trữ và
phân tích dữ liệu [4]:
Mỗi khái niệm này đều có vai trò vàđặc trưng. Ví dụ: Bảo vệ điểm cuối (Hình 2) cung cấp
khả năng bảo vệ cho các điểm cuối, Dữ liệu Bảo vệ đại diện cho tất cả dữ liệu trong hệ thống:
được bảo vệ dữ liệu, Dữ liệu ở trạng thái nghỉ và Dữ liệu đang sử dụng ở các điểm cuối,
Figure 1. Meta-model of “information security” viewpoint
Chuyển động dữ liệu trong truyền thông, dữ liệu được thu thập như một phần của mô-đun
Each of these concepts have specific role and characteristics. For example, Endpoint giám sát và phân tích, chính sách bảo mật dữ liệu và tất cả dữ liệu từ quản lý hệ thống [12].
Protection (Figure 2) delivers protection capabilities for the endpoints, Data Protection Siêu mô hình thứ hai (Hình 3) thể hiện quan điểm “Xử lý thông tin”, tập trung vào các
represents all data in the system: the protected data, Data-at-Rest and Data-in-Use in the trạng thái khác nhau của dữ liệu và quá trình xử lý chúng. Nó bao gồm tất cả dữ liệu có thể có
endpoints, Data-in- Motion in the communications, data gathered as part of monitoring and trong hệ thống - dữ liệu đã được xử lý (vận hành), dữ liệu cấu hình và giám sát. Nói chung, dữ
analysis modules, the data security policy and all data from the system management [12]. liệu có thể ở một trong các trạng thái sau: Dữ liệu ở trạng thái nghỉ, Dữ liệu đang sử dụng
hoặc Dữ liệu chuyển động [13, 14].
The second meta-model (Figure 3) represents the view- point “Information processing”, Hình 2: Khái niệm bảo vệ điểm cuối
which focuses on the different states of the data and their processing. It covers all possible
data in the system - the processed (operational) data, the configuration and monitoring data.
In general, the data can be in one of the following states: Data-at-Rest, Data-in-Use or Data-
in-Motion [13, 14].
Figure 2. Endpoint protection concept.
Tất cả các siêu mô hình của ISS có thể được kết hợp trong mô hình khái niệm Nhiều lớp
(Hình 4).
Để đạt được các mục tiêu về bảo mật thông tin, mỗi thành phần (khái niệm) được hiện thực
hóa thông qua công cụ – Kỹ thuật bảo mật thông tin (IST), trong đó bao gồm các công cụ và
quy trình bảo mật nhằm giải quyết và giảm các mối đe dọa đối với hệ thống và giúp các thành
phần ISS để thực hiện các chức năng cơ bản của mình.
All of the meta-models of ISS can be combined in a Multi- Layered conceptual model
(Figure 4).
To achieve the goals of information security, each component (concept) is realized Hình 4. Mô hình khái niệm nhiều lớp của ISS.
through appropriate instruments – Information Security Techniques (IST), which include
Bước tiếp theo là chuyển đổi mô hình khái niệm thành mô hình thiết kế hệ thống với sự trợ
security tools and procedures that addresses and reduces the threats to the system and helps
giúp của UML – lớp, hoạt động, sơ đồ trạng thái và triển khai (Hình 5, 6). Kết quả là ISS
ISS components to perform their basic functions.
trong thế giới thực, trong đó các giải pháp bảo vệ khác nhau và các công cụ như Tường lửa,
thiết bị Hệ thống phát hiện xâm nhập (IDS), Hệ thống ngăn chặn xâm nhập (IPS), Ngăn ngừa
mất dữ liệu (DLP), các công cụ pháp y và các công cụ khác được triển khai và được thực hiện
nhằm đáp ứng mọi yêu cầu của các bên liên quan và quản lý của tổ chức [10, 11].
The next step is to transform the conceptual model to system design model with the help
of UML – class, activity, state and deployment diagrams (Figures 5, 6). The results is real-
world ISS, in which different protection solutions and tools as Firewalls, Intrusion Detection
System devices (IDS), Intrusion Prevention System (IPS), Data Loss Prevention (DLP),
Forensic tools and others are deployed and implemented to meet the requirements of all of the
stakeholders and management of the organizations [10, 11].
Các giải pháp DLP được thiết kế để ngăn chặn rò rỉ dữ liệu hướng từ trong ra ngoài, có chủ
ý hoặc vô ý do lỗi của con người. Hệ thống DLP được có thể kiểm soát tất cả các kênh truyền
thông (USB, Wi-Fi, LAN, Bluetooth, cổng máy in, v.v.), tất cả các thiết bị được kết nối và tất
cả các ứng dụng ở điểm cuối – máy trạm và máy tính xách tay. DLP có khả năng dừng rò rỉ dữ
liệu bằng cách thực thi các hành động bảo vệ, dựa trên chính sách bảo vệ dữ liệu và kết hợp
bối cảnh và nội dung các phương pháp phân tích. Để bảo vệ dữ liệu bằng mọi cách có thể
tuyên bố, giải pháp DLP có thể kiểm soát tất cả thông tin liên lạc toàn cầu và các kênh dữ liệu
Figure 6. UML Deployment Diagram. của tổ chức, nhận biết và kiểm soát ba loại dữ liệu: Data-In-Use, Data-In-Motion và Dữ liệu ở
trạng thái nghỉ – Hình 7 [18]. Hệ thống DLP thu thập và xử lý lượng lớn dữ liệu khác nhau từ
III. DATA LEAK PREVENTION SOLUTIONS các kênh dữ liệu – cổng, dữ liệu mạng, dữ liệu được chia sẻ, sao chép, nhận và gửi dữ liệu,
The traditional security solutions are not enough when it comes to protection of sensitive v.v. Tất cả dữ liệu có thể được quét và so sánh với các từ khóa được xác định trước và biểu
information. A new kind of tools is needed, which are capable on protecting the data from thức RegEx, để xác định thông tin nhạy cảm, Thông tin nhận dạng cá nhân (PII) hoặc các loại
inside-outside direction and to deal with big amounts of data [15]. Such solutions, which thông tin khác có thể được kiểm soát, bị chặn, đăng nhập và vv
leverages data-centric approach, are the Data Leak Prevention (DLP) systems [16, 17].
The DLP solutions are designed to prevent data leakages from inside to the outside
direction, being intentional or unintentional as a result of a human errors. DLP systems are
able to control all of the communication channels (USB, Wi-Fi, LAN, Bluetooth, printer
ports and etc.), all of the connected devices and all of the applications on the end- points –
workstations and laptops. DLP are capable to stop data leakages by enforcing protective
actions, based on the data protection policy, and combining contextual and content analysis
methods. In order to protect the data in all possible states, DLP solutions can control all
global communications and data channels of the organization, recognizing and controlling the
three data types: Data-In-Use, Data-In-Motion and Data-at-Rest – Figure 7 [18]. DLP
systems collecting and processing vast amount of various data from the data channels
– ports, network data, shared data, copied, received and sent data and etc. All of the data can
be scanned and compared with predefined key words and RegEx expressions, to identify
sensitive information, Personal Identifiable Information (PII) or other kinds of information,
which can be controlled, blocked, logged and etc.
Hình 7. Giải pháp ngăn chặn rò rỉ dữ liệu (DLP).
I. CONCLUSIONS
The proposed method for protecting sensitive information in the organization, using Big
Data principles is effective and versatile.
In our previous study [21], an installation of a DLP-class system by DeviceLock Inc –
DeviceLock DLP Suite v8.2 [18] was performed for monitoring the dataflows at the
endpoints (workstations and laptops) of 18 organizations, including the national security
sector.
Some generalized results from the validation process are provided in Figure 8:
• Reducing the sensitive information leak incidents;
• Limiting data leak channels;
• Increasing the visibility of sensitive information, by the discovery function of the
DLP (Data-in-Rest);
• Improving compliance with the internal security policies, legal regulations and
privacy directives;
Phương pháp đề xuất cho phép đảm bảo an toàn thông tin trong các doanh nghiệp được đặt
trên cơ sở ổn định – thông qua thống các khái niệm, mô hình và quan điểm, chúng ta thực hiện
nó có thể xác định các yêu cầu và thực hiện chúng với các hệ thống thực với sự trợ giúp của
các mẫu, dành riêng cho các ngành và tổ chức khác nhau, đồng thời duy trì khả năng tương tác
và đảm bảo tính lặp lại.
SỰ NHÌN NHẬN
Nghiên cứu được hỗ trợ bởi Dự án KoMEIN (Mô hình hóa khái niệm và mô phỏng Internet
of Things Hệ sinh thái) được tài trợ bởi Khoa học Quốc gia Bulgaria Quỹ, Cuộc thi hỗ trợ tài
chính của nghiên cứu cơ bản (2016) với các chuyên đề ưu tiên: Khoa học toán học và tin học,
hợp đồng № DN02/1/13.12.2016. Ngoài ra còn có lời cảm ơn sâu sắc dành cho Chương trình
khoa học quốc gia “Thông tin và Công nghệ truyền thông cho một thị trường kỹ thuật số duy
nhất ở Khoa học, Giáo dục và An ninh (ICTinSES) 2018-2020”, được tài trợ bởi Bộ Giáo dục
và Khoa học.
The proposed approach enables the information security in the enterprises to be placed on
a stable basis – through system of concepts, models and viewpoints, we make it possible to
define the requirements and to implement them with real systems with the help of templates,
specific for different industries and organizations, while maintaining interoperability and
ensuring repeatability.
ACKNOWLEDGEMENTS
The research is supported by the KoMEIN Project (Conceptual Modeling and Simulation
of Internet of Things Ecosystems) funded by the Bulgarian National Science Foundation,
Competition for financial support of fundamental research (2016) under the thematic priority:
Mathematical Sciences and Informatics, contract № DN02/1/13.12.2016. Additional gratitude
is also given to the National Scientific Program “Information and Communication
Technologies for a Single Digital Market in Science, Education and Security (ICTinSES)
2018-2020”, financed by the Ministry of Education and Science.
REFERENCES – TÀI LIỆU THAM KHẢO Paradigm, 2016 IEEE 18th International Conference on High
[1] https://www.oracle.com/big-data/guide/what-is-big-data.html Performance Computing and Communications, ” December 2016
[2] https://www.ibm.com/analytics/hadoop/big-data-analytics [9] I. Gaydarski, P. Kutinchev, R. Andreev, “Holistic Approach to Data
[3] B. Baesens, “Analytics in a big data world : the essential guide to data protection - identifying the weak points in the organization”, The
science and its applications “, John Wiley & Sons, Inc., Hoboken, New Jersey, International Conference “Big Data, Knowledge and Control Systems
2014 Engineering” (BdKCSE’2017), 6.12.2017, Sofia, Bulgaria
[4] B. Marr, “Big Data in practice”, John Wiley and Sons Ltd, The Atrium, [10] I. Gaydarski, Z. Minchev, R. Andreev, “Model Driven Architectural
Southern Gate, Chichester, West Sussex, PO19 8SQ, United Kingdom, 2016 Design of Information Security System”, 14th International Conference
[5] C. L. Stimmel, “Big Data Analytics Strategies for the Smart Grid”, on Information Assurance and Security (IAS 2018), 13-15.12.2018,
CRC Press is an imprint of Taylor & Francis Group, 2015 Porto, Portugal, Advances in Intelligence Systems and Computing,
[6] J. Manyika, M. Chui, B. Brown, J. Bughin, “Big data: The next frontier Springer, 2019
for innovation, competition, and productivity”, McKinsey and Company, May [11] I.Gaidarski,“Challenges to Data Protection in Corporate Environment”,
2011 In the Book “Future Digital Society Resilience in the Informational Age”, Sofia,
[7] D. Laney, “3D Data Management: Controlling Data Volume, Velocity, Institute of ICT, Bulgarian Academy of Sciences, SoftTrade, December, 2018
and Variety”, Gartner, file No. 949. 6 February 2001, [12] Industrial Internet of Things Volume G4: Security Framework:
https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-DataManagement- http://www.iiconsortium.org/pdf/IIC_PUB_G4_V1.00_PB.pdf, May
Controlling-Data-Volume-Velocity-and-Variety.pdf 2017, pp. 46-61, last accessed 2019/04/08.
[8] R. Patgiri, A. Ahmed, “Big Data: The V’s of the Game Changer [13] M. Rhodes-Ousley, “Information Security the Complete Reference”,
2nd Edition, pp. 303, 234-238.The McGraw-Hill ,2013 Environment, Chapter 8”, In Z. Minchev, (Ed) Future Digital Society
[14] M. Whitman, H. Mattord. “Principles of Information Security, Fifth Resilience in the Informational Age, Institute of ICT, Bulgarian
Edition”. Course Technology, Cengage Learning, 2016 Academy of Sciences
[15] I. Gaydarski, Z. Minchev, “Virtual Enterprise Data ProtectionFramework [19] IBM, www.ibm.com/big-data/us/en, 2013.
Implementation with Practical Validation”, Proceedings of [20] www.gartner.com/technology/topics/big-data.jsp.
BISEC 2018, Belgrade Metropolitan University, 20.10.2018, Belgrade, Serbia, [21] I. Gaydarski, Z. Minchev, “Conceptual Modeling of Information
DOI:10.13140/RG.2.2.19996.33925 Security System and Its Validation through DLP systems”, Proceedings
[16] DeviceLock www.devicelock.com/products, last accessed 2019/10/05. of BISEC 2017, October 18, Belgrade Metropolitan University, 2017,
[17] CoSoSys Endpoint Protector www.endpointprotector.com, last accessed ISBN:978-86-89755-14-5, DOI: 10.13140/RG.2.2. 32836.53123, pp.
2019/10/05. 36-40
[18] I. Gaydarski, “Challenges to Data Protection in Corporate