You are on page 1of 21

NHÓM 38

TRÍ TUỆ NHÂN TẠO


Đề Tài : Ẩn các mẫu thường xuyên có nhiều ngưỡng
hỗ trợ nhạy cảm
Sinh viên thực hiện: Nguyễn Ngọc Thanh Mã SV:2180602169
Lớp:21DTHA1
Sinh viên thực hiện: Vũ Yên Định Mã SV:2180602169 Lớp:
21DHA1
01 GIỚI THIỆU

02 ĐỊNH NGHĨA VÀ
KHÁI NIỆM

03 THUẬT TOÁN

04 MỞ RỘNG VÀ KẾT
LUẬN
1 GIỚI THIỆU

" Ẩn các mẫu thường xuyên có nhiều ngưỡng hỗ trợ


nhạy cảm "
• là một bài toán trong lĩnh vực bảo mật dữ liệu và khai
thác dữ liệu.
• Bài toán này xoay quanh việc ẩn các mẫu thường
xuyên trong một cơ sở dữ liệu sao cho không làm lộ
ra các mẫu thường xuyên đó và đồng thời có khả
năng điều chỉnh các ngưỡng hỗ trợ nhạy cảm cho
từng mẫu riêng biệt.
1 GIỚI THIỆU

Phương pháp này không xem xét các đặc điểm của các tập
mục nhạy cảm khác nhau trong các ứng dụng khác nhau hoặc
yêu cầu cá nhân của các người dùng khác nhau.
Nó hoàn toàn phụ thuộc vào phân phối của cơ sở dữ liệu để
thực hiện cùng mức độ làm sạch với các mẫu nhạy cảm hiếm
và các mẫu nhạy cảm thường xuyên hơn.
1 GIỚI THIỆU

Sự quan trọng của việc ẩn thông tin nhạy cảm trong cơ sở dữ liệu có
thể được đánh giá qua các khía cạnh sau:
1. Bảo vệ tính riêng tư: là một biện pháp quan trọng để đảm bảo tính
riêng tư của cá nhân và tổ chức. Thông tin nhạy cảm như thông tin
cá nhân, dữ liệu y tế, thông tin tài chính, hoặc thông tin liên quan
đến quyền sở hữu trí tuệ cần phải được bảo vệ khỏi sự truy cập trái
phép.
2. Giảm nguy cơ rò rỉ thông tin: Mỗi khi thông tin nhạy cảm không
được bảo vệ cẩn thận, nguy cơ rò rỉ thông tin gia tăng. Việc rò rỉ
thông tin có thể gây ra những hậu quả nghiêm trọng như mất thông
tin quan trọng, thất thoát tài sản, hoặc tổn hại danh tiếng.
1 GIỚI THIỆU

Ví dụ, giả sử {1} là mẫu nhạy cảm và tập hợp của tất cả các mẫu thường
xuyên là {{1}, {1, 2}, {2, 3}}. Nếu chúng ta loại bỏ trực tiếp {1} và phát hành
{{1, 2}, {2, 3}}, kẻ thù có thể vẫn có khả năng suy luận rằng {1} là thường
xuyên. Điều này là do tính chất tuần hoàn của các mẫu thường xuyên, có
nghĩa là tất cả các tập con không rỗng của một mẫu thường xuyên phải là
thường xuyên.

• Tóm lại, việc ẩn thông tin nhạy cảm trong cơ sở dữ liệu không chỉ là
một nhiệm vụ quan trọng để bảo vệ tính riêng tư và thông tin quan
trọng mà còn là một phần quan trọng của việc duy trì sự tin cậy, tuân
thủ pháp luật, và bảo vệ tài sản của các tổ chức và cá nhân.
2 ĐỊNH NGHĨA VÀ
KÍ HIỆU

Chúng tôi giới thiệu những kiến thức sơ bộ về mẫu thường xuyên, cơ sở
dữ liệu giao dịch và các khái niệm liên quan về quyền riêng tư và nhiều
ngưỡng một cách ngắn gọn.
• Một giao dịch là một cặp của tập mục t ⊆ I với một định danh duy nhất Ti,
được gọi là định danh giao dịch hoặc TID.
• Cơ sở dữ liệu giao dịch D = {T1, . . . , TN} là một tập hợp các giao dịch,
và kích thước của nó là |D| = N.
• Tập hợp các mẫu thường xuyên có khả năng suy luận bất kỳ mẫu nào
trong SP, ký hiệu là Ps, được gọi là nhạy cảm.
2 ĐỊNH NGHĨA VÀ
KHÁI NIỆM

• Mẫu thường xuyên (Frequent Patterns): Là các mẫu dữ liệu hoặc tập hợp dữ liệu mà xuất hiện thường
xuyên trong cơ sở dữ liệu. Các mẫu này có thể là các quy luật, mô hình hoặc mẫu dữ liệu đặc biệt mà
người dùng muốn khai thác hoặc phân tích.
• Cơ Sở Dữ Liệu Giao Dịch (Transaction Database): Đây là một loại cơ sở dữ liệu được sử dụng trong
khai phá mẫu thường xuyên. Nó chứa thông tin về các giao dịch, trong đó mỗi giao dịch có thể bao gồm
một danh sách các mặt hàng hoặc sản phẩm mà khách hàng đã mua hoặc tương tác. Cơ sở dữ liệu
giao dịch thường được sử dụng để tìm kiếm và phân tích các mẫu thường xuyên, như mẫu mua sắm
thường xuyên trong các cửa hàng hoặc trang web thương mại điện tử.
• Tập Mục Nhạy Cảm (Sensitive Itemset): Tập mục nhạy cảm là một tập hợp các mục (items) trong cơ sở
dữ liệu giao dịch mà ta muốn ẩn đi hoặc bảo vệ khỏi việc tiết lộ thông tin. Các mục trong tập này
thường chứa thông tin nhạy cảm hoặc riêng tư và cần được che dấu khi thực hiện quá trình khai phá
dữ liệu.
2 ĐỊNH NGHĨA VÀ
KHÁI NIỆM

• Ngưỡng Nhạy Cảm (Sensitive Threshold): Ngưỡng nhạy cảm là một giá trị hoặc ngưỡng được áp
dụng cho mỗi tập mục nhạy cảm. Nếu một tập mục nhạy cảm có hỗ trợ (số lần xuất hiện) lớn hơn hoặc
bằng ngưỡng này, thì nó được xem là nhạy cảm và cần được ẩn đi. Ngưỡng này thường được xác
định dựa trên yêu cầu của ứng dụng hoặc sự quan tâm về quyền riêng tư.
• Giao Dịch Nhạy Cảm (Sensitive Transaction): Giao dịch nhạy cảm là một giao dịch (transaction) trong
cơ sở dữ liệu giao dịch mà chứa ít nhất một mục thuộc tập mục nhạy cảm. Những giao dịch này
thường chứa thông tin nhạy cảm và cần được che dấu để bảo vệ quyền riêng tư.
STT Kí Hiệu Mô Tả

1 I và X I là tập hợp của tất cả các mục , X là một tập


mục , , X ⊆ I
2 (Ti, t) Tập mục giao dịch t với TID Ti

3 sup(X) , minsup sup(X) là Độ hỗ trợ của X, minsup là


Ngưỡng hỗ trợ tối thiểu do người dùng xác
định trước

4 sp1, . . . , spi ∈ SP Tập hợp các mẫu cần ẩn

5 Ps Tập hợp các mẫu nhạy cảm có thể suy ra bất


kỳ mẫu nào trong SP
6 Ts(X) Tập hợp các giao dịch nhạy cảm của X
SP COUNT
7 st(X) Ngưỡng nhạy cảm của X
{3} 3
8 TPk Mã định danh duy nhất của mẫu
{2,3} 5
9 SPM Số lượng mẫu nhạy cảm được bao phủ trong
một mẫu {1,3,4} 6
10 MC Số lượng giao dịch tối thiểu cần được sửa đổi
Tệp tin đảo ngược
Khai Thác
Mẫu nhạy cảm Chỉ Số Giao Dịch CSDL Gốc

Lấy lại
Tính Cập Nhật
Toán

Bảng Mẫu Bảng Hành Động

CSDL Mới
Sửa đổi Và Đầu ra

BẢNG QUÁ TRÌNH


3 THUẬT TOÁN

Nó chủ yếu bao gồm ba thành phần: bảng mẫu mẫu nhạy cảm và bảng hành động. Trước hết, cơ sở dữ
liệu được quét để tìm tất cả các hỗ trợ và các giao dịch nhạy cảm của các tập mục nhạy cảm và sau đó
bảng mẫu nhạy cảm được xây dựng để lưu trữ số lần hỗ trợ cần giảm dựa trên ngưỡng nhạy cảm cho
mỗi tập mục nhạy cảm.
Thứ hai, chúng tôi tạo ra các mẫu tương ứng cho mỗi tập mục nhạy cảm chứa tất cả các lựa chọn có khả
năng của các mục nạn nhân để che giấu tập mục này. Tiếp theo, một mẫu mẫu được chọn từ bảng mẫu
mẫu dựa trên chiến lược che giấu tối ưu hóa tác động phụ cho cơ sở dữ liệu ban đầu. Sau đó, chúng tôi
tìm các giao dịch nhạy cảm tương ứng đủ để được sửa đổi để che giấu tất cả các mẫu nhạy cảm được
bao bởi mẫu này và sau đó đặt tất cả các cặp, (mục nạn nhân, T ID), vào bảng hành động
Sau đó, thông tin về tất cả các thành phần được cập nhật. Quá trình lựa chọn và cập nhật sẽ lặp lại cho
đến khi tất cả các tập mục nhạy cảm được che giấu. Cuối cùng, chúng tôi loại bỏ mỗi mục nạn nhân khỏi
cặp giao dịch của nó trong bảng hành động. Lưu ý rằng toàn bộ khung làm sạch chỉ cần quét cơ sở dữ
liệu hai lần.
Bài Toán Nghiên Cứu:
• Mục tiêu của bài toán này là ẩn thông tin nhạy cảm (sensitive information) khỏi cơ sở dữ liệu giao dịch
(transaction database) D sao cho không làm lộ ra các mẫu thường xuyên (frequent patterns) trong cơ
sở dữ liệu. Điều này đồng nghĩa với việc đảm bảo rằng dù chúng ta ẩn thông tin nhạy cảm nào đi, thì
tất cả các mẫu thường xuyên vẫn được bảo toàn nguyên vẹn trong dữ liệu.
• Mục tiêu chính là bảo vệ thông tin nhạy cảm mà không làm mất đi tính nguyên vẹn của các mẫu thường
xuyên, vốn có thể có giá trị trong việc phân tích dữ liệu, làm quyết định kinh doanh, hoặc nghiên cứu
dựa trên dữ liệu.
Vấn Đề Cần Làm:
• Bài báo nghiên cứu đề xuất một phương pháp giải quyết bài toán này bằng cách sử dụng các thuật
toán và chiến lược chọn lựa dựa trên yếu tố như SPC (sensitive patterns count) và MC (minimal count).
• Phương pháp này cũng sử dụng các phương pháp cắt tỉa để giảm không gian tìm kiếm và tối ưu hóa
quá trình ẩn thông tin nhạy cảm.
Cách Giải Quyết Vấn Đề:
Dựa trên bản chất của các chiến lược che giấu của chúng tôi - "tối thiểu hóa tác động phụ", chúng tôi chọn mẫu có
SPC lớn nhất trong mỗi vòng. Nếu tồn tại nhiều hơn một mẫu có cùng SPC, chúng tôi chọn mẫu có MC nhỏ nhất. Nếu
vẫn còn nhiều hơn một mẫu, chúng tôi chọn mẫu có nạn nhân có hỗ trợ thấp nhất trong cơ sở dữ liệu. Cuối cùng, nếu
sự cố vẫn chưa được giải quyết, chúng tôi sẽ chọn một lựa chọn ngẫu nhiên. Sau khi chọn mẫu, các giao dịch nhạy
cảm tương ứng được tìm thấy bằng chỉ số giao dịch. Nếu số lượng giao dịch nhạy cảm lớn hơn MC của mẫu đã chọn,
chúng tôi chọn MC giao dịch ngắn nhất đầu tiên để chuyển đến bảng hành động để làm sạch; nếu không, tất cả các
giao dịch nhạy cảm tương ứng sẽ được làm sạch. Dựa vào số lượng giao dịch đã làm sạch, Count và MC sẽ được
tính lại. Nếu một số mẫu được che giấu bởi mẫu này, SPC và UCP phải được thay đổi. Khi SPC của một mẫu trở
thành không, chúng tôi loại bỏ mẫu này khỏi bảng mẫu mẫu. Cuối cùng, TID của các giao dịch đã làm sạch được loại
bỏ khỏi chỉ số giao dịch của các mẫu nhạy cảm tương ứng của mẫu này.
Để đạt được hiệu suất che giấu tốt hơn, số lượng mục nạn nhân trong một giao dịch không bị ràng buộc.Vì thế chúng
tôi đề xuất khái niệm về tập mục biên đổi được sửa đổi để giảm công việc lặp lại. Bởi vì tính chất đơn điệu của các
mẫu thường xuyên, việc che giấu một mẫu nhạy cảm sẽ che giấu tất cả các tập mục con của mẫu này. Vì vậy, trong
quá trình làm sạch, chúng ta chỉ cần che giấu các mẫu nhạy cảm không có các tập mục con nhạy cảm. Tập mục này
được gọi là tập mục biên đổi.
3 THUẬT
TOÁN
Trong phần này, chúng tôi sẽ trình bày về hiệu suất, hiệu quả và khả năng mở rộng của quá trình làm sạch mà chúng
tôi đề xuất.
Ràng buộc hỗ trợ [18] , Ràng buộc tối đa [8] , để so sánh quá trình làm sạch của chúng tôi với Thuật toán Nhóm mặt
hàng [20], viết tắt là IGA
1. Ngưỡng Tiết Lộ: Được thiết kế để so sánh phương pháp của chúng tôi với IGA \
st(X) = sup(X) × α trong đó α giống với ngưỡng tiết lộ được sử dụng bởi IGA.
2. Ràng Buộc Hỗ Trợ:
• Đầu tiên : chia khoảng hỗ trợ trong cơ sở dữ liệu thành số khoảng nhất định
• Mỗi khoảng có cùng số mục để mỗi bin, Bi, chứa tất cả các mục trong khoảng thứ I
• Tiếp theo, chúng tôi tạo ra các ràng buộc hỗ trợ với các mô hình được tạo thành từ tất cả các kết hợp có thể của
các bin
• Và ngưỡng hỗ trợ của ràng buộc hỗ trợ SCk(B1, . . . , Br) ≤ θk được định nghĩa như sau:
• θ = min{γk-1 × S(Bi) × . . . × S(Br), 1}
trong đó S(Bi) biểu thị sự hỗ trợ nhỏ nhất cho Bi, và γ là một số nguyên lớn hơn 1. Giá trị lớn của γ có thể được sử
dụng để làm chậm sự giảm nhanh của S(B1) × . . . × S(Br). Chúng ta có thể thay đổi giá trị của γ để tạo ra các ràng
buộc hỗ trợ khác nhau.
3 THUẬT
TOÁN
3.Ràng Buộc Cực Đại:
• Chúng tôi sử dụng công thức để gán ngưỡng hỗ trợ cho từng mục:

• trong đó 0 ≤ σ ≤ 1, và sup(i) biểu thị hỗ trợ của mục i trong tập dữ liệu.
• Nếu σ được thiết lập = 0 => ngưỡng hỗ trợ của tất cả các mục là giống nhau, sau đó trường hợp này trở thành
giống như trường hợp đồng đều
• Chúng tôi sử dụng hai bộ dữ liệu thực tế, accidents [19] và kosarak có đặc điểm khác nhau, để so sánh phương
pháp của chúng tôi với IGA khi áp dụng ngưỡng tiết lộ. Bộ dữ liệu accidents được đóng góp bởi Karolien Geurts và
chứa dữ liệu về tai nạn giao thông, và bộ dữ liệu kosarak được cung cấp bởi Ferenc Bodon và chứa dữ liệu về
click-stream từ một trang web tin tức trực tuyến ở Hungary
3 THUẬT
TOÁN

Chúng tôi sử dụng hai bộ dữ liệu thực tế nhỏ hơn là chess và mushroom [20] để đánh giá hiệu suất của
phương pháp làm sạch của chúng tôi. Các bộ dữ liệu này được sử dụng phổ biến cho việc đánh giá
hiệu suất của các thuật toán khai thác luật liên quan khác nhau. Đối với mỗi bộ dữ liệu gốc, chúng tôi
trước tiên thực hiện thuật toán Apriori để khai thác hỗ trợ của tất cả các mục và sử dụng chúng để thiết
lập các thiết lập ngưỡng hỗ trợ mục và ràng buộc hỗ trợ. Sau đó, tùy thuộc vào các ứng dụng khác
nhau, chúng tôi áp dụng các thuật toán Apriori, Apriori-like [18] và Adaptive-Apriori [8] để khai thác các
mẫu thường xuyên dưới ngưỡng đồng đều, ràng buộc cực đại và ràng buộc hỗ trợ, lần lượt. Sau đó,
các mẫu nhạy cảm cần bị ẩn được chọn ngẫu nhiên để mô phỏng thông tin nhạy cảm dựa trên ứng
dụng. Môi trường thử nghiệm của chúng tôi bao gồm một bộ vi xử lý Intel(R) Pentium(R) D 3.4 GHz với
1 GB bộ nhớ chạy trên hệ điều hành Windows XP. Tất cả thời gian thực hiện được ghi lại bao gồm thời
gian CPU và thời gian I/O.
3 THUẬT
TOÁN

4.Hiệu suất và hiệu quả :


• Chúng tôi đánh giá tính hiệu quả và tính mở rộng của phương pháp của chúng tôi so
với IGA về kích thước cơ sở dữ liệu và số mẫu nhạy cảm. Tham số tiết lộ của IGA
được thiết lập là không và cũng như α của chúng tôi. Giá trị không có nghĩa là ẩn
hoàn toàn.
• Chúng tôi thay đổi kích thước của tập dữ liệu từ 100K đến 900K khi ẩn sáu mẫu
thường xuyên không chồng lấn với độ dài từ 2-7. Kết quả được minh họa trong Hình
5(a). Tiếp theo, số mẫu nhạy cảm bị ẩn thay đổi từ 1 mẫu đến 10 mẫu. Tất cả các
mẫu đều được chọn ngẫu nhiên. Chúng ta có thể thấy rằng thời gian thực hiện tuyến
tính với kích thước cơ sở dữ liệu và số mẫu nhạy cảm. Lưu ý rằng phương pháp của
chúng tôi đạt được tính mở rộng tốt như IGA trong khi đạt được tính bảo tồn thông tin
tốt hơn và cung cấp khả năng ẩn thông tin với nhiều ngưỡng nhạy cảm.
4 MỞ RỘNG VÀ
KẾT LUẬN

Trong bài báo này, chúng tôi giới thiệu khái niệm mẫu phổ biến ẩn dưới nhiều ngưỡng nhạy cảm. Chiến
lược ẩn nấp mới với nhiều ngưỡng nhạy cảm được đề xuất. Chiến lược ẩn nấp được áp dụng nhiều hơn
trong các ứng dụng thực tế. Xem xét các thuộc tính của các mẫu phổ biến theo nhiều ngưỡng nhạy cảm,
chúng tôi đề xuất phương pháp dựa trên đường viền được sửa đổi để giảm công việc dư thừa để ẩn và
sử dụng tệp đảo ngược và chỉ mục mẫu để tăng tốc độ cập nhật trong khuôn khổ của chúng tôi.
Chúng tôi đã xác thực bằng thực nghiệm hiệu suất, hiệu quả và khả năng mở rộng của phương pháp
bằng cách sử dụng một loạt các thí nghiệm. Trong tất cả các thí nghiệm này, chúng tôi đã tính đến
ngưỡng hỗ trợ thống nhất, nhiều ngưỡng hỗ trợ với các ràng buộc hỗ trợ và nhiều ngưỡng hỗ trợ dưới
mức hỗ trợ tối đa hạn chế. Kết quả thí nghiệm cho thấy phương pháp của chúng tôi có hiệu quả và đạt
được sự cải thiện đáng kể so với IGA với sự hỗ trợ thống nhất ngưỡng. Hơn nữa, chúng ta có thể che
giấu kiến ​thức nhạy cảm về tập dữ liệu bằng nhiều ngưỡng nhạy cảm
4 MỞ RỘNG VÀ
KẾT LUẬN

Tuy nhiên các thuật toán sử dụng để ẩn thông tin nhạy cảm trong cơ sở dữ liệu giao dịch có thể gặp một
số hạn chế sau:
1. Khả năng ẩn một phần dữ liệu: Một hạn chế chung của các thuật toán này là chúng có thể phải ẩn một phần của
dữ liệu hoặc gây ra mất mát thông tin. Điều này có thể xảy ra khi các thuật toán xóa một số giao dịch hoặc mục,
làm giảm tính toàn vẹn của dữ liệu ban đầu.
2. Thời gian xử lý lớn: Quá trình ẩn thông tin nhạy cảm có thể tốn nhiều thời gian tính toán, đặc biệt đối với cơ sở dữ
liệu lớn. Điều này có thể làm cho quá trình ẩn thông tin trở nên chậm và không hiệu quả.
3. Khả năng quá phụ thuộc vào cấu trúc dữ liệu: Các thuật toán có thể yêu cầu cơ sở dữ liệu giao dịch có cấu trúc cụ
thể hoặc tuân theo một số giả định. Điều này có thể làm cho chúng không phù hợp với mọi loại dữ liệu.
Chúng ta đã hiểu rằng việc ẩn thông tin nhạy cảm trong cơ sở dữ liệu giao dịch là quan trọng để đảm bảo
tính riêng tư của người dùng và đối phó với các vấn đề về bảo mật dữ liệu. Các mục tiêu của phương
pháp này bao gồm việc ẩn thông tin nhạy cảm mà không làm lộ ra các mẫu thường xuyên, đảm bảo tính
riêng tư tối đa và tối thiểu hóa tác động đến dữ liệu không nhạy cảm.
Cảm ơn thầy và các bạn đã lắng nghe

You might also like