You are on page 1of 8

Tiền Xử Lý Dữ Học cách phân

Dữ Liệu Đầu Vào


Liệu cụm

Thực Hiện Thuật Mẫu Dữ


Toán GEMSEC Liệu
Điều chỉnh độ mượt
để phát hiện cộng
đồng nhất quán

Dữ Liệu Đầu Ra

INPUT DATASET (dữ liệu đầu vào): Dữ liệu từ các trang mạng trên Facebook và
mạng xã hội âm nhạc Deezer.
Tiền Xử Lý Dữ Liệu: dataset được mô phỏng vào không gian đồ thị ba chiều và tiến
hành phân vùng dữ liệu: buộc các nút được nhúng vào một không gian có dung lượng
thấp xung quanh điểm gốc (số chiều đã được giảm tối ưu), và các nút có điểm tương
đồng phải được nhúng gần nhau.
Tiền Xử Lý Dữ Liệu: dataset được mô phỏng vào không gian đồ thị ba chiều và tiến
hành phân vùng dữ liệu: buộc các nút được nhúng vào một không gian có dung lượng
thấp xung quanh điểm gốc (số chiều đã được giảm tối ưu), và các nút có điểm tương
đồng phải được nhúng gần nhau.
Thực Hiện Thuật Toán GEMSEC: tiến hành thực hiện trên dữ liệu để phát hiện
cộng động mạng.
Điều chỉnh độ mượt để phát hiện cộng đồng nhất quán (sử dụng phương pháp máy
học được gọi là “Regularization”): các cụm cộng đồng sau khi phát hiện có thể còn
chưa nhất quán và rõ ràng, phương pháp này giúp tối ưu, làm cho các cụm cộng đồng
hiển thị rõ ràng hơn, tách biệt cụ thể hơn, đồng thời phát hiện ra nhiều cụm cộng đồng
hơn.
Dữ Liệu Đầu Ra: Các Node có điểm chung sẽ được gom lại và phân cụm cùng nhau.
Các cụm trong không gian được phân tách rõ ràng, liên kết chặt chẽ, cách xa nhau.
Không gian của đồ thị được thu hẹp lại, giúp cho dữ liệu sau khi gom nhóm có được
độ chính xác và các đặc điểm về thuộc tính gần như tương tự nhau.
INPUT DATASET (dữ liệu đầu vào): Dữ liệu từ các trang mạng trên Facebook và
mạng xã hội âm nhạc Deezer.
Dữ liệu được lấy từ hai nguồn: nguồn thứ nhất từ các trang mạng đã được xác
thực trên Facebook gồm các lĩnh vực: giải trí, kinh tế, chính trị… Nguồn thứ hai từ
trang web phát nhạc trực tuyến Deezer gồm Croatia, Hungary và Romania, người
dùng được sắp xếp và phân loại dựa trên các sở thích giống nhau về âm nhạc.
Dữ liệu lưu dưới dạng “.csv” gồm các nút và cạnh, các nút đại diện cho các
trang còn các cạnh là các điểm tương đồng giữa chúng.
Tiền Xử Lý Dữ Liệu: dataset được mô phỏng vào không gian đồ thị ba chiều và tiến
hành phân vùng dữ liệu: buộc các nút được nhúng vào một không gian có dung lượng
thấp xung quanh điểm gốc (số chiều đã được giảm tối ưu), và các nút có điểm tương
đồng phải được nhúng gần nhau.

Tiền Xử Lý Dữ Liệu: dataset được mô phỏng vào không gian đồ thị ba chiều và tiến
hành phân vùng dữ liệu: buộc các nút được nhúng vào một không gian có dung lượng
thấp xung quanh điểm gốc (số chiều đã được giảm tối ưu), và các nút có điểm tương
đồng phải được nhúng gần nhau.
Sau khi kết thúc quá trình, cho ra được mẫu dữ liệu, trở thành dữ liệu đầu vào cho
thuật toán máy học GEMSEC.

Chúng ta có C là tập hợp các tâm cụm - trung bình của cụm thứ c được ký hiệu
là µc. Mỗi trung tâm cụm này là một vectơ d chiều trong không gian nhúng. Ý tưởng
là để giảm thiểu khoảng cách từ mỗi nút đến trung tâm cụm gần nhất của nó. tham số
γ là hệ số trọng số của chi phí phân cụm. Đánh giá chức năng phân vùng trong chức
năng mục tiêu được đề xuất cho tất cả các nút nguồn có độ phức tạp thời gian chạy O
(| V | 2). Do đó, chúng tôi ước tính thuật ngữ hàm phân vùng với lấy mẫu phủ định là
một hình thức ước lượng tương phản nhiễu.

Hình 2. Các vấn đề tiềm ẩn với trọng số chi phí cụm và khởi tạo cụm. Các màu nút
khác nhau biểu thị các tư cách thành viên cộng đồng thật khác nhau và ranh giới cụm
được tính toán được biểu thị bằng đường đứt nét. Trong Hình 2a, một nút màu trắng
duy nhất được chụp trong một cụm với các nút màu xanh lam do trọng lượng nhóm γ
cao. Trong Hình 2b, một cụm trống được khởi tạo không có nút nào trong đó. Trung
tâm cụm vẫn trống trong suốt quá trình tối ưu hóa.

Các bậc của hàm mất mát trong Công thức 5 quan trọng trong việc giải quyết
vấn đề giảm thiểu. Kết quả là chúng ta có thể có được các gradient cho các biểu diễn
nút và trung tâm cụm. Kiểm tra chi tiết hơn, gradient của hàm mục tiêu L liên quan
đến biểu diễn của nút v ∗ ∈ V được mô tả bằng Công thức (6) nếu µc là tâm cụm gần
nhất với f (v ∗).
Gradient của hàm phân vùng kéo biểu diễn của v ∗ về phía gốc. Số hạng thứ
hai di chuyển biểu diễn của v ∗ gần hơn với biểu diễn của các lân cận của nó trong
không gian nhúng trong khi số hạng thứ ba di chuyển nút đến gần trung tâm cụm nhất.
Nếu chúng ta đặt giá trị γ cao, số hạng thứ ba sẽ thống trị gradient. Điều này sẽ làm
cho nút bị hút về phía trung tâm cụm gần nhất có thể không chứa các lân cận của v ∗.
Một ví dụ được thể hiện trong Hình 2a. Nếu tập hợp các nút thuộc tâm cụm c là Vc,
thì gradient của hàm mục tiêu đối với µc được mô tả bằng
Trong phương trình 7, chúng ta thấy rằng gradient di chuyển cụm trung tâm
của tổng tọa độ của các nút trong nhúng không gian thuộc về cụm c. Thứ hai, nếu một
cụm kết thúc rỗng nó sẽ không được cập nhật vì các phần tử của gradient sẽ bằng
không. Do đó, các trung tâm cụm và trọng số nhúng được khởi tạo với cùng phân bố
đồng đều. Khởi tạo sai giống như khởi tạo có cụm trống trong Hình 2b có thể ảnh
hưởng đáng kể đến hiệu suất phân nhóm.
Thực Hiện Thuật Toán GEMSEC: tiến hành thực hiện trên dữ liệu để phát hiện
cộng động mạng.
Một phương pháp học tập hiệu quả để tạo nhúng GEMSEC được mô tả bằng
mã giả Thuật toán 1. Ý tưởng chính là để tránh chi phí phân cụm lấn át thông tin đồ
thị (như trong Hình 2a), chúng tôi khởi tạo hệ thống với trọng số thấp γ0 ∈ [0, 1] để
phân cụm, và thông qua các lần lặp lại cân bằng nó thành 1.
Quá trình tính toán nhúng tiến hành như sau.
Dòng 1. Các trọng số trong mô hình được khởi tạo dựa trên số lượng đỉnh, kích thước
nhúng và cụm.
Dòng 3. Sau đó, thuật toán thực hiện N lần lặp lại lấy mẫu để tạo chuỗi đỉnh từ mọi
nút nguồn.
Dòng 4. Trước khi bắt đầu một kỷ nguyên lấy mẫu, nó xáo trộn tập hợp các đỉnh.
Dòng 7. Đặt hệ số chi phí phân nhóm γ (dòng 7) theo quy tắc cấp số nhân, γ có Công
thức (8).
Dòng 8. Tốc độ học tập được đặt thành α (dòng 8) với quy tắc ủ tuyến tính (Công thức
(9))

Dòng 9, dòng 10. Quá trình lấy mẫu đọc các chuỗi có độ dài l (dòng 9) và trích xuất
các đặc trưng bằng cách sử dụng kích thước cửa sổ ngữ cảnh ω (dòng 10).
Dòng 11. Các tính năng được trích xuất, độ dốc, tỷ lệ học hiện tại và hệ số chi phí
phân cụm xác định việc cập nhật trọng số mô hình bằng trình tối ưu hóa (dòng 11).
Nếu việc lấy mẫu nút được thực hiện bằng cách ngẫu nhiên đi bộ thời gian chạy bậc
nhất độ phức tạp của thủ tục này sẽ là O ((ω · k + | C |) · l · d · | V | · N) trong khi
DeepWalk với ước lượng tương phản nhiễu có độ phức tạp thời gian chạy O (ω · k ·
l · d · | V | · N).
Điều chỉnh độ mượt để phát hiện cộng đồng nhất quán (sử dụng phương pháp máy
học được gọi là “Regularization”):
Nhận thấy rằng các mạng xã hội có các thuộc tính cục bộ tự nhiên như đồng
tính luyến ái, mối quan hệ chặt chẽ giữa các thành viên trong cộng đồng, v.v. Do đó,
chúng tôi có thể kết hợp các tính chất cụ thể của mạng xã hội đó dưới hình thức chính
quy hóa để tìm ra nhiều cụm và nhúng tự nhiên hơn. Hiệu ứng điều hòa này có thể
đạt được bằng cách thêm số hạng Λ vào hàm mất mát, với Λ bằng

Trong đó hàm trọng số w xác định chi phí mạng xã hội của việc nhúng liên
quan đến thuộc tính của các cạnh được truyền trong mẫu. Do đó, bằng cách coi chồng
lên vùng lân cận là trọng số wv, u của cạnh (v, u), chúng ta có thể có được việc phân
cụm mạng xã hội hiệu quả, điều này được xác nhận bởi các thí nghiệm trong phần tiếp
theo. Hệ số λ cho phép chúng ta điều chỉnh mức đóng góp của chi phí mạng xã hội
trong quá trình nhúng. Trong các thí nghiệm, phiên bản chính quy của các thuật toán
được phát hiện là mạnh mẽ hơn đối với những thay đổi trong siêu tham số.
Tác động của chính quy hóa có thể được hiểu một cách trực quan thông qua
một ví dụ. Đối với giải thích này, ta biểu diễn ma trận của mạng xã hội mô tả sự gần
gũi của các nút bằng công thức sau:

Trong đó Prv, u là tập hợp các đường đi từ v đến u với độ dài r. Các phần tử
của ma trận mục tiêu M phát triển với số lượng đường đi có độ dài nhiều nhất là ω
giữa các nút tương ứng. Do đó M được dùng để biểu thị mức độ kết nối giữa các nút
dưới dạng một đặc điểm đồ thị thô như số lượng đường dẫn.
Ví dụ cho điều chỉnh độ mượt để phát hiện cộng đồng nhất quán như sau:
Biểu đồ trong Hình 3a là một ví dụ điển hình với cấu trúc cộng đồng rõ ràng mà chúng
ta có thể sử dụng để phân tích vấn đề. Thủ tục tối ưu hóa được sử dụng bởi Deepwalk
nhằm mục đích hội tụ về ma trận mục tiêu. Với hình 3b ta quan sát rằng ma trận này
có các cạnh mờ xung quanh các cộng đồng của đồ thị, cho thấy mức độ không chắc
chắn. Một phép gần đúng thực tế bằng cách chạy Deepwalk được thể hiện trong Hình
3c, tự nhiên kết hợp thêm độ không đảm bảo do lấy mẫu, đầu ra được cải thiện so với
hình 3b. Hình 3d là có thể thu được đầu ra rõ ràng hơn với các cộng đồng sắc nét bằng
cách áp dụng tối ưu hóa chính quy.
Dữ Liệu Đầu Ra: Các Node có điểm chung sẽ được gom lại và phân cụm cùng nhau.
Các cụm trong không gian được phân tách rõ ràng, liên kết chặt chẽ, cách xa nhau.
Không gian của đồ thị được thu hẹp lại, giúp cho dữ liệu sau khi gom nhóm có được
độ chính xác và các đặc điểm về thuộc tính gần như tương tự nhau.

You might also like