You are on page 1of 38

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN CUỐI KỲ


MẠNG XÃ HỘI
ĐỀ TÀI : CÁC THUẬT TOÁN THÍCH ỨNG CHO VIỆC PHÁT
HIỆN CẤU TRÚC CỘNG ĐỒNG TRONG MẠNG XÃ HỘI ĐỘNG

LỚP HỌC: IS353.K21


GVHD: ThS Nguyễn Thị Kim Phụng
Ngày 23 tháng 06 năm 2020 1
Danh sách thành viên:
Họ Và Tên MSSV
Phan Văn Anh 17520250
Trần Trường Giang 17520414
Lê Thị Tuyết Nhi 17520854
Nguyễn Thị Kim Oanh 17520871
Lâm Thái Sang 17520971

2
NỘI DUNG THUYẾT TRÌNH
I GIỚI THIỆU

II TRÌNH BÀY SƠ BỘ CÁC VẤN ĐỀ

II
MÔ TẢ PHƯƠNG PHÁP
I
I
KẾT QUẢ THỰC NGHIỆM
V
ỨNG DỤNG: ĐỊNH TUYẾN NHẬN THỨC XÃ HỘI
V TRONG CÁC MẠNG TÙY BIẾN DI ĐỘNG(MANET)

VI KẾT LUẬN
3
I. GIỚI THIỆU
 Nhóm tác giả: Nam P. Nguyen, Thang N. Dinh, Ying Xuan,
My T.Thai, Khoa Khoa học và Kỹ thuật Máy tính và Thông tin,
TỔNG Đại học Florida
QUAN  Bài báo trình bày về QCA, một phương pháp dựa trên mô
đun thích ứng để xác định và truy tìm cấu trúc cộng đồng
của các mạng xã hội trực tuyến năng động.

4
I. GIỚI THIỆU

Mạng động và cấu trúc cộng đồng

 Phát hiện cồng đồng trong mạng cung cấp cho chúng ta hiểu biết đầy đủ
về cấu trúc bên trong cũng như các nguyên tắc tổ chức của nó. Đồng thời
cung cấp cho chúng ta nhiều quan điểm hữu ích về những phần chưa
được khám phá của mạng, do đó giúp chúng ta ngăn chặn những thứ
không tốt lây lan qua mạng, chẳng hạn như virus.
5
I. GIỚI THIỆU
Mặc dù chúng ta có thể dùng các phương pháp phát hiện cộng đồng tĩnh để tìm
ra cấu trúc cộng đồng mới bất cứ khi nào mạng được cập nhật, nó có thể đối mặt
với một số bất lợi không thể tránh khỏi:

1) Thời gian xử lý quá lâu của các phương thức tĩnh, đặc biệt
trên các vùng mạng lớn.

2) Chi phí tính toán cao khi mỗi lần có cập nhật là phải tính toán
lại từ đầu.

=> Cách tốt hơn, hiệu quả hơn và tiêu tốn ít thời gian hơn để hoàn thành công
việc khó khăn này là cập nhật thích ứng các cộng đồng mạng từ các cấu trúc
đã biết trước đó để giúp tránh những rắc rối của việc tính toán lại từ đầu. 6
I. GIỚI THIỆU

Mạng phát triển từ thời điểm t đến t + 1 dưới sự thay đổi ∆Gt. Thuật toán
=> Tác giả khái quát ngắn gọn về ý tưởng của sự thích ứng của cấu trúc
thích ứng A nhanh chóng tìm ra cấu trúc cộng đồng mới C(Gt+1) dựa
công đồng mạng.
vào cấu trúc C(Gt) trước đó cùng với sự thay đổi ∆Gt.
7
II. TRÌNH BÀY SƠ BỘ CÁC VẤN ĐỀ
 • Đặt G = (V, E) là một đồ thị vô hướng không có trọng số với N node và
M liên kết đại diện cho một mạng xã hội.
• Đặt = {C1, C2, ..., Ck} biểu thị một tập hợp các cộng đồng tách rời, nơi
Ci ∈ là một cộng đồng trong đồ thị G.
• Với mỗi đỉnh u, ta gọi du là bậc của u.
Ký hiệu: • C(u) là cộng đồng chứa u.
• N(u) là tập hợp các node láng giềng của u.
• NC(u) là tập hợp các cộng đồng liền kề với cộng đồng chứa u.
• với bất kỳ S ⊆ V, đặt mS là số lượng liên kết bên trong S.
• dS là tổng bậc của tất cả các đỉnh trong S.
• doutS là tổng bậc của tất cả các đỉnh nằm ngoài S.
• euS là số lượng kết nối từ u đến S. 8
II. TRÌNH BÀY SƠ BỘ CÁC VẤN ĐỀ
• Đặt Gs = (Vs, Es) là đồ thị trạng thái của mạng được ghi lại tại
thời điểm s.
• Gọi ∆Vs và ∆Es lần lượt là tập hợp các đỉnh và tập hợp các
Mạng xã liên kết sẽ được thêm (hoặc loại bỏ) tại thời điểm s
hội động: • gọi ∆Gs = (∆Vs, ∆Es) biểu thị sự thay đổi của toàn mạng.
• Đồ thị trạng thái mạng tiếp theo Gs + 1 bằng trạng thái hiện tại
cộng thêm sự thay đổi, nghĩa là, Gs + 1 = Gs ∪ ∆Gs.
• Mạng động G là một chuỗi các trạng thái của mạng phát triển
theo thời gian: G = (G0, G1, ..., Gs ).

9
II. TRÌNH BÀY SƠ BỘ CÁC VẤN ĐỀ

Định nghĩa bài toán: Cho một mạng xã hội động G = (G0, G1, .., Gs) trong đó G0 là
 • Để định 2lượngs mức độ tốt của cấu trúc cộng đồng mạng,
mạng ban đầu và G , G , .., G là các đồ thị trạng thái của mạng thu được thông
1

Hàm tương tác giả sử dụng độ đo được thừa nhận rộng rãi nhất Q. Q
qua ∆G
quan
1
, ∆G 2
, ..,
= ∆G s
, chúng ta cần thiết lập một thuật toán thích ứng để phát hiện
và nhận diện •hiệu Q càng caotrúc
quả cấu thì cộng
cấu trúc
đồngcộng
mạngđồng mạng
tại bất càng
cứ thời tốt.nào (sử dụng
điểm
thông tin từ các đồ thị trạng thái trước) cũng như theo dõi sự tiến hoá của cấu trúc
cộng đồng mạng.

10
III. MÔ TẢ PHƯƠNG PHÁP

 Đồ thị G hiện tại với cấu trúc cộng đồng là = {C1, C2, C3}.

Các cạnh nét đậm là liên kết nội bộ cộng đồng (intra-community links) và các
cạnh nét nhạt là liên kết kết nối cộng đồng (inter-community links). 11
III. MÔ TẢ PHƯƠNG PHÁP
Trong thực tế, việc thêm hoặc xóa một tập hợp các node (hoặc cạnh) có thể
được phân tách thành việc thêm hoặc xóa một chuỗi các node (hoặc cạnh), trong
đó một node đơn (hoặc một cạnh đơn) được thêm (hoặc xóa) tại một thời điểm.

Quan điểm này giúp chúng ta xem các thay đổi mạng là một tập hợp các sự kiện
đơn giản:

 newNode (V + u): Một node u mới với các cạnh liên quan của nó được thêm
vào. u có thể mang đến không nhiều hơn một cạnh mới.
 removeNode (V - u): Một node u và các cạnh liền kề của nó bị xóa khỏi mạng.
 newEdge (E + e): Một cạnh e mới được thêm vào để kết nối hai nút hiện có.
 removeEdge (E - e): Một cạnh e hiện có trong mạng bị xóa.
12
CÁC THUẬT TOÁN
THUẬT TOÁN 1: New_Node

  𝐶 ⅆ 𝑢 ( ⅆ 𝐶 −ⅆ 𝑢 )   𝑑 𝑢 𝑑 𝑜𝑢𝑡𝑆
𝑢
𝐹𝑖𝑛 ( 𝑢 )= 𝑒𝐶 − 𝐹

𝑜𝑢𝑡
( 𝑢 ) = max {𝑒𝑢𝑆 − }
2𝑀 𝑆 ∈ 𝑁𝐶 (𝑢 ) 2𝑀

13
CÁC THUẬT TOÁN
THUẬT TOÁN 1: New_Node
a u   0.63   -1.08
C(u)
c   >
b a vẫn ở lại C1

  0.7   -2.74   -0.91

  > b vẫn ở lại C2

C1   1.7   -2.74
C2
  Q
  > c vẫn ở lại C2
 = 0   -0.43   0.24

  0.24 > u nhập vào C2 14


CÁC THUẬT TOÁN
THUẬT TOÁN 1: New_Node

a
u
c
b

C1
C2

  Q

15
CÁC THUẬT TOÁN
THUẬT TOÁN 2: New_Edge
Định lý 2: Nếu C là một cộng đồng trong trạng thái hiện tại của G,
thì việc thêm bất kỳ liên kết nội bộ cộng đồng nào vào C sẽ không
chia nó thành các cộng đồng nhỏ hơn.

Bổ đề 2: Khi một cạnh mới (u, v) kết nối hai cộng đồng C(u) và
C(v) được thêm vào, thì C(v) (hoặc C(u)) là ứng cử viên sáng giá
cho u (hoặc v) nếu cần thay đổi cộng đồng.
 
Định lý 3: Giả sử rằng một cạnh mới (u, v) được thêm vào G. Đặt
C ≡ C(u) and D ≡ C(v). Nếu thì việc đưa u vào D sẽ làm tăng mô
đun tổng thể.

16
CÁC THUẬT TOÁN
THUẬT TOÁN 2: New_Edge
a
e a
c e
c

C1
C2 C1
C2

Đặt X ≡ C1 và Y ≡ C2.

  = - 40 < 0   = -309 < 0

a và c vẫn ở lại cộng đồng cũ 17


CÁC THUẬT TOÁN
THUẬT TOÁN 3: Node_Removal
Khi một node bậc 1 bị xóa, cộng đồng chứa nó không thay đổi

Khi một node bậc cao nhất bị xóa, cộng đồng hiện tại có thể bị chia thành các cộng đồng nhỏ hơn sau đó được
sáp nhập vào các cộng đồng khác

18
CÁC THUẬT TOÁN
THUẬT TOÁN 3: Node_Removal

a) Cộng đồng ban đầu b) Khi node trung tâm g bị


loại bỏ, một cụm 3-clique được đặt tại a và phát
hiện b, c, d và e. Node f trở thành node đơn sau đó.

19
CÁC THUẬT TOÁN
THUẬT TOÁN 4: Edge_Removal
Khi một cạnh e = (u, v) sắp bị xóa, ta chia thành 4 trường hợp:
(1) e là một cạnh đơn, cả u và v đều có bậc 1
Khi xóa e ta sẽ xem u và v như 2 node mới được thêm vào
(2) u (hoặc v) có bậc là 1
Khi xóa e ta sẽ xem u (hoặc v) như 1 node mới được thêm vào
(3) e là một liên kết kết nối cộng đồng để kết nối C(u) và C(v)
Việc xóa e sẽ làm vững chắc các cộng đồng mạng hiện tại và do đó cấu trúc cộng đồng
không bị thay đổi.
(4) e là một liên kết nội bộ cộng đồng.
Việc xóa e sẽ không khiến cộng đồng thay đổi nếu bản thân cộng đồng được kết nối dày
đặc; tuy nhiên, cộng đồng đó sẽ bị phân tách nếu nó chứa các cấu trúc con kết nối lỏng lẻo
với nhau. Chúng ta cần tìm tất cả các maximal 'quasi-clique' trong cộng đồng hiện tại và
để chúng tự quyết định nên sáp nhập vào cộng đồng nào. 20
CÁC THUẬT TOÁN
THUẬT TOÁN 4: Edge_Removal
Định lý 4: (Kiểm tra phân tách cộng đồng) Đối
với bất kỳ cộng đồng C nào, đặt α và β lần lượt
là bậc thấp nhất và bậc cao thứ hai của các
đỉnh trong C. Giả sử rằng một cạnh e bị xóa
khỏi C. Nếu không tồn tại các tập con C1 ⊆ C

và C2 ≡ C\C1 sao cho:

1) e đi qua C1 và C2
2)
thì việc phân tách C sẽ không có lợi cho tổng
thể Q. 21
CÁC THUẬT TOÁN
THUẬT TOÁN 4: Edge_Removal

22
CÁC THUẬT TOÁN
THUẬT TOÁN 5: Quick Community Adaptation (QCA)

23
IV. KẾT QUẢ THỰC NGHIỆM
Để minh họa sức mạnh và hiệu quả của phương pháp QCA, tác giả chọn ba loại mạng xã
hội phổ biến trong thế giới thực bao gồm mạng email ENRON, mạng trích dẫn điện tử e-
print arXiv và mạng xã hội trực tuyến Facebook. Hai phương pháp được dùng để so sánh
là phương pháp tĩnh được đề xuất bởi Blondel và một phương pháp thích ứng động xuất
hiện gần đây được gọi là MIEN.

MIEN

Blondel 24
IV. KẾT QUẢ THỰC NGHIỆM
Để định lượng chất lượng của cấu trúc cộng đồng đã được xác định, (tức là sự tương đồng giữa cấu
trúc cộng đồng được xác định và thực tế) tác giả áp dụng một độ đo nổi tiếng trong Lý thuyết thông
tin gọi là Normalized Mutual Information (NMI). NMI đã được chứng minh là đáng tin cậy và hiện
đang được sử dụng trong việc thử nghiệm các thuật toán phát hiện cộng đồng. Về cơ bản, NMI (U,
V) bằng 1 nếu các cấu trúc U và V giống hệt nhau và bằng 0 nếu chúng khác biệt hoàn toàn.

25
Mạng email ENRON
Mạng email Enron chứa dữ liệu email của khoảng 150 người dùng, chủ yếu là quản lý cấp cao của tập
đoàn Enron từ tháng 1 năm 1999 đến tháng 7 năm 2002. Mỗi địa chỉ email được biểu thị bằng một số nhận
dạng duy nhất trong tập dữ liệu và mỗi liên kết tương ứng với một thông điệp được gửi. Sau quá trình tinh lọc
dữ liệu, tác giả chọn 50% tổng số liên kết để tạo cấu trúc cộng đồng cơ bản của mạng với 7 cộng đồng chính
và mô phỏng sự phát triển của mạng thông qua một chuỗi 21 đồ thị trạng thái, trong đó có khoảng 103 liên kết
được thêm vào tại một thời điểm.

26
Mạng email ENRON

Mặc dù QCA có giá trị mô đun ít hơn một chút so với phương thức MIEN nhưng xấp xỉ
(và ít biến thiên hơn) so với phương thức tĩnh trong khi vẫn duy trì số lượng cộng
đồng gần bằng với hai thuật toán kia.
27
Mạng email ENRON

Thời
Thờigian
gianvà
chạy
chi của
phí QCA
tính toán
và phương
được giảm
thứcđáng
tĩnh trong
kể trong
mạng
QCAnhỏlà donày
nótương
chỉ tínhđối
đến
bằngcácnhau:
thay đổi
phương
của mạng
thức trong
tĩnh
yêu
khicầu
phương
một giây
thứcđểtĩnh
hoàn
phảithành
hoạt mỗi
độngnhiệm
trên toàn
vụ của
bộ nó
trong
mạng khimỗi
QCAlầnthậm
cập nhật.
chí còn không đến nửa giây. Trong bộ
dữ liệu này, MIEN cần nhiều thời gian hơn (trung bình 1,5
giây) để hoàn thành nhiệm vụ.

28
Mạng email ENRON

Do thiếu thông tin chính xác về các cộng đồng thực


trong tập đoàn Enron, tác giả sử dụng cấu trúc cộng đồng
được xác định bằng phương pháp tĩnh như một tham
chiếu đến thế giới thực.

Cả điểm số NMI của phương pháp MIEN và QCA đều


rất cao và tương đối gần với 1, cho thấy rằng trong mạng
email Enron này, cả thuật toán QCA và MIEN của tác giả
đều có thể xác định được cấu trúc cộng đồng chất lượng
cao với tính mô đun cao; tuy nhiên, chỉ có QCA giảm
được thời gian xử lý và chi phí tính toán.

29
Mạng trích dẫn e-print arXiv
 Điểm số NMI của QCA cao hơn so với phương pháp MIEN
 Các
Cáccộng
giá trịđồng mạng
mô đun được
được QCAxáctrả
định bởi QCA không chỉ có độ tương tự
Được
cao khởi
với thếtạo vào
giới năm
thực mà 1991,
cònthu đã trởxác
chính thành
 hơn
QCAmột phương
socho
với thấy tiện
phátcấu đánh
hiệntrúc giá kết
bởicộng
MIEN,
đồng
về rất gần với các kết quả
quả
Thời gian
nghiên
nghĩa chạy
cứu cho
trong thấy
nhiều QCA
lĩnhphí
vực khác mạng
nhau
được bằng phương pháp chi
là thời gian xử lý và tĩnh tính toán được tốtgiảm
hơn đáng
nhiềukể.vì nó phát hiện
vượt
Đểnhưng trội hơnsựphương
mô phỏng phát pháp tĩnh
triển
ổn định và cao hơncủa mạng, tổng
nhiều racộng
nhiều30 đồ thị
cộng đồngtrạng
hơnthái
cảcủa
phương
cũng
mạng nhưdẫn
trích MIEN
so với MIEN arXiv được tạo ra thức tĩnh và MIEN khi mạng phát
 QCA mất tối đa 2 giây để hoàn
triển
thành cập nhật cấu trúc mạng

30
Mạng xã hội Facebook


 QCA
Tập
Hạn dữ
Thời đạt
liệu
chế
gian được
này
của môtoán
chứa
thuật
tính toán đun
thông
và có tính
QCA:
cập tin vềcạnh
Khi
nhật tình tranh
số đồ
thành bạn.
công với
thị Tập
trạngphương
dữ
mỗi đồliệu
thái của
thị pháp
chứa
mạng
trạng tĩnh
hơn
thái và ổn
60000
tăng
của lên
định
node

mạng hơn
xu(người
hướng
nhanhdùng)
phân được
chia
khi mô kết nối
tả mạng
thời bởi
thành
gian hơn 1,5
cáctrên
chạy cộng triệu
tập liên
đồng
dữ kết
nhỏ
liệu với số
hơn dẫn
Facebook bậc trung
đến số
bình
lượng
là 23,5.
cộng đồng ngày càng tăng và giảm điểm NMI

31
V. ỨNG DỤNG: ĐỊNH TUYẾN NHẬN THỨC XÃ HỘI TRONG CÁC MẠNG TÙY BIẾN
DI ĐỘNG (MANETs)

Mobile ad hoc networks (MANETs) là một mạng không dây động, tự cấu hình, tự tổ chức, có thể
không có cơ sở hạ tầng cơ bản, kết nối với các thiết bị di động không dây, trong đó mỗi node có
thể di chuyển tự do theo bất kỳ hướng nào. Còn gọi là "mạng tự phát". Những nghiên cứu gần
đây đã chỉ ra rằng các MANET mang các đặc tính của mạng xã hội và các thuật toán nhận thức
xã hội có thể dùng để nâng cao việc định tuyến mạng trong MANETs.
32
V. ỨNG DỤNG: ĐỊNH TUYẾN NHẬN THỨC XÃ HỘI TRONG CÁC MẠNG TÙY BIẾN
DI ĐỘNG (MANETs)
Chúng ta sẽ đánh giá 5 chiến lược định tuyến sau đây:
(1) WAIT: node nguồn sẽ chờ đợi và tiếp tục gửi hoặc chuyển tiếp thông điệp cho đến khi nó gặp
được node đích.
(2) MCP: mỗi node sẽ tiếp tục truyền tải thông điệp cho đến khi chúng đạt tới số lượng hops tối đa.

(3) LABEL: mỗi node sẽ chuyển tiếp hoặc gởi các thông điệp tới mọi thành viên trong cộng đồng
đích (sử dụng phương pháp phát hiện cộng đồng tĩnh.
(4) QCA: một phiên bản của LABEL có sử dụng QCA như một phương pháp phát hiện cộng đồng
động.
(5) MIEN:
Tác sử dụng
giả chọn bộ dữthuật
liệutoán
KhaiMIEN.
thác Thực tế do phòng thí nghiệm MIT cung cấp để kiểm tra thuật
toán đề xuất của họ. Bộ dữ liệu Khai thác Thực tế bao gồm thông tin liên lạc, địa điểm và hoạt
động của 100 sinh viên tại MIT trong năm học 2004-2005. Đặc biệt, bộ dữ liệu này còn bao gồm
nhật ký cuộc gọi, các thiết bị Bluetooth gần đó, các ID của tín hiệu di động, các ứng dụng, và tình
trạng điện thoại (như sạc và vô hiệu) của các sinh viên tham gia trong hơn 350.000 giờ (40 năm).
Trong tài liệu này, tác giả xem xét thông tin Bluetooth để hình thành MANET nền tảng và đánh giá
hiệu năng của 5 chiến lược định tuyến nêu trên. Có tổng cộng 1000 thông điệp được tạo ra và
phân phối đồng bộ trong suốt thời gian thử nghiệm và mỗi thông điệp không thể tồn tại lâu hơn
ngưỡng time-to-live (thời gian sống).
33
V. ỨNG DỤNG: ĐỊNH TUYẾN NHẬN THỨC XÃ HỘI TRONG CÁC MẠNG TÙY BIẾN
DI ĐỘNG (MANETs)

QCA đạt được tỷ lệ chuyển phát tốt hơn nhiều


so với MIEN, LABEL và tốt hơn rất nhiều so với
WAIT. Điều này có nghĩa là chiến lược truy cập
QCA đã thành công trong việc truyền tải nhiều
thông điệp từ node nguồn tới node đích hơn các
chiến lược khác. Hơn nữa, khi thời gian sống
tăng lên, tỷ lệ chuyển phát của QCA có xu hướng
xấp xỉ với tỷ lệ của MCP (chiến lược có tỷ lệ
chuyển phát cao nhất).

34
V. ỨNG DỤNG: ĐỊNH TUYẾN NHẬN THỨC XÃ HỘI TRONG CÁC MẠNG TÙY BIẾN
DI ĐỘNG (MANETs)

So sánh về thời gian chuyển phát cho


thấy QCA yêu cầu ít thời gian hơn và nhận
được thông điệp thành công nhanh hơn
LABEL. Nó thậm chí còn đòi hỏi ít thời gian
chuyển phát hơn so với MIEN. Điều này
cho ta thấy cấu trúc cộng đồng tĩnh ở
LABEL có thể gửi thông điệp tới sai cộng
đồng khi các node đích thay đổi cộng đồng
của chúng trong quá trình thử nghiệm. Mặt
khác, cả QCA và MIEN đều thu thập và cập
nhật các cấu trúc cộng đồng ngay khi thay
đổi xảy ra, do đó đạt được kết quả tốt hơn.
Vì MIEN cần nén và giải nén các cộng
đồng mạng mỗi khi mạng phát triển nên nó
cần thêm thời gian để truyền tải thông điệp.
35
V. ỨNG DỤNG: ĐỊNH TUYẾN NHẬN THỨC XÃ HỘI TRONG CÁC MẠNG TÙY BIẾN
DI ĐỘNG (MANETs)

QCA và MIEN đều đạt được kết quả tốt


nhất. Số lượng thông điệp trùng lặp của
MCP cao hơn nhiều so với các phương
pháp khác nên không được vẽ ra. Trên
thực tế, kết quả của QCA và MIEN tương
đối gần nhau và có xu hướng xấp xỉ nhau
khi thời gian sống tăng lên.

36
VI. KẾT LUẬN
Thuật toán QCA không chỉ hiệu quả trong việc cập nhật và xác định cấu
trúc cộng đồng mạng chất lượng cao mà còn có lợi thế lớn là thời gian
chạy nhanh, phù hợp với các mạng xã hội trực tuyến lớn và thay đổi liên
tục. Ngoài ra, thông qua một chiến lược định tuyến nhận thức xã hội thực
tế ở các MANET, tác giả cho thấy thuật toán QCA hứa hẹn sẽ được ứng
dụng thực tế nhiều trong điện toán di động vì nó có thể được kết hợp hoặc
tích hợp như một cốt lõi để phát hiện cộng đồng.

37
38

You might also like