You are on page 1of 7

Kỷ yếu Hội nghị Quốc gia lần thứ … về Nghiên cứu cơ bản và ứng dụng Công Nghệ thông

tin (FAIR); …, ngày …/…/…

ỨNG DỤNG MẠNG PHỨC HỢP TRONG KHAI PHÁ DỮ LIỆU TƯƠNG
TÁC NGƯỜI DÙNG
Nguyễn Minh Tân1, Trần Tiến Dũng2
1
Trung tâm Thông tin Thư viện, Trường Đại học Công nghiệp Hà Nội
2
Khoa Công nghệ Thông tin, Trường Đại học Công nghiệp Hà Nội
minhtan@triz.edu.vn, trantd@haui.edu.vn

TÓM TẮT— Một hệ thống thông tin quản lý là sản phẩm tin học hóa các quy trình nghiệp vụ của một tổ chức, doanh
nghiệp. Bằng việc sử dụng phương pháp mô hình hoá và phân tích hệ thống theo tiếp cận mạng lưới, bài báo phân tích một mạng
phức hợp về dữ liệu tương tác người dùng của hệ thống thông tin quản lý. Dữ liệu là một mạng có hướng gồm 1292 nốt và 968706
cạnh. Kết quả phân tích thu được 16 mô-đun, 19 lớp core, số bậc trung bình của mỗi nốt là 19.15, với phương sai 𝜎 2 = 409.37, độ
lệch chuẩn 𝜎 = 20.23, hệ số phân cụm trung bình là 0.482. Từ đó đưa ra phân tích về cấu trúc các mô-đun, mối liên hệ giữa các
mô-đun cũng như đặc điểm của lõi mạng dữ liệu. Kết quả thu được có thể dùng để thẩm định tính hợp lý của hệ thống và hỗ trợ thiết
kế quy trình.
Từ khóa— Khai phá đồ thị, tính mô-đun, K-core, phân bố bậc, hệ số phân cụm.

I. MỞ ĐẦU
Mạng phức hợp là đồ thị đại diện cho các kết nối phức tạp giữa các yếu tố trong nhiều hệ thống tự nhiên và
nhân tạo [1]. Cách tiếp cận mạng lưới không chỉ hữu ích cho việc đơn giản hóa và hình dung số lượng dữ liệu khổng lồ
mà còn hiệu quả trong việc tìm ra các yếu tố quan trọng nhất và tìm ra các tương tác quan trọng nhất của chúng. Các
ứng dụng gần đây của các phương pháp mạng phức hợp bao gồm các lĩnh vực khá đa dạng như khí hậu học, động lực
học chất lỏng, sinh lý thần kinh, kỹ thuật, và kinh tế từ đó chứng minh được tiềm năng to lớn của mạng lưới thời gian
để giải quyết các vấn đề khoa học đương đại trong thế giới thực [2]. Andor Háznagy và cộng sự sử dụng phương pháp
mạng phức hợp để phân tích hệ thống giao thông công cộng đô thị của 5 thành phố ở Hungary. Kết quả phân tích cho
thấy được những đặc điểm tương đồng và khác biệt trong cách tổ chức giao thông, những điểm xung đột, kém hiệu quả
từ đó đề xuất phương án điều phối hoạt động giao thông được hiệu quả [3].
Phân cụm là một kỹ thuật quan trọng trong khai phá dữ liệu. Từ một cơ sở dữ liệu ta nhóm các đối tượng có
cùng tính chất với nhau, từ đó ta được các cụm dữ liệu. Việc phân cụm dữ liệu được tiến hành khá sớm trong lĩnh vực
nhân học rồi sau đó được mở rộng sang lĩnh vực tâm lý học bởi Zubin 1938 [4]. Ngày nay kỹ thuật phân cụm được sử
dụng phổ biến trong một số hoạt động như: hỗ trợ tiền xử lý dữ liệu, nhận dạng mẫu, phân loại khách hàng, nhận dạng
đối tượng, phân đoạn hình ảnh [5]. Trên thực tế các bài toán xử lý dữ liệu thì dữ liệu đầu vào thường có nhiễu, nhiều
tác giả đã sử dụng kỹ thuật phân cụm với tập mờ loại 2 để giải quyết vấn đề này [6, 7]. Chúng ta có thể sử dụng kỹ
thuật phân cụm để khai phá dữ liệu, tìm ra những đặc tính đặc trưng của từng cụm giúp cho việc phát hiện ra tri thức
mới. Đặc biệt ngày nay chúng ta có những bộ dữ liệu siêu lớn như Facebook, Google, Twitter nếu khai thác tốt sẽ
mang lại rất nhiều tri thức quý giá [8]. Hiện nay đã có nhiều thuật toán phân cụm dữ liệu lớn dựa trên những thuật toán
và ứng dụng khác nhau được áp dụng [9].
Bài báo này sẽ mô hình hoá bộ dữ liệu email bằng một mạng lưới và phân tích hệ thống theo tiếp cận mạng lưới
bằng các thuật toán phân cụm K-core và modularity cực đại. Tìm ra các cụm dữ liệu, phân tích tính mô-đun để tìm ra
các tri thức mới. Đây là một kỹ thuật phân tích mới giúp hiểu rõ về kiến trúc hệ thống và hỗ trợ thiết kế quy trình
nghiệp vụ.
II. DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU ĐẦU
2.1. Dữ liệu và xử lý dữ liệu
Bài báo khai phá dữ liệu của hệ thống email quản lý hành chính điện tử của Trường Đại học Công nghiệp Hà
Nội (eGov). Tập dữ liệu đơn giản chỉ có 02 trường kiểu văn bản: ID người gửi, và ID người nhận giao dịch trong
khoảng thời gian từ 01/01/2015 đến 16/09/2016. ID người gửi/nhận cho biết tên đơn vị cũng như cho phép xác định
chức năng, nhiệm vụ của đơn vị người gửi/nhận đang công tác. Từ bộ dữ liệu đơn giản này, chúng tôi xây dựng một
mạng dữ liệu eGov là một đồ thị có hướng mô tả thông tin người gửi gửi tin đến người nhận qua email. Mỗi nút mạng
(đỉnh) biểu diễn một người gửi/nhận. Hai nút mạng A và B bất kỳ nối với nhau bằng 01 cung có hướng từ A  B nếu
như A gửi email cho B. Dữ liệu ban đầu khi chưa qua tiền xử lý là một đồ thị có hướng, bao gồm 1.292 nút và
1.000.000 cạnh. Qua phân tích thấy dữ liệu eGov tồn tại 3 loại nhiễu, không thể hiện được mối quan hệ công việc:
 Loại 1: Người gửi và người nhận trùng nhau.
 Loại 2: Người gửi gửi tin nhắn đại chúng (broadcast).
 Loại 3: Các thư lạc hoặc tương tác có số lượng thư quá ít, thư không thể hiện được mối quan hệ công việc.
2 ĐỊNH DẠNG CHO VIỆC IN ẤN BÀI BÁO TRONG KỶ YẾU CỦA FAIR

Nhiễu ở loại 1 được xử lý như sau: So sánh Id người gửi và Id người nhận để kiểm tra xem có trùng nhau hay
không. Đánh dấu và xoá các trường hợp trùng nhau. Sau khi xử lý, bộ dữ liệu còn 968.706 cạnh.
Nhiễu ở loại 2 được xử lý như sau: Đầu tiên, xác định số lượng người trong đơn vị. Sau đó, tính xem ở mỗi lần
gửi, người gửi gửi tin đến bao nhiêu người. Cuối cùng, loại những trường hợp gửi tin đến vượt quá số lượng người
trong đơn vị của người đó.
Nhiễu ở loại 3 được xử lý như sau: Đầu tiên, tính xem số lần gửi tin cho nhau của mỗi cặp hai người là bao
nhiêu. Sau đó sẽ đưa mạng dữ liệu vừa xử lý vào phần mềm phân tích mạng Gephi để lọc những trường hợp tương tác
một chiều bằng cách sử dụng bộ lọc Mutual Edge. Sau khi loại bỏ những trường hợp tương tác một chiều, chúng tôi thu
được một mạng có hướng, có trọng số. Sau khi đã loại bỏ các tương tác một chiều, chúng tôi đã tạo một mạng vô
hướng bằng cách cộng tổng trọng số của hai chiều liên kết của mạng có hướng hiện tại. Biểu đồ histogram phân bố
trọng số mạng lưới như hình 1.
Sau khi đã loại bỏ các tương tác một chiều, ta tạo một mạng vô hướng bằng cách cộng tổng trọng số của hai
chiều liên kết của mạng có hướng hiện tại.

Hình 1. Biểu đồ histogram phân bố trọng số mạng lưới sau khi cộng tổng trọng số của hai chiều liên kết
Mạng dữ liệu eGov sau khi xử lý các trường hợp gây nhiễu bao gồm 1.163 nốt và 11. 136 cạnh. Trong đó, mỗi
người đại diện cho một nốt, hai nốt trong mạng được kết nối với nhau trong hệ thống eGov.
2.2. Mô hình hoá dữ liệu
Để mô hình hoá mạng lưới eGov ta sử dụng phần mềm Gephi, trước tiên từ dữ liệu ban đầu ta sẽ tạo hai file
định dạng *.csv chứa danh sách các nốt và danh sách các cạnh cần biểu diễn. Sau đó lần lượt đưa file chứa dữ liệu các
nốt và các cạnh vào Gephi để tạo mạng lưới.
Hình ảnh mạng lưới eGov được mô hình hóa cho ra kết quả như hình 2.

Hình 2. Mạng lưới eGov được xây dựng từ dữ liệu email gồm 02 trường: ID người gửi, ID người nhận
2.3. Thuật toán phân tích dữ liệu email trên đồ thị
Bài báo sử dụng thuật toán K-core để phân tích bộ dữ liệu. Thuật toán dùng để cài đặt được mô tả như sau:
 Khởi tạo danh sách chứa kết quả đầu ra L.
 Tính số bậc dv của mỗi đỉnh v trong G, là số lượng các đỉnh kề với v mà chưa có trong L.
Trần Văn Lăng, Phan Thị Quế Anh, Đỗ Năng Toàn 3

 Khởi tạo một mảng D sao cho D[i] chứa một danh sách các đỉnh v không có trong L mà dv = i.
 Khởi tạo biến k bằng 0.
 Lặp lại n lần:
 Quét các giá trị trong mảng D[0], D[1], … cho đến khi tìm được i mà D[i] không rỗng.
 Gán k = max(k, i)
 Chọn một đỉnh v từ D[i]. Thêm v vào đầu mảng L và xoá đỉnh v khỏi D[i].
 Với mỗi đỉnh kề w của v mà chưa có trong L, trừ dw đi 1 và di chuyển đỉnh w tới vị trí trong mảng D tương
ứng với dw.
Kết thúc thuật toán, k sẽ chứa độ phân rã của G (K-Core max), L sẽ chứa một danh sách các đỉnh được sắp xếp
theo thứ tự giá trị độ phân rã tăng dần.
III. KẾT QUẢ VÀ THẢO LUẬN
3.1. Mô-đun của hệ thống
Sau khi mạng lưới được tạo ra, chúng tôi dùng thuật toán moduarity cực đại [10] để phát hiện các mô đun (cụm)
trong mạng lưới eGov. Kết quả có 16 mô-đun được phát hiện đánh số thứ tự từ 0 đến 15 như Hình 3.

Hình 3. 16 mô đun của mạng eGgov được phát hiện bằng thuật toán modularity cực đại
Bảng 1. Bảng liệt kê các mô-đun trong hệ thống

Module ID Nodes Edges %


11 199 1719 17,11
8 167 1037 14,36
1 103 675 8,86
0 96 889 8,25
2 96 630 8,25
3 75 527 6,45
12 72 359 6,19
6 64 364 5,50
14 55 212 4,73
4 53 316 4,56
9 44 140 1,26
5 39 128 3,35
13 39 387 3,35
7 32 190 2,75
10 20 76 1,72
15 9 14 0,77
Bảng 1 liệt kê các mô-đun trong hệ thống, đi kèm với số phần trăm của số lượng nốt trong từng mô-đun theo thứ
tự giảm dần. Trong Bảng 1, có thể thấy mô-đun lớn nhất là mô-đun 11, lớn thứ hai là mô-đun 8, nhỏ nhất là mô-đun
15. Sau khi đối chiếu từng mô đun với danh sách cán bộ của từng đơn vị, chúng tôi nhận thấy hầu hết các mô đun của
mạng chính là các đơn vị chức năng trong trường. Điều này cho thấy rằng các mô đun của dữ liệu email phát hiện bởi
4 ĐỊNH DẠNG CHO VIỆC IN ẤN BÀI BÁO TRONG KỶ YẾU CỦA FAIR

thuật toán phản ánh các chức năng hoạt động của một hệ thống thực tế. Nói cách khác, từ dữ liệu email có thể xác định
được các nhóm chức năng của hệ thống thực bằng thuật toán modularity cực đại. Đặc biệt, có một vài mô đun như Mô-
đun 11 bao gồm 4 đơn vị, số lượng người chiếm phần lớn từ khoa Ngoại ngữ với 195 người (Hình 4); mô-đun 8 bao
gồm 25 đơn vị, số lượng người được phân bố chủ yếu ở các trung tâm (Hình 5). Các mô đun này khác biệt với các môn
đun khác, đóng vai trò liên kết các mô đun khác ở trong mạng lưới. Hình 6 là một đồ thị vô hướng có trọng số mô tả sự
liên kết giữa các mô-đun với nhau. Trong đó các nốt sẽ đại diện cho các mô-đun, hai mô-đun được coi là có liên kết với
nhau nếu tồn tại đơn vị chung giữa hai mô-đun, trọng số của hai mô-đun liên kết với nhau được tính bằng số lượng các
đơn vị chung giữa hai mô-đun. Các nốt có bậc cao sẽ có màu đậm hơn các nốt có bậc thấp và nếu hai mô-đun có trọng
số cạnh nối giữa chúng càng cao thì cạnh đó được vẽ càng đậm. Hình 8 cho thấy, mô-đun 5 và mô-đun 7 độc lập với
các mô-đun khác và tách biệt khỏi hệ thống. Mô-đun 8 có số bậc cao nhất (có số lượng các mô-đun chung với các mô-
đun khác là nhiều nhất), đóng vai trò là trung tâm của mạng và có ảnh hưởng phần lớn đến các mô-đun còn lại trong
mạng [11]. Mô-đun 2, mô-đun 8, và mô-đun 14 tạo thành một tam giác liên kết chặt chẽ với nhau, đặc biệt là hai mô-
đun 2 và mô-đun 8.
3.2. Kết quả phân tích K-Core
Mô-đun 11 bao gồm 4 đơn vị, số lượng người chiếm phần lớn từ khoa Ngoại ngữ với 195 người (hình 4).

Hình 4. Các đơn vị trong mô-đun 11


Mô-đun 8 bao gồm 25 đơn vị, số lượng người được phân bố chủ yếu ở các trung tâm (hình 5).

Hình 5. Các đơn vị trong mô-đun 8


Core của một hệ thống là một cụm bộ phận đại diện cho các chức năng cơ bản của cả hệ thống. Nói chung, các
mạng có thể được phân tách thành lõi dày đặc và ngoại vi được kết nối lỏng lẻo bằng cách sử dụng phương pháp phân
rã mạng. Phân rã lõi K dựa trên bậc của nút thường được sử dụng để xác định các tập hợp con cụ thể của mạng, được
gọi là lõi k (k ≥ 1), trong đó k biểu thị mức lõi [12]. Lõi k của mạng G bao gồm một tập hợp con các nút trong mạng G,
được lấy theo quy tắc cắt tỉa sau. Với một mạng, tất cả các nút có bậc <k được loại bỏ, cùng với các tương tác đi qua
của chúng, khỏi mạng. Quá trình loại bỏ này được lặp lại cho đến khi bậc của mọi nút trong mạng còn lại là ≥ k. Lõi k
biểu thị tập hợp các nút còn lại và do đó, lõi k1 là tập con của lõi k2 nếu k1 ≥ k2. Dựa trên định nghĩa K-core của một
mạng lưới với K là số bậc tối thiểu của các nút lõi, chúng tôi đã tìm ra mạng dữ liệu eGov có chỉ số K-Core tối đa bằng
K=19. Nói cách khác, hệ thống dữ liệu email có 19 cụm core như Hình 7. Trong Hình 7, các nốt có chỉ số K-Core thấp
Trần Văn Lăng, Phan Thị Quế Anh, Đỗ Năng Toàn 5

sẽ nằm ở vị trí bên rìa của hệ thống và có màu tối. Càng vào bên trong lõi hệ thống, các nốt có chỉ số K-Core cao hơn
và màu nóng hơn. Nói cách khác, các nốt nằm ở bên trong lõi hệ thống có số bậc cao hơn các nốt ở xung quanh và nắm
vai trò chức năng cơ bản của hệ thống. Bảng 2 liệt kê danh sách 27/47 đơn vị xuất hiện trong lõi của hệ thống, được
sắp xếp theo thứ tự bảng chữ cái và tỉ lệ % tham gia K-Core trong cùng của từng đơn vị. Lõi trong cùng gồm 27 đơn vị
chức năng bao gồm: Ban giám hiệu, Khoa, Phòng, Trung tâm, và Viện nghiên cứu là các chức năng chủ chốt của một
trường đại học. Nói cách khác, những người nằm trong lõi là đối tượng tác nghiệp chủ chốt của trường đại học. Có thể
ứng dụng kết quả phân tích này để xếp lương cho cán bộ nhân viên trong trường với 19 bậc lương tương ứng với 19
lớp lõi.

Hình 6. Sự liên kết giữa các mô-đun trong mạng dữ liệu eGov

Hình 7. Mạng dữ liệu Egov được phân lớp theo chỉ số K-Core
Bảng 2. Danh sách các đơn vị thuộc vào lõi trong cùng của hệ thống

STT Tên đơn vị %


1 Ban Giám hiệu 25.00
2 Khoa Công nghệ may & Thiết kế thời trang 2.90
3 Khoa Cơ khí 3.80
4 Khoa Công nghệ hoá 8.10
5 Khoa Công nghệ Ôtô 2.70
6 Khoa Công nghệ thông tin 5.00
7 Khoa Điện 2.70
8 Khoa Điện tử 4.60
9 Khoa Du lịch 4.10
10 Khoa Giáo dục thể chất 7.60
11 Khoa Kế toán – Kiểm toán 2.20
12 Khoa Lý luận chính trị - Pháp luật 2.40
13 Khoa ngoại ngữ 1.40
14 Khoa Quản lý kinh doanh 1.90
6 ĐỊNH DẠNG CHO VIỆC IN ẤN BÀI BÁO TRONG KỶ YẾU CỦA FAIR

15 Phòng Đào tạo 68.40


16 Phòng Hợp tác quốc tế 50.00
17 Phòng Khoa học công nghệ 80.00
18 Phòng Tài chính - Kế toán 16.67
19 Phòng Thanh tra giáo dục 11.11
20 Phòng Tổ chức – Hành chính 47.60
21 Trung tâm đánh giá kỹ năng nghề và quan hệ doanh nghiệp 62.50
22 Trung tâm Công nghệ thông tin 11.70
23 Trung tâm Đào tạo quốc tế 42.80
24 Trung tâm Đào tạo sau Đại học 33.33
25 Trung tâm Quản lý chất lượng 9.50
26 Trung tâm Việt – Hàn 6.80
27 Viện Công nghệ - HaUI 16.67

3.3. Kết quả phân tích phân bố số bậc


Số bậc trung bình của mỗi nốt là 19.15, với phương sai σ2 = 409.37, độ lệch chuẩn σ = 20.23, số bậc thấp nhất
và cao nhất tương ứng là 1 và 151. Như vậy trung bình mỗi người sẽ tương tác với khoảng 19 người khác, ít nhất là 1
và nhiều nhất là 151. Biểu đồ Scatter thể hiện sự phân phối các bậc trong mạng lưới như Hình 8. Trong biểu đồ hầu hết
các nốt có số bậc tập trung từ 1 đến 30. Nhưng có tồn tại một số ít các nốt có số bậc trên 60. Như vậy, theo biểu đồ và
lý thuyết đã đề cập ở trên thì mạng lưới dữ liệu eGov thuộc dạng mạng Scale-free với các tính chất về sự miễn dịch,
khoảng cách, thẩm thấu đã được đề cập trong [13].

Hình 8. Biểu đồ scatter thể hiện sự phân phối các bậc trong mạng lưới
3.4. Kết quả về mối tương quan giữa hệ số phân cụm và số bậc
Hệ số phân cụm (Ci) chỉ ra sự gắn kết cục bộ của một nốt hay xác suất để hai người tương tác với một người thứ
ba cũng trực tiếp tương tác với nhau. Một giá trị (Ci) lớn có nghĩa là nốt i có kết nối chặt chẽ với một hệ thống các nốt
kề nó hơn. Trong khi đó hệ số phân cụm trung bình (C) đo mật độ của toàn bộ các nốt trong mạng. Hệ số phân cụm
trung bình (C) của mạng dữ liệu eGov là 0,482. Hệ số phân cụm của một nốt phản ánh sự kết nối tới các nốt kề với nó.
Nếu chọn hai nốt kề của một nốt bất kỳ trong mạng dữ liệu eGov thì có khả năng là hai nốt kề đó sẽ kết nối trực tiếp
với nhau là 48,2%, do hệ số phân cụm trung bình (C) của mạng dữ liệu eGov là 0,482.

Hình 9. Biểu đồ scatter mô tả sự tương quan giữa hệ số phân cụm và số bậc


Theo hình 9, mạng lưới có thể được chia ra làm 02 phần. Phần một khi giá trị của số bậc nhỏ hơn 60, có các kết
nối dày đặc. Phần thứ hai khi giá trị của số bậc lớn hơn 60, thể hiện sự tương quan âm giữa hệ số phân cụm với số bậc,
hệ số phân cụm giảm xuống một cách nhanh chóng, nơi có các kết nối thưa hơn và có xu hướng tuyến tính. Các nốt
liên kết trực tiếp với các nốt hub thì thường ít tương tác với nhau.
Trần Văn Lăng, Phan Thị Quế Anh, Đỗ Năng Toàn 7

IV. KẾT LUẬN


Bài báo đã phân tích mạng dữ liệu eGov bằng phương pháp tiếp cận mạng lưới. Trong đó, mạng dữ liệu eGov
được tạo thành bởi sự kết hợp các nốt đại diện cho các cán bộ giáo viên và được liên kết bởi các cạnh đại diện cho sự
tương tác giữa các cán bộ giáo viên trong trường. Đặc điểm tôpô của mạng dữ liệu cho thấy mạng dữ liệu eGov thuộc
dạng mạng Scale-Free, được đặc trưng bởi có các hub lớn, nơi có các nốt có bậc cao hơn so với các nốt khác trong
mạng và đại diện cho những người có tầm ảnh hưởng lớn trong trường. Các kết quả phân tích kiến trúc có thể được
tóm tắt như như sau:
 Mạng dữ liệu eGov thuộc dạng mạng Scale-Free.
 Mạng dữ liệu được chia ra làm 16 mô-đun, trong đó mô-đun 8 là trung tâm, mô-đun 5 và mô-đun 7 độc
lập với hệ thống. Mô-đun 11 có số lượng người nhiều nhất.
 Mạng dữ liệu có số K-Core lớn nhất là 19.
 Có 20/47 đơn vị thuộc vào vị trí lõi trong hệ thống.
 Mỗi mô-đun thường có 2 đến 3 người là “leader” quản lý mô-đun đó, riêng mô-đun 2, mô-đun 8 và mô-
đun 14 là ngoại lệ; ba mô-đun này có liên hệ mật thiết với nhau và có kiến trúc rất bền vững.
 Trung bình mỗi người sẽ tương tác với khoảng 19 người khác, ít nhất là 1 và nhiều nhất là 151.
 Xác suất để hai người cùng tương tác với một người thứ ba cũng tương tác trực tiếp với nhau là 48.2%.

V. TÀI LIỆU THAM KHẢO


[1] Hossain, M.M. and S. Alam, A complex network approach towards modeling and analysis of the Australian
Airport Network. Journal of Air Transport Management, 2017. 60: p. 1-9.
[2] Zou, Y., et al., Complex network approaches to nonlinear time series analysis. Physics Reports, 2019. 787: p. 1-97.
[3] Háznagy, A., et al. Complex network analysis of public transportation networks: A comprehensive study. in 2015
International Conference on Models and Technologies for Intelligent Transportation Systems (MT-ITS). 2015.
[4] Zubin, J., A technique for measuring like-mindedness. The Journal of Abnormal and Social Psychology, 1938.
33(4): p. 508-516.
[5] Saxena, A., et al., A review of clustering techniques and developments. Neurocomputing, 2017. 267: p. 664-681.
[6] Linda, O. and M. Manic, General Type-2 Fuzzy C-Means Algorithm for Uncertain Fuzzy Clustering. IEEE
Transactions on Fuzzy Systems, 2012. 20(5): p. 883-897.
[7] Melin, P. and O. Castillo, A review on type-2 fuzzy logic applications in clustering, classification and pattern
recognition. Applied Soft Computing, 2014. 21: p. 568-577.
[8] Havens, T.C., et al., Fuzzy c-Means Algorithms for Very Large Data. IEEE Transactions on Fuzzy Systems, 2012.
20(6): p. 1130-1146.
[9] Bharill, N., A. Tiwari, and A. Malviya, Fuzzy Based Scalable Clustering Algorithms for Handling Big Data Using
Apache Spark. IEEE Transactions on Big Data, 2016. 2(4): p. 339-352.
[10] Tran, T.-D. and Y.-K. Kwon, The relationship between modularity and robustness in signalling networks. Journal
of The Royal Society Interface, 2013. 10(88): p. 20130771.
[11] Truong, C.-D., T.-D. Tran, and Y.-K. Kwon, MORO: a Cytoscape app for relationship analysis between
modularity and robustness in large-scale biological networks. BMC Systems Biology, 2016. 10(4): p. 122.
[12] Tran, T.-D. and Y.-K. Kwon, Hierarchical closeness-based properties reveal cancer survivability and biomarker
genes in molecular signaling networks. PLOS ONE, 2018. 13(6): p. e0199109.
[13] Broido, A.D. and A. Clauset, Scale-free networks are rare. Nature Communications, 2019. 10(1): p.
1017.Author1_Name, Author2_Name, Web Caching and Replication, Addison-Wesley(Publication_ Name), USA,
2014

APPLYING COMPLEX NETWORK IN MINING USER INTERACTION DATA


Nguyen Minh Tan, Tran Tien Dung
ABSTRACT—A management information system is a computerized product of an organization's or enterprise's business processes.
By using the system modeling and analysis method according to network approach, the paper analyzes a complex network of user
interaction data of management information system. The data is a directed network of 1292 nodes and 968706 edges. The analysis
results obtained 16 modules, 19 core classes, the average order of each note is 19.15, with variance 𝜎 2 = 409.37, standard
deviation σ = 20.23, average clustering coefficient is 0.482. From that, the analysis of the module structure, the relationship
between the modules as well as the characteristics of the data network core. The results can be used to validate the system and
support the process design.

You might also like