Các vấn đề trong phân tích mạng đồng tác giả

Các vấn đề trong phân tích mạng đồng tác giả
Abstract
Hợp tác khoa học là một hiện tượng phức tạp nhằm cải thiện việc chia sẻ năng lực
và sản xuất kiến thức khoa học mới. Phân tích mạng xã hội (Social Network Analysis)
thường được sử dụng để mô tả các mô hình cộng tác khoa học được xác định bởi mối
quan hệ đồng tác giả (co-authorship relationships). Các giai đoạn khác nhau của quá trình
phân tích cộng tác có liên quan đến: thu thập dữ liệu (data collection), thiết lập ranh giới
mạng (network boundary setting), định nghĩa ma trận dữ liệu quan hệ (relational data
matrix definition), phân tích dữ liệu (data analysis) và giải thích kết quả (interpretation
of results). Mục đích của bài viết này là chỉ ra một số vấn đề nảy sinh trong các giai đoạn
khác nhau này, nêu bật: (i) việc sử dụng các cơ sở lưu trữ địa phương so với cơ sở dữ
liệu thư mục quốc tế; (ii) việc sử dụng các cách tiếp cận khác nhau để thiết lập ranh giới
trong toàn bộ mạng lưới; (iii) định nghĩa về ma trận dữ liệu đồng tác giả (các mối quan
hệ nhị phân và có trọng số) và (iv) phân tích và giải thích các biện pháp mạng cho dữ
liệu đồng tác giả. Chúng tôi thảo luận về các lựa chọn khác nhau có thể được thực hiện
trong các giai đoạn này trong một ví dụ minh họa về dữ liệu thực tế đề cập đến sự hợp tác
khoa học giữa các nhà nghiên cứu trực thuộc một tổ chức học thuật. Đặc biệt, chúng tôi
so sánh các độ đo mạng (network measures) cấp độ toàn cầu (global level) và cấp độ tác
nhân (actor-level) được tính toán từ mạng đồng tác giả nhị phân và có trọng số trong các
lĩnh vực khác nhau.
1. Introdution
Hợp tác khoa học được tạo ra bởi sự phức tạp ngày càng tăng của kiến thức và bởi
nhu cầu về các kỹ năng chuyên môn và liên ngành hơn trong nghiên cứu (Gibbons et al.
1994). Đó là một hiện tượng được đặc trưng bởi các loại tương tác khác nhau nhằm cải
thiện giao tiếp, chia sẻ năng lực và sản xuất kiến thức khoa học.
Phân tích về hợp tác khoa học đã được nghiên cứu trong khoa học xã hội (Endersby
1996; Moody 2004; Goyal và cộng sự 2006; Bakkalbasi và Krichel 2006) cũng như trong
khoa học tự nhiên (Albert và Barabasi 2002; Newman 2004). Tuy nhiên, rất ít bài viết đề
cập đến sự so sánh giữa các ngành khác nhau (ví dụ: Hargens 1975; Yoshikane và
Kegeura 2004). Mặc dù sự hợp tác thể hiện xu hướng tích cực trong hầu hết các lĩnh vực
(xem Hudson 1996; Babchuk và cộng sự 1999; Moody 2004), xu hướng này xuất hiện ở
các mức độ khác nhau trong mỗi lĩnh vực trên cơ sở tổ chức nội bộ của nó. Thật vậy, các
1
nhà nghiên cứu về khoa học tự nhiên có nhiều khả năng làm việc trong môi trường phòng
thí nghiệm lớn hơn và điều này dẫn đến kết quả nghiên cứu dựa trên nhóm (Laband và
Tollison 2000), trong khi trong khoa học xã hội điều này không thường xuyên xảy ra.
Theo Moody (2004), lý do chính cho sự khác biệt này nằm ở việc sử dụng các phương
pháp định lượng có thể tạo điều kiện cho sự hợp tác giữa những người có kỹ năng kỹ
thuật khác nhau. Trong các ngành có đặc điểm ít sử dụng các phương pháp định lượng,
các nhà nghiên cứu có xu hướng làm việc độc lập hơn. Bất chấp thái độ này, ngày nay
trong Khoa học Xã hội, xu hướng hợp tác làm việc của các nhà nghiên cứu ngày càng
tăng (Babchuk et al. 1999).
Như Acedo và cộng sự. (2006) báo cáo, nghiên cứu về sự hợp tác giữa các nhà nghiên
cứu đã xem xét các yếu tố giải thích lý do tại sao các tác giả quyết định hợp tác trong
nghiên cứu, loại mối quan hệ hiện có giữa các nhà nghiên cứu và ý tưởng rằng sự hợp tác
tạo ra một mạng lưới giữa các nhà nghiên cứu. Tùy theo loại mối quan hệ, sự hợp tác có
thể được đo lường thông qua một số hoạt động, bao gồm cả những hoạt động ngầm (lời
khuyên, hiểu biết sâu sắc và chia sẻ dữ liệu). Một trong những cách hữu hình và chính
thức nhất để phân tích sự hợp tác là đếm các bài báo có đồng tác giả (các bài báo có
nhiều tác giả) (Melin và Persson 1996; Glanzel và Schubert 2005). Mặc dù điều này chỉ
thể hiện một phần chỉ báo, đồng tác giả là thông tin được sử dụng thường xuyên nhất
trong việc khám phá các mô hình hợp tác giữa các nhà nghiên cứu.
Một số công trình đã tập trung vào việc phân tích quyền đồng tác giả bằng cách sử
dụng các kỹ thuật Phân tích Mạng Xã hội (Wasserman và Faust 1994). Ví dụ, để phác
thảo các đặc điểm cấu trúc của việc phổ biến kiến thức giữa các nhà nghiên cứu về Vật lý
và nghiên cứu Y sinh (Barabasi và cộng sự 2002; Newman 2004); để mô tả các đặc tính
và xu hướng của mạng lưới hợp tác giữa các nhà nghiên cứu công bố trên các tạp chí
Kinh tế (Goyal et al. 2006) và Xã hội học (Moody 2004); để điều tra các đặc tính của
mạng lưới đồng tác giả được xác định cho các nhà thống kê liên kết với các trường đại
học nổi tiếng của Hoa Kỳ (Said và cộng sự 2010).
Chúng ta có thể thấy rằng một số giai đoạn kế tiếp đặc trưng và ảnh hưởng đến định
nghĩa mạng đồng tác giả, từ thu thập dữ liệu và thiết lập ranh giới mạng đến định nghĩa
ma trận dữ liệu và giải thích kết quả. Mục đích của bài viết này là chỉ ra một số vấn đề
phát sinh trong các giai đoạn này. Đầu tiên chúng ta thảo luận về những lựa chọn khác
nhau có thể được thực hiện trong một ví dụ minh họa liên quan đến nghiên cứu mạng lưới
đồng tác giả của các nhà nghiên cứu tham gia vào bốn lĩnh vực trong một tổ chức học
2
thuật. Sau đó, bắt đầu từ ma trận dữ liệu nhị phân và có trọng số liên quan đến sự hiện
diện, cường độ và luồng kiến thức trong mạng đồng tác giả, chúng tôi so sánh các thước
đo mạng cấp độ toàn cầu và cấp tác nhân.
Bài báo được tổ chức như sau: trong Mục. 2 chúng tôi giới thiệu các vấn đề chính
trong các giai đoạn xác định và phân tích mạng đồng tác giả. Trong các Sect. 3 và 4,
chúng tôi thảo luận về các lựa chọn được thực hiện trong các giai đoạn này bằng một ví
dụ minh họa. Cụ thể, tại Sect. 3 việc thu thập dữ liệu, ranh giới mạng và định nghĩa ma
trận dữ liệu sẽ được thảo luận; khi ở trong Sect. 4 các kết quả chính thu được từ việc phân
tích mạng lưới các ma trận dữ liệu đồng tác giả khác nhau được báo cáo. Sect. 5 trình bày
một số nhận xét kết luận.
2. Definition and analysis of co-authorship networks

Sau đây, chúng tôi thảo luận về các vấn đề chính phát sinh trong định nghĩa và phân
tích mạng của mạng đồng tác giả, nêu bật các mục tiêu và tính sẵn có của dữ liệu khác
nhau có thể dẫn đến các lựa chọn khác nhau như thế nào.
2.1. Data collection
Ngay cả khi sự hợp tác giữa các nhà nghiên cứu được xác định thông qua đồng tác
giả, vẫn tồn tại khả năng xem xét nhiều nguồn dữ liệu không đồng nhất để thu thập dữ
liệu thư mục (bibliographic data). Thông thường, những dữ liệu này được thu thập bằng
cách sử dụng các tài liệu lưu trữ (được cung cấp bởi cơ sở dữ liệu thư mục trong nước và
quốc tế) thay vì các cuộc phỏng vấn hoặc bảng câu hỏi được gửi trực tiếp đến các tác giả
của bài báo.
Nếu mối quan tâm là thu thập dữ liệu về nhóm đối tượng mục tiêu trong một cộng
đồng khoa học cụ thể thì loại kho lưu trữ được sử dụng có thể ảnh hưởng đến cả định
nghĩa về mối quan hệ trong mạng đồng tác giả và mức độ bao phủ của nhóm đối tượng.
Ví dụ, cơ sở dữ liệu quốc tế được sử dụng thường xuyên nhất để xác định mạng đồng tác
giả có thể không bao gồm tất cả các loại ấn phẩm (ví dụ: sách, bài báo trên tạp chí địa
phương, báo cáo kỹ thuật và kỷ yếu hội nghị quốc gia) do các nhà nghiên cứu tạo ra như
một phương tiện để giao tiếp kết quả nghiên cứu của họ (Hicks 1999). Trong trường hợp
này, sự sẵn có của các kho lưu trữ địa phương có thể là cách tốt nhất để có được lượng
lớn các bài báo được xuất bản bởi tất cả các nhà nghiên cứu tham gia vào cộng đồng khoa
học vì các kho lưu trữ này tính đến tất cả các loại ấn phẩm (từ các bài báo trên các tạp chí
quốc tế có tác động cao đến giấy tờ làm việc) cũng như định hướng quốc gia trong sản
xuất khoa học. Tuy nhiên, việc truy xuất dữ liệu từ kho lưu trữ cục bộ thường khó khăn vì
3
quyền truy cập có thể bị hạn chế và thông tin có thể không được cập nhật liên tục. Một
cách phù hợp để giải quyết loại khó khăn này là tích hợp các cơ sở dữ liệu địa phương và
quốc tế khác nhau để xác định mối quan hệ đồng tác giả thông qua tất cả các loại kết quả
nghiên cứu.
Đoạn trích trên nói về cách thu thập dữ liệu trong một cộng đồng khoa học cụ thể và
cách sử dụng các nguồn lưu trữ để định nghĩa mối quan hệ đồng tác giả trong một mạng
lưới đồng tác giả. Nó nhấn mạnh rằng việc sử dụng các cơ sở dữ liệu quốc tế phổ biến có
thể không đủ để bao phủ mọi loại tài liệu xuất bản được sử dụng trong cộng đồng khoa
học, bao gồm sách, bài báo trong tạp chí địa phương, báo cáo kỹ thuật và các tuyển tập
hội nghị quốc gia. Do đó, việc sử dụng các nguồn lưu trữ địa phương có thể là cách tốt
nhất để thu thập dữ liệu từ tất cả các nhà nghiên cứu trong cộng đồng khoa học. Tuy
nhiên, việc truy cập vào các nguồn lưu trữ địa phương có thể bị hạn chế và thông tin có
thể không được cập nhật thường xuyên. Vì vậy, để vượt qua những khó khăn này, việc
tích hợp các cơ sở dữ liệu địa phương và quốc tế là cách tiếp cận phù hợp để xây dựng
mối quan hệ đồng tác giả thông qua mọi loại sản phẩm nghiên cứu.
2.2. Setting network boundaries
Việc xác định ranh giới mạng thường khó đạt được do có các ranh giới mềm và/hoặc
mơ hồ. Trong các nghiên cứu về mạng lưới, một thiết kế toàn bộ mạng lưới hoặc một
thiết kế lấy cái tôi làm trung tâm có thể được sử dụng (Marsden 2005). Nếu theo đuổi
một thiết kế toàn mạng, một tập hợp các tác nhân có liên quan với nhau được coi là một
tập thể xã hội có giới hạn. Khi sử dụng thiết kế lấy cái tôi làm trung tâm, nghiên cứu sẽ
tập trung vào một số tác nhân trọng tâm và mối quan hệ của họ ở địa phương.
Đoạn trích này đề cập đến khó khăn trong việc định nghĩa ranh giới của mạng lưới do sự
hiện diện của các ranh giới mềm hoặc mơ hồ. Trong nghiên cứu về mạng lưới, có thể sử
dụng một thiết kế toàn bộ mạng lưới hoặc một thiết kế egocentric. Thiết kế toàn bộ mạng
lưới xem một tập hợp các tác nhân có liên quan nhau như là một tập thể xã hội có ranh
giới xác định. Khi sử dụng một thiết kế egocentric, nghiên cứu tập trung vào một số tác
nhân trung tâm và mối quan hệ của họ trong phạm vi cụ thể.
Khi mối quan tâm là mô tả mô hình đồng tác giả giữa các nhà nghiên cứu trong
một cộng đồng khoa học, thì cách tiếp cận toàn mạng có thể được xem xét và vấn đề ở
đây liên quan đến quyết định về tác giả nào nằm trong mạng. Laumann và cộng sự.
(1989) xác định ba chiến lược xác định ranh giới chung, như được báo cáo trong Marsden
(2005): (i) cách tiếp cận theo vị trí (positional) dựa trên đặc điểm của các chủ thể hoặc
4
tiêu chí thành viên chính thức (ví dụ: việc tuyển dụng của một tổ chức); (ii) cách tiếp cận
dựa trên sự kiện (event-based) dựa trên việc tham gia vào một số loại sự kiện quan hệ
(các tác nhân được kết nối bằng cách cùng tham dự các sự kiện); (iii) cách tiếp cận mang
tính quan hệ (relational) được hướng dẫn bởi các mối liên kết xã hội giữa các chủ thể.
Cách tiếp cận theo positional có thể được sử dụng bất cứ khi nào mối quan tâm nằm ở
các mô hình nội bộ tổ chức hoặc nội bộ ngành của các mối quan hệ đồng tác giả (có thể
tìm thấy ví dụ về cách tiếp cận này trong Yousefi-Nooraie và cộng sự 2008; Gossart và
Ozman 2009; Ferligoj và Kronegger 2009 ). Điểm bắt đầu là danh sách các nhà nghiên
cứu trực thuộc một tổ chức nghiên cứu hoặc ngành nghiên cứu nhất định và mối quan tâm
là hướng tới các mối quan hệ của họ, bỏ qua các mối quan hệ có thể có với các tác giả
bên ngoài. Cách tiếp cận dựa trên sự kiện được sử dụng bất cứ khi nào một nghiên cứu
dựa trên nội dung của cơ sở dữ liệu nghiên cứu nhất định mà không có danh sách các tác
nhân để đưa vào mạng lưới đồng tác giả. Trong trường hợp này, người ta ngầm cho rằng
việc đồng tác giả một bài báo đại diện cho một sự kiện quan hệ cụ thể. Nói cách khác, các
tác giả tham gia vào mạng là những người duy nhất được tìm thấy trong cơ sở dữ liệu.
Cách tiếp cận này được sử dụng đặc biệt khi dữ liệu được lấy ra từ cơ sở dữ liệu thư mục
chuyên ngành (xem ví dụ các bài báo của Newman 2004; Moody 2004). Cách tiếp cận
quan hệ, được Doreian và Woodward (1992) nêu ra như một thủ tục lựa chọn mở rộng,
thể hiện một chiến lược phù hợp khi mục đích là mô tả mô hình hợp tác trong một nhóm
tác giả tham gia vào một ngành học và/hoặc liên kết với một tổ chức cụ thể. Thật vậy,
cách tiếp cận này cho phép xác định ranh giới mạng bắt đầu từ danh sách tạm thời các tác
nhân “cố định” được coi là có trong mạng và sau đó thêm các tác nhân khác bằng các kết
nối được quan sát từ “lõi” ban đầu này.
Đoạn trích này đề cập đến ba phương pháp tiếp cận khác nhau trong việc nghiên cứu mối
quan hệ đồng tác giả: tiếp cận vị trí (positional approach), tiếp cận dựa trên sự kiện
(event-based approach), và tiếp cận quan hệ (relational approach).
1. Tiếp cận vị trí (positional approach): Tiếp cận này được sử dụng khi quan tâm tới các
mẫu mối quan hệ đồng tác giả bên trong tổ chức hoặc bên trong một lĩnh vực học thuật cụ
thể. Nó bắt đầu với một danh sách các nhà nghiên cứu liên kết với một tổ chức nghiên
cứu cụ thể hoặc một lĩnh vực học thuật cụ thể và quan tâm tới mối quan hệ giữa họ, bỏ
qua các mối quan hệ có thể được kích hoạt với các tác giả bên ngoài. Các ví dụ của
5
phương pháp này được thấy trong các nghiên cứu của Yousefi-Nooraie và cộng sự
(2008); Gossart và Ozman (2009); Ferligoj và Kronegger (2009).
2. Tiếp cận dựa trên sự kiện (event-based approach): Phương pháp này được sử dụng khi
nghiên cứu dựa trên nội dung của một cơ sở dữ liệu nghiên cứu cụ thể, mà không có danh
sách các nhà nghiên cứu để bao gồm trong mạng lưới đồng tác giả. Trong trường hợp
này, giả định ngầm định rằng việc đồng tác giả một bài báo đại diện cho một sự kiện
quan hệ cụ thể. Phương pháp này đặc biệt hữu ích khi dữ liệu được thu thập từ các cơ sở
dữ liệu tài liệu học thuật theo lĩnh vực (disciplinary bibliographic databases).
3. Tiếp cận quan hệ (relational approach): Phương pháp này, như được mô tả trong
Doreian và Woodward (1992), là một quy trình lựa chọn mở rộng, đại diện cho một chiến
lược phù hợp khi mục đích là mô tả mẫu hợp tác trong một dân số các tác giả liên quan
đến một lĩnh vực học thuật cụ thể hoặc liên kết với một tổ chức nghiên cứu cụ thể.
Phương pháp này cho phép xác định ranh giới mạng lưới bắt đầu từ một danh sách tạm
thời các nhà "cố định" được cho là trong mạng lưới và sau đó thêm các nhà khác thông
qua các mối quan hệ quan sát được từ "lõi" ban đầu này.
Sự kết hợp của các phương pháp này cũng có thể cực kỳ hữu ích trong thực tế. Ví
dụ: ranh giới mạng đồng tác giả có thể được thiết lập bằng cách sử dụng kết hợp các
phương pháp tiếp cận quan hệ và vị trí. Bắt đầu từ danh sách các nhà nghiên cứu trong
một ngành (hoặc tổ chức) và sử dụng cách tiếp cận quan hệ, có thể xác định mạng lưới
đồng tác giả của một nhóm đối tượng mục tiêu với tất cả các đồng tác giả của nó (các
thành viên bên trong và bên ngoài của một ngành hoặc tổ chức); mặt khác, khi tập trung
vào mô tả mô hình đồng tác giả trong mỗi chuyên ngành, ranh giới mạng có thể bị hạn
chế theo cách tiếp cận theo vị trí và loại bỏ mọi ràng buộc với các thành viên bên ngoài.
Đoạn trích này đề cập đến việc sử dụng kết hợp các phương pháp tiếp cận khác nhau để
nghiên cứu mạng lưới đồng tác giả. Cụ thể, nó đề xuất việc kết hợp các phương pháp tiếp
cận quan hệ và vị trí.
Kết hợp tiếp cận quan hệ và tiếp cận vị trí: Bắt đầu từ danh sách các nhà nghiên cứu trong
một lĩnh vực học hoặc tổ chức nghiên cứu cụ thể và sử dụng tiếp cận quan hệ, có thể xác
định mạng lưới đồng tác giả của một dân số mục tiêu với tất cả các đồng tác giả của họ
(cả những thành viên nội bộ và ngoại bộ của một lĩnh vực học hoặc tổ chức); ngược lại,
khi tập trung vào mô tả mô hình đồng tác giả trong từng lĩnh vực, ranh giới mạng lưới có
6
thể được hạn chế theo tiếp cận vị trí và loại bỏ tất cả các mối quan hệ với các thành viên
ngoại bộ.
Kết hợp các phương pháp này có thể giúp nghiên cứu chính xác hơn và phản ánh rõ ràng
hơn về mô hình mối quan hệ đồng tác giả trong một cộng đồng nghiên cứu cụ thể.
2.3. Definition of the co-authorship data matrix
Nói chung, Phân tích mạng xã hội (SNA) dựa trên các biến cấu trúc được đo lường
trên các cặp tác nhân (dữ liệu quan hệ). Dữ liệu đồng tác giả được trích xuất từ tập bài
báo và từ tập tác giả và có thể được sắp xếp dưới dạng ma trận liên kết (affiliation
matrix). Do đó, gọi A (n × p) là ma trận liên kết trong đó phần tử chung aij (i = 1,..., n; j =
1,..., p) bằng 1 nếu tác giả thứ i có mặt trong bài báo thứ j và 0 trong các trường hợp khác.
Chúng ta có thể rút ra ma trận kề Gw có kích thước (n × n) từ tích ma trận của A và
chuyển vị A' của nó:
Gw = AA’
Gw đại diện cho một ma trận kề có trọng số vô hướng có các mục bằng 0 nếu hai tác giả
chưa bao giờ là đồng tác giả, ở nơi khác họ giữ số lượng bài báo đồng tác giả của các cặp
tác giả. Trong SNA, ma trận Gw thường được phân tích sau khi loại bỏ các mục theo
đường chéo (biểu thị tổng số bài viết của mỗi tác giả) và đặt tất cả các mục lớn hơn 0
thành “1”. Sau đó, chúng tôi thu được Gb một ma trận kề kề nhị phân vô hướng, trong đó
chỉ tính đến sự hiện diện của các mối quan hệ. Mặc dù đây là một thủ tục rất phổ biến
trong việc phân tích dữ liệu đồng tác giả nhưng thông tin liên quan sẽ bị mất khi xem xét
ma trận Gb.
Một hệ thống trọng số thay thế có thể được xem xét. Ví dụ, khi chúng ta quan tâm
đến việc đồng tác giả như một phương tiện chuyển giao kiến thức, chúng ta có thể xem
xét các trọng số do Newman (2001) đề xuất. Trong hệ thống đánh giá này, mối quan hệ
đồng tác giả giữa hai nhà nghiên cứu sẽ mạnh mẽ hơn nếu họ là tác giả duy nhất của một
bài báo. Trong phần sau (xem Phần 3.3), chúng tôi sẽ xem xét một phiên bản sửa đổi của
hệ thống tính trọng số này để tính đến cả các bài báo có nhiều tác giả và một tác giả.
2.4. Network data analysis and interpreting results
Sau khi định nghĩa ma trận kề nhị phân và có trọng số, các kỹ thuật SNA được áp
dụng cho dữ liệu đồng tác giả giúp mô tả luồng kiến thức trong toàn bộ cộng đồng khoa
học và làm nổi bật vai trò cũng như vị trí của các nhà nghiên cứu trong mạng. Nói chung,
chúng ta có thể phân biệt các kết quả mạng thu được cho các thước đo cấp độ toàn cầu và
cấp độ tác nhân hoặc cho các ma trận kề cận nhị phân và ma trận kề có trọng số.
7
Việc phân tích mạng đồng tác giả có thể tập trung vào: (i) đặc điểm cấu trúc của
mạng; (ii) toàn bộ cấu hình mạng đang tìm kiếm các cấu trúc liên kết mạng cụ thể; (iii)
các chỉ số ở cấp độ tác nhân (chỉ số trung tâm, hệ số phân cụm, v.v.).
Đoạn trích này giải thích rằng phân tích của một mạng lưới đồng tác giả có thể tập trung
vào ba khía cạnh chính:
(i) Đặc điểm cấu trúc của mạng lưới: Đây là việc nghiên cứu về cách mà các nút trong
mạng lưới được kết nối với nhau. Các đặc điểm cấu trúc này có thể bao gồm số lượng nút
và cạnh, mật độ mạng, phân phối bậc (degree distribution) của các nút, và các đặc điểm
mạng lưới khác.
(ii) Cấu hình toàn bộ mạng lưới: Trong trường hợp này, nghiên cứu tập trung vào việc
tìm kiếm các mẫu cụ thể hoặc cấu trúc đặc biệt trong mạng lưới. Các cấu hình này có thể
bao gồm các chuỗi (path), chu trình (cycle), cấu trúc rừng cây (tree-like structure), hay
các cấu trúc mạng lưới phức tạp khác như mạng lưới vòng, mạng lưới nhị phân, hoặc
mạng lưới trung tâm-tiếp xúc (hub-and-spoke network).
(iii) Chỉ số ở mức độ tác nhân (actor-level indices): Đây là việc phân tích về vị trí và vai
trò của các nút cụ thể trong mạng lưới. Các chỉ số này có thể bao gồm các chỉ số trung
tâm (centrality indices) như bậc trung tâm (degree centrality), trung tâm trung vị
(betweenness centrality), và trọng tâm gần nhất (closeness centrality); các hệ số nhóm
hợp (clustering coefficients) để đo mức độ tập trung của các kết nối xung quanh mỗi nút;
và các chỉ số khác mô tả về tầm quan trọng và vai trò của các nút trong mạng lưới.
Các đặc điểm cấu trúc của mạng có thể được mô tả bằng cách sử dụng một số chỉ
số cấp độ toàn cầu (global level indices) (ví dụ: mật độ, khả năng kết nối, v.v.), có thể rất
hữu ích để đánh giá khả năng kết nối của các tác nhân nói chung và cũng để so sánh các
mạng khác nhau.
Những phát hiện thực nghiệm nhấn mạnh rằng các cấu hình thế giới nhỏ (small
word) (Watts và Strogatz 1998) và không có quy mô (scale-free) (Barabasi và Albert
1999) có thể được sử dụng để mô tả cấu trúc liên kết của các mạng đồng tác giả. Cấu
hình thế giới nhỏ mô tả sự hiện diện đồng thời của việc phân cụm cục bộ dày đặc với
khoảng cách mạng ngắn có thể tạo điều kiện thuận lợi cho các luồng kiến thức bên trong
mạng. Trong mạng lưới đồng tác giả, điều này có nghĩa là tồn tại các nhóm nhỏ các nhà
nghiên cứu gắn kết với ít mối liên hệ giữa họ. Nhìn vào sự phân bố mức độ của các tác
nhân, tức là sự phân bố tần suất của số lượng đồng tác giả trên mỗi tác giả, nếu tuân theo
sự phân bố quy luật lũy thừa thì một cấu trúc không có quy mô trong mạng sẽ xuất hiện.
8
Điều này ngụ ý sự tồn tại của một cơ chế hình thành mối ràng buộc đặc biệt được gọi là
sự gắn bó ưu tiên, cơ chế này chính thức giải thích cho xu hướng tương tác với các tác
giả có mối quan hệ tốt nhất.
Đoạn trích này giải thích về hai cấu hình mạng lưới đặc biệt, được sử dụng để mô tả các
mạng lưới đồng tác giả:
1. Cấu hình "small world" (thế giới nhỏ): Cấu hình này mô tả sự tồn tại đồng thời của các
nhóm cục bộ dày đặc với các khoảng cách mạng ngắn, có thể thuận lợi cho việc chuyển
đổi kiến thức bên trong mạng lưới. Trong một mạng lưới đồng tác giả, điều này có nghĩa
là có sự tồn tại của các nhóm nhỏ đoàn kết của các nhà nghiên cứu với ít kết nối giữa
chúng. Cấu hình này thường được thấy trong các mạng lưới xã hội và được cho là một cơ
chế quan trọng trong việc chuyển đổi thông tin và kiến thức.
2. Cấu hình "scale-free" (phân phối tỷ lệ): Nếu phân phối bậc của các nút trong mạng lưới
đồng tác giả tuân theo phân phối quy luật lũy thừa, thì một cấu trúc "scale-free" sẽ xuất
hiện. Điều này ngụ ý rằng tồn tại một cơ chế đặc biệt trong việc hình thành mối quan hệ,
được gọi là "preferential attachment", trong đó các nút có xu hướng tương tác với các tác
giả có kết nối tốt nhất. Cấu hình này thường được tìm thấy trong các mạng lưới có tính
chất mạng lưới xã hội và mạng lưới thông tin.
Các chỉ số trung tâm ở cấp độ tác nhân đề cập đến vị trí của từng tác giả trong
mạng theo các định nghĩa khác nhau về tính trung tâm (bậc-degree, mức độ gần gũi-
closeness, vectơ riêng-eigenvector, v.v.3). Việc sử dụng dữ liệu nhị phân hoặc có trọng
số ảnh hưởng đến giá trị của các chỉ số cấp tác nhân trong mạng. Ma trận kề có trọng số
phù hợp có thể tiết lộ một số thông tin bổ sung về mối quan hệ đồng tác giả.
Chúng tôi quan tâm đến việc chỉ ra liệu và cách thức sử dụng các ma trận kề khác
nhau sẽ tạo ra cái nhìn sâu sắc về vai trò và vị trí của tác giả trong mạng lưới đồng tác
giả. Điều này đề cập đến việc sử dụng các phương pháp khác nhau để biểu diễn mối quan
hệ giữa các tác giả trong mạng lưới đồng tác giả và làm thế nào các biểu diễn này có thể
cung cấp thông tin chi tiết và hiểu biết sâu sắc hơn về vai trò và vị trí của từng tác giả
trong mạng lưới.
3. Definition of the co-authorship network: an illustrative example

Chúng tôi xem xét các giai đoạn được nêu trong Mục 2 trong một ví dụ minh họa trên
dữ liệu thực. Mục đích của chúng tôi là so sánh các ngành khác nhau để làm nổi bật
những đặc thù trong mô hình hành vi hợp tác trong nghiên cứu. Vì vậy, chúng tôi chỉ ra
9
cách cụ thể hóa các giai đoạn được thảo luận ở trên trong bối cảnh này. Vì mục đích của
chúng tôi, chúng tôi coi danh sách các nhà nghiên cứu tham gia vào bốn lĩnh vực trong
một tổ chức học thuật của Ý là đối tượng mục tiêu. Cụ thể, chúng tôi phân tích mối quan
hệ đồng tác giả giữa các nhà nghiên cứu liên quan đến các lĩnh vực Vật lý, Kỹ thuật,
Nghệ thuật & Nhân văn và Kinh tế & Thống kê, theo cách phân loại do MIUR5 đề xuất
bằng cách sử dụng thông tin trên các bài báo được lấy từ kho lưu trữ thư mục địa phương
trong giai đoạn 2006 –2007.
Việc thu thập dữ liệu và xác định ranh giới mạng cũng như ma trận dữ liệu quan hệ
được trình bày chi tiết trong các Tiểu phần sau; trong khi phân tích mạng và giải thích kết
quả được trình bày trong Phần 4.
3.1. Data collection
Để xem xét tất cả các bài viết của các nhà nghiên cứu liên quan đến bốn lĩnh vực đang
được phân tích, chúng tôi đã thu thập dữ liệu đồng tác giả từ kho lưu trữ thư mục địa
phương bao gồm sách, bài báo trên các tạp chí bình duyệt, đóng góp cho chuyên khảo,
bài báo trong hội nghị, kỷ yếu hoặc bản thảo. Kho lưu trữ cục bộ này chứa cả các bài báo
có tác động cao và các kết quả nghiên cứu mang tính định hướng địa phương hơn và do
đó, rất hữu ích khi xác định chính xác mối quan hệ đồng tác giả giữa tất cả các nhà
nghiên cứu.
Dữ liệu thư mục trong kho lưu trữ này có sẵn trong khoảng thời gian mười năm
(1998–2007). Tổng số bài viết trong 4 chuyên ngành lên tới 9761 tài liệu. Trong nghiên
cứu này, chúng tôi chỉ tập trung vào các tài liệu được thu thập trong giai đoạn 2006–2007
vì đây là những dữ liệu có sẵn chính xác và gần đây nhất. Trong giai đoạn này, chúng tôi
tìm thấy 2.326 bài báo (cả nhiều tác giả và một tác giả) cho bốn ngành. Bảng 1 cho thấy
số lượng tác giả và số lượng bài báo cho mỗi ngành. Đặc biệt, theo phạm vi đưa tin của
các nhà nghiên cứu liên quan đến 4 ngành vào năm 2009, chúng tôi thấy rằng 43 trong số
45 nhà vật lý (95,6%), 100 trong số 104 kỹ sư (96,2%), 130 trong số 144 nhà nhân văn
(90,3%) và 81 trong số 109 nhà kinh tế và thống kê (74,3%) có ít nhất một bài báo được
xuất bản trong hai năm 2006–2007 tại kho lưu trữ địa phương.
Theo loại bài báo, chúng tôi nhận thấy rằng bài báo trên tạp chí là dạng bài báo phổ
biến cho cả môn Vật lý (80,5%) và Kinh tế & Thống kê (36,6%); trong khi trong Kỹ
thuật và Nghệ thuật & Nhân văn, cách phổ biến nhất để trình bày kết quả nghiên cứu lần
lượt là kỷ yếu hội nghị (57,7%) và các chương sách (34,5%).
10
3.2. Setting network boundaries
Trong định nghĩa về ranh giới mạng, chúng tôi xem xét danh sách các nhà nghiên cứu
cho từng ngành đã xuất bản ít nhất một bài báo trong hai năm được phân tích.
Bắt đầu từ cách tiếp cận quan hệ được mô tả trong Phần 2, tác giả của bài báo được
phân loại thành: thành viên nội bộ (bên trong hoặc bên ngoài một chuyên ngành) và thành
viên bên ngoài của cơ sở giáo dục. Đặc biệt, chúng tôi xác định mạng bao gồm các tác
giả trong một chuyên ngành cùng với các đồng tác giả của họ là mạng hoàn chỉnh (xem
Bảng 1). Thay vào đó, nếu quan tâm đến quyền đồng tác giả trong nội bộ ngành, chúng
tôi có thể xem xét một mạng lưới giảm bớt để chỉ bao gồm các mối quan hệ giữa các nhà
nghiên cứu trong một ngành, bỏ qua các mối quan hệ được kích hoạt với các tác giả bên
ngoài ngành và các thành viên bên ngoài (theo cách tiếp cận theo vị trí). Trong trường
hợp của chúng tôi, lựa chọn này chủ yếu ảnh hưởng đến cấu hình mạng của Vật lý và Kỹ
thuật, nơi có sự hiện diện cao hơn của các chuyên ngành bên ngoài và các thành viên bên
ngoài với tư cách là đồng tác giả (Bảng 1).
Đoạn trích này mô tả cách tiếp cận quan hệ (relational approach) được sử dụng để phân
loại các tác giả trong các mạng lưới đồng tác giả. Cụ thể, các tác giả được phân loại thành
hai nhóm: các thành viên nội bộ (trong hoặc ngoài một lĩnh vực học) và các thành viên
ngoại bộ của tổ chức học thuật. Các mạng lưới được xác định bao gồm các tác giả trong
một lĩnh vực học với các đồng tác giả của họ được xem là mạng lưới đầy đủ, trong khi
mạng lưới bị thu hẹp chỉ bao gồm các mối quan hệ giữa các nhà nghiên cứu trong một
lĩnh vực học cụ thể, bỏ qua các mối quan hệ được kích hoạt với các tác giả ngoại bộ và
các thành viên ngoại bộ. Việc lựa chọn này ảnh hưởng chủ yếu đến cấu trúc của mạng
lưới trong lĩnh vực Vật lý và Kỹ thuật, nơi có sự hiện diện cao của các thành viên ngoại
bộ và các thành viên ngoại bộ làm đồng tác giả.
11
Thoạt nhìn, trong những năm 2006 và 2007, các kỹ sư và nhà vật lý cho thấy số
lượng bài báo trên mỗi tác giả lớn nhất và xu hướng cộng tác rõ rệt nhất (trung bình có 7
tác giả trên mỗi bài báo về Vật lý và 4 tác giả trên mỗi bài báo về Kỹ thuật) (Bảng 1).
Hơn nữa, chúng tôi nhận thấy sự hiện diện đáng kể của các tác giả biệt lập (bài báo có
một tác giả) trong lĩnh vực Nghệ thuật & Nhân văn.
3.3. Relational data matrix defenition
Bắt đầu từ ma trận liên kết A (n × p) cho bốn lĩnh vực, chúng ta có thể định nghĩa bốn
ma trận kề có trọng số Gw (xem phương trình 1) và bốn ma trận kề kề nhị phân Gb. Tuy
nhiên, các ma trận kề khác có thể được đưa ra bằng cách thay đổi hệ trọng số của các liên
kết.
Trong nghiên cứu của chúng tôi, giả định ngầm định là đồng tác giả là một cách để
chuyển giao kiến thức giữa các nhà nghiên cứu và lượng kiến thức có trong một bài báo
được truyền thống nhất giữa các tác giả. Nói cách khác, một cặp tác giả chia sẻ kiến thức
trong một bài báo có đồng tác giả sẽ có mối quan hệ yếu hơn nếu bài báo có nhiều tác
giả. Chúng tôi chuyển từ định nghĩa về cường độ đồng tác giả dựa trên số lượng bài báo
đồng tác giả sang thước đo đồng tác giả tỷ lệ nghịch với số lượng tác giả trên mỗi bài
báo. Thật vậy, nếu sự phân bổ số lượng tác giả trên mỗi bài báo không đồng đều thì có vẻ
phù hợp khi xem xét mối quan hệ trong ma trận kề được đánh trọng số nghịch đảo bởi số
lượng tác giả trên mỗi bài báo. Điều này thậm chí có thể phù hợp hơn khi số lượng tác giả
trung bình trên mỗi bài báo là yếu tố then chốt trong việc phân biệt các mô hình hành vi
hợp tác trong các lĩnh vực khác nhau. Do đó, theo Newman (2001), mục tiêu của chúng
tôi là chỉ ra cách sử dụng các thông tin khác nhau trong định nghĩa về dữ liệu đồng tác
giả. Hệ thống trọng số do Newman (2001) đề xuất dựa trên sự nghịch đảo của số lượng
đồng tác giả tham gia vào một bài báo. Vì vậy, những bài báo có số lượng tác giả ít sẽ có
tầm quan trọng hơn trong việc xác định mối quan hệ. Sau đó, chúng tôi xác định một ma
trận kề có trọng số thay thế, đây là một biến thể nhỏ của ma trận do Newman đề xuất. Nó
được tính như sau:
−1
G z= A D p A '
trong đó Dp (p × p) là ma trận đường chéo giữ các cột ở lề của ma trận liên kết A, tức là
số lượng tác giả trên mỗi bài báo và các mục của Gz chiếm số lượng bài báo có trọng số
được chia sẻ bởi mỗi cặp tác giả.
Đoạn trích này đề cập đến việc xác định một hệ thống trọng số cho mạng lưới đồng tác
giả dựa trên giả định rằng việc đồng tác giả là một cách để chuyển đổi kiến thức giữa các
12
nhà nghiên cứu và lượng kiến thức hiện diện trong một bài báo được chia đều giữa các
tác giả. Nói cách khác, các tác giả trong một bài báo có thể có mối quan hệ yếu hơn nếu
bài báo đó có nhiều tác giả. Do đó, đề xuất chuyển từ việc định nghĩa độ mạnh của mối
quan hệ dựa trên số lượng bài báo đồng tác giả sang một đo lường của đồng tác giả
nghịch đảo tỷ lệ với số lượng tác giả trên mỗi bài báo. Điều này làm cho các bài báo có
số lượng tác giả ít hơn trở nên quan trọng hơn trong việc định nghĩa các mối quan hệ. Đề
xuất này dựa trên hệ thống trọng số được đề xuất bởi Newman (2001), trong đó mối quan
hệ giữa các tác giả được xác định bằng nghịch đảo của số lượng tác giả tham gia vào một
bài báo. Sau đó, một ma trận kề có trọng số được định nghĩa là một biến thể nhỏ của các
ma trận kề được đề xuất bởi Newman.
4. Analysing co-authorship data

Trong phần trước, chúng tôi đã xác định ma trận kề nhị phân và có trọng số Gb, Gw
và Gz, để xem xét sự hiện diện (presence), cường độ (intensity) và luồng kiến thức
(knowledge flow) trong dữ liệu đồng tác giả. Bằng các thuộc tính của ba cấu trúc dữ liệu
này, chúng tôi phân tích cấu trúc mạng trong bốn ngành. Chúng tôi báo cáo các kết quả
chính thu được từ việc phân tích mạng đồng tác giả ở cấp độ toàn cầu (global-level), sử
dụng thông tin được thu thập bằng Gb và ở cấp độ tác giả (author-level), sử dụng ma trận
nhị phân và hai ma trận kề có trọng số.
4.1. Exploring network characteristics
Việc phân tích Gb đạt được bằng cách mô tả các đặc điểm cấu trúc mạng và bằng
cách khám phá cấu trúc liên kết mạng cho từng ngành.
Chúng tôi hình dung các mạng hoàn chỉnh và các mạng rút gọn trong Hình 1, 2, 3 và
4. Vật lý và Kỹ thuật (Hình 1a và 2a) hiển thị các mạng lưới có các nhóm tác giả có tính
kết nối cao; trong khi đối với Kinh tế & Thống kê, cấu trúc mạng được đặc trưng bởi
nhiều mối quan hệ thưa thớt (Hình 3a) và cuối cùng, đối với Nghệ thuật & Nhân văn,
nhiều tác giả biệt lập (tức là các tác giả có bài báo một tác giả) được quan sát thấy trong
mạng (Hình 4a). Đối với bốn ngành, cấu trúc mạng lưới rút gọn (chỉ có mối quan hệ giữa
các nhà nghiên cứu ngành bên trong; xem Hình 1b, 2b, 3b và 4b) cho thấy mối liên hệ
kém giữa các nhà nghiên cứu tham gia vào một ngành, đặc biệt là Vật lý và Kỹ thuật.
Mật độ mạng rất thấp đối với tất cả các mạng hoàn chỉnh (Bảng 2). Bậc trung bình
ngành Vật lý khá cao (42,68); trong Kỹ thuật, nó bằng 6,06, trong khi trong Nghệ thuật &
Nhân văn và Kinh tế & Thống kê, nó xấp xỉ bằng 2. Nếu chúng ta xem xét sự phân bổ
bậc theo sự phân chia của các nhà nghiên cứu trong nội bộ (trong và ngoài một ngành) và
13
các thành viên bên ngoài của tổ chức, chúng tôi nhận thấy rằng các nhà vật lý đã kích
hoạt nhiều kết nối hơn với các thành viên bên ngoài (23.00); trong khi các kỹ sư thể hiện
xu hướng cộng tác với các thành viên bên ngoài ít hơn (7.33).
14
Nghệ thuật & Nhân văn và Kinh tế & Thống kê được đặc trưng bởi một số thành
phần nhỏ, lần lượt là 19 và 34 thành phần, không tính đến các tác giả biệt lập trong hai
mạng (Bảng 2); trong khi đó trong mạng lưới đồng tác giả của Vật lý, chúng tôi có một
thành phần lớn với 620 tác giả (89,3%) và 8 thành phần nhỏ hơn và trong Kỹ thuật,
chúng tôi tìm thấy 13 thành phần — với thành phần lớn nhất được hình thành bởi 449 tác
giả (70,9%).
Các giá trị được báo cáo về mức độ nội bộ (cả bên trong và bên ngoài một chuyên ngành)
và các thành viên bên ngoài đề cập đến các tác giả trong một chuyên ngành.
Trong mạng lưới (network), một thành phần (component) là một tập hợp các đỉnh
mà mỗi đỉnh trong đó được kết nối với ít nhất một đỉnh khác trong cùng một thành phần
thông qua các cạnh.
Cụ thể:
15
1. Thành phần Liên thông (Connected Component): Thành phần liên thông là một loại
thành phần trong đó mỗi đỉnh có thể được truy cập từ mọi đỉnh khác trong cùng một
thành phần thông qua một hoặc nhiều đường đi. Nếu loại thành phần này chỉ có một, nó
được gọi là đồ thị liên thông. Đồ thị liên thông có thể là đồ thị vô hướng hoặc đồ thị có
hướng.
2. Thành phần Cụm (Cluster Component): Thành phần cụm là một loại thành phần trong
đó một nhóm các đỉnh được kết nối chặt chẽ với nhau hơn so với các đỉnh trong các
thành phần khác trong cùng một đồ thị. Thành phần cụm thường thể hiện sự tập trung của
mối quan hệ hoặc cộng đồng trong mạng.
3. Thành phần Lớn nhất (Largest Component): Thành phần lớn nhất là thành phần có số
lượng đỉnh lớn nhất trong một đồ thị. Thành phần này thường mang lại thông tin quan
trọng về cấu trúc và tính chất của mạng.
Thành phần trong mạng có thể được sử dụng để phân tích cấu trúc của mạng, xác định
các cộng đồng (communities) và tìm ra các đặc điểm đặc biệt của mạng như sự phân tán
hoặc tập trung.
Cấu trúc liên kết mạng của bốn mạng đồng tác giả được đánh giá thông qua các số
liệu thống kê khác nhau và được so sánh với các phân phối lý thuyết mục tiêu. Phân phối
luật lũy thừa được trang bị cho các phân phối bậc được quan sát cho các mạng hoàn chỉnh
để đánh giá sự hiện diện (presence) của các cấu hình không có tỷ lệ (scale-free) trong mỗi
ngành. Nếu quan sát cấu trúc liên kết không có tỷ lệ, xác suất P(h) mà một tác giả sẽ cộng
tác với h tác giả khác, sẽ phân rã dưới dạng luật lũy thừa tuân theo P(h) ∝ h−γ, với tham
số γ nằm trong một khoảng xác định trước. Chúng tôi áp dụng luật lũy thừa bằng cách sử
dụng phương pháp tiếp cận khả năng tối đa (maximum likelihood approach) và xác nhận
kết quả của chúng tôi bằng thủ tục Kolmogorov–Smirnov (Nicholls 1986). Mức độ phù
hợp của Kolmogorov–Smirnov (Bảng 3) cho thấy giả thuyết về sự hiện diện của cấu hình
không có tỷ lệ phải bị bác bỏ đối với tất cả các nguyên tắc ở mức ý nghĩa 1%. Trong
Hình 5, chúng tôi biểu thị cả hai hàm phân phối tích lũy bổ sung (CCF) của các mức độ
quan sát được (đường chấm) cho bốn mạng và phân bố luật lũy thừa phù hợp tương ứng
(đường đứt nét). Việc không có sự phân bố mức độ theo luật lũy thừa ngụ ý rằng bốn
ngành học trong cơ sở giáo dục đang được phân tích không có các nhà nghiên cứu nổi
bật, tức là các nhà nghiên cứu có nhiều đồng tác giả đảm nhiệm vị trí trung tâm trong
mạng lưới.
16
Trong lịch sử, sự phân bổ quy luật lũy thừa (the power được áp dụng để mô tả năng suất
khoa học hơn là sự hợp tác khoa học. Thật vậy, Lotka (1926) đã chỉ ra rằng phân bố
P(k) của số k bài báo trên mỗi tác giả tuân theo quy luật lũy thừa, với số mũ xấp xỉ −2,
kết quả đôi khi được gọi là quy luật năng suất khoa học của Lotka. Đặc biệt, luật này thể
hiện một thực tế rằng, ngoài nhiều tác giả chỉ xuất bản một số lượng nhỏ bài báo, người
ta còn mong đợi quan sát thấy một “cái đuôi béo” gồm một số ít tác giả xuất bản một số
lượng lớn bài báo. Phát hiện này cũng đã được điều chỉnh cho các mạng đồng tác giả.
Trong trường hợp này số lượng ấn phẩm đã được thay thế bằng số lượng đồng tác giả.
Hệ số phân cụm (The clustering coefficient) trong mạng là giá trị trung bình của các hệ
số phân cụm cục bộ của tất cả các tác nhân (Watts và Strogatz 1998). Điều này sau này
đo lường xu hướng của tác nhân thứ i thuộc về bộ ba khép kín. Đoạn trích này đề cập
đến hệ số góc phân cụm (clustering coefficient) trong mạng lưới (network). Hệ số góc
phân cụm là trung bình của các hệ số góc phân cụm cục bộ của tất cả các nút (hoặc
"diễn viên") trong mạng.
Hệ số góc phân cụm cục bộ đo lường xu hướng của một nút cụ thể (nút i) trong việc
thuộc các tam giác đóng. Một tam giác đóng xảy ra khi ba nút kề nhau tạo thành một
hình tam giác, nơi tất cả các cạnh đều được kết nối.
Ví dụ, trong một mạng xã hội, hệ số góc phân cụm của một người bạn có thể đo lường
mức độ mà người đó thường xuyên tham gia vào các nhóm bạn chung. Nếu hệ số góc
phân cụm của một người là cao, có nghĩa là người đó thường xuyên tham gia vào các
nhóm mà các bạn của họ cũng là bạn của nhau, tạo ra các mối quan hệ mạnh mẽ trong
mạng xã hội.
Tổng thể, đoạn trích này chỉ ra cách tính toán và ý nghĩa của hệ số góc phân cụm trong
việc phân tích cấu trúc mạng và mối quan hệ giữa các nút trong đó.
Độ dài đường dẫn trung bình (The average path length) là số bước trung bình dọc theo
các đường dẫn ngắn nhất cho tất cả các cặp nút có thể có của mạng.
17
Phân phối mức độ tích lũy bổ sung được quan sát (đường chấm) của bốn mạng hoàn
chỉnh cho từng ngành và phân phối luật lũy thừa phù hợp (đường đứt nét). Biểu đồ nằm
18
trên thang đo log-log. Trục ngang báo cáo các giá trị độ h; trục tung biểu thị hàm tích lũy
bổ sung (CCF) mô tả tỷ lệ tác giả có bậc lớn hơn h.
Cấu hình thế giới nhỏ được đánh giá bằng cách so sánh khả năng kết nối trong cả
biểu đồ quan sát và biểu đồ ngẫu nhiên được mô phỏng với mật độ cố định, bằng với mật
độ quan sát được. Cụ thể, các giá trị của hệ số phân cụm và độ dài đường dẫn trung bình
của các mạng được quan sát được so sánh với các giá trị tương ứng trong biểu đồ ngẫu
nhiên (Bảng 3). Vì mạng chứa nhiều hơn một thành phần nên chỉ các đường dẫn hiện có
mới được xem xét khi đo độ dài đường dẫn trung bình. Theo Watts và Strogatz (1998),
chúng tôi đo hệ số phân cụm mạng được xác định là giá trị trung bình của các hệ số phân
cụm cục bộ (CC) của mỗi tác giả. Để tính toán chỉ số này, chúng tôi loại bỏ các tác giả bị
cô lập (Chúng tôi làm theo cách tiếp cận của Kaiser (2008), người đã đề xuất sử dụng
CC đã điều chỉnh thu được sau khi loại bỏ các nút có ít hơn hai nút lân cận. Với cách
tiếp cận này, giá trị CC cho các tác nhân có bậc nhỏ hơn 2 không được tính trung bình. ).
Chúng tôi lưu ý rằng tỷ lệ giữa CC được quan sát và hệ số phân cụm ngẫu nhiên (CCr)
luôn rất lớn. Ví dụ: đối với Nghệ thuật & Nhân văn, CC được quan sát cao hơn khoảng
118 lần so với CCr tương ứng. Tuy nhiên, độ dài đường dẫn trung bình L thấp hơn độ dài
đường dẫn Lr ngẫu nhiên cho Nghệ thuật & Nhân văn và Kinh tế & Thống kê (xem Bảng
3). Trong Nghệ thuật & Nhân văn và Kinh tế & Thống kê tồn tại một số lượng nhỏ các
cụm có tính kết nối cao có khoảng cách được đặc trưng bởi độ dài đường đi nhỏ (tức là
nhỏ hơn độ dài dự kiến nếu kết nối là ngẫu nhiên). Trong Vật lý và Kỹ thuật, như trong
các trường hợp trước, tồn tại các nhóm nhà nghiên cứu có mối liên hệ chặt chẽ với nhau,
mặc dù khoảng cách giữa các nhóm lớn hơn khoảng cách mong đợi nếu các kết nối là
ngẫu nhiên.
Đoạn trích này đang nói về cách đánh giá cấu hình "thế giới nhỏ" (small world
configuration) trong các mạng lưới (networks). Thế giới nhỏ là một đặc điểm của mạng
lưới mà các nút có thể kết nối với nhau bằng một số bước ngắn, đồng thời vẫn duy trì
tính phân cụm cao.
Để đánh giá cấu hình thế giới nhỏ, các mạng lưới quan sát được được so sánh với các đồ
thị ngẫu nhiên được mô phỏng với mật độ cố định, bằng với mật độ quan sát được. Trong
quá trình này, các giá trị của hệ số góc phân cụm và độ dài trung bình của đường đi
giữa các nút trong mạng quan sát được được so sánh với các giá trị tương ứng trong các
đồ thị ngẫu nhiên.
19
Các nghiên cứu đã chỉ ra rằng trong mạng lưới như Arts & Humanities và Economic &
Statistics, hệ số góc phân cụm (clustering coefficient) quan sát được (CC) thường cao
hơn nhiều so với hệ số góc phân cụm của các đồ thị ngẫu nhiên (CCr). Tuy nhiên, độ dài
trung bình của đường đi (average path length) thường thấp hơn so với các đồ thị ngẫu
nhiên (Lr) trong các lĩnh vực này.
Trong khi đó, trong các lĩnh vực như Physics và Engineering, các nhóm nghiên cứu
thường kết nối chặt chẽ với nhau, tuy nhiên khoảng cách giữa các nhóm này thường lớn
hơn so với các đồ thị ngẫu nhiên. Điều này chỉ ra sự tồn tại của các nhóm nghiên cứu có
liên kết mạnh mẽ nhưng vẫn giữ sự phân cụm và tính nhất quán trong mạng lưới.
4.2. Comparing the actor-level centrality indices in binary and weighted networks
Sau đây, tính hữu ích của ma trận kề có trọng số Gz được thể hiện bằng cách phân
tích hành vi và cách giải thích các chỉ số trung tâm ở cấp tác nhân so với kết quả thu được
cho trường hợp nhị phân, Gb và trường hợp có trọng số truyền thống, Gw, trong bốn môn
học. Cụ thể, chúng tôi tính toán các chỉ số trung tâm về bậc (degree), mức độ gần gũi
(closeness), tải trọng (load) và tính trung tâm của vectơ riêng (eigenvector).
Các chỉ số này thể hiện một số khía cạnh về vị trí của các tác giả trong các mạng đồng
tác giả khác nhau. Đặc biệt, việc sử dụng trọng số tạo ra một cái nhìn sâu sắc khác về lập
trường của tác giả. Cụ thể, mức độ trung tâm (degree centrality) mang lại điểm cao nhất
cho tác giả có số lượng hàng xóm lớn nhất. Trong Gb, các tác giả có vị trí trung tâm là
những tác giả có số lượng đồng tác giả phù hợp, không phân biệt số lượng bài báo được
chia sẻ với mỗi tác giả. Trong khi đó, khi chúng tôi xem xét trọng số theo Gz, tính trung
tâm của tác giả sẽ cao hơn khi một bài báo được viết với ít đồng tác giả và/hoặc số lượng
bài báo lớn. Tính trung tâm gần gũi (Closeness centrality) thể hiện ý tưởng về luồng kiến
thức giữa các nhà nghiên cứu. Trong trường hợp có trọng số, điều này có nghĩa là các tác
giả cộng tác với nhiều đồng tác giả và cũng tạo ra nhiều kết quả nghiên cứu sẽ có vị trí
trung tâm trong mạng. Tải trọng trung tâm (load centrality) của tác giả i có thể được định
nghĩa là tỷ lệ phần trăm các đường dẫn ngắn nhất kết nối hai tác giả mà i tham gia. Định
nghĩa về tính trung tâm này khám phá khả năng của một tác giả là “không thể thay thế”
trong giao tiếp của hai tác giả ngẫu nhiên. Cuối cùng, tính trung tâm của Eigenvector
(Eigenvector centrality) thể hiện ý tưởng rằng tính trung tâm của các tác giả tỷ lệ thuận
với tính trung tâm của các tác giả mà họ được kết nối. Sau đó, các tác giả sẽ trở thành
trung tâm hơn khi họ được kết nối với nhiều tác giả có mối liên hệ chặt chẽ, tức là các tác
giả cộng tác với một số ít người khác và tạo ra nhiều kết quả nghiên cứu.
20
(Để biết định nghĩa về các chỉ số trung tâm của mạng Degree và Closeness, hãy xem
(Freeman 1979), để biết về tính trung tâm của Load, hãy xem (Brandes 2008), để biết
Eigenvector (Bonacich 1987). Để tính toán các chỉ số, chúng tôi sử dụng các hàm được
triển khai trong gói “sna” của phần mềm R Butts (2010).)
Đoạn trích này nói về các chỉ số đo lường vị trí của các tác giả trong các mạng đồng tác
giả khác nhau, đặc biệt là trong việc sử dụng trọng số để cung cấp cái nhìn khác về vị trí
của tác giả.
1. Trong mạng Gb, chỉ số trung tâm bậc (degree centrality) tăng cao nhất đối với tác giả
có số lượng đồng tác giả lớn nhất. Điều này chỉ ra rằng các tác giả có vị trí trung tâm là
những người có số lượng đồng tác giả đáng kể, không phụ thuộc vào số lượng bài báo
được chia sẻ với mỗi tác giả.
2. Trong mạng Gz, khi xem xét trọng số, trung tâm của một tác giả cao hơn khi một bài
báo được viết với ít đồng tác giả và/hoặc số lượng bài báo lớn.
3. Trong trường hợp trọng số, trung tâm gần (closeness centrality) biểu thị ý tưởng của
một luồng kiến thức giữa các nhà nghiên cứu. Điều này có nghĩa là các tác giả hợp tác
với nhiều đồng tác giả và cũng sản xuất nhiều kết quả nghiên cứu sẽ có vị trí trung tâm
trong mạng lưới.
4. Trung tâm tải trọng (load centrality) của tác giả i có thể được định nghĩa là tỷ lệ của
các đường đi ngắn kết nối hai tác giả mà i tham gia. Điều này khám phá khả năng của
một tác giả để trở thành "không thể thay thế" trong việc truyền thông giữa hai tác giả
ngẫu nhiên.
5. Cuối cùng, trung tâm giá trị riêng (eigenvector centrality) biểu thị ý tưởng rằng trung
tâm của các tác giả tỉ lệ với trung tâm của các tác giả mà họ kết nối. Do đó, các tác giả trở
nên trung tâm hơn khi họ được kết nối với nhiều tác giả mạnh mẽ, tức là các tác giả hợp
tác với ít tác giả khác và sản xuất nhiều kết quả nghiên cứu.
Để so sánh vị trí của các tác giả theo các định nghĩa khác nhau về tính trung tâm,
chúng tôi tính hệ số tương quan tuyến tính (xem Bảng 4) giữa các chỉ số trung tâm đo
được cho ma trận có trọng số Gz so với ma trận có trọng số Gb và ma trận có trọng số
truyền thống Gw trong mỗi bộ môn. Bất cứ khi nào các hệ số tương quan gần bằng 1, các
giá trị của chỉ số trung tâm tương ứng tính bằng Gz đối với các giá trị trong trường hợp
nhị phân và đối với hệ thống có trọng số truyền thống là tương đương nhau.
21
Hơn nữa, chúng tôi phân tích các biểu đồ phân tán liên quan của các chỉ số được
tính cho Gb (trục ngang), so với Gz (trục tung) (Hình 6); trong khi Hình 7 báo cáo các chỉ
số được tính toán cho hai ma trận có trọng số Gw (trục ngang) và Gz (trục tung). Các
biểu đồ phân tán được xác định bằng cách xem xét một phiên bản tiêu chuẩn của các chỉ
số và hiển thị một đường phân giác tạo điều kiện thuận lợi cho việc giải thích kết quả.
Đặc biệt, nếu các điểm nằm gần đường phân giác thì giá trị của chỉ số trung tâm là tương
đương trong các ma trận kề khác nhau. Nếu các điểm nằm phía dưới hoặc phía trên
đường phân giác thì chỉ số trung tâm tính cho Gz sẽ nhỏ hơn hoặc lớn hơn chỉ số trung
tâm tương ứng được tính cho Gb và Gw. Trong khi đám mây điểm cho thấy mối tương
quan tuyến tính kém (hệ số tương quan gần bằng 0), các trọng số khác nhau trong cấu
trúc mạng tạo ra cái nhìn sâu sắc khác nhau về vị trí của tác nhân.
Xem xét các biểu đồ phân tán (Hình 6 và 7) và giá trị của các hệ số tương quan
(Bảng 4), chúng tôi nhận thấy rằng ngành học có sự khác biệt đáng chú ý ở hầu hết các
chỉ số trung tâm là Vật lý. Ở đây, thước đo tính trung tâm của các tác giả bị ảnh hưởng
bởi sự hiện diện của các bài báo có số lượng tác giả đáng kể. Như vậy, nhìn mối quan hệ
đồng tác giả như một dòng chảy tri thức, có vẻ như các tác giả có vị trí nổi bật theo số
lượng đồng tác giả trong mỗi bài báo đã trở nên ít quan trọng hơn ở Gz do khả năng
chuyển giao kiến thức của họ bị giảm sút. Những thay đổi dường như ít đáng kể hơn đối
với Kỹ thuật, Kinh tế & Thống kê, trong đó số lượng tác giả trên mỗi bài báo nhỏ hơn, do
đó trọng số trong Gz không ảnh hưởng đến vị trí tác giả trong mạng, tức là các tác giả nổi
bật không thay đổi vị trí của họ nếu kiến thức dòng chảy giữa các tác giả được xem xét.
Trong Nghệ thuật & Nhân văn, hệ số tương quan có giá trị cao hơn. Tuy nhiên, chúng ta
22
hãy lưu ý rằng môn học này được đặc trưng bởi một số lượng lớn các tác giả biệt lập. Do
đó, xu hướng đồng tác giả của một bài báo ít hơn so với các ngành khác.
Nhìn vào từng chỉ số trung tâm, chúng ta nhận thấy rằng chỉ số trung tâm của
vectơ riêng bị ảnh hưởng nhiều nhất bởi việc sử dụng các trọng số trong Gz. Đây là kết
quả được mong đợi vì chỉ số này dựa trên tính trung tâm của những người hàng xóm của
tác giả. Nó chỉ giả định các giá trị dương cho Nghệ thuật & Nhân văn trong trường hợp
nhị phân (0,40) và cho Kỹ thuật, Kinh tế & Thống kê trong trường hợp có trọng số (0,99
cho cả hai). Chỉ số trung tâm mức độ chỉ hiển thị những thay đổi vừa phải đối với Vật lý,
cả trong trường hợp nhị phân (0,51) và trường hợp có trọng số (0,45); trong khi đối với
các ngành khác, tình hình ổn định hơn (xem Bảng 4). Tất cả các mạng đều biểu hiện mối
tương quan cao về mức độ gần gũi và tính trung tâm của tải trong cả trường hợp nhị phân
và trường hợp có trọng số.
23
5. Some final remarks
Trong bài báo này chúng tôi đề cập đến một số vấn đề liên quan đến định nghĩa và
phân tích mạng lưới đồng tác giả. Các vấn đề chính liên quan đến: (I) khả năng sử dụng
các nguồn dữ liệu khác nhau trong việc thu thập dữ liệu; (ii) xác định ranh giới mạng;
(iii) việc sử dụng hệ thống trọng số đặc biệt đối với các mối quan hệ và (iv) ảnh hưởng
của các lựa chọn khác nhau đến việc giải thích kết quả phân tích mạng.
Việc lựa chọn nguồn dữ liệu thích hợp phụ thuộc rất nhiều vào mục đích phân tích. Ví
dụ, nếu trọng tâm là đối tượng mục tiêu thì việc sử dụng các kho lưu trữ địa phương sẽ là
lựa chọn hàng đầu vì chúng bao gồm cả các tài liệu có tác động cao và các kết quả nghiên
cứu mang tính định hướng địa phương hơn. Một hạn chế của việc sử dụng các nguồn dữ
liệu này là tính sẵn có thực tế của chúng. Bất cứ khi nào mối quan tâm nằm ở một cộng
đồng khoa học rộng lớn hơn mà không bị hạn chế về mặt địa lý hoặc thể chế thì một cơ
24
sở dữ liệu quốc tế chứa tất cả các tạp chí có tác động lớn là một giải pháp thay thế hợp lệ
cho việc thu thập dữ liệu. Một điểm quan trọng khác liên quan đến việc xác định ranh
giới mạng. Cũng trong trường hợp này, sự lựa chọn phụ thuộc vào mục tiêu cụ thể của
việc phân tích. Ví dụ: khi phân tích bắt đầu từ nội dung của cơ sở dữ liệu nhất định (địa
phương hoặc quốc tế), cách tiếp cận phổ biến nhất là bắt đầu từ thiết kế dựa trên sự kiện
để có thể khôi phục tất cả các tác giả tham gia “viết một bài báo” sự kiện. Trong trường
hợp nhóm đối tượng mục tiêu, ranh giới mạng có thể được xác định bằng cách tiếp cận
hỗn hợp, sử dụng cả cách tiếp cận quan hệ và vị trí (Laumann et al. 1989). Chiến lược
này giúp có thể xem xét các định nghĩa ranh giới mạng khác nhau để trả lời các câu hỏi
nghiên cứu khác nhau.
Vấn đề quan trọng nhất thường phải đối mặt trong phân tích đồng tác giả là việc sử
dụng mạng nhị phân hoặc mạng kề có trọng số. Chúng tôi nhấn mạnh tầm quan trọng đặc
biệt của vấn đề này bằng cách chỉ ra những khác biệt nảy sinh trong vai trò trung tâm của
tác giả khi các chỉ số được sử dụng thường xuyên nhất được tính toán bằng cách tính đến
một hệ thống tính trọng số cụ thể. Hơn nữa, chúng tôi cho thấy rằng việc sử dụng các mối
quan hệ có trọng số ảnh hưởng đến các mạng được đặc trưng bởi các mẫu khác nhau. Đặc
biệt, nếu sự phân bổ tác giả trên mỗi bài báo không đồng đều thì chúng tôi đề xuất gắn
trọng số với nghịch đảo của số lượng tác giả trên mỗi bài báo. Việc sử dụng hệ thống
đánh giá này thậm chí có thể phù hợp hơn khi số lượng tác giả trung bình trên mỗi bài
báo là yếu tố chính trong việc phân biệt các mô hình hành vi hợp tác trong các lĩnh vực
khác nhau. Nói chung, việc sử dụng một hệ thống đánh giá cụ thể là phù hợp, đặc biệt khi
giả định chính là mối quan hệ đồng tác giả thiết lập luồng kiến thức giữa các tác giả tham
gia vào một bài báo chung.
25

Các vấn đề trong phân tích mạng đồng tác giả

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Các vấn đề trong phân tích mạng đồng tác giả

Uploaded by

Copyright:

Available Formats

Các vấn đề trong phân tích mạng đồng tác giả

2. Definition and analysis of co-authorship networks

3. Definition of the co-authorship network: an illustrative example

4. Analysing co-authorship data

You might also like