Zhouqj@mail - Las.ac - CN: CH NG Lên Nhau

Machine Translated by Google
Chuẩn hóa Ma trận Xuất hiện và Đồng xuất hiện trong
Sinh trắc học sử dụng Tương tự Cosine và Hệ số Ochiai
Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ (báo chí)
Một
Qiuju Zhou & Loet Leydesdorff * b
Một
Thư viện Khoa học Quốc gia, Viện Khoa học Trung Quốc, 100190, Bắc Kinh,
Cộng hòa Nhân dân Trung Hoa; email: zhouqj@mail.las.ac.cn
b
*Đồng tác giả; Đại học Amsterdam, Trường Nghiên cứu Truyền thông Amsterdam (ASCoR), PO
Box 15793, 1001 NG Amsterdam, Hà Lan; email: loet@leydesdorff.net
trừu tượng
Chúng tôi chứng minh rằng độ tương tự Ochiai của ma trận đồng xuất hiện bằng độ tương
tự cosin trong ma trận xuất hiện cơ bản. Không nên sử dụng tương quan cosin và Pearson để
chuẩn hóa ma trận đồng xuất hiện vì
độ tương tự sau đó được chuẩn hóa hai lần, và do đó bị ước tính quá mức; hệ số Ochiai có
thể được sử dụng thay thế. Kết quả được hiển thị bằng cách sử dụng ma trận nhỏ (5 trường
hợp, 4 biến) vì lý do giáo khoa, và ma trận đồng xuất hiện của Ahlgren và cộng sự (2003) của 24
tác giả trong thư viện và khoa học thông tin. Ước tính vượt quá được hiển thị
bằng số và sẽ được minh họa bằng cách sử dụng tỷ lệ đa chiều và biểu đồ cụm. Nếu ma
trận xảy ra không có sẵn (chẳng hạn như trong nghiên cứu trên internet hoặc phân tích đồng
trích dẫn tác giả) thì sử dụng Ochiai để chuẩn hóa sẽ tốt hơn là sử dụng cosin.
Từ khóa: chuẩn hóa, xuất hiện, đồng xuất hiện, liên kết, Ochiai, cosine,
chồng lên nhau
1
Giới thiệu
Ahlgren và cộng sự. (2003) lập luận rằng trong trường hợp dữ liệu đồng xuất hiện trong thư mục,
sử dụng hệ số tương quan Pearson r là có vấn đề: hai yêu cầu tự nhiên của
một biện pháp tương tự được áp dụng, ví dụ, trong phân tích trích dẫn tác giả không
hài lòng bởi r. Tuy nhiên, một giải pháp thay thế được cung cấp bằng cách sử dụng cosin. Sử dụng Salton's
tính tương tự cosine thay vì hệ số tương quan Pearson để chuẩn hóa
giải quyết hai vấn đề (i) độ lệch của phân phối trong dữ liệu thư mục
(Seglen, 1992) và (ii) tỷ lệ số không phổ biến dự kiến trong hầu hết các vectơ của
ma trận trích dẫn.
Sự tương tự về cosine bằng với hệ số tương quan Pearson ngoại trừ rằng
cosine không được chuẩn hóa với tham chiếu đến giá trị trung bình của phân phối, trong khi
Tương quan Pearson là. Do đó, sự tương tự cosine có thể được coi là một
thước đo tham số. Egghe & Leydesdorff (2009) cho thấy rằng sự tương
giữa hai số đo này (cosine và Pearson) không phải là tuyến tính, nhưng có thể được biểu diễn
như một tập hợp các đường thẳng. Lưu ý rằng mối tương quan Pearson cũng ngụ ý z
chuẩn hóa của biến thể, trong khi cosin thì không.
Lập luận của Ahlgren et al. (2003) đã dẫn đến một cuộc tranh luận gay gắt trong tạp chí này
(Ahlgren và cộng sự, 2004; Bensman, 2004; Leydesdorff, 2005; White, 2003 và 2004)
bởi vì trong sinh trắc học, phân tích trích dẫn tác giả (ACA) trước đây đã dựa trên
2
về việc sử dụng các mối tương quan Pearson và phân tích nhân tố (McCain, 1990; White & Griffith,
Năm 1981; White & McCain, 1998). Tuy nhiên, tỷ lệ đa chiều (MDS) cũng là
phi tham số và do đó có thể dựa trên ma trận chuẩn hóa cosin.
Leydesdorff & Vaughan (2006) cho rằng không nên bình thường hóa đồng
ma trận xảy ra bằng cách sử dụng tương quan Pearson hoặc cosin, nhưng sử dụng
ma trận xuất hiện (ví dụ: word-document) để chuẩn hóa thay vì co
ma trận xảy ra. Ma trận đồng xuất hiện — đồng trích dẫn, đồng từ, đồng tác giả,
v.v., ma trận — có thể được suy ra từ ma trận xảy ra thông qua phép nhân với
chuyển vị. Nhưng người ta không thể lấy ma trận xuất hiện từ ma trận đồng xuất hiện
bởi vì thông tin bị mất trong quá trình chuyển đổi (Leydesdorff, 1989). Đồng
ma trận xuất hiện chứa các sản phẩm bên trong của các vectơ cũng là
tử số của các cosin tương ứng, và do đó cung cấp bước đầu tiên trong
sự bình thường hóa.
Trong phân tích mạng xã hội, việc sử dụng ma trận đồng xuất hiện hoặc liên kết là
phổ biến và được triển khai trong phần mềm (chẳng hạn như trong Pajek và UCInet) vì một
quan tâm hơn đến các mối quan hệ giữa các biến (ví dụ: đồng từ) và mạng của chúng
các thuộc tính hơn là sự phân bổ của các biến đối với các trường hợp (ví dụ: tài liệu). Các
ma trận liên kết của các đồng xuất hiện cung cấp quyền truy cập trực tiếp vào mạng.
Ahlgren và cộng sự. (2003) được cung cấp như một ví dụ thực nghiệm, ma trận đồng trích dẫn tác giả
trong số 12 nhà sinh trắc học và 12 tác giả từ lĩnh vực truy xuất thông tin, và
3
chuẩn hóa ma trận này bằng cách sử dụng cả tương quan Pearson và tương tự cosine.
Leydesdorff & Vaughan (2006) tái tạo ma trận này và cơ sở của nó
ma trận không đối xứng của các lần xuất hiện để chỉ ra sự khác biệt trong việc phân biệt
giữa hai nhóm trong các ma trận này bằng cách sử dụng MDS và một lò xo nhúng
thuật toán (Kamada & Kawai, 1989). Các tác giả này đề nghị rằng bất cứ khi nào
ma trận xảy ra bất đối xứng không có sẵn, vì trong hầu hết các nghiên cứu trên Internet, một
có lẽ tốt hơn nên sử dụng chỉ số Jaccard; nhưng vấn đề vẫn được phân tích
chưa được giải quyết. Leydesdorff (2008) đã so sánh một số lượng lớn các chỉ số có thể sử dụng
các ma trận đồng xuất hiện và đồng xuất hiện này (xem Jones & Furnas, 1987;
Schneider & Borlund, 2007a; Van Eck & Waltman, 2009).
Tóm lại, có thể phân biệt hai vấn đề: (i) sử dụng phép đồng dạng cosin
so với tương quan Pearson trong trường hợp phân phối thư mục bị lệch, và
(ii) sử dụng ma trận xuất hiện hoặc đồng xuất hiện làm đầu vào cho quá trình chuẩn hóa.
Ahlgren và cộng sự. (2003) đưa ra các lý lẽ thuyết phục để sử dụng cosin thay vì
Tương quan Pearson, nhưng đã sử dụng ma trận đồng xuất hiện để tạo
lý lẽ. Leydesdorff & Vaughan (2006) lập luận ủng hộ việc sử dụng
ma trận xảy ra cho chuẩn hóa, vì ma trận đồng xuất hiện đã
chuẩn hóa — cung cấp tử số của cosin hay nói cách khác là giá trị bên trong
tích giữa các vectơ.
4
Trong phần sau, chúng tôi giải quyết một nguồn thứ ba có thể gây nhầm lẫn:
sự khác biệt giữa độ tương tự cosine và hệ số Ochiai trong trường hợp không
ma trận nhị phân. Hệ số Ochiai có thể được coi là biến thể nhị phân của
cosine (Schneider & Borlund, 2007b, tại trang 1599). Sau đó, chúng tôi lần đầu tiên chuyển sang một
ma trận cho các mục đích giáo khoa và sau đó áp dụng những hiểu biết sâu sắc thu được vào ma trận
được giới thiệu bởi Ahlgren et al. (2003) và được sao chép bởi Leydesdorff & Vaughan
(2008) trong việc đưa ra các lập luận tương ứng của họ.
Tương tự cosine so với hệ số Ochiai
Salton & McGill (1983, tại trang 121; Sen & Gan, 1983, tại trang 80) đã giới thiệu cosin
giữa hai vectơ x và y vào khoa học thông tin. Côsin có thể là
công thức như sau:
= 1
Cosine (x, y) = (1)
√ 2
2
= 1 = 1
Lưu ý rằng công thức của cosin giống với công thức của mối tương quan Pearson,
nhưng không có tâm của các vectơ thành giá trị trung bình (Egghe & Leydesdorff, 2009).
Đối với ma trận nhị phân , phương trình 1 có thể được đơn giản hóa như sau:
5
nhị phân = = 1
Cosine (x, y) (2)
= 1
√ = 1
2
vì chuẩn bình phương của vectơ (L2 = ) bằng tổng (L1 = ) trong
trường hợp nhị phân.
Độ tương tự trong Eq. 2 là một biến thể của cái gọi là hệ số Ochiai (Trình điều khiển
& Kroeber, 1932, tại trang 217-219; Ochiai, 1957; cf. Bolton, 1991, tại trang 143-145;
Cui.1995; Yang, 2007, tại p.47) :):
xy
ℎ (x, y) = (3)
√ x
Trong Eq. 3, cx biểu thị tổng số lần xuất hiện (đếm) của x và cxy là tổng
số đồng xuất hiện của x và y. Hệ số Ochiai được xác định ở mức danh nghĩa
quy mô và không tính đến bản chất thứ tự của dữ liệu sinh trắc học. bên trong
chương trình con Các tiệm cận của SPSS, ví dụ, Ochiai chỉ có thể được sử dụng cho hệ nhị phân
ma trận, trong khi SPSS đề xuất sử dụng cosine hoặc tương quan Pearson cho
trường hợp không nhị phân. Tuy nhiên, SPSS từ chối các giá trị không phải nhị phân khi một người yêu cầu
Hệ số Ochiai.1
1
SPSS cung cấp công thức cho hệ số Ochiai giữa hai biến x và y như sau:
Một
ℎ (,) = (4)
√a + b√a + c
sử dụng bảng dự phòng 2 × 2 sau:

biến x
6
2 Glänzel & Czerwon

Người ta có thể sử dụng Eq. 3 cũng như một công thức cho ma trận không phải nhị phân.
(1995; 1996, ở trang 199) đề xuất sử dụng Ochiai cho một số đồng biến
ma trận dưới dạng “một cosin đơn giản hóa” (Zhou và cộng sự, 2009, tại trang 602). Việc sử dụng cái này
thay thế cho cosine đã dẫn đến sự nhầm lẫn có thể xảy ra trong tài liệu, như thể hai
các định nghĩa khác nhau về cosin đã có sẵn (Van Eck & Waltman, 2009, tại tr.
1637 và 1645, chú thích 9). Small & Sweeney (1985, tại trang 397) đã sử dụng Eq. 3 cho
chuẩn hóa một ma trận đồng trích dẫn không nhị phân, nhưng gọi nó là độ tương tự cosine của Salton.
Chúng tôi sẽ chỉ ra sự khác biệt giữa cosine và hệ số Ochiai bằng cách sử dụng
thí dụ. Nhưng chúng tôi tranh luận rằng các biện pháp khác nhau có thể được sử dụng một cách có ý nghĩa để
các mục đích khác nhau: hệ số Ochiai của ma trận đồng xuất hiện bằng
cosine của ma trận xảy ra, và do đó cho phép chúng ta chuẩn hóa sự đồng xuất hiện
ma trận chính xác như ma trận xảy ra (có thể không có). Ochiai
hệ số cũng là giá trị gần đúng nhất của sự tương đồng cosin trong trường hợp xảy ra
Sự hiện diện a b
biến y
Vắng mặt c d
2
Jones & Furnas (1987, tại trang 429f.) Đề xuất “cosin giả” được chính thức hóa như sau:
= 1
Pseudo Cosine (x, y) = = 1 = 1
(5)
Không giống như Ochiai, mẫu số không phải là căn bậc hai và do đó lớn hơn nhiều. Do đó, các
giá trị của cosin giả nhỏ hơn nhiều so với giá trị của cosin.
7
ma trận nếu cái sau không có sẵn; ví dụ, khi ma trận đồng xuất hiện có thể
được đo lường theo kinh nghiệm.
Tính dẫn xuất của ma trận đồng xuất hiện từ ma trận xuất hiện
Như đã lưu ý, người ta có thể lấy ma trận đồng xuất hiện từ ma trận xuất hiện bằng cách
nhân cái sau với nó đã hoán vị: A T * A. Lưu ý rằng A * A T cung cấp một giây
ma trận đồng xuất hiện cùng chiều khác của các trường hợp của ma trận. Tắt
các giá trị đường chéo trong ma trận đồng xuất hiện đối xứng là tổng của
tích giữa các vectơ ( ), và giá trị đường chéo bằng bình phương
chuẩn của mỗi vectơ trong ma trận xảy ra: | | * | |.
Hãy để chúng tôi chứng minh điều này bằng cách sử dụng ma trận nhỏ (số) của năm tài liệu và
ba biến (ví dụ: từ) trong Bảng 1:
Bảng 1: ma trận xảy ra không đối xứng
V1 V2 V3
D1 2 0 2
D2 1 1 0
D3 0 3 3
D4 0 2 2
D5 0 0 1
Khi nhân với nó đã hoán vị (nghĩa là sau khi hoán đổi các hàng và cột),
kết quả ma trận đồng xuất hiện được cung cấp trong Bảng 2:
số 8
Bảng 2: ma trận đồng xuất hiện đối xứng (qua các cột)
V1 V2 V3
V1 5 1 4
V2 1 14 13
V3 4 13 18
Ví dụ, V2 và V3 xảy ra cả ba lần trong tài liệu D3 và hai lần trong D4. Các
do đó ô (V2, V3) có giá trị là 3 * 3 + 2 * 2 = 13. Tuy nhiên, giá trị đường chéo là
dựa trên phép nhân ma trận và do đó bình phương của vectơ. Trong trường hợp
của V3, chẳng hạn, giá trị này nằm dọc theo cột của V3 (trong Bảng 1): 2 * 2 + 0 * 0 +
3 * 3 + 2 * 2 + 1 * 1 = 18.
UCINet, chẳng hạn, phép nhân ma trận này có chính xác không khi một người yêu cầu
Các chi nhánh trong menu Dữ liệu; Tuy nhiên, Pajek bỏ qua các giá trị đường chéo khi 2
ma trận chế độ của Bảng 1 được chuyển thành ma trận chế độ 1; người đầu tiên phải bật
tùy chọn “bao gồm các vòng lặp”. Ngoài ra, người ta có thể chuyển đổi ma trận 2 chế độ và
sau đó sử dụng các Mạng chương trình con để nhân các ma trận (de Nooy et
al., 2011). Trong Excel, người ta có thể sử dụng các hàm TRANSPOSE () và MMULT ()
liên tục để tạo Bảng 2 từ Bảng 1.
Morris (2005, tại trang 22) lưu ý rằng trong nghiên cứu thực nghiệm, ma trận đồng xuất hiện là
thường dựa trên sự chồng chéo tối thiểu giữa các vectơ cho từng trường hợp, và không dựa trên
Phép nhân ma trận. Trong khi người ta có thể giả định rằng ma trận xuất hiện cơ bản là
9
nhị phân trong trường hợp ma trận đồng trích dẫn hoặc đồng tác giả, sự xuất hiện của thuật ngữ ngôn ngữ
ma trận không phải là hệ nhị phân vì mỗi thuật ngữ có thể xuất hiện nhiều lần trong một bài báo (Morris,
2005, tr. 36). Kết quả của phép nhân ma trận với đôi khi được hoán vị
cung cấp các đại diện ít ý nghĩa hơn trong trường hợp này.
Nếu một người tìm kiếm — ví dụ: trên internet — cho “a VÀ b”, người đó sẽ truy xuất
chồng chéo tối thiểu chứ không phải bội số. Sự chồng chéo tối thiểu trong trường hợp này là nhị phân:
các bộ được truy xuất có chồng chéo lên nhau hay không. Sử dụng hàm chồng chéo không nhị phân Morris (2005)
giữa các vectơ, độ trùng lặp nhỏ nhất giữa V1 và V3 trong Bảng 1 là 2. Bảng
3 cung cấp ma trận đồng xuất hiện dựa trên sự chồng chéo này được áp dụng cho Bảng 1. Lưu ý
rằng các giá trị đường chéo hiện bằng với tiêu chuẩn L1 (= ) của các giá trị tương ứng
vectơ trong Bảng 1.
Bảng 3: Ma trận đồng xuất hiện đối xứng dựa trên Bảng 1, nhưng
sử dụng độ chồng chéo tối thiểu
V1 V2 V3
V1 3 1 2
V2 1 6 5
V3 2 5 số 8
Các hệ số Ochiai dựa trên hàm chồng chéo tối thiểu có thể được chính thức hóa thành
sau:
= phút
1 ( , )
ℎ (x, y) = (6)
= 1
√ = 1
10
Sự đồng xuất hiện (đó là sản phẩm bên trong) trong tử số được thay thế bằng
giá trị nhỏ nhất của x VÀ y.
Chúng ta hãy lập bảng chéo các lựa chọn sử dụng sự tương tự cosine (Phương trình 1) và Ochiai
hệ số (phương trình 3) cho cả ma trận bất đối xứng và đối xứng. Kết quả là
được thể hiện trong Bảng 4, như sau:
Bảng 4: Giá trị Cosine và Ochiai cho ma trận xuất hiện và đồng xuất hiện
Cô sin Ochiai
(Phương trình 1) (Phương trình 3)
Ma trận xuất hiện V1 V2 V3 V1 V2 V3

(Bảng 1) 0,42
V1 1,00 0,12 V1 1,00 0,24 0,82
V2 0,12 1,00 0,82 V2 0,24 1,00 1,88
V3 0,42 0,82 1,00 V3 0,82 1,88 1,00
Ma trận đồng xuất V1 V2 V3 V1 V2 V3

hiện dựa trên các
V1 1,00 0,57 0,72 V1 1,00 0,12 0,42
sản phẩm bên trong
V2 0,57 1,00 0,97 V2 0,12 1,00 0,82
(Ban 2)
1,00 V3 0,42 0,82 1,00
V3 0,72 0,97
Đồng xuất hiện V1 V2 V3 V1 V2 V3

ma trận dựa trên
V1 1,00 0,65 0,75 V1 1,00 0,24 0,41
chức năng chồng chéo
(Bàn số 3) V2 0,65 1,00 0,95 V2 0,24 1,00 0,72
V3 0,75 0,95 1,00 V3 0,41 0,72 1,00
Bảng 4 cho thấy rằng các giá trị cosin của ma trận xảy ra (Bảng 1) là chính xác
bằng các giá trị Ochiai của ma trận đồng xuất hiện (Bảng 2). Ochiai
hệ số của ma trận đồng xuất hiện sử dụng các tích bên trong tử số, và
các giá trị đường chéo trong Bảng 2 (bằng với tiêu chuẩn bình phương của giá trị ban đầu
vectơ) ở mẫu số. Cosine-chuẩn hóa ma trận đồng xuất hiện quá
11
ước tính mức độ tương tự vì ma trận này đã chứa các giá trị tử số của
cosine (các tích bên trong của các vectơ).
Ochiai của ma trận đồng xuất hiện trong Bảng 2 có thể được viết lại dưới dạng
Bảng 1 (ma trận sự cố) như sau:
1 2
ℎ = (7)
√ 2 ( 1) √ 2 ( 2)
ở đâu
1 là giá trị của biến đầu tiên trong ma trận xuất hiện và 2 ( 1) là
bình phương chuẩn của vectơ 1 trong ma trận xảy ra. Từ việc viết lại trong Eq. 7, nó
theo phân tích rằng các hệ số Ochiai của ma trận đồng xuất hiện là bằng nhau
tương tự cosine của ma trận xảy ra như được cung cấp trong phương trình. 1 (Qed; cf.
Bolton, 1991). Điều này đúng cho cả ma trận số và ma trận nhị phân.
Sử dụng SPSS, các hệ số Ochiai của ma trận xảy ra luôn được đặt bằng
không hoặc một vì số đo này được coi là chỉ hợp lệ đối với ma trận nhị phân. Nếu như
một người theo đuổi tính toán số bằng cách sử dụng Eq. 3 ở trên để tính toán
Tuy nhiên, hệ số Ochiai, giá trị ô (V2, V3) là 1,88 (nghĩa là lớn hơn một),
và do đó không hợp lệ. Nói cách khác, hệ số Ochiai không phải lúc nào cũng đúng
được xác định cho trường hợp số của ma trận xảy ra . Driver & Kroeber (1932, tại
P. 217) được xây dựng: “Tuy nhiên, như một hệ số như vậy, tính hợp lệ của nó phụ thuộc vào
các dấu hiệu của các giá trị được xử lý và chúng không thể xác định được đối với dữ liệu thuộc loại
12
Chúng ta đang đối phó với." Do đó, người ta nên sử dụng cosin trong trường hợp chuẩn hóa
một ma trận xảy ra. Chúng ta sẽ thảo luận về các giá trị đường chéo trong trường hợp đồng
ma trận xảy ra bên dưới.
Hàng dưới cùng của Bảng 4 cung cấp kết quả của sự chuẩn hóa cosine của sự chồng chéo
ma trận (trong Bảng 3) và các hệ số Ochiai tương ứng. Cô-sin chuẩn hóa
Bảng 3 ước tính quá mức đáng kể các điểm tương đồng, bởi vì một bảng chuẩn hóa hai lần:
một lần để tạo ra sự chồng chéo tối thiểu (nghĩa là mức độ gần nhau giữa
vectơ cung cấp cho chúng tôi giá trị tương tự thô (và cục bộ).) và lần thứ hai
bằng cách lấy các giá trị cosine của các chồng chéo kết quả. Vì vậy, người ta nên sử dụng Ochiai
hệ số cũng trong trường hợp này.
Nói cách khác, ma trận đồng xuất hiện của Bảng 2 chứa thông tin về
tạo ma trận chuẩn hóa thích hợp khi các giá trị đường chéo dựa trên
phép nhân của ma trận xảy ra với nó đã được hoán vị. Tuy nhiên, những đường chéo này
các giá trị thường không có trong nghiên cứu thực nghiệm. Ví dụ: nếu một người truy vấn với “a
VÀ b ”cho các giá trị ngoài đường chéo và chỉ với“ a ”hoặc“ b ”cho các giá trị đường chéo,
2
đây không phải là các chỉ tiêu bình phương của vectơ (L2 = ), nhưng tính tổng (L1 = ).
Trong những trường hợp này, người ta sử dụng hàm chồng chéo trên thực tế vì hạn chế
Boolean AND trong các truy vấn (Morris, 2005).
13
Nếu chúng ta sử dụng các chỉ tiêu L1 của Bảng 1 {3, 6, 8} làm giá trị đường chéo trong đồng
ma trận xuất hiện trong Bảng 2, ô tương ứng (V2, V3) sẽ lại lớn hơn
nhiều hơn một và do đó không hợp lệ. Để trống đường chéo tạo ra lỗi
vì một phép chia cho số không. Trong khi cosine có thể được tính với bất kỳ giá trị nào trên
đường chéo, hệ số Ochiai yêu cầu các giá trị đường chéo ít nhất phải bằng
tổng các ô nằm ngoài đường chéo trong các hàng hoặc cột tương ứng của
ma trận xảy ra. Trong điều kiện này, các giá trị nằm ngoài đường chéo đại diện cho các tập con của
tập hợp đại diện trên đường chéo chính (Driver & Kroeber, 1932).
Nếu có sẵn ma trận xảy ra, người ta có thể sử dụng thông tin có trong
ma trận để xây dựng đường chéo chính làm chuẩn bình phương của mỗi vectơ. Nếu
ma trận xuất hiện cơ bản có thể được giả định là nhị phân, L1 = L2 và kết quả của
sử dụng phép nhân ma trận hoặc hàm chồng chéo là hoàn toàn giống nhau. Trong tất cả những thứ khác
các trường hợp, các giá trị đường chéo phải bằng hoặc lớn hơn L1 của sự đồng xuất hiện
ma trận nếu muốn sử dụng hệ số Ochiai.
Sử dụng ma trận Ahlgren's (2003)
Ma trận đồng xuất hiện được cung cấp bởi Ahlgren et al. (2003, Bảng 7, trang 555) là
tái tạo và cập nhật bởi Leydesdorff & Vaughan (2006) và cung cấp
Giá trị L2 cho đường chéo chính của Leydesdorff (2008, tại trang 78). Lưu ý rằng
14
số lượng trích dẫn trong Bảng 5 cao hơn một chút so với số lượng trích dẫn của Ahlgren
et al. bởi vì các trích dẫn đã được truy xuất vào một ngày sau đó (tức là ngày 18 tháng 11 năm 2004).
15
Bảng 5: Ma trận đồng trích dẫn tác giả của 24 nhà khoa học thông tin trong Bảng 7 của Ahlgren và cộng sự, 2003, tại tr. 555; các giá trị đường
chéo chính do Leydesdorff và Vaughan thêm vào (2006; xem Leydesdorff, 2008, tại trang 78.)
Braun 50 29 19 20 9 13 5 9 7 7 0 2 0 0 0 0 0 0 0 0 0 0 0 0 120
Schubert 29 60 28 18 10 18 5 5 5 12 2 1 0 0 0 0 0 0 0 0 0 0 0 0 133
Glanzel 19 28 53 16 10 20 9 14 9 11 5 3 0 0 0 0 0 0 0 0 0 0 0 0 144
Moed 20 18 16 55 12 20 5 18 13 12 7 4 0 0 0 0 0 0 0 0 0 0 0 0 145
Nederhof 9 10 10 12 31 12 8 11 7 4 4 2 0 0 0 0 0 0 0 0 0 0 0 0 89
Narin 13 18 20 20 12 64 11 20 21 20 11 9 1 0 1 1 0 0 1 1 0 0 0 0 180
Tijssen 5 5 9 5 8 11 22 13 10 5 6 1 0 1 2 1 0 0 0 1 0 0 0 0 83
VanRaan 9 5 14 18 11 20 13 50 13 12 12 6 2 1 2 1 0 0 0 1 0 0 0 0 140
Leydesdorff 7 5 9 13 7 21 10 13 46 17 14 10 1 0 1 1 0 0 0 2 0 0 0 0 131
Giá 7 12 11 12 4 20 5 12 17 54 10 9 1 1 1 1 0 0 2 0 1 0 1 2 129
Callon 2 2 5 7 4 11 6 12 14 10 26 4 0 0 1 1 0 0 0 1 0 0 0 0 80
Cronin 0 1 3 4 2 9 1 6 10 9 4 24 1 0 0 1 0 0 0 1 0 1 1 1 55
Cooper 0 0 0 0 0 1 0 2 1 1 0 1 30 15 5 12 5 10 7 2 0 2 1 1 66
Vanrijsbergen 0 0 0 0 0 0 1 1 0 1 0 0 15 30 7 17 5 13 5 3 1 0 1 1 71
Croft 0 0 0 0 0 1 2 2 1 1 1 0 5 7 18 9 6 7 8 6 2 1 2 2 63
Robertson 0 0 0 0 0 1 1 1 1 1 1 1 12 17 9 36 7 13 12 10 8 6 4 4 109
Blair 0 0 0 0 0 0 0 0 0 0 0 0 5 5 6 7 18 10 4 2 2 2 0 0 43
Harman 0 0 0 0 0 0 0 0 0 0 0 0 10 13 7 13 10 31 9 5 5 3 1 1 77
Belkin 0 0 0 0 0 1 0 0 0 2 0 0 7 5 8 12 4 9 36 9 9 10 14 10 100
Spink 0 0 0 0 0 1 1 1 2 0 1 1 2 3 6 10 2 5 9 21 11 7 5 4 71
Fidel 0 0 0 0 0 0 0 0 0 1 0 0 0 1 2 2 5 9 11 23 12 10 6
số 8 67
Marchionini 0 0 0 0 0 0 0 0 0 0 0 1 2 0 1 6 2 3 10 7 12 24 11 5 60
Kuhlthau 0 0 0 0 0 0 0 0 0 1 0 1 1 1 2 4 0 1 14 5 10 11 26 14 65
Dervin 0 0 0 0 0 0 0 0 0 2 0 1 1 1 2 4 0 1 10 4 6 5 14 20 51
120 133 144 145 89 180 83 140 131 129 80 55 66 71 63 109 43 77 100 71 67 60 65 51 2.272
16
Các giá trị trên đường chéo chính đã được chúng tôi thêm vào trên cơ sở ma trận xảy ra. Từ
sự xuất hiện này (tác giả / tài liệu) ma trận là nhị phân, tổng trong mỗi cột bằng cả
Định mức L1 và L2 của vectơ. Ngoài ra, tổng số tiền ký quỹ trong Bảng 5 cung cấp tổng
số lượng đồng trích dẫn là số nguyên được đếm (không bao gồm đường chéo chính). Trong trường hợp này, những
giá trị lớn hơn nhiều so với tiêu chuẩn bình phương của các vectơ tương ứng (trên chính
đường chéo) vì đếm số nguyên.
Vì ma trận đồng trích dẫn trong Bảng 5 được suy ra từ ma trận xảy ra không đối xứng
chứa 279 tài liệu đồng trích dẫn như các trường hợp so với 24 tác giả được trích dẫn dưới dạng các biến, côsin
các giá trị của ma trận xảy ra (vì các lý do phân tích được chỉ định ở trên) giống với
Các giá trị Ochiai có được từ ma trận đồng xuất hiện.
Hãy để chúng tôi làm rõ một ví dụ: Ahlgren et al. (2003, trang 558, Bảng 9) báo cáo mối tương quan Pearson
giữa các cột (hoặc hàng) đại diện cho Van Raan và Schubert là 0,74. (Giá trị cosine
giữa hai cột tương ứng trong ma trận đồng xuất hiện là 0,454.) Tuy nhiên,
Leydesdorff & Vaughan (2006, trang 1621, Bảng 3) báo cáo r = –.131 (p <0,05) trên cơ sở
ma trận xảy ra. Do đó, người ta có thể bị nhầm lẫn đáng kể khi sử dụng tương quan Pearson hoặc cosin
tương tự dựa trên ma trận đồng xuất hiện. Mặc dù các mô hình đồng xuất hiện có thể giống nhau
khi có liên quan đến các tác giả khác trong tập hợp (đôi khi được coi là cấp độ toàn cầu; ví dụ:
Colliander & Ahlgren, 2012), mối quan hệ địa phương của họ khá khác biệt. Trong trường hợp sử dụng
cosine — chạy không giống như Pearson từ không đến một — giá trị thích hợp của sự tương tự
giữa hai vectơ này là 0,091 và do đó phù hợp với giá trị âm của Pearson
tương quan.
17
Giá trị cao nhất của các mối tương quan Pearson được báo cáo bởi Ahlgren et al. (2003) ở giữa
Braun, Schubert và Glänzel: 0,94 giữa Braun và Schubert, 0,96 giữa Braun và
Glänzel, và 0,91 giữa Schubert và Glänzel. Giá trị cosine cho các ô này (dựa trên
Bảng 5) lần lượt là 0,87, 0,77 và 0,84 khi bỏ qua đường chéo chính. Các
các giá trị thích hợp, tuy nhiên, là 0,53, 0,37 và 0,50 bằng cách sử dụng hệ số Ochiai cho đồng
ma trận xảy ra (hoặc tương đương là cosin của ma trận xảy ra). Như đã lưu ý, lạm phát
tương đồng cosine và tương quan Pearson tìm thấy nguồn gốc của nó trong thực tế là
các giá trị xuất hiện là sản phẩm bên trong của các vectơ ban đầu và do đó đã là bước đầu tiên trong
sự bình thường hóa.
Phân tích tỷ lệ và cụm đa chiều
Hình 1 cho thấy sự khác biệt giữa việc sử dụng tương tự cosine hoặc hệ số Ochiai cho
chuẩn hóa ma trận đồng xuất hiện trong Bảng 5 bằng cách sử dụng tỷ lệ đa chiều trong SPSS
(ProxScal) .3 Trong khi con số bên trái dựa trên sự chuẩn hóa cosine của sự đồng xuất hiện
ma trận cho thấy một nhóm mạnh mẽ của hai tập hợp con các tác giả (bác sĩ sinh trắc học so với tác giả trong
truy xuất thông tin), nó hầu như không hiển thị cấu trúc tốt trong mỗi nhóm trong hai nhóm này. Các
phép chiếu của ma trận đồng xuất hiện được chuẩn hóa Ochiai cho thấy chi tiết hơn về bên trong
cấu trúc nhóm.
3
Các nhãn biến được viết tắt thành 10 vị trí trong SPSS. “VANRIJSBERG” phải được đọc là “VAN
RIJSBERGEN ”và“ LEYDESDORF ”là“ LEYDESDORFF ”.
18
Hình 1: Tỷ lệ đa chiều (PROXSCAL trong SPSS) của ma trận đồng xuất hiện chuẩn hóa cosine ở phía bên trái và ma trận đồng xuất hiện
chuẩn hóa Ochiai ở phía bên phải.
19
Hình 2: Biểu đồ dựa trên thuật toán phân cụm Ward của Ahlgren và cộng sự (2003) Bảng 7 sử dụng ma trận đồng xuất hiện chuẩn hóa
cosine ở phía bên trái và ma trận đồng xuất hiện chuẩn hóa Ochiai ở phía bên phải.
20
Hình 3: Phân nhóm PROXSCAL và Ward của ma trận đồng xuất hiện chuẩn hóa Ochiai, nhưng sử dụng tổng các phần tử nằm ngoài đường chéo
cho đường chéo chính.
21
Hình 2 tiếp tục tinh chỉnh bức tranh này một cách định lượng bằng cách cung cấp các biểu đồ dendog đồ dựa trên Ward's
phân tích phân cụm của hai ma trận . 4 Trong khi ở hình bên trái (dựa trên cosin
bình thường hóa) tất cả 12 nhà sinh trắc học được kết hợp thành một nhóm duy nhất, phía bên phải
dendogram (dựa trên chuẩn hóa Ochiai) cho thấy chính xác: (1) nhóm Budapest của Braun,
Schubert và Glänzel, (2) Nhóm Leiden, được chia thành một nhóm cốt lõi xung quanh Van Raan và
bao gồm mối quan hệ đồng trích dẫn giữa Moed và Narin, (3) một nhóm nhiều hơn về mặt lý thuyết
các nhà nghiên cứu sinh trắc học có định hướng bao gồm Callon, Leydesdorff, Price, và cả Cronin nữa
xa. Tương tự, một cấu trúc tinh tế có sắc thái hơn nhiều được chỉ ra trong số thông tin
những người truy tìm. Tóm lại, sự tương đồng trong hình bên trái được ước tính quá mức, và Ochiai
hệ số giải quyết triệt để vấn đề chuẩn hóa đúng các ma trận đồng xuất hiện.
Hình 3 cho thấy tương tự các giải pháp MDS và phân cụm của đồng chuẩn hóa Ochiai
ma trận xảy ra giả định rằng ma trận xảy ra không có sẵn. Đường chéo chính
giá trị hiện được cung cấp bởi tổng các phần tử nằm ngoài đường chéo cho mỗi hàng và cột. Các
sự khác biệt giữa hai bản đồ MDS (Hình 1b và 3a) là nhỏ, nhưng phân cụm (Hình
3b) cho thấy một số khác biệt. Ví dụ, Narin hiện được đặt trong một cụm có Giá chứ không phải
với Moed và các thành viên khác của nhóm Leiden. Phân cụm trong Hình 3b là tốt hơn
có hạt; nhưng sự tương đồng được ước tính thấp hơn khi so sánh với Hình 2b. Như đã lưu ý,
sự lựa chọn của một trong hai giải pháp phụ thuộc vào thiết kế nghiên cứu: (1) có sẵn ma trận xảy ra không
để tính toán các chỉ tiêu bình phương của các vectơ được điền vào các đường chéo của sự đồng xuất hiện
ma trận, hoặc (2) có thể được giả định rằng ma trận xuất hiện cơ bản là nhị phân.
4
Thuật toán phân cụm thêm một chuẩn hóa với Khoảng cách Euclid Bình phương theo mặc định, nhưng điều này tương tự
đối với tất cả các ma trận đang thảo luận. Ngoài ra, người ta có thể truy cập trực tiếp các ma trận chuẩn hóa bằng
thủ tục con MATRIX = IN (*) của CLUSTER trong SPSS.
22
Một trong những trọng tài đã yêu cầu mở rộng phân tích cho một tập hợp lớn hơn tập hợp được cung cấp bởi Ahlgren
et al. (2003). Ví dụ: Leydesdorff, Heimeriks và Rotolo (trong báo chí) đã xây dựng một ma trận
với số lượng xuất bản của 43 quốc gia OECD và các nền kinh tế trực thuộc so với 10.542 tạp chí
được đưa vào JCR 2012. Ma trận này là ma trận xảy ra (không đối xứng). Bảng 6 cung cấp
Tương quan Pearson, giá trị cosine và tương quan Spearman cho năm đầu tiên trong số này
các quốc gia theo thứ tự bảng chữ cái làm ví dụ.
Bảng 6: Tương quan Pearson, giá trị cosin và tương quan thứ tự cấp bậc của Spearman giữa năm quốc gia được
đưa vào phân tích danh mục đầu tư của Leydesdorff, Heimeriks và Rotolo (trên báo chí).
Châu Úc Áo nước Bỉ Canada

Áo Tương quan Pearson
0,619
Cô sin 0,635
Tương quan Spearman 0,425
nước Bỉ Tương quan Pearson

0,683 0,787
Cô sin 0,697 0,795
Tương quan Spearman 0,526 0,499
Canada Tương quan Pearson

0,713 0,721 0,783
Cô sin 0,727 0,733 0,793
Tương quan Spearman 0,649 0,440 0,533
Chile Tương quan Pearson

0,379 0,365 0,386 0,400
Cô sin 0,391 0,377 0,398 0,412
Tương quan Spearman 0,275 0,288 0,290 0,274
Lưu ý rằng cosin luôn lớn hơn tương quan Pearson vì nó nằm trong khoảng từ 0 đến
một, trong khi mối tương quan Pearson nằm trong khoảng từ -1 đến +1. Chúng tôi cũng đã thêm cấp bậc Spearman
tương quan bởi vì mối tương quan này có điểm chung với cosin rằng nó là phi tham số.
Sau khi nhân với phép chuyển vị, người ta thu được ma trận đồng xuất hiện trong số 43
Quốc gia. Sử dụng Ochiai cho ma trận đồng xuất hiện sẽ vì lý do phân tích (hiển thị
23
ở trên) cung cấp cho chúng tôi các giá trị tương tự như các giá trị cosin trong Bảng 6. Vì đối số là
phân tích, sự bằng nhau của các giá trị cosin của ma trận xảy ra với các giá trị Ochiai cho
ma trận đồng xuất hiện tương ứng giữ cho ma trận thuộc mọi kích thước.
Kết luận và thảo luận
Chúng tôi lập luận trong nghiên cứu này rằng sự tương đương thích hợp với sự chuẩn hóa cosine của sự xuất hiện
ma trận là Ochiai-chuẩn hóa trong trường hợp của ma trận đồng xuất hiện tương ứng. Chúng ta có
được hiển thị cả về mặt phân tích và sử dụng các ví dụ thực nghiệm rằng kết quả của hai phép chuẩn hóa
là giống hệt nhau. Ma trận đồng xuất hiện dựa trên phép nhân ma trận bảo toàn thông tin
về các vectơ trong ma trận xuất hiện trong các giá trị trên đường chéo chính.
Trong trường hợp thực nghiệm, nhà nghiên cứu có thể chỉ lấy ra một ma trận số đồng xuất hiện.
Sau đó, người ta có thể đặt đường chéo chính, chẳng hạn, thành 0 và chấp nhận một số lỗi trong
phép đo khi sử dụng cosin để chuẩn hóa, nhưng điểm tương đồng sau đó là
đánh giá quá cao. Tuy nhiên, sử dụng hệ số Ochiai để chuẩn hóa, giá trị đường chéo có
ở mức tối thiểu là tổng các phần tử nằm ngoài đường chéo trong cùng một hàng hoặc cột (trong số này
ma trận đối xứng). Người ta có thể coi các phần tử nằm ngoài đường chéo này là các tập con của tổng số tập hợp trong
mỗi hàng hoặc cột. Ma trận đồng xuất hiện sau đó dựa trên hàm chồng chéo (Morris,
Năm 2005; cf. Người lái xe & Kroeber, 1932). Đặc điểm kỹ thuật chính xác của giá trị đường chéo cũng có thể
được coi là một thách thức cho các nghiên cứu sâu hơn.
24
Không giống như cosine và hệ số Ochiai, mối tương quan Pearson cũng z-chuẩn hóa
sự biến đổi. Côsin không phụ thuộc vào tỷ lệ, nhưng không phụ thuộc vào khối lượng, và do đó là một tác giả A
với đồng trích dẫn với một tác giả được trích dẫn nhiều tổng thể thì giống với tác giả này hơn, sau đó giống nhau
tác giả A với một tác giả khác ít được trích dẫn hơn bất kể mô hình liên kết. Điều này báo trước cho
diễn giải cung cấp một lựa chọn khác để nghiên cứu và phản ánh thêm. Lưu ý rằng Colliander &
Ahlgren (2012) lập luận ủng hộ ma trận tương tự bậc hai sẽ hoạt động tốt hơn ma trận
đơn đặt hàng đầu tiên.
Hơn nữa, câu hỏi vẫn là liệu người ta có nên chuẩn hóa một ma trận đồng xuất hiện hay không.
Bản thân ma trận đồng xuất hiện đã được chuẩn hóa về các sản phẩm bên trong giữa
vectơ và do đó giàu thông tin. Nói chung, chuẩn hóa cosine tương tự như Pearson
chuẩn hóa (và phân tích nhân tố) cho phép chúng ta hình dung cấu trúc trong ma trận về
các thành phần. Nếu một người ít quan tâm đến các điểm chung trong phương sai và hơn thế nữa trong
tính cụ thể của các trường hợp khác nhau, người ta có thể muốn sử dụng ma trận đồng xuất hiện mà không cần thêm
chuẩn hóa (ví dụ: Leydesdorff, Heimeriks & Rotolo, trên báo chí).
Sự nhìn nhận
Chúng tôi cảm ơn Fuhai Leng và hai trọng tài ẩn danh đã góp ý cho các bản thảo trước đó.
Người giới thiệu
Ahlgren, P., Jarneving, B., & Rousseau, R. (2003). Yêu cầu đối với Phép đo Tương tự Co-trích dẫn, có Tham chiếu
Đặc biệt đến Hệ số Tương quan của Pearson. Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa
Kỳ, 54 (6), 550-560.
Ahlgren, P., Jarneving, B., & Rousseau, R. (2004a). Tác giả Co-citation và Pearson's r. Tạp chí
của Hiệp hội Khoa học và Công nghệ Thông tin Hoa Kỳ, 55 (9), 843.
25
Ahlgren, P., Jarneving, B., & Rousseau, R. (2004b). Rejoinder: Trong phòng thủ của các phương pháp chính thức.
Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa Kỳ, 55 (10), 936.
Bensman, SJ (2004). Pearson's r và Author Cocitation Phân tích: Một bình luận về
Tranh cãi. Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa Kỳ, 55 (10), 935-936.
Bolton, HC (1991). Về Tầm quan trọng Toán học của Chỉ số Tương tự của Ochiai như là một thước đo cho môi
trường sống địa lý sinh học. Tạp chí Động vật học Úc, 39, 143-156.
Colliander, C., & Ahlgren, P. (2012). Thực nghiệm so sánh bậc một và bậc hai
những điểm tương đồng trong bối cảnh khoa học luận. Khoa học giáo khoa, 90 (2), 675-685.
Cui, L. (1995). Phân tích theo thứ tự thời gian và cụm trích dẫn đến các tài liệu được trích dẫn nhiều.
Tạp chí của Hiệp hội Thông tin Khoa học và Kỹ thuật Trung Quốc, 14 (1), 54-61.
de Nooy, W., Mrvar, A., & Batgelj, V. (2011). Phân tích Mạng xã hội Khám phá với Pajek (Phiên bản thứ 2). New
York, NY: Nhà xuất bản Đại học Cambridge.
Người lái xe, HE, & Kroeber, AL (1932). Biểu hiện định lượng của các mối quan hệ văn hóa. Các ấn phẩm của
Đại học California về Khảo cổ học và Dân tộc học Hoa Kỳ, 31 (4), 211-256.
Egghe, L., & Leydesdorff, L. (2009). Mối quan hệ giữa hệ số tương quan r của Pearson và độ đo cosin của
Salton. Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa Kỳ, 60 (5), 1027-1036.
Glänzel, W., & Czerwon, H.-J. (1995). Một cách tiếp cận phương pháp luận mới đối với thư mục
sự ghép nối và ứng dụng của nó đối với các tài liệu cốt lõi và nghiên cứu khác Kỷ yếu của Hội nghị
Quốc tế lần thứ 5 về Khoa học và Vật liệu đo, River Forest, IL, ngày 7-10 tháng 6 (trang 167-176).
Medford: Learned Information Inc.
Glänzel, W., & Czerwon, H.-J. (1996). Một cách tiếp cận phương pháp luận mới để ghép thư mục và ứng
dụng của nó cho cấp quốc gia, khu vực và thể chế.
Scientometrics, 37 (2), 195-221.
Jones, WP và Furnas, GW (1987). Hình ảnh về mức độ liên quan: Phân tích hình học của
Các biện pháp tương tự. Tạp chí của Hiệp hội Khoa học Thông tin Hoa Kỳ, 36 (6), 420-442.
Kamada, T., & Kawai, S. (1989). Một thuật toán để vẽ các đồ thị vô hướng tổng quát.
Thư xử lý thông tin, 31 (1), 7-15.
Leydesdorff, L. (1989). Từ và Đồng từ là Chỉ số của Tổ chức Trí tuệ.
Chính sách Nghiên cứu, 18 (4), 209-223.
Leydesdorff, L. (2005). Các biện pháp tương đồng, phân tích đồng trích dẫn tác giả và thông tin
Học thuyết. Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa Kỳ, 56 (7), 769-772.
Leydesdorff, L. (2008). Về Chuẩn hóa và Hình dung Dữ liệu Đồng trích dẫn Tác giả: Cosine của Salton so với
Chỉ số Jaccard. Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa Kỳ, 59 (1), 77-85.
Leydesdorff, L., Heimeriks, G., & Rotolo, D. (báo chí). Tạp chí Phân tích Danh mục cho Các Quốc gia, Thành phố
và Tổ chức: Bản đồ và So sánh. Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ. doi: 10.1002 /
asi.23551
Leydesdorff, L., & Vaughan, L. (2006). Ma trận đồng xuất hiện và các ứng dụng của chúng trong
Khoa học Thông tin: Mở rộng ACA cho Môi trường Web. Tạp chí của Hiệp hội Thông tin Khoa học và Công
nghệ Hoa Kỳ, 57 (12), 1616-1628.
26
McCain, KW (1990). Các tác giả lập bản đồ trong không gian trí tuệ: Tổng quan về kỹ thuật. Tạp chí của Hiệp
hội Khoa học Thông tin Hoa Kỳ, 41 (6), 433-443.
Morris, SA (2005). Xử lý toán học thống nhất của mạng lưỡng cực xếp tầng phức tạp: Trường hợp tập hợp các
bài báo trên tạp chí. Luận án Tiến sĩ chưa công bố, Đại học Bang Oklahoma; được truy xuất vào ngày
18 tháng 3 năm 2005 từ http://digital.library.okstate.edu/etd/umi okstate-1334.pdf.
Ochiai, A. (1957). Các nghiên cứu về động vật học về các loài cá độc nhất được tìm thấy ở Nhật Bản và
Khu vực lân cận - II. Bản tin của Hiệp hội Thủy sản Khoa học Nhật Bản, 22 (9), 526-530.
Salton, G., & McGill, MJ (1983). Giới thiệu về Truy xuất Thông tin Hiện đại. Auckland,
vv: McGraw-Hill.
Schneider, JW và Borlund, P. (2007a). So sánh ma trận, Phần 1: Động lực và các vấn đề quan trọng để đo
lường sự tương đồng giữa các thước đo độ gần hoặc kết quả thứ hạng.
Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa Kỳ, 58 (11), 1586-
Năm 1595.
Schneider, JW, & Borlund, P. (2007b). So sánh ma trận, Phần 2: Đo lường sự tương đồng giữa các thước đo độ
gần hoặc kết quả sắp xếp bằng cách sử dụng thống kê Mantel và Procrustes. Tạp chí của Hiệp hội Thông
tin Khoa học và Công nghệ Hoa Kỳ, 58 (11), 1596-1609.
Seglen, PO (1992). Sự xiên xẹo của Khoa học. Tạp chí của Hiệp hội Khoa học Thông tin Hoa Kỳ, 43 (9), 628-638.
Sen, S., & Gan, S. (1983). Một phần mở rộng toán học của ý tưởng ghép thư mục và các ứng dụng của nó. Biên
niên sử Khoa học Thư viện và Tài liệu, 30 (2), 78-82.
Small, H., & Sweeney, E. (1985). Nhóm chỉ mục trích dẫn khoa học bằng cách sử dụng đồng trích dẫn I. A
So sánh các phương pháp. Scientometrics, 7 (3-6), 391-409.
van Eck, NJ, & Waltman, L. (2009). Làm thế nào để chuẩn hóa dữ liệu đồng xuất hiện? Phân tích về
một số biện pháp tương tự nổi tiếng. Tạp chí của Hiệp hội Thông tin Khoa học và Công nghệ Hoa Kỳ,
60 (8), 1635-1651.
White, HD (2003). Tác giả Phân tích Cocitation và Pearson's r. Tạp chí người Mỹ
Hiệp hội Khoa học và Công nghệ Thông tin, 54 (13), 1250-1259.
Trắng, HD (2004). Trả lời Bensman. Tạp chí của Hiệp hội Thông tin Hoa Kỳ
Khoa học và Công nghệ, 55 (9), 843-844.
White, HD, & Griffith, BC (1981). Tác giả Cocitation: Một thước đo văn học về cấu trúc trí tuệ. Tạp chí
của Hiệp hội Khoa học Thông tin Hoa Kỳ, 32 (3), 163-171.
White, HD, & McCain, KW (1998). Hình dung một ngành học: Phân tích đồng trích dẫn của một tác giả về khoa
học thông tin, 1972-1995. Tạp chí của Hiệp hội Khoa học Thông tin Hoa Kỳ, 49 (4), 327-355.
Yang, LY (2007). Nghiên cứu lý thuyết và ứng dụng về sự xuất hiện và đồng xảy ra
hiện tượng. Luận án Tiến sĩ, Thư viện Khoa học Quốc gia, Viện Khoa học Trung Quốc.
Zhou, P., Thijs, B., & Glänzel, W. (2009). Phải chăng Trung Quốc cũng đang trở thành một gã khổng lồ trong lĩnh vực khoa học xã hội?
Scientometrics, 79 (3), 593-621.
27

Zhouqj@mail - Las.ac - CN: CH NG Lên Nhau

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Zhouqj@mail - Las.ac - CN: CH NG Lên Nhau

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

Chuẩn hóa Ma trận Xuất hiện và Đồng xuất hiện trong

Sinh trắc học sử dụng Tương tự Cosine và Hệ số Ochiai

Qiuju Zhou & Loet Leydesdorff * b

Cộng hòa Nhân dân Trung Hoa; email: zhouqj@mail.las.ac.cn

Box 15793, 1001 NG Amsterdam, Hà Lan; email: loet@leydesdorff.net

chuẩn hóa ma trận đồng xuất hiện vì

chồng lên nhau

tính tương tự cosine thay vì hệ số tương quan Pearson để chuẩn hóa

ma trận trích dẫn.

phi tham số và do đó có thể dựa trên ma trận chuẩn hóa cosin.

ma trận xuất hiện (ví dụ: word-document) để chuẩn hóa thay vì co

sự bình thường hóa.

Leydesdorff & Vaughan (2006) tái tạo ma trận này và cơ sở của nó

Schneider & Borlund, 2007a; Van Eck & Waltman, 2009).

ma trận xảy ra cho chuẩn hóa, vì ma trận đồng xuất hiện đã

tích giữa các vectơ.

Tương tự cosine so với hệ số Ochiai

công thức như sau:

trường hợp nhị phân.

Cui.1995; Yang, 2007, tại p.47) :):

sử dụng bảng dự phòng 2 × 2 sau:

2 Glänzel & Czerwon

được đo lường theo kinh nghiệm.

chuẩn của mỗi vectơ trong ma trận xảy ra: | | * | |.

ba biến (ví dụ: từ) trong Bảng 1:

Bảng 1: ma trận xảy ra không đối xứng

liên tục để tạo Bảng 2 từ Bảng 1.

vectơ trong Bảng 1.

sử dụng độ chồng chéo tối thiểu

giá trị nhỏ nhất của x VÀ y.

được thể hiện trong Bảng 4, như sau:

(Phương trình 1) (Phương trình 3)

Ma trận xuất hiện V1 V2 V3 V1 V2 V3

V2 0,12 1,00 0,82 V2 0,24 1,00 1,88

V3 0,42 0,82 1,00 V3 0,82 1,88 1,00

Ma trận đồng xuất V1 V2 V3 V1 V2 V3

Đồng xuất hiện V1 V2 V3 V1 V2 V3

(Bàn số 3) V2 0,65 1,00 0,95 V2 0,24 1,00 0,72

V3 0,75 0,95 1,00 V3 0,41 0,72 1,00

cosine (các tích bên trong của các vectơ).

Bảng 1 (ma trận sự cố) như sau:

ma trận xảy ra bên dưới.

hệ số cũng trong trường hợp này.

Boolean AND trong các truy vấn (Morris, 2005).

ma trận nếu muốn sử dụng hệ số Ochiai.

Sử dụng ma trận Ahlgren's (2003)

đường chéo) vì đếm số nguyên.

Các giá trị Ochiai có được từ ma trận đồng xuất hiện.

sự bình thường hóa.

Phân tích tỷ lệ và cụm đa chiều

cấu trúc nhóm.

Châu Úc Áo nước Bỉ Canada

Tương quan Spearman 0,425

nước Bỉ Tương quan Pearson

Cô sin 0,697 0,795

Tương quan Spearman 0,526 0,499

Canada Tương quan Pearson

Cô sin 0,727 0,733 0,793

Tương quan Spearman 0,649 0,440 0,533

Chile Tương quan Pearson

Cô sin 0,391 0,377 0,398 0,412

Tương quan Spearman 0,275 0,288 0,290 0,274