You are on page 1of 9

Analiza bibliometryczna

:

3 wrzesnia 2011

Ile waży jedno cytowanie ?
Karol Życzkowski
Instytut Fizyki UJ, ul Reymonta 4, 30-359 Kraków Centrum Fizyki Teoretycznej PAN, al. Lotników 32/44, 02-668 Warszawa Wskaźniki bibliometryczne bazujące na liczbach publikacji naukowych i ich cytowań stanowić mogą jedynie pomocnicze narzędzie przy ocenie jakości pracy naukowej. Dotarcie do rzetelnej informacji ukrytej w wartościach poszczególnych indeksów nie jest proste, a niewłaściwa interpretacja danych scientometrycznych prowadzi do chybionych ocen i błędnych wniosków.
W związku z wzrostem liczby osób pracujących naukowo, liczby czasopism naukowych i opublikowanych w nich prac oraz daleko posuniętego podziału dyscyplin naukowych na wąskie podspecjalizacje, przy ocenie jakości wyników pracy naukowej poszczególnych badaczy i całych instytutów naukowych oraz poziomu czasopism coraz popularniejsze staje się stosowanie danych bibliometrycznych. W skomputeryzowanych bazach danych nietrudno znaleźć odpowiedzi na pytanie, ile prac naukowych opublikował dany uczony oraz ile razy jego prace były cytowane w późniejszych publikacjach innych autorów... Na podstawie takich danych tworzy się różne wskaźniki, które mają dawać „proste i obiektywne” narzędzia do oceny jakości pracy naukowej. Jednakże wielu ekspertów podkreśla, że znaczenie pojedynczego cytowania nie jest jednoznaczne, a więc statystyki bazowane na cytowaniach nie są tak obiektywne, jak głoszą zwolennicy bezkrytycznego stosowania danych scientometrycznych. Przykładowo, niedawny raport Adlera i współpracowników przygotowany dla International Mathematical Union [1] ostrzega przed błędnym stosowaniem danych statystycznych i konkluduje: „Wyłączne poleganie na danych dotyczących cytowań w najlepszym przypadku pozwala na niepełne i często płytkie zrozumienie istoty badań naukowych. Przekonanie, że dane oparte o liczby cytowań są bardziej precyzyjne niż opinie fachowców, nie jest zasadne”. Podczas niedawnego posiedzenia rady redakcyjnej brytyjskiego czasopisma z fizyki teoretycznej pewien znany i ceniony fizyk zdecydowanie przeciwstawiał się dyktatowi indeksów i liczb cytowań w pracy redakcyjnej. Także kilku starszych członków rady z rozrzewnieniem wspominało dawne dobre czasy z przed „rewolucji scientometrycznej”, kiedy można było przyjmować artykuł do druku, bo „był dobry”, nie przejmując się wskaźnikami i potencjalnymi cytowaniami. Nasze obrady zaszczycił ubrany w elegancki garnitur wydawca, który nie był raczej ekspertem z fizyki teoretycznej, lecz z pewnością dobrze liczył funty szterlingi. W swym krótkim wystąpieniu szybko sprowadził nas na ziemię tłumacząc radzie, że jemu nie wystarcza, aby nasze pismo było po prostu bardzo dobre – musi jeszcze mieć coraz wyższy indeks „Impact Factor”. Po tej wypowiedzi, przyjętej przez większość rady z milczącą dezaprobatą, opuścił salę obrad, wracając do swych spotkań biznesowych. Takie doświadczenie uświadomiło nam, że osoby uprawiające obecnie badania naukowe nie bardzo mogą sobie pozwolić na pociągający luksus totalnego lekceważenia cytowań i wskaźników bibliometrycznych. Ale też posiłkując się danymi liczbowymi czyńmy to odpowiedzialnie, stosując rozsądnie wszelkie wskaźniki zgodnie z celem, do jakiego zostały stworzone.

Impact factor oraz index Hirscha
W celu ilościowej charakteryzacji wpływu danego czasopisma naukowego na daną dziedzinę wiedzy Eugene Garfield zaproponował definicję wskaźnika Impact Factor (IF). Jest to stosunek liczby cytowań, jakie w danym roku uzyskały prace opublikowane w piśmie rok lub dwa lata wcześniej, do całkowitej liczby artykułów opublikowanych w tym roku w analizowanym czasopiśmie. Zauważmy,
1

że wielkość ta uwzględnia jedynie oddziaływanie w krótkiej skali czasu, gdyż na IF wpływ mają jedynie cytowania pojawiające się w literaturze w rok lub dwa lata od daty publikacji artykułu. Wskaźnik IF Garfielda był zaprojektowany do wykorzystania w naukach medycznych i przyrodniczych i dobrze dopasowany jest do specyfiki tych dyscyplin. Ale obecnie wydawcy czasopism, bibliotekarze i urzędnicy próbujący oceniać badania naukowe stosują go także w innych dyscyplinach, przykładowo do oceny pism matematycznych, dla których bardziej zasadne byłoby zliczanie cytowań jakie ukazały się od 5 do 10 lat po opublikowaniu pracy, w związku z wolniejszym obiegiem rezultatów w tej dziedzinie nauki. Należy podkreślić, że indeks IF nie bierze pod uwagę liczby autorów, autocytowań, specyfiki danej dziedziny, a jego wartością nietrudno manipulować [2,3] Zupełnie odmienną wielkością jest wskaźnik h zaproponowany przez Jorge Hirscha w roku 2005 do opisu dorobku naukowego pojedynczego badacza. Wskaźnik ten wynosi h, jeżeli h publikacji danego autora było cytowane co najmniej h razy [4]. Na wartość tego wskaźnika wpływa więc zarówno liczba publikacji badacza, jak i też, ile razy prace te były cytowane w późniejszej literaturze naukowej.

W różnych dyscyplinach nauki różnie
Specyfika pracy naukowej zależy istotnie od uprawianej dziedziny wiedzy. Przeciętna praca dotycząca nauk o życiu zawiera wiele odnośników do innych prac, często tych opublikowanych ostatnio i jest średnio częściej cytowana niż praca z fizyki. Dlatego też średni IF czasopism dotyczących biologii molekularnej (obecnie ponad 4.5) jest istotnie wyższy niż średni IF wynoszący 1.9 dla pism z fizyki. Z kolei proces przygotowania artykułu matematycznego trwa długo, a że w takim artykule zwyczajowo nie ma wielu odnośników, prace matematyczne cytowane są rzadziej, a średni IF czasopism w tej dziedzinie wynosi około 0.5. Szczegółowe dane dotyczące parametrów opisujących statystyki cytowań w różnych dziedzinach wiedzy przedstawiono w Tabeli 1 i zilustrowano grafem cytowań przedstawionym na Rys. 1. Zwróćmy uwagę, że w swych pracach historycy cytują dużo literatury (średnio ponad 80 pozycji!), matematycy mało, ale w obu przypadkach prawdopodobieństwo, że dany artykuł zostanie zacytowany chociaż raz w ciągu dwu lat po dacie publikacji nie przekracza 10%.

Dziedzina
Biologia molekularna Astronomia Medycyna Chemia Fizyka Prawo Geografia Ekonomia Socjologia Informatyka Matematyka Historia

czasopisma
511 25 766 145 503 71 56 159 96 124 149 23

<IF>
4.76 4.29 2.89 2.61 1.91 1.66 0.99 0.82 0.72 0.63 0.56 0.41

<c>
45.8 38.3 33.9 33.1 24.0 76.8 46.1 30.4 50.8 17.2 18.4 81.8

<p>
0.21 0.22 0.18 0.17 0.17 0.20 0.15 0.12 0.11 0.19 0.08 0.10

Tab. 1. Dane z lat 1994-2005 ilustrujące różnice pomiędzy dyscyplinami nauki: liczba pism z danej dziedziny analizowana w Journal od Citation Reports (JCR), średnia wartość <IF> w danej dziedzinie, średnia liczba cytowań <c> w każdej publikacji, prawdopodobieństwo <p>, iż dany artykuł zostanie chociaż raz zacytowany w ciągu kolejnych dwóch lat po jego publikacji i będzie miał wpływ na IF pisma (za [5], Althouse, West, Bergstrom, 2009). Kolejność w tabeli oddaje średnią wartość indeksu IF w danej dziedzinie.
2

a)

b)

Rys. 1 Graf cytowań pomiędzy różnymi dziadzinami nauki oraz a) średnia wartość wskaźnika IF, b) średnia liczba cytowań w jednym artykule w danej dziedzinie (za [5] Althouse, West, Bergstrom, 2009).

Indeks Hirscha zaprojektowano do wstępnego porównania dorobku naukowców pracujących w jednej dziedzinie i starającego się o to samo stanowisko. Ponieważ średnie liczby publikacji, współautorów i cytowań pojedynczego artykułu zależą od uprawianej dziedziny wiedzy, nie jest rozsądne porównywania indeksu Hirscha dla biologa i matematyka, lub nawet dla fizyka pracującego w dziedzinie fizyki cząstek elementarnych i fizyki matematycznej. Aby zilustrować tą tezę w tabeli 2 zestawiono parametry scientometryczne charakteryzujące grupy uznanych naukowców, którzy w roku 2008 w danych dziedzinach zdobyli prestiżowe Advanced Grant European Research Council. Wyniki obliczeń pokazują istotne różnice wewnątrz dziedzin zebranych w grupę „Nauki fizyczne i inżynieryjne” oraz wykazują, że dane dotyczące liczb cytowań nie odzwierciedlają wyników badań w dziedzinach humanistycznych. Do właściwej interpretacji danych liczbowych potrzebna jest znajomość zwyczajów w danych środowiskach. Przykładowo, informatycy piszą sporo prac, ale zniechęceni wolnym tempem publikacji w ich czasopismach wyżej cenią publikacje w regularnie ukazujących się materiałach konferencyjnych, często nie indeksowanych w bazie ISI. Dlatego też wskaźniki dla panelu PE6 są znacznie niższe niż w PE2, gdyż fizycy nie cenią wysoko prac w materiałach konferencyjnych, lecz starają się publikować w indeksowanych czasopismach.

Panel
PE1 PE2 PE3 PE4 PE5 PE6 PE7 PE8 PE9 PE10 LS1 LS2 LS3

Nazwa
Physical Sciences & Engineering Mathematical foundations Fundamental constituents of matter Condensed matter physics Physical & Analytical Chemical sciences Materials & Synthesis Computer science & informatics Systems & communication engineering Products & process engineering Universe sciences Earth system science Life Sciences Molecular & Struct. Biology & Biochemistry Genetics, Genomics, Bioinformatics Cellular and Developmental Biology
3

prace Cytowani a
29 106 109 137 254 55 51 55 125 92 121 112 61 281 4192 2357 4051 5782 564 949 503 4039 1514 4604 5906 2414

bez samocytowań
141 2148 1253 2248 3735 262 384 242 2162 910 2521 2388 1573

indeks h
9 30 23 33 38 10 15 12 33 21 29 39 25

LS4 LS5 LS6 LS7 SH1 SH2 SH3 SH4 SH5 SH6

Physiology, Pathophysiol. & Endocrinology Neurosciences & neural disorders Immunity & infection Diagnostic tools, therapies & public health Social Sciences and Humanities Individuals, institutions & markets Institutions, values, beliefs and behaviour Environment & society The Human Mind and its complexity Cultures & cultural production The study of the human past

176 70 83 81 4 1 11 29 1 1

4825 2469 3157 2909 11 0 62 268 0 0

3587 1461 2224 1555 5 0 46 217 0 0

41 24 28 28 1 0 3 7 0 0

Tabela 2. Mediana liczby prac, całkowitej liczby cytowań, tej liczby bez autocytowań, oraz wskaźnika h, policzona dla grupy laureatów konkursu ERC Advanced Grants edycji 2008 w każdej grupie tematycznej na podstawie danych z ISI Web za lata 1996-2008 (obliczenia Łukasza Skowronka).

Skośny rozkład liczby cytowań
Artykuły opublikowane w danym czasopiśmie nie są cytowane jednakowo. Niewielka grupa prac jest często cytowana i wpływa na wskaźnik IF, podczas gdy znaczna część prac nie jest cytowana wcale lub jest cytowana niewiele razy. Rozkłady prawdopodobieństwa, że artykuł zostanie zacytowany c razy przedstawiono na Rys 2a. Ponieważ średnia liczba cytowań <c> pojedynczej pracy zależy od dyscypliny naukowej, otrzymane rozkłady wartości cytowań dla różnych dziedzin nauki. Jak pokazali Radicchi, Fortunato i Castellano [6], różnice pomiędzy dziedzinami nauki zanikają, jeżeli badać rozkład przeskalowanej (względnej) liczby cytowań, c f=c/<c>. Wynik ten pokazuje, że porównanie wszelkich danych dotyczących różnych dziedzin nauki może mieć sens, gdy porównuje się nie liczby bezwzględne (liczby prac, cytowań, wskaźniki IP oraz h), lecz wielkości względne, przeskalowane względem średniej w danej dziedzinie. Ponadto uniwersalny charakter krzywej naszkicowanej na rys 2b, potwierdza, że rozkład cytowań jest skośny (niesymetryczny) i charakteryzuje się zanikiem algebraicznym. Dlatego też jeśli średnia liczba cytowań dla grupy wszystkich artykułów opublikowanych w danym piśmie w ciągu minionego roku wynosi <c>, nie należy wnioskować, że następna praca opublikowana w tym piśmie w kolejnym roku uzyska podobną liczbę cytowań.

a

b)

Rys. 2 a) Rozkład prawdopodobieństwa, że praca z danej dziedziny będzie cytowana c razy; b) rozkład prawdopodobieństwa względnej liczby cytowań c_f =c/<c> przedstawiony w skali podwójnie logarytmicznej (za [6] Radicchi, Fortunato, Castellano, 2008).

4

Jak nie należy stosować wskaźnika IF ?
Obserwowany rozkład liczby cytowań pokazuje, że wskaźnik „Impact Factor”, zaprojektowany do analizy poziomu czasopisma, nie może być stosowany do oceny jakości wydrukowanej w nim pracy. Rozważmy uproszczony przykład, oddający własności rozkładu algebraicznego: w dwóch niewielkich pismach z jednej dziedziny opublikowano w latach 2008-2010 po 70 prac rocznie. Z pośród 140 prac opublikowanych w piśmie A w latach 2008 i 2009 tylko 15 było cytowanych w roku 2010, z czego 8 prac jeden raz, 4 prace miały po trzy cytowania, inne 2 po 10 cytowań, a tylko jeden ‘hot paper’ uzyskał 30 cytowań. Natomiast w piśmie B najbardziej znana praca uzyskała 60 cytowań, 2 dalsze prace miały po 20 cytowań, a 6 dalszych prac zebrało po 6 cytowań każda. Kolejnych 8 prac było cytowane po dwa razy, podczas gdy reszta prac nie była cytowana. Porównanie sumarycznej liczby cytowań z liczbą opublikowanych rocznie prac pokazuje, że wskaźniki IF wynoszą 1.0 dla pisma A oraz 2.0 dla pisma B. Jednakże na tej podstawie trudno wyrokować, że przeciętna praca opublikowana w B jest dwa razy cenniejsza niż reprezentatywna praca z pisma A, gdyż prawdopodobieństwo że praca w ogóle nie zostanie zacytowana jest równe dla obu pism. O ile jakość prac opublikowanych w danym czasopiśmie determinuje klasę pisma i ma wpływ na jego wskaźnik IF, to teza odwrotna nie jest prawdziwa: IF czasopisma nie stanowi o jakości konkretnej opublikowanej w nim pracy. Dlatego też próba oceny wartości publikacji przez IF czasopisma, w którym praca się ukazała, jest bezcelowa [7]. Jeszcze dziwniejszy jest obyczaj obliczania ”sumarycznego IF” prac danego uczonego i stosowania tego wskaźnika do oceny jego dorobku. Co prawda taki wskaźnik podzielony przez liczbę artykułów autora, podaje średni IF czasopism, w których badacz publikuje, lecz liczba ta nie jest użyteczna dla ani dla laika (gdyż by taki wynik uczynić użytecznym, należałoby go porównać do średniego IF czasopism w danej dyscyplinie), ani dla eksperta, któremu o klasie pism więcej powiedzą tytuły z jego branży, niż sucha dana liczbowa. Jeżeli uznamy, że cytowania w krótkim czasie po opublikowaniu pracy są skorelowane z jej wartością, (co wydaje się rozsądniejsze dla biologii molekularnej niż dla matematyki), to bardziej racjonalnym jest obliczanie wkładu danej pracy do IF czasopisma. Aby wyznaczyć impact factor publikacji (IFP) należy zsumować liczbę cytowań uzyskanych rok i dwa lata po jej opublikowaniu. Taki wskaźnik charakteryzuje krótkookresowy oddźwięk pracy w środowisku naukowym, a dopiero jego porównanie z IF pisma, w którym praca się ukazała, pozwala stwierdzić, czy dana praca należy do artykułów istotnych, które wskaźnik ten kształtują, czy też należy do szarego tła większości artykułów niezauważonych w literaturze przedmiotu. Oczywiście wskaźnika IFP nie da się jeszcze wyliczyć dla artykułu opublikowanego w okresie ostatnich dwóch lat, ale dla niego lepszym estymatorem spodziewanej liczby cytowań jest średnia IFP po zbiorze dawniejszych prac jego autora, niż po zbiorze prac opublikowanych wcześniej w tym samym czasopiśmie.

Liczba prac znanych
Czy można znaleźć wskaźnik bibliometryczny, który uwzględniałby specyfikę poszczególnych dyscyplin nauki? Naturalną koncepcją byłoby zliczanie, ile dany autor opublikował „prac znanych”, które były cytowane więcej razy, niż wynosi średnia liczba cytowań <c> w danej dyscyplinie. Taka konstrukcja uniezależnia wynik od zwyczajów w danej dziedzinie nauki, ale jej wadą jest konieczność wyliczania średnich i ich aktualizowania. Inną możliwością jest określenie, że dany artykuł uważamy za „pracę znaną”, jeżeli był już cytowany więcej razy, niż liczba prac w nim cytowanych. W ten sposób artykuł matematyczny cytujący 11 innych prac staje się „znanym”, jesli zebrał co najmniej 12 cytowań, praca z medycyny cytująca 83 prace potrzebuje 84 cytowania aby zostać wliczona do tej klasy, a artykuł przeglądowy z fizyki, który cytuje 345 prac będzie „znany” dopiero po osiągnięciu 346 cytowań, (są takie!). Zauważmy, że wyznaczenie zdefiniowanego w ten sposób wskaźnika ‘liczby prac znanych’ danego badacza jest łatwe w oparciu o istniejące bazy danych, a jego równoległe stosowanie obok innych indeksów, mogłoby przyczynić się do zmniejszenia częstej w niektórych dziedzinach tendencji rozrzutnego cytowania prac trzecich niezwiązanych bezpośrednio z danym artykułem. Z drugiej
5

strony, by zabezpieczyć się przed inną skrajnością, można dołożyć dodatkowy warunek, że „praca znana” jest cytowana co najmniej 10 razy, co większości przypadków nie zmieni wartości omawianych wskaźników, jako że lista odnośników w publikowanych artykułach najczęściej liczy ponad 10 pozycji.

Graf cytowań, macierz Google oraz wskaźnik Eigenfactor
Wszystkie omówione powyżej wskaźniki bibliometryczne przypisują taką samą wartość każdemu cytowaniu. A przecież cytowania nie są równe: niektóre prace istotnie wspierają się na konkretnym wyniku lub metodach badawczych opisanych w cytowanej pracy, podczas gdy inne, występujące w sformułowaniu typu „podobne badania prowadzono ostatnio w pracach [17-46]”, nie świadczą wiele o wartości wymienionych prac. Podobnie cytowanie pracy przez eksperta w danej dziedzinie może być dla jej autora cenniejsze niż kilka cytowań w pracach nowicjuszy w jego branży. Dlatego też w literaturze bibliometrycznej pojawiły się koncepcje, aby do różnych cytowań stosować różne wagi. Najbardziej znanym podejściem do tego problemu jest metoda Google ustalania wag dla poszczególnych witryn w Internecie. Waga każdej witryny jest tym większa, im więcej linków prowadzi do niej z innych witryn o dużej wadze. Z pozoru taka podejście nie wydaje się konstruktywne, ale w praktyce algorytm PageRank Google wyznacza wagi witryn numerycznie przez procedurę iteracyjną, która z matematycznego punktu widzenia znajduje przybliżenie wiodącego wektora własnego (eigenvector) odpowiednio zmodyfikowanej macierzy połączeń. Podobną ideę można zastosować także do analizy literatury naukowej tworząc graf, w którym rolę zorientowanych połączeń (linków) odgrywają cytowania, a w roli węzłów można obsadzić poszczególne prace, pojedynczych badaczy, instytuty naukowe, czasopisma lub całe kraje. Jeśli chcemy przypisać wagi poszczególnym autorom [8], trzeba się zmierzyć z problemem analizy wielkiej liczby danych i grafu liczącego miliony węzłów. Nieco łatwiej jest analizować graf czasopism naukowych, w którym liczba węzłów jest rzędu 10000, a liczba połączeń pomiędzy dwoma węzłami odpowiada liczbie cytowań prac opublikowanych w piśmie A, które w określonym przedziale czasu ukazały się w wszystkich artykułach opublikowanych w piśmie B. Analizując macierz typu Google dla takiego grafu czasopism zdefiniowano indeks Eigenfactor, którego aktualną wartość dla danego czasopisma można sprawdzić na stronie http://www.eigenfactor.org/ Wskaźnik Eigenfactor jest wielkością ekstensywną i określa wpływ wszystkich publikacji danego pisma na literaturę światową. Natomiast pochodny indeks Article Influence (AI), jest wielkością intensywną, czyli opisuje średni wpływ pojedynczego artykułu opublikowanego w danym piśmie. Przykładowe dane wskaźników Imapact Factor, dwu- oraz pięcio-letnich, oraz indeksów Eigenfactor i AI dla wybranych czasopism z literatury światowej i polskiej zestawiono w Tabeli 3. O ile pod względem wskaźnika IF dominują pisma medyczne (np. CA Cancer J. Clinicians z IF ponad 80), to w przeliczeniu na jeden artykuł największy wpływ na literaturę mają artykuły przeglądowe publikowane w prestiżowym Review of Modern Physics z indeksem AI przekraczającym 20. Nieco mniejszy indeks AI mają artykuły publikowane w Nature i Science, ale pisma te z racji znacznej liczby publikowanych artykułów odznaczają się dużą wartością indeksu Eigenfactor. Wskaźnik ten przekracza jedność także dla innych znanych pism Physical Review Letters oraz J. Biological Chemistry, ale pisma te publikują znacznie więcej artykułów, więc dla nich wartość indeksu AI jest niższa. Zauważmy, że różnice pomiędzy wskaźnikami IF dwu- i pięcioletnimi nie jest duża, a dla najlepszych pism indeks IF’2 (bez autocytowań) jest tylko nieznacznie niższy od standardowego IF2. Z czasopism polskich wyróżniają się pisma z nauk ścisłych (Acta Astronomica, Fundamenta Matematicae, Studia Mathematica, Open Systems & Information Dynamics), które nie publikują wielu artykułów, lecz wydrukowane tam prace są cytowane, a wartość wskaźnika AI należy do rozsądnego przedziału [0.5, 1.0], gdzie 1.0 oznacza wartość średnią. Polskie czasopisma zamieszczone w tabeli należą do najlepszych w kraju pod względem indeksu Article Influence. Istnieje także wiele innych polskich czasopism naukowych, których wskaźnik AI jest znacznie mniejszy niż 0.10, a niekiedy w ogóle nie jest mierzalny. Pokaźnym wskaźnikiem Eigenfactor charakteryzuje się Acta Physica Polonica B, która publikuje stosunkowo dużo artykułów, stąd jej wskaźnik AI jest relatywnie niższy.
6

Czasopismo
Review Modern Physics CA Cancer J. Clinicians Cell New England J. Medicine Nature Science Annales of Mathematics Physical Review Letters J. American Chemical Society J. Biological Chemistry Astrophysics Journal Acta Astronomica Fundamenta Matematicae Studia Mathematica Open Systems Information Dynamics Archivum Immunol. Therapiae Exp. Acta Paleontologica Polonica J. Physiology & Pharmacology Pharmacological Reports Cellular & Molecular Biology Letters Acta Biochimica Polonica Ann. Agr. Environmental Medicine Reports Mathematical Physics Acta Physica Polonica B

Liczba prac
46 23 359 352 866 897 64 3414 3332 3686 2796 27 57 101 30 51 64 146 131 47 60 45 54 326

IF2
33.1 87.9 31.2 47.1 34.5 29.7 4.2 7.3 8.6 5.3 7.4 2.5 0.6 0.6 0.9 2.0 1.5 1.5 2.1 1.1 1.3 1.5 0.7 0.6

IF’2
32.9 87.5 30.4 46.4 33.8 29.3 4.1 6.6 7.7 4.9 4.6 1.7 0.5 0.5 0.8 1.9 1.3 0.9 1.4 1.0 1.2 0.9 0.6 0.5

IF5
41.3 60.0 32.6 51.4 32.9 31.1 4.3 7.1 8.8 5.4 6.4 2.4 0.6 0.7 1.2 1.7 1.4 2.3 2.2 1.6 1.5 1.7 0.7 0.6

Eigenfacto r
0.081 0.042 0.698 0.672 1.746 1.523 0.030 1.266 0.901 1.094 0.512 0.003 0.005 0.007 0.002 0.003 0.003 0.006 0.004 0.003 0.004 0.002 0.002 0.007

Article Influence
24.37 20.93 20.12 19.87 18.06 16.58 5.65 3.29 2.71 2.22 1.92 0.91 0.78 0.70 0.58 0.54 0.52 0.48 0.47 0.46 0.43 0.37 0.34 0.24

Tabela 3. Wybrane czasopisma wydawane za granicą i w kraju (dół tabeli, tłusty druk) wraz z liczbą artykułów opublikowanych w roku 2009 i wskaźnikami: IF2 (IF za okres dwóch lat), IF’2 (IF2 bez autocytowań), IF5 (IF za okres 5 lat), Eigenfactor oraz Article Influence, wg którego uporządkowano tabelę. Dane z roku 2009 za ISI Web of Knowledge.

Indeks h publikacji oraz „prace bardzo znane”
Charakteryzowanie klasy czasopism przez ich wskaźniki Eigenfactor oraz Article Influence ma wiele zalet, a obecnie konkretne dane liczbowe są obliczane także przez ISI Web of Knowledge. Natomiast stosowanie algorytmu Google do wyznaczenia wag dla poszczególnego badacza jest technicznie wykonalne, lecz w praktyce nie łatwe ze względu na kosztowność zebrania i przetworzenia wielkiego zbioru danych. Aby z dwóch artykułów, które maja po N cytowań, wyróżnić prosto pracę o większym wpływie na literaturę przedmiotu, można zobaczyć, czy cytujące prace same były już cytowane. Rozważmy przykładowo artykuł X cytowany N=8 razy, a poszczególne cytujące go prace były już cytowane kolejno 14,7,4,2,1,0,0,0 razy. Wykorzystując ideę Hirscha można zdefiniować indeks h dla poszczególnej publikacji, który dla pracy X wyniesie 3. Wyznaczając takie indeksy dla wszystkich prac danego badacza i układając je w porządku malejącym, możemy zdefiniować indeks Hirscha drugiego rzędu h2 [9]. Wskaźnik ten wynosi h2, jeżeli h2 jego publikacji posiada indeks h nie mniejszy niż h2 . W każdym przypadku zachodzi nierówność h2 ≤ h . Takie podejście różnicuje wagę cytowań i uwzględnia znaczenie, jakie cytujące prace wywierają na literaturę. W podobny sposób wagę cytowań można prosto uwzględnić przy zliczaniu „prac znanych”. Przykładowo za „pracę bardzo znaną” uznać można każdy artykuł, którego indeks h2 przewyższa liczbę prac w nim cytowanych. Zliczając dla danego autora liczbę „prac bardzo znanych” można określić dorobek przez łatwo wyliczalne wielkości, które uwzględniają zarówno specyfikę danej dziedziny nauki jak i wagę cytowań. Najnowsza literatura scientometryczna dowodzi, że możliwości tworzenia nowych wskaźników bibliometryczych są praktycznie nieograniczone, lecz życie pokaże, które z nich w przyszłości będą stosowane w praktyce.
7

Próba podsumowania
Dane dotyczące cytowań prac naukowych niosą w sobie informacje dotyczące charakteru i jakości prowadzonych badań, ale ich wydobycie i właściwa interpretacja nie jest sprawą prostą. O ile można sobie wyobrazić wypracowanie bardziej precyzyjnych narzędzi bibliometrycznych, trudno oczekiwać aby powstał jeden uniwersalny wskaźnik liczbowy pozwalający na rzetelną ocenę wartości pracy naukowej. Dlatego warto używać równolegle kilka wskaźników, a wszelkie indeksy winny być rozsądnie stosowane do celu, do jakiego zostały stworzone. Na przykład wskaźnika impact factor (IF ), służącego do oceny czasopisma, nie wolno wykorzystywać do oceny jakości danego artykułu w nim opublikowanego lub też do oceny osiągnięć konkretnego autora. Natomiast indeksu Hirscha h, opracowanego do porównania dorobku kilku uczonych pracujących w jednej dziedzinie nauki, nie należy stosować do porównania jakości różnych czasopism, czy analizy dorobku kilku instytutów naukowych, gdyż wskaźnik nie jest wielkością intensywną, lecz istotnie zależy od wielkości instytucji.

Na zakończenie przytoczymy kilka ogólniejszych uwag dotyczących analizy bibliometrycznej, które formułuję oddzielnie dla trzech grup czytelniczych.
a)

Naukowcy. Wykonujcie dobrze swoje badania, piszcie dobre prace i publikujcie je w dobrych czasopismach. Pisząc własne prace cytujcie te publikacje, które powinny być cytowane stosownie do zwyczajów przyjętych w waszym środowisku. Nie przejmujcie się własnymi wskaźnikami i indeksami: dorobek dobrego naukowca najczęściej będzie opisywany wysokimi wartościami parametrów niezależnie od wyboru stosowanego wskaźnika. Nie dajcie się wciągnąć w płytką grę na sztuczne nabijanie wartości konkretnego indeksu, który może opisywać wasz dorobek: na taka zabawę szkoda czasu i energii. Oceniając jakość aplikacji o finansowanie projektów badawczych czy wniosków o nagrody za prace naukowe wykorzystujcie Waszą znajomość przedmiotu. Dane bibliometryczne stosujcie wyłącznie jako dane pomocnicze, które nie mogą zastąpić oceny merytorycznej. W przypadku absolutnej konieczności oszacowania wpływu, jaki dana publikacja wywarła na środowisko naukowe, uwzględnijcie rzeczywistą liczbę jej cytowań, a nie impact factor pisma, w którym się ukazała. W przypadku najnowszej pracy autora stosować można średni IFP, czyli impact factor jego poprzednich publikacji, a nie czasopism w których się ukazały!

b) Recenzenci.

c)

Zarządzający nauką. Prowadzenie badań naukowych jest procesem wielowymiarowym, więc próba ich opisu poprzez rzutowanie na jedną oś liczbową nie może być udana. Nie liczcie więc na stworzenie jednego idealnego wskaźnika bibliometrycznego, tylko kierując się wskazówkami literatury oraz zdrowym rozsądkiem wykorzystujcie równolegle kilka z nich. Porównując wartości wskaźników pochodzące z różnych dziedzin nauki stosujcie dane skalowane do wartości średnich w danej dziedzinie i w danych przedziałach czasu. Wspierajcie różnorodne wykorzystywanie danych liczbowych, przy tworzeniu których czynny udział ma oceniany. Przykładowo, w podaniach o granty European Research Council, każdy wnioskodawca ma sam wybrać swoich 10 publikacji z zadanego przedziału czasu i podać liczbę, ile razy każda z nich była cytowana. Niestety ten dobry przykład nie jest wykorzystany przez Narodowe Centrum Nauki, którego ostatnie wytyczne nakazują podanie co najmniej 5 publikacji. Brak koniecznosci dokonania

wyboru prac przez zadanie górnego organiczenia ich liczby zachęca wnioskodawców do niepotrzebnego dodawania pracy sobie oraz recenzentom.
8

Literatura
[1] J. Adler, J. Ewing, P. Taylor, Citations Statistics, Statistical Sciences 24, 1 (2009). [2] M. E. Falagas and V. G. Alexiou, The top-ten journal impact factor manipulation Arch. Immunol. Ther. Exp. 56, 223 (2008) [3] D.N. Arnold and K.K. Fowler, Nefarious numbers, Notices of AMS 58, 434 (2011). [4] J. E. Hirsch, An index to quantify an individual’s scientific research output, PNAS 102, 16569 (2005). [5] B. M. Althouse, J. D. West, T. C. Bergstrom, and C. T. Bergstrom, Differences in impact factor across fields and over time, J. Am. Soc. Inf. Sci. Technol. 60, 27 (2009). [6] F. Radicchi, S. Fortunato and C. Castellano, Universality in citation distribution: towards an objective measure of scientific impact, PNAS 105, 17268 (2008). [7] P.O Seglen, Why the impact factor of journals should not be used for evaluating research. BMJ 314, 498 (1997). [8] K. Życzkowski, Citation graph, weighted impact factors and performance indices, Scientometrics 85, 301-315 (2010). [9] A. Schubert, Successive h-indices. Scientometrics, 70, 201 (2007).

9