Professional Documents
Culture Documents
bl ll hlzathoz tartoz rtket. Pldnk els rszben az A oldalra mutat link tallhat a B, C s D oldalakon ms link nincs. Ha egyelre most ms szempontokat mg nem vesznk figyelembe, a Pagerank rtknek kiszmtsra a kvetkez egyenlet addik:
PR(A) = 1/1 + 1/1 + 1/1
A Googleegyenlet megoldsa
Egy egyszer egyenlet dnt weboldalunk sikerrl vagy buksrl: a Google-fle Pagerank dnthet jvnkrl. A CHIP megmutatja, hogyan mkdik ez a rendszer.
Az A oldal Pagerank rtke teht hromnak addik. Vessnk most egy pillantst a 61. soldalon tallhat kicsit bonyolultabb kapcsolati rendszerre: az A oldalra mutat linkeket a B s C oldalon is tallunk, mg B-re irnyul hivatkozsok csak az A oldalon vannak. C-re az A, B s D, mg D-re csak a B oldal hivatkozik. gy kpletnk az A oldal esetben a kvetkezkppen nz ki:
PR(A) = 1/1+1/3
Ebben a cikkben
Tnyek s elmlet A kplet lersa Hogyan nyerhetnk? Tippek s trkkk a magas pontszmhoz
ezdjk elszr is pr tny ismertetsvel: amg az internet hatalmas, addig hozz kpest egy weboldal kicsi. Radsul nehz egyedi weboldalt ltrehozni: brmit is tallunk ki, nagy az esly r, hogy mr tbb hasonl tmj oldal tallhat a vilghln. A felhasznl rendszerint az alapjn vlaszt az egyes honlapok kzl, hogy melyik ll elrbb a Google tallati listjban. Sokakat rdekelhet teht, hogy miknt kerlt egy tetszleges weboldal a lista elejre. A vlaszt a Google alapti, Larry Page s Sergey Brin egy egyszer kplettel adjk meg, a Pagerank-egyenlettel (az elnevezs Larry Page nevbl, s nem az angol page oldal szbl szrmazik). Aki ismeri, s tudja is, hogyan mkdik, az elre kerlhet a listban aki pedig rosszul hasznlja, az bntetsre szmthat.
2. Ezeknek a hivatkozsokat tartalmaz weboldalaknak van Pagerankje. 3. A B oldalrl A oldalra mutat linket egy a B oldal ltal A-ra leadott szavazatnak vehetnk. 4. A szavazatot lead B oldal mr meglv Pagerankje a szavazat slyt hatrozza meg. Minl magasabb az rtk, annl tbbet r a link. 5. Mg egy jellemzt figyelembe kell vennnk, mgpedig a B oldalon tallhat linkek szmt. Ez minl kisebb, annl tbbet r az adott link. 6. Fontos, hogy egy website esetben a PageRanket minden oldalra kln kiszmtjk, gy elfordulhat, hogy egy adott cikk a foldalnl magasabb helyre kerl a listban. Kpletknt lerva ez a Pagerank-szmts az albbi mdon nz ki:
PR(A) = (1-d) + d (PR(T1)/C(T1) + + PR(Tn)/ C(Tn)
A B-rl rkez hivatkozst 1-nek, a C-rl rkezt 0,33-nak vesszk, mivel ott hrom linket is tallunk. gy a vgs pontszm 1,33-nak addik. B-re ugyanez:
PR(B) = 1/2 + 1/3 + 1/1
ami a kerektseket figyelembe vve helyes eredmnyt ad. Ebbl a szmtsbl azonban egyvalami hinyzik: a hivatkozsokat tartalmaz weboldalak Pagerank-rtkeit nem vettk figyelembe ezt most a B esetben pldakppen korrigljuk, s az eredeti,
PR(B) = 1/2 + 1/3 + 1/1
Pagerank: alapelvek
A rangsor mgtt egy egyszer, de hatkony formula ll: 1. Minden weboldalhoz tartoznak olyan oldalak, amelyek az adott honlapra hivatkoz linket tartalmaznak.
Kiolvasva pedig: A oldal Pagerank-rtkt gy kapjuk meg, ha a r hivatkoz oldalak Pagerank-rtkeit elosztjuk az adott oldalon tallhat linkek szmval, s ezeket a hnyadosokat sszegezzk. Ehhez jn mg egy tnyez, amely fontos szerepet kap a tovbbi folyamatokban. A Pagerank mkdst most egy olyan pldn mutatjuk be, amely felttelezi, hogy az egsz vilghl csak ngy website-bl ll ezek legyenek A, B, C s D. Mindegyiknek alapbl 1 a Pagerankje, ezek sszeadva ki is adjk a ngy oldal-
kpletnket gy mdostjuk:
PR(B) = 1,33/2 + 0,5/3 + 0,33/1
Ekkor mr a vgeredmny kerektve 1,62-nek addik. Termszetesen ez az j rtk megvltoztatja a tbbi oldal rtkt, ami visszahat B eredmnyre, s gy tovbb a szmts igen sok lpsig folytathat. Ennek megfelelen a Google tbblpcss iterlssal llaptja meg az oldalak Pagerank-rtkeit a Page-tl s Brintl szrmaz informcik alapjn krlbell 100 lps kell a Google szmtgpeinek ahhoz, hogy a tbbmillird oldalhoz mind kiszmtsk a megfelel rtkeket.
tartani, j eslynk van arra, hogy honlapunk a lista ln landoljon. A korrekt kd jelen esetben weblapunk HTML-kdjnak kt tulajdonsgt jelenti: egyrszt szintaktikailag is helyesnek kell lennie, msrszt viszont az elterjedt formzsi opcikat kell hasznlnia. A Google szmra klnsen a <title>, <p> s a <h1>-tl <h6>-ig terjed tagek az rdekesek. A <title>-ben a dokumentum rvid lersa tallhat, a bekezdseket a <p> jelzi, mg a <hx> tagokkal tagolhatjuk a szveget. Termszetesen fontos, hogy a <h1> taget csak egyszer hasznljuk, a tbbit lehet tbbszr is legalbbis ismert weboldalakkal vgzett keressek adta tallatok vizsglata utn ez tnik az optimlisnak. A j helyezsnek egy msik szksges felttele a trelem: ahogy telik az id, ha megfelel tartalom van oldalunkon, egyre tbben hivatkoznak r, s gy a Pagerankrtke is nvekszik majd.
60
61
A webmester feladata, hogy az xyz helyre valami figyelemfelkelt lerst adjon az adott oldalrl, amellyel rveheti a netezt arra, hogy pont az oldalra kattintson. Ha nincs ilyen meta-tag, akkor a Google sajt maga vlaszt ki egy neki szimpatikus szvegrszt ez pedig nem mindig a legjobb megolds.
Minden program s minden rendszer felElg ostoba lenne a Google, ha nem hasz- trhet s ez igaz a Google-re is. Amita nln ki a rendelkezsre ll adatokat a csak keresmotorok lteznek, mindig felhasznli szoksokrl, hiszen az gyne- akadtak olyan felhasznlk, akik megprvezett linkkvetssel megllapthatja, hogy bltk befolysolni a tallati listk sormely tallatok tetszenek s melyek nem a rendjt. Ebbl persze a szoksos verseny szrflknek. A Google adatvdelmi irny- alakult ki a hackerek s a keresmotorok elvei szerint: Adott esetben elkpzelhet, hasznli kztt az egyikk pnzt szehogy a Google olyan mdon jelent meg retne ltni, a msikuk inkbb jl hasznllinkeket, amely lehetv teszi szmunkra az hat tallatokat szeretne ltni. A fekete ezekre trtn ugrsok megtrtntnek brnyok ma viszonylag ritkn hasznlnyomon kvetst (http://www.google.hu/ nak a keresmotorokban tallt programointl/hu/privacypolicy.html). Ennek a md- zsi hibkat, inkbb a tartalommal s a szernek a keresris szmra az az elnye, linkekkel val trkkzst alkalmazzk. hogy kvlrl nehz befolysolni az ered- Ezek a tallati listt hasznl bngszt mnyt az egyetlen lehetsgnk, hogy veszik clba: mivel a Google listjban olyan weboldalt ksztnk, amely sok csak a hacker ltal kivlasztott szvegrsz embert rdekel, sokan kattintanak r, s az (ami gyakorlatilag az egyetlen rtelmes oldalak cmei is jk. mondat az egsz oldalon) jelenik meg, mi Oldalcmknt a Google ltalban a <titel> boldogan kattintunk a hivatkozsra, abban taghez tartoz informcit vlasztja ennek a remnyben, hogy ezzel rdekes informteht valami figyelemfelkelt, megragad cikhoz jutunk de csak a hackerek pnzszveget kell tartalmaznia, amelyre nagy trcjt hizlaljuk fel. valsznsggel rkattintanak majd a felA tartalommal val trkkzsnek sok hasznlk. Az albbi Google-tallatban mdszere van a legegyszerbb, ha az oldalt feltltjk gyakran keresett kifejezsekkel. Ez ma mr nem igazn hatsos, mert a keresrobotok azt is figyelik, hogy egy oldalon milyen gyakori a kulcsszavak elfordulsa (egsz pontosan a szveg hossznak s a kulcsszavak szmnak az arnyt figyelik, ez az gynevezett kulcssz-srsg, azaz keyword density). Ha ez tl nagy, Profi tiPPek Matt Cutt, a Google webspam-csapatnak fnke sajt blogjban ad tippeket a weboldalak optimalizlshoz akkor a krdses oldal kny-
nyen kikerlhet a listbl (http://www. google.com/sup port/webmasters/bin/answer. py?answer=66358). Egy msik mdszer a Google becsapsra a rejtett szveg: a hackerek ilyenkor a httrrel megegyez szn karaktereket hasznlva helyezik el a kulcsszavakat (HTML vagy CSS kddal ez nem okoz gondot egyetlen webszerkesztnek sem). A kznsges olvask persze nem ltnak majd semmit, de a keresoldalakra nha gy is fel lehet kerlni. Br ennek nmileg ellentmond Matt Cutts, a Google ehhez hasonl trkkkkel foglalkoz nem hivatalos szvivjnek blogja, amely szerint pldul a fehr httrre halvnyszrkvel rt szveggel nem jutunk sehova (http://www.mattcutts.com/blog/seo-mistakes-nearly-hidden-text/). A msok sikeres weboldalainak lenylsra alapul mdszer (scraping) mg mindig igen npszer, ilyenkor egyszeren csak a msok ltal mr megrt szveget msoljk t sajt weblapjuk megtltsre. Pnzszerzsre a Google AdSense szolgl, amely kattintsok utn fizet. A Google Antispam csapat mr j ideje kzd ez ellen a mdszer ellen (http:// www.mattcutts.com/blog/step-into%20myshoes/). A mdszer leginkbb a szveget tartalmaz eredeti oldal szmra lehet boszszant, hiszen elfordulhat, hogy a msolt oldal a listban az eredeti el kerl.
mg nem tnteti el, legfeljebb hatstalann teszi. A spammerek igazbl nem is foglalkoznak ezzel, ugyangy kldzgetik minden oldalra a szemtbejegyzseket, abban a remnyben, hogy lesz olyan, amelyik nem kap nofollow bejegyzst. A szemetels elleni vdekezs egyelre csak az Akismethez hasonl kln rendszerekkel lehetsges. Ms hackerek sajt frumot vagy blogot indtanak, csak azrt, hogy a Google aztn rbukkanjon ezekre ez az eljrs azonban sokban nem klnbzik a klaszszikus hivatkozshalmozstl, amikor egy oldalon csak rtelmetlen szveg, s rengeteg hivatkozs van.
Pagerank kiszmtsa Pldnkban ngy, egymshoz az brn lthat mdon kapcsold weboldal szerepel. A hivatkozsok szmnak s azok fontossgnak fggvnyben ms s ms Pagerank-rtket (PR) kapnak
Cloacking: az j szerelem
Jelenleg a cloackingnek nevezett technika a hackerek j kedvence: ilyenkor a keresoldal fel a weboldal nem azt az arct mutatja, amit az olvask ltnnak. Ez azrt lehetsges, mert pldul a Google ltal hasznlt keresrobot is mindig azonostja magt, s a biztonsg kedvrt a Janus-arc weboldalt ltrehoz szerkeszt mg a lekrst indt szerver IP-cmt is ellenrizheti. Ha az gy megrt weboldal keresrobotot rzkel, akkor specilisan sszelltott tartalmat mutat neki ez lehet akr tbb szz, egy adott tmhoz kapcsold hasonl rtelm mondat, vagy kifejezs. Ha viszont egy kznsges bngsz rkezik, mr egy msik oldalt fog ltni, ltalban a keresshez nem is kapcsold tartalommal. Ehhez hasonlan mkdik az tirnyts: egy meta-tag vagy kis JavaScript segtsgvel a weboldal betltse utn a bngsznk mr nyitja is meg az jabb webhelyet. A Google keresrobotja azonban nem foglalkozik a Javacripttel, gy szmra csak az els, csalogat szvegeket s hivatkozst tartalmaz oldal lthat. Ennek az eljrsnak ksznhette egybknt a BMW azt, hogy 2005 februrjban a cg weboldalt a Google trlte az indexelt lapok kzl (www.mattcutts.com/ blog/ramping-up-on-international-webspam/). Az autgyrt pontosan azzal prblkozott, hogy a keresrobot ltal ltott els oldalon kulcsszavak s kifejezsek voltak, az tirnytott oldalon viszont az autmodelleket tartalmaz galriba jutottak az olvask.
tartalom, amellyel tbb oldalon is tallkozhatunk. Ilyen tbbszrs tartalom tbbfle mdon is ltrejhet: pldul gy, hogy egy adott cikk ktszer is a weboldalra kerl, egyszer a kpernyre, egyszer pedig kinyomtatsra sznt formban. A Google nem djazza a dupliktumokat, s a bntets a Pagerank cskkense. Azonban kt-hrom ugyanolyan szveg cikk mg nem okoz ilyen veszlyt (www.mattcutts. com/blog/duplicate-content-question/). Az URL msik lehetsg a ketts bejegyzsre: ha pldul egyetlen oldal tbb domainen keresztl is elrhet, akkor ebbl egy id utn knnyen problmk lehetnek, mint ahogy az is ide vezethet, ha tbb elrsi tvonal is ugyanarra a fjlra mutat. Erre plda, amikor egy adott cikk a www.sajatoldal.hu/ artikel php?id=1 s a www.sajatoldal.hu/tartalom1/ linkrl is elrhet, a Google ezeket ugyanis kln dokumentumoknak veszi majd, amelyek azonban msolatok, gy rgtn lejjebb is kerlnek a listban. E problmk ellen tirnytssal vdekezhetnk: ha pldul a felhasznl a www.sajatkedvencoldalam.hu cmet rja be, akkor is automatikusan a www.sajatoldalam.hu oldalra kerl. Apache szerveren ezt a mod_rewrite modullal oldhatjuk meg, amely automatikusan trja az URL-eket a megadott szablyok szerint. A szksges kdot (ha csak egy adott knyvtrrl van sz) a gykrben elhelyezett .htaccess fjlban lehet megadni. Ehhez csak hrom sor szksges:
RewriteEngine=on RewriteCond%{HTTP_HOST}!^www\. sajatoldal\.hu$ RewriteRule^(.*)$http://www. sajatoldal.hu/$1[R=permanent]
Az els sor bekapcsolja az URL-eket tr szolgltatst, utna a RewriteCond ellenrzi a lekrt URL-t. Amennyiben ez nem www. sajatoldal.hu, akkor a harmadik oldal automatikusan tirnytja a krst a www.sajatoldal.hu cmre. Mivel az tirnyts Permanent, a keresrobotok az j cmet is mindig rvnyes cmnek fogjk ltni. Ez az tirnytgats elg krlmnyes, m szksges a weboldalak tulajdonosai, kszti szmra, s ez a belthat jvben nem is fog vltozni. Amg ugyanis a hackerek a lista trsval prblkoznak, addig a Google knytelen harcolni ellenk, s emiatt a becsletes webmestereknek is kicsit nehezebb a dolguk. n
FORRSOK Google Webmaster Guidelines: www.google.com/ support/webmasters/bin/answer.py?answer=35769 Matt Cutts Blog: www.mattcutts.com/blog Google-Blog for topic Meta-Tags: http://googlewebmastercentral.blogspot.com/2007/12/answering-more-popular-picks-meta-tags.html Google Spam Report: www.google.com/contact/ spamreport.html Wikipedia for Spam in search engines: http://en. wikipedia.org/wiki/Spamdexing Google News by WebmasterWorld: www.webmasterworld.com/forum30/
62
63