You are on page 1of 2

TeszTek, Technolgik gy mkdik a Google

bl ll hlzathoz tartoz rtket. Pldnk els rszben az A oldalra mutat link tallhat a B, C s D oldalakon ms link nincs. Ha egyelre most ms szempontokat mg nem vesznk figyelembe, a Pagerank rtknek kiszmtsra a kvetkez egyenlet addik:
PR(A) = 1/1 + 1/1 + 1/1

A Googleegyenlet megoldsa
Egy egyszer egyenlet dnt weboldalunk sikerrl vagy buksrl: a Google-fle Pagerank dnthet jvnkrl. A CHIP megmutatja, hogyan mkdik ez a rendszer.

Kiegszts: A felhasznl is szmt


A Pagerank annak a valsznsgt fejezi ki, hogy egy felhasznl vletlenszeren szrflve egy adott weboldalra rkezzen. A vals letben azonban a felhasznlk nem klikkelgetnek a vgtelensgig, hanem egy id utn megunjk ezt. A vgs algoritmusban teht ezt is figyelembe kell vennnk. Ez a csillapts a mr kiszmolt sszeget befolysolja majd, s a Google-univerzumban rtkt 0,85nek hatroztk meg. A Pagerank vgs rtke teht egy valsznsgi mrszm, ami a valdi hln 0 s 1 kz esik. Pldul egy 0,01-es pontszm oldalnak 1 szzalk eslye van arra, hogy a felhasznl vletlenl odatved. Felmerlhet a krds, hogy ha a Pagerank 0 s 1 kztt van, mirt mutat pldul a Google toolbar is (http://toolbar.google. com) 1 s 10 kz es rtkeket? Nos, a Google a Pagerank eredmnyt tszmtja de hogy pontosan hogyan, azt nem sikerlt megtudnunk. A szakrtk vlemnye szerint a konverzi logaritmikus, azaz pldul egyrl kettre jutni sokkal egyszerbb, mint kilencrl tzre.

10-es Pagerank-rtk oldalak


Pagerank 10 ez az rtk csak az internet isteneinek jr: csak a legnpszerbb oldalak kapnak ekkora szmot. Az albbi listban a legmagasabb pontszmot elrt oldalakat soroltuk fel, a rjuk mutat hivatkozsok szerint rendezve. Magyar oldalakat felesleges is keresglnnk mg a legnpszerbb hazai internetes helyek sem rnek el 7-nl tbbet. s ez igaz a google.hu oldalra is, amely csak 6-ot rdemelt. 1. helyezett: www.google.com/ 2. helyezett: www.firstgov.gov/ 3. helyezett: web.mit.edu/ 4. helyezett: www.nasa.gov/ 5. helyezett: www.real.com/ 6. helyezett: www.energy.gov/ 7. helyezett: www.whitehouse.gov/ 8. helyezett: www.adobe.com/ 9. helyezett: www.nsf.gov/ 10. helyezett: www.w3.org/

Az A oldal Pagerank rtke teht hromnak addik. Vessnk most egy pillantst a 61. soldalon tallhat kicsit bonyolultabb kapcsolati rendszerre: az A oldalra mutat linkeket a B s C oldalon is tallunk, mg B-re irnyul hivatkozsok csak az A oldalon vannak. C-re az A, B s D, mg D-re csak a B oldal hivatkozik. gy kpletnk az A oldal esetben a kvetkezkppen nz ki:
PR(A) = 1/1+1/3

Ebben a cikkben
Tnyek s elmlet A kplet lersa Hogyan nyerhetnk? Tippek s trkkk a magas pontszmhoz

ezdjk elszr is pr tny ismertetsvel: amg az internet hatalmas, addig hozz kpest egy weboldal kicsi. Radsul nehz egyedi weboldalt ltrehozni: brmit is tallunk ki, nagy az esly r, hogy mr tbb hasonl tmj oldal tallhat a vilghln. A felhasznl rendszerint az alapjn vlaszt az egyes honlapok kzl, hogy melyik ll elrbb a Google tallati listjban. Sokakat rdekelhet teht, hogy miknt kerlt egy tetszleges weboldal a lista elejre. A vlaszt a Google alapti, Larry Page s Sergey Brin egy egyszer kplettel adjk meg, a Pagerank-egyenlettel (az elnevezs Larry Page nevbl, s nem az angol page oldal szbl szrmazik). Aki ismeri, s tudja is, hogyan mkdik, az elre kerlhet a listban aki pedig rosszul hasznlja, az bntetsre szmthat.

2. Ezeknek a hivatkozsokat tartalmaz weboldalaknak van Pagerankje. 3. A B oldalrl A oldalra mutat linket egy a B oldal ltal A-ra leadott szavazatnak vehetnk. 4. A szavazatot lead B oldal mr meglv Pagerankje a szavazat slyt hatrozza meg. Minl magasabb az rtk, annl tbbet r a link. 5. Mg egy jellemzt figyelembe kell vennnk, mgpedig a B oldalon tallhat linkek szmt. Ez minl kisebb, annl tbbet r az adott link. 6. Fontos, hogy egy website esetben a PageRanket minden oldalra kln kiszmtjk, gy elfordulhat, hogy egy adott cikk a foldalnl magasabb helyre kerl a listban. Kpletknt lerva ez a Pagerank-szmts az albbi mdon nz ki:
PR(A) = (1-d) + d (PR(T1)/C(T1) + + PR(Tn)/ C(Tn)

A B-rl rkez hivatkozst 1-nek, a C-rl rkezt 0,33-nak vesszk, mivel ott hrom linket is tallunk. gy a vgs pontszm 1,33-nak addik. B-re ugyanez:
PR(B) = 1/2 + 1/3 + 1/1

Ez kerektve 1,83-at r. Ezzel ellenttben a C oldalnl


PR(C) = 1/2

azaz 0,5, s vgl a D-nl:


PR(D) = 1/3

Szrk: A Pagerank segti


A Pagerank algoritmus segtsgvel teht a Google tnyleg hatsosan rendezi sorba a tallatokat m a weboldalak ksztit is rdekelni kezdte a formula, s hamar kidolgoztak olyan mdszereket, amelyekkel a listban elrbb lehetett jutni. Mindazonltal sokan mg mindig valamifle pnzknt tekintenek r: ha adsz nekem kt linket egy PR4-es oldalon, akkor n cserbe adok neked egy linket egy PR5-s oldalon. Ez a mdszer ma mr nem sokat r: egy kutys oldalrl egy hasznltauts oldalra mutat link aligha rdekli az olvaskat, s a Google sem foglalkozik vele, mivel az egymshoz kapcsold tmj oldalak kztti linkek tbbet rnek a vletlenszer hivatkozsoknl. Ha teht ilyen zleti ajnlatot kapnnk levlben, akkor elszr rdemes ellenriznnk az adott oldal tartalmt is, hiszen a Pagerankon kvl mg millinyi szr s algoritmus segt a sorrend ltrehozsban.

azaz kerektve 0,33. sszegezve a pontszmokat az oldalak szmt kell kapnunk:


1,33 + 1,83 + 0,5 + 0,33 = 3,99

ami a kerektseket figyelembe vve helyes eredmnyt ad. Ebbl a szmtsbl azonban egyvalami hinyzik: a hivatkozsokat tartalmaz weboldalak Pagerank-rtkeit nem vettk figyelembe ezt most a B esetben pldakppen korrigljuk, s az eredeti,
PR(B) = 1/2 + 1/3 + 1/1

Pagerank: alapelvek
A rangsor mgtt egy egyszer, de hatkony formula ll: 1. Minden weboldalhoz tartoznak olyan oldalak, amelyek az adott honlapra hivatkoz linket tartalmaznak.

Kiolvasva pedig: A oldal Pagerank-rtkt gy kapjuk meg, ha a r hivatkoz oldalak Pagerank-rtkeit elosztjuk az adott oldalon tallhat linkek szmval, s ezeket a hnyadosokat sszegezzk. Ehhez jn mg egy tnyez, amely fontos szerepet kap a tovbbi folyamatokban. A Pagerank mkdst most egy olyan pldn mutatjuk be, amely felttelezi, hogy az egsz vilghl csak ngy website-bl ll ezek legyenek A, B, C s D. Mindegyiknek alapbl 1 a Pagerankje, ezek sszeadva ki is adjk a ngy oldal-

kpletnket gy mdostjuk:
PR(B) = 1,33/2 + 0,5/3 + 0,33/1

Ekkor mr a vgeredmny kerektve 1,62-nek addik. Termszetesen ez az j rtk megvltoztatja a tbbi oldal rtkt, ami visszahat B eredmnyre, s gy tovbb a szmts igen sok lpsig folytathat. Ennek megfelelen a Google tbblpcss iterlssal llaptja meg az oldalak Pagerank-rtkeit a Page-tl s Brintl szrmaz informcik alapjn krlbell 100 lps kell a Google szmtgpeinek ahhoz, hogy a tbbmillird oldalhoz mind kiszmtsk a megfelel rtkeket.

tartani, j eslynk van arra, hogy honlapunk a lista ln landoljon. A korrekt kd jelen esetben weblapunk HTML-kdjnak kt tulajdonsgt jelenti: egyrszt szintaktikailag is helyesnek kell lennie, msrszt viszont az elterjedt formzsi opcikat kell hasznlnia. A Google szmra klnsen a <title>, <p> s a <h1>-tl <h6>-ig terjed tagek az rdekesek. A <title>-ben a dokumentum rvid lersa tallhat, a bekezdseket a <p> jelzi, mg a <hx> tagokkal tagolhatjuk a szveget. Termszetesen fontos, hogy a <h1> taget csak egyszer hasznljuk, a tbbit lehet tbbszr is legalbbis ismert weboldalakkal vgzett keressek adta tallatok vizsglata utn ez tnik az optimlisnak. A j helyezsnek egy msik szksges felttele a trelem: ahogy telik az id, ha megfelel tartalom van oldalunkon, egyre tbben hivatkoznak r, s gy a Pagerankrtke is nvekszik majd.

Tuning: sajt linkek ksztse


Nem mindenkinek van azonban meg a trelme kivrni ezt s nem is felttlenl muszj. Frumokban vagy blogbejegyzsekben pldul helyezhetnk el bven a sajt oldalunkra mutat linkeket. Ezeknek azonban az adott frum olvasi rendszerint nem igazn rlnek, gyhogy k

SEO: Search Engine Optimization


A keresre val optimalizls (search engine optimization) vezrelve: korrekt kd s egyedi tartalom. Ha ezt be tudjuk

60

| CHIP | 2008 oktber

2008 oktber | CHIP |

61

TeszTek, Technolgik gy mkdik a Google


ehhez a mdszerhez csak akkor rdemes folyamodni, ha az adott tmhoz kapcsold weboldalunk van. Radsul ez az t ma mr nem is igazn jrhat, mivel a legtbb frumon s blogon a bert linkekhez automatikusan a >>rel=nofollow<< paramterrel ltjk el, amely a Google keresrobotjnak szmra annyit tesz, hogy nem kell kvetnie ezt a hivatkozst gy persze a Pagerank kiszmtshoz sem szksges. Ezen paramterek megjelensrt egybknt tlnyomrszt a frumokat teleszemetel spammerek felelsek, akik rgebben botokkal prbltak minl tbb, az oldalukra mutat linket elhelyezni a vilghln. pldul a mltatlanul elfeledett <head> mezben hasznlhat meta-tag bizonytja hasznossgt:
<meta-name=description content=xyz/>

A webmester feladata, hogy az xyz helyre valami figyelemfelkelt lerst adjon az adott oldalrl, amellyel rveheti a netezt arra, hogy pont az oldalra kattintson. Ha nincs ilyen meta-tag, akkor a Google sajt maga vlaszt ki egy neki szimpatikus szvegrszt ez pedig nem mindig a legjobb megolds.

Black-Hat-Seo: tverni a Google-t

Minden program s minden rendszer felElg ostoba lenne a Google, ha nem hasz- trhet s ez igaz a Google-re is. Amita nln ki a rendelkezsre ll adatokat a csak keresmotorok lteznek, mindig felhasznli szoksokrl, hiszen az gyne- akadtak olyan felhasznlk, akik megprvezett linkkvetssel megllapthatja, hogy bltk befolysolni a tallati listk sormely tallatok tetszenek s melyek nem a rendjt. Ebbl persze a szoksos verseny szrflknek. A Google adatvdelmi irny- alakult ki a hackerek s a keresmotorok elvei szerint: Adott esetben elkpzelhet, hasznli kztt az egyikk pnzt szehogy a Google olyan mdon jelent meg retne ltni, a msikuk inkbb jl hasznllinkeket, amely lehetv teszi szmunkra az hat tallatokat szeretne ltni. A fekete ezekre trtn ugrsok megtrtntnek brnyok ma viszonylag ritkn hasznlnyomon kvetst (http://www.google.hu/ nak a keresmotorokban tallt programointl/hu/privacypolicy.html). Ennek a md- zsi hibkat, inkbb a tartalommal s a szernek a keresris szmra az az elnye, linkekkel val trkkzst alkalmazzk. hogy kvlrl nehz befolysolni az ered- Ezek a tallati listt hasznl bngszt mnyt az egyetlen lehetsgnk, hogy veszik clba: mivel a Google listjban olyan weboldalt ksztnk, amely sok csak a hacker ltal kivlasztott szvegrsz embert rdekel, sokan kattintanak r, s az (ami gyakorlatilag az egyetlen rtelmes oldalak cmei is jk. mondat az egsz oldalon) jelenik meg, mi Oldalcmknt a Google ltalban a <titel> boldogan kattintunk a hivatkozsra, abban taghez tartoz informcit vlasztja ennek a remnyben, hogy ezzel rdekes informteht valami figyelemfelkelt, megragad cikhoz jutunk de csak a hackerek pnzszveget kell tartalmaznia, amelyre nagy trcjt hizlaljuk fel. valsznsggel rkattintanak majd a felA tartalommal val trkkzsnek sok hasznlk. Az albbi Google-tallatban mdszere van a legegyszerbb, ha az oldalt feltltjk gyakran keresett kifejezsekkel. Ez ma mr nem igazn hatsos, mert a keresrobotok azt is figyelik, hogy egy oldalon milyen gyakori a kulcsszavak elfordulsa (egsz pontosan a szveg hossznak s a kulcsszavak szmnak az arnyt figyelik, ez az gynevezett kulcssz-srsg, azaz keyword density). Ha ez tl nagy, Profi tiPPek Matt Cutt, a Google webspam-csapatnak fnke sajt blogjban ad tippeket a weboldalak optimalizlshoz akkor a krdses oldal kny-

Linkkvets: szavazs kattintssal

nyen kikerlhet a listbl (http://www. google.com/sup port/webmasters/bin/answer. py?answer=66358). Egy msik mdszer a Google becsapsra a rejtett szveg: a hackerek ilyenkor a httrrel megegyez szn karaktereket hasznlva helyezik el a kulcsszavakat (HTML vagy CSS kddal ez nem okoz gondot egyetlen webszerkesztnek sem). A kznsges olvask persze nem ltnak majd semmit, de a keresoldalakra nha gy is fel lehet kerlni. Br ennek nmileg ellentmond Matt Cutts, a Google ehhez hasonl trkkkkel foglalkoz nem hivatalos szvivjnek blogja, amely szerint pldul a fehr httrre halvnyszrkvel rt szveggel nem jutunk sehova (http://www.mattcutts.com/blog/seo-mistakes-nearly-hidden-text/). A msok sikeres weboldalainak lenylsra alapul mdszer (scraping) mg mindig igen npszer, ilyenkor egyszeren csak a msok ltal mr megrt szveget msoljk t sajt weblapjuk megtltsre. Pnzszerzsre a Google AdSense szolgl, amely kattintsok utn fizet. A Google Antispam csapat mr j ideje kzd ez ellen a mdszer ellen (http:// www.mattcutts.com/blog/step-into%20myshoes/). A mdszer leginkbb a szveget tartalmaz eredeti oldal szmra lehet boszszant, hiszen elfordulhat, hogy a msolt oldal a listban az eredeti el kerl.

mg nem tnteti el, legfeljebb hatstalann teszi. A spammerek igazbl nem is foglalkoznak ezzel, ugyangy kldzgetik minden oldalra a szemtbejegyzseket, abban a remnyben, hogy lesz olyan, amelyik nem kap nofollow bejegyzst. A szemetels elleni vdekezs egyelre csak az Akismethez hasonl kln rendszerekkel lehetsges. Ms hackerek sajt frumot vagy blogot indtanak, csak azrt, hogy a Google aztn rbukkanjon ezekre ez az eljrs azonban sokban nem klnbzik a klaszszikus hivatkozshalmozstl, amikor egy oldalon csak rtelmetlen szveg, s rengeteg hivatkozs van.

Pagerank kiszmtsa Pldnkban ngy, egymshoz az brn lthat mdon kapcsold weboldal szerepel. A hivatkozsok szmnak s azok fontossgnak fggvnyben ms s ms Pagerank-rtket (PR) kapnak

Cloacking: az j szerelem
Jelenleg a cloackingnek nevezett technika a hackerek j kedvence: ilyenkor a keresoldal fel a weboldal nem azt az arct mutatja, amit az olvask ltnnak. Ez azrt lehetsges, mert pldul a Google ltal hasznlt keresrobot is mindig azonostja magt, s a biztonsg kedvrt a Janus-arc weboldalt ltrehoz szerkeszt mg a lekrst indt szerver IP-cmt is ellenrizheti. Ha az gy megrt weboldal keresrobotot rzkel, akkor specilisan sszelltott tartalmat mutat neki ez lehet akr tbb szz, egy adott tmhoz kapcsold hasonl rtelm mondat, vagy kifejezs. Ha viszont egy kznsges bngsz rkezik, mr egy msik oldalt fog ltni, ltalban a keresshez nem is kapcsold tartalommal. Ehhez hasonlan mkdik az tirnyts: egy meta-tag vagy kis JavaScript segtsgvel a weboldal betltse utn a bngsznk mr nyitja is meg az jabb webhelyet. A Google keresrobotja azonban nem foglalkozik a Javacripttel, gy szmra csak az els, csalogat szvegeket s hivatkozst tartalmaz oldal lthat. Ennek az eljrsnak ksznhette egybknt a BMW azt, hogy 2005 februrjban a cg weboldalt a Google trlte az indexelt lapok kzl (www.mattcutts.com/ blog/ramping-up-on-international-webspam/). Az autgyrt pontosan azzal prblkozott, hogy a keresrobot ltal ltott els oldalon kulcsszavak s kifejezsek voltak, az tirnytott oldalon viszont az autmodelleket tartalmaz galriba jutottak az olvask.

Linkspam: szemt a bejegyzsekben


A blogok s frumok olvasinak is meg kell kzdenik azokkal, akik a keresk tversre kszlnek. Mivel a hagyomnyos mdszerek egyre kevsb mkdnek, a spammerek most a frumokat vettk clba, s azokat kezdtk teleszemetelni az oldalaikra mutat hivatkozsokkal. A hackerek szmra ennek az az elnye, hogy a teleszemetelt oldalnak hozzjuk nincsen kze, a Google teht ket nehezen tudja bntetni azzal, hogy a linkhegyeket tartalmaz oldalakat kiveszi a tallati listbl de ha gy tesz is, a blogbejegyzsek s frumok szma folyamatosan nvekszik, gy knny mindig j helyeket tallni. Egy j vdekezs ez ellen a rejtett nofollow jelz hasznlata, amelyet a Google robotja gy rtelmez, hogy az gy megjellt hivatkozst nem kell figyelembe vennie s kvetnie sem. A WordPress nev blogszerkeszt ezt a taget automatikusan minden link mg odabiggyeszti, br ezzel a spamet

tartalom, amellyel tbb oldalon is tallkozhatunk. Ilyen tbbszrs tartalom tbbfle mdon is ltrejhet: pldul gy, hogy egy adott cikk ktszer is a weboldalra kerl, egyszer a kpernyre, egyszer pedig kinyomtatsra sznt formban. A Google nem djazza a dupliktumokat, s a bntets a Pagerank cskkense. Azonban kt-hrom ugyanolyan szveg cikk mg nem okoz ilyen veszlyt (www.mattcutts. com/blog/duplicate-content-question/). Az URL msik lehetsg a ketts bejegyzsre: ha pldul egyetlen oldal tbb domainen keresztl is elrhet, akkor ebbl egy id utn knnyen problmk lehetnek, mint ahogy az is ide vezethet, ha tbb elrsi tvonal is ugyanarra a fjlra mutat. Erre plda, amikor egy adott cikk a www.sajatoldal.hu/ artikel php?id=1 s a www.sajatoldal.hu/tartalom1/ linkrl is elrhet, a Google ezeket ugyanis kln dokumentumoknak veszi majd, amelyek azonban msolatok, gy rgtn lejjebb is kerlnek a listban. E problmk ellen tirnytssal vdekezhetnk: ha pldul a felhasznl a www.sajatkedvencoldalam.hu cmet rja be, akkor is automatikusan a www.sajatoldalam.hu oldalra kerl. Apache szerveren ezt a mod_rewrite modullal oldhatjuk meg, amely automatikusan trja az URL-eket a megadott szablyok szerint. A szksges kdot (ha csak egy adott knyvtrrl van sz) a gykrben elhelyezett .htaccess fjlban lehet megadni. Ehhez csak hrom sor szksges:
RewriteEngine=on RewriteCond%{HTTP_HOST}!^www\. sajatoldal\.hu$ RewriteRule^(.*)$http://www. sajatoldal.hu/$1[R=permanent]

Az els sor bekapcsolja az URL-eket tr szolgltatst, utna a RewriteCond ellenrzi a lekrt URL-t. Amennyiben ez nem www. sajatoldal.hu, akkor a harmadik oldal automatikusan tirnytja a krst a www.sajatoldal.hu cmre. Mivel az tirnyts Permanent, a keresrobotok az j cmet is mindig rvnyes cmnek fogjk ltni. Ez az tirnytgats elg krlmnyes, m szksges a weboldalak tulajdonosai, kszti szmra, s ez a belthat jvben nem is fog vltozni. Amg ugyanis a hackerek a lista trsval prblkoznak, addig a Google knytelen harcolni ellenk, s emiatt a becsletes webmestereknek is kicsit nehezebb a dolguk. n

FORRSOK Google Webmaster Guidelines: www.google.com/ support/webmasters/bin/answer.py?answer=35769 Matt Cutts Blog: www.mattcutts.com/blog Google-Blog for topic Meta-Tags: http://googlewebmastercentral.blogspot.com/2007/12/answering-more-popular-picks-meta-tags.html Google Spam Report: www.google.com/contact/ spamreport.html Wikipedia for Spam in search engines: http://en. wikipedia.org/wiki/Spamdexing Google News by WebmasterWorld: www.webmasterworld.com/forum30/

Dupla tartalom: kretlen szemt


Elfordulhat az is, hogy a weboldal gazdja csak jt akart, mgis a Google feketelistjra kerlt ilyen pldul a dupliklt

62

| CHIP | 2008 oktber

2008 oktber | CHIP |

63

You might also like