Welcome to Scribd, the world's digital library. Read, publish, and share books and documents. See more
Download
Standard view
Full view
of .
Look up keyword
Like this
7Activity
0 of .
Results for:
No results containing your search query
P. 1
WAS GOOGLE NICHT FINDET / The 'Deep' Web: Surfacing Hidden Value (english+german)... by Sebastian Wolf - Unibibliothek Bielefeld

WAS GOOGLE NICHT FINDET / The 'Deep' Web: Surfacing Hidden Value (english+german)... by Sebastian Wolf - Unibibliothek Bielefeld

Ratings:

4.67

(1)
|Views: 1,398|Likes:
Published by oliver becker
MUST READ...
MUST READ...

More info:

Published by: oliver becker on Nov 28, 2008
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

05/09/2014

pdf

text

original

 
Was Google nicht findet …
&“Surfacing Hidden Value" appeared in The Journal of Electronic Publishing fro the !niersit# of $ichigan…
Suchmaschinen haben Grenzen. Selbst Google findet nur einen Teil aller verfügbaren Informationen im Internet. Hier zeigen wir Ihnen, warum dies so ist und wie Sie den Rest aufspüren.
%as sichtbare und das unsichtbare et'
Schtzungen zufolge gibt es ca. !" #illiarden frei zugngliche Internetseiten. $ieser Teil des Internets ist das sichtbare %etz, das sogenannte
"Visible Web"
. $ie gr&'te Suchmaschine ( Google ( hat davon ca. )*(+" #illiarden Internetseiten indeiert -gespeichert. Theoretisch /&nnte eine Suchmaschine alle Seiten aus diesem 01isible 2eb0 indeieren, es gibt 3edoch verschiedene 4arrieren für die Suchmaschinen -dazu im nchsten 5bschnitt mehr.$arüber hinaus gibt es Seiten, die für Suchmaschinen von vornherein unsichtbar sind und die von Suchmaschinen nicht indeiert werden /&nnen. $iesen Teil des Internets nennt man daher auch das 0
(nisible Web
0. Schtzungen über die Gr&'e des 0Invisible 2eb0 differieren sehr star/. $ie $atenmenge im 0Invisible 2eb0 soll laut einer Studie der 6irma 4rightplanet aus dem 7ahr +"") etwa *""(mal gr&'er sein -http899www.brightplanet.com9resources9details9deepweb.html als die des 01isible 2eb0.  %och heute ist deshalb hufig zu lesen, dass das 0Invisible 2eb0 *"" mal gr&'er sei als das 01isible 2eb0. 5llerdings darf man die $atenmenge nicht mit der :ahl der Internetseiten gleichsetzen, da z.4. eine hochaufgel&ste Satellitenaufnahme die gleiche $atenmenge wie ).""" Internetseiten haben /ann. In einer Studie aus dem 7ahre +""; wurde die :ahl aus der
 
4rightplanet(Studie als deutlich zu hoch bezeichnet -siehe http899eprints.rclis.org9archive9""""<)*;9. $ennoch8 $as 0Invisible 2eb0 eistiert.:uerst m&chten wir Ihnen zeigen, warum allgemeine Suchmaschinen wie Google 2ebseiten aus dem 01isible 2eb0 und dem 0Invisible 2eb0 nicht indeieren /&nnen. $anach zeigen wir Ihnen, wie Sie spezielle Suchdienste für das Invisible 2eb finden, die Ihnen helfen, die für allgemeine Suchmaschinen unsichtbare Information dennoch aufzuspüren.
Welche )arrieren gibt es f*r die Suchaschinen+
5uch mit der optimalen Suchstrategie lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. =eine Suchmaschine /ennt alle Seiten, die es im Internet gibt. 5lles, was eine Suchmaschine 3edoch nicht /ennt, /ann auch nicht von ihr indeiert werden. 5lles, was nicht indeiert wurde, /ann über diese Suchmaschine auch nicht gefunden werden. 1iele Informationen bleiben der Suchmaschine somit verborgen. 5ndere Internetseiten, die zwar indeiert wurden, werden von der Suchmaschine aus unterschiedlichen Gründen nicht angezeigt. 5uch diese Internetseiten  bleiben dem %utzer verborgen.2arum wird eine Internetseite nicht indeiert>
5uf die Internetseite führt /ein ?in/ $ie @rawler der Suchmaschinen /&nnen nur Internetseiten indeieren, die über einen ?in/ erreichbar sind. Gibt es /einen ?in/ auf die Internetseite, /ann die Seite auch nicht indeiert werden, landet nicht im Inde der Suchmaschinen und ist bei der Suchein dieser Suchmaschine nicht auffindbar.
$ie Internetseite ist zu verstec/tSehr umfangreiche Internetangebote besitzen oft sehr tiefe Hierarchien. $ie Suchmaschinen(@rawler dringen aber nicht immer bis in die tiefsten Abenen eines Internetangebots vor und so bleiben ihnen einige Seiten verborgen, auch wenn ein ?in/ auf die Seite führt.
$ie Internetseite ist zu a/tuell#anche Informationen sind schon in wenigen Stunden veraltet und nicht mehr zu gebrauchen -den/en Sie an 4&rsen/urse, den 2etterbericht oder a/tuelle  %achrichten. Suchmaschinen brauchen 3edoch in der Regel ein paar Tage, bis sie eine neue Seite indeiert haben und diese über die Suchmaschine suchbar ist. $eshalb /annman hocha/tuelle Informationen nicht in allgemeinen Suchmaschinen finden. 5uch dieser 4ereich bleibt also unsichtbar.
$ie Internetseite darf nicht indeiert werden$er Arsteller eines Internetangebots /ann festlegen, welche Seiten von einem Suchmaschinen(@rawler nicht besucht oder nicht indeiert werden dürfen. Hlt sich der @rawler an diese 1orgaben, bleiben ihm diese Seite verborgen.
$ie Internetseite hat /einen TetSuchmaschinen /&nnen nur den Tet auf einer Seite indeieren. Grafi/en, #usi/,
 
6ilme und 5nimationen /&nnen z.4. nur durch die dazugeh&rigen 4eschreibungstete indeiert werden ( hufig fehlen diese 3edoch auf Internetseiten.
$ie Internetseite hat zu viel TetSehr umfangreiche Internetseiten werden teilweise nicht vollstndig indeiert. 5lle 2&rter, die hinter dieser Indeierungsgrenze liegen, werden nicht indeiert und /&nnen auch nicht gefunden werden.
$as $ateiformat ist unbe/annt$ie gngigen $ateiformate -HT#?(, 2ord(, Acel(, Bowerpoint( und B$6($ateien /&nnen von Suchmaschinen indeiert werden, einige unbe/anntere 6ormate 3edoch nicht.
$ie Internetseite ist nicht frei zugnglich1iele Informationen sind nur nach Aingabe eines Basswortes oder nur innerhalb einer 6irma zugnglich. $a ein Suchmaschinen(@rawler die Bassw&rter nicht /ennt und vonau'erhalb der 6irma /ommt, /ann er die Seiten die hinter dieser Grenze liegen, nicht erreichen.
Inhalte aus 4ibliothe/s/atalogen und 6achdatenban/enCm eine $atenban/ -z.4. unseren 4ibliothe/s/atalog zu durchsuchen, geben Sie i.d.R. Stichw&rter in eine Suchmas/e ein. 5nschlie'end erhalten Sie das Suchergebnis auf einer Internetseite. $iese Seiten werden dDnamisch erzeugt, d.h. sie sind nirgendwo gespeichert -stellen Sie sich vor, wie viele Seiten es geben müsste, wollte man alle m&glichen 5ntworten auf alle den/baren Suchanfragen einzeln speichern.2enn Sie eine Suche durchgeführt haben, /&nnen nur Sie die Seite mit der Trefferlistesehen ( rufen Sie eine andere Seite auf oder führen Sie eine neue Suche durch eistiert diese Seite nicht mehr.$ie Indeierungsprogramme der Suchmaschinen folgen nur den ?in/s auf Internetseiten. Sie /&nnen /eine Internet(5dressen selber eingeben oder Stichw&rter ineiner Suchmas/e eintragen. $eshalb bleibt dieser 4ereich für sie unsichtbar.2arum wird eine Internetseite nicht angezeigt, obwohl sie indeiert wurde>
$ie Seite wird aus formalen Gründen ausgefiltertInhaltlich identische Seiten -sogenannte
 Dubletten
 erscheinen meist nur einmal in einer Trefferliste. #anchmal versagt allerdings diese $ublettenprüfung und die Internetseiten werden nicht angezeigt, obwohl sich die Inhalte unterscheiden.
$ie Seite wird aus inhaltlichen Gründen ausgefiltert -:ensurIn vielen ?ndern ( nicht nur in @hina ( wird der Inde der Suchmaschinen von rechtswidrigen oder einfach von 0unerwünschten0 Inhalten 0gesubert0.
$er Suchmaschinenbetreiber l&scht die Seite aus dem IndeSuchmaschinen sind gro'e 2irtschaftsunternehmen. %iemand /ann einem Suchmaschinenbetreiber vorschreiben, was über den Inde zu finden sein soll und wasnicht. Inhalte /&nnen vom Suchmaschinenbetreiber aus dem Inde gel&scht werden, wenn sich der 4etreiber eines Internetangebots nicht an die 0Spielregeln0 hlt und z.4.versucht durch falsche 5ngaben eine gute Blatzierung in einer Trefferliste zu erreichen.

Activity (7)

You've already reviewed this. Edit your review.
1 hundred reads
1 thousand reads
Bünyamin Bilgin liked this
pango670 liked this
Norbert Werlen liked this
hanfrei liked this
anon-666 liked this

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->