Klara im Web: Recherche zu Web Robots

Freitag, 16. Dezember 2005

Recherche zu Web Robots

Klara.Penzinger.Uni-Sbg, 17:37h

In der Vorleseung zum Thema: "Merkwürdiges zum Internetprotokoll" stellte uns Herr Prof. Mittendorfer eine Fachzeitschrift namens "Hacking" vor, in der sich ein Artikel zum Thema "Web Robots" befand. Aufgrund persönlichen Interesses recherchierte ich zum Thema und fand folgendes heraus:

Ein Web Robot (auch Spider oder Webcrawler) ist ein weitgehend autonomes Computerprogramm, das automatisch das Internet durchsucht und dabei Webseiten analysiert. Autonom bedeutet dabei, dass das Programm größtenteils unabhängig von Benutzereingriffen arbeitet.

Der Robot gelangt dabei über Hyperlinks von einer Webseite zu weiteren URLs. Er speichert alle bisher bekannten Adressen und besucht sie der Reihe nach. Neu gefundene Hyperlinks werden zur Liste aller URLs hinzugefügt. Somit können theoretisch alle erreichbaren Seiten des Internets gefunden werden, jedoch wird in der Praxis oft eine Auswahl getroffen und der Prozess irgendwann beendet.

Robots werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind beispielsweise das Sammeln von Mailadressen oder anderen Informationen. Diese Anwendungen müssen nicht zwangsläufig auf das Internet beschränkt sein.
Robots werden auch zur Untersuchung des Internets (Webometrie) eingesetzt. Die Wissenschaft der Webometrie untersucht mit Hilfe von Messungen das Internet, um beispielsweise die Anzahl und Verlinkung von Webseiten und die sich daraus ergebenden Strukturen zu bestimmen.
Ein anderes Einsatzgebiet ist das Data Mining. Unter Data Mining versteht man das systematische Entdecken und Extrahieren unbekannter Informationen aus großen Mengen von Daten.

Je nach Aufgabe eines Robots wird der Inhalt einer gefundenen Webseite beispielsweise mittels Indexierung ausgewertet und gespeichert. Dadurch wird ein späteres Suchen in den so gesammelten Daten ermöglicht. Beim Suchen mittels einer Suchmaschine wird dann auf diese Daten zurückgegriffen und alle relevanten Ergebnisse ausgegeben.

Ein Großteil des gesamten Internets wird jedoch von Robots und damit auch mit bekannten Suchmaschinen nicht erfasst. Denn viele Inhalte sind nicht über einfache Links sondern beispielsweise nur über zugangsbeschränkte Portale erreichbar. Diese Bereiche werden als "Deep Web" bezeichnet. Einer Studie von Lawrence and Giles im Jahr 2000 (Lawrence and Giles, 2000) zeigte, dass keine Suchmaschine mehr als 16% des Internets indexiert.
Da sich Web-Seiten häufig ändern, verlegt werden oder verschwinden, müssen auch einmal erfasste Seiten von den Robots immer wieder besucht werden, um den Index aktuell zu halten.

Einige Suchmaschinen (z.B. Google) archivieren auch die kompletten Seiten, wenn sie indexiert werden. Das hat den Vorteil, dass Änderungen der Seiten auch unabhängig von den Angaben der Anbieter verfolgt werden können.
Somit können bei nicht mehr existierenden oder momentan nicht erreichbaren Seiten, die archivierten Seiten angezeigt werden.

... comment

Online for 7181 days
Last update: 2006.01.09, 16:58

status

You're not logged in ... login

... home
... topics
... galleries

... ::collabor:: home

calendar

recent updates

Entwicklung von Computerspielen
Entsprechend dem Vorlesungsprotokoll vom 19.12.2005...

by Klara.Penzinger.Uni-Sbg (2006.01.09, 16:58)

Digitale Medien im Bildungszusammenhang
In Anlehnung an die Inhalte des 5. Vorlesungstermins...

by Klara.Penzinger.Uni-Sbg (2006.01.09, 16:03)

Recherche zu Web Robots
In der Vorleseung zum Thema: "Merkwürdiges zum...

by Klara.Penzinger.Uni-Sbg (2005.12.16, 17:37)

RFID in und auf Konsumgüter
Im Vorleseungstermin zum Thema "Privatsphäre in...

by Klara.Penzinger.Uni-Sbg (2005.12.06, 17:08)

Einstiegsbeitrag
In der Vorlesung "Schlüsseltechnologien der Informationsgesellschaft"...

by Klara.Penzinger.Uni-Sbg (2005.12.06, 16:04)