bw2.at - Bachelorarbeiten kostenlos

PDF Drucken E-Mail

3    Suchmaschinen

3.1    Kurzer Vergleich der größten Suchmaschinen

Laut einer Studie von OneStat.com (2005) sind die größten Suchmaschinen in Europa:

1.
 Google
56,9%
 2. Yahoo 21,2%
 3. MSN Search 8,9%
 4. AOL Search 3,2%

Tabelle 1: Die größten Suchmaschinen in Europa 5 

Eine andere Studie von Webhits (2008) zeigt folgende Ergebnisse:

 

Abbildung1

 

Abbildung 1: Die größten Suchmaschinen Europa6 

Man kann an den beiden Studien erkennen, dass Google schon vor drei Jahren die Top-Suchmaschine war und ihren Vorsprung gegen den anderen Anbietern in den letzten Jahren noch weiter ausgebaut hat.
Darum sollten Homepages in Europa besonders auf die Gegebenheiten dieser Suchmaschine hin optimiert werden.
 

3.2    Architektur von Suchmaschinen des Typs Roboter

3.2.1    Dokumentengewinnung mit dem Webcrawler System


Abbildung 2 zeigt die einzelnen Komponenten und deren Zusammenspiel.
Die verschiedenen Teile werden in den darauf folgenden Kapiteln noch näher erläutert.

 

Abbildung2

 Abbildung 2: Webcrawler System7 

 

3.2.2    Dokumentenindex

Der Dokumentenindex enthält Informationen zu jedem einzelnen Dokument, welches im Storeserver gespeichert wurde.
Außerdem wird hier noch der aktuelle Dokumentstatus definiert. So kann festgestellt werden, ob die Seite schon von einem Crawler besucht wurde.8 

 
Laut Erlhofer enthält der Dokumentenindex für jeden Eintrag noch statistische Daten wie etwa:

  • Länge des Dokuments
  • Zeitstempel des Erstellungsdatums und des letzten Besuchs
  • Dokumententyp (Content-Type)
  • Seitentitel aus dem title-Tag
  • Informationen aus der robot.txt bzw. dem robot-Meta-Tags
  • Statusinformationen über den Server
  • Hostname und IP-Adresse des Hosts9

 

3.2.3    Scheduler

Der Scheduler verteilt die Aufträge auf die verschiedenen Crawler. Die nötigen Informationen dazu bekommt er aus dem Dokumentenindex. Der Scheduler erkennt den Status des jeweiligen Crawlers. Ein Crawler kann frei sein und somit einen Auftrag entgegennehme, gerade mit dem Server in Verbindung stehen und ihm einen HTTP-Request schicken, auf die Antwort vom Server warten, die HTTP-Response verarbeiten und weitergeben. 10

Der Scheduler kann somit die Arbeit optimal auf die verschiedensten Crawler verteilen. Die Crawler schicken ihre Ergebnisse an den Storeserver. Wenn der Crawler eine Seite nicht gefunden hat, schickt er dem Storeserver eine Fehlermeldung und dieser löscht die betreffende Seite von seinem Speicher.
Bei einer neuen oder aktualisierten Seite werden die Informationen in den Dokumentindex übertragen.11 

3.2.4    Crawler

Ein Information Retrieval System ist ein System, welches für die Aufbereitung, Speicherung und Wiedergewinnung von Wissen zuständig ist. 12


Bevor Daten innerhalb dieses Systems ausgewertet werden können, müssen die Daten erst beschafft werden. Dafür ist der Crawler zuständig.
Die Hauptaufgabe eines Crawlers ist das durchforsten des Webs nach Homepages, welche der Suchmaschine noch unbekannt sind.
Der Crawler kommt auf eine Seite, geht von der Hauptseite zur nächsten Seite, findet einen Link, folgt diesem etc. Ein Problem würde sich ergeben, wenn dies der Crawler ohne irgendwelche Einschränkungen tun würde, da so seine Liste der noch zu besuchenden Webseiten unendlich lang werden würde. Deshalb löscht der Roboter immer wieder eine URL heraus, um so die Liste zu verkürzen.  
Eine weitere Aufgabe des Crawlers ist es, die bereits erfassten Dokumente auf ihre Aktualität zu prüfen und gegebenenfalls nicht mehr vorhandene Seiten von der Liste zu streichen bzw. neue Inhalte hinzuzufügen.13 

Der Crawler bekommt vom Scheduler einen konkreten Auftrag, eine bestimmte URL zu  besuchen. Er soll die URL auf Neuerungen prüfen, feststellen, ob diese URL überhaupt schon indexiert wurde oder ob diese URL überhaupt noch existiert.14 

Die Arbeit der Crawler klingt sehr einfach, aber man vergisst dabei, dass es sich um Millionen von Webseiten handelt. Um dies zu verdeutlichen, möchte ich aus dem Buch „Suchmaschinenoptimeriung für Webentwickler“ von Erlhofer Sebastian zitieren:

„So betreibt Google derzeit über ein Duzend Rechenzentren, die hauptsächlich in den USA, aber auch in Irland liegen. In diesen Rechenzentren stehen über 10.000 Server, auf denen jeweils wiederum ca. 200 Crawler-Prozesse laufen.“ 15 
 

3.2.5    Storeserver

Der Storeserver erhält von den Crawlern den HTTP-Response-Header von einer Seite, um diesen auszuwerten.
Der Dokumentenindex wird aktualisiert; neu indexierte Seiten werden hinzugefügt und nicht mehr vorhandene Seiten werden gelöscht.
Damit eine Seite aufgenommen wird, muss sie erst eine Art Aufnahmeprüfung beim Storeserver bestehen. Sie wird auf Speicherungswürdigkeit und Verarbeitbarkeit geprüft, bevor die Seite im Repository endgültig gespeichert wird. 16

Hier möchte ich auf den Grund zurückkommen, wieso ich in meiner Bachelorarbeit über Suchmaschinenoptimierung auch die Architektur von Suchmaschinen kurz erkläre. Wie oben beschrieben, wird eine Seite nur gespeichert, wenn sie gewissen Filterregeln entspricht. Deshalb ist es wichtig, einige der gängigsten Filterregeln zu kennen, um zu verhindern, dass eine Eintragung in eine Suchmaschine nur wegen einer Regelverletzung nicht stattfindet.
Die Filteregeln sind zwar bei jeder Suchmaschine etwas anders, aber ich möchte hier kurz auf die drei gängigsten Regeln eingehen:  

Dokumententyp
Suchmaschinen mit diesem System können Informationen nur aus bestimmten Medientypen gewinnen. Eine vollautomatisierte Informationsgewinnung aus Video- bzw. Audioressourcen ist viel zu aufwendig. Der Storeserver akzeptiert also nur bestimmte Medientypen die er durch die Analyse vom Content-Typ-Header bekommt.

Dublettenerkennung
Nachdem die Ressource den Dokumentenfilter durchlaufen ist, muss überprüft werden, ob diese nicht schon unter einer anderen URL abgespeichert wurde. Bei den Dubletten muss es sicht nicht unbedingt um direkte Kopien handeln. Es können ebenfalls  zwei Homepages mit einem gleichen Text sein.17 

 
Theoretisch können auch zwei Domains auf eine Webseite verlinken.
Ein (erfundenes) Beispiel hierfür wäre:
www.alocap.com/produkte.html
www.alocap.de/produkte.html
Beide Domains haben bei den DNS-Servern die gleiche IP-Adresse. Da  produkte.html eine sehr gängige Bezeichnung ist und diese bei den verschiedensten Firmen vorkommt wird es in diesem Fall nicht als Dublette erkannt.
Eine Dublette wird aber erkannt, wenn sie unter einem anderen Namen auf einem anderen Server auftritt, der Text aber komplett gleich ist. Eine erneuerte Erfassung wird deshalb abgelehnt, da die Seite keine neuen Informationen bringt.

URL-Filter
Der URL Filter konzentriert sich auf Domain-, Verzeichnis- und Dateinamen.
Die meisten Suchmaschinen haben eine eigen Black List. Diese Liste enthält Wörter und Phrasen, die von dem Suchmaschinenbetreiber nicht erwünscht sind. Würde die Domain oder irgendein Verzeichnisname der Homepage der Firma Alocap einer dieser Wörter enthalten, würde die Aufnahme verweigert werden.18 
 

3.2.6    Repository

Die Repository ist der Datenspeicher, welcher hauptsächlich Webseiten und deren HTML Code enthält. Er speichert die URL und die dazugehörigen Daten, wie die Länge und Größe der Ressource, unter einer eindeutigen DocID ab. Natürlich sprechen wir hier von gewaltigen Datenmengen, die zu Platz sparenden Zwecken komprimiert werden müssen. Die Erstellung, die Komprimierung und Speicherung übernimmt entweder der Storeserver oder das Repository. Wird eine neue Version eines bereits erfassten Dokumentes entdeckt, kann der vorhandene Eintrag auf Grund der DocID eindeutig identifiziert werden und der alte Eintrag wird durch den neuen Eintrag ersetzt. 19

 


5  Tabelle 1:  OneStad.com: Global usage share MSN Search has slightly increased according to OneStat.com,  http://www.onestat.com/html/msn_search_usage_share_20050926.html , <20.10.2007>.
6  Webhits: Web-Barometer vom 22.01.2008 ,  http://www.webhits.de/deutsch/index.shtml?webstats.html , <22.1.2007>.
7  Abbildung 1: modifiziert übernommen aus: Erlhofer (2005:67).
8  Vgl. Erlhofer, 2005, S 67-68.
9  Vgl. Erlhofer, 2005, S.68.
10 Vgl. Erlhofer, 2005, S.68.
11 Universität des Saarlandes: Virtuelles Handbuch Informationswissenschaft von Heinz-Dirk Luckhardt, http://is.uni-sb.de/studium/handbuch/exkurs.ir.html , <22.1.2007>.
12 Vgl. Erlhofer, 2005, S.66.
13 Vgl. Erlhofer, 2005, S.68-72.
14 Erlhofer, 2005, S.71.
15 Vgl. Erlhofer, 2005, S. 72-77.
16 Vgl. Erlhofer, 2005, S. 72-77.
17 Vgl. Erlhofer, 2005, S. 77-78.
18 Vgl. Erlhofer, 2005, S. 77-78.
19 Vgl. Erlhofer, 2005, S. 77-78.

 

 

 

Gesponsorte Links