Startseite
  Archiv
  Gästebuch
  Kontakt
 


http://myblog.de/suchmaschine

Gratis bloggen bei
myblog.de





Wie bewerten Suchmaschinen einen Webseiteneintrag

Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf moeglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei koennen verschiedene Suchverfahren Anwendung finden.

Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind

Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen ueber Dokumente),
Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie
Aufbereitung der Ergebnisse in einer moeglichst sinnvollen Form.
In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmaessiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.

Arten von Suchmaschinen
Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren. Die drei nachfolgenden Merkmale sind orthogonal zueinander. Man kann beim Entwurf einer Suchmaschine also fuer eine Moeglichkeit aus jeder der drei Merkmalsgruppen entscheiden, unabhaengig von den anderen Merkmalen. Die gaengigste und meistgenutzte Kombination ist eine indexbasierte (Realisierung) Websuchmaschine (Datenquelle) auf HTML-Textdokumenten (Art der Daten), wie sie unter anderem von den drei grossen Suchmaschinenanbietern Google, Yahoo! Search und MSN Search bereitgestellt wird.

Art der Daten
Verschiedene Suchmaschinen koennen unterschiedliche Arten von Daten durchsuchen. Zunaechst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhaengigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird ueblicherweise ein Textfragment angezeigt, welches die Suchbegriffe enthaelt. Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an.

Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beitraegen nach bestimmten Autoren gesucht werden, bei Web-Seiten im HTML-Format nach dem Dokumententitel.

Je nach Datengattung ist als weitere Funktion eine Einschraenkung auf eine Untermenge aller Daten einer Gattung moeglich. Dieses wird im Allgemeinen ueber zusaetzliche Suchparameter realisiert, die einen Teil der erfassten Daten ausschliesst. Alternativ kann sich eine Suchmaschine darauf beschraenken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine fuer Weblogs (statt fuer das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitaeten verarbeiten, oder ausschliesslich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat.

Datenquelle
Ein weiteres Merkmal zur Kategorisierung ist die Quelle, aus der die von der Suchmaschine erfassten Daten stammen. Meistens beschreibt bereits der Name der Suchmaschinenart die Quelle.

Websuchmaschinen erfassen Dokumente aus dem World Wide Web, Usenetsuchmaschinen Beitraege aus dem weltweit verteilten Diskussionsmedium Usenet. Intranetsuchmaschinen beschraenken sich auf die Rechner des Intranets einer Firma. Als Desktopsuchmaschinen werden neuerdings Programme bezeichnet, welche den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.

Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren vorgenommen, spricht man von einem Katalog oder Verzeichnis. In solchen Verzeichnissen wie dem Open Directory Project sind die Dokumente hierarchisch in einem Inhaltsverzeichnis nach Themen organisiert.

Realisierung
Dieser Abschnitt beschreibt Unterschiede in der Realisierung des Betriebs der Suchmaschine.

Die heutzutage wichtigste Gruppe sind indexbasierte Suchmaschinen. Diese lesen passende Dokumente ein und legen einen Index an. Dabei handelt es sich um eine Datenstruktur, die bei einer spaeteren Suchanfrage verwendet wird. Nachteil ist die aufwendige Pflege und Speicherung des Indexes, Vorteil ist die Beschleunigung des Suchvorgangs.
Metasuchmaschinen schicken Suchanfragen parallel an mehrere indexbasierte Suchmaschinen und kombinieren die Einzelergebnisse. Als Vorteil ergibt sich die groessere Datenmenge sowie die einfachere Implementierung, da kein Index vorgehalten werden muss. Nachteil ist die relativ lange Dauer der Anfragebearbeitung. Ausserdem ist das Ranking durch reine Mehrheitsfindung von fragwuerdigem Wert. Die Qualitaet der Ergebnisse wird unter Umstaenden auf die Qualitaet der schlechtesten unterliegenden Suchmaschine reduziert. Metasuchmaschinen sind vor allem bei selten vorkommenden Suchbegriffen sinnvoll.
Weiterhin existieren Hybridformen. Diese besitzen einen eigenen, oft relativ kleinen Index, befragen aber auch andere Suchmaschinen und kombinieren schliesslich die Einzelergebnisse. Sogenannte Echtzeitsuchmaschinen starten etwa den Indexierungsvorgang erst nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell, die Qualitaet der Ergebnisse ist aber aufgrund der fehlenden breiten Datenbasis insbesondere bei weniger gaengigen Suchbegriffen schlecht.
Ein relativ neuer Ansatz sind verteilte Suchmaschinen. Dabei wird eine Suchanfrage an eine Vielzahl von einzelnen Computern weitergeleitet, die jeweils eine eigene Suchmaschine betreiben, und die Ergebnisse zusammengefuehrt. Vorteil ist die hohe Ausfallsicherheit aufgrund der Dezentralisierung und – je nach Sichtweise – die fehlende Moeglichkeit, zentral zu zensieren. Schwierig zu loesen ist allerdings das Ranking, also die Sortierung der grundsaetzlich passenden Dokumente nach ihrer Relevanz fuer die Anfrage.

Sortierung der Ergebnisse
Die Darstellung der Suchergebnisse geschieht sortiert nach Relevanz (Ranking bzw. Suchrang), wofuer jede Suchmaschine ihre eigenen, meistens geheim gehaltenen Kriterien heranzieht. Dazu gehoeren:

Die grundlegende Bedeutung eines Dokuments (bei Google der PageRank-Wert).
Haeufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen Dokument.
Einstufung und Anzahl der zitierten Dokumente.
Haeufigkeit von Verweisen anderer Dokumente auf das im Suchergebnis enthaltene Dokument sowie in Verweisen enthaltener Text.
Einstufung der Qualitaet der verweisenden Dokumente (ein Link von einem „guten“ Dokument ist mehr wert als der Verweis von einem mittelmaessigen Dokument).
Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach Relevanz fuer die Suchanfrage, sondern lassen gegen Bezahlung auch Einflussnahme auf ihre Ausgabe zu. In den letzten Jahren hat sich allerdings bei den grossen Anbietern eine Trennung zwischen Suchergebnissen und als „bezahlte Treffer“ markierte eingeblendeter Werbung durchgesetzt, welche auf die Suchanfrage zugeschnitten ist.

Geschichte
Archie kann als aeltester Vorfahre der heute allseits bekannten Suchmaschinen und Webverzeichnisse angesehen werden.

Der erste Vorlaeufer der heutigen Suchmaschinen war eine im Jahr 1991 an der University of Minnesota massgeblich von Paul Lidner und Mark P. McCahill entwickelte Software namens Gopher. Sie wurde als Campuswide Information System (CWIS) zur Vernetzung der dortigen Informationsserver entwickelt und basiert auf dem Client-Server-Prinzip. Die Struktur von Gopher war fuer den damaligen Zeitpunkt richtungsweisend; alle Gopher-Seiten wurden katalogisiert und konnten vom Gopher-Sucher Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) komplett durchsucht werden. Allerdings verschwand Gopher schon einige Jahre spaeter, vermutlich vor allem wegen der fehlenden Moeglichkeit, Bilder und Grafiken einzubinden.

Mit der Freigabe des WWW-Standards (Webkonferenz, Telefonkonferenz) zur kostenlosen Nutzung 1993 und einer handvoll Webseiten begann die einzigartige Erfolgsgeschichte des weltweiten Datennetzes. Der erste Webcrawler namens The Wanderer wurde im selben Jahr von Mathew Gray programmiert, einem Studenten des Massachusetts Institute of Technology (MIT). The Wanderer durchsuchte und katalogisierte von 1993 bis 1996 halbjaehrlich das zu dieser Zeit noch sehr uebersichtliche Web. Im Juni 1993 wurden insgesamt 130 Websites gezaehlt. Im Oktober des gleichen Jahres wurde Aliweb (Archie-Like Indexing of the Web) entwickelt, bei dem die Betreiber von Webservern eine Beschreibung ihres Dienstes in einer Datei ablegen mussten, um so ein Teil des durchsuchbaren Index zu werden.

Im Dezember 1993 gingen die Suchmaschinen Jumpstation, WorldWideWeb Worm und RBSE Spider ans Netz. Die beiden erstgenannten waren Crawler, die Webseiten nach Titel und URL indexierten. RBSE Spider war die erste Suchmaschine, die ihre Ergebnisse nach einem eigenen Ranking-System sortiert anzeigte. Keine dieser Suchmaschinen bietet heute noch ihre Dienste an.

Im April 1994 ging eine weitere Suchmaschine namens WebCrawler online, die ebenfalls eine nach Ranking sortierte Trefferliste vorweisen konnte. 1995 wurde sie an AOL verkauft, ein Jahr spaeter weiter an Excite. Im Mai begann die Arbeit von Michael Mauldins an der Suchmaschine Lycos, die im Juli 1994 online ging. Neben der Worthaeufigkeit der Suchbegriffe innerhalb der Webseiten durchsuchte Lycos auch die Naehe der Suchbegriffe untereinander im Dokument.

Im selben Jahr riefen David Filo und Jerry Yang, beide damals Studenten des Fachbereichs Elektrotechnik an der Stanford University, eine Sammlung ihrer besten Web-Adressen in einem online verfuegbaren Verzeichnisdienst ins Leben – die Geburtsstunde von Yahoo! (fuer Yet Another Hierarchical Officious Oracle).

Das Jahr 1995 sollte eine bedeutende Trendwende fuer die erst kurze Geschichte der Suchmaschinen werden: In diesem Jahr wurden erstmals Suchmaschinen von kommerziellen Firmen entwickelt. Aus diesen Entwicklungen entstanden Infoseek, Architext (wurde spaeter in Excite umbenannt) und AltaVista. Ein Jahr spaeter wurde Inktomi Corp. gegruendet, deren gleichnamige Suchmaschine zur Grundlage von Hotbot und anderen Suchseiten wurde. Fuehrend in dieser Zeit war der Verzeichnisdienst von Yahoo, aber AltaVista (der Name bedeutet „Blick von oben“, ist aber auch ein Wortspiel den Standort Palo Alto betreffend) wurde zunehmend populaer.

1996 war das Startjahr von zwei Metasuchmaschinen. MetaCrawler erblickte in den USA das Licht der Welt und – in Deutschland – MetaGer. Bis zur Marktdurchdringung von Google galten Metasuchmaschinen als eine der interessantesten Informationsbeschaffer, da der Suchindex der Suchmaschinen ueberwiegend Teilbereiche des Internets enthielt. Metasuchmaschinen leiten die Abfragen des Nutzers parallel an mehrere Suchmaschinen weiter und fassen die Treffer formatiert zusammen.

Ende 1998 veroeffentlichten Larry Page und Sergey Brin ihre innovative Suchmaschinen-Technologie in dem Artikel The Anatomy of a Large-Scale Hypertextual Web Search Engine. Diese Arbeit stellte den Startschuss fuer die bisher erfolgreichste Suchmaschine der Welt dar: Google. Im September 1999 erreichte Google Beta-Status. Die geordnete Benutzeroberflaeche, die Geschwindigkeit und die Relevanz der Suchergebnisse bildeten die Eckpfeiler auf dem Weg, die computererfahrenen Nutzer fuer sich zu gewinnen. Ihnen folgten in den naechsten Jahren bis heute Scharen von neuen Internetbenutzern. Doch Google dominiert den Suchmaschinenmarkt nicht allein, durch spektakulaere Aufkaeufe im Fruehjahr 2003 sicherte sich Yahoo! den Anschluss in diesem Marktsegment.

Seit 2004 gibt es nach einigen Firmenuebernahmen nur mehr drei grosse (bezogen auf die Anzahl erfasster Dokumente) indexbasierte kommerzielle Websuchmaschinen. Neben Google sind dieses Yahoo! Search und Microsofts MSN Search.

Herausforderungen
Suchmaschinen muessen im Betrieb mit verschiedenartigen Probleme umgehen:

Mehrdeutigkeit – Suchanfragen sind oft unpraezise. So kann die Suchmaschine nicht selbstaendig entscheiden, ob beim Begriff Gitarre nach einem Instrument oder Musik gesucht werden soll. Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch Synonyme einbeziehen, damit der Suchbegriff Rechner Linux auch Seiten findet, die statt Rechner das Wort Computer enthalten.
Grammatik – Viele moegliche Treffer gehen verloren, weil der Nutzer nach einer bestimmten grammatikalischen Form eines Suchbegriffes sucht. So findet die Suche nach dem Begriff Auto zwar alle im Suchindex enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene mit dem Begriff Autos. Manche Suchmaschinen erlauben die Suche mittels Wildcards, mit denen sich dieses Problem teilweise umgehen laesst (z. B. beruecksichtigt die Suchanfrage Auto* auch den Begriff Autos oder Automatismus), allerdings muss der Nutzer die Moeglichkeit auch kennen. Weiterhin wird oft Stemming verwendet, dabei werden Woerter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach aehnlichen Wortformen moeglich (schoene Blumen findet so auch schoener Blume), ausserdem wird die Anzahl der Begriffe im Index reduziert. Eine weitere Moeglichkeit ist der Einsatz statistischer Verfahren, mit denen die Suchmaschine die Anfrage z. B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten danach bewertet, ob mit der Suche nach Auto reparieren auch die Suche nach Autos reparatur oder Automatismus repariert gemeint gewesen sein koennte.
Datenmenge – Das Web waechst schneller als die Suchmaschinen mit der derzeitigen Technik indexieren koennen. Dabei ist der den Suchmaschinen unbekannte Teil – das sogenannte Deep Web – noch gar nicht eingerechnet.
Aktualitaet – Viele Webseiten werden haeufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln (Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht laenger als Ergebnis anzubieten. Das regelmaessige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt grosse Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers.
Spam – Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu ueberlisten, um eine bessere Platzierung fuer gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
Technik – Suchen auf sehr grossen Datenmengen so umzusetzen, dass die Verfuegbarkeit hoch ist (trotz Hardware-Ausfaellen und Netzengpaessen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt grosse Anforderungen an den Suchmaschinenbetreiber. Systeme muessen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, welches die komplette Suchmaschinenfunktionalitaet anbietet.
Recht – Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Laendern stehen. Da die Gesetzgebungen der verschiedenen Laender unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschliessen. Die deutschen Internet-Suchmaschinen wollen jugendgefaehrdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen.
14.7.06 17:43
 


bisher 0 Kommentar(e)     TrackBack-URL

Name:
Email:
Website:
E-Mail bei weiteren Kommentaren
Informationen speichern (Cookie)



 Smileys einfügen



Verantwortlich für die Inhalte ist der Autor. Dein kostenloses Blog bei myblog.de! Datenschutzerklärung
Werbung