SELFHTML

Forums-Auslese
Suchmaschinen

Diese Seite ist ein Dokument mit Informationstext

nach unten Suchmaschine für die eigene Homepage
nach unten Gehören HTML-Tags in die Meta-Angaben für Suchmaschinen?
nach unten Neuer Beitrag in der Forums-Auslese robots.txt: einzelne Dateien ausschließen
nach unten Neuer Beitrag in der Forums-Auslese Umleitung von Suchmaschinen mit meta-Tag
nach unten Neuer Beitrag in der Forums-Auslese Einträge aus Suchmaschinen entfernen
nach unten Verwandte Beiträge

nach unten 

Suchmaschine für die eigene Homepage

Basierend auf einem Forums-Beitrag vom 10.12.1998 von:
E-Mail Stefan Karzauninkat, karzauninkat@suchfibel.de
E-Mail Stefan Bion, s.bion@ndh.net

Etliche Überlegungen, eine Reihe kostenloser und kommerzieller Software, Infos zu den Grundlagen und Möglichkeiten einer eigenen Suchmaschine finden Sie in der Suchfibel, im Kapitel "Persönliche Suchmaschine, Suchen auf der eigenen Website" (deutschsprachige Seite http://www.suchfibel.de/7personl/7frame4.htm).

Ein kostenloses Such-Skript mit Namen "Intermediate Search" finden Sie auch bei "Fluid Dynamics" (englischsprachige Seite http://www.xav.com/scripts/search/). Das Skript ist einfach zu installieren und erlaubt auch boolsche Operatoren, Groß-/Kleinschreibung usw. (wie bei AltaVista), was bei kleineren Websites durchaus ausreichen sollte. Ein Anwendungsbeispiel können Sie auf deutschsprachige Seite http://www.vtf.de/search.htm sehen.

nach obennach unten 

Gehören HTML-Tags in die Meta-Angaben für Suchmaschinen?

Basierend auf Forums-Beiträgen vom 09.11.1998 von:
E-Mail Stefan Karzauninkat, karzauninkat@suchfibel.de
E-Mail Stefan R. Müller, stefan@blinde-kuh.de
und auf Forums-Beiträgen vom 11. und 12.11.1998
E-Mail Stefan R. Müller, stefan@blinde-kuh.de

Die meisten HTML-Tags (wenn nicht sogar alle) stehen in der Stoppwortliste der Suchmaschinen: sie werden ignoriert, eine Suche nach ihnen ist nicht möglich, da sie im Quelltext einer Web-Seite zu oft vorkommen. Zudem fangen die meisten Indexer erst bei 3 Zeichen zu suchen an, viele Tags wie <p> oder <i> würden demnach außen vor bleiben.

Erschwerend kommt hinzu, dass die Robots der verschiedenen Suchdienste unterschiedliche Parsingmethoden anwenden (Parsing = Analysieren). So bringt die Möglichkeit, Seite HTML-eigene Zeichen zu maskieren, keine zuverlässigen Ergebnisse, da nur einige Robots die Sonderzeichen interpretieren.

Wie die Robots bei ihrer Suche vorgehen, wird hier am Beispiel der deutschsprachige Seite Blinden Kuh, einer Suchmaschine für Kinder, deutlich:

Eine Möglichkeit dafür, dass HTML-Tags dennoch gefunden werden, besteht darin, die Tags im Titel, in den ersten Überschriften oder in den ersten Textzeilen der zu indexierenden Web-Seite zu notieren.

nach obennach unten

robots.txt: einzelne Dateien ausschließen

Basierend auf einem Forums-Beitrag vom 24.01.1999 von:
E-Mail Stefan Karzauninkat, karzauninkat@suchfibel.de

Im Rootverzeichnis (Hauptverzeichnis) können keine einzelnen Dateien vor dem Indizieren durch einen Suchmaschinenrobot ausgeschlossen werden. Root geht nicht, da der Robot dort ansetzt und die ersten Dokumente schon gescannt hat, bevor er auf die robots.txt stößt. Einzelne Dateien lassen sich ausschließen, indem man sie in ein Unterverzeichnis speichert und dann in die robots.txt einträgt.

englischsprachige Seite http://info.webcrawler.com/mak/projects/robots/exclusion-admin.html
Web Server Administrator's Guide to the Robots Exclusion Protocol

User-agent: *
Disallow: /joe/private.html
Disallow: /joe/foo.html
Disallow: /joe/bar.html

nach obennach unten

Umleitung von Suchmaschinen mit meta-Tag

Basierend auf einem Forums-Beitrag vom 01.02.1999 von:
E-Mail Stefan Karzauninkat, karzauninkat@suchfibel.de

Die meisten Suchmaschinen ignorieren das meta-Tag <meta http-equiv="refresh" content="...">. Einige Suchmaschinen stufen sogar Seiten, die dieses meta-Tag enthalten, als Spam, weil einige Webmaster zweifelhaften Rufes viele Seiten anmelden, bei denen dieses meta-Tag immer auf eine und die selbe Einstiegsseite zeigt. In diesem Fall wird weder die Seite indexiert, die das meta-Tag enthält, noch diejenige, auf die der refresh verweist.

Die einfachste Möglichkeit besteht darin, einen Verweis im body-Bereich einzufügen. Diesem Link wird der Robot anstandslos folgen.

Weitere Informationen zum <meta http-equiv="refresh" content="...">, können Sie im Abschnitt  Für Browser: Automatische Weiterleitung zu anderer Adresse (Forwarding) nachlesen.

nach obennach unten

Einträge aus Suchmaschinen entfernen

Basierend auf einem Forums-Beitrag vom 28.05.1999 von:
E-Mail André Laugks, Andre.Laugks@netcologne.de

Um einen URL aus einem Suchmaschinenindex zu entfernen, leiten Sie den Robot auf eine leere Seite, die sich unter dem zu entfernenden URL befindet. Die Seite sollte weder Titel, noch meta-Tags noch irgendeinen Inhalt enthalten. Der Robot wird die Seite indizieren wollen, doch da sich auf der Seite nichts befindet, kann er sie auch nirgends einordnen. Somit wird der URL bei künftigen Suchanfragen nicht mehr unter den Suchergebnissen angezeigt.

Einige Suchmaschinen bieten auch die Möglichkeit an, Seiten zu warten. In diesem Fall entfernen Sie die Seite vom Server. Geben Sie danach den URL der zu löschenden Seite unter "Add URL" an. Ihnen wird nun mitgeteilt, das sich dieser URL schon in der Datenbank der Suchmaschine befindet und ob die Seite gewartet werden soll. Wenn der Robot unter dem betreffenden URL nichts findet, wird der Eintrag aus der Datenbank gelöscht.

nach obennach unten 

Verwandte Beiträge

Lesen Sie auch die mit dem Thema "Suchmaschinen" verwandten Beiträge:
Seite Anzeige eines Suchmaschinentreffers im Frameset erzwingen und
Seite Frames und Suchmaschinen.

nach oben
weiter:Weiter Seite Browser: Funktionen und Eigenarten
zurück:Zurück Seite Projekt-Management - Wissenswertes
 

© 2000 Seite das Redaktionsteam