SELFHTML Forums-Auslese - Sonstiges

SELFHTML Forums-Auslese Sonstiges
	Forums-Auslese Suchmaschinen
	Suchmaschine für die eigene Homepage Gehören HTML-Tags in die Meta-Angaben für Suchmaschinen? robots.txt: einzelne Dateien ausschließen Umleitung von Suchmaschinen mit meta-Tag Einträge aus Suchmaschinen entfernen Verwandte Beiträge

Suchmaschine für die eigene Homepage

Basierend auf einem Forums-Beitrag vom 10.12.1998 von:
Stefan Karzauninkat, karzauninkat@suchfibel.de
Stefan Bion, s.bion@ndh.net

Etliche Überlegungen, eine Reihe kostenloser und kommerzieller Software, Infos zu den Grundlagen und Möglichkeiten einer eigenen Suchmaschine finden Sie in der Suchfibel, im Kapitel "Persönliche Suchmaschine, Suchen auf der eigenen Website" ( http://www.suchfibel.de/7personl/7frame4.htm).

Ein kostenloses Such-Skript mit Namen "Intermediate Search" finden Sie auch bei "Fluid Dynamics" ( http://www.xav.com/scripts/search/). Das Skript ist einfach zu installieren und erlaubt auch boolsche Operatoren, Groß-/Kleinschreibung usw. (wie bei AltaVista), was bei kleineren Websites durchaus ausreichen sollte. Ein Anwendungsbeispiel können Sie auf http://www.vtf.de/search.htm sehen.

Gehören HTML-Tags in die Meta-Angaben für Suchmaschinen?

Basierend auf Forums-Beiträgen vom 09.11.1998 von:
Stefan Karzauninkat, karzauninkat@suchfibel.de
Stefan R. Müller, stefan@blinde-kuh.de
und auf Forums-Beiträgen vom 11. und 12.11.1998
Stefan R. Müller, stefan@blinde-kuh.de

Die meisten HTML-Tags (wenn nicht sogar alle) stehen in der Stoppwortliste der Suchmaschinen: sie werden ignoriert, eine Suche nach ihnen ist nicht möglich, da sie im Quelltext einer Web-Seite zu oft vorkommen. Zudem fangen die meisten Indexer erst bei 3 Zeichen zu suchen an, viele Tags wie <p> oder <i> würden demnach außen vor bleiben.

Erschwerend kommt hinzu, dass die Robots der verschiedenen Suchdienste unterschiedliche Parsingmethoden anwenden (Parsing = Analysieren). So bringt die Möglichkeit, HTML-eigene Zeichen zu maskieren, keine zuverlässigen Ergebnisse, da nur einige Robots die Sonderzeichen interpretieren.

Wie die Robots bei ihrer Suche vorgehen, wird hier am Beispiel der Blinden Kuh, einer Suchmaschine für Kinder, deutlich:

Löschen aller Kommentare in der Form:  und <! ... >
Suchen des Größerzeichens: >
Suchen des davor liegenden Kleinerzeichens: <
Tags herausschneiden und nach hrefs untersuchen (für das Ranking)
Metatags interpretieren: <meta name="xxx" content="yyy" language="zz">
Eventuell noch Bilder, Applets, usw. entdecken (z.B. für die alt="..."-Angaben in den <img>-Tags)
Titel herausschneiden: <title>...</title>
Body heraustrennen: <body>...</body>
Erste Überschrift suchen: <h(n)>...</h(n)>
Alle Tags löschen, der Rest ist Text für eine eventuelle Volltextsuche

Eine Möglichkeit dafür, dass HTML-Tags dennoch gefunden werden, besteht darin, die Tags im Titel, in den ersten Überschriften oder in den ersten Textzeilen der zu indexierenden Web-Seite zu notieren.

robots.txt: einzelne Dateien ausschließen

Basierend auf einem Forums-Beitrag vom 24.01.1999 von:
Stefan Karzauninkat, karzauninkat@suchfibel.de

Im Rootverzeichnis (Hauptverzeichnis) können keine einzelnen Dateien vor dem Indizieren durch einen Suchmaschinenrobot ausgeschlossen werden. Root geht nicht, da der Robot dort ansetzt und die ersten Dokumente schon gescannt hat, bevor er auf die robots.txt stößt. Einzelne Dateien lassen sich ausschließen, indem man sie in ein Unterverzeichnis speichert und dann in die robots.txt einträgt.

http://info.webcrawler.com/mak/projects/robots/exclusion-admin.html
Web Server Administrator's Guide to the Robots Exclusion Protocol

User-agent: *
Disallow: /joe/private.html
Disallow: /joe/foo.html
Disallow: /joe/bar.html

Umleitung von Suchmaschinen mit meta-Tag

Basierend auf einem Forums-Beitrag vom 01.02.1999 von:
Stefan Karzauninkat, karzauninkat@suchfibel.de

Die meisten Suchmaschinen ignorieren das meta-Tag <meta http-equiv="refresh" content="...">. Einige Suchmaschinen stufen sogar Seiten, die dieses meta-Tag enthalten, als Spam, weil einige Webmaster zweifelhaften Rufes viele Seiten anmelden, bei denen dieses meta-Tag immer auf eine und die selbe Einstiegsseite zeigt. In diesem Fall wird weder die Seite indexiert, die das meta-Tag enthält, noch diejenige, auf die der refresh verweist.

Die einfachste Möglichkeit besteht darin, einen Verweis im body-Bereich einzufügen. Diesem Link wird der Robot anstandslos folgen.

Weitere Informationen zum <meta http-equiv="refresh" content="...">, können Sie im Abschnitt Für Browser: Automatische Weiterleitung zu anderer Adresse (Forwarding) nachlesen.

Einträge aus Suchmaschinen entfernen

Basierend auf einem Forums-Beitrag vom 28.05.1999 von:
André Laugks, Andre.Laugks@netcologne.de

Um einen URL aus einem Suchmaschinenindex zu entfernen, leiten Sie den Robot auf eine leere Seite, die sich unter dem zu entfernenden URL befindet. Die Seite sollte weder Titel, noch meta-Tags noch irgendeinen Inhalt enthalten. Der Robot wird die Seite indizieren wollen, doch da sich auf der Seite nichts befindet, kann er sie auch nirgends einordnen. Somit wird der URL bei künftigen Suchanfragen nicht mehr unter den Suchergebnissen angezeigt.

Einige Suchmaschinen bieten auch die Möglichkeit an, Seiten zu warten. In diesem Fall entfernen Sie die Seite vom Server. Geben Sie danach den URL der zu löschenden Seite unter "Add URL" an. Ihnen wird nun mitgeteilt, das sich dieser URL schon in der Datenbank der Suchmaschine befindet und ob die Seite gewartet werden soll. Wenn der Robot unter dem betreffenden URL nichts findet, wird der Eintrag aus der Datenbank gelöscht.


weiter:	Browser: Funktionen und Eigenarten
zurück:	Projekt-Management - Wissenswertes

SELFHTML Forums-Auslese Sonstiges

Forums-AusleseSuchmaschinen

Suchmaschine für die eigene Homepage

Gehören HTML-Tags in die Meta-Angaben für Suchmaschinen?

robots.txt: einzelne Dateien ausschließen

Umleitung von Suchmaschinen mit meta-Tag

Einträge aus Suchmaschinen entfernen

Verwandte Beiträge

Forums-Auslese
Suchmaschinen