Die Web Robots Seiten


About / robots.txt

Kurz gesagt

Websitebesitzer verwenden die / robots.txt-Datei, um Anweisungen zu gibenihre Website für Webroboter; Dies wird als Robots ExclusionProtocol bezeichnet.

User-agent: *Disallow: /

Bei der Verwendung von /robots gibt es zwei wichtige Überlegungen.txt:

  • Roboter können Ihre /Roboter ignorieren.txt. Vor allem Malware-Roboter, die das Internet nach Sicherheitslücken durchsuchen, und E-Mail-Adressen, die von Spammern genutzt werden, werden nicht beachtet.
  • die / Roboter.txt-Datei ist eine öffentlich verfügbare Datei., Jeder kann sehen, welche sectionsof Server Sie don “ t wollen Roboter zu verwenden.

Versuchen Sie also nicht, / robots zu verwenden.txt zum Ausblenden von Informationen.

Siehe auch:

  • Kann ich nur schlechte Roboter blockieren?
  • Warum hat dieser Roboter meine /Roboter ignoriert?txt?
  • Was sind die Auswirkungen von /robots auf die Sicherheit?txt?

Die Details

Die / Roboter.es handelt sich um einen De-facto-Standard, der keiner anderen Behörde gehört.Es gibt zwei historische Beschreibungen:

  • das Original ist ein Standard für RobotExclusion Dokument.,
  • 1997-Internet-Draft-Spezifikation Eine Methode für WebRobots Control

darüber hinaus gibt es externe Ressourcen:

  • HTML4.01-Spezifikation, Anhang B. 4.1
  • Wikipedia – Robots-Exclusion-Standard

Der /die Roboter.txt-standard wird nicht aktiv entwickelt.Sehen Sie, was über die weitere Entwicklung von / Roboter.txt?für mehr Diskussion.

Der Rest dieser Seite gibt einen Überblick über die Verwendung von / robots.txt onyour server, mit einigen einfachen recipes.To erfahren Sie mehr siehe auch die FAQ.

So erstellen Sie ein / Roboter.,txt-Datei

Wo es zu setzen

Die kurze Antwort: im Top-Level-Verzeichnis Ihres Webservers.

Die längere Antwort:

Wenn ein Roboter nach den „/Robotern “ sucht.txt „Datei für URL, es entfernt die txt-Komponente von der URL (alles vom ersten einzelnen Schrägstrich) und setzt“/“.txt“ an seiner Stelle.

Als Websitebesitzer müssen Sie es also an der richtigen Stelle auf Ihrem Webserver ablegen, damit die resultierende URL funktioniert. Normalerweise ist das der gleiche Ort, wo Sie Ihre Website“s main „Index setzen.html“ welcomepage., Wo genau das ist und wie man die Datei dort ablegt, hängt davon abihre Webserver-Software.

Denken Sie daran, alle Kleinbuchstaben für den Dateinamen zu verwenden: „Roboter.txt“, nicht „Roboter.TXT.

Siehe auch:

  • Mit welchem Programm soll ich /Roboter erstellen?txt?
  • Wie verwende ich / robots?txt auf einem virtuellen host?
  • Wie verwende ich / robots?txt auf einem gemeinsamen Host?

Was in sie setzen

Die “ / Roboter.txt “ Datei ist eine Textdatei mit einem oder mehreren Datensätzen.Enthält normalerweise einen einzelnen Datensatz wie folgt:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

In diesem Beispiel sind drei Verzeichnisse ausgeschlossen.,

Beachten Sie, dass Sie für jedes URL-Präfix, das Sie ausschließen möchten, eine separate Zeile „Disallow“ benötigen-Sie können nicht sagen „Disallow: /cgi-bin/ /tmp/“ in einer Zeile. Außerdem haben Sie möglicherweise keine Leerzeilen in einem Datensatz, da sie zum Abgrenzen mehrerer Datensätze verwendet werden.

Was Sie ausschließen möchten, hängt von Ihrem server. Alles, was nicht ausdrücklich verboten ist, gilt als Fairgame abzurufen., Hier folgen einige Beispiele:

Um alle Roboter vom gesamten Server auszuschließen
User-agent: *Disallow: /
Um allen Robotern den vollständigen Zugriff zu ermöglichen
User-agent: *Disallow:

(oder erstellen Sie einfach ein leeres “ /Roboter.verwenden)

Um alle Roboter von einem Teil des Servers auszuschließen
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Um einen einzelnen Roboter auszuschließen
User-agent: BadBotDisallow: /
Damit ein einzelner Roboter
User-agent: GoogleDisallow:User-agent: *Disallow: /
Alle Dateien mit Ausnahme einer

User-agent: GoogleDisallow:User-agent: *Disallow: /
h5 > Dies ist derzeit etwas umständlich, da es kein Feld „Zulassen“ gibt., Theeasy Weg ist, um alle Dateien zu erlaubt sein, in eine separatedirectory, sagen Sie „Zeug“, und lassen Sie das eine Datei in der Ebene abovethis Verzeichnis:

User-agent: *Disallow: /~joe/stuff/

Alternativ können Sie explizit verbieten die sind alle nicht zugelassenen Seiten:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.