De Webrobots pagina ‘ s


over /robots.txt

In een notendop

website-eigenaren gebruiken de / robots.txt-bestand om instructies over hun site te geven aan webrobots; dit heet het Robots ExclusionProtocol.

User-agent: *Disallow: /

Er zijn twee belangrijke overwegingen bij het gebruik van /robots.txt:

  • robots kunnen uw /robots negeren.txt. Vooral malware robots die het web scannen op beveiligingsproblemen, en e-mailadres harvesters gebruikt door spammerswill geen aandacht besteden.
  • de / robots.txt-bestand is een publiek beschikbaar bestand., Iedereen kan zien welke secties van je server je niet wilt dat robots gebruiken.

probeer dus niet /robots te gebruiken.txt om informatie te verbergen.

zie ook:

  • kan ik alleen slechte robots blokkeren?
  • Waarom heeft deze robot mijn /robots genegeerd.txt?
  • Wat zijn de veiligheidsimplicaties van / robots.txt?

de details

de / robots.txt is een de-facto standaard, en is niet in het bezit van een standaard lichaam.Er zijn twee historische beschrijvingen:

  • het oorspronkelijke 1994 A Standard for RobotExclusion document.,
  • A 1997 Internet Draft specification a Method for WebRobots Control

daarnaast zijn er externe bronnen:

  • HTML4. 01 specificatie, Appendix B. 4.1
  • Wikipedia – Robots Exclusion Standard

The / robots.txt-standaard wordt niet actief ontwikkeld.Zie hoe het zit met de verdere ontwikkeling van / robots.txt?voor meer discussie.

de rest van deze pagina geeft een overzicht van het gebruik van / robots.txt op uw server, met enkele eenvoudige recipes.To meer informatie zie ook de FAQ.

Hoe maak je een / robots.,txt-bestand

waar moet het worden geplaatst

het korte antwoord: in de top-level directory van uw webserver.

Het langere antwoord:

wanneer een robot zoekt naar de ” / robots.txt ” bestand voor URL, Het verwijdert het pad component van de URL (alles van de eerste enkele slash),en zet “/robots.txt ” in zijn plaats.

dus, als eigenaar van een website moet u het op de juiste plaats op uwweb server zetten om die resulterende URL te laten werken. Meestal is dat de zelfde plaats waar u uw website”s belangrijkste “index.”Welkom pagina., Waar dat precies is, en hoe het bestand daar te zetten, hangt af van uw webserver software.

vergeet niet alle kleine letters te gebruiken voor de bestandsnaam: “robots.txt”, niet ” Robots.TXT.

zie ook:

  • welk programma moet ik gebruiken om / robots aan te maken.txt?
  • Hoe gebruik ik / robots.txt op een virtuele host?
  • Hoe gebruik ik / robots.txt op een gedeelde host?

wat er in te zetten

de ” / robots.txt ” bestand is een tekstbestand, met een of meer records.Gewoonlijk bevat een enkele record die er zo uitziet:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

in dit voorbeeld zijn drie mappen uitgesloten.,

merk op dat je een aparte “Disallow” regel nodig hebt voor elk URL prefix dat je wilt uitsluiten — je kunt niet “Disallow: /cgi-bin/ /tmp/” zeggen op een enkele regel. Ook kunt u geen lege regels in een record hebben, omdat ze worden gebruikt om meerdere records af te bakenen.

wat u wilt uitsluiten hangt af van uw server. Alles wat niet expliciet verboden wordt beschouwd als fairgame op te halen., Hier volgen enkele voorbeelden:

om alle robots van de gehele server uit te sluiten
User-agent: *Disallow: /
om alle robots volledige toegang toe te staan
User-agent: *Disallow:

(of maak gewoon een lege “/robots.txt” file, or don”t use one at all)

to allow all robots from part of the server
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
to exclude a single robot
User-agent: BadBotDisallow: /
to allow a single robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
om alle bestanden uit te sluiten behalve één

is dit momenteel een beetje lastig, omdat er geen “toestaan” veld is., De makkelijkste manier is om alle niet-toegestane bestanden in een aparte map te zetten, “stuff” te zeggen, en het ene bestand in het niveau boven deze map te laten:

User-agent: *Disallow: /~joe/stuff/

als alternatief kunt u expliciet Alle Niet-toegestane pagina ’s verbieden:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *