over /robots.txt
In een notendop
website-eigenaren gebruiken de / robots.txt-bestand om instructies over hun site te geven aan webrobots; dit heet het Robots ExclusionProtocol.
User-agent: *Disallow: /
Er zijn twee belangrijke overwegingen bij het gebruik van /robots.txt:
- robots kunnen uw /robots negeren.txt. Vooral malware robots die het web scannen op beveiligingsproblemen, en e-mailadres harvesters gebruikt door spammerswill geen aandacht besteden.
- de / robots.txt-bestand is een publiek beschikbaar bestand., Iedereen kan zien welke secties van je server je niet wilt dat robots gebruiken.
probeer dus niet /robots te gebruiken.txt om informatie te verbergen.
zie ook:
- kan ik alleen slechte robots blokkeren?
- Waarom heeft deze robot mijn /robots genegeerd.txt?
- Wat zijn de veiligheidsimplicaties van / robots.txt?
de details
de / robots.txt is een de-facto standaard, en is niet in het bezit van een standaard lichaam.Er zijn twee historische beschrijvingen:
- het oorspronkelijke 1994 A Standard for RobotExclusion document.,
- A 1997 Internet Draft specification a Method for WebRobots Control
daarnaast zijn er externe bronnen:
- HTML4. 01 specificatie, Appendix B. 4.1
- Wikipedia – Robots Exclusion Standard
The / robots.txt-standaard wordt niet actief ontwikkeld.Zie hoe het zit met de verdere ontwikkeling van / robots.txt?voor meer discussie.
de rest van deze pagina geeft een overzicht van het gebruik van / robots.txt op uw server, met enkele eenvoudige recipes.To meer informatie zie ook de FAQ.
Hoe maak je een / robots.,txt-bestand
waar moet het worden geplaatst
het korte antwoord: in de top-level directory van uw webserver.
Het langere antwoord:
wanneer een robot zoekt naar de ” / robots.txt ” bestand voor URL, Het verwijdert het pad component van de URL (alles van de eerste enkele slash),en zet “/robots.txt ” in zijn plaats.
dus, als eigenaar van een website moet u het op de juiste plaats op uwweb server zetten om die resulterende URL te laten werken. Meestal is dat de zelfde plaats waar u uw website”s belangrijkste “index.”Welkom pagina., Waar dat precies is, en hoe het bestand daar te zetten, hangt af van uw webserver software.
vergeet niet alle kleine letters te gebruiken voor de bestandsnaam: “robots.txt”, niet ” Robots.TXT.
zie ook:
- welk programma moet ik gebruiken om / robots aan te maken.txt?
- Hoe gebruik ik / robots.txt op een virtuele host?
- Hoe gebruik ik / robots.txt op een gedeelde host?
wat er in te zetten
de ” / robots.txt ” bestand is een tekstbestand, met een of meer records.Gewoonlijk bevat een enkele record die er zo uitziet:
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
in dit voorbeeld zijn drie mappen uitgesloten.,
merk op dat je een aparte “Disallow” regel nodig hebt voor elk URL prefix dat je wilt uitsluiten — je kunt niet “Disallow: /cgi-bin/ /tmp/” zeggen op een enkele regel. Ook kunt u geen lege regels in een record hebben, omdat ze worden gebruikt om meerdere records af te bakenen.
wat u wilt uitsluiten hangt af van uw server. Alles wat niet expliciet verboden wordt beschouwd als fairgame op te halen., Hier volgen enkele voorbeelden:
om alle robots van de gehele server uit te sluiten
User-agent: *Disallow: /
om alle robots volledige toegang toe te staan
User-agent: *Disallow:
(of maak gewoon een lege “/robots.txt” file, or don”t use one at all)
to allow all robots from part of the server
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
to exclude a single robot
User-agent: BadBotDisallow: /
to allow a single robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
om alle bestanden uit te sluiten behalve één
is dit momenteel een beetje lastig, omdat er geen “toestaan” veld is., De makkelijkste manier is om alle niet-toegestane bestanden in een aparte map te zetten, “stuff” te zeggen, en het ene bestand in het niveau boven deze map te laten:
User-agent: *Disallow: /~joe/stuff/
als alternatief kunt u expliciet Alle Niet-toegestane pagina ’s verbieden:
User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html