Web Robots Pages


om / robotar.txt

i ett nötskal

webbplatsägare använder /robotarna.txt-fil för att ge instruktioner omderas webbplats till webbrobotar; detta kallas Robots ExclusionProtocol.

User-agent: *Disallow: /

det finns två viktiga överväganden vid användning av / robotar.txt:

  • robotar kan ignorera dina / robotar.txt. Speciellt malware robotar som skannarwebbplatsen för säkerhetsproblem,och e-postadress skördare som används av spammare kommer inte att uppmärksamma.
  • de /robotarna.txt-filen är en offentligt tillgänglig fil., Vem som helst kan se vilka delar av din server du inte vill att robotar ska använda.

så försök inte använda / robotar.txt för att dölja information.

Se även:

  • kan jag blockera bara dåliga robotar?
  • Varför ignorerade den här roboten mina /robotar.txt?
  • vilka är säkerhetskonsekvenserna av /robotar.txt?

detaljerna

/ robotarna.txt är en de-facto standard, och ägs inte av någonstandards kropp.Det finns två historiska beskrivningar:

  • den ursprungliga 1994 En Standard för RobotExclusion dokument.,
  • a 1997 Internet Draft specification a Method for WebRobots Control

dessutom finns externa resurser:

  • HTML4.01 specification, Appendix B. 4.1
  • Wikipedia – Robots Exclusion Standard

The / robots.Txt-standarden är inte aktivt utvecklad.Se vad om vidareutveckling av / robotar.txt?för mer diskussion.

resten av denna sida ger en översikt över hur man använder / robotar.txt onyour server, med några enkla recipes.To Läs mer Se även FAQ.

hur man skapar a / robotar.,txt-fil

var du ska lägga den

det korta svaret: i toppnivåkatalogen på din webbserver.

det längre svaret:

När en robot letar efter ” / robotarna.txt ” fil för URL, det remsor thepath komponent från URL (allt från den första enda snedstreck), och sätter ”/robotar.txt ” på sin plats.

så, som en webbplatsägare måste du lägga den på rätt plats på dinwebbserver för att den resulterande webbadressen ska fungera. Vanligtvis är det samma plats där du sätter din webbplats ”s main” index.html” welcomepage., Var exakt det är och hur man lägger filen där beror pådin webbserver programvara.

Kom ihåg att använda alla gemener för filnamnet:”robotar.txt”, inte ” robotar.TXT.

Se även:

  • vilket program ska jag använda för att skapa / robotar.txt?
  • Hur använder jag /robotar.txt på en virtuell värd?
  • Hur använder jag /robotar.txt på en delad värd?

vad ska man lägga i det

” / robotarna.txt ” fil är en textfil, med en eller flera poster.Vanligtvis innehåller en enda post som ser ut så här:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

i det här exemplet är tre kataloger uteslutna.,

Observera att du behöver en separat ”Tillåt”-linje för varje URL-prefix som du vill utesluta-du kan inte säga ”Tillåt:/ cgi-bin // tmp /” på asingle-linjen. Du kanske inte har tomma rader i en post, eftersom deanvänds för att avgränsa flera poster.

vad du vill utesluta beror på din server. Allt som inte uttryckligen inte är tillåtet anses fairgame att hämta., Här följer några exempel:

för att utesluta alla robotar från hela servern
User-agent: *Disallow: /
för att tillåta alla robotar fullständig åtkomst
User-agent: *Disallow:

(eller bara skapa en tom ” /robotar.txt” file, or don”t use one at all)

för att utesluta alla robotar från en del av servern
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
för att utesluta en enda robot
User-agent: BadBotDisallow: /
för att tillåta en enda robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
för att utesluta alla filer utom en

det här är för närvarande lite besvärligt, eftersom det inte finns något ”tillåt” – fält., Theeasy sätt är att sätta alla filer som ska vara tillåtet i en separatedirectory, säga ”saker”, och lämnar en fil i nivå abovethis katalog:

User-agent: *Disallow: /~joe/stuff/

Alternativt kan du uttryckligen förbjuda alla otillåtna sidor:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *