Om /roboter.txt
I et nøtteskall
nettsted eiere bruk /roboter.txt-fil for å gi instruksjoner abouttheir nettstedet til web-roboter; dette kalles Roboter ExclusionProtocol.
User-agent: *Disallow: /
Det er to viktige hensyn når du bruker /roboter.txt:
- roboter kan ignorere dine /roboter.txt. Spesielt malware roboter som søker theweb for sikkerhetsproblemer, og e-postadresse skurtreskere brukes av spammerswill betaler ingen oppmerksomhet.
- /roboter.txt-filen er et offentlig tilgjengelig arkiv., Hvem som helst kan se hva sectionsof din server du don»t vil roboter til bruk.
Så don»t prøv å bruke /roboter.txt-for å skjule informasjon.
Se også:
- Kan jeg blokkere bare dårlige roboter?
- Hvorfor gjorde denne roboten ignorere min /roboter.txt?
- Hva er de sikkerhetsmessige konsekvenser av /roboter.txt?
detaljer
/roboter.txt er en de-facto standard, og er ikke eid av anystandards kroppen.Det er to historiske beskrivelser:
- den opprinnelige 1994 En Standard for RobotExclusion dokumentet.,
- en 1997 Internett-Utkast-spesifikasjon En Metode for WebRobots Kontroll
I tillegg er det eksterne ressurser:
- HTML4.01 spesifikasjon, Vedlegg B. 4.1
- Wikipedia – Robots Exclusion Standard
/roboter.txt-standarden er ikke aktivt utviklet.Se Hva om videre utvikling av /roboter.txt?for mer diskusjon.
resten av denne siden gir en oversikt over hvordan du bruker /roboter.txt onyour server, med noen enkle oppskrifter.For å lære mer, se også FAQ-en.
Hvordan å lage en /roboter.,txt-fil
Der å sette dem på
Det korte svaret: i top-level katalogen på din web server.
lengre svaret:
Når en robot ser for «/roboter.txt» fil URL, det strimler thepath komponent fra URL-adresse (alt fra den første singelen skråstrek),og setter «/roboter.txt» i stedet.
Så, som et nettsted eier du trenger for å sette det på rett sted på yourweb server for at NETTADRESSEN til å fungere. Vanligvis at det er det sameplace hvor du setter din web-site»s main «indeksen.html» welcomepage., Nøyaktig hvor det er, og hvordan du skal legge det der, avhenger onyour web server programvare.
Husk å bruke små bokstaver for filnavn:»roboter.txt», ikke «Roboter.TXT.
Se også:
- Hvilket program skal jeg bruke til å opprette /roboter.txt?
- Hvordan kan jeg bruke /roboter.txt på en virtuell vert?
- Hvordan kan jeg bruke /roboter.txt på en felles verten?
Hva du skal legge i det
Den «/roboter.txt» fil er en tekstfil, med én eller flere oppføringer.Vanligvis inneholder en enkel post som ser ut som dette:
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
I dette eksempelet, tre kataloger er utelukket.,
Merk at du trenger en egen «Disallow» linje for hver URL prefiks youwant å ekskludere, du kan ikke si «Disallow: /cgi-bin/ /tmp/» på asingle linje. Også, du kan ikke ha tomme linjer i en oppføring, som theyare brukes til å avgrense flere poster.
Hva du ønsker å ekskludere kommer an på din server. Alt som ikke er eksplisitt forbudt regnes som fairgame å hente., Her følger noen eksempler:
Hvis du vil utelate alle roboter fra hele serveren
User-agent: *Disallow: /
på for Å tillate alle roboter full tilgang
User-agent: *Disallow:
(eller bare opprette en tom «/roboter.txt» – filen, eller du don»t bruk på alle)
Hvis du vil utelate alle roboter fra en del av server
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Hvis du vil utelate en eneste roboten
User-agent: BadBotDisallow: /
for Å tillate en enkel robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
Hvis du vil utelate alle filene, bortsett fra ett
Dette er for øyeblikket litt vanskelig, så det er ingen «Tillat» – feltet., Theeasy måte er å sette alle filene skal være forbudt i en separatedirectory, si «ting», og la én fil i nivå abovethis katalog:
User-agent: *Disallow: /~joe/stuff/
Alternativt kan du eksplisitt forbyr alle forbudt sider:
User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html