Web-Roboter Sider


Om /roboter.txt

I et nøtteskall

nettsted eiere bruk /roboter.txt-fil for å gi instruksjoner abouttheir nettstedet til web-roboter; dette kalles Roboter ExclusionProtocol.

User-agent: *Disallow: /

Det er to viktige hensyn når du bruker /roboter.txt:

  • roboter kan ignorere dine /roboter.txt. Spesielt malware roboter som søker theweb for sikkerhetsproblemer, og e-postadresse skurtreskere brukes av spammerswill betaler ingen oppmerksomhet.
  • /roboter.txt-filen er et offentlig tilgjengelig arkiv., Hvem som helst kan se hva sectionsof din server du don»t vil roboter til bruk.

Så don»t prøv å bruke /roboter.txt-for å skjule informasjon.

Se også:

  • Kan jeg blokkere bare dårlige roboter?
  • Hvorfor gjorde denne roboten ignorere min /roboter.txt?
  • Hva er de sikkerhetsmessige konsekvenser av /roboter.txt?

detaljer

/roboter.txt er en de-facto standard, og er ikke eid av anystandards kroppen.Det er to historiske beskrivelser:

  • den opprinnelige 1994 En Standard for RobotExclusion dokumentet.,
  • en 1997 Internett-Utkast-spesifikasjon En Metode for WebRobots Kontroll

I tillegg er det eksterne ressurser:

  • HTML4.01 spesifikasjon, Vedlegg B. 4.1
  • Wikipedia – Robots Exclusion Standard

/roboter.txt-standarden er ikke aktivt utviklet.Se Hva om videre utvikling av /roboter.txt?for mer diskusjon.

resten av denne siden gir en oversikt over hvordan du bruker /roboter.txt onyour server, med noen enkle oppskrifter.For å lære mer, se også FAQ-en.

Hvordan å lage en /roboter.,txt-fil

Der å sette dem på

Det korte svaret: i top-level katalogen på din web server.

lengre svaret:

Når en robot ser for «/roboter.txt» fil URL, det strimler thepath komponent fra URL-adresse (alt fra den første singelen skråstrek),og setter «/roboter.txt» i stedet.

Så, som et nettsted eier du trenger for å sette det på rett sted på yourweb server for at NETTADRESSEN til å fungere. Vanligvis at det er det sameplace hvor du setter din web-site»s main «indeksen.html» welcomepage., Nøyaktig hvor det er, og hvordan du skal legge det der, avhenger onyour web server programvare.

Husk å bruke små bokstaver for filnavn:»roboter.txt», ikke «Roboter.TXT.

Se også:

  • Hvilket program skal jeg bruke til å opprette /roboter.txt?
  • Hvordan kan jeg bruke /roboter.txt på en virtuell vert?
  • Hvordan kan jeg bruke /roboter.txt på en felles verten?

Hva du skal legge i det

Den «/roboter.txt» fil er en tekstfil, med én eller flere oppføringer.Vanligvis inneholder en enkel post som ser ut som dette:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

I dette eksempelet, tre kataloger er utelukket.,

Merk at du trenger en egen «Disallow» linje for hver URL prefiks youwant å ekskludere, du kan ikke si «Disallow: /cgi-bin/ /tmp/» på asingle linje. Også, du kan ikke ha tomme linjer i en oppføring, som theyare brukes til å avgrense flere poster.

Hva du ønsker å ekskludere kommer an på din server. Alt som ikke er eksplisitt forbudt regnes som fairgame å hente., Her følger noen eksempler:

Hvis du vil utelate alle roboter fra hele serveren
User-agent: *Disallow: /
på for Å tillate alle roboter full tilgang
User-agent: *Disallow:

(eller bare opprette en tom «/roboter.txt» – filen, eller du don»t bruk på alle)

Hvis du vil utelate alle roboter fra en del av server
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Hvis du vil utelate en eneste roboten
User-agent: BadBotDisallow: /
for Å tillate en enkel robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
Hvis du vil utelate alle filene, bortsett fra ett

Dette er for øyeblikket litt vanskelig, så det er ingen «Tillat» – feltet., Theeasy måte er å sette alle filene skal være forbudt i en separatedirectory, si «ting», og la én fil i nivå abovethis katalog:

User-agent: *Disallow: /~joe/stuff/

Alternativt kan du eksplisitt forbyr alle forbudt sider:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *