Webebrobotterne sider


om / robotter.t .t

i en nøddeskal

ownersebstedsejere bruger /robots.t .t-fil for at give instruktioner om deres siteebsted til webebrobotter; dette kaldes Robots e .clusionprotocol.

User-agent: *Disallow: /

Der er to vigtige overvejelser, når du bruger / robotter.t .t:

  • robotter kan ignorere dine /robotter.t .t. Især Mal .are-robotter, der scannerweeb for sikkerhedssårbarheder, og e-mail-adressehøstere, der bruges af spammersillill no attention.
  • den / robotter.t .t-fil er en offentligt tilgængelig fil., Alle kan se, hvad sectionsof din server, du don”t ønsker robotter til at bruge.

så don”t forsøge at bruge / robotter.t .t for at skjule oplysninger.

Se også:

  • Kan jeg blokere bare dårlige robotter?
  • hvorfor ignorerede denne robot min / robotter.t ?t?
  • hvad er de sikkerhedsmæssige konsekvenser af / robotter.t ?t?

detaljerne

/ robotterne.t .t er en de-facto standard, og ejes ikke af nogenstandard krop.Der er to historiske beskrivelser:

  • den oprindelige 1994 En Standard for RobotExclusion dokument.,
  • 1997 Internet Udkast til specifikation af En Metode til WebRobots Kontrol

derudover er der eksterne ressourcer:

  • HTML4.01 specifikation, Appendiks B. 4.1
  • Wikipedia – Robots Exclusion Standard

robotter.t .t standard er ikke aktivt udviklet.Se hvad med videreudvikling af / robotter.t ?t?for mere diskussion.

resten af denne side giver et overblik over, hvordan man bruger / robotter.t ont onyour server, med nogle enkle recipes.To Læs mere Se også fa..

Sådan oprettes en / robotter.,t .t-fil

hvor skal man sætte den

det korte svar: i øverste niveau på din .ebserver.

det længere svar:

Når en robot søger efter ” / robotterne.txt” – filen for WEBADRESSEN, strimler thepath komponent fra URL ‘ en (alt fra den første single skråstreg),og sætter “/robotter.t “t ” på sin plads.

så som webebstedsejer skal du sætte det på det rigtige sted på din serverebserver for at den resulterende URL skal fungere. Normalt er det det samme sted, hvor du lægger dit mainebsted”s main “indeks.html ” welcomelcomepage., Hvor præcis det er, og hvordan man sætter filen der, afhænger afdin serverebserver soft .are.

Husk at bruge alle små bogstaver til filnavnet:”robotter.t .t”, ikke ” robotter.T .t.

Se også:

  • hvilket program skal jeg bruge til at oprette / robotter.t ?t?
  • Hvordan bruger jeg / robotter.t ?t på en virtuel vært?
  • Hvordan bruger jeg / robotter.t ?t på en delt vært?

Hvad skal man sætte i det

” / robotterne.t “t” – fil er en tekstfil med en eller flere poster.Indeholder normalt en enkelt post, der ser sådan ud:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

i dette eksempel er tre mapper udelukket.,

Bemærk, at du behøver en separat “Afvise” linje for hver URL præfiks duønsker at udelukke — du kan ikke sige “Disallow: /cgi-bin/ /tmp/” på enenkelt linje. Du har muligvis ikke tomme linjer i en post, da debruges til at afgrænse flere poster.

hvad du vil udelukke afhænger af din server. Alt, der ikke eksplicit er forbudt, betragtes som fairgame at hente., Her følger nogle eksempler:

for At udelukke alle robotter fra hele serveren
User-agent: *Disallow: /
for At tillade, at alle robotter fuld adgang
User-agent: *Disallow:

(eller bare oprette en tom “/robotter.txt” fil, eller don”t bruge en på alle)

for At udelukke alle robotter fra en del af den server
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
for At udelukke en enkelt robot
User-agent: BadBotDisallow: /
for At tillade, at en enkelt robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
for At udelukke alle filer, undtagen et

Dette er i øjeblikket en smule akavet, så der er ingen “Tillad” – feltet., Theeasy måde er at sætte alle filer for at blive afvist i en separatedirectory, sige “ting”, og efterlade en fil i niveau abovethis bibliotek:

User-agent: *Disallow: /~joe/stuff/

Alternativt kan du udtrykkeligt afviser alle ikke-tilladte sider:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *