About / robots.txt
pähkinänkuoressa
verkkosivujen omistajat käyttävät / robotit.txt-tiedosto antaa ohjeita sivustostaan web-roboteille; tätä kutsutaan Robots Exclusionprotocoliksi.
User-agent: *Disallow: /
käytössä / roboteissa on kaksi tärkeää näkökohtaa.txt:
- robots can ignore your /robots.txt. Erityisesti haittaohjelmarobotit, jotka skannaavat thewebin tietoturva-haavoittuvuuksien varalta, ja roskapostiohjelmien käyttämät sähköpostiosoitteet harvesterit eivät kiinnitä huomiota.
- The / robots.txt-tiedosto on julkisesti saatavilla oleva tiedosto., Kuka tahansa voi nähdä, mitä osioita palvelimellasi et halua robottien käyttävän.
joten älä yritä käyttää / robotteja.txt piilottaa tietoja.
Katso myös:
- Can I block just bad robots?
- miksi tämä robotti sivuutti my /robotit.txt?
- mitkä ovat / robottien turvallisuusvaikutukset.txt?
the details
The / robots.txt on de-facto standardi, eikä sitä omista anystandards elin.Historiallisia kuvauksia on kaksi:
- Alkuperäinen 1994 a Standard for RobotExclusion document.,
- vuonna 1997 Internet Luonnos erittely Menetelmä WebRobots Ohjaus
lisäksi on olemassa ulkoiset resurssit:
- HTML4.01 erittely, Liite B. 4.1
- Wikipedia – Robots Exclusion Standard
/robotteja.txt-standardia ei aktiivisesti kehitetä.Katso miten on /robottien jatkokehityksen laita.txt?lisää keskustelua.
tämän sivun loppuosa antaa yleiskuvan siitä, miten / robotteja käytetään.txt onyour palvelin, joitakin yksinkertaisia recipes.To Lue lisää Katso myös UKK.
miten a / robotit luodaan.,txt-tiedosto
minne sen laittaa
lyhyt vastaus: WWW-palvelimen ylätason hakemistoon.
pidempi vastaus:
Kun robotti etsii ”/robotteja.txt ” tiedosto URL, se nauhat thepath komponentti URL (kaikki ensimmäisestä single slash), ja laittaa ”/robotit.txt ” paikallaan.
joten web-sivuston omistajana sinun täytyy laittaa se oikeaan paikkaan Web-palvelimellasi, jotta tämä URL toimisi. Yleensä se on sameplace, jossa laitat web-sivuston ”s main” indeksi.html ” welcomepage., Missä se on, ja miten laittaa tiedoston siellä, riippuu sinun web-palvelimen ohjelmisto.
muista käyttää kaikkia alempia koteloita tiedostonimeen:”robotit.txt”, Ei ” robotit.TXT.
Katso myös:
- Mitä ohjelmia pitäisi käyttää luoda /robotteja.txt?
- How do I use / robots.TXT on virtuaalinen isäntä?
- How do I use / robots.txt jaetulla isännällä?
mitä siihen laitetaan
” / robotit.txt ” – tiedosto on tekstitiedosto, jossa on yksi tai useampi tallenne.Sisältää yleensä yhden ennätys näyttää tältä:
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
tässä esimerkissä kolme hakemistoja ulkopuolelle.,
Huomaa, että tarvitset erillisen ”Disallow” rivi jokaista URL-etuliite, että haluat sulkea pois-et voi sanoa ”Disallow: /cgi-bin/ /tmp/” on yksi linja. Myös, sinulla ei ehkä ole tyhjiä rivejä ennätys, koska ne käytetään rajata useita tietueita.
se, mitä haluat sulkea pois, riippuu palvelimestasi. Kaikkea, mitä ei nimenomaisesti kielletä, pidetään reilun pelin hakea., Tässä seuraa muutamia esimerkkejä:
jättää kaikki robotit koko palvelin
User-agent: *Disallow: /
, Jotta kaikki robotit täydellinen pääsy
User-agent: *Disallow:
(tai vain luoda tyhjän ”/robotteja.txt” tiedostoa, tai don”t käyttää ollenkaan)
jättää kaikki robotit osa-palvelin
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Voit jättää yhden robotin
User-agent: BadBotDisallow: /
mahdollistaa yhden robotin
User-agent: GoogleDisallow:User-agent: *Disallow: /
Voit jättää kaikki tiedostot paitsi yksi
Tämä on tällä hetkellä hieman hankala, koska ei ole ”Salli” – kenttään., Theeasy tapa on laittaa kaikki tiedostot voidaan evätä osaksi separatedirectory, sanoa, ”tavaraa”, ja jätä yksi tiedosto tasolla abovethis hakemistoon:
User-agent: *Disallow: /~joe/stuff/
Vaihtoehtoisesti voit nimenomaisesti kieltää kaikki kieltänyt sivut:
User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html