A webrobotok oldalai | Constant Reader

körülbelül /robotok.txt

dióhéjban

a weboldal tulajdonosai a /robotokat használják.txt fájl, hogy utasításokat adjona webrobotok webhelye; ezt nevezik a robotok ExclusionProtocol.

User-agent: *Disallow: /

két fontos szempont van a /robotok használatakor.txt:

a robotok figyelmen kívül hagyhatják a / robotokat.txt. Különösen azok a rosszindulatú robotok, amelyek átvizsgálják aa web biztonsági réseit, valamint a spammerswall által használt e-mail cím-betakarítók nem fordítanak figyelmet.
a / robotok.a TXT fájl egy nyilvánosan elérhető fájl., Bárki láthatja, hogy milyen szakaszokata szerver nem akarja, hogy a robotok használni.

tehát ne próbálja használni / robotok.txt az információk elrejtéséhez.

Lásd még:

tudom blokkolni csak a rossz robotokat?
miért hagyta figyelmen kívül ez a robot az én /robotjaimat?txt?
mik a biztonsági következményei /robotok.txt?

A részletek

a /robotok.a txt egy de-facto szabvány, és nem tulajdonosa egyikstandards testületnek sem.Két történelmi leírások:

az eredeti 1994 A szabvány RobotExclusion dokumentum.,
a 1997 internetes tervezet specifikáció a módszer WebRobots vezérlés

Ezen kívül vannak külső források:

HTML4.01 specifikáció, függelék B. 4.1
Wikipedia – robotok kizárási szabvány

a /robotok.a TXT szabványt nem fejlesztették ki aktívan.Mi a helyzet a további fejlesztése /robotok.txt?további vita.

az oldal többi része áttekintést nyújt a robotok használatáról.txt a szerveren, néhány egyszerű recipes.To További információ lásd még a GYIK.

Hogyan hozzunk létre egy /robotok.,txt fájl

hová tegye

a rövid válasz: a webszerver legfelső szintű könyvtárában.

a hosszabb válasz:

amikor egy robot keresi a ” / robotokat.txt ” fájl URL-hez,az URL-ből (mindent az első egyetlen perjelből) leveszi a path komponenst, majd “/robotokat helyez el.txt ” a helyén.

tehát webhelytulajdonosként a megfelelő helyre kell helyeznie a yourweb szerveren, hogy az URL működjön. Általában ez ugyanazhelyre, ahol fel a weboldal “s fő” index.html ” welcomepage., Pontosan hol van, hogyan kell a fájlt elhelyezni, attól függa webszerver szoftvered.

ne felejtse el használni az összes alsó tokot a fájlnévhez: “robotok.txt”, nem ” robotok.TXT.

Lásd még:

milyen programot kell használni a /robotok létrehozásához.txt?
hogyan kell használni / robotok.txt egy virtuális gépen?
hogyan kell használni / robotok.txt egy megosztott gazdagépen?

mit tegyen bele

A ” / robotok.TXT ” fájl egy szöveges fájl, egy vagy több rekordot.Általában egyetlen rekordot tartalmaz, amely így néz ki:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

ebben a példában három könyvtár kizárt.,

vegye figyelembe, hogy minden kizárni kívánt URL-előtaghoz külön “Disallow” sorra van szüksége-nem mondhatja az asingle vonalon a “Disallow: /cgi-bin/ /tmp/” parancsot. Előfordulhat, hogy nincs üres sor a rekordban, mivel őktöbb rekord határolására használják.

a szervertől függ, hogy mit szeretne kizárni. Minden, amit nem kifejezetten tiltottak, fairgame-nek tekinthető., Itt kövesse néhány példát:

az összes robot kizárása a teljes kiszolgálóról

User-agent: *Disallow: /

az összes robot teljes hozzáférésének engedélyezése

User-agent: *Disallow:

(vagy csak hozzon létre egy üres ” /robotokat.txt” fájl, vagy egyáltalán ne használjon egyet)

az összes robot kizárása a kiszolgáló részéből

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/

egyetlen robot kizárása

User-agent: BadBotDisallow: /

egyetlen robot engedélyezése

User-agent: GoogleDisallow:User-agent: *Disallow: /

az összes fájl kizárása, kivéve egy

ez jelenleg kissé kínos, mivel nincs”engedélyezés “mező., Az egyszerű módja annak, hogy az összes letiltandó fájlt külön könyvtárba tegyük, mondjuk “cucc”, majd hagyjuk az egyik fájlt a fenti szintenez a könyvtár:

User-agent: *Disallow: /~joe/stuff/

alternatívaként kifejezetten letilthatja az összes letiltott oldalt:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html