Webové stránky robotů


o /robots.txt

ve zkratce

majitelé webových stránek používají / roboty.txt soubor, který dává pokyny ojejich stránky webovým robotům; to se nazývá Robots ExclusionProtocol.

User-agent: *Disallow: /

při používání / robotů existují dva důležité aspekty.txt:

  • roboti mohou ignorovat vaše / roboty.txt. Zejména malware roboti, kteří prohledávajíweb pro bezpečnostní zranitelnosti, a e-mailové adresy kombajny používané spammerswill věnovat žádnou pozornost.
  • the / robots.txt soubor je veřejně dostupný soubor., Každý může vidět, jaké sekcez vašeho serveru nechcete roboty používat.

takže se nesnažte používat / roboty.txt skrýt informace.

Viz také:

  • mohu blokovat jen špatné roboty?
  • proč tento robot ignoroval mé / roboty.txt?
  • jaké jsou bezpečnostní důsledky / robotů.txt?

podrobnosti

the / robots.txt je de facto standard, a není ve vlastnictví anystandards tělo.Existují dva historické popisy:

  • původní 1994 Standard pro RobotExclusion dokument.,
  • 1997 Internet Draft specifikace Způsob WebRobots Ovládání

kromě toho jsou externí zdroje:

  • HTML4.01 specifikaci, Příloha B. 4.1
  • Wikipedie – Robots Exclusion Standard

/roboty.txt standard není aktivně vyvíjen.Podívejte se, co další vývoj /robotů.txt?pro další diskusi.

zbytek této stránky poskytuje přehled o tom, jak používat / roboty.txt onyour server, s některými jednoduchými recipes.To další informace viz také FAQ.

jak vytvořit a / roboty.,txt soubor

kam jej umístit

krátká odpověď: v adresáři nejvyšší úrovně webového serveru.

delší odpověď:

když robot hledá “ / roboty.txt “ soubor pro URL, to proužky thepath komponentu z adresy URL (vše od prvního jediného lomítka), a klade „/roboty.txt “ na svém místě.

takže jako vlastník webu je třeba jej umístit na správné místo na serveru yourweb, aby výsledná adresa URL fungovala. Obvykle je to stejné místo, kam umístíte hlavní index vašeho webu.html “ welcomepage., Kde přesně to je a jak tam umístit soubor, závisíváš software webového serveru.

nezapomeňte použít všechna malá písmena pro název souboru: „robots.txt“, ne “ roboti.TXT.

Viz také:

  • jaký program bych měl použít k vytvoření / robotů.txt?
  • Jak mohu používat / roboty.txt na virtuálním hostiteli?
  • Jak mohu používat / roboty.txt na sdíleném hostiteli?

co do něj vložit

“ / roboti.txt “ soubor je textový soubor s jedním nebo více záznamy.Obvykle obsahuje jeden záznam, který vypadá takto:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

v tomto příkladu jsou vyloučeny tři adresáře.,

Všimněte si, že budete potřebovat samostatný „Zakázat“ řádku pro každý URL prefix chcete vyloučit-nemůžete říci „Disallow: /cgi-bin/ /tmp/“ na jeden řádek. Také nemusí mít prázdné řádky v záznamu, jak onijsou používány k vymezení více záznamů.

to, co chcete vyloučit, závisí na vašem serveru. Všechno, co není výslovně zakázáno, je považováno za fairgame k načtení., Zde následují některé příklady:

Chcete-li vyloučit všechny roboty z celého serveru
User-agent: *Disallow: /
povolit všechny roboty kompletní přístup
User-agent: *Disallow:

(nebo jen vytvořit prázdný „/roboty.txt“ souboru, nebo don“t použít jeden na všechny)

Chcete-li vyloučit všechny roboty z části na server
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
vyjmout jeden robot
User-agent: BadBotDisallow: /
povolit jeden robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
vyloučit všechny soubory s výjimkou jednoho

Toto je v současné době trochu trapné, jak tam je ne „Povolit“ pole., Theeasy způsob, jak je dát všechny soubory, které mají být zakázány do separatedirectory, říkají, „věci“, a nechte jeden soubor v úrovni abovethis adresář:

User-agent: *Disallow: /~joe/stuff/

Alternativně můžete explicitně zakázat všechny nepovolené stránky:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *