Strony o robotach internetowych


o robotach.txt

w skrócie

właściciele stron internetowych korzystają z /robotów.plik txt zawierający instrukcje dotyczące strony dla robotów sieciowych; nazywa się to Robots ExclusionProtocol.

User-agent: *Disallow: /

istnieją dwie ważne kwestie podczas korzystania z / robotów.txt:

  • roboty mogą ignorować Twoje / roboty.txt. Szczególnie złośliwe roboty, które skanują internet w poszukiwaniu luk w zabezpieczeniach, a zbieracze adresów e-mail używane przez spamerów nie zwracają uwagi.
  • The / robots.plik txt jest publicznie dostępnym plikiem., Każdy może zobaczyć, z jakich sekcji serwera nie chcesz korzystać.

więc nie próbuj używać / robotów.txt, aby ukryć informacje.

Zobacz też:

  • Czy Mogę blokować tylko złe roboty?
  • dlaczego ten robot zignorował moje / roboty.txt?
  • jakie są konsekwencje bezpieczeństwa / robotów.txt?

szczegóły

roboty.txt jest de facto standardem i nie jest własnością żadnychstandards body.Istnieją dwa historyczne opisy:

  • oryginalny 1994 Standard dla dokumentu RobotExclusion.,
  • a 1997 Internet Draft specification a Method for WebRobots Control

ponadto istnieją zewnętrzne zasoby:

  • Specyfikacja HTML4.01, Dodatek B. 4.1
  • Wikipedia – Standard wykluczenia robotów

The /robots.standard txt nie jest aktywnie rozwijany.Zobacz co z dalszym rozwojem / robotów.txt?do dalszej dyskusji.

reszta tej strony zawiera przegląd jak używać / robotów.txt na serwerze, z kilkoma prostymi recipes.To dowiedz się więcej Zobacz także FAQ.

Jak tworzyć a / roboty.,plik txt

gdzie go umieścić

krótka odpowiedź: w katalogu najwyższego poziomu Twojego serwera www.

dłuższa odpowiedź:

gdy robot szuka „/robotów.txt „plik dla adresu URL, usuwa komponent ścieżki z adresu URL (wszystko od pierwszego pojedynczego ukośnika) i umieszcza” / roboty.txt” na swoim miejscu.

tak więc, jako właściciel strony internetowej musisz umieścić go we właściwym miejscu na serwerze twójweb, aby ten wynikowy adres URL działał. Zazwyczaj jest to to samo miejsce, w którym umieszczasz główny indeks witryny sieci web.html”, Gdzie dokładnie to jest i jak umieścić tam plik, zależy od Twojego oprogramowania serwera www.

pamiętaj, aby dla nazwy pliku użyć wszystkich małych liter: „robots.txt”, a nie ” Roboty.TXT.

Zobacz także:

  • jakiego programu użyć do tworzenia / robotów.txt?
  • Jak używać / robotów.txt na wirtualnym hoście?
  • Jak używać / robotów.txt na współdzielonym hoście?

co w nim umieścić

” / roboty.txt ” plik jest plikiem tekstowym, zawierającym jeden lub więcej rekordów.Zazwyczaj zawiera jeden rekord wyglądający następująco:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

w tym przykładzie wykluczone są trzy katalogi.,

zauważ, że potrzebujesz osobnej linii „Disallow” dla każdego przedrostka URL, który chcesz wykluczyć — nie możesz powiedzieć „Disallow:/ cgi-bin // tmp /” w jednej linii. Ponadto w rekordzie może nie być pustych linii, ponieważ są one używane do oddzielania wielu rekordów.

to, co chcesz wykluczyć, zależy od Twojego serwera. Wszystko, co nie jest wyraźnie zabronione, uważa się za FairGame do odzyskania., Poniżej kilka przykładów:

aby wykluczyć wszystkie roboty z całego serwera
User-agent: *Disallow: /
aby umożliwić wszystkim robotom pełny dostęp
User-agent: *Disallow:

(lub po prostu utworzyć pusty ” / roboty.

aby wykluczyć wszystkie roboty z części serwera
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
aby wykluczyć pojedynczego robota
aby zezwolić pojedynczemu robotowi
User-agent: GoogleDisallow:User-agent: *Disallow: /
aby wykluczyć wszystkie pliki z wyjątkiem jednego

jest to obecnie trochę niewygodne, ponieważ nie ma pola”Zezwól”., Najprostszym sposobem jest umieszczenie wszystkich plików, które mają być wyłączone, w oddzielnym katalogu, powiedz „rzeczy” i zostaw jeden plik na poziomie powyżej tego katalogu:

User-agent: *Disallow: /~joe/stuff/

Alternatywnie możesz wyraźnie zablokować wszystkie niedozwolone strony:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *