Las páginas web de Robots | Constant Reader

acerca de / robots.txt

en pocas palabras

los propietarios del sitio web utilizan / robots.archivo txt para dar instrucciones sobre su sitio a los robots web; esto se llama el Protocolo de exclusión de Robots.

User-agent: *Disallow: /

hay dos consideraciones importantes al usar / robots.txt:

Los robots pueden ignorar su / robots.txt. Especialmente los robots de malware que exploran la web en busca de vulnerabilidades de seguridad, y los recolectores de direcciones de correo electrónico utilizados por los spammers no prestarán atención.
Los / robots.el archivo txt es un archivo disponible públicamente., Cualquiera puede ver qué secciones de tu servidor no quieres que usen los robots.

así que no intentes usar / robots.txt para ocultar información.

Ver también:

¿puedo bloquear solo robots malos?
Por qué este robot ignoró mi / robots.txt?
¿cuáles son las implicaciones de seguridad de /robots.txt?

los detalles

los / robots.txt es un estándar de facto, y no es propiedad de anystandards body.Hay dos descripciones históricas:

El documento original de 1994 a Standard for RobotExclusion.,
a 1997 Internet draft specification a Method for WebRobots Control

Además hay recursos externos:

HTML4.01 specification, Appendix B. 4.1
Wikipedia – Robots Exclusion Standard

The / robots.el estándar txt no está desarrollado activamente.Vea qué pasa con el desarrollo adicional de / robots.txt?para más discusión.

el resto de esta página da una visión general de cómo usar /robots.txt en su servidor, con algunos simples recipes.To más información consulte también las preguntas frecuentes.

Cómo crear un /robots.,archivo txt

dónde ponerlo

La respuesta corta: en el directorio de nivel superior de su servidor web.

La respuesta más larga:

Cuando un robot busca los «/robots.txt «file for URL, elimina el componente path de la URL (todo desde la primera barra), y pone» / robots.txt» en su lugar.

por lo tanto, como propietario de un sitio web, debe colocarlo en el lugar correcto en su servidor web para que la URL resultante funcione. Por lo general, ese es el mismo lugar donde se pone su sitio web»s principal «índice.html » welcomepage., Dónde está exactamente eso, y cómo colocar el archivo allí, depende de su software de servidor web.

recuerde usar todas las minúsculas para el nombre de archivo: «robots.txt», No » Robots.TXT.

vea también:

Qué programa debo usar para crear / robots.txt?
Cómo uso / robots.txt en un host virtual?
Cómo uso / robots.txt en un host compartido?

qué poner en él

los » / robots.txt» archivo es un archivo de texto, con uno o más registros.Por lo general, contiene un solo registro con este aspecto:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

en este ejemplo, se excluyen tres directorios.,

tenga en cuenta que necesita una línea «Disallow» separada para cada prefijo de URL que desee excluir cannot no puede decir «Disallow:/ cgi-bin // tmp /» en una sola línea. Además, es posible que no tenga líneas en blanco en un registro, ya que se utilizan para delimitar varios registros.

Lo que desea excluir depende de su servidor. Todo lo que no está explícitamente prohibido se considera fairgame para recuperar., A continuación, siga algunos ejemplos:

para excluir todos los robots de todo el servidor

User-agent: *Disallow: /

para permitir que todos los robots tengan acceso completo

User-agent: *Disallow:

(o simplemente cree un «/robots vacío.txt» file, or don»t use one at all)

para excluir todos los robots de parte del servidor

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/

para excluir un solo robot

User-agent: BadBotDisallow: /

para permitir un solo robot

User-agent: GoogleDisallow:User-agent: *Disallow: /

para excluir todos los archivos excepto uno

esto es actualmente un poco incómodo, ya que no hay campo «Permitir»., La forma más fácil es poner todos los archivos a ser desautorizados en un directorio separado, decir «stuff», y dejar el archivo en el nivel anterior a este directorio:

User-agent: *Disallow: /~joe/stuff/

alternativamente, puede rechazar explícitamente todas las páginas no autorizadas:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html