The Web Robots Pages


About / robots.txt

In a nutshell

Web site owners use the / robots.txt file para dar instruções sobre o seu site para Robôs web; isto é chamado de “Robots ExclusionProtocol”.

User-agent: *Disallow: /

Existem duas considerações importantes ao usar / robots.txt:

  • os robots podem ignorar os seus / robots.txt. Especialmente robôs malware que digitalizam a web por vulnerabilidades de segurança, e colhedores de endereços de E-mail usados por spammerswill não prestam atenção.os / robots.o ficheiro txt é um ficheiro disponível publicamente., Qualquer um pode ver que secções do seu servidor você não quer que os robôs usem.

Por isso não tente usar /robots.txt para esconder informações.

Ver também:

  • posso bloquear apenas robôs maus?porque é que este robô ignorou os meus robôs?txt?quais são as implicações de segurança dos / robots?txt?

os detalhes

os / robôs.txt é um padrão de facto, e não é de propriedade de anystandards body.Existem duas descrições históricas:

  • the original 1994 a Standard for RobotExclusion document.,
  • um Internet Draft de 1997 especificação de Um Método para WebRobots de Controle

além disso, há recursos externos:

  • HTML4.01 especificação, Apêndice B. 4.1
  • Taxas – Padrão de Exclusão de Robôs

O /robôs.o padrão txt não é desenvolvido ativamente.Veja o que sobre o desenvolvimento posterior de / robôs.txt?para mais discussão.

o resto desta página dá uma visão geral de como usar /robôs.txt no seu servidor, com alguns simples recipes.To saiba mais veja também o FAQ.

como criar a / robots.,txt file

Where to put it

the short answer: in the top-level directory of your web server.

a resposta mais longa:

Quando um robô procura os “/ robots”.txt ” file for URL, it strippers component from the URL(everything from the first single slash), and puts “/robots.txt ” no seu lugar.

assim, como proprietário de um site web você precisa colocá-lo no lugar certo em seu servidor web para que essa URL resultante funcione. Normalmente é o mesmo local onde você coloca o seu Web site”s main “index.html ” welcomepage., Onde exatamente isso é, e como colocar o arquivo lá, depende de seu software de servidor web.

lembre-se de usar todas as minúsculas para o nome do ficheiro:”robôs.robôs” txt”, não”.TXT.

Ver também:

  • que programa devo usar para criar / robots.txt?como eu uso / robôs.txt numa máquina virtual?como eu uso / robôs.txt num hospedeiro partilhado?

o que colocar nele

os ” / robots.o arquivo txt é um arquivo de texto, com um ou mais registros.Normalmente contém um único registo semelhante a este:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

neste exemplo, estão excluídas três pastas.,

lembre-se que precisa de uma linha separada de “Desallow” para cada prefixo de URL que deseja excluir — não pode dizer “Desallow: /cgi-bin/ /tmp/” na linha única. Além disso, você pode não ter linhas em branco em um registro, como eles são usados para delimitar vários registros.

O que deseja excluir depende do seu servidor. Tudo o que não é explicitamente negado é considerado fairgame para recuperar., Aqui seguem alguns exemplos:

excluir todos os robôs de todo o servidor
User-agent: *Disallow: /
Para permitir que todos os robôs acesso completo
User-agent: *Disallow:

(ou apenas criar um vazio “/robôs.txt” do arquivo, ou o de não usar nenhum)

excluir todos os robôs de parte do servidor
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Para excluir um único robô
User-agent: BadBotDisallow: /
Para permitir que um único robô
User-agent: GoogleDisallow:User-agent: *Disallow: /
Para excluir todos os arquivos, exceto um

Isto é um pouco estranho, como não há “Permitir” de campo., Theeasy maneira é colocar todos os arquivos para não ser permitida em uma separatedirectory, dizer “coisas”, e deixar o arquivo no nível abovethis diretório:

User-agent: *Disallow: /~joe/stuff/

Alternativamente, você pode proibir explicitamente todos os anulado páginas:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *