About / robots.txt
In a nutshell
Web site owners use the / robots.txt file para dar instruções sobre o seu site para Robôs web; isto é chamado de “Robots ExclusionProtocol”.
User-agent: *Disallow: /
Existem duas considerações importantes ao usar / robots.txt:
- os robots podem ignorar os seus / robots.txt. Especialmente robôs malware que digitalizam a web por vulnerabilidades de segurança, e colhedores de endereços de E-mail usados por spammerswill não prestam atenção.os / robots.o ficheiro txt é um ficheiro disponível publicamente., Qualquer um pode ver que secções do seu servidor você não quer que os robôs usem.
Por isso não tente usar /robots.txt para esconder informações.
Ver também:
- posso bloquear apenas robôs maus?porque é que este robô ignorou os meus robôs?txt?quais são as implicações de segurança dos / robots?txt?
os detalhes
os / robôs.txt é um padrão de facto, e não é de propriedade de anystandards body.Existem duas descrições históricas:
- the original 1994 a Standard for RobotExclusion document.,
- um Internet Draft de 1997 especificação de Um Método para WebRobots de Controle
além disso, há recursos externos:
- HTML4.01 especificação, Apêndice B. 4.1
- Taxas – Padrão de Exclusão de Robôs
O /robôs.o padrão txt não é desenvolvido ativamente.Veja o que sobre o desenvolvimento posterior de / robôs.txt?para mais discussão.
o resto desta página dá uma visão geral de como usar /robôs.txt no seu servidor, com alguns simples recipes.To saiba mais veja também o FAQ.
como criar a / robots.,txt file
Where to put it
the short answer: in the top-level directory of your web server.
a resposta mais longa:
Quando um robô procura os “/ robots”.txt ” file for URL, it strippers component from the URL(everything from the first single slash), and puts “/robots.txt ” no seu lugar.
assim, como proprietário de um site web você precisa colocá-lo no lugar certo em seu servidor web para que essa URL resultante funcione. Normalmente é o mesmo local onde você coloca o seu Web site”s main “index.html ” welcomepage., Onde exatamente isso é, e como colocar o arquivo lá, depende de seu software de servidor web.
lembre-se de usar todas as minúsculas para o nome do ficheiro:”robôs.robôs” txt”, não”.TXT.
Ver também:
- que programa devo usar para criar / robots.txt?como eu uso / robôs.txt numa máquina virtual?como eu uso / robôs.txt num hospedeiro partilhado?
o que colocar nele
os ” / robots.o arquivo txt é um arquivo de texto, com um ou mais registros.Normalmente contém um único registo semelhante a este:
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
neste exemplo, estão excluídas três pastas.,
lembre-se que precisa de uma linha separada de “Desallow” para cada prefixo de URL que deseja excluir — não pode dizer “Desallow: /cgi-bin/ /tmp/” na linha única. Além disso, você pode não ter linhas em branco em um registro, como eles são usados para delimitar vários registros.
O que deseja excluir depende do seu servidor. Tudo o que não é explicitamente negado é considerado fairgame para recuperar., Aqui seguem alguns exemplos:
excluir todos os robôs de todo o servidor
User-agent: *Disallow: /
Para permitir que todos os robôs acesso completo
User-agent: *Disallow:
(ou apenas criar um vazio “/robôs.txt” do arquivo, ou o de não usar nenhum)
excluir todos os robôs de parte do servidor
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Para excluir um único robô
User-agent: BadBotDisallow: /
Para permitir que um único robô
User-agent: GoogleDisallow:User-agent: *Disallow: /
Para excluir todos os arquivos, exceto um
Isto é um pouco estranho, como não há “Permitir” de campo., Theeasy maneira é colocar todos os arquivos para não ser permitida em uma separatedirectory, dizer “coisas”, e deixar o arquivo no nível abovethis diretório:
User-agent: *Disallow: /~joe/stuff/
Alternativamente, você pode proibir explicitamente todos os anulado páginas:
User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html