à propos de / robots.txt
en un mot
les propriétaires de sites Web utilisent les robots/.fichier txt pour donner des instructions sur leur site aux robots web; c’est ce qu’on appelle le robot ExclusionProtocol.
User-agent: *Disallow: /
Il y a deux considérations importantes lors de l’utilisation /des robots.txt:
- les robots peuvent-ils ignorer votre /robots.txt. En particulier, les robots malveillants qui analysent theweb pour détecter les vulnérabilités de sécurité et les Récolteurs d’adresses e-mail utilisés par les spammers ne feront pas attention.
- la /des robots.le fichier txt est un fichier accessible au public., Tout le monde peut voir quelles sections de votre serveur vous ne voulez pas que les robots utilisent.
alors n’essayez pas d’utiliser / robots.txt pour masquer les informations.
Voir aussi:
- puis-je bloquer tout simplement mauvais robots?
- Pourquoi ce robot ignorer ma /robots.txt?
- quelles sont les implications en matière de sécurité de / robots.txt?
détails
La /des robots.txt est une norme de facto, et n’est pas détenue par anystandards corps.Il existe deux descriptions historiques:
- le document original de 1994 A Standard for RobotExclusion.,
- en 1997, un Projet Internet spécification d’Une Méthode pour WebRobots de Contrôle
En outre, il existe des ressources externes:
- HTML4.01 spécification, l’Annexe B. 4.1
- Wikipédia – Exclusion des Robots Standard
La /des robots.la norme txt n’est pas activement développée.Voir Qu’en est-il du développement ultérieur de / robots.txt?pour plus de discussion.
le reste de cette page donne un aperçu de l’utilisation de /robots.txt onyour serveur, avec quelques simples recipes.To en savoir plus Voir aussi la FAQ.
Comment faire pour créer un /des robots.,fichier txt
Où le mettre
La réponse est simple: dans le répertoire de niveau supérieur de votre serveur web.
la réponse la plus longue:
quand un robot recherche le « /robots.txt » fichier pour URL, il supprime le composant thepath de l’URL (tout de la première barre oblique unique),et met « /robots.txt » à sa place.
donc, en tant que propriétaire de site web, vous devez le mettre au bon endroit sur votre serveur web pour que l’URL résultante fonctionne. Habituellement, c’est le même endroit où vous mettez l’index »principal « de votre site web.html » welcomepage., Où est exactement cela, et comment y mettre le fichier, dépend devotre logiciel de serveur web.
n’oubliez pas d’utiliser toutes les minuscules pour le nom de fichier: »des robots.txt », pas » Robots.TXT.
Voir aussi:
- Quel programme dois-je utiliser pour créer et /ou des robots.txt?
- Comment puis-je utiliser /robots.txt sur un hôte virtuel?
- Comment puis-je utiliser /robots.txt sur un hôte partagé?
que mettre dedans
les » / robots.txt » un fichier est un fichier texte, avec un ou plusieurs enregistrements.Contient généralement un seul enregistrement ressemblant à ceci:
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
dans cet exemple, trois répertoires sont exclus.,
notez que vous avez besoin d’une ligne « Disallow » distincte pour chaque préfixe D’URL que vous souhaitez exclure-vous ne pouvez pas dire « Disallow: /cgi-bin/ /tmp/ » sur une seule ligne. En outre, vous ne pouvez pas avoir de lignes vides dans un enregistrement, car elles sont utilisées pour délimiter plusieurs enregistrements.
Ce que vous voulez exclure dépend de votre serveur. Tout ce qui n’est pas explicitement interdit est considéré comme fairgame à récupérer., Voici quelques exemples:
Pour exclure tous les robots de l’ensemble du serveur
User-agent: *Disallow: /
pour permettre À tous les robots de l’accès complet
User-agent: *Disallow:
(ou tout simplement créer un vide « /robots.txt » un fichier, ou de n’en utiliser un à tous)
Pour exclure tous les robots de la partie du serveur
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Pour exclure un seul robot
User-agent: BadBotDisallow: /
pour permettre À un robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
Pour exclure tous les fichiers sauf un
C’est actuellement un peu maladroit, comme il n’est pas « Autoriser » sur le terrain., Le moyen le plus simple est de mettre tous les fichiers à refuser dans un répertoire separatedirectory, de dire « stuff » et de laisser le fichier au niveau ci-dessus. ce répertoire:
User-agent: *Disallow: /~joe/stuff/
vous pouvez également interdire explicitement toutes les pages interdites:
User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html