Le pagine Web Robots


Informazioni su /robots.txt

In poche parole

I proprietari di siti Web utilizzano /robots.file txt per dare istruzioni sul loro sito ai robot web; questo è chiamato Robots ExclusionProtocol.

User-agent: *Disallow: /

Ci sono due considerazioni importanti quando si utilizza / robots.txt:

  • i robot possono ignorare il tuo / robot.txt. Soprattutto robot di malware che scansionano theweb per vulnerabilità di sicurezza, e raccoglitori di indirizzi e-mail utilizzati da spammerswill non prestare attenzione.
  • il / robot.il file txt è un file disponibile pubblicamente., Chiunque può vedere quali sezionidel server non si desidera che i robot da usare.

Quindi non provare a usare / robots.txt per nascondere le informazioni.

Vedi anche:

  • Posso bloccare solo robot cattivi?
  • Perché questo robot ha ignorato i miei / robot.txt?
  • Quali sono le implicazioni di sicurezza di / robots.txt?

I dettagli

Il / robot.txt è uno standard de-facto, e non è di proprietà di anystandards corpo.Ci sono due descrizioni storiche:

  • l’originale 1994 Uno standard per RobotExclusion documento.,
  • a 1997 Internet Draft specification Un metodo per il controllo WebRobots

In aggiunta ci sono risorse esterne:

  • specifica HTML4.01, Appendice B. 4.1
  • Wikipedia – Robots Exclusion Standard

Il / robots.lo standard txt non è sviluppato attivamente.Vedere che cosa circa l’ulteriore sviluppo di / robot.txt?per ulteriori discussioni.

Il resto di questa pagina fornisce una panoramica di come utilizzare /robot.txt sul tuo server, con alcuni semplici recipes.To per saperne di più vedi anche le FAQ.

Come creare un / robot.,file txt

Dove metterlo

La risposta breve: nella directory di primo livello del tuo server web.

La risposta più lunga:

Quando un robot cerca ” / robots.txt ” file per URL, rimuove il componente path dall’URL (tutto dalla prima barra singola) e mette “/robots.txt ” al suo posto.

Quindi, come proprietario di un sito Web, devi metterlo nel posto giusto sul tuo server web per far funzionare l’URL risultante. Di solito questo è lo stesso luogo in cui metti l’indice principale del tuo sito web.html ” welcomepage., Dove esattamente è, e come mettere il file lì, dipende dail tuo software web server.

Ricorda di usare tutte le lettere minuscole per il nome del file: “robot.txt”, non ” Robot.TXT.

Vedi anche:

  • Quale programma dovrei usare per creare / robot.txt?
  • Come si usa / robot.txt su un host virtuale?
  • Come si usa / robot.txt su un host condiviso?

Cosa mettere in esso

Il “/robot.txt ” file è un file di testo, con uno o più record.Di solito contiene un singolo record simile a questo:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

In questo esempio, tre directory sono escluse.,

Nota che hai bisogno di una riga “Disallow” separata per ogni prefisso URL che vuoi escludere — non puoi dire “Disallow:/ cgi-bin // tmp /” su una riga singola. Inoltre, potresti non avere righe vuote in un record, poiché vengono utilizzate per delimitare più record.

Ciò che si desidera escludere dipende dal server. Tutto ciò che non è esplicitamente negato è considerato fairgame da recuperare., Di seguito alcuni esempi:

Per escludere tutti i robot dall’intero server
User-agent: *Disallow: /
Per consentire a tutti i robot l’accesso completo
User-agent: *Disallow:

(o semplicemente creare un vuoto ” / robots.file txt”, o don”t utilizzare uno a tutti)

Per escludere tutti i robot da parte del server
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
Per escludere un singolo robot
User-agent: BadBotDisallow: /
Per consentire a un singolo robot
User-agent: GoogleDisallow:User-agent: *Disallow: /
Per escludere tutti i file, tranne uno,

Questo è attualmente un po ‘ goffo, come non c’è “Permettere” di campo., Il modo semplice è mettere tutti i file da non consentire in una directory separata, dire “stuff” e lasciare l’unico file nel livello sopra questa directory:

User-agent: *Disallow: /~joe/stuff/

In alternativa è possibile disabilitare esplicitamente tutte le pagine non consentite:

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *