Web Robotsページ

About/robots.txt

一言で言えば

Webサイトの所有者は/robotsを使用します。txtファイルは、webロボットに彼らのサイトについての指示を与えるためのものです。

User-agent: *Disallow: /

/robotsを使用する場合、二つの重要な考慮事項があります。txt:

  • ロボットはあなたの/robotsを無視することができます。テキスト 特にマルウェアロボットスキャンthewebセキュリティ脆弱性、および電子メールアドレスバ使用によるspammerswillを支払います。
  • /ロボット。txtファイルは公開されているファイルです。, 誰でもあなたのサーバーのどのセクションを見ることができます。

だから、/robotsを使用しようとしないでください。情報を隠すためのtxt。

も参照してください:

  • 私は悪いロボットだけをブロックすることはできますか?
  • なぜこのロボットは私の/robotsを無視しましたか。テキストって?
  • /robotsのセキュリティへの影響は何ですか。テキストって?

詳細

/ロボット。txtはデファクトスタンダードであり、anylstandardsのボディによって所有されていません。

  • オリジナルの1994年のRobotExclusionドキュメントの標準です。,
  • 1997年のインターネットドラフト仕様WebRobots制御のための方法

さらに、外部リソースがあります:

  • HTML4.01仕様、付録B.4.1
  • Wikipedia-Robots除外標準

/robots。txt標準は積極的に開発されていません。/Robotsのさらなる開発についてはどうですか。テキストって?より多くの議論のため。

このページの残りの部分では、/robotsの使い方の概要を説明します。txt onyourサーバー、いくつかの簡単なrecipes.To 詳細はFAQも参照してください。

/ロボットを作成する方法。,txtファイル

それを置く場所

短い答え:あなたのwebサーバーのトップレベルのディレクトリにあります。

長い答え:

ロボットが”/robotsを探すとき。txt”ファイルのURLは、URLからpathコンポーネント(最初の単一のスラッシュからすべて)を取り除き、”/robots”を置きます。txt”その代わりに。したがって、webサイトの所有者として、その結果のURLが機能するためには、webサーバー上の適切な場所に配置する必要があります。 通常それはあなたのウェブサイト”sの主要な”索引を置く同じ場所である。html”ウェルカムページ。, それが正確にどこにあるのか、そこにファイルを置く方法は、あなたのwebサーバーソフトウェア。

ファイル名にはすべて小文字を使用することを忘れないでください:”robots.txt”ではなく、”ロボット”です。テキスト

も参照してください:

  • /robotsを作成するためにどのプログラムを使用する必要がありますか。テキストって?
  • どのように私は/robotsを使用しますか。バーチャルホスト上のtxt?
  • どのように私は/robotsを使用しますか。共有ホスト上のtxt?

それに何を入れるか

“/robots。txt”ファイルは、一つ以上のレコードを持つテキストファイルです。通常、次のような単一のレコードが含まれています。

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

この例では、三つのディレクトリが除外されます。,除外したいURLプレフィックスごとに別の”Disallow”行が必要であることに注意してください。asingle行では”Disallow:/cgi-bin//tmp/”と言うことはできません。 また、複数のレコードを区切るために使用されるため、レコードに空白行を含めることはできません。

除外する内容は、サーバーによって異なります。 明示的に許可されていないものはすべて、取得するfairgameとみなされます。,

サーバー全体からすべてのロボットを除外するには
User-agent: *Disallow: /
すべてのロボットに完全なアクセスを許可するには
User-agent: *Disallow:

(または空の”/robotsをp>

サーバーの一部からすべてのロボットを除外するには
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /junk/
単一のロボットを除外するには
User-agent: BadBotDisallow: /
単一のロボットを許可するには
User-agent: GoogleDisallow:User-agent: *Disallow: /

これは現在、”許可”フィールドがないため、少し厄介です。, 簡単な方法は、許可されないすべてのファイルを別々のディレクトリに入れ、”stuff”と言い、上記のレベルのファイルをこのディレクトリに残すことです。

User-agent: *Disallow: /~joe/stuff/

または、すべての許可されないページを明示的に許可しないこともできます。

User-agent: *Disallow: /~joe/junk.htmlDisallow: /~joe/foo.htmlDisallow: /~joe/bar.html

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です