【Crawl-delay】検索エンジンクローラーの巡回頻度調節（robots.txt）

　検索エンジンの巡回クローラー（ロボット）がウェブ上の情報を収集する際のアクセス頻度（間隔）を指定できる「Crawl-delay」パラメータ。ロボット制御プロトコルに基づいて、「robots.txt」ファイルにて指定します。各検索エンジンのヘルプページより該当の記述を引用しときます。

　まずはYahoo! JAPAN（ヤフー）。下の文章は昔のもので、現在の「Yahoo!検索インフォセンター」には単位の記述がありません。

検索エンジン用ロボットからのリクエスト数を減らすには

（中略）

■リクエスト数を減らすには
アクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定
を、サーバーの環境に合わせて設定してください。
「robots.txt」をウェブサーバーに置き、"Crawl-delay: xx"の"xx"を5や20などに調整すると、
アクセス間隔を伸ばせます。

例：
アクセス間隔を20分にするには、下記のテキストを「robots.txt」という名前で保存し、
サイトのあるウェブサーバーのトップレベルに置きます。
「Slurp」はYahoo!検索で利用している検索エンジン用ロボットの名前です。

　User-agent: Slurp
　Crawl-delay: 20

　次に、Microsoft運営のBing（旧Live Search、旧MSN Search）。「Windows Live ヘルプ」より。（※ 2010年10月よりクローラー名を「MSNBot」→「BingBot」に変更。従来のクローラー名も対応。）

クロールの間隔を制限する

MSNBot によって大量のトラフィックが発生する場合は、robots.txt ファイルにクロールの
遅延パラメータを指定して、MSNBot が Web サイトにアクセスする間隔を秒単位で設定する
ことができます。このためには、以下の構文を robots.txt ファイルに追加してください。 

　User-agent: msnbot
　Crawl-delay: 120

　最後に、クローリングの行儀の悪さで話題になったこともある中国発Baidu（百度）。「Baidu ウェブマスターサポート」より。

crawl-delay :

もし spider のアクセスが多くなりすぎた場合、robots.txt に crawl-delay を利用して、
spider のアクセス頻度を制限できます。crawl-delay は、spider の連続2回のアクセスの
最短の間隔を表記します。例えば、"crawl-delay:5" と表記した際は、サイトに対しアクセス
最短の間隔が5秒となります。

　各検索エンジンで「Crawl-delay」の情報を掲載してるページを簡単にまとめると下のようになります。指定した数値の”単位”が検索エンジンによって違っており、ナンとYahoo!だけは単位が分・・・。（＾＾;

検索エンジンクローラーと「Crawl-delay」パラメータ
Yahoo! JAPAN 【Slurp】	O （分 → 単位不明）
Google 【Googlebot】	X （Googleウェブマスターツールで調節可）
Microsoft Bing （旧Live Search）【BingBot/MSNBot】	O （秒）
百度（Baidu）【Baiduspider/Baiduspider+】	O （秒）
Ask.com 【Teoma】	O （単位不明）
NAVER 【Yetibot】	O （秒）
Cuil 【Twiceler】	O （単位不明）
Yandex 【Yandex】	O （秒）
Alexa / Internet Archive 【ia_archiver】	X
有道（youdao）【YodaoBot】	X

Crawl-delayパラメータ

検索エンジンクローラーのアクセス頻度を調整する「Crawl-delay」

Googleはウェブマスターツールから