Last Update : 2009/03/xx
検索エンジンの巡回クローラー(ロボット)がウェブ上の情報を収集する際のアクセス頻度(間隔)を指定できる「Crawl-delay」パラメータ。ロボット制御プロトコルに基づいて、「robots.txt」ファイルにて指定します。各検索エンジンのヘルプページより該当の記述を引用しときます。
まずはYahoo! JAPAN(ヤフー)。下の文章は昔のもので、現在の「Yahoo!検索 インフォセンター」には単位の記述がありません。
検索エンジン用ロボットからのリクエスト数を減らすには (中略) ■リクエスト数を減らすには アクセス間隔によって問題が生じている場合、検索エンジン用ロボットのアクセス間隔の設定 を、サーバーの環境に合わせて設定してください。 「robots.txt」をウェブサーバーに置き、"Crawl-delay: xx"の"xx"を5や20などに調整すると、 アクセス間隔を伸ばせます。 例: アクセス間隔を20分にするには、下記のテキストを「robots.txt」という名前で保存し、 サイトのあるウェブサーバーのトップレベルに置きます。 「Slurp」はYahoo!検索で利用している検索エンジン用ロボットの名前です。 User-agent: Slurp Crawl-delay: 20
次に、Microsoft運営のBing(旧Live Search、旧MSN Search)。「Windows Live ヘルプ」より。(※ 2010年10月よりクローラー名を「MSNBot」→「BingBot」に変更。従来のクローラー名も対応。)
クロールの間隔を制限する MSNBot によって大量のトラフィックが発生する場合は、robots.txt ファイルにクロールの 遅延パラメータを指定して、MSNBot が Web サイトにアクセスする間隔を秒単位で設定する ことができます。このためには、以下の構文を robots.txt ファイルに追加してください。 User-agent: msnbot Crawl-delay: 120
最後に、クローリングの行儀の悪さで話題になったこともある中国発Baidu(百度)。「Baidu ウェブマスターサポート」より。
crawl-delay : もし spider のアクセスが多くなりすぎた場合、robots.txt に crawl-delay を利用して、 spider のアクセス頻度を制限できます。crawl-delay は、spider の連続2回のアクセスの 最短の間隔を表記します。例えば、"crawl-delay:5" と表記した際は、サイトに対しアクセス 最短の間隔が5秒となります。
各検索エンジンで「Crawl-delay」の情報を掲載してるページを簡単にまとめると下のようになります。指定した数値の”単位”が検索エンジンによって違っており、ナンとYahoo!だけは単位が分・・・。(^^;
検索エンジンクローラーと「Crawl-delay」パラメータ | |
Yahoo! JAPAN 【Slurp】 | O (分 → 単位不明) |
Google 【Googlebot】 | X (Googleウェブマスターツールで調節可) |
Microsoft Bing (旧Live Search) 【BingBot/MSNBot】 |
O (秒) |
百度 (Baidu) 【Baiduspider/Baiduspider+】 |
O (秒) |
Ask.com 【Teoma】 | O (単位不明) |
NAVER 【Yetibot】 | O (秒) |
Cuil 【Twiceler】 | O (単位不明) |
Yandex 【Yandex】 | O (秒) |
Alexa / Internet Archive 【ia_archiver】 | X |
有道 (youdao) 【YodaoBot】 | X |
.
.
検索エンジンGoogle(グーグル)は、「Crawl-delay」パラメータに対応してません。サイト管理ツール「Googleウェブマスターツール」にクローラー「Googlebot」によるクローリングの「速度」を抑制できるオプションが用意されてます。「頻度」ではないので注意してください。(ウェブマスター向けヘルプセンターの「Google のクロール速度の変更」)
[ダッシュボード]→[サイト設定]→[設定]→[クロール速度]です。選択肢は下の2つです。
¤ 関連 : originurlextensionコマンド | 検索エンジン登録 | サイトマップの作成 | モバイルサイトマップ | 検索エンジン登録拒否タグ
.
Copyright © 2013 Kpan. All rights reserved.