Yahoo!検索クローラーによる「SlurpConfirm404」

Last Update : 2008/10/xx

「SlurpConfirm404」フォルダへの謎のアクセス

 検索エンジンYahoo!が放つクローラー(ウェブ収集ロボット)の「Yahoo! Slurp」が、ホームページのサーバーに存在しない「SlurpConfirm404」なるフォルダにアクセスしてきました。IPアドレスとUA(ユーザーエージェント)は下のとおりで、通常のクローリング時と同じですな。

*.crawl.yahoo.net
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)

 さっそくこのキーワードで検索してみると、いろいろと情報がヒット。昔はinktomiのIPアドレスで来たようです。要はファイルが見つからないエラー「404 not found」であるに関わらず、「202 OK」を返してしまうサーバーなので、挙動のチェックを行うため故意に存在しないページへとアクセスしてるとのこと。

 本家Yahoo!に掲載されてる該当のヘルプより翻訳引用。「SlurpConfirm404」というのは、『Slurpによる404のConfirm(確認)』ということなんでしょうな。

私のサイトのいっさい存在しないおかしなURLにクローラーが問い合わせてくるのはなぜですか。

一部のサーバーは、ページが見つからない状態である「HTTP 404 Not Found」の結果の代わりに、
「HTTP 200 OK」のレスポンスでサイトナビゲーションページや他の応答ページを送信してきます。
ページが見つからない状態のサーバーの扱いを確認するため、404の結果が確認できなかった
サイトに対して、Yahoo! Slurpがときどきランダムな言葉から生成したでたらめなURLを故意に
送信します。
これらのURLは実際のサイトのコンテンツにいっさいマッチしないよう意図的に生成してます。
存在しないページ用のリクエストとしてサーバーの応答の情報を保存することにより、
検索データベースで使われてないURLを正しく認識し削除することができます。

Yahoo! SlurpはそのようなURLを最大10回のリクエストで行いサーバーから404の結果を確認
します。404の挙動の確認は、通常のYahoo! Slurpのサイト更新の役割ではないため、そのような
リクエストはめったにありません。

 日本のYahoo! JAPANの検索結果は、このYahoo! Slurpによって巡回したデータを"頂戴"して表示してます。Yahoo!検索インフォセンターにも該当の記述が存在します。

存在しないウェブページが巡回される

(中略)

YSTのクローラーは、「HTTP 404 Page Not Found」のステータスを返さないサイトに、無作為に
作成したURLでリクエストを行うことがあります。こうして存在しないウェブページに対する
レスポンスの情報を集め、インデックスに残っている存在しないウェブページの情報を削除して
います。
このチェックは、1つのサーバーに対して10URLを上限として実施していますが、頻繁に行われる
処理ではありません。

 ちなみに、この機能は現在のYahoo! Slurpの原型となるinktomi Slurp(WayBack Machine)の時代から存在するようで。

Q. Your crawler is asking for strange URLs that have never existed on my site,
like /piopio/darkness-halo-bottom-camera.htm. Are you looking on the wrong host?

.

自分のサイトの原因と対処

 自分の場合はYahoo! Slurpによる計10回のアクセスがありました。何の参考にもなりませんが、そのデタラメなURLアドレスは下のような感じでした。

/SlurpConfirm404/standbesideme/usett/INDEX.htm
/SlurpConfirm404/fallgen/somewhere/errorsw.htm
/SlurpConfirm404/softball.htm
/SlurpConfirm404/NeSSaAtLeR.htm
/SlurpConfirm404/poll/booths/GeneralInfo.htm
/SlurpConfirm404/fohm/buchanan.htm
/SlurpConfirm404/cost_of_attendance/institutional_quality_assurance_program.htm
/SlurpConfirm404.htm
/SlurpConfirm404/handicrafts.htm
/SlurpConfirm404/consoldates/net2world.htm

 Web-Snifferにアクセスして、存在しないページの応答状態(「HTTP Response Header」の「HTTP Status Code」)を確認します。ブラウザ上からのアクセスだと、自前で用意した404ページへとリダイレクトされて何も問題がないように見えましたが、実際には「HTTP 200 OK」・・・。(^o^;

 これはHTMLファイルをPHPファイルとして認識させるための処理を(トップレベルの)「.htaccess」ファイルに用意してるのが原因でした。

AddType application/x-httpd-php .html .php

 エラー用のHTMLファイルがあるフォルダに「.htaccess」ファイルを新たに用意して、PHPファイルとして認識しないよう対処して解決しました。

AddType text/html .html

.

コンピュータ・インターネットの書籍 (Amazon.co.jp)

¤ 関連 : Yahoo!に登録されない | 検索エンジン登録ページ | キーワード出現頻度解析

.

Copyright © 2005-2012 Kpan. All rights reserved.