このエントリーをはてなブックマークに追加 ツイート

検索エンジンロボット拒否タグ

Last Update : 2010/12/xx

PR ダレか買いませんか? 99,999,999円の超超高額商品キター! 【Yahoo!ショッピング】

検索エンジンロボットの拒否のMETAタグ

 HTMLファイルのHEADタグ内のMETAタグ(メタタグ)で指定する検索エンジンロボット(クローラー)の"拒否"(検索避け)に関連した「Robots Exclusion Protocol」(「REP」:ロボット排除プロトコル)のMETAタグに指定するCONTENT属性値名一覧。

 拒否系としては、もともと「NOINDEX」と「NOFOLLOW」だけが定義されてましたが、検索エンジン側の独自拡張で増えてきた経緯があります。2008年6月、日本の3大検索エンジン「Yahoo!」(ヤフー)、「Google」(グーグル)、「Microsoft Live Search」(現Bing)の3社は共通仕様を発表しました(赤項目)。

[追記...] 2010年12月よりYahoo! JAPANが提供するYahoo!検索はGoogleの検索データを利用してます。対応してるMETAタグはGoogleと同じになります。クローラー「Yahoo! Slurp」による巡回は日本の検索結果にはもう反映されません。

属性値 拒否内容 Yahoo!
"Slurp"
Google
"Googlebot"
Bing
"MSNBot"
"BingBot"
Baidu
"Baiduspider"
NAVER
"Yetibot"
Ask.com
"Teoma"
NONE (NOINDEX+NOFOLLOW) O O O O O O
NOINDEX インデックス O O O O O O
NOFOLLOW リンク先巡回 O O O O O O
NOARCHIVE キャッシュ表示 O O O O O O
NOCACHE - - O - O -
NOSNIPPET スニペット表示 X ※1 O O X O O
NOODP ODP(dmoz)の引用 O O O O - ? - ?
NOYDIR Yahoo!カテゴリの引用 O - - - - -
NOPREVIEW Bingのプレビュー表示 - - O - - -
NOIMAGEINDEX 画像のインデックス - O - - - -
unavailable_after:〜 インデックス (期日指定) - O - - - -
NOTRANSLATE Google 翻訳拒否 ※2 - O - - - -
※1 ヘルプページに記述があるがまだ機能してない。
※2 NAME属性に指定する文字列は「Googlebot」ではなく「Google」。

□ その他
 Hatenaアンテナの更新チェック拒否「NODIFF属性」。これ以外に、「NOIMAGECLICK」(旧AltaVista)、「NOMEDIAINDEX」(Live Search検索プレビュー機能→廃止)、「NOSERVE」(効果不明)というようなものが存在していたようですが、基本的に現在対応しているウェブ検索エンジンは存在しない模様。

.

[PR] Yahoo!ショッピング

.

検索避けMETAタグの記述例

 テキトーなサンプル。HTMLファイル内の<head>〜</head>間に記述します。name属性の「robots」は「s」が付きます。指定するときの大文字・小文字は別に関係なし。複数指定する場合はコンマ「,」で区切ります(が認識しない検索エンジンもあるみたいないのでその場合は個々に)。

<meta name="robots" content="none">
<meta name="robots" content="nofollow,noarchive">
<meta name="robots" content="index,nofollow">
<meta name="googlebot" content="none">
<meta name="slurp,bingbot" content="nofollow">
テキトーなインデックス実験ページ
NOARCHIVE NOCACHE NOSNIPPET
NOIMAGEINDEX IMAGEINDEX -
NOPREVIEW (PREVIEW) -

.

検索エンジンのインデックス拒否方法

 下のようなロボット(クローラー)向けのインデックス拒否を行っても、検索エンジンから特定ページが削除できない場合があります。

  1. METAタグ (noindex、none)
  2. robots.txtファイルによる「Disallow:」
  3. サイト管理ツールでの削除操作 [ Yahoo!検索 サイトエクスプローラーGoogleウェブマスターツール ]
  4. ページそのものの削除し、「404 not found」を返す
  5. パスワード認証や「.htaccess」ファイル(Apacheサーバー)でロボットを物理的に排除

 これは外部サイトや内部ページから<a>タグ(アンカータグ)によるリンクというのが存在してる限り、クローラー自体は基本的にページへアクセスを試みるためです。ページがちゃんと存在していて、かつそのページへのリンクが存在してる条件が整うと、1番や2番あたりでは検索エンジンから完全に削除されない場合が多いと思います。
 削除されずに検索インデックスに残ってる場合は、検索結果のタイトル部分にURLアドレスの文字列が表示されたり、タイトルだけ表示されてサイト説明文(スニペット)が出現しない状態になります。

◆ 日本特有の考えも・・・
 「リンクフリー」(和製英語)、「無断リンク禁止」、「トップページ以外リンク禁止」なんてなフレーズがありますが、このような発想は世界の中で日本だけです。米国にあるGoogleやYahoo!をはじめ、ほとんどの検索エンジンは日本以外で開発されたものです。ウェブ検索における国産検索エンジンはすでに絶滅してるので、(日本人以外の人から見れば)おかしな発想に基づいた検索エンジンは存在しません。

.

¤ 関連 : 検索エンジン登録ページ | XMLサイトマップの作成 | Crawl-delayパラメータ | Yahoo!に登録されない | 画像検索SEO

.

Copyright © 2005-2012 Kpan. All rights reserved.