ウェブサイトやブログなどを運営している人の中には、検索エンジンにインデックスされてもらっては困るという人もいるでしょう。そこで、検索エンジンにインデックスされない方法をいくつか紹介します。
タグ挿入で検索エンジン避けする方法
タイトル通り、HTMLにタグを書き込んで検索エンジンを避ける方法です。
<!-- 検索エンジンに登録させる (ページ内のリンクを巡回しない) -->
<meta name="robots" content="index,nofollow">
<!-- 検索エンジンに登録させないようにする (ページ内のリンクを巡回する) -->
<meta name="robots" content="noindex,follow">
<!-- 検索エンジンに登録させないようにする (ページ内のリンク先も巡回しない) -->
<meta name="robots" content="noindex,nofollow">
<!-- ページ情報、リンク先情報の検索のすべてを拒否 (none=noindex+nofollow) -->
<meta name="robots" content="none">
<!-- ページ内の画像が検索対象となるのを拒否 -->
<meta name="robots" content="noimageindex">
<!-- ページ内の画像への直接リンクを拒否 -->
<meta name="robots" content="noimageclick">
<!-- 検索ロボットのアーカイブ (キャッシュ表示) を拒否 -->
<meta name="robots" content="noarchive">
<!-- 「google」のみ有効にするには以下のように「robot」を「googlebot」とします -->
<!-- Googleのページ情報収集、リンク先情報収集のすべてを拒否 -->
<meta name="googlebot" content="noindex, nofollow">
robots.txtで検索エンジン避けをする
こちらは robots.txt ファイルを作り、その中に内容を記述する事によって検索エンジンのデータベースに登録されないようにする方法です。ただし、強制ではないので、これを無視する検索エンジンもあるみたいです。
「Disallow」は「アクセス拒否」を表します。
逆に「アクセス許可」を表すのは「Allow」ですが「Disallow」と記述しなければ、自動的にアクセス許可と判定されるので、アクセスを許可させたい場合は書かなくても大丈夫です。
なお、robots.txtファイルは、そのサイトのトップに置かないといけないので
ディレクトリ形式のドメインの場合は robots.txt を使用することができません。
例:
○ http://www.abc.com/robots.txt
○ http://abc.my-website.com/robots.txt
× http://www.abc.com/~abcde/robots.txt
robots.txtの書き方
googlebot: Google
Slurp: Yahoo!
msnbot: MSN Live Search
moget: goo
ia_archiver: Internet Archive
Googlebot-Image: グーグルイメージ検索
Googlebot-Mobile: グーグルモバイル
Yahoo-MMCrawler: ヤフーイメージ検索
User-Agent: 対象のボット
Disallow: 登録を拒否するディレクトリ
Crawl-Delay: 巡回秒数
*: 任意の長さの文字にマッチ (アスタリスク記号)
$: 末尾文字マッチ (ドル記号)
例1. 全てのボットに対して 全てのディレクトリの登録を拒否する
User-Agent: *
Disallow: /
例2. 全てのボットに対して /test/ と /work/ の登録を拒否する
User-Agent: *
Disallow: /test/
Disallow: /work/
例3. goo と Google のボットに対して /himitsu/ と /cgi-bin/ の登録を拒否する
(複数入れるには空白行を挟むこと)
User-agent: moget
Disallow: /himitsu/
Disallow: /cgi-bin/
User-agent: Googlebot
Disallow: /himitsu/
Disallow: /cgi-bin/
例4. 全てのボットに対して、fooディレクトリ以下は登録を拒否するが /foo/bar.html と .gif のみ許可する。
User-agent: *
Disallow: /foo/
Allow: /foo/bar.html
Allow: /foo/*.gif$
Web の図書館ともいわれる Internet Archive のクローラー拒否もこれで可能です。
Internet Archive とは、1996年からインターネット上に存在するファイルを収拾し保管している非営利団体です。
半年から1年以上経過した物しか収拾されませんが、1996年から現在までに存在したありとあらゆるサイトのHTMLファイル、画像ファイルが保存され無償公開されています。
なので、インターネット上に半年から1年以上あるサイトは自動的に巡回されて収拾されている可能性が高く、閉鎖してしまったサイトを見たい場合には利用すると便利かもしれません。
ただ、自分のサイトの痕跡を跡形もなく消し去りたい場合は拒否しておいたほうが良いかもしれません。
Internet Archive から自分のサイトを削除するには robots.txt に以下を記述。
User-agent: ia_archiver
Disallow: /
まとめ
正直、試したことがないので全て効果があるかどうかは分かりません。大昔に調べてメモしておいたのものをそのまま記事にしたので…。ただ、自分が言えることは検索エンジンに拾われたくない内容はなるべくネット上に上げないようにするべきということくらいですかね。少なくともネット上に上げる前に慎重になるべきだと自分は思います。
コメント