robots.txtとクロール最適化 まとめ

robots.txtの役割

クローラーにインデックスしてほしくないページやディレクトリを知らせるためのもの。サイトマップ(sitemap.xml)を知らせる

クローラーがアクセスしてきた時に最初にrobots.txtを探し、見つかれば
その記述に設定されているそうです。(※例外もあり)

記述方法

1)制限したいクローラーを記述

すべてのクローラーが対象

Googlebotが対象

2)制限対象のディレクトリ又はファイル名

Disallow: ファイルorディレクトリ

backupというディレクトリを指定

wp-adminディレクトリ

.phpファイルを拒否

特に制限しない場合

3)サイトマップのURL

sitemap.xmlのURLを1行あけて記述

サンプル

User-Agent: *
Disallow: /

http://example.com/sitemap.xml

robots.txtの注意事項

いくつかのサイトにも記載されていましたが、

robots.txtは全てのWebクローラーに対して厳密に動作するわけではありません。

robots.txtに強制力はなく、お願いする程度の効果しか無いということ。

また、robots.txtはだれでもURLを直接たたけば閲覧可能なので、見られたく無いディレクトリが一目瞭然になります。
なので、プログラムの管理ページや個人情報を管理しているフォルダなどにはユーザー認証、SSL暗号化などの対策が必須です。

 

参考サイト

Googlebotを手懐ける!robots.txtの書き方とrobots.txtテスターの使い方

SNSでもご購読できます。