robots.txtとクロール最適化 まとめ

    robots.txtの役割

    クローラーにインデックスしてほしくないページやディレクトリを知らせるためのもの。サイトマップ(sitemap.xml)を知らせる

    クローラーがアクセスしてきた時に最初にrobots.txtを探し、見つかれば
    その記述に設定されているそうです。(※例外もあり)

    記述方法

    1)制限したいクローラーを記述

    すべてのクローラーが対象

    Googlebotが対象

    2)制限対象のディレクトリ又はファイル名

    Disallow: ファイルorディレクトリ

    backupというディレクトリを指定

    wp-adminディレクトリ

    .phpファイルを拒否

    特に制限しない場合

    3)サイトマップのURL

    sitemap.xmlのURLを1行あけて記述

    サンプル

    User-Agent: *
    Disallow: /

    http://example.com/sitemap.xml

    robots.txtの注意事項

    いくつかのサイトにも記載されていましたが、

    robots.txtは全てのWebクローラーに対して厳密に動作するわけではありません。

    robots.txtに強制力はなく、お願いする程度の効果しか無いということ。

    また、robots.txtはだれでもURLを直接たたけば閲覧可能なので、見られたく無いディレクトリが一目瞭然になります。
    なので、プログラムの管理ページや個人情報を管理しているフォルダなどにはユーザー認証、SSL暗号化などの対策が必須です。

     

    参考サイト

    Googlebotを手懐ける!robots.txtの書き方とrobots.txtテスターの使い方

      SNSでもご購読できます。