robots.txtの正しい使い方

robots.txtの書き方

基本のrobots.txtを書く際、必要となるのは5つの項目です。
まずは何のために書くべき項目なのかチェックしてみましょう。

User-agent(ユーザーエージェント):ホームページを訪れたユーザーが、どんな環境からアクセスしたかを示します。「User-agent:」の後ろに「*」を挿入することで、全てのクローラーを受け入れることを意味します。
Disallow(ディスアロウ):クローラーの作業を防ぎたいページを指定します。
Allow(アロウ):クローラーの作業を受け入れるページを指定します。
Sitemap(サイトマップ):クローラーのためのサイトマップの場所を指定します。  サイトマップとは、ウェブページの構成のコンテンツを伝えるファイルです。

この5つの項目を使ったケーススタディを確認したい場合は、以下の記事を参照しましょう。
参考
内部対策SEO:robots.txtの正しい書き方|ferret

robots.txtの確認方法

Google Search Console(グーグル・サーチ・コンソール)内で、robots.txtの管理、更新を簡単に行えるのが「robots.txtテスター」です。

Google Search Console内のrobots.txtテスター画面を開くと、ページ下部で指定したURLのクローリング可否状況を確認することができます。指定したURLが「Disallow(クローリングを許可しない」設定にある場合は、赤く表示されます。

実際の操作画面を見ながらrobots.txtテスターの操作を確認したい場合は、以下の記事を参照しましょう。
参考
内部対策SEO:robots.txtの正しい書き方|ferret

robots.txtを書く上での注意点

robots.txtを書くうえで、最低限注意するべきことは次の2点です。

1.)ルートドメインに置く
robots.txtは、ホームページのルートドメインに設置しましょう。
クローラーは被リンクからホームページに辿り着き、内部リンクを移動します。また、正しいrobots.txtは有効なインデックスにつながることから、ルートドメインに設置するようにしましょう。
ferretを例に挙げてみると、ドメインが「ferret-plus.com/」なので、「ferret-plus.com/robots.txt」と設置してください。

2.)不必要なページを重視する
robots.txtは、クローラーに収集してもらう必要のない情報を示すことで、意図したとおりにホームページの特性を伝えることができます。robots.txtの「Allow」は「許可する」を意味し、クローラーに作業してほしいページを指定します。しかし、あくまでクローリングでは全てのページを読み取ることを前提としているので、何を「Disallow(許可しない)」のかを重視して書いていきましょう。

まとめ

robots.txtをホームページに設置することで、検索エンジンでの順位表記に関わるクローラーに「どんな情報を読み取ってほしいのか」、そして「読み取ってほしくない情報」のふたつを伝えることができます。
robots.txtを正しく使うことは、効率的なインデックスにつながります。これを機に,
robots.txtの設定と、意図したとおりに設置できているかを確認してみましょう。