結局「robots.txt」ってなに？使う理由と基本の仕組みを解説

更新日: 2018年06月28日

検索エンジン・クローラー対策

ホームページを作成したからには、検索エンジンの検索結果で上位に表示されてほしいものです。検索結果でより上位にホームページが表示されることは、ページ内で紹介している商品やサービスをたくさんの方に紹介する機会につながります。

SEO対策は、Search Engine Optimization（サーチ・エンジン・オプティマイゼーション）の略語で、「検索エンジン最適化」を意味します。ホームページを検索結果で多く露出させるための施策であり、その策のひとつに、クローリングを最適化するrobots.txt（ロボットテキスト）があります。

本記事では、robots.txtがクローリングを最適化する理由、そして、robots.txtの基本となる書き方と確認方法をお伝えします。
　　　　　　　　　　　　　　　　　　　

robots.txtがクローリングを最適化する理由

robots.txtはクローリングを最適化する。この文章はよく目にしても、その理由をきちんと理解している方は少ないのではないでしょうか。そもそも、なぜ、クローリングを最適化する必要があるのでしょうか。

クローリングとは

検索エンジンには、一つひとつのサイトを巡って、ホームページ内の情報を収集するクローラーと呼ばれるロボットが存在しています。クローリングとは、クローラーが情報収集する作業を指し、ホームページがどんなテーマで構成されているのかなどの情報を集めます。
クローラーが収集した情報は、検索エンジンを提供する企業が自社のデータベースに登録し、独自のランキングアルゴリズムで判断します。その判断によって、検索表示されるキーワードや、そのキーワードでの検索順位を決めているのです。

まず、ホームページの内容をクローラーに読み込んでもらえなければ、検索結果に表示させるかどうかの判断もしてもらえません。ですので、クローラーがホームページを読み込みやすいように設計する必要があります。
クローリングを最適化することは、検索順位をあげるための第一歩といっても過言ではないでしょう。　

クローラーの特徴

いまや膨大な量のホームページが存在するインターネットの世界。クローラーは複数回に分けてクローリングを行い、できるだけ正確に情報を読み取ろうとします。
クローラーがホームページの情報を読み取る際の特徴として、以下の2点が挙げられます。

１.）クローラーは被リンクを経由してホームページに辿り着く

クローラーは被リンクを経由して、クローリングするホームページに辿り着きます。被リンクとは、他のサイトなどに貼ってもらった所有のホームページへのリンクです。Googleはリンクを「信認」と考えています。よって、被リンクを多く獲得しているページは、「多くのユーザーから信頼され評価が高い＝有益なページ」と捉えられています。有益なページから被リンクを獲得することは他のユーザーの信認があると見なされるため、被リンク元となるサイトが有益なページであればあれるほど、さらに高い評価へとつながるのです。
ユーザーにとって有益であり、質の高いサイトからの被リンクがあるページほど、上位表示されやすいといえるでしょう。

また、クローラーはホームページ内に貼られたリンク（内部リンク）から内部リンクへと移り、ホームページの情報を収集しようとします。検索結果で上位表示させたい大切なページなどは、内部リンクを設置しておくべきでしょう。

２.）クローリングには上限がある

クローラーは、一度の作業で全てのページの情報を収集できるわけではありません。クローリングを何回かに分けて繰り返していますが、各サイトに対してGoogleが設けているクローリング上限値「クロールバジェット」があります。
クロールバジェットを高めることは、検索順位に影響につながると考える方も多いようです。しかし、クロールバジェットはURLが際限なく増えていくような大規模サイト以外は気にする必要はありません。

クロールバジェットについて、より詳しく確認したい場合は、以下の記事を参照しましょう。
参考
クローラーってなに？SEOに絶対必要！サイトの情報を取得させ、検索結果に表示させよう｜ferret
　

クローリングを最適化させる意図

クローリングとは、Googleなど検索エンジンのクローラーがホームページの情報収集をすること。その作業を最適化させる意図とは、クローラーに読み取ってほしい情報をしっかりと伝えることです。
クローリングの最適化はクローラビリティを高めること、とも言い換えられます。クローラビリティとは、クローラーがホームページ内を巡回して情報を蓄える、その作業のしやすさを示しています。

そこで、有効手段のひとつとして活用したいのがrobots.txtです。ホームページ内にrobots.txtを設置することで、クローラーに読み取ってほしい情報と、読み取ってほしくない情報のふたつを伝えることができます。不必要な情報を排除して、意図したとおりにホームページ内の情報を吸い上げてもらうことで、特定のキーワード検索において上位表示の可能性が高まります。

効率的なインデックスにつながる

ユーザーが検索したときに、検索エンジンは数多存在するホームページの中から、必要な情報を瞬時に見つけ出してくれます。それは検索エンジンを運営する企業がホームページのデータを収集して、自社のデータベースに登録（インデックス）しているからです。

その登録作業をインデックスと呼び、SEO対策を取ろうにも、Googleなどの検索エンジンにインデックスしてもらえなければ意味がありません。robots.txtの正しい設置は、効率的なインデックスにつながります。それは、不必要なページのインデックスを防ぐこともできるということです。

robots.txtの正しい使い方

robots.txtの書き方

基本のrobots.txtを書く際、必要となるのは５つの項目です。
まずは何のために書くべき項目なのかチェックしてみましょう。

*User-agent（ユーザーエージェント）：*ホームページを訪れたユーザーが、どんな環境からアクセスしたかを示します。「User-agent:」の後ろに「＊」を挿入することで、全てのクローラーを受け入れることを意味します。
*Disallow（ディスアロウ）：*クローラーの作業を防ぎたいページを指定します。
*Allow（アロウ）：*クローラーの作業を受け入れるページを指定します。
*Sitemap（サイトマップ）：*クローラーのためのサイトマップの場所を指定します。　　サイトマップとは、ウェブページの構成のコンテンツを伝えるファイルです。

この５つの項目を使ったケーススタディを確認したい場合は、以下の記事を参照しましょう。
参考
内部対策SEO：robots.txtの正しい書き方｜ferret

robots.txtの確認方法

Google Search Console（グーグル・サーチ・コンソール）内で、robots.txtの管理、更新を簡単に行えるのが「robots.txtテスター」です。

Google Search Console内のrobots.txtテスター画面を開くと、ページ下部で指定したURLのクローリング可否状況を確認することができます。指定したURLが「Disallow（クローリングを許可しない」設定にある場合は、赤く表示されます。

実際の操作画面を見ながらrobots.txtテスターの操作を確認したい場合は、以下の記事を参照しましょう。
参考
内部対策SEO：robots.txtの正しい書き方｜ferret

robots.txtを書く上での注意点

robots.txtを書くうえで、最低限注意するべきことは次の２点です。

１.）ルートドメインに置く
robots.txtは、ホームページのルートドメインに設置しましょう。
クローラーは被リンクからホームページに辿り着き、内部リンクを移動します。また、正しいrobots.txtは有効なインデックスにつながることから、ルートドメインに設置するようにしましょう。
ferretを例に挙げてみると、ドメインが「ferret-plus.com/」なので、「ferret-plus.com/robots.txt」と設置してください。

２.）不必要なページを重視する
robots.txtは、クローラーに収集してもらう必要のない情報を示すことで、意図したとおりにホームページの特性を伝えることができます。robots.txtの「Allow」は「許可する」を意味し、クローラーに作業してほしいページを指定します。しかし、あくまでクローリングでは全てのページを読み取ることを前提としているので、何を「Disallow（許可しない）」のかを重視して書いていきましょう。

まとめ

robots.txtをホームページに設置することで、検索エンジンでの順位表記に関わるクローラーに「どんな情報を読み取ってほしいのか」、そして「読み取ってほしくない情報」のふたつを伝えることができます。
robots.txtを正しく使うことは、効率的なインデックスにつながります。これを機に,
robots.txtの設定と、意図したとおりに設置できているかを確認してみましょう。