ホームページを作成したからには、検索エンジン検索結果で上位に表示されてほしいものです。検索結果でより上位にホームページが表示されることは、ページ内で紹介している商品やサービスをたくさんの方に紹介する機会につながります。

SEO対策は、Search Engine Optimization(サーチ・エンジン・オプティマイゼーション)の略語で、「検索エンジン最適化」を意味します。ホームページ検索結果で多く露出させるための施策であり、その策のひとつに、クローリングを最適化するrobots.txt(ロボット テキスト)があります。

本記事では、robots.txtがクローリングを最適化する理由、そして、robots.txtの基本となる書き方と確認方法をお伝えします。
                   

robots.txtがクローリングを最適化する理由

robots.txtはクローリングを最適化する。この文章はよく目にしても、その理由をきちんと理解している方は少ないのではないでしょうか。そもそも、なぜ、クローリングを最適化する必要があるのでしょうか。

クローリングとは

検索エンジンには、一つひとつのサイトを巡って、ホームページ内の情報を収集するクローラーと呼ばれるロボットが存在しています。クローリングとは、クローラーが情報収集する作業を指し、ホームページがどんなテーマで構成されているのかなどの情報を集めます。
クローラーが収集した情報は、検索エンジンを提供する企業が自社のデータベースに登録し、独自のランキングアルゴリズムで判断します。その判断によって、検索表示されるキーワードや、そのキーワードでの検索順位を決めているのです。

まず、ホームページの内容をクローラーに読み込んでもらえなければ、検索結果に表示させるかどうかの判断もしてもらえません。ですので、クローラーがホームページを読み込みやすいように設計する必要があります。
クローリングを最適化することは、検索順位をあげるための第一歩といっても過言ではないでしょう。 

クローラーの特徴

いまや膨大な量のホームページが存在するインターネットの世界。クローラーは複数回に分けてクローリングを行い、できるだけ正確に情報を読み取ろうとします。
クローラーがホームページの情報を読み取る際の特徴として、以下の2点が挙げられます。

1.)クローラーは被リンクを経由してホームページに辿り着く

クローラーは被リンクを経由して、クローリングするホームページに辿り着きます。被リンクとは、他のサイトなどに貼ってもらった所有のホームページへのリンクです。Googleリンクを「信認」と考えています。よって、被リンクを多く獲得しているページは、「多くのユーザーから信頼され評価が高い=有益なページ」と捉えられています。有益なページから被リンクを獲得することは他のユーザーの信認があると見なされるため、被リンク元となるサイトが有益なページであればあれるほど、さらに高い評価へとつながるのです。
ユーザーにとって有益であり、質の高いサイトからの被リンクがあるページほど、上位表示されやすいといえるでしょう。

また、クローラーはホームページ内に貼られたリンク内部リンク)から内部リンクへと移り、ホームページの情報を収集しようとします。検索結果で上位表示させたい大切なページなどは、内部リンクを設置しておくべきでしょう。

2.)クローリングには上限がある

クローラーは、一度の作業で全てのページの情報を収集できるわけではありません。クローリングを何回かに分けて繰り返していますが、各サイトに対してGoogleが設けているクローリング上限値「クロールバジェット」があります。
クロールバジェットを高めることは、検索順位に影響につながると考える方も多いようです。しかし、クロールバジェットはURLが際限なく増えていくような大規模サイト以外は気にする必要はありません。

クロールバジェットについて、より詳しく確認したい場合は、以下の記事を参照しましょう。
参考
クローラーってなに?SEOに絶対必要!サイトの情報を取得させ、検索結果に表示させよう|ferret
 

クローリングを最適化させる意図

クローリングとは、Googleなど検索エンジンクローラーがホームページの情報収集をすること。その作業を最適化させる意図とは、クローラーに読み取ってほしい情報をしっかりと伝えることです。
クローリングの最適化はクローラビリティを高めること、とも言い換えられます。クローラビリティとは、クローラーがホームページ内を巡回して情報を蓄える、その作業のしやすさを示しています。

そこで、有効手段のひとつとして活用したいのがrobots.txtです。ホームページ内にrobots.txtを設置することで、クローラーに読み取ってほしい情報と、読み取ってほしくない情報のふたつを伝えることができます。不必要な情報を排除して、意図したとおりにホームページ内の情報を吸い上げてもらうことで、特定のキーワード検索において上位表示の可能性が高まります。

効率的なインデックスにつながる

ユーザーが検索したときに、検索エンジンは数多存在するホームページの中から、必要な情報を瞬時に見つけ出してくれます。それは検索エンジンを運営する企業がホームページのデータを収集して、自社のデータベースに登録(インデックス)しているからです。

その登録作業をインデックスと呼び、SEO対策を取ろうにも、Googleなどの検索エンジンインデックスしてもらえなければ意味がありません。robots.txtの正しい設置は、効率的なインデックスにつながります。それは、不必要なページインデックスを防ぐこともできるということです。