過去公開されていたページだけど、更新されてしまい、もう見られない……。
そんな思いをしたことはないでしょうか。
  
"Wayback Machine"は過去のWebページを保存してるサービスで、保存されていればいつでもそのページをみることができます。

今回は Wayback Machineの使い方からWebページの登録方法、削除方法をご紹介します。
  

目次

  1. Wayback Machineとは
  2. Wayback Machineの使い方
    1. URL検索を利用する方法
    2. キーワード検索を利用する方法
  3. Wayback Machineにサイトの情報を登録する方法
  4. Wayback Machineからサイトの情報を削除する方法
    1. ドメイン単位でアクセスを制限する方法
    2. ディレクトリ単位でアクセスを制限する方法
    3. 個別ページのアクセスを制限する方法

Wayback Machineとは

Wayback Machineは、Internet Archiveによって保存された過去のWebページを閲覧できるツールです。運営資金は寄付でまかなわれており、ユーザーは完全無料で利用できます。

運営元のInternet Archiveは、1996年にアメリカのサンフランシスコで発足した非営利団体です。Webサイトのトラフィック情報を独自に収集するAlexa Internetの協力も得ながら、インターネット上の膨大なデータをクローリングし、2016年10月時点で2,790億を超えるページデータベースに保存しています。

保存しているのはWebサイトのみではなく、本、映画、ソフトウェア、音楽なども含まれ、全て無料で、「インターネット図書館」のコンセプトを体現しています。

Java Scriptを使った高度に動的なページなど、様々な理由で表示が不完全なこともありますが、1996年以降の保存データをインターネットから誰でも無料で閲覧できる、貴重なサービスです。
  

Wayback Machineの使い方

URL検索を利用する方法

7925_001.png
Internet Archiveのトップページや、Wayback MachineのトップページにあるWayback Machineの検索窓に、過去のページを閲覧したいサイトのURLを入力します。

7925_002.png
閲覧したい年をクリックすると、カレンダーが表示されますので、色付けされた日付でマウスオーバーします。

色は緑や水色などがあり、収集手段によって色わけされていますが、色が付いている日付はデータが存在するという点は同じです。

7925_003.png
閲覧したい時刻を選択します。

7925_004.png
ページが表示されます。最上部はWayback Machineのナビゲーションです。

URLの「 https://web-beta.archive.org/web/20150314210149/https://ferret-plus.com/ 」は
2015年3月14日21:01:49時点の https://ferret-plus.com/ページであることを表します。

ページ内のURLバナーリンクをクリックすれば、通常のサイトと同じように回遊できます。

キーワード検索を利用する方法

Wayback MachineはWebサイトトップページヘのリンクに使用されたキーワードを解析しているため、URL検索以外にも、キーワード検索を用いて利用できます。

キーワードを入力すると、関連するWebサイト一覧が表示され、一覧中のURLサムネイルをクリックすると、カレンダー表示に移動します。
  

Wayback Machineにサイトの情報を登録する方法

Wayback Machineは、システムで自動的にクローリングしたデータのほかに、ユーザーが手動で登録したデータも保存します。

7925_005.png
Wayback Machineのトップページ右下にある「Save Page Now」に登録したいページURLを入力し、「SAVE PAGE」ボタンをクリックします。

7925_006.png
読み込み後、「Page save as [URL]」と表示されれば登録完了です。

7925_007.png
インターネット上に公開した直後のページや、直前までパスワードをかけていたページなど、Wayback Machineに登録されておらずヒットするデータが存在しない場合、上記のようなページが表示されます。

ページ内の「Save this url in the Wayback Machine」のリンクをクリックすれば、「Save Page Now」から登録するときと同様にページを登録できます。
  

Wayback Machineからサイトの情報を削除する方法

Wayback Machineからサイト情報を削除する方法は、 info@archive.org 宛にメールで削除依頼する方法しか現状はありません。
ただし、メールは英語でやりとりしなければならず、サイトの所有者であることを証明しなければならないなど、少々ハードルの高い方法です。

また、削除する方法ではないですが、robots.txtでWayback Machineのクローラーをブロックすることで、情報を登録させないということも可能です。
robots.txtとは、検索エンジンクローラー(ロボット)のアクセスをコントロールするためのファイルです。基本的なrobots.txtの使い方は以下の記事も参考にしてください。

参考:
内部対策SEO:robots.txtの正しい書き方|ferret
  

ドメイン単位でアクセスを制限する方法

robots.txtというテキストファイルを作成します。メモ帳などで編集し、中身には以下を記述します。

User-agent: ia_archiver 
Disallow: / 

作成したファイルをWeb上にアップロードします。配置する場所はルートディレクトリ(最上位のディレクトリ)です。http://www.example.co.jp というサイトであれば、 http://www.example.co.jp/index.html というファイルが存在する場所で、アップロードが完了すると http://www.example.co.jp/robots.txt となります。
  

ディレクトリ単位でアクセスを制限する方法

ディレクトリ単位で制限するには、robots.txt内のDisallowの内容を書き換えます。例えば、fileというディレクトリをアクセス制限したい場合、以下のとおりです。

User-agent: ia_archiver 
Disallow: /file/ 

複数のディレクトリを対象にしたい場合は、改行して記述します。

User-agent: ia_archiver
Disallow: /file1/
Disallow: /file2/

  

個別ページのアクセスを制限する方法

ディレクトリよりさらに細かい単位で、個別のページのアクセスを制限する場合は、robots.txt内のDisallowの内容を以下のように書き換えます。例えば、fileというディレクトリ内のpage.htmlに対してアクセスを制限したい場合、以下のように記述します。

User-agent: ia_archiver
Disallow: /file/page.htm

  

まとめ

Wayback Machineを使えば、今使っているサービスの昔のWebページデザインなども見ることができます。そのサービスが、なぜデザインを変えたのか考えることもマーケティング力向上に役立ちます。ぜひ気になるページを入力してみてください。