リスティング広告A/Bテストを繰り返し行う中で、何をもって成功とするのか、わからなくなる時はありませんか?
色々と変更しながらテストをする際に、何が成功要因なのか把握しづらくなってしまう時があります。
では、どうしたら広告A/Bテストの結果に確信が持てるようになるのでしょうか。

確信を持つために必要な要素はたった3つ

A/Bテストの結果の良し悪しを測るために必要なのは、この3つで十分です。

1.仮説
2.対象
3.母数

なぜこの3つなのか、以降で解説していきます。

1.【仮説】A/Bテストをする際、仮説立てをしていますか?

仮説は、ノーベル物理学賞を受賞したエンリコ・フェルミもその重要性を提唱しています。

「実験には2つの結果がある。もし結果が仮説を確認したなら、君は何かを計測したことになる。もし結果が仮説に反していたら、君は何かを発見したことになる。」

エンリコ・フェルミ(wikipdia)
「やってみなければわからない」と何も考えずにテストを行うだけでは、仮説の精度が上がらず広告の改善は進みません。仮説は立て続けることにより、必ず精度が上がってきます。大事なのは、”仮説を立て続けること”です。

2.【対象】A/Bテストをする時、テスト対象はちゃんと定まっていますか?

テストを行う時は、テスト対象を明確に定める必要があります。当たり前のことなのですが、リスティング広告の場合、KW・広告タイトル広告の説明文など、複数のテスト対象が存在するため、目的がぼやけてしまいがちです。。

広告内部を広告のタイトル・説明文をテストする場合

よくA/Bテストで陥りがちなのが、テスト対象が定まらずにテストするパターンです。

この図のように、一度に複数の変更を行うと何が検証対象になるのか不明確になってしまいます。1つのテストでは1つの対象に絞ってテストをしましょう。

設定キーワードをテストする場合

キーワードのA/Bテストにおいては、マッチタイプやアカウント構成の特徴から実はテストの結果が確信持てるものか確信が持てないものなのかでホームページの成長が大きく左右する要素です。

まずマッチタイプを選択。

キーワードのマッチタイプには、完全一致・フレーズ一致・部分一致と大きく分けて3パターンのマッチタイプが存在します。
完全一致<フレーズ一致<部分一致の順にKWの解釈が拡大し、ヒットするキーワードも増えます。
完全一致のものは対象キーワードが把握できるのですが、フレーズ一致であれば対象のキーワードはその単語をは含むキーワード層、部分一致であれば対象のキーワードと同じ意味合いのキーワードまで対象となります。

つまり完全一致<フレーズ一致<部分一致の順に不確定要素が大きくなるということです。

ですので、まず完全一致を行い、それをフレーズ一致、部分一致の広告グループやキャンペーンに展開する方法をおすすめします。

3.【母数】A/Bテストをする際、判断するのに十分なデータが蓄積されていますか?

A/Bテスト実行時、クリック数は担保できていますか?

統計学的には、母数は2,000取るのが望ましいと言われています。
ただ、2000の母数を取る前に明確な差が出る場合もありますので、その段階で成否を判断することも可能です。

訂正(2014/10/17):「統計学的には」という箇所に誤りがあるとご指摘頂きましたので訂正致します。
2000母数を取ると望ましいというのは、A/Bテストの統計データではなく、世論調査を行う際のサンプリング数の判断目安を根拠として明記しておりました。
一般的に統計処理方法に基づき1万人の世論調査に必要なサンプリング数は「1万人で1,300人、10万人でも1,500人」と計算できます。また、それ以上母数が増えた場合もサンプリング数は2000人以下でという結果になっています。

設定するゴールによって必要クリック数は変わってくるので、ここでは仮にゴールをコンバージョンと位置づけてみましょう。

コンバージョン(CV)数の母数とコンバージョン率(CVR)により必要なデータ数が違ってきます。

CVRが10%と仮定した場合

CV数が10の場合、クリック数は100と予想できます。
A/Bテストを行うので、測定対象は2つある前提です。
ですので、必要なCV数もクリック数も2倍となります。

200クリックで明確な判断ができれば、そこで次のテストに入ります。

CVRが1%と仮定した場合

CV数が10の目安のクリック数は1,000と予想できます。
こちらも対象が2つある前提なので、CV数もクリック数も2倍となります。
ですので、2000クリックで明確な判断ができれば、そこで次のテストに入ります。

ホームページの内容にもよる部分も大きいですが、AとBのパターンの明確な違いを引き出せるよう常に考えなければなりません。

時に少ないサンプル数でも判断ができるぐらい明確な差が出る場合もあります。
ある程度(※200クリック以上)のサンプル数があるならば、次の仮説を立て次のA/Bテストに入ってしまいましょう。