これだけ読めば初心者でもA / Bテストを完全理解!

 デザインにおける意思決定のプロセスは、よく議論になりますね。一部のデザイナーは、他のデザイナーが選択しないデザインを行ったりしますが、それはなぜなのでしょうか。また、一部のデザインが他のデザインよりもうまく機能しているように見えることもありますが、それはなぜでしょうか。

 学術研究からスケッチ研究まで、デザインの世界はプロセスに魅了されています。最近のいくつかのトレンドは、グーグルとその41の青の色合いなどがあげられますね。
 リンクテキストに使用する青の2つの色合いのうち、どちらを使用するかを決定する際に、Googleは2つだけでなく、その間の39の青の色合いもテストしました。 こういった理論や根拠の確率は、多くの研究やデータに伴っております。

A / Bテストは価値を提供できますが、他の設計領域をおざなりにしてはいけません。

 しかし、なぜGoogleは41の青の色合いをテストしたのでしょうか。

 また、このGoogleが行った同様のアプローチは、あなたやあなたの組織にどのように役立つのでしょうか。

この記事では、A / Bまたは多変量テストについて説明します。それは、それが何であるか、なぜそれを行う必要があるのか、そしてその制限について、初心者の方にわかりやすいように解説いたします。

A / Bと多変量テストをまずは簡単に説明

 最も単純なA / Bテストは、何かの2つのバージョンを相互に比較して、どちらが最も成功しているかを発見する方法です。 何かというのは、画像、ボタン、見出し、などです。

 多変量テストは、3つ以上のバージョンが比較され、(多くの場合)より多くのバリエーションが含まれるA / Bテストの拡張です。 これにより、一度に複数の要素をテストし、それらがどのように相互作用するかをテストできます。

この投稿の残りの部分ではA / Bテストのみについて説明しますが、多変量テストでも原則は同じです。

なぜA / Bテストなのか

 A / Bテストの目的は、Webサイトまたはアプリを段階的に改善できるようにすることです。 現在のウェブサイトまたはアプリを1つ以上のバリエーションと比較することで、常にデザインを繰り返し、実際のユーザーがどう反応を起こすのかを観測し、検証できます。

 デザインの法則を知りたい方はこちら▼
 【5分で学習】人とテクノロジーを繋ぐインタラクションデザインの6つの原則

 A / Bテストでは、各テストで何が機能し、何が機能しなかったかに関する新しいデータが生成されます。何かが機能するたびに、これをWebサイトまたはアプリに採用し、デザインを改善していきます。

実世界でのA / Bテスト

 A / Bテストの使用方法とその機能をより理解するために、WhichTestWonなどのWebサイトで何百ものテスト例を見ることができます。

 上の図は、Highriseサインアップページのヘッドラインテストです。
 37 Signalは、登録ページの見出しを変更した後、コンバージョンを30%増加させたようです。

 上の図は、大人気ゲームSimCity5ですが、Sim City 5の立ち上げのために、注文ページを実験し、代替設計によってコンバージョンを43%増加させる方法を示しました。

基本的なA / Bテストのプロセス

1. どこをテストするか

 A / Bテストを実施するには、既存のWebサイトまたはアプリが必要ですね。(A / Bテストは、既存の製品の段階的な改善を促進するために行うので、再設計や新しい製品やサービスのテストには適していません)。

 ウェブサイトやアプリを使用して、探索したい領域を決定し、最終的には改善を試みる必要があります。

  • 分析:問題となるページを特定しましょう。例えば、ユーザー全員が同じページを終了しているなら、そのページに問題があるかもしれません。
  • ユーザビリティテストユーザビリティテストは、1つの領域または相互作用に問題があるかどうかをテストしましょう。新しい解決案をテストしたとして、それを踏まえて大規模にテストする必要があるかどうかも見極めます。
  • 直感または個人的な意見:何かがより良い可能性があるかを考え、データでこれを検証しましょう。代替案を試したい部分があるなら、それもリストアップする必要があります。

 テストを実施する場所を準備したら、次のステップです!

2. なにをテストするか

 A / Bテストの重要な側面の1つは、一度に1つの変数のみを変更することです。 一見、これは簡単な作業のように見えますが、多くの人は欲が出て複数の変数を追加してしまいがちです。
 たとえば、ボタンのテキストを変える場合をみてみましょう。

 あるいは、色を変えてみる。

 ふむふむ。いい感じですね!
 しかし、これらの両方を組み合わせて、異なるテキストと異なる色でボタンをテストすると、テストの価値が大幅に低下してしまいます。変数が2つになってしまいますね。

 これらの2つのボタンを相互にテストしても、パフォーマンスの違いの理由、つまりテキストの変更によるパフォーマンスの違いと、色の変更によるパフォーマンスの違いを説明することはできないのです。

A / Bテストを実施するには、変更を1つの変数に制限することが重要です!

 したがって、価値のあるA / Bテストを実施するには、変更を1つの変数に制限することが重要です。
 複数の変数を同時にテストする場合は、多変量テストを実行する必要があります。このテストでは、これらの複数の変数をテストして、各変更がどのような影響を及ぼしているかをよりよく理解できます。

 どのようなテストを行う場合でも、なにを追跡し、その主要な測定値(または指標)を理解して概要を説明する必要があります。
 ボタンの例の場合、ボタンをクリックした人の数を測定する可能性がありますし、見出しの変更などの場合は、直帰率やサイトでの時間を追跡することをお勧めします。
  A / Bテストを開始する前に、何を改善しようとしているのかを見定めましょう。

3. どうやってテストをするのか

なにをどこでテストするかを理解したと思いますので、次にどうやって行うのかを学習していきましょう!

 A / Bテストを可能にするアプリケーションは数多くあります。

 これらを使うと基本的なA / Bテストを行うことができますが、それぞれ追加機能が異なります。

 必要な開発作業や個人的な好みに応じて、ツールを複数使用することも多いです。適切なツールの選択は個人の状況によって異なるので、全部を一旦使ってみるのがいいかもですね。

4. テストの規模

 テストの方法もわかった。じゃあどのくらいテストをすればいいのかわからないですよね? 例えば、何人のユーザーでテストすればいいのでしょうか?
 一部のツール(Googleアナリティクスなど)では、元のバージョンを表示するユーザーと代替バージョンを表示するユーザー、テストの長さを設定することができません。 逆に言えば、プロセス全体を簡素化してくれいていますので、初心者にとって便利なツールです。

A / Bテストでは、適切な問題を解決しているかどうかはね、わからないんですよね。というか確証的ではないと言ったほうが正しいか。

 変数を自分で設定する場合は、テストの実行時間と、元のバージョンと代替バージョンを比較したいユーザーの割合の両方を検討する価値があります。

 リスクを嫌う組織で働いている場合は、ユーザーの5〜10%だけに代替案を提示したいと思うかもしれませんが、他の人は別の意見を持っているかもしれません。

 テストをどう分割するかとテストを実行する時間を決定する前に、結果が正確であると確信できるように、テストの大きさをどのくらいにする必要があるかを常に考えましょう。

 専門用語的には、統計的有意性、などと呼びます。95%以上の確実性、つまり偶然ではない結果で「変化がその結果を引き起こした」と言えるように、十分に大きなサンプルサイズを持つテストを行う必要があります。
 結果が統計的に有意であるかどうか、またはテストをより長く実行する必要があるかどうかを理解するのに役立つものは、オンラインにたくさん溢れています。

5. 分析と決定

 結果が出ました! テストを完了し、統計的に有意であることも確認できました!数値が得られました!
 こうなったら多くの人々は次のような結果を期待しています。

 しかし、現実はそんなに甘くなかった……。

 思ったような結果が得られなくても落胆する必要はありません。
 A / Bテストは、これらの段階的な改善を行うことです。
 改善されたというポジティブなデータが得られなかったとしても、何が機能し、何が機能しないかを自信を持って述べることができるため、テストを行う前よりも前に進んでいます。

A / Bテストの限界を理解する

 A / Bテストは最強力ですが、その弱点と限界を理解することも重要です。人気が高まっているにもかかわらず、A / Bテストはすべての企業を救うことができる特効薬ではないのです。
 A / Bテストはなにが不得意なのでしょうか。

  • 理由がわからない:A / Bテストは、何が機能し、何が機能しないかを理解するための素晴らしいツールです。しかし、なぜうまく機能するのかなどの理由を明確にすることができません。理由を明確にするためには、定性的なユーザー調査を実施する必要があります。これはデータをより深く理解するための重要な要素です。
  • ウェブサイトやアプリの大幅な再設計をテストができない:理論的には、ページデザイン全体を別のデザインと比較して、そのパフォーマンスに関するデータを取得することはできますが、そのデザインがパフォーマンスの変化を引き起こしている理由を証明することはできません。デザイン、コピー、リンク、なにが結果を導いているのか、演習とユーザー調査を組み合わせない限り、結果は無意味になってしまいます。
  • 適切な問題を解決しているかどうかがわからない:A / Bテストは段階的に行われるため、ウェブサイトやアプリを継続的に改善するためには強力なツールになり得ます。しかし、A / Bテストでは、適切な問題を解決しているかどうかはわかりません。A / Bテストを実施した場合、ホームページにテストを集中すると思いますが、サイトの別の領域が本当の問題かもしれません。これは、極大値として知られる概念です。

A / Bテストはあなたになにをもたらすのか?

 この記事を読んで、あなたがA / Bテストを開始するために必要な情報を入手できたと感じたなら幸いです。細部が異なる場合や、組織によって微妙に違いはありますが、全体的な原則は同じです。

 A / Bテストは、適切な方法で適切な理由で使用すると、優れたツールになります

 ただし、A / Bテストは、あらゆるデザイナーにとって1つのツールでしかないことを忘れないでください。グーグルの元ビジュアルデザインリーダーであるDoug Bowmanは、退職のメモの中で、グーグルの41色の青の逸話にも熱心に取り組んでいたことを記しています。

 A / Bテストは大きな価値を提供できますが、他の設計領域をおざなりにしてはなりません。