Мнимые результаты сплит-тестов: когда статистическая значимость не имеет силы
Очень распространенный сценарий: в течение года бизнес проводит десятки A/B-тестов, и некоторые из них показывают выигрыш альтернативной версии страницы. Некоторые даже дают 25% прибыли. Однако, как только мы выкатываем изменения на сайт, мы уже не имеем ожидаемого увеличения выручки. Более того, после 12 месяцев конверсия остается примерно той же, что и до изменения. Как такое происходит?
Ответ таков: показатели роста конверсии были мнимыми. Того увеличения, с которым можно было бы начинать работать, не было. Да, ваш инструмент тестирования сказал, что статистическая значимость достигла 95% или даже больше. Что ж, не стоит сильно доверять этим данным. Статистическая значимость и валидность не одно и то же.
Статистическая значимость не дает сигнала к остановке теста
Когда ваш инструмент тестирования сообщает о достижении 95%-ного доверительного уровня, это не значит, что вы уже получили выигрышную версию.
Вот пример из практики агентства ConversionXL. После двух дней теста были получены следующие результаты:
Альтернативная версия сработала плохо – на 89% хуже оригинала. Инструмент-тестировщик говорит, что у нее нулевой шанс превзойти контрольную версию.
Это статистически значимый результат? Да, так и есть. Можете загрузить эти данные в любой калькулятор статистической значимости, и он покажет то же самое. Вот пример из
И это все? Тест можно сворачивать? Однако давайте дадим тесту еще немного времени. Вот какая картина наблюдалась уже через 10 дней:
Версия, у которой якобы был 0%-ный шанс победить контрольную, теперь побеждала с 95% статистической значимостью. Почему вдруг "100% значимость" и "0% шансов на победу" стали бессмысленными? Потому что таковыми они и являются.
Если вы закончите тест рано, всегда есть немалый шанс, что вы выберете неправильного победителя. На практике же множество компаний видят некоторые результаты и тут же внедряют изменения на 100% трафика, в то время как результаты эти оказываются мнимыми.
Но можно ли быть уверенным в результатах и через 10 дней? Стоит ли доверять этим 95%, или тест все еще не завершен? Выборка крайне мала: разница в числе конверсий составляет всего 19. Да, ситуация может измениться за какой-нибудь день.
Тон Весселинг (Ton Wesseling), основатель Testing Agency: "Остановка теста, как только достигнута величина статистической значимости, - это, можно сказать, смертельная ошибка в A/B-тестировании. 77% значимости для A/A-теста (страница против себя же) в определенный момент достигнет адекватного значения".
Итак, статистическая значимость не является правилом, и ей одной нельзя руководствоваться при принятии решения. Чем же тогда руководствоваться при анализе статистических данных? Ответ очевиден: математикой, а именно статистикой, и например, P-значениями (почитать об этом подробнее можно
Тем же, кто считает себя скорее маркетологом, чем аналитиком, можно посоветовать одно: проводите свои тесты дольше.
Проводите свои тесты дольше
Если вы прекратите свои тесты через несколько дней, вы рискуете получить неправильную оценку. И неважно, получаете ли вы 10 000 транзакций в день: абсолютное число сделок имеет значение, но чистое время также играет роль.
Мэтт Гершоф (Matt Gershoff) из Conductrics объясняет почему: "Одна из трудностей онлайн-испытаний заключается в том, что мы не контролируем свои группы пользователей. Проблемы могут возникнуть, если пользователи распределены по разному времени и дням недели, или даже сезонам. Конечно, нам хочется быть уверенными, что мы собрали данные по всем рабочим циклам. Более того, по каждому циклу хорошо бы пройтись пару раз, чтобы усреднить влияние сторонних событий, отклоняющих нашу статистику от среднего".
Тестировщики сообщают, что часто видят следующий сценарий:
· Первые пару дней: версия B выигрывает значительно (обычно в связи с фактором новизны);
· После недели № 1: версия B побеждает;
· После недели № 2: B по-прежнему выигрывает, но относительная разница меньше;
· После недели № 4: возвращение в прежнее состояние, разница исчезает.
Так что, если вы остановили тест раньше 4 недель (может быть, даже за несколько дней), вы будете уверены, что у вас есть выигрышная вариация, но на самом деле это не так. Так проявляется тот самый мнимый результат: вы видите увеличение конверсии на 25%, но на вашем банковском счете оно в итоге никак не отражается.
Поэтому проводите ваши тесты дольше: убедитесь, что они захватывают два бизнес-цикла, имеют достаточное количество переходов/сделок и продолжаются разумно долго.
Пример: мнимый подъем
Вот тест, который проводился агентством ConversionXL для некоторого интернет-магазина. Продолжительность составила 35 дней, целевая аудитория была представлена только пользователями настольных ПК, а количество сделок составило по 3000 транзакций на вариацию.
Забегая вперед, скажем, что тест завершился с практически нулевым различием между версиями.
Итак, в тесте выбирался вид кнопки призыва к действию. Давайте посмотрим теперь на результаты в динамике.
· Первая пара дней: вариант с синей кривой на графике (вариант №3) значительно опережает остальные ($16 за посетителя против $12,5 для контрольной). Многие люди заканчивают здесь и ошибаются.
· Через 7 дней: синий еще побеждает, и относительная разница велика.
· Через 14 дней: оранжевый (вариант №4) выигрывает!
· После 21 дней: оранжевый все еще побеждает!
· Конец: никакой разницы.
Итак, если бы вы завершили тест раньше, чем через 4 недели, вы бы неправильно определили победителя.
Правило остановки
Так когда считать, что тест исчерпал себя?
Увы, универсального ответ нет. Однако есть несколько правил, которые могут вывести вас на правильный путь.
· Продолжительность испытания должна составлять не менее 3 недель (лучше, если 4)
· Предварительно рассчитан минимально необходимый размер выборки (используйте инструменты:
· Статистическая значимость по крайней мере 95%.
Конечно, каждая ситуация должна рассматриваться индивидуально, однако эти советы помогут вам в большинстве случаев.
Если вы все еще сомневаетесь, какую продолжительность теста выбрать для вашего конкретного случая, можете провести сначала A/A-тест. Время, которое потребуется на выравнивание результатов, и будет оптимальным для ваших сайта и аудитории.
Тон Весселинг: "Маленькие изменения могут иметь большие влияния, НО большие влияния случаются редко. Поэтому вам нужно действительно значительное статистическое подтверждение, чтобы обнаружить это влияние на этих данных.
Однако важно не забывать, что люди могут удалять свои куки. Например, раз в 2 недели. И когда они вернутся на вашу страницу, они могут оказаться на другой версии, и так будет происходить все в большем числе экспериментов, пока это не "загрязнит" статистику. Поэтому желательно проводить тест не дольше 4 недель".
Что делать, если после 3 или 4 недели размер выборки все еще меньше 400 конверсий на версию?
Попробуйте все же продлить время теста. Добавьте еще неделю и постарайтесь добрать необходимое число конверсий.
Всегда проводите тест в течение полных недель, то есть если вы начали в понедельник, закончить нужно в воскресенье. Иначе в ваших данных может случиться перекос. При этом удобно пользоваться подневным отчетом, например:
Что мы видим здесь? Четверги делают в 2 раза больше выручки, чем субботы и воскресения, и конверсия также в 2 раза выше. Поэтому так важно завершать недельный цикл.
Держите сегменты в уме: то же самое правило остановки применяется для каждого сегмента
Сегментация является ключом к извлечению знаний из A/B тестов. Это очень распространенная ситуация, когда одна версия хоть и проигрывает по общему зачету, но срабатывает лучше для определенного сегмента аудитории (например, для Facebook-трафика, пользователей мобильных устройств и т.д.).
Но прежде чем вы сможете анализировать данные по сегментам, убедитесь, что у вас достаточная выборка. В идеале у вас должно быть 250-400 конверсий на вариацию И на сегмент.
Андре Морис (Andre Morys) из Web Arts, вероятно крупнейшего в мире CRO-агентства, так рассказал о своих правилах остановки: "Вам нужна репрезентативная выборка, чтобы ваши данные можно было считать валидными. Что это значит? Вам нужно включить все дни недели, все виды погоды (потому что погода влияет на поведение покупателей), но что самое главное – трафик должен быть представлен всеми каналами: письма, ТВ, специальные кампании – все! Чем дольше проходит тест, тем больше данных вы получите.
И еще: не вздумайте делать какие-либо выводы, если разница между версиями составляет 85 и 97 конверсий – это ерунда, такие результаты не значимы статистически".
Желаем успехов в сплит-тестах на ваших сайтах. Делитесь успехами и наблюдениями в комментариях.
Специально по материалам