t. +7 (495) 620-58-99
+7 (495) 620-58-99
Начнем знакомство?
Начнем знакомство?
/
/
Сколько статистики достаточно для анализа данных
Блог
3429
04.02.2021

Сколько статистики достаточно для анализа данных

В справке рекламных кабинетов можно часто найти фразу «Накопите достаточно статистики». А достаточно — это сколько? И как посчитать, когда приходит время делать выводы?

Представим ситуацию: мы запустили рекламную кампанию, установили оптимальную цену за клик и ждем, пока накопится статистика. Клиент уже обозначил, сколько готов платить за конверсию. Показателей мы пока не достигли, и спустя некоторое время хотим оптимизировать рекламу. Возникает вопрос: «А достаточно ли у нас данных, чтобы сделать правильные выводы?»

Отвлечемся от нашей рекламной кампании и обратимся к теории вероятностей. Предположим, что произошло событие — пользователь перешел к нам по рекламе. Мы знаем, что средний процент конверсий из этого рекламного источника — 1%. Мы можем представить это событие в простейшем выражении: 1% + 99% = 100%

Действительно, если пользователь перешел на наш сайт, 100% произойдет одно из двух — пользователь или совершит конверсию, или не совершит. А можно это выражение переформулировать вот так:

  • Мы можем утверждать с 99% уверенностью, что будет 0 конверсий, если был 1 рекламный переход.
  • Мы можем утверждать с 1% уверенностью, что будет 1 конверсия, если был 1 рекламный переход.
  • Мы можем утверждать со 100% уверенностью, что будет от 0 до 1 конверсии, если был 1 рекламный переход.

Нас интересует пункт 2. Я бы хотел угадывать чаще, чем 1 раз из 100. Кажется, что для этого нужно сделать больше переходов. Может дождаться, пока будет 100 переходов? На первый взгляд все просто: если через 100 переходов конверсий не будет, значит кампания работает плохо, и ее надо выключить, а если конверсии будут, компания рентабельна и работает отлично.

К сожалению, теория вероятностей здесь работает немного сложнее привычной арифметики. Попробуем привести 2 пользователя на сайт. Тогда возможных событий не 2, а уже 4:

  • Оба пользователя совершают конверсию 0,01 × 0,01 = 0,0001
  • Первый пользователь совершает конверсию 0,01 × 0,99 = 0,0099
  • Второй пользователь совершает конверсию 0,99 × 0,01 = 0,0099
  • Ни один пользователь не совершает конверсию 0,99 × 0,99 = 0,9801

Проверим корректность выражения:

0,01 × 0,01 + 0,01 × 0,99 * 2 + 0,99 × 0,99 = 1

Таким образом, вероятность того, что конверсии не будет, составляет 98,01%, а вероятность того, что случится 1 или 2 конверсии — 100% - 98,01% = 1,99%
Вероятность конверсии

Так работает простейшая теория вероятностей, чтобы рассчитать вероятность двух событий, нужно найти произведение событий. Этой информации нам достаточно, чтобы посчитать, какова вероятность совершения хотя бы одной конверсии 100 пользователями.

Рассчитаем вероятность того, что 100 пользователей не совершат ни одной конверсии:

0,99100 = 36,6%

Далее рассчитаем вероятность, что конверсий будет больше 0:

1 - 0,99100 = 63.4%

Переформулируем вывод: мы можем утверждать с 63,4% уверенностью, что будет минимум 1 конверсия, если было 100 рекламных переходов. Получается, что при 100 накопленных пользователях мы будем делать правильные выводы чуть чаще, чем в половине случаев.

Вероятность конверсии при 100 накопленных пользователях

Попробуем вывести универсальную формулу:

1 - (1 - CRvisits) = accuracy,

где CR — процент конверсий / 100%, visits — количество посетителей, accuracy — процент точности / 100%

Предположим, что мы хотим делать правильные выводы в 9 случаев из 10. Процент конверсий оставим тем же, тогда:

1 - (1 - 0.01)x = 0,9

(1 - 0.01)x = 1 - 0,9

x = 229,105

Таким образом, мы вывели формулу, которая позволяет определить, достаточно ли у нас накопленных данных для выводов и насколько точно мы это можем гарантировать.

Общий вид формулы:

required visits = log(1 - CR)(1 - accuracy)

Вернемся к вопросу, который мы задали сами себе в начале: «Когда же накопленной статистики достаточно?» Коротко можно ответить так: «Больше, чем кажется на первый взгляд.»