t. +7 (495) 620-58-99
+7 (495) 620-58-99
Начнем знакомство?
Начнем знакомство?
/
/
Как машинное обучение помогает искать клиентов в сети
Блог
5713
21.03.2018

Как машинное обучение помогает искать клиентов в сети

Сегодня только ленивый не обсуждает такие модные термины, как машинное обучение, искусственный интеллект и нейронные сети. Компании словно соревнуются друг с другом, предлагая своим клиентам все новые продукты, паразитирующие на глобальном тренде. Все чаще в презентациях агентств можно встретить такие слова, как “data-driven”, “big data based”, “AI” и прочее. Мы, в Artox Media Digital Group, полностью поддерживаем стремление рынка быть технологичным и современным, но призываем не забывать о первоочередной роли любого решения на агентском рынке - увеличивать прибыль клиента. Именно такая технология была разработана нашими специалистами в партнерстве с компанией Biclast, которая специализируется на решениях с использованием технологий машинного обучения.

Существует 2 подхода, направленных на повышение эффективности таргетированной рекламы в интернете (таргетированная реклама - это любая кампания, которую можно нацелить на определенную аудиторию; сюда попадает и контекстная реклама в поисковых системах, и реклама в социальных сетях, и реклама через programmatic-платформы):

  1. Ретаргетинг
    Метод, при котором анализируется поведение пользователей на сайте, после чего аудитория рекламной кампании сужается до круга посетителей, поведение которых попадает под определенный паттерн. Это может быть как одиночное действие (положил товар в корзину), так и цепочка действий (был на сайте более 1 минуты и посмотрел не менее 3-х карточек товаров). Опираясь на личный опыт, маркетолог принимает решение считать таких пользователей максимально вовлеченными и готовыми к покупке. На основе этого в рекламной кампании выставляются настройки, позволяющие максимально влиять на этот сегмент пользователей. Это можно сделать, например, повышая для данной категории пользователей ставки в контекстной рекламе, либо догоняя их объявлениями на сайтах контекстно-медийной сети. Важно отметить, что в данном случае решение о признании какого-либо паттерна поведения пользователей индикатором готовности к покупке принимается человеком.
  2. Look-a-like
    Метод, при котором специально разработанный алгоритм анализирует поведение пользователей, совершивших определенное целевое действие на вашем сайте. Такие инструменты есть практически у всех крупных рекламных систем: ВКонтакте называет свой алгоритм «Похожие аудитории», у Яндекса есть «Крипта». Точных методов работы ни одна компания не раскрывает по понятным причинам, но общие принципы известны: специальные алгоритмы анализируют поведение пользователя в интернете (например, ВКонтакте изучает данные вашего профиля, подписки на определенные группы, контент, который вы лайкаете и шерите) и формируют группы пользователей, похожие друг на друга по определенным признакам. После этого остается только найти подходящую группу, которая по поведению похожа на ваших клиентов. Например, если вы продаете корма для животных, ВКонтакте проанализирует ваших покупателей и определит, что их объединяет, например, интерес к собакам, а потом покажет ваше рекламное объявление тем пользователям, которые интересуются собаками, но в вашем магазине пока ничего не купили. Таким образом, вы получите дополнительную аудиторию, которая с большей вероятностью может совершить заказ в вашем магазине. Важно отметить, что в данном случае поиск аудитории происходит полностью автоматически, участие человека в принятии решения не требуется.

Сила в синергии

Наши специалисты постоянно работают как с ретаргетингом, так и с look-a-like. Сильные и слабые стороны обоих механик нам хорошо известны. Ретаргетинг хорош тем, что он работает с «теплой» аудиторией, которая уже была на вашем сайте и знакома с брендом. Но его главным недостатком является то, что решение о том, какую аудиторию «догонять», принимает человек. Практика показывает, что задачу по выделению в большом количестве объектов узкого сегмента с оптимальными характеристиками современный компьютер решает гораздо быстрее и эффективнее человека. В машинном обучении эта задача называется классификацией и применяется повсеместно, начиная от распознавания текста на фото и заканчивая поиском новых галактик на снимках с телескопа Хаббл.

С другой стороны, look-a-like лишен проблем, связанных с человеческим фактором, но при этом он направлен на «холодную» аудиторию, и не всегда эффективен. Кроме того, сегодня этот механизм является черным ящиком – мы не знаем, по какому принципу рекламная система формирует похожую аудиторию, и не можем влиять на процесс подбора.

Для того чтобы максимально использовать сильные стороны обеих технологий и не зависеть от их недостатков, мы приняли решение разработать собственную технологию. Задача стояла следующим образом:

  • Найти среди всех посетителей сайта максимально целевую аудиторию (склонную к покупке).
  • Поиск выполнять через решение задачи классификации с использованием машинного обучения.
  • Иметь возможность видеть влияние различных характеристик пользователя на итоговую оценку и корректировать их при необходимости.
  • Иметь возможность таргетировать рекламные кампании по полученным данным.

Через два месяца разработки мы получили альфа-версию технологии ARTOX Prediction, которая решала все поставленные задачи. Кратко опишем принцип ее работы, не вдаваясь в технические детали.

Технология ARTOX Prediction

На первом этапе нам необходимо было получать сырые данные о каждом хите любого из посетителей сайта. Напомним, хитом в веб-аналитике называется любое действие пользователя – переход на другую страницу, клик по кнопке, оформление заказа и т.п. Также мы хотели знать максимум информации о каждом пользователе, из какого он региона, каким устройством пользуется, как часто бывает на сайте, сколько товаров и в каких разделах каталога просматривает. Типовые выгрузки из систем веб-аналитики нам не подошли – они предоставляют агрегированную информацию об определенной когорте пользователей: все визиты за 1 день, все пользователи из Москвы и т.п.

Получить сырую информацию о посетителях сайтов и всех их активностях нам помогла разработка команды Яндекс.Метрики под названием LogsAPI. Основная ее особенность в том, что она позволяет получать данные обо всех действиях клиентов на сайте в виде таблицы, где одной строчке соответствует один хит. Далее эту информацию можно загрузить в базу данных и обрабатывать с помощью алгоритмов машинного обучения, например, на языке Python. Именно так мы и поступили.
Для первоначального эксперимента мы выгрузили в базу данных всю статистику посещаемости сайта за 12 месяцев. В результате мы получили таблицу примерно на 4 миллиона строк. Аналитики радостно потирали руки, глядя на такой объем информации. К слову, каждая строка содержала несколько десятков столбцов, в которых хранилась информация об отдельных признаках каждого пользователя. Сегодня LogsAPI позволяет получать информацию по более чем 130 признакам каждого визита, начиная от разрешения экрана и заканчивая часовым поясом, установленным на компьютере пользователя. Полный список параметров визитов можно найти здесь, а список параметров отдельных хитов – вот здесь.
На следующем этапе мы передали все полученные данные алгоритму машинного обучения под названием градиентный бустинг. Это один из наиболее продвинутых на сегодняшний день алгоритмов, его усовершенствованная версия используется в Яндексе для ранжирования сайтов в поисковой выдаче и называется CatBoost. Перед специалистами была поставлена непростая задача:
  • Проанализировать всю информацию о пользователях, которые совершали покупки на исследуемом сайте.
  • С помощью градиентного бустинга найти общие паттерны поведения, то есть определить, какие именно характеристики объединяют всех покупателей.
  • Далее разработать алгоритм, который позволяет для каждого отдельного пользователя на основании его характеристик и поведения на сайте узнать вероятность того, что он совершит покупку.
  • И в конце концов найти среди пользователей, которые были на сайте, но ничего не купили тех, для кого вероятность совершить покупку будет максимальной.

Через 3 недели обучения и совершенствования алгоритма наши аналитики собрали отчет о проделанной работе. Вот несколько главных тезисов:

  • Из более чем 130 факторов, которые мы смогли выгрузить из LogsAPI, только порядка 30 имеют значение при определении вероятности покупки товара. Остальные на эту метрику никак не влияют.
  • Для прогнозирования вероятности покупки имеют значение только данные за последние 3 месяца. Использование более старых данных не улучшает точность прогноза, а в некоторых случаях даже ухудшает его.
  • Точность прогнозирования вероятности покупки, которой удалось достичь – 92%.
  • И наконец, самый неожиданный для нас тезис – только порядка 3% посетителей, которые были на сайте, но ничего на нем не купили, имеют достаточно высокую вероятность совершить покупку при следующем визите.
распределение пользователей сайта

Несколько важных инсайтов, которые удалось обнаружить в ходе исследования:

  • Чем чаще пользователь заходит на ваш сайт, тем выше вероятность покупки.
  • Вероятность покупки при первом визите крайне мала, чаще всего покупки совершаются в диапазоне от 3-го до 6-го визита за месяц.
  • Если пользователь не был на вашем сайте более трех месяцев, его паттерн поведения практически идентичен новому пользователю.
  • Количество страниц, просмотренных в процессе визита на сайт, практически не влияет на вероятность покупки. А вот количество страниц, просмотренных в процессе визита в рамках одной категории товаров, – влияет.
  • Существует четкая зависимость между временем и днем визита пользователя на сайт и вероятностью покупки.
тепловая карта

Стоит отметить, что подобные паттерны поведения пользователей характерны только для конкретного сайта – интернет-магазина радиоуправляемых игрушек. На каждом сайте зависимость вероятности покупки от поведения пользователей будет своя.

В итоге всех пользователей мы разделили на 4 группы в зависимости от вероятности покупки:

  • Excellent (hot clients) – 2% от общего числа зашедших на сайт пользователей, вероятность покупки выше 80%
  • Good (close to hot) – 11% от общего числа зашедших на сайт пользователей, вероятность покупки от 50% до 79%.
  • Standart (ordinary clients) – 36% от общего числа зашедших на сайт пользователей, вероятность покупки от 6% до 49%.
  • Bad (cold clients) – 50% от общего числа зашедших на сайт пользователей, вероятность покупки 5% и ниже.

После классификации пользователей нам открылась следующая картина:

  • 50% посетителей сайта никогда на нем ничего не купят.
  • 36% купят с низкой вероятностью, скорее всего только в том случае, если найдут крайне выгодное предложение по сравнению с конкурентами.
  • 11% заинтересованы в покупке, могут купить товар, если их подогреть небольшой скидкой.
  • 2% скорее всего купят товар при следующем визите на сайт.

Далее на основании этих групп были сформированы 4 сегмента в Яндекс.Метрике. Так как при выгрузке из LogsAPI доступен параметр ClickID, в дальнейшем мы можем каждому пользователю сопоставить его сегмент. Делается это с помощью загрузки параметров посетителей в меню счетчика Настройка.

загрузка сегмента

Мы использовали эти 4 сегмента посетителей, чтобы запустить на них ретаргетинг. Напомню, в данных сегментах находились люди, которые были на сайте, но при этом ничего не купили, и вероятность покупки для них согласно прогнозу нашего алгоритма была достаточно высокой. Кроме того, мы настроили 2 тестовых сегмента:

  • Пользователи, которые были на сайте, ничего не купили.
  • Пользователи, которые были на сайте, положили товар в корзину, но ничего не купили.

Данные группы пользователей впоследствии использовались как тестовые, чтобы сравнить полученные результаты. Тестирование проводилось ровно 1 неделю, в результате мы получили следующие показатели:

Очевидно, что пользователи из сегментов Excellent, Good и Normal показали более высокие показатели, чем тестовые группы. Причем, чем выше была вероятность покупки для группы пользователей, тем более высокие результаты она показывала. В целом, наша гипотеза подтвердилась: таргетинг на целевых пользователей, которых указал алгоритм ARTOX Prediction, оказался более эффективным, чем привычные схемы таргетинга, например, на пользователей, которые оформляли заказ, но не дошли до этапа оплаты.